オススメ記事・考察
【本ブログオススメの本・ムック】

■書籍:ファッション関連のムック・本

【芸能人のファッション情報】

■ドラマ衣装協力など:芸能人のドラマ衣装・ファッションまとめ, キムタクのファッションいろいろ

【穴場ショップと攻略法】

■アウトレットなど:穴場:サンヨーGBアウトレットのご紹介, 御殿場プレミアムアウトレットの攻略法

【考察記事】

■男性服を研究:「洋服の話」は必読の本, 脱オタとはなんだろう?
■アニメと服:ファッション誌とマンガ文化の調和における考察, エヴァンゲリオンはファッションとアニメの親善大使?
■学問的:ファッションの流行メカニズムと社会学, コムデギャルソンの哲学を考える, ブリトラの根底-ダンディズムとは叛逆精神, 1995年からのファッションを考える『拡張するファッション』
■音楽と服:服はなぜ音楽を必要とするのか, ファッションショーの音楽に生ライブが多くなった理由
■私的スーツ論:1着は持ちたい自分に合ったスーツの選び方 初級, 9万円以下でつくる脱オタファッション スーツスタイル編, 20代後半の安価なファッションスタイルを考察
■お手入れ:スーツのお手入れ大事なポイント, 大人のシャツとネクタイのバランス論, 良いネクタイとシャツを選ぶコツ
■社会問題: 正規品VS偽ブランド品の中でおきる消費者のジレンマ

【ネットオークションの極意】

■ヤフオク:ヤフーオークションで安くブランド品を落札する5つの鉄則, ヤフーオークションで高級スーツを安く落札する5つの鉄則
■ヤフオク2:ヤフオクのストアランキングで安く安全に取引する方法, オークション出品者の心理を探る
■セカイモン:sekaimon(セカイモン)で安く安全に落札・取引する方法
■サイズ関連:通販で失敗しないために憶えておきたい知識

【運も味方,激安で服をゲットする方法】

■高級靴:50,000円以下の高級靴特集
■高級鞄:40,000円台以下の高級革使用のビジネスバッグ特集
■超裏技:D&Gのスーツを4000円で手に入れる方法
■力技:21,000円以内で高級スーツ6点セットを手に入れる方法

【Marketing】

■ブランド論:made in Italyが強い理由, 「銀座」というブランドイメージを再考察, ファッションの「定番」は時代とともに変化するのか, ココ・シャネルで学ぶブランドマーケティングの基礎
■fashion marketing:エディ・スリマンに聞くファッション業界の未来, 繊維産業の課題と希望, これまでのユニクロの勝因は何なのか?日本とアメリカの考察を比較,ファッションのPR活動の未来,
■消費者の服と心理:格差社会と言われてから今日までのファッション市場のあらまし,英国が考察する、日本経済とファッション消費への価値観の変化,英国考察:ファストファッションは今後消滅していくだろう,英国「日本の若者は高級ブランド品に対して財布の紐を閉めている」, ファッションのPR活動の未来,服を定価で買うのが馬鹿らしいのは、ワクワク感がないから

【メゾンマルタンマルジェラ特集】

メゾンマルタンマルジェラのカルトブランド力と3つの課題, メゾンマルタンマルジェラへのインタビュー全訳,ブログ記事を使ったマルタンマルジェラの計量テキスト分析

【その他特集いろいろ】

■モテ:女性にモテるスーツの着こなし
スニーカートレンド2011
■ルイヴィトン:ルイヴィトンの質屋特集
【全国のセレクトショップ特集】

■リアルショップ:東京のセレクトショップ特集, 札幌のセレクトショップ特集, 名古屋のセレクトショップ特集, 福岡のセレクトショップ特集, 仙台のセレクトショップ特集, 金沢のセレクトショップ特集, 神戸のセレクトショップ特集, 大阪のセレクトショップ特集, 京都のセレクトショップ特集, 全国のアイウェアのショップ特集
■ネットショップ:全国ネットショップ(オンラインショップ)特集
スポンサード リンク




2011年11月27日

本ブログ全記事270万語を使って計量テキスト分析をしてみた(1)

■ファッションブログの傾向性を擬似的に覗く

ブログ記事を使ったマルタンマルジェラの計量テキスト分析でも行いました、別名テキストマイニング。
文章を分類して計量化して分析することでなんらかの関係性や要因を抽出することを目的としています。

巷に溢れている文章を単語やフレーズに分ける。出現頻度や相関関係を分析する。文章の背後にある有用な情報を抽出する。

日本語は品詞から構成されていて、名詞、動詞、助詞、形容詞、副詞、接続詞、感動詞、助動詞といった単語のことです。文法上の性質、機能、形態、意味などで分類した区分のことです。

これを利用して、大量の文章をテキストとして計量化して、統計分析を施してみようというのがテキストマイニングです。難しいことはここでは書きません。結論から書いていき、なるべく簡単にこの分析の背景を述べたいと思います。

まずは、待てない人に結果発表。本ブログ、約270万語(多かった!)から抽出された語をインターネットのファッションブログの傾向性と擬似的に見た結果・・・、


1:本ブログで一番抽出された語は「ブランド」である

2:本ブログはおおまかに分類すると8種類のクラスターに分類される

それは「イベント」「商品情報」「商品イメージ」「ショップ」「海外のファッション動向」「売上ランキング」「ドラマの衣装協力」「ファッショントレンド」である

3:このうち、「ショップ」「商品情報」「ファッショントレンド」「ドラマの衣装協力」のクラスターが近いポジションにあることがわかった。

4:本ブログでは、「ファッション」という抽出語がほかの抽出された語に強いつながりを持ち、影響を与える親玉である可能性がある。



簡単に言うとこんな感じ。これから丁寧に説明していきますが、難しいことはなるべく省くのでお付き合いください。






そもそも本ブログの記事でテキストマイニングをする理由


インターネットにおけるファッショントレンド、流行というものは、現実世界とどの程度乖離があるか?これは、なかなかわかりづらいことですが、テキストの傾向で何か見えてこないだろうか?それが私の考えでした。

本ブログ以外でも、たくさんのファッションブログをサンプルとして使いたかったし、そもそもブログだけではなくwebマガジンもテキストを使いたかったのですが、実現性は低いですし、多くなると分析ができなくなる。1千万語以上のテキストは、ほとんどデータベース状態の量になりますので(汗)。ですので、恐縮ですが本ブログを使わせて頂きました。なるべく、私個人の考え、思いを省くように設定しましたが、完全ではないと思います。ですので、改善の余地はありますが、毎日流れるファッショントレンド、流行、ブランド情報の事柄を載せてきたつもりなので、その点、何か有意なものが可視化できたらと思います。






テキストマイニングを行うための方法と手続き

■分析に使用した記事

本ブログ全ての記事 6522個分

■操作化(分析ができるように記事をカスタマイズすること)

1:全記事をhtmlファイルとしてSeesaa引越し機能を使ってエクスポート。

2:htmlファイルをテキストファイルに変換する

3:テキストファイルになった文章の掃除。htmlタグなどの記号を消す。その後、ブログの題名「ブランドファッション通信」をヘッダーとして<H1></H1>ではさむ。さらに、6522記事分区切るためヘッダー<H2></H2>をすべてつける。これらの作業は、プログラミング言語の1つであるPerlで行った。

4:それをテキストファイルとして、テキストマイニングのフリーソフトkh coderを使用して前処理を行う。

5:語の取捨選択をする
kh coderにある「使用しない語の指定」から「僕、私、武欄堂、笑、書く、読む、自分、言う、出る、1つ、思う、考える」を省きました。何度も分析を繰り返した結果、これらのテキストが私の自分の思い、考えがほかのテキストとつながってしまうことが分かったので省きました。

6:以上から、kh coderを用いて文章の単純集計を行いました。その結果が以下。

総抽出語数 2748587
異なり語数(品詞の数) 71618
209545
段落 135720
H2(記事数) 6522
H1(ブログの数) 1









抽出語と簡単な分析



■抽出された語ベスト150

kh coderから抽出語リストを出しました。そして、それを頻出150語(出てきたテキストランキングベスト150)が以下の通りです。

1位〜50位 51位〜100位 101位〜150位

20111126021503

1位は「ブランド」で9753回です。2位に「思う」なんですよね。一応使わないように設定したのですが、抽出するにあたり僕の考えとは別の意味で何か意味があるのか、ないのか・・・この辺難しい。
3位に「円」、4位に「ファッション」、5位に「セール」と続きます。ブランドでは「ユニクロ」が41位で登場。91位にマルタンマルジェラです。

抽出語数ランキング 763回から9753回に150語が集中。
 
20111126022656 

これは出現回数(横軸)と文章数(縦軸)でグラフをプロットしたものです。「○」は、抽出語です。確かに、出現回数1000近くから9000くらいに集中していることが分かるかと思います。









■階層型クラスター分析からテキストを分類する


20111126025107

このように、抽出された語を、いくつかの塊(群)にしていくことをクラスター分析といいます。それで、本分析では8つにわかれました。 といっても、もうどこの家系図だよ!と突っ込みたいくらいの量ですよね(笑)。
クラスター分析の結果8つに分類することができました。ここからが、試行錯誤です。
この8つのクラスターに質的な名前をつけてあげます。 


分類されているテキストの意味を踏まえ、「イベント」「商品情報」「商品イメージ」「ショップ」「海外のファッション動向」「売上ランキング」「ドラマの衣装協力」「ファッショントレンド」という8つのクラスターに名前をつけました。そして、この8つにどのくらい全記事の中に登場しているかを測ります。これをコーディングといいます。

20111126125829

売上ランキングが11.96%と低いですが、あとはかなり高い%となっていますので、今回は8つにしておきます。

さて、ここまでで、本ブログは、イベント、海外のファッション動向、商品イメージ、商品情報、ショップ、ドラマの衣装協力、売上ランキング、ファッショントレンドに関する記事で、構成されていることがわかりました。次では、さらに複雑な分析を行なっていきたいと思います。しかし、ご安心あれ。図表を大量し使いますから、視覚的に楽しめる結果発表です。

ここまででわかったこと。

1:本ブログで一番抽出された語は「ブランド」である
2:本ブログの記事から抽出したテキストをおおまかに分類すると、8種類になる
3:、「イベント」「商品情報」「商品イメージ」「ショップ」「海外のファッション動向」「売上ランキング」「ドラマの衣装協力」「ファッショントレンド」の8つクラスターにわかれた

では次では、さらに複雑な多変量解析というもので、抽出された語の重み付けの関係性を観ていきます。

【続き】本ブログ全記事270万語を使って計量テキスト分析をしてみた(2)



posted by No.9 at 20:16 | Comment(0) | TrackBack(0) | 分析(統計解析) | 更新情報をチェックする
この記事へのコメント
コメントを書く
お名前:

メールアドレス:

ホームページアドレス:

コメント:


この記事へのトラックバック