■ファッションブログの傾向性を擬似的に覗く
ブログ記事を使ったマルタンマルジェラの計量テキスト分析でも行いました、別名テキストマイニング。
文章を分類して計量化して分析することでなんらかの関係性や要因を抽出することを目的としています。
巷に溢れている文章を単語やフレーズに分ける。出現頻度や相関関係を分析する。文章の背後にある有用な情報を抽出する。
日本語は品詞から構成されていて、名詞、動詞、助詞、形容詞、副詞、接続詞、感動詞、助動詞といった単語のことです。文法上の性質、機能、形態、意味などで分類した区分のことです。
これを利用して、大量の文章をテキストとして計量化して、統計分析を施してみようというのがテキストマイニングです。難しいことはここでは書きません。結論から書いていき、なるべく簡単にこの分析の背景を述べたいと思います。
まずは、待てない人に結果発表。本ブログ、約270万語(多かった!)から抽出された語をインターネットのファッションブログの傾向性と擬似的に見た結果・・・、
1:本ブログで一番抽出された語は「ブランド」である
2:本ブログはおおまかに分類すると8種類のクラスターに分類される
それは「イベント」「商品情報」「商品イメージ」「ショップ」「海外のファッション動向」「売上ランキング」「ドラマの衣装協力」「ファッショントレンド」である
3:このうち、「ショップ」「商品情報」「ファッショントレンド」「ドラマの衣装協力」のクラスターが近いポジションにあることがわかった。
4:本ブログでは、「ファッション」という抽出語がほかの抽出された語に強いつながりを持ち、影響を与える親玉である可能性がある。
簡単に言うとこんな感じ。これから丁寧に説明していきますが、難しいことはなるべく省くのでお付き合いください。
そもそも本ブログの記事でテキストマイニングをする理由
インターネットにおけるファッショントレンド、流行というものは、現実世界とどの程度乖離があるか?これは、なかなかわかりづらいことですが、テキストの傾向で何か見えてこないだろうか?それが私の考えでした。
本ブログ以外でも、たくさんのファッションブログをサンプルとして使いたかったし、そもそもブログだけではなくwebマガジンもテキストを使いたかったのですが、実現性は低いですし、多くなると分析ができなくなる。1千万語以上のテキストは、ほとんどデータベース状態の量になりますので(汗)。ですので、恐縮ですが本ブログを使わせて頂きました。なるべく、私個人の考え、思いを省くように設定しましたが、完全ではないと思います。ですので、改善の余地はありますが、毎日流れるファッショントレンド、流行、ブランド情報の事柄を載せてきたつもりなので、その点、何か有意なものが可視化できたらと思います。
テキストマイニングを行うための方法と手続き
■分析に使用した記事
本ブログ全ての記事 6522個分
■操作化(分析ができるように記事をカスタマイズすること)
1:全記事をhtmlファイルとしてSeesaa引越し機能を使ってエクスポート。
2:htmlファイルをテキストファイルに変換する
3:テキストファイルになった文章の掃除。htmlタグなどの記号を消す。その後、ブログの題名「ブランドファッション通信」をヘッダーとして<H1></H1>ではさむ。さらに、6522記事分区切るためヘッダー<H2></H2>をすべてつける。これらの作業は、プログラミング言語の1つであるPerlで行った。
4:それをテキストファイルとして、テキストマイニングのフリーソフトkh coderを使用して前処理を行う。
5:語の取捨選択をする
kh coderにある「使用しない語の指定」から「僕、私、武欄堂、笑、書く、読む、自分、言う、出る、1つ、思う、考える」を省きました。何度も分析を繰り返した結果、これらのテキストが私の自分の思い、考えがほかのテキストとつながってしまうことが分かったので省きました。
6:以上から、kh coderを用いて文章の単純集計を行いました。その結果が以下。
総抽出語数 | 2748587 |
異なり語数(品詞の数) | 71618 |
文 | 209545 |
段落 | 135720 |
H2(記事数) | 6522 |
H1(ブログの数) | 1 |
抽出語と簡単な分析
■抽出された語ベスト150
kh coderから抽出語リストを出しました。そして、それを頻出150語(出てきたテキストランキングベスト150)が以下の通りです。
1位〜50位 51位〜100位 101位〜150位
1位は「ブランド」で9753回です。2位に「思う」なんですよね。一応使わないように設定したのですが、抽出するにあたり僕の考えとは別の意味で何か意味があるのか、ないのか・・・この辺難しい。
3位に「円」、4位に「ファッション」、5位に「セール」と続きます。ブランドでは「ユニクロ」が41位で登場。91位にマルタンマルジェラです。
抽出語数ランキング 763回から9753回に150語が集中。
これは出現回数(横軸)と文章数(縦軸)でグラフをプロットしたものです。「○」は、抽出語です。確かに、出現回数1000近くから9000くらいに集中していることが分かるかと思います。
■階層型クラスター分析からテキストを分類する
このように、抽出された語を、いくつかの塊(群)にしていくことをクラスター分析といいます。それで、本分析では8つにわかれました。 といっても、もうどこの家系図だよ!と突っ込みたいくらいの量ですよね(笑)。
クラスター分析の結果8つに分類することができました。ここからが、試行錯誤です。
この8つのクラスターに質的な名前をつけてあげます。
分類されているテキストの意味を踏まえ、「イベント」「商品情報」「商品イメージ」「ショップ」「海外のファッション動向」「売上ランキング」「ドラマの衣装協力」「ファッショントレンド」という8つのクラスターに名前をつけました。そして、この8つにどのくらい全記事の中に登場しているかを測ります。これをコーディングといいます。
売上ランキングが11.96%と低いですが、あとはかなり高い%となっていますので、今回は8つにしておきます。
さて、ここまでで、本ブログは、イベント、海外のファッション動向、商品イメージ、商品情報、ショップ、ドラマの衣装協力、売上ランキング、ファッショントレンドに関する記事で、構成されていることがわかりました。次では、さらに複雑な分析を行なっていきたいと思います。しかし、ご安心あれ。図表を大量し使いますから、視覚的に楽しめる結果発表です。
ここまででわかったこと。
1:本ブログで一番抽出された語は「ブランド」である
2:本ブログの記事から抽出したテキストをおおまかに分類すると、8種類になる
3:、「イベント」「商品情報」「商品イメージ」「ショップ」「海外のファッション動向」「売上ランキング」「ドラマの衣装協力」「ファッショントレンド」の8つクラスターにわかれた
では次では、さらに複雑な多変量解析というもので、抽出された語の重み付けの関係性を観ていきます。
【続き】本ブログ全記事270万語を使って計量テキスト分析をしてみた(2)
- 世界の有名ブランドの評判をTwitter..
- ファッションに関するつぶやき:何のワード..
- ファッションブランドのポジショニングマッ..
- 時系列解析で国内ファッション市場の形状を..
- Yahoo!オークションが「ヤフオク!」..
- 再度メンズファッションブランドのイメージ..
- メンズファッションブランドのイメージ分析..
- 1996年-2010年:国内洋服市場の推..
- 本ブログ全記事270万語を使って計量テキ..
- 分析:ネット上の日本のファッショントレン..
- ブログ記事を使ったマルタンマルジェラの計..
- 分析:wjkのデニムシャツの人気は特別な..
- 集計:本ブログ読者の好きなブランド
- ファッションと恋愛に関する統計分析(St..
- 分析:ファストファッションブランドのポジ..
- 偽ブランド品に対する消費者の本音・意識の..
- 分析:女性は男性のどこに惹かれるか?
- 分析:ファッションブランドのポジショニン..
- 実証分析「人は異性を意識してオシャレをす..
- 実証分析「人は異性を意識してオシャレをす..