■センチメント分析を試みる
Twitter分析第2弾。第1弾は、「ファッション」というワードがあるツイートを集めて、どのワードがともに出てくるかという頻度分析を行いました。今回は、もう少し込み入った内容ですが、面白いと思います。
センチメント分析とは、集めてきたツイートがネガティブなことを言っているのか、ポジティブなことを言っているのかをコンピュータに判断させて、点数を付けます。最大で-6~6点の範囲です。例えば、グッチについてのツイートだけを集めて、ネガティブかポジティブかを判断。その点数のテーブル、平均、中央値、ヒストグラムで表記することによって、全体のツイート評価をしてみます。ちょうどソーシャルリスニングの勉強もしているので、Twitterいじるのは面白いです。
使ったのはTwitterのAPIを統計分析ソフト「R」上で叩いて集計しました。今回は、英語のツイートですので世界規模です。グッチ、ルイヴィトン、エルメス、シャネル、サン・ローラン、ディオール、バーバリー、プラダ、コムデギャルソンについてのツイートを使いました。
それぞれ無作為抽出で、1500ツイートずつ。予め「R」に学習をさせておいて、ネガティブな内容かポジティブな内容かを判別させるようにしておくことをしました。結果が以下のようになりました。
【グッチ】
点数表 : -3 -2 -1 0 1 2 3
頻度: 3 28 480 829 132 24 4
平均:-0.2353333
中央値: 0
点数表はテーブルみたいなもので、グッチの場合-3から3までの間で収まったようです。頻度と一緒に見て頂ければ1500ツイート中、-3が3ツイート、-2が28ツイート、-1が480ツイートとなっています。マイナスはネガティブなツイート、プラスはポジティブなツイートです。
平均は、全ての点数を足して1500で割った数値。中央値は、1500個分のツイートの点数を小さい順に並べたとき中央に位置する値。その下は、ヒストグラム。データの分布状況を視覚的に認識するために用いています。以下、同じ要領で見ていきます。
ちなみに、グッチはポジティブでもネガティブでもないツイートが一番多く、次に-1のネガティブなツイートが多いです。
【ルイヴィトン】
点数表: -3 -2 -1 0 1 2 3 4
頻度: 5 25 158 894 271 122 24 1
平均:0.2453333
中央値:0
ルイヴィトンは、ポジティブでもネガティブでもないツイートが一番多く、次に1のポジティブなツイートが多いです。
【シャネル】
点数表: -3 -2 -1 0 1 2
頻度: 1 11 260 1141 72 15
平均:-0.122
中央値:0
シャネルは、ポジティブでもネガティブでもないツイートが一番多く、次に-1のネガティブなツイートが多いです。
【エルメス】
点数表: -5 -4 -3 -2 -1 0 1 2 3 4
頻度: 1 1 1 11 229 1109 116 23 7 2
平均: -0.048
中央値: 0
エルメスは、ポジティブでもネガティブでもないツイートが一番多く、次に-1のネガティブなツイートが多いです。
【サン・ローラン】
点数表: -2 -1 0 1 2 3 4
頻度: 1 281 217 608 256 99 38
平均:0.8573333
中央値:1
サン・ローランは、1のポジティブなツイートが一番多く、次に-1のネガティブなツイートが多いです。比較的、評価がばらけていますね。中央値が1というのも注目に値するかと思います。
【バーバリー】
点数表: -3 -2 -1 0 1 2 3
頻度: 1 5 354 943 148 46 3
平均:-0.07866667
中央値:0
バーバリーは、ポジティブでもネガティブでもないツイートが一番多く、次に-1のネガティブなツイートが多いです。
【プラダ】
点数表: -2 -1 0 1 2 3 4
頻度: 8 129 1289 64 7 2 1
平均: -0.038
中央値: 0
プラダは、ポジティブでもネガティブでもないツイートが一番多く、次に-1のネガティブなツイートが多いです。
【コムデギャルソン】
点数表: -3 -2 -1 0 1 2 3
頻度: 1 3 86 1283 119 7 1
平均: 0.02733333
中央値:0
コムデギャルソンは、ポジティブでもネガティブでもないツイートが一番多く、次に-1のネガティブなツイートが多いです。
ヒストグラムを見て頂ければ分かるように、正規分布に近い形状が多いですね。正規分布というのは、平均値の付近に集積するようなデータの分布を表したものです。
一方、サン・ローランがバラけているという点は面白くて、意見を持っているツイートが多いということです。賛否両論といったところでしょうか。
有名ファッションブランドとして上記を選んでみましたが、多くは「0」。つまり、ブランドに対してネガティブでもポジティブでもないツイートが多い傾向にあることです。 まだまだTwitterは、遊べますね。何かあればまた分析してみたいと思います。
【関連】
ブランドファッション通信: 分析(統計解析)
【話題】
キムタク主演「HERO」の衣装協力
ドラマ「HERO」で北川景子着用のトートバッグは、CHARLES & KEITH
ドラマ「HERO」第2話の衣装協力
ドラマ「HERO」第3話の衣装協力:赤いポロシャツはルードギャラリー
ドラマ「HERO」第4話の衣装協力
【リンク】 Oki-niがMAX80%OFFをさらに15%OFF
- ファッションに関するつぶやき:何のワード..
- ファッションブランドのポジショニングマッ..
- 時系列解析で国内ファッション市場の形状を..
- Yahoo!オークションが「ヤフオク!」..
- 再度メンズファッションブランドのイメージ..
- メンズファッションブランドのイメージ分析..
- 1996年-2010年:国内洋服市場の推..
- 本ブログ全記事270万語を使って計量テキ..
- 本ブログ全記事270万語を使って計量テキ..
- 分析:ネット上の日本のファッショントレン..
- ブログ記事を使ったマルタンマルジェラの計..
- 分析:wjkのデニムシャツの人気は特別な..
- 集計:本ブログ読者の好きなブランド
- ファッションと恋愛に関する統計分析(St..
- 分析:ファストファッションブランドのポジ..
- 偽ブランド品に対する消費者の本音・意識の..
- 分析:女性は男性のどこに惹かれるか?
- 分析:ファッションブランドのポジショニン..
- 実証分析「人は異性を意識してオシャレをす..
- 実証分析「人は異性を意識してオシャレをす..