■ブログ記事の背後にある、マルタンマルジェラの関連性の可視化の試み
せっかくブログを書かせて頂いているので、それを使ってなんか面白い分析ができないかと思ったらテキストマイニングを思い出しました。テキストマイニングとは、形態素解析、計量テキスト分析なんて呼ばれたりします。簡単に言うと、巷に溢れている文章を単語やフレーズに分けて、出現頻度や相関関係を分析し、文章の背後にある有用な情報を抽出することを目的としたもので、昔ならソフトに数十万円かかったものです。しかし、今日ではオープンソースとしてフリーソフトが手に入ります。有難いですね。
有名どころで、RMeCabとKH Coderがあります。今回は、KH coderを使用させて頂きます。今後は、RMeCabとPerlを使用して本ブログだけでなく、有名ブログをいくつか対象にさせて頂いて、ブログが表現するファッションや流行について調査、分析にかけようと思っています。今回は、その第1弾として本ブログが特集したマルタンマルジェラの記事を使用してテキストマイニングを行ってみようと思います。対応分析、階層的クラスター分析、共起ネットワークの3つご紹介しますが、難しく考えないでください。本ブログの記事では、こんな結果が出てきたよーん、という感じで図示されるので分かりやすいです。難しい計算も出しません。
【分析手続き】
●分析に使用した記事
マルタンマルジェラの新デザイナー就任とブランド力の関係性その1
これらの記事は、海外メディアの記事を翻訳したものが多く、私の意見がなるべく入らないものを選びました。 とはいえ、僕が書いているので、書き方の癖や考えが少し入ってしまっているのはご了承くださいませ。
●操作化
この記事を、1つのテキストファイルにまとめてヘッダーをつけます。HTMLマーキングです。階層的に表題、節題、本文という具合に<H1></H1>ではさみます。4つの記事を3つの表題<H1><H/1>で分類して1つにまとめました。KH Coderで「前処理の実行」を行い、抽出語リストを出す。すると、以下のように抽出語数6031のなかに、どの「品詞」がどの回数出てきているかが一目瞭然になります。
「ブランド」、「カルト」という「名詞」が多いです。また、「メゾンマルタンマルジェラ」「マルタンマルジェラ」「マルジェラ」「Margiela」が未知語として抽出されているので、同じ意味であることをルールとして設定します。これを行ったらいよいよ分析へ。
【テキストマイニング】
●対応分析(抽出語の出現パターンの似通った語を布置)
それぞれの品詞のポジショニングマップです。赤地は表題<H1></H1>です。被っちゃっている抽出語がありますがご了承のほどを。
(成分1)の正1.5あたりのほうには、「カルト」「儀式」「コミュニティ」「不可視」「戦略」「business」というキーワードが抽出されています。(成分2)のほうでは距離がありますが。マルタンマルジェラのバックボーンのような解釈でよいのでしょうか。負-1.0のほうには「服」「創造」「表現」「ライン」「ラベル」「ファッション」「パリ」といった表の表現を表すキーワードが抽出されています。すべての中央に「マルタンマルジェラ」「新しい」「方法」「ブランド」が布置されています。なお、マルタンマルジェラとマルジェラは、上述のようにルールを作って「=」に設定したのですが。2つに分かれています。 これはデザイナーとしての「マルジェラ」と、メゾンとしての「マルタンマルジェラ」の違いが出てきたかもしれません。
●階層的クラスター分析(抽出語の出現パターンの似通った語の組み合わせ)
7つに分類することができました。
上2つは、マルタンマルジェラのバックボーン、イメージを表す抽出語が分類されています。一番上がマルジェラの存在感。カルト、宗教、不可視など。2つ目は、デザイナーマルタンマルジェラそのもの。この上から2つ目のクラスターの中で「マルタンマルジェラ - ブランド」「マルジェラ - デザイナー - 思う」となっています。先ほどの対応分析にあったようにマルタンマルジェラは「ブランド」でマルジェラは「デザイナー」であることが分析結果から出ているのがわかります。
3つ目は、マルタンマルジェラがエルメスのデザイナー時代にお世話になったエルメス元会長のデュマ氏の存在。その下にはマルタンマルジェラのデザイン、プロダクト、デザインチームの考えといった要因が抽出されているように思われます。
●共起ネットワーク(抽出後の共起関係を図示。太い線ほど共起関係が強い。円が大きいほど出現数の多い語。共起という意味については、Weblio辞書を参照のこと)
◎ネットワークの中心性の測定と抽出語の頻度
結果はいかにもネットワーク!という感じでカッコイイです。共起とは、自然言語処理の分野において、任意の文書や文において、ある文字列とある文字列が同時に出現することを意味しています。これは、対応分析のように「抽出語」が近ければ関係性が強いというわけではなく、あくまで「線」でつながっていることが重要。その太さがあるほど共起関係が強い。また円が大きいほど多く抽出されたワードであることが分かるようになっています。カラーは、水色、白、ピンクの順にネットワークの中心性を意味しています。以上のことを踏まえて出力されたネットワークをご覧ください。
ノード(円)が大きいのは予想はつきますが、「マルタンマルジェラ」というワードです。そして、「思う」というノードを媒介して「マルジェラ」「デザイナー」「カルト」「世界」と共起しています。特に「マルジェラ」と「思う」、「デザイナー」と「思う」の間には強い共起関係があることが線の太さで分かります。
さて、もう1つ大きな特徴として、ネットワークの中心性が強いのはピンクの「人々」「新しい」「デザイン」「方法」「コミュニケーション」というネットワークと、「パリ」「女性」「感じる」です。「マルタンマルジェラ」というノードは、あくまで結果かもしれないということかもしれない。つまり、「マルタンマルジェラ」のノードにつながる「デザイン」→「新しい」と「人」というノードがマルタンマルジェラのイメージを構成しているのかどうか・・・。この辺はいろいろ解釈できるかもしれません。
◎共起ネットワークのグループ形成
補足として、グループ形成も載せておきます。これは抽出された共起ネットワークの共起の強さ、中心性に重きを置いたわけではなく、上述の7つの階層的クラスター分析のようにノードどうしで分類してみた結果。ノードの大きさは同じです。なんとなーく見るのには分かりやすい。でもあくまで補足。
いかがだったでしょうか?図で表すと抽象的なこともなんとなく分かりやすくなる。ちょっと試験的に行ってみました。気づいた方もいらっしゃると思いますが、よく観察すると対応分析、階層的クラスター分析、共起ネットワーク・・・すべて似た結果が出ているんです。 可視化すると分かりやすいところがあります。今後、個人的にお勉強を進めてファッションブログ単位で分析してみたいと思います。
【他、人気のデータ解析】
- 世界の有名ブランドの評判をTwitter..
- ファッションに関するつぶやき:何のワード..
- ファッションブランドのポジショニングマッ..
- 時系列解析で国内ファッション市場の形状を..
- Yahoo!オークションが「ヤフオク!」..
- 再度メンズファッションブランドのイメージ..
- メンズファッションブランドのイメージ分析..
- 1996年-2010年:国内洋服市場の推..
- 本ブログ全記事270万語を使って計量テキ..
- 本ブログ全記事270万語を使って計量テキ..
- 分析:ネット上の日本のファッショントレン..
- 分析:wjkのデニムシャツの人気は特別な..
- 集計:本ブログ読者の好きなブランド
- ファッションと恋愛に関する統計分析(St..
- 分析:ファストファッションブランドのポジ..
- 偽ブランド品に対する消費者の本音・意識の..
- 分析:女性は男性のどこに惹かれるか?
- 分析:ファッションブランドのポジショニン..
- 実証分析「人は異性を意識してオシャレをす..
- 実証分析「人は異性を意識してオシャレをす..