新しいを創造する知恵
2015.03.18

実践!テキストマイニング2(テキストデータの分析結果とその解釈)

テキストマイニング

フリーのテキスト分析ツールでテキストマイニングを試みます。難しいことは抜きに、手を動かしてみて、どのような事がわかるのかを実践で確かめます。ここでは題材として先日話題となったアップルのイベント、「Spring Forward」に関するwebページの記事を分析します。


単語一覧と出現回数を見る

それではテキストの分析を行っていきましょう。まず、単語一覧と出現回数を見てみましょう。抽出後リストから品詞別、出現回数を選択し、OKを押します。

スクリーンショット 2015-03-17 10.59.58

 

するとエクセルファイルが開かれます。

スクリーンショット 2015-03-17 11.03.31

 

ここで、強制登録した英単語がタグに分類されて正しく読み込まれていることがわかります。次に同じところから頻出150語を選択し実行してみましょう。今度は出現回数上位150語が一覧になって表示されます。

スクリーンショット 2015-03-17 11.15.41

 

Spring Forwardでは「Mac」、「Watch」、「iPhone」について多く言及されていたことがわかります。

 

共起ネットワークを表示する

それでは視覚的にわかりやすい分析結果を見ていきましょう。まずはじめに共起ネットワークをみます。

 スクリーンショット 2015-03-18 10.21.44

「品詞による語の取捨選択」で、先ほどの品詞別の単語一覧を見ながら、注目したい品詞の種類のみにチェックを入れます。また、今回は「最小出現数」を5に設定します。そして、「チェック」を押すと、対応分析で表示される単語の数が確認できます。数が多すぎると分析に時間がかかり、結果も複雑で分かりにくくなるので注意してください。さらに、右端の「共起ネットワークの設定」を上の画像のように行います。そしてOKを押すと結果が表示されます。

スクリーンショット 2015-03-18 10.39.35

 

共起ネットワークではテキスト中で隣接した単語同士を線で結んでいます。また、この図では出現回数の多い単語が大きな円で囲われています。また、ネットワークの中心の単語ほど濃いピンク色になっています。共起ネットワークをみれば、単語同士の繋がりからテキストの内容をおおざっぱに予測することができます。例えば、「TV-値下げ-価格」からは「AppleTVの価格に値下げがあった」と予測されます。「アプリ-ResearchKit-サンプル-研究」からは、「ResearchKit?という名のアプリでサンプルを研究のために提供?」などという事が予測されます。KH Coderでは実際にその単語が含まれる前後の文をリストアップすることができます。ツール->抽出後->KWICコンコーダンスから検索すると次のように一覧が表示されます。

スクリーンショット 2015-03-18 11.15.32

これより、実際に「AppleTVの値下げが発表された」と確認できます。同様に「ResearchKit」「サンプル」それぞれで検索すると次のようになります。

スクリーンショット 2015-03-18 11.21.30

スクリーンショット 2015-03-18 11.31.47 

これより、「サンプル数が少なかった医療調査のために、iPhoneを医療調査のインフラとして利用するための「ResearchKit」を研究機関に提供すると発表された」と確認できます。

対応分析を行う

次に対応分析結果を表示してみます。下記の設定で結果を表示させてみます。

スクリーンショット 2015-03-18 12.33.21

 

結果は次のようになります。

スクリーンショット 2015-03-18 12.35.41

 対応分析では結合したテキストの内容を分析し、内容が近いもの同士が近くに、遠いものが離れて配置されるよになっています。より特徴的な内容を含んでいるものがゼロ点から遠くに配置されます。これを利用すれば、アンケート結果を取り込み回答者の散布図を作成し、縦軸横軸に意味付けするなどして分析を行うことができます。

以上、フリーツールを利用し手を動かす事でテキストマイニングの表層に触れることができました。今回利用したツールを使えば、応用次第で様々な分析を行う事ができるので、皆さんも是非お試しください!