新しいを創造する知恵
2015.03.15

実践!テキストマイニング1(テキストデータの用意と分析の下準備)

フリーのテキスト分析ツールでテキストマイニングを試みます。難しいことは抜きに、手を動かしてみて、どのような事がわかるのかを実践で確かめます。ここでは題材として先日話題となったアップルのイベント、「Spring Forward」に関するwebページの記事を分析します。


KH Coderをインストールする

ここではKH Coderというフリーのテキストデータ分析ツールを使用します。ここから案内に従って、インストールしてください。Macの場合は設定が複雑なため、自動で設定を行ってくれるツールが有償で用意されています。(※KH Coderをダウンロードするフォルダは日本語を含まないものを使用してください。)

 

テキストデータを用意する

次に分析を行うテキストデータを用意します。ここでは題材として先日話題となったアップルのイベント、Spring Forwardに関するwebページを分析していきます。Spring Forwardについての記事が掲載されている適当なwebページから、テキストデータを抽出します。例えばフリーで使えるアプリとしてStrip HTMLがあります。コピペでwebページからテキストデータを抽出することができます。抽出された結果をテキストエディターなどにコピペして、Spring Forwardに関係のない部分は削除してtxtファイルとして保存します。こうして作成したtxtファイルを1つのフォルダにまとめて入れておきます。(※ファイル名、フォルダ名等は全て日本語を含まないものにしてください。ファイルが読み込めなくなってしまいます。)

スクリーンショット 2015-03-15 4.47.41 

 

テキストファイルを結合する

KH Coderは一つのファイルしか同時に読み込めないため、作成したtxtファイルを一つにします。これはKH Coderの機能で行うことができます。KH Coderを起動し、メニューのプロジェク->新規から先ほど作成したtxtファイルを1つ選んで開きます。開いたら、下の画像にあるようにテキストファイルの結合から先ほどのtxtファイルを保存したフォルダを選択しファイルを結合します。

スクリーンショット 2015-03-15 4.54.36

 

強制出力する語を指定する

これでKH Coderで結合したtxtファイルを開けばテキストを分析できます。しかし、このままではアルファベットの単語がうまく読み込まれないことがあるため、重要な英単語を強制出力する語として指定する必要がございます。語の取捨選択から

スクリーンショット 2015-03-15 5.14.13

 

重要な英単語を入れていきます。ここは少し面倒かもしれません。

スクリーンショット 2015-03-15 5.18.48

 

OKを押したら、前処理を実行します。これでデータの分析の下準備が完了です。

 

次は実際にデータの分析を行っていきます。実践!テキストマイニング2(テキストデータの分析)へ続きます。