人力飛行機ファンのおじさんは、最近KH Coderというものを知りました。
KH Coder: 計量テキスト分析・テキストマイニングのためのフリーソフトウェア
使ってみたくなったので、トリペディアでやってみることにしました。
インストール
チュートリアル通りにインストールし、起動します。
フォルダ名でさりげなくCoolThrustの活動をアピールしています
プロジェクト作成と前処理
サンプルとして同梱されていた「こころ」を参考にファイルを作ります
分析したいテキストの準備
トリペディアをひたすらコピペ
理想と幻想切って貼って~♪
プロジェクト作成
個人情報を一部塗りつぶしてあります
強制抽出する語の指定
KH Corderでは、このような方法で語を選択することは容易だが、たとえば分析に含める語を逐一選択するといった「手作業」は困難な仕様とした。この仕様は、多変量解析によるデータの要約を行う段階では、恣意的なものとなりうる「手作業」を取り除くことで、分析者のもつ理論や予断によるバイアスを極力排除するための仕様である。
ただ、鳥人間コンテストでは頻出する用語がありますよね。
ちょっと使ってみたところ、指定したほうがいいと思われる語句はこんな感じ。
鳥人間→「鳥」と「人間」、タイムトライアル→「タイム」と「トライアル」のように分割される。
この後はチュートリアル通り前処理を実行。
データを探る
頻出語句
ただ、同じチームのトリペディアの中で何度も同じ語句が登場している場合があることも考慮するべきなので、頻出語句=飛ばワケの頻出テーマ とは必ずしも言えない。
共起ネットワーク
抽出語またはコードを用いて、出現パターンの似通ったものを線で結んだ図、すなわち共起関係を線(edge)で表したネットワークを描く機能です。
たとえばこの図からは、チームに関して言及するときは「記録」について、パイロットに関しては「想い」について語られることが多いと読み取れる。
今後やってみたいこと
・外部変数を利用することにより、頻出語句の違いを部門別、年度別、飛距離別などに分けて調べ活用する。Tableauで鳥人間チームの情報を分析してみたい!でも使用したファイルのデータと組み合わせてみたい。
・コーディング機能を利用して、「チームメンバー個人」「その他の人」「機体」「団体」などの分類をする
・今回はテキストデータを手に入れやすいトリペディアを題材にしたが、番組テロップに表示された飛ばワケを分析したほうが入力する文章量が少なくて楽かもしれない。メリット:第40回大会より前のものも存在する デメリット:ダイジェストでも飛ばワケって放映されたっけ
・収集したTFデータの分析に活用する。チーム公式ブログから引用したNOGO理由やクラッシュ箇所を分析し、多い内容や位置を調べる。(追記:やってみました→
2018年のフライトのNOGO理由やクラッシュ部位を集計した - 人力飛行機探訪記)
参考
社会調査のための計量テキスト分析―内容分析の継承と発展を目指して