人力飛行機探訪記

鳥人間はじめ人力飛行機を見てきた記録をアーカイブ

KH Coderでトリペディアをテキスト分析

人力飛行機ファンのおじさんは、最近KH Coderというものを知りました。

KH Coder: 計量テキスト分析・テキストマイニングのためのフリーソフトウェア

 

使ってみたくなったので、トリペディアでやってみることにしました。

 

インストール

チュートリアル通りにインストールし、起動します。

f:id:deciliterai:20181023191848p:plain

 フォルダ名でさりげなくCoolThrustの活動をアピールしています

 

プロジェクト作成と前処理

サンプルとして同梱されていた「こころ」を参考にファイルを作ります

分析したいテキストの準備

トリペディアをひたすらコピペ

f:id:deciliterai:20181023192141p:plain

 

パッチワーク

パッチワーク

  • provided courtesy of iTunes

理想と幻想切って貼って~♪ 

 

プロジェクト作成

f:id:deciliterai:20181023200456p:plain

個人情報を一部塗りつぶしてあります

 

強制抽出する語の指定

KH Corderでは、このような方法で語を選択することは容易だが、たとえば分析に含める語を逐一選択するといった「手作業」は困難な仕様とした。この仕様は、多変量解析によるデータの要約を行う段階では、恣意的なものとなりうる「手作業」を取り除くことで、分析者のもつ理論や予断によるバイアスを極力排除するための仕様である。

 

 ― 社会調査のための計量テキスト分析―内容分析の継承と発展を目指して

 

ただ、鳥人間コンテストでは頻出する用語がありますよね。

 

f:id:deciliterai:20181023200906p:plain

ちょっと使ってみたところ、指定したほうがいいと思われる語句はこんな感じ。

鳥人間→「鳥」と「人間」、タイムトライアル→「タイム」と「トライアル」のように分割される。

 

この後はチュートリアル通り前処理を実行。

 

f:id:deciliterai:20181023204903p:plain

 

データを探る

頻出語句

f:id:deciliterai:20181023205046p:plain

ただ、同じチームのトリペディアの中で何度も同じ語句が登場している場合があることも考慮するべきなので、頻出語句=飛ばワケの頻出テーマ とは必ずしも言えない。

 

共起ネットワーク

抽出語またはコードを用いて、出現パターンの似通ったものを線で結んだ図、すなわち共起関係を線(edge)で表したネットワークを描く機能です。

 

 - Rによる多変量解析と可視化

f:id:deciliterai:20181023205511p:plain

たとえばこの図からは、チームに関して言及するときは「記録」について、パイロットに関しては「想い」について語られることが多いと読み取れる。 

 

今後やってみたいこと

・外部変数を利用することにより、頻出語句の違いを部門別、年度別、飛距離別などに分けて調べ活用する。Tableauで鳥人間チームの情報を分析してみたい!でも使用したファイルのデータと組み合わせてみたい。

・コーディング機能を利用して、「チームメンバー個人」「その他の人」「機体」「団体」などの分類をする

・今回はテキストデータを手に入れやすいトリペディアを題材にしたが、番組テロップに表示された飛ばワケを分析したほうが入力する文章量が少なくて楽かもしれない。メリット:第40回大会より前のものも存在する デメリット:ダイジェストでも飛ばワケって放映されたっけ

・収集したTFデータの分析に活用する。チーム公式ブログから引用したNOGO理由やクラッシュ箇所を分析し、多い内容や位置を調べる。(追記:やってみました→

2018年のフライトのNOGO理由やクラッシュ部位を集計した - 人力飛行機探訪記

 

 

参考

KH Coderチュートリアル

社会調査のための計量テキスト分析―内容分析の継承と発展を目指して

トリペディア|鳥人間コンテスト|読売テレビ