岐阜でアクセス解析に興味があればご連絡ください。岐阜を中心にITコンサルティングを行っています。

舛添知事の記者会見をテキストマイニングしてみた

舛添東京都知事が先週金曜に会見されて、いろんな報道が出てきました。

この会見がログミーデ書き起こしされていたので、これを利用してテキストマイニングをしてみました。

舛添都知事が政党交付金のネコババ疑惑について会見 – ログミー
13100件の“都民の声”に応えず…舛添都知事の政治とカネ問題への誠意 – ログミー
舛添都知事がヤフオクの美術品落札疑惑に回答 – ログミー

これを分解して、どういう会見内容だったのか?ということをデータから紐解いてみたいと思います。

 

分析手法

まず、簡単に分析方法を書いておきます。

  • ログミーの記事からテキストを取得
  • 知事の回答部分と記者の質問部分を分離
  • それぞれのテキストに対して、頻出単語の抽出とN-gram分析を実施

実施は、誰でも利用できるデータ分析フリーソフト「R」で行いました。

 

会見では、何が語られていたのか?

一つ一つ読むのではなく、テキストマイニングによって会見内容を分析したいと思います。まずは頻出単語を見てみましょう。

単語 登場回数
それ 99
これ 83
調査 78
第三者 48
都民 42
政治 40
批判 34
専門 32
資金 29
お願い 28

「調査」、「第三者」、「専門」などの単語が並んでるので、そのような事項が多く述べられていたんだということがわかります。

もう少し文脈がわかるように、N-gram分析も行ってみましょう。N-gramは、連続した単語の組み合わせの回数をカウントします。そして、それをグラフとして表現したしたのが以下の図です。ちなみに、今回はN-gramは4語で解析しています。

ngram-answer

このグラフから、いくつかの事項が多く語られていたことが読み取れます。

  • 法律の専門家による厳しい第三者の目で調査してもらうこと
  • 政治資金収支報告書に関すること
  • 都議会などに迷惑・心配をかけたこと
  • 真摯に反省していること
  • 都民に対して仕事で信頼を回復したいこと

だいたいこのあたりが会見で語られていた、ということですね。だいたい報道のイメージと合っているんじゃないかと思います。

 

記者の質問も分析してみる

今度は、知事の回答だけでなく、記者の質問についてテキストマイニングで分析してみましょう。

以下が頻出単語になります。

単語 登場回数
知事 94
政治 69
説明 46
調査 45
これ 41
それ 41
会見 37
自身 35
資金 35
弁護士 31

頻出単語の内容を見ると、「説明」、「調査」、「資金」、「弁護士」などが並んでいます。まあ、会見のテーマから考えれば当然の単語かなと思います。

次にN-gramで分析してみましょう。

ngram-question

ここから見えるのは、以下のトピックが多く質問として出されていることです。

  • 湯河原の別荘
  • 会計責任者
  • 奥さん
  • 事務所
  • 公用車

総合して言えるのは、記者からはいろんな質問がされたが、知事の回答は似たような内容で収斂されているということです。

 

さらにそれぞれの頻出単語のヒストグラムをグラフで表現するとこちらになります。ちょっとわかりづらいですが、単語の種類と頻度を、知事と記者で比較してみました。

histgram

記者の方が多くの単語を用いられているのがわかります。まあ、記者は20人以上が質問しているので、人が多いほど使う単語が多くなるのは当然といえば当然かもしれません。

 

いかがでしたでしょうか。実際のテキストをこのように分析して、定量的に捉えることで文章の内容を知ることもできるのです。様々なシーンで活用出来る方法を考えてみてはどうでしょうか。