ストーリー表現のための文書集合の順序付けに関する研究
村上 尚央
1.目的
この研究の最終目的として、「なぜ事象Aが起こったか」という質問に「事象Bと事象Cがあり、それが原因で起こった」というストーリーを回答としてユーザーに与えるシステムの作成である。その第一段階として、本論文では、あるテーマの元に書かれた歴史の文書集合
について、文書群の関係をネットワークとして表し、それによって歴史の流れを表すシステムの
作成を目的とする。
以後、このシステムをHi-Storyと呼ぶ。
2.Hi-story
Hi-Storyは、入力を文書集合、出力をネットワークとして表示するシステムである。ネットワークに有向リンクを用い、グラフのリンクをたどることで、歴史の流れを表す。
今回は、入力の文書はあるテーマについての歴史の文書を扱う。そのアルゴリズムは以下の通り。
(1)あるテーマについて書かれた文書集合を用意
(2)原因キーワード、結果キーワードの抽出
(3)キーワードを比較し、文書集合の繋がりを表すネットワークを作成
(4)得られたリンクのうち、閾値以下の強さのリンクを削除
(5)得られた文書集合の関係をネットワークとして出力
3.実験によるHi-Storyの評価
Hi-Storyから得られた出力をネットワークとして表す。このネットワークと、文書が本来持つ関係より、評価値Precision(適合性)、Recall(再現性)を求め、評価する。評価の結果、PrecisionとRecallの間には逆依存の関係が成立しており、Hi-Storyは文書間の因果関係を正確に抽出しているといえる。
4.結論
3. の結果より、Hi-Storyは、研究の最終目的を満たすシステムの作成の上で有意義な方法であると考えられる。今後の課題は、Hi-Storyの精度の向上及び、より広義の入力に対応できるようシステム全体の拡張が考えられる。