内容における因果関係を用いた文書集合からの歴史ストーリー抽出

谷内田研究室  松田 牧子

1. はじめに

 歴史は長く愛され続けている.歴史上の人物の社会的背景を知ることはその人物の生き方に共鳴でき,何かを学べることができるからである.  そこで本研究では,雑多な文章のあつまりから一定の歴史的なストーリーを得ることを目的としたシステムを作成することを考える.さまざまな文書集合からあるストーリーを抜き出し,それぞれを整列させることは,文献整理技術としても有効であると考える.

2. 従来の関連研究

 インターネット上の文書から,キーワードを抽出し,ユーザの理解を助けるシステムであるHi-Storyは,一定のストーリーに関する文書集合から各文書のキーワードを抜きだし,そのキーワードから文書間の因果関係を求めるというものである.このシステムの問題点は間違った文書間をつないでしまうため正しいストーリーが得られないことと,文書の並べ替えのみしか行わないことである.

3. 歴史ストーリー抽出システム概要

 歴史ストーリー抽出システムは文書の集合を入力とし,その中からある特定の歴史のグループを抽出し(クラスタリング),それぞれのグループの中で,歴史的なつながりの順序で出力(ソート)してストーリーを作成するシステムである.
3.1 クラスタリング
 文書ごとに各単語の重要度を求め,それを要素としてベクトルに表す.これをキーワードベクトルとよぶ.キーワードベクトルはほぼ文書の内容を表しているため,ベクトル間の角度の小さいものは内容の近い文書同士であるといえる.
 すべての文書の組み合わせにおいて角度を計算し,角度の小さい組み合わせを求め,各歴史ごとにグループ分けする.
3.2 ソート
3.1のクラスタリングによりグループ化された文書に対し,文書の最後の部分に多く出現する重要度の高い単語と,別の文書において最初の部分に多く出現する重要度の高い単語が一致するとき,その二文書間にストーリーがあるとし,有向リンクを作成する.有向リンクは各グループの文書数だけ張る.

4.実験

 webページより7つのストーリーを含む雑多な文書を100個用意し,本システムで実験した.


図1 リンクが張られた結果例


クラスタリングによって8つのグループが抽出され,各グループ内においてはソートの処理によって有向リンクが張られた.
8つのグループのうち7つは予め用意したストーリーを含むグループとなっており,これが正しく抽出された.それら7つの各グループ内において張られた有向リンクと,実際の文書間の関係から求めた有向リンクとを比較すると,本システムによって張られたリンクは全て,実際の歴史ストーリーと一致していた.この結果は非常に精度の良い結果といえる.また,今回扱った7つのグループには歴史文書以外の話も含まれており,それらも正しく抽出することができた.

5.結論

  本システムでは,雑多な文書集合をクラスタリングを用いて一定のストーリー毎に分け,因果関係に基づいて有向リンクを張ることにより,雑多な文書集合より一定のストーリーを取り出し文書を並べ替えることができた.また,文献整理技術としても,内容に目を通さず整理できるため,時間短縮できるであろうし,文書内容の分からないユーザも使用できるため,ユーザの年齢層や使用言語を問わないという利点があり様々な人々が気軽にインターネットに親しむ契機になるだろう.