視点を利用した情報抽出に対する一手法
新開 大樹
1. はじめに
本研究ではユーザーの興味や関心(本研究ではこれを視点と呼ぶ)を反映させた形で、意味的な定義に基づき視点に近い情報を提供し、効率のよい情報抽出に対する手法を提案する.そのためこの手法を導入したプロトタイプシステムを設計、製作し、その評価及び問題点の検証を行った.
近年のインターネット及びWWWの急速な発展により情報ベースシステムが巨大化の一途を辿っており、それに伴い様々な問題点が顕在化してきた.現在の情報検索システムが使いにくい原因として``情報ベースの全容が見えてこない''、``ユーザーの判断を情報検索に反映できない''の原因が考えられる.この2点の問題点を考慮してより効率的な情報検索方式の確立を目指していく.その改善方法として
[1]情報空間の可視化→情報ベースの中身を分りやすい形で利用者に提示
[2]情報空間のカスタマイズ→利用者の視点や価値観に応じて主観的に情報空間を操作する
の2点が挙げられる.
この2点を実現するためにテキストを2次元平面上に分類し、その手法として自己組織化マップ(Self-Organizing(Feature)Map:SOM)を利用する.ユーザーの視点を反映させるためには言葉の階層構造であるシソーラスを用い、ユーザーの視点の変化に対応したテキスト自動分類を本研究の目指すところとする.
- 入力ファイル生成部:ベクトル変換フィルタ部の入力に必要な名詞ファイルの生成を行う.入力テキストとしてWWW上の朝日新聞の記事を用い、ここから名詞のみを抽出する.
- ベクトル変換フィルタ部:各テキスト群の単語数をカウントし、全単語の頻度を要素とする基本単語ベクトルを生成する.
- ベクトル重み付けフィルタ部:視点を基にシソーラスを用いて入力される基本単語ベクトルに重み付けを行い、SOM入力ベクトルを生成する.ベクトル重み付けフィルタ部でユーザーが視点を与える.視点の与え方としてなんらかの名詞を入力することにする.重み付けの方法としてまずシソーラス上で視点と関連のある名詞を確保していき、その際視点を中心とした木構造を構築する.木構造を構築して視点とその他の名詞の距離が算出し、視点からの距離が近い程重みを増すような重み付けを行う.
- 自己組織化マップ:自己組織化マップは任意次元を持つ入力データに対し、その多次元空間におけるデータ相互の距離関係をできるだけ保ったまま1次元あるいは2次元空間に写像(マッピング)することを目的として、Kohonenにより考案されたモデルである.多次元空間に分布する入力データ相互の類似関係は元の多次元空間では直感的に把握することは困難だが、このようなマップを作成することで、入力データ相互の類似関係を1次元あるいは2次元空間における位置関係に写像し、その相対距離がデータ間の類似性を表現することになる.
2.システム評価実験及び考察
前節で構築したシステムを用い、今回の実験ではある視点を基に探索距離、入力テキスト数、重み付けの係数の3つの要素を比較し自己組織化マップ上での分類結果の検討を行った.重み付け手法についてはシソーラスの特性を利用してあらかじめ定式化されたものを用いる手法、及び各距離において視点から探索し、確保された全ての名詞のうちテキスト中の名詞と一致している割合による重み付け、つまり適合率を用いた重み付け手法の2つの手法で実験を行った.
重み付けの係数については、適合率を用いた重み付け手法は視点はもちろんテキストの内容をより反映して重み付けが行われる.つまり定式化されたものを用いる手法よりも適合率を用いたほうが実際に使用されるテキストからより個々のテキストの内容を反映しつつ、視点に対応した情報を抽出することに対して適切であると考えられる.
自己組織化マップ上の分類結果によると探索距離が短いとテキスト間の関係が把握でき、ユーザーの視点に対応した結果が得られたが、探索距離が長いと自己組織化マップ上に一様に発散する傾向が見られた.
3.結論
本研究では自己組織化マップを用いてテキストを2次元平面上にマッピングする際、ユーザーの興味や関心を反映させ、ユーザーにとって有益な情報を効率よく抽出できるシステムの構築を目的として研究を行った.
自己組織化マップ上の分類については探索距離が長い時は分類結果がマップサイズに依存するという問題点が確認された.今後の課題として本研究のテーマでもある情報抽出という目的を果たす為にもインタフェースの改善を目指す.