概念相違検出システムのデータベース適用検討
西田研究室 三木 雄介
1. はじめに
近年の急速なネットワークの広がりに伴い,膨大なデータが蓄積され,データベース同士の統合の需要が高まりつつある.複数の人間により構築されたデータベースを統合する際に,その記述スキーマにおける相違を取り除いて,整合性のとれたデータベースとして提供することが重要な課題となる.
本研究では,概念相違検出システムをデータベースに適用可能とすることに向けて,機械学習の分野で汎用されているUCIrvineのデータを対象としてその有効性の検討を行った.その解析結果をもとに検出アルゴリズム改良の前段階として,属性値の相違についてより詳細な分類を行い,検出率の見直し及びデータベースのスケールアップに伴う検出率の変化についての検討を行った.
我々は従来より,個人の分類知識を決定木の構造として表現し,その構造を比較することで概念の相違を発見する手法に関する研究を進めてきた.概念の相違には種々のレベルのものが考えられるが,ここでは特にシンボルレベルの概念の相違に焦点を絞って,
- 相違1.異なるシンボルを同じ意味で用いている場合
- 相違2.同じシンボルを異なる意味で用いている場合
の2つの場合について決定木構築手段としてID3とGAを利用した手法の研究を進めてきた.さらに二人の人間がある事象に対して,個々の認識に基づいた概念を表現するシンボルを用いて,クラス・属性・属性値で構成される事例を知識表現形態として入力を行い,その入力データからクラス・属性・属性値におけるユーザ間の概念の相違の検出を行う.
しかし従来のシステムで用いた対象事例は事例数が少なく,またクラス・属性・属性値の相違に対してほぼ全てで相違を高確率で検出したことなどから,検出アルゴリズムとデータベースに密接な関係があったと考えられる.またGAによる決定木を用いた手法では複数回の試行の平均ではID3よりも検出率は低く,さらに,多様な決定木を生成することで結果的に誤った検出が正しい検出よりも上位の相違候補となってしまう問題点が挙げられる.
2. データベースへの適用検討
UCIの事例を用いて従来の事例との検出率の比較実験を行った.実験では,対象事例のとり得る全事例に対する事例数の割合(これをカバー率と呼ぶ)を検出率比較の評価指標に用いた.その結果カバー率が上がるとクラス・属性で検出率が上昇し,属性値では検出率が下がることが確認された.さらに,属性値の組み合わせを考慮した場合,属性値相違1(従来:68.8%→本基準:91.0%),属性値相違2(従来:49.7%→本基準:36.7%)となり,属性値相違1のようなシンボルがフリップしている相違に対しては検出率は高く,多くの種類の相違パターンがある属性値相違2では検出率が低下した.また,カバー率が上がると属性値相違1,属性値相違2ともに検出率が低下したことが確認された.
3. 結論
本研究では,概念相違検出システムをデータベースに適用可能とすることに向けて,UCIの事例を用いて事例数・カバー率の検出率への影響について検討した.特に属性値の検出率の低下は顕著であることから,属性値の相違に注目し,相違の組み合わせを考慮して,より厳密な相違のパターンの分類を行い,その検出率の変化について検討した.
今後の課題としては,事例数・カバー率の増加に伴う検出率の低下を抑えるような検出アルゴリズムの改良を行い,概念相違検出システムのC4.5によるルール学習の前処理としての有効性を検討していく予定である.