アクセス時系列によるファイル整理
須川 敦史
1 背景と目的
以前に使用したファイルを再度使用,参照する必要性は多々生じる.そしてそのファイルの行方が分からない場合にファイル検索を行なうのだが,ファイル名を思い出せないようなときは非常に困ることになる.
そこで,過去に使用,参照した各ファイル間の関連性に着目する.もし,それらの関連性が何らかの規則性を持って得られれば,それに基づいてファイルを整理することができ,ファイル検索における有用な支援手段の一つに成り得ると考えられる.
本研究では,関連性に基づいたファイル整理を自動的に行なうシステムの実現を目指す.また,そのシステムの実現に際して2つのアプローチを試みたので,その比較検討も同時に行なう.
2 システムの概要
2.1 入力としてのアクセス時系列
過去に使用,参照したファイルの使用履歴(以下アクセス時系列と呼ぶ)には,そのユーザにとってのファイル間の関連性が何らかの形で現れていると考えられる.そこで,各ファイル間の関連性を抽出するのに必要な入力データとしてアクセス時系列を用い,それがファイル整理における本研究の特徴である.
2.2 システム実現への2つのアプローチ
1) 多次元尺度構成法を用いたアプローチ
まず,入力であるアクセス時系列から,各ファイル間の関連性を距離として導き出しす.次に,そこで得られた多次元の関係から,多次元尺度構成法を用いて各ファイルに2次元座標を与え,平面上にマッピングする.すなわち,各ファイルの座標の位置関係によって,その関連性を示すアプローチである.
2) KeyGraphを用いたアプローチ
アクセス時系列における各ファイルを単語に,時系列そのものを文章に見立ててKeyGraph に入力し,ファイル間の関連性をネットワークで表示する.これは,ファイル間に張られたリンクによって,その関連性を示すアプローチである.
3 実行結果の考察
1) 多次元尺度構成法を用いたアプローチ
各ファイル間の親密度の順序関係をおおむね保ったまま各ファイルに座標が与えられていることがわかった.しかし,入力データによっては解が得られない場合が生じた.これは,各ファイル間の距離の与え方に起因するものと考えられる.
2) KeyGraphを用いたアプローチ
入力データは,あるユーザがマック上で使用したファイル,アプリケーションの履歴をとったものである.得られた出力結果は,ユーザにとって,各ファイル間の関連性をうまく表現するものとなった.
4 2つのアプローチの比較検討
多次元尺度構成法を用いたアプローチについては,出力が座標で表示されるため,シンプルで見やすいという特徴を持つ反面,座標のばらつきのため,クラスタや個々のファイル間の関連性をつかみにくいという欠点がある.また,アクセス時系列という簡素な情報からでは,関連性に忠実なファイル間距離を与えるのは非常に難しく,入力データによっては,解が得られない場合も生じる.そのため,実際のファイル使用履歴に対する結果が得られず,このアプローチによるシステムは実現性に乏しいと考えられる.
一方,KeyGraphを用いたアプローチについては,出力がネットワーク表示のため,視覚的に煩雑である.とは言え,入力データによらず出力が得られるので実現性があり,実際のファイル使用履歴を用いた実行結果からは,ファイル間の関連性が忠実に表現されていることが確認できた.また,個々のファイル間の関連性やクラスタを認識しやすく,さらに各ファイルの重要性を表示できるという利点もある.
5 結論
ユーザにとってのファイル間の関連性が,アクセス時系列中に潜在することが確認された.
KeyGraphを用いたアプローチによって実現されたシステムは,過去に使用したファイルの整理および以後のファイル検索における有用な支援手段に成り得ることが確認された.