HMMを利用したジェスチャ認識に関する研究

谷内田研究室  樹木 義道

1. はじめに

ジェスチャは、人間が日常行なう行為なので計算機と直接的で自然なインタラクションが実現できる。カメラから得られた画像は情報量を多く含んでいて、ジェスチャ認識によく用いられる。カメラから得られる画像データは時系列データであり、これを扱う手法には、HMMとDPマッチングによる手法がある。HMMはDPマッチングによる手法よりも、不特定者認識に対して有効であることが示されている。また、実時間のジェスチャ認識をするには処理計算の高速化が必要になってくる。HMMの認識に用いられるアルゴリズムを改良した再帰的なアルゴリズムによる高速化の手法が提案されている。本研究では、動画像から得られたオプティカルフローをベクトル量子化しHMMへ入力するジェスチャ認識システムの高性能化を目的とする。ここでは特に、HMMの認識に用いられるViterbiアルゴリズムを改良した再帰的な計算手法による高速化の有効性について検証する。

2. システムの概要

まず、カメラから得られた動画像から、特徴量としてオプティカルフローを抽出し、特徴ベクトルを得る。これをベクトル量子化し、シンボルとして変換した後、HMMとのマッチングにより認識を行なう。

3. 再帰計算による手法の検証

3.1 再帰計算による高速化

マッチングはHMMの生成確率を求めて行なうが、各々の状態遷移のうち、最も高い確率を与えるパスにおける出力確率を用いて高速化をはかる手法をViterbiアルゴリズムといい、入力シンボル系列の長さ分の状態遷移を行なう。この際、毎回更新されるシンボル系列は最初と最後の部分だけである。そこで、更新されなかったシンボル系列に対応するパスは前回と同じパスを通ると仮定すると、パスを通る部分の確率を記憶しておけば確率計算をさらに再帰的に行なえる。これによって処理時間の高速化が期待できる。

3.2 システムの改良

従来のシステムは、それぞれのモデルで特徴点をクラスタリングした後、シンボル化されたすべてのモデルの各クラスタを一つの空間に投影する。そのためモデルの増加に伴ってモデル一つあたりのパラメータの数も増えていくので、モデルを増やす毎に学習サンプル量を増やさなければ等価な状態に陥る。限られたサンプル量で等価な状態のないモデルを作るには、モデル一つあたりのパラメータの数を抑えられればよい。そこで、本研究ではパラメータの数を抑えるために、すべてのモデルが個々に空間を所持し、各クラスタはそのモデルに応じた空間に投影するよう改良を行なった。

4. 実験

7つの手話ジェスチャをHMMによりモデル化し、従来のシステムを用いてViterbiアルゴリズムと再帰計算による手法で認識実験を行なった。結果はViterbiアルゴリズムと再帰計算による手法ではほぼ同じ認識率だった。次に従来システムと同量の学習サンプルで、本システムによってモデルを作成した。できたモデルにはすべて等価な状態は存在しなかった。またこれを用いて、同様の認識実験を行なった。結果はViterbiアルゴリズムに比べて再帰計算による手法は低い認識率だった。

5. 考察とまとめ

従来システムでの実験では、モデルのパラメータを調べた結果、遷移確率と初期状態確率がすべてのモデルでほぼ等しく、出力確率は各モデルで、すべてのパスにおいて等しかった。すなわち、すべての状態が等価となり、すべてのモデルで単純な遷移をしたため、この再帰計算による手法が利用できた。一方、複雑に状態遷移する場合でも仮定が成り立つかどうか検証する必要がある。複雑に状態遷移をするためには少なくとも、モデルの状態がすべて等価であってはならない。また、等価な状態のないモデルの方が一般的なモデルといえる。そこで、限られたサンプル量で等価な状態のないモデルを作成するシステムを考えた。また、本システムではメモリの消費量を抑えられるため、従来システムと比べて多くのモデルを扱えるようになった。このシステムを用いてモデルを作成し、認識実験を行なった結果、再帰計算による手法では認識率が低下した。そこで、このモデルの状態遷移を調べたところ前後のフレームで更新されなかった入力シンボル系列に対応するパスの保存はされておらず、提案された手法の仮定は大き過ぎることが分かった。結果、一般的にはこの再帰計算は使えないことが分かった。