画像上における人間の腕の動作予測

谷内田研究室  萬上 圭太

1はじめに

画像上で人間の手先の様に移動速度の速い物体を追跡する場合には、フレーム 間で位置が大きく異なる為に近傍での探索は困難であり、画像領域全体の探索 が必要となる。しかし、もし仮に次のフレームにおける手先のおよその位置を 予め知っていれば、探索時間は大きく短縮され、追跡精度も十分信頼できるも のと成るであろう。
そこで本研究では、移動速度の速い人間の手先の追跡処理を効率よく行なう方 法として、人間の腕の動作を画像上で予測するのに対し、果たしてどのような 方法が効果的であるのかを実験により検証した。

2腕モデルと座標系

本研究で用いた腕のモデルは肩と肘に1自由度ずつ持つ2関節アームである。ま た、座標系は、x-y直交座標系と極座標系を用い、肩関節を原点とおいた。

3予測シミュレーション

画像処理においてノイズは無視できない存在である。そこでまず、腕の動作系 列とノイズ系列を確率変数として捉え、最小二乗推定法を用いて観測値から真 値を推定することを考える。
今、(2)で定義したモデルと座標系において手先の位置の平均、分散とノイズ の平均、分散を利用すると最小二乗推定法によってノイズを除去した推定値が 得られる。このとき、真値とノイズがガウス性のときはベイズの公式により最 小二乗推定量は最尤推定量であると証明できる。また、今後単に最小二乗推定 とあるときはこの方法を指すものとする。
次に、カルマンフィルタについて説明をしておく。先ほどの方法は予め手先 位置の平均と分散を与える必要があり、動的な信号の観測には向いていない。そ こで運動のダイナミクスを差分式で表したカルマンフィルタを用いる。考え方 は最小二乗推定法と同様であるが、カルマンフィルタは差分式としてデータを 持っておく為に、毎ステップ平均や分散を計算する必要がなく、高速で、デー タの軽い計算が可能となる。
上述の二つの方法について2種類の動作について実験を行なった。結果は両者 とも同じような値が得られた。カルマンフィルタは運動のダイナミクスを差分 式で持っているにも関わらず、大きな効果は得られなかった。これは手先の速 度が速いことに起因し、この分散が大きい為に、カルマンフィルタは運動ダイ ナミクスを差分式として持っていることがあまり意味の無いものになっている と言える。この場合、大きな効果は望めない。
さて、実際どちらの方法が良いのかであるが、双方法とも予め位置か速度のど ちらかの平均、分散とノイズの平均、分散を与える必要がある。実際、物理量 として捉えやすいのは速度よりも位置である。よって本研究では平均値と分散 値を与えやすい最小二乗推定を用いる。
次に、最小二乗推定でろ波されたパラメータを用いて力学的に予測を行なう。 方法は、推定位置から逆運動学によって腕の角変位を得る。そしてラグランジ ュ方程式によってトルクを求め、それが次の時刻まで一定であると仮定してラ グランジュ方程式を解き、順運動学によって手先の予測位置を導出する。また、 手先の位置、速度、加速度から次の時刻の位置を予測する静力学による実験も 行なった。
実験の結果、動力学を用いた方がかなり良い予測が行なわれたことが分かった。 やはり、腕の運動にはトルクを一定して予測を行なう方が良いと言える。

4欠測値の対応

人物追跡において、ノイズやオクルージョンによる欠測値は避けて通れないも のである。そこで本研究では欠測値が生じた場合、前回の観測値で代用して予 測を続ける方法を取る。以下に時刻tで欠測値だった場合のt+1の予測誤差につ いて実験を行なった。
実験の結果、4フレームに1枚程度のランダムオクルージョンに対しては、5cm 程度の誤差で予測が行なえることが分かった。しかし、この予測方法は速度、 加速度を算出する都合上、3フレーム連続した欠測値になるとこれらの値が信 用できないものとなる。よってこの方法では3フレーム以上の連続した欠測 には対応できない。この対応方法は真に正しいとは言えないが、確率的に最 も安定した予測が行なえると考えられる。

5アルゴリズムの汎用化

予測方法については、まず最小二乗推定によって観測データをろ波し、次に動 力学によって予測を行なうが、その際真値とノイズの平均と分散を予め入力す る必要がある。そこで、予測には様々な動作に対応したデータを入力せねばな らない。その手段として本研究では、モデルから取り得る全てのデータ系列を 作成し、その平均と分散を利用する。
実験の結果、3cm程度の予測誤差で予測が行なえた。この程度の誤差ならば予 測ができたと考えて良い。また、25%の欠測値を含ませたデータについても 同様に実験したが、誤差の平均が4cm程度であり、問題にならないと言える。

6結論

本研究の提案した手法では単純な動作ならば大きな誤差なく予測できると言え る。研究目的上、実際には腕の予測を真に正確に知る必要はなく、大方の予測が できれば良いので、この程度の精度でも十分であると考えられる。またこの方 法は1フレームの処理に0.1ms程度の処理時間で予測ができ、リアルタイム処理 も十分に可能であると考える。今後の課題としては動作モードの変化や長時間の 欠測値への対応があげられ、これらに効率良く対処する方法を考える必要があ る。