マルチモーダルインタラクションのモデル化と会話エージェントへの応用｜研究紹介｜研究

　対面コミュニケーションでは、言葉だけでなく、音声の韻律、表情、視線、ジェスチャ等の非言語情報が会話参加者間で互いにやり取りされます。意味を伝えるのは主に言語情報ですが、非言語情報はそれを円滑、かつ正確に伝える重要な役割を持ちます。このような、会話中の言語・非言語情報を解釈する人間の社会的知性の計算モデルを構築し、それを実現する人工知能の研究を行っています。さらに、社会的知性の計算モデルを搭載し、言語と非言語情報を解釈・表出しながら人と会話ができるロボットやアニメーションエージェントの開発にも取り組んでいます。これらの技術開発を通して、人に寄り添い、人の手助けとなる人工知能を実現したいと考えています。

　マルチモーダルインタラクションのモデル化では、深層学習を中心としたマルチモーダル機械学習の手法を用います。会話中の音声、言語、表情、動作、視線等のデータを収集し、これらの情報から、会話参加者の様々な特性を推定します。例えば、グループディスカッション場面では、コミュニケーション能力、説得力、優位性、性格特性等の推定モデルの開発に取り組んできました。これらの研究から、言語情報だけでなく、音声の韻律や表情、頭部動作などの非言語情報がこれらの推定に有用であることがわかりました。また、議論を把握する技術を目指し、議論中の重要発言を推定するモデルも開発しました。その結果、議論中の重要発言は、発言内容だけではなく、その発言を聞いている他者の反応も有用な情報となっていることがわかりました。これらの技術は会話映像の要約にも役立つと考えています。

　会話エージェントの研究では、推定したユーザの情報に基づき身振り手振りを使いながら、ユーザと会話ができるアニメーションキャラクタやロボットを開発しています。会話機能に加え、非言語コミュニケーション機能として、ハンドジェスチャの形態決定や、ジェスチャによる性格特性の表現方法を提案しました。これらの機能を搭載するためのプラットフォームとして、ウェブ上で動作する会話エージェントを開発し、ユーザ側に特別なソフトをインストールすることなく、会話エージェントを利用できる環境を作成しています。
今後はユーザの文化や個性を表現するジェスチャ生成方法についても研究を進める予定です。