(独)産業技術総合研究所は10月14日、会議などで収録した声と映像のデータから、誰が何時、どんな概要の発言をしたかを自動的に認識、映像も含めた会議録を作成するシステムを開発したと発表した。キーワードを決め、その発言のあった画面を検索したり、発言者をズームする機能もある。これまでは会議録が採られなかったような小規模会議の概要把握や、市場調査の集団インタビューでの顧客の声の分析などに活用されそうだ。
このシステムは、8チャンネルのマイクを納めたマイクロホンアレイ、全方位カメラから成る専用の入力装置と、必要機能に応じたソフトウェアで構成されている。マイクが拾った音響信号から、まず各時刻の音源方向が推定され、この方向情報を発言者ごとにまとめ、発言者を自動判別する。実際の現場では、室内の残響や他の発言者の相づちなども混じるが、これら不要音を除く音源分離を行っているので、会議参加者全員にマイクを配らなくてもこの専用入力装置を会議テーブル中央にセットするだけで「準備OK」という。
次いで、音声認識技術を用いて発言内容からキーワードを抽出。このキーワードを検索用のタグ(目印)情報とし、会議中の発言検索を可能にした。全方位カメラで撮ったパノラマ画像は、タグ情報に基づき、常に発言者がズームアップされるようになっている。
同研究所は今後、実際の会議で実証試験を行い、その結果を踏まえた改良を重ねた上で技術移転などして実用化したいとしている。
No.2008-40
2008年10月13日~2008年10月19日