(独)産業技術総合研究所は10月12日、インターネット上の動画音声を音声認識で文章化し、音声データ全文を検索したり、認識誤りを訂正して読みやすく書き起こしたりできるシステムを開発したと発表した。動画共有サービスのニコニコ動画、YouTube(ユーチューブ)、Ustream(ユーストリーム)とポッドキャストによって公開されている日本語と英語の音声データを扱える。「PodCastle(ポッドキャッスル)」名でこの音声全文検索・書き起こしサービス(日本語版http://podcastle.jp/、英語版http://en.podcastle.jp/)を同日公開した。
産総研は、2008年に日本語のポッドキャストに限定した音声全文検索サービスを一般公開した。そのサービスは、機械による音声認識の誤りをユーザーが訂正できる独自のインターフェースを開発して実現した。これまでに12万件以上の音声データが登録され、実際に52万単語以上を訂正し、それらを学習することで音声認識の性能の向上を実証した。
今回そのシステムを発展させ、新たに3つの代表的な動画共有サービス、ニコニコ動画・YouTube・Ustreamに対応させると共に、複数のユーザーが協力し合って話者名や改行を入力しながら読みやすい書き起こしを作成できる機能を実現した。さらに、英語の動画音声データも音声認識と検索ができるようにした。
ユーザーが任意の検索語を入力すると、それを含む動画音声中の発言を検索でき、音声認識結果をウェブブラウザ上で閲覧、訂正しながら、元のウェブブサイト上にある動画音声データをストリーミング再生して視聴できる。
動画音声データは、テキスト(文字)データとは異なり、これまで発言内容などの詳細な情報の検索はできなかったが、新サービスの登場で今後はテキストデータと同様に音声データについても言語情報の多様な活用がやりやすくなる。たとえば、視聴の効率化や聴覚障害者支援、会議議事録作成などへの応用が期待できる。
産総研は、そうした展開を視野に入れ、今後産業界と連携して実用化を進めると共に、英語以外の言語への対応も検討したいとしている。
No.2011-41
2011年10月10日~2011年10月16日