(独)産業技術総合研究所は8日、マルチメディアのコンテンツを声で直接検索する技術を開発、検索システムを実証サイト(http://www.voiser.jp/)で公開すると発表した。
インターネット上には、膨大な情報が存在し、その中から必要な情報を検出し有効に活用するため、分類・分析・検索技術の必要性が高まっている。新システムは、検索語も声で入力可能で、高齢者や障害者など、キーボード入力が難しい情報弱者でもアクセスしやすくなる。
インターネットの動画配信や家庭での大容量録画機器の普及で、情報量が増えているにもかかわらず、そこから情報を取り出す効率的な検索は困難だった。そこで、音を符号化した上でマッチングを行う手法を採用。音を表現する符号としては、一般的に用いられる音素のようなローマ字表記相当の単位ではなく、より精密な単位として1980年代から田中和世氏(現筑波大教授)を中心に独自に研究を進めてきた音声を「音素片(SPS)」と呼ぶ精細な単位に分解・符号化するユニバーサル符号系を採用した。
ユニバーサル符号系は、国際音声記号に基づいて音声学的に定義されている言語非依存の技術で、多言語化や方言などへも容易に適用できる。この符号化した音素片に対して独自の高速検索処理を行うことで、辞書なしでの実用に耐える検索性能を達成した。
成果は、10月20、21日につくば市(茨城)の同研究所つくばセンターで開催した「オープンラボ」で公開した。
No.2008-39
2008年10月6日~2008年10月12日