ロボット向けの開発に期待!現代の音声認識の進化と未来の活躍を考察する

音声認識の技術はここ近年目覚ましい進化を遂げています。それは、IT業界のブレイクスルーといっても過言ではありません。現在では、一般的に知られている以上にさまざまなシーンで活用されています。

同時にエンジニアとしては非常にクリエイティビティをそそられる技術です。現時点での音声認識が持つポテンシャルについては知っておきたいですね。今回は音声認識が具体的に活用されている現場をご紹介するとともに、今後の音声認識の可能性について考察していきます。

音声認識が抱える課題「認識率」

20160927_4

現在、音声認識システムの水準を判断する基準として音声の認識率があります。認識率が低ければ、音声が認識されない、もしくは誤認識される可能性が高くなります。さらに、この認識率は音声が発せられる環境や声の違いによって左右されます。

NHKはニュースの字幕表示に音声認識システムを利用しています。はっきりと聞きやすい発音を心がけてくれるアナウンサーの音声はおおむね正しく認識されるようですが、それ以外の一般ゲストの音声に対する認識率は非常に低いのが現状のようです。NHKは対策として雑音がシャットアウトされた別スタジオにて、ゲストの発言をはっきりと復唱し、音声認識システムに改めて認識させる、という試みを行っています。NHK技研は会話のサンプルを集め認識システムの精度を高めていく予定ですが、あくまで現時点では一般的な会話を認識する水準に達していない、と言うしかないでしょう。

このように音声認識システムにおいて、音声の認識率向上は大きな課題です。そもそも正しく認識されなければ使いものになりません。NHKの例のように、現状の音声認識システムの認識率そのものは決して高くなく、人間や他のシステムによるサポートが必要となっています。

音声を理解するロボット

20160927_5

音声を正しく認識し、テキスト化する。ただそれだけでもひと昔前であれば革新的な技術でした。しかし、現在は認識した音声は何か他のファンクションのトリガーとなって当たり前の時代です。デバイスに「認識と理解」をさせてこそ、現代の音声認識技術と言えるでしょう。

たとえば、iPhoneの音声アシスタント「Siri」ように、音声の認識を端末で行い、認識した音の理解をクラウドで行う、というシステムが一般的になっています。「アドバンスト・メディア」が無償提供を開始した「AmiVoice Robot SDK」もそのシステムを採用している開発キットのひとつです。AmiVoice Robot SDKはIoTデバイスの他、ロボットへの実装が想定されています。

ロボットが音声を理解する。人間の特権だった言語の相互理解がロボットでも可能になるということです。ここから見えてくるのはロボットが人間に置き換わる未来です。ロボットが労働力となる、もしくはプライベートの相談役になるような、まるでSFのような時代がやって来るのかもしれません。

音声認識と人工知能のシナジー

20160927_6

音声認識の長年の課題である認識率の向上を助け、同時にロボットへの実装をしやすくしている存在が「人工知能」です。音声認識と人工知能。この2つの技術は相互をけん引しあうとともに、絶妙なシナジーを生み出し続けています。
たとえば、音声認識率の向上も人工知能による恩恵だと言われています。数年前は70%程度だった認識率も人工知能を組み込むことにより90%まで向上しました。将来的には99%まで達する見込みです。

この変化をもたらしたのが近年生まれた人工知能テクノロジー「ディープラーニング」です。ディープラーニングはいわば、人工知能による「学習」を可能にするテクノロジー。我々人間も学習して会話できるようになったように、音声認識システムも環境や声の違いによる認識の難しさをディープラーニングによる学習でカバーします。

ディープラーニングは音声がテキスト化された後のプロセスにも活かされようとしています。ロボットに期待されているようなテキスト化された音声の理解、そしてその後の応答を決める判断まで、まるで人間の脳がそうしているように、すべての処理と学習をディープラーニングが担うことになるのです。iPhoneの「Siri」からわかるように、現状ではまだ人工知能に適応されている「理解」技術、「判断」技術は十分ではありません。しかし、ディープラーニングによって学習を続けた人工知能が人間と同じような会話ができるようになったとしたら、コミュニケーションにおいて人間との違いはあるのでしょうか。

音声認識によりデバイスとの接し方は大きく変わる

20160927_7

これまで、想像し得る限りの音声認識の可能性は、あくまでアシスタント的役割を果たすものでした。しかし、人工知能の登場により、その可能性は未知数となっています。ひとつだけ確かなのは、「人とデバイスの接し方は大きく変わっていく」ということです。

パソコン、スマートフォン、スマートウォッチ、そのほかさまざまなIoTデバイスに実装され得る人工知能と音声認識。言葉が伝わり、判断できる個体が溢れることになります。もはや、音声認識は単なるユーザーインターフェイスを超越した存在となっていくでしょう。音声認識の可能性に限界を設けないためにも、エンジニアは「音声認識はユーザーインターフェイスである」という見解から改めるべきかもしれません。

関連する記事

facebook

案件情報や最新記事をお届けします。
ぜひチェックしてみてください。