■コネクテッドカーや自動運転には不可欠の技術

●認識精度の向上が今後の課題

音声認識はすでに一般的な技術となり、音声で操作できるカーナビや会話できるカーナビが増えています。ITS(高度道路安全システム)においては、運転中に視線を動かさずに安全に操作ができる点で注目されている技術です。

クルマの情報技術、安全技術が進む中で重要性が増している音声認識技術について、解説していきます。

●音声認識の仕組み

人間が何気なく理解している人の音声でも、コンピューターが理解するのは簡単ではありません。話す人の性別や年齢、癖や方言などさまざまな要因によって、同じ内容でも表現法が大きく異なるからです。

音声認識処理では、声の情報と言語の情報を綿密に組み合わせながら、以下の仕組みで音声を文字へ変換します。

・ドライバーが言葉を発すると、まず音声はコンピューターによって電気信号の波である音響モデルとして認識されます。

・コンピューターは、この波の大きさと周波数から、発せられた音声が何かを推定します。音響モデルは、数千人、数千時間にも及ぶ音声を統計的に処理したものをベースとしています。

・次に認識された音声と、あらかじめ登録してあった単語の標準パターンを照合し、発生された言葉に近いパターンを持つ単語を探し出します。

・最終的に、照合された単語の並びを文に変換して文章テキストとして認識します。

音声認識の基本的な仕組み
音声認識の基本的な仕組み

●音声認識の適用例

音声認識技術のクルマへの適用が注目されているのは、コネクテッドカーや自動運転技術にとって不可欠な技術であることと、認識精度が大きく向上したためです。

カーナビに音声認識技術を適用する場合、一般的には音声認識の情報処理はクラウドで行います。クラウドには、高速の処理能力と大容量のメモリー機能があるからです。

クラウド型の音声認識機能では、多くのクルマから収集分析した莫大な情報とリアルタイムの外部情報を使います。これらのデータベースを用いてルート検索や施設検索などの処理を行い、結果を車載器に配信します。

さらに音声認識だけでなく、AIを活用した会話型の認識機能を持ったシステムも登場しています。

TVコマーシャルで有名になった「ハイ、メルセデス」のメルセデス・ベンツAクラスは、最先端の会話型AIの音声インターフェースを装備しています。ボタンの代わりに「ハイ、メルセデス」という声掛けでクルマは起動し、「ちょっと暑い」といえばエアコンを操作して車室温を下げてくれるなど、従来のワンパターンなフレーズの会話でなく自然に自在な応答をしてくれます。

クラウド型音声認識システム
クラウド型音声認識システム

●音声認識の課題

さらなる認識精度の向上は、今後も課題でありポイントは以下の2つです。

一つ目は、計測精度の問題です。話す人が不特定多数である場合や雑音が多い周囲の環境が良くない場合は、ターゲット音声を特定するのが困難です。

二つ目は、コンピューターに登録しておく単語の標準パターンの完成度、音声認識技術における辞書の作り方の問題です。音声を照合するときに、発生された単語を見つけやすいような標準パターンを作る必要があります。

今後は上記の認識精度の向上をベースに、利用者の意図や状況を正確に理解した上で自然な会話ができるシステムが期待されています。


自動運転やコネクテッドカー技術を完成させる上で、AIによる音声認識技術の構築は不可欠です。認識できる単語や文章を増やすだけでなく、人間同士の会話のようなレベルに到達する必要があります。

本格的な自動運転の前にクリアすべき課題かもしれません。

(Mr.ソラン)