Logo ja.androidermagazine.com
Logo ja.androidermagazine.com

Googleが音声検索の背後にある技術を更新して、より高速で正確に

Anonim

Googleは、音声検索を強化するための新しいテクノロジーを構築しました。これにより、さらに高速かつ正確になります。 この新技術では、コネクショニストの一時的分類(CTC)とシーケンス識別トレーニング技術を使用しています。 2012年、GoogleはGaussian Mixture Model(GMM)からDeep Neural Networks(DNN)に切り替えました。これにより、同社はその時点でユーザーがどのサウンドを生成しているかをより正確に評価でき、音声認識の精度が向上しました。

改良された音響モデルは、リカレントニューラルネットワーク(RNN)に依存しています。 RNNのトポロジーにはフィードバックループがあり、一時的な依存関係をモデル化できます:前の例でユーザーが/ u /を話すとき、その調音装置は/ j /音と/ m /音から来ます。 大声で言ってみてください-「博物館」-それは一息で非常に自然に流れ、RNNはそれを捕らえることができます。 ここで使用されるRNNの種類は、Long Short-Term Memory(LSTM)RNNです。これは、メモリセルと洗練されたゲーティングメカニズムにより、他のRNNよりも情報をよりよく記憶します。 このようなモデルを採用することで、認識エンジンの品質が大幅に向上しました。

テクノロジーの変更はGoogleによって行われ、iOSとAndroidの両方のGoogleアプリでの音声検索、およびAndroidデバイスのディクテーションの強化に使用されています。

出典:Google Researchブログ