サインイン

IoT向け音声認識チップセットには何が含まれているのか？

投稿日 2020/05/15 金曜日
更新日 2024/07/1 月曜日

音声認識機能はかつては携帯電話や一部の高性能コンピューターに限定されていましたが、現在では自動車からコーヒーメーカーまで、音声認識または音声起動機能を備えた製品が増えています。オーディオサンプルで特定の音を検出する必要がある産業製品を開発している場合でも、エアコンを大声でオーバードライブさせたい場合でも、音声キャプチャと音声認識のための完全なチップセットが必要になります。

音声認識機能はかつてはソフトウェアレベルで定義され、信号の調整と処理のためのさまざまなハードウェアと組み合わせられていました。現在の最高クラスの手頃な価格の音声認識チップセット製品は、以前は分離されていた多くの機能を単一のICに統合しています。IoT製品用の強力な音声認識チップセットコンポーネントを探している場合は、以下のオプションをご覧ください。

成功する音声認識とは何か？

この質問への答えは、適切な帯域幅を持つマイクロフォンとADCを選択すること以上のものです。音声認識チップセットを構築する両方の側面が重要ですが、単に音声データを記録するだけを超えるには、いくつかの処理ステップが必要です。キャプチャされたオーディオをデジタル信号に変換した後、意味のあるユーザーエクスペリエンスを提供するためには、いくつかのDSPタスクを実行する必要があります。

もし、あなたが典型的な部屋で録音されたスタジオ品質のマイクロフォンで自分自身の録音を聞いたことがあるなら、正確な音声/話し言葉の認識のために除去する必要があるアーティファクトに気づくかもしれません。遠距離ICとして知られる特定のクラスのオーディオDSP ICは、音声認識の準備として信号アーティファクトを除去するのに理想的です。これらのコンポーネントは、音声認識の一部としていくつかの重要な機能を提供します：

アクティブゲイン制御：基本的に、これは人間の声と分類できるものを聞き取ります。人間の声が識別されると、プロセッサはキャプチャされた信号のゲインを増加させます。一部のプロセッサはさらに一歩進んで、より多くのデータがキャプチャされるにつれてゲインを積極的に変更することができます。
ビームフォーミング：これにはマイクのアレイが必要で、異なる変換されたオーディオ信号間の位相を検出することで音源の方向を特定することができます。位相配列アンテナに精通している場合、これは単にそのオーディオアナログ、つまり位相配列マイクです。
リバーブおよびエコー抑制：エコー抑制ソリューションは、マイクアレイを使用してハードウェアレベルで実装することもできます。音声認識チップセットによって受信された強いエコーは、音声認識の不正確さを引き起こす可能性があり、デバイスが音源から大きく離れている場合、エコーの可能性は高くなります。アルゴリズムは、単一マイク製品とともに使用して、遅延を検出し、時間領域または周波数領域で遅延信号を抑制することもできます。
参照ノイズフィルタリング：この機能は、特定の背景ノイズの源が存在する可能性がある車両内で非常に重要です。背景ノイズは、道路/エンジンノイズ、ラジオ、または緊急車両の場合はサイレンとして存在する可能性があります。一部のコントローラーは、ハードウェアレベルで参照ノイズフィルタリングを含んでいるか、またはこれを外部プロセッサ（例：MCUまたはFPGA）と統合することができます。

キャプチャされた音声信号が事前処理されると、ハードウェアまたはソフトウェアレベルで実装されたアルゴリズムを使用して、音声パターンから単語を検出することができます。計算の側面に深く入り込むことなく、音声認識の目標は、多くの単語の大きな辞書の1つに一連の音響シグネチャを分類することです。ナイーブベイズ分類器などのシンプルな自然言語処理（NLP）モデルは、適切な信号処理ステップが実行される限り、非常に正確な分類を提供することができます。

IoT製品に最適なチップセット

理論的には、任意のDSP IC、またはMCUとオーディオコーデックICを音声認識チップセットの一部として使用することができます。以下に示されている製品は、音声認識アプリケーションに向けたいくつかのオプションです。

これらの事前処理および分類ステップに十分なレイテンシを提供するためには、オンチップ分類を実行する任意のDSP ICは、少なくとも数MIPSの計算速度を提供する必要があります。分類ステップには数十万の計算も必要になることがあります。標準のI/O（つまり、I2CおよびGPIO）も、システム内の他のコンポーネントとのインターフェースに役立ちます。分類を実装するために外部プロセッサが必要になる場合があり、DSPを事前処理ステップのみに限定する必要があるかもしれません。以下のコンポーネントは、現在のDSPが何ができるか、および今後のSoCから何を期待するかを示しています。

Microchip, DSPIC30F

DSPIC30Fファミリーのシグナルプロセッサは、音声認識が新しいハードウェアの定番となる前にMicrochipからリリースされました。このDSP ICシリーズは、スタジオグレードのデジタル音楽制作を目的としていましたが、Microchipはこのシリーズのコンポーネントで利用可能なアプリケーションを拡張するために音声認識ライブラリーをリリースしました。このシリーズは高周波（30 MIPS）で最大24ビットのオーディオキャプチャを提供するため、設計者はこれを使用してより高度な音声認識アプリケーションに取り組むことができます。

[DSPIC30Fデータシート]からのアプリケーション例

Texas Instruments, OMAP5910JZZG2

Texas InstrumentsのOMAP5910JZZG2 DSPは、ビデオアクセラレーション、音声認識、暗号化/復号化、画像/ビデオのウォーターマーキングなど、さまざまなアプリケーションに適応可能な高性能DSPです。この低消費電力デバイスは、ホストインターフェース、10個のGPIO、その他の周辺機器をチップ上に直接統合しています。これは古いDSPですが、音声信号の前処理に依然として強力なオプションであり、現在も生産中です。

Synaptics, CX20921-21Z

SynapticsのCX20921-21Z SoCは、通常、スマートホームシステムで使用されます。Microsoft CortanaやAmazon Alexaとの統合を希望する設計者は、組み込みアプリケーション開発用のSDKにアクセスできます。このコンポーネントは2マイクロフォンまたは4マイクロフォンアレイで使用できます。24ビットで106 dBのダイナミックレンジで音声をキャプチャします。利用可能なサンプルレートは、マイクロフォンチャンネルごとに8 kHzから96 kHzの範囲です。