音声認識機能はかつては携帯電話や一部の高性能コンピューターに限定されていましたが、現在では自動車からコーヒーメーカーまで、音声認識または音声起動機能を備えた製品が増えています。オーディオサンプルで特定の音を検出する必要がある産業製品を開発している場合でも、エアコンを大声でオーバードライブさせたい場合でも、音声キャプチャと音声認識のための完全なチップセットが必要になります。
音声認識機能はかつてはソフトウェアレベルで定義され、信号の調整と処理のためのさまざまなハードウェアと組み合わせられていました。現在の最高クラスの手頃な価格の音声認識チップセット製品は、以前は分離されていた多くの機能を単一のICに統合しています。IoT製品用の強力な音声認識チップセットコンポーネントを探している場合は、以下のオプションをご覧ください。
この質問への答えは、適切な帯域幅を持つマイクロフォンとADCを選択すること以上のものです。音声認識チップセットを構築する両方の側面が重要ですが、単に音声データを記録するだけを超えるには、いくつかの処理ステップが必要です。キャプチャされたオーディオをデジタル信号に変換した後、意味のあるユーザーエクスペリエンスを提供するためには、いくつかのDSPタスクを実行する必要があります。
もし、あなたが典型的な部屋で録音されたスタジオ品質のマイクロフォンで自分自身の録音を聞いたことがあるなら、正確な音声/話し言葉の認識のために除去する必要があるアーティファクトに気づくかもしれません。遠距離ICとして知られる特定のクラスのオーディオDSP ICは、音声認識の準備として信号アーティファクトを除去するのに理想的です。これらのコンポーネントは、音声認識の一部としていくつかの重要な機能を提供します:
キャプチャされた音声信号が事前処理されると、ハードウェアまたはソフトウェアレベルで実装されたアルゴリズムを使用して、音声パターンから単語を検出することができます。計算の側面に深く入り込むことなく、音声認識の目標は、多くの単語の大きな辞書の1つに一連の音響シグネチャを分類することです。ナイーブベイズ分類器などのシンプルな自然言語処理(NLP)モデルは、適切な信号処理ステップが実行される限り、非常に正確な分類を提供することができます。
理論的には、任意のDSP IC、またはMCUとオーディオコーデックICを音声認識チップセットの一部として使用することができます。以下に示されている製品は、音声認識アプリケーションに向けたいくつかのオプションです。
これらの事前処理および分類ステップに十分なレイテンシを提供するためには、オンチップ分類を実行する任意のDSP ICは、少なくとも数MIPSの計算速度を提供する必要があります。分類ステップには数十万の計算も必要になることがあります。標準のI/O(つまり、I2CおよびGPIO)も、システム内の他のコンポーネントとのインターフェースに役立ちます。分類を実装するために外部プロセッサが必要になる場合があり、DSPを事前処理ステップのみに限定する必要があるかもしれません。以下のコンポーネントは、現在のDSPが何ができるか、および今後のSoCから何を期待するかを示しています。
DSPIC30Fファミリーのシグナルプロセッサは、音声認識が新しいハードウェアの定番となる前にMicrochipからリリースされました。このDSP ICシリーズは、スタジオグレードのデジタル音楽制作を目的としていましたが、Microchipはこのシリーズのコンポーネントで利用可能なアプリケーションを拡張するために音声認識ライブラリーをリリースしました。このシリーズは高周波(30 MIPS)で最大24ビットのオーディオキャプチャを提供するため、設計者はこれを使用してより高度な音声認識アプリケーションに取り組むことができます。
[DSPIC30Fデータシート]からのアプリケーション例
Texas InstrumentsのOMAP5910JZZG2 DSPは、ビデオアクセラレーション、音声認識、暗号化/復号化、画像/ビデオのウォーターマーキングなど、さまざまなアプリケーションに適応可能な高性能DSPです。この低消費電力デバイスは、ホストインターフェース、10個のGPIO、その他の周辺機器をチップ上に直接統合しています。これは古いDSPですが、音声信号の前処理に依然として強力なオプションであり、現在も生産中です。
SynapticsのCX20921-21Z SoCは、通常、スマートホームシステムで使用されます。Microsoft CortanaやAmazon Alexaとの統合を希望する設計者は、組み込みアプリケーション開発用のSDKにアクセスできます。このコンポーネントは2マイクロフォンまたは4マイクロフォンアレイで使用できます。24ビットで106 dBのダイナミックレンジで音声をキャプチャします。利用可能なサンプルレートは、マイクロフォンチャンネルごとに8 kHzから96 kHzの範囲です。
SynapticsのCX20921-21Z SoC用の評価ボード。Synaptics AudioSmart開発キットから。
IoT革命は鈍化する兆しを見せず、キャプチャ、コンディショニング、処理、システム制御を統合した新しいSoCが間もなく大規模に市場に登場します。最新かつ最先端の音声認識チップセットを探しているときは、Octopartで必要なコンポーネントを見つけることができます。
最新の記事を読むために、ニュースレターに登録してください。