Qu'y a-t-il dans un chipset de reconnaissance vocale pour l'IoT ?

Créé: Mai 15, 2020
Mise à jour: Juillet 1, 2024
iotvoice large

Les capacités de reconnaissance vocale étaient autrefois limitées aux téléphones portables et à certains ordinateurs haut de gamme, mais désormais, tout, des voitures aux cafetières, inclut des capacités de reconnaissance ou d'activation vocale. Que vous développiez des produits industriels nécessitant de détecter des tons spécifiques dans des échantillons audio ou que vous souhaitiez crier sur votre climatiseur pour le pousser à fond, vous aurez besoin d'un jeu de puces complet pour la capture audio et la reconnaissance vocale.

Les capacités de reconnaissance vocale étaient auparavant définies au niveau logiciel à côté d'un ensemble hétérogène de matériel pour le conditionnement et le traitement du signal. L'ensemble de produits de jeu de puces de reconnaissance vocale de meilleure qualité et abordable actuel intègre de nombreuses fonctions auparavant séparées dans un seul CI. Si vous recherchez des composants de jeu de puces de reconnaissance vocale puissants pour des produits IoT, examinez les options ci-dessous.

Qu'est-ce qui rend la reconnaissance vocale réussie ?

La réponse à cette question ne se limite pas à choisir un microphone et un CAN avec la bonne bande passante. Les deux aspects de la construction d'un jeu de puces de reconnaissance vocale sont importants, mais aller au-delà de la simple enregistrement des données vocales nécessite quelques étapes de traitement. Après avoir converti l'audio capturé en signal numérique, certaines tâches de DSP doivent être effectuées pour fournir une expérience utilisateur significative.

Si vous avez déjà écouté un enregistrement de vous-même avec un microphone de qualité studio qui a été enregistré dans une pièce typique, vous pourriez remarquer certains artefacts qui doivent être supprimés pour une reconnaissance précise de la voix/parole. Une certaine classe de CI DSP audio, connus sous le nom de CI de champ lointain, sont idéaux pour supprimer les artefacts de signal en préparation de la reconnaissance de la parole. Ces composants fournissent certaines capacités importantes dans le cadre de la reconnaissance de la parole :

  • Contrôle actif du gain : En substance, cela écoute tout ce qui peut être classifié comme une voix humaine. Une fois une voix humaine identifiée, le processeur augmente le gain du signal capturé. Certains processeurs peuvent aller plus loin et modifier activement le gain à mesure que davantage de données sont capturées.
  • Formation de faisceau : Cela nécessite un réseau de microphones, qui peut être utilisé pour déterminer la direction d'une source sonore en détectant la phase entre différents signaux audio convertis. Si vous êtes familier avec les antennes à réseau phasé, alors ceci est simplement son analogue audio, c'est-à-dire, des microphones à réseau phasé.
  • Suppression de la réverbération et de l'écho : Les solutions de suppression d'écho peuvent également être mises en œuvre au niveau matériel en utilisant un réseau de microphones. Un écho fort reçu par un chipset de reconnaissance vocale peut créer une reconnaissance vocale inexacte, et les chances d'écho sont plus grandes lorsque l'appareil est plus éloigné de la source sonore. Des algorithmes peuvent également être utilisés avec des produits à microphone unique pour détecter les retards et supprimer les signaux retardés dans le domaine temporel ou fréquentiel.
  • Filtrage du bruit de référence : Cette fonctionnalité est assez importante dans les véhicules, où une source spécifique de bruit de fond peut être présente. Le bruit de fond peut se présenter sous forme de bruit de route/moteur, de la radio, ou d'une sirène dans le cas d'un véhicule d'urgence. Certains contrôleurs incluent un filtrage du bruit de référence au niveau matériel, ou cela peut être intégré avec un processeur externe (par exemple, MCU ou FPGA).

Une fois le signal vocal capturé prétraité, les mots peuvent être détectés à partir des modèles de parole avec des algorithmes mis en œuvre au niveau matériel ou logiciel. Sans entrer trop profondément dans le côté computationnel, l'objectif dans la reconnaissance vocale est de classer une série de signatures acoustiques en l'un des nombreux mots dans un grand dictionnaire de mots. Des modèles simples de traitement du langage naturel (NLP), tels qu'un classificateur Naive-Bayes, peuvent fournir une classification très précise tant que les bonnes étapes de traitement du signal sont effectuées.

Chipsets idéaux pour les produits IoT

En théorie, n'importe quel IC DSP, ou un MCU et un IC codec audio, pourrait être utilisé comme partie d'un chipset de reconnaissance vocale. Les produits présentés ci-dessous ne sont que quelques options orientées vers les applications de reconnaissance vocale.

Afin de fournir une latence suffisante pour ces étapes de prétraitement et de classification, tout IC DSP qui effectue une classification sur puce devrait fournir des vitesses de calcul d'au moins plusieurs MIPS. Les étapes de classification peuvent également nécessiter des centaines de milliers de calculs. Les E/S standard (c'est-à-dire, I2C et GPIO) sont également utiles pour l'interface avec d'autres composants de votre système. Vous pourriez avoir besoin d'un processeur externe pour mettre en œuvre la classification et limiter votre DSP à effectuer uniquement des étapes de prétraitement. Les composants ci-dessous montrent ce qui est possible avec les DSP actuels et à quoi s'attendre des SoCs à venir.

Microchip, DSPIC30F

La famille DSPIC30F de processeurs de signal de Microchip a été lancée avant que la reconnaissance vocale ne devienne un élément incontournable dans le nouveau matériel. Cette série de DSP IC était destinée à la production de musique numérique de qualité studio, mais Microchip a publié une bibliothèque de reconnaissance vocale pour étendre les applications disponibles avec cette série de composants. Les concepteurs peuvent intégrer ce composant dans des applications de reconnaissance vocale haut de gamme puisque cette série permet une capture audio jusqu'à 24 bits à haute fréquence (30 MIPS).

Schéma d'application DSPIC30F pour un chipset de reconnaissance vocale

Exemple de schéma d'application tiré de la [fiche technique DSPIC30F]

Texas Instruments, OMAP5910JZZG2

Le DSP OMAP5910JZZG2 de Texas Instruments est un DSP très adaptable pour une gamme d'applications, y compris l'accélération vidéo, la reconnaissance vocale, le chiffrement/déchiffrement et le tatouage d'images/vidéos. Ce dispositif à faible consommation intègre un certain nombre de fonctions directement sur la puce, y compris une interface hôte, 10 GPIOs et d'autres périphériques. Bien qu'il s'agisse d'un DSP plus ancien, il reste une option puissante pour le prétraitement des signaux vocaux et est toujours en production.

Synaptics, CX20921-21Z

Le SoC CX20921-21Z de Synaptics trouve généralement sa place dans les systèmes de maison intelligente. Les concepteurs souhaitant s'intégrer avec Microsoft Cortana ou Amazon Alexa auront accès à un SDK pour le développement d'applications embarquées. Ce composant peut être utilisé avec des réseaux de 2 ou 4 microphones. Il capture la voix en 24 bits et avec une plage dynamique de 106 dB. Les taux d'échantillonnage disponibles varient de 8 kHz à 96 kHz par canal de microphone.

Carte d'évaluation du chipset de reconnaissance vocale CX20921-21Z

Carte d'évaluation pour le SoC CX20921-21Z de Synaptics. Tiré du Kit de développement Synaptics AudioSmart.

La révolution de l'IoT ne montre aucun signe de ralentissement, et de nouveaux SoC intégrant la capture, le conditionnement, le traitement et le contrôle système arriveront bientôt sur le marché à grande échelle. Lorsque vous recherchez le chipset de reconnaissance vocale le plus récent et le plus avancé, vous pouvez trouver les composants dont vous avez besoin sur Octopart.

Restez à jour avec nos derniers articles en vous inscrivant à notre newsletter.

Ressources associées

Retournez à la Page d'Accueil
Thank you, you are now subscribed to updates.