Les capacités de reconnaissance vocale étaient autrefois limitées aux téléphones portables et à certains ordinateurs haut de gamme, mais désormais, tout, des voitures aux cafetières, inclut des capacités de reconnaissance ou d'activation vocale. Que vous développiez des produits industriels nécessitant de détecter des tons spécifiques dans des échantillons audio ou que vous souhaitiez crier sur votre climatiseur pour le pousser à fond, vous aurez besoin d'un jeu de puces complet pour la capture audio et la reconnaissance vocale.
Les capacités de reconnaissance vocale étaient auparavant définies au niveau logiciel à côté d'un ensemble hétérogène de matériel pour le conditionnement et le traitement du signal. L'ensemble de produits de jeu de puces de reconnaissance vocale de meilleure qualité et abordable actuel intègre de nombreuses fonctions auparavant séparées dans un seul CI. Si vous recherchez des composants de jeu de puces de reconnaissance vocale puissants pour des produits IoT, examinez les options ci-dessous.
La réponse à cette question ne se limite pas à choisir un microphone et un CAN avec la bonne bande passante. Les deux aspects de la construction d'un jeu de puces de reconnaissance vocale sont importants, mais aller au-delà de la simple enregistrement des données vocales nécessite quelques étapes de traitement. Après avoir converti l'audio capturé en signal numérique, certaines tâches de DSP doivent être effectuées pour fournir une expérience utilisateur significative.
Si vous avez déjà écouté un enregistrement de vous-même avec un microphone de qualité studio qui a été enregistré dans une pièce typique, vous pourriez remarquer certains artefacts qui doivent être supprimés pour une reconnaissance précise de la voix/parole. Une certaine classe de CI DSP audio, connus sous le nom de CI de champ lointain, sont idéaux pour supprimer les artefacts de signal en préparation de la reconnaissance de la parole. Ces composants fournissent certaines capacités importantes dans le cadre de la reconnaissance de la parole :
Une fois le signal vocal capturé prétraité, les mots peuvent être détectés à partir des modèles de parole avec des algorithmes mis en œuvre au niveau matériel ou logiciel. Sans entrer trop profondément dans le côté computationnel, l'objectif dans la reconnaissance vocale est de classer une série de signatures acoustiques en l'un des nombreux mots dans un grand dictionnaire de mots. Des modèles simples de traitement du langage naturel (NLP), tels qu'un classificateur Naive-Bayes, peuvent fournir une classification très précise tant que les bonnes étapes de traitement du signal sont effectuées.
En théorie, n'importe quel IC DSP, ou un MCU et un IC codec audio, pourrait être utilisé comme partie d'un chipset de reconnaissance vocale. Les produits présentés ci-dessous ne sont que quelques options orientées vers les applications de reconnaissance vocale.
Afin de fournir une latence suffisante pour ces étapes de prétraitement et de classification, tout IC DSP qui effectue une classification sur puce devrait fournir des vitesses de calcul d'au moins plusieurs MIPS. Les étapes de classification peuvent également nécessiter des centaines de milliers de calculs. Les E/S standard (c'est-à-dire, I2C et GPIO) sont également utiles pour l'interface avec d'autres composants de votre système. Vous pourriez avoir besoin d'un processeur externe pour mettre en œuvre la classification et limiter votre DSP à effectuer uniquement des étapes de prétraitement. Les composants ci-dessous montrent ce qui est possible avec les DSP actuels et à quoi s'attendre des SoCs à venir.
La famille DSPIC30F de processeurs de signal de Microchip a été lancée avant que la reconnaissance vocale ne devienne un élément incontournable dans le nouveau matériel. Cette série de DSP IC était destinée à la production de musique numérique de qualité studio, mais Microchip a publié une bibliothèque de reconnaissance vocale pour étendre les applications disponibles avec cette série de composants. Les concepteurs peuvent intégrer ce composant dans des applications de reconnaissance vocale haut de gamme puisque cette série permet une capture audio jusqu'à 24 bits à haute fréquence (30 MIPS).
Exemple de schéma d'application tiré de la [fiche technique DSPIC30F]
Le DSP OMAP5910JZZG2 de Texas Instruments est un DSP très adaptable pour une gamme d'applications, y compris l'accélération vidéo, la reconnaissance vocale, le chiffrement/déchiffrement et le tatouage d'images/vidéos. Ce dispositif à faible consommation intègre un certain nombre de fonctions directement sur la puce, y compris une interface hôte, 10 GPIOs et d'autres périphériques. Bien qu'il s'agisse d'un DSP plus ancien, il reste une option puissante pour le prétraitement des signaux vocaux et est toujours en production.
Le SoC CX20921-21Z de Synaptics trouve généralement sa place dans les systèmes de maison intelligente. Les concepteurs souhaitant s'intégrer avec Microsoft Cortana ou Amazon Alexa auront accès à un SDK pour le développement d'applications embarquées. Ce composant peut être utilisé avec des réseaux de 2 ou 4 microphones. Il capture la voix en 24 bits et avec une plage dynamique de 106 dB. Les taux d'échantillonnage disponibles varient de 8 kHz à 96 kHz par canal de microphone.
Carte d'évaluation pour le SoC CX20921-21Z de Synaptics. Tiré du Kit de développement Synaptics AudioSmart.
La révolution de l'IoT ne montre aucun signe de ralentissement, et de nouveaux SoC intégrant la capture, le conditionnement, le traitement et le contrôle système arriveront bientôt sur le marché à grande échelle. Lorsque vous recherchez le chipset de reconnaissance vocale le plus récent et le plus avancé, vous pouvez trouver les composants dont vous avez besoin sur Octopart.
Restez à jour avec nos derniers articles en vous inscrivant à notre newsletter.