As capacidades de reconhecimento de voz costumavam ser limitadas a celulares e alguns computadores de alta gama, mas agora tudo, desde carros até cafeteiras, inclui capacidades de reconhecimento ou ativação por voz. Seja você um desenvolvedor de produtos industriais que precisa detectar tons específicos em amostras de áudio ou se você quer gritar com seu ar-condicionado para aumentar a potência, você precisará de um chipset completo para captura de áudio e reconhecimento de voz.
As capacidades de reconhecimento de voz costumavam ser definidas no nível do software junto com uma mistura de hardware para condicionamento e processamento de sinal. O conjunto atual de produtos de chipset de reconhecimento de voz de melhor classe e acessíveis integra muitas funções anteriormente separadas em um único CI. Se você está procurando por componentes de chipset de reconhecimento de voz poderosos para produtos de IoT, dê uma olhada nas opções abaixo.
A resposta para esta pergunta é mais do que selecionar um microfone e um ADC com a largura de banda certa. Ambos os aspectos da construção de um chipset de reconhecimento de voz são importantes, mas ir além de simplesmente gravar dados de voz requer algumas etapas de processamento. Após converter o áudio capturado em um sinal digital, algumas tarefas de DSP devem ser realizadas para fornecer uma experiência significativa ao usuário.
Se você já ouviu uma gravação de si mesmo com um microfone de qualidade de estúdio que foi gravado em uma sala típica, você pode notar alguns artefatos que precisam ser removidos para um reconhecimento preciso de voz/fala. Uma certa classe de CIs de DSP de áudio, conhecidos como CIs de campo distante, são ideais para remover artefatos de sinal em preparação para o reconhecimento de fala. Esses componentes fornecem algumas capacidades importantes como parte do reconhecimento de fala:
Uma vez que o sinal de voz capturado é pré-processado, palavras podem ser detectadas a partir de padrões de fala com algoritmos implementados nos níveis de hardware ou software. Sem entrar muito na parte computacional, o objetivo no reconhecimento de fala é classificar uma série de assinaturas acústicas em uma de muitas palavras em um grande dicionário de palavras. Modelos simples de processamento de linguagem natural (PLN), como um classificador Naive-Bayes, podem fornecer classificação altamente precisa, desde que os passos corretos de processamento de sinal sejam realizados.
Em teoria, qualquer IC DSP, ou um MCU e um IC de codec de áudio, poderiam ser usados como parte de um chipset de reconhecimento de voz. Os produtos mostrados abaixo são apenas algumas opções voltadas para aplicações de reconhecimento de fala.
Para fornecer latência suficiente para esses passos de pré-processamento e classificação, qualquer IC DSP que realize classificação on-chip deve fornecer velocidades de cálculo de pelo menos vários MIPS. Os passos de classificação também podem levar centenas de milhares de cálculos. I/Os padrão (ou seja, I2C e GPIO) também são úteis para a interface com outros componentes no seu sistema. Você pode precisar de um processador externo para implementar a classificação e limitar seu DSP a realizar apenas passos de pré-processamento. Os componentes abaixo mostram o que é capaz dos DSPs atuais e o que esperar dos próximos SoCs.
A família DSPIC30F de processadores de sinal da Microchip foi lançada antes de o reconhecimento de voz se tornar um padrão em novos hardwares. Esta série de ICs DSP foi destinada para produção de música digital de qualidade de estúdio, mas a Microchip lançou uma biblioteca de reconhecimento de fala para expandir as aplicações disponíveis com esta série de componentes. Os designers podem trazer este componente para algumas aplicações de reconhecimento de voz de alta qualidade, já que esta série oferece captura de áudio de até 24 bits a alta frequência (30 MIPS).
Diagrama de aplicação exemplo do [datasheet DSPIC30F]
O DSP OMAP5910JZZG2 da Texas Instruments é um DSP altamente adaptável para uma gama de aplicações, incluindo aceleração de vídeo, reconhecimento de fala, criptografia/descriptografia e marca d'água em imagem/vídeo. Este dispositivo de baixo consumo integra várias funções diretamente no chip, incluindo uma interface de host, 10 GPIOs e outros periféricos. Embora seja um DSP mais antigo, ainda é uma opção poderosa para pré-processamento de sinais de voz e ainda está em produção.
O SoC CX20921-21Z da Synaptics normalmente encontra seu lugar em sistemas de casa inteligente. Designers que desejam integrar com Microsoft Cortana ou Amazon Alexa terão acesso a um SDK para desenvolvimento de aplicativos embarcados. Este componente pode ser usado com arrays de 2 ou 4 microfones. Ele captura voz em 24 bits e com 106 dB de faixa dinâmica. As taxas de amostragem disponíveis variam de 8 kHz a 96 kHz por canal de microfone.
Placa de avaliação para o SoC CX20921-21Z da Synaptics. Do Kit de Desenvolvimento Synaptics AudioSmart.
A revolução da IoT não mostra sinais de desaceleração, e novos SoCs que integram captura, condicionamento, processamento e controle do sistema chegarão ao mercado em grande escala em breve. Quando você estiver procurando pelo chipset de reconhecimento de voz mais novo e avançado, você pode encontrar os componentes de que precisa na Octopart.
Mantenha-se atualizado com nossos últimos artigos assinando nossa newsletter.