음성 인식 기능은 예전에는 휴대폰과 일부 고급 컴퓨터에 국한되었지만, 이제는 자동차부터 커피 메이커까지 음성 인식 또는 음성 활성화 기능을 포함하고 있습니다. 오디오 샘플에서 특정 톤을 감지해야 하는 산업 제품을 개발하든, 에어컨을 과속으로 작동시키고 싶든, 오디오 캡처와 음성 인식을 위한 완전한 칩셋이 필요할 것입니다.
음성 인식 기능은 소프트웨어 수준에서 정의되었으며 신호 조절 및 처리를 위한 다양한 하드웨어와 함께 사용되었습니다. 현재 최고의 가성비를 자랑하는 음성 인식 칩셋 제품군은 많은 기능을 하나의 IC로 통합하여 제공합니다. IoT 제품을 위한 강력한 음성 인식 칩셋 구성 요소를 찾고 있다면 아래 옵션을 살펴보세요.
이 질문에 대한 답은 적절한 대역폭을 가진 마이크와 ADC를 선택하는 것보다 더 많은 것을 포함합니다. 음성 인식 칩셋을 구축하는 데 있어 두 가지 측면 모두 중요하지만, 단순히 음성 데이터를 녹음하는 것을 넘어서는 일부 처리 단계가 필요합니다. 캡처된 오디오를 디지털 신호로 변환한 후, 의미 있는 사용자 경험을 제공하기 위해 일부 DSP 작업을 수행해야 합니다.
일반적인 방에서 스튜디오 품질의 마이크로 자신의 녹음을 들어본 적이 있다면, 정확한 음성/화자 인식을 위해 제거해야 할 일부 아티팩트를 알아차릴 수 있습니다. 이러한 문제를 해결하기 위해 설계된 특정 클래스의 오디오 DSP IC, 즉 원거리 IC는 음성 인식 준비를 위한 신호 아티팩트 제거에 이상적입니다. 이러한 구성 요소는 음성 인식의 일부로 중요한 기능을 제공합니다:
캡처된 음성 신호가 사전 처리되면, 하드웨어 또는 소프트웨어 수준에서 구현된 알고리즘을 사용하여 음성 패턴에서 단어를 감지할 수 있습니다. 계산 측면으로 너무 깊이 들어가지 않고, 음성 인식의 목표는 많은 단어의 큰 사전 중 하나로 일련의 음향 서명을 분류하는 것입니다. 단순한 자연어 처리(NLP) 모델, 예를 들어 나이브 베이즈 분류기는 올바른 신호 처리 단계가 수행되는 한 매우 정확한 분류를 제공할 수 있습니다.
이론적으로, 어떤 DSP IC나 MCU 및 오디오 코덱 IC도 음성 인식 칩셋의 일부로 사용될 수 있습니다. 아래에 표시된 제품들은 음성 인식 응용 프로그램을 위해 특별히 고안된 몇 가지 옵션일 뿐입니다.
이러한 사전 처리 및 분류 단계에 충분한 대기 시간을 제공하기 위해, 칩 내 분류를 수행하는 모든 DSP IC는 적어도 수백만 MIPS의 계산 속도를 제공해야 합니다. 분류 단계는 또한 수십만 번의 계산을 필요로 할 수 있습니다. 표준 I/O(예: I2C 및 GPIO)는 시스템의 다른 구성 요소와 인터페이스하는 데에도 유용합니다. 분류를 구현하기 위해 외부 프로세서가 필요할 수 있으며, DSP를 사전 처리 단계만 수행하도록 제한할 수 있습니다. 아래의 구성 요소들은 현재 DSP에서 가능한 것과 다가오는 SoC에서 기대할 수 있는 것을 보여줍니다.
DSPIC30F 시리즈 신호 프로세서는 음성 인식이 새로운 하드웨어의 필수 요소가 되기 전에 Microchip에서 출시되었습니다. 이 DSP IC 시리즈는 스튜디오급 디지털 음악 제작을 위해 설계되었지만, Microchip은 이 시리즈의 컴포넌트로 가능한 응용 프로그램을 확장하기 위해 음성 인식 라이브러리를 출시했습니다. 디자이너들은 이 시리즈가 고주파수(30 MIPS)에서 최대 24비트 오디오 캡처를 제공함으로써 일부 고급 음성 인식 응용 프로그램에 이 컴포넌트를 도입할 수 있습니다.
[DSPIC30F 데이터시트]에서 가져온 예제 응용 다이어그램
Texas Instruments의 OMAP5910JZZG2 DSP는 비디오 가속, 음성 인식, 암호화/복호화, 이미지/비디오 워터마킹 등 다양한 응용 프로그램에 적합한 매우 적응성이 높은 DSP입니다. 이 저전력 장치는 호스트 인터페이스, 10개의 GPIO 및 기타 주변 장치를 포함하여 다양한 기능을 칩에 직접 통합합니다. 이 DSP는 오래된 모델이지만, 음성 신호의 사전 처리를 위한 강력한 옵션이며 여전히 생산 중입니다.
Synaptics의 CX20921-21Z SoC는 일반적으로 스마트 홈 시스템에서 자리잡고 있습니다. Microsoft Cortana나 Amazon Alexa와 통합하고자 하는 디자이너들은 임베디드 애플리케이션 개발을 위한 SDK에 접근할 수 있습니다. 이 컴포넌트는 2개 또는 4개의 마이크로폰 어레이와 함께 사용할 수 있습니다. 24비트 및 106 dB의 다이내믹 레인지로 음성을 캡처합니다. 사용 가능한 샘플 레이트는 마이크로폰 채널당 8kHz에서 96kHz까지 다양합니다.
Synaptics의 CX20921-21Z SoC를 위한 평가 보드. Synaptics AudioSmart 개발 키트에서 가져옴.
IoT 혁명은 둔화될 기미가 보이지 않으며, 캡처, 컨디셔닝, 처리, 시스템 제어를 통합한 새로운 SoC가 곧 대규모로 시장에 출시될 것입니다. 가장 새롭고 가장 진보된 음성 인식 칩셋을 찾고 있다면, Octopart에서 필요한 컴포넌트를 찾을 수 있습니다.
우리의 최신 기사를 계속해서 업데이트하려면 뉴스레터에 등록하세요.