IoT용 음성 인식 칩셋에는 무엇이 들어있나요?

작성 날짜: 2020/05/15 금요일
업데이트 날짜: 2024/07/1 월요일

음성 인식 기능은 예전에는 휴대폰과 일부 고급 컴퓨터에 국한되었지만, 이제는 자동차부터 커피 메이커까지 음성 인식 또는 음성 활성화 기능을 포함하고 있습니다. 오디오 샘플에서 특정 톤을 감지해야 하는 산업 제품을 개발하든, 에어컨을 과속으로 작동시키고 싶든, 오디오 캡처와 음성 인식을 위한 완전한 칩셋이 필요할 것입니다.

음성 인식 기능은 소프트웨어 수준에서 정의되었으며 신호 조절 및 처리를 위한 다양한 하드웨어와 함께 사용되었습니다. 현재 최고의 가성비를 자랑하는 음성 인식 칩셋 제품군은 많은 기능을 하나의 IC로 통합하여 제공합니다. IoT 제품을 위한 강력한 음성 인식 칩셋 구성 요소를 찾고 있다면 아래 옵션을 살펴보세요.

성공적인 음성 인식을 위한 요소는 무엇일까요?

이 질문에 대한 답은 적절한 대역폭을 가진 마이크와 ADC를 선택하는 것보다 더 많은 것을 포함합니다. 음성 인식 칩셋을 구축하는 데 있어 두 가지 측면 모두 중요하지만, 단순히 음성 데이터를 녹음하는 것을 넘어서는 일부 처리 단계가 필요합니다. 캡처된 오디오를 디지털 신호로 변환한 후, 의미 있는 사용자 경험을 제공하기 위해 일부 DSP 작업을 수행해야 합니다.

일반적인 방에서 스튜디오 품질의 마이크로 자신의 녹음을 들어본 적이 있다면, 정확한 음성/화자 인식을 위해 제거해야 할 일부 아티팩트를 알아차릴 수 있습니다. 이러한 문제를 해결하기 위해 설계된 특정 클래스의 오디오 DSP IC, 즉 원거리 IC는 음성 인식 준비를 위한 신호 아티팩트 제거에 이상적입니다. 이러한 구성 요소는 음성 인식의 일부로 중요한 기능을 제공합니다:

능동 이득 제어: 본질적으로, 이것은 인간의 목소리로 분류될 수 있는 모든 것을 듣습니다. 인간의 목소리가 식별되면, 프로세서는 캡처된 신호의 이득을 증가시킵니다. 일부 프로세서는 더 많은 데이터가 캡처됨에 따라 이득을 적극적으로 수정할 수 있습니다.
빔포밍: 이것은 다른 변환된 오디오 신호 사이의 위상을 감지하여 소리 소스의 방향을 결정할 수 있는 마이크로폰 배열을 필요로 합니다. 위상 배열 안테나에 익숙하다면, 이것은 그것의 오디오 아날로그, 즉, 위상 배열 마이크로폰입니다.
리버브 및 에코 억제: 에코 억제 솔루션은 마이크로폰 배열을 사용하여 하드웨어 수준에서도 구현될 수 있습니다. 음성 인식 칩셋에 의해 수신된 강한 에코는 부정확한 음성 인식을 초래할 수 있으며, 장치가 소리 소스로부터 더 멀리 떨어져 있을 때 에코의 가능성이 더 큽니다. 알고리즘은 단일 마이크로폰 제품과 함께 사용되어 지연을 감지하고 시간 영역이나 주파수 영역에서 지연된 신호를 억제할 수 있습니다.
참조 소음 필터링: 이 기능은 특정 배경 소음이 존재할 수 있는 차량에서 매우 중요합니다. 배경 소음은 도로/엔진 소음, 라디오 또는 비상 차량의 경우 사이렌으로 존재할 수 있습니다. 일부 컨트롤러는 하드웨어 수준에서 참조 소음 필터링을 포함하거나, 이것은 외부 프로세서(예: MCU 또는 FPGA)와 통합될 수 있습니다.

캡처된 음성 신호가 사전 처리되면, 하드웨어 또는 소프트웨어 수준에서 구현된 알고리즘을 사용하여 음성 패턴에서 단어를 감지할 수 있습니다. 계산 측면으로 너무 깊이 들어가지 않고, 음성 인식의 목표는 많은 단어의 큰 사전 중 하나로 일련의 음향 서명을 분류하는 것입니다. 단순한 자연어 처리(NLP) 모델, 예를 들어 나이브 베이즈 분류기는 올바른 신호 처리 단계가 수행되는 한 매우 정확한 분류를 제공할 수 있습니다.

IoT 제품에 이상적인 칩셋

이론적으로, 어떤 DSP IC나 MCU 및 오디오 코덱 IC도 음성 인식 칩셋의 일부로 사용될 수 있습니다. 아래에 표시된 제품들은 음성 인식 응용 프로그램을 위해 특별히 고안된 몇 가지 옵션일 뿐입니다.

이러한 사전 처리 및 분류 단계에 충분한 대기 시간을 제공하기 위해, 칩 내 분류를 수행하는 모든 DSP IC는 적어도 수백만 MIPS의 계산 속도를 제공해야 합니다. 분류 단계는 또한 수십만 번의 계산을 필요로 할 수 있습니다. 표준 I/O(예: I2C 및 GPIO)는 시스템의 다른 구성 요소와 인터페이스하는 데에도 유용합니다. 분류를 구현하기 위해 외부 프로세서가 필요할 수 있으며, DSP를 사전 처리 단계만 수행하도록 제한할 수 있습니다. 아래의 구성 요소들은 현재 DSP에서 가능한 것과 다가오는 SoC에서 기대할 수 있는 것을 보여줍니다.

Microchip, DSPIC30F

DSPIC30F 시리즈 신호 프로세서는 음성 인식이 새로운 하드웨어의 필수 요소가 되기 전에 Microchip에서 출시되었습니다. 이 DSP IC 시리즈는 스튜디오급 디지털 음악 제작을 위해 설계되었지만, Microchip은 이 시리즈의 컴포넌트로 가능한 응용 프로그램을 확장하기 위해 음성 인식 라이브러리를 출시했습니다. 디자이너들은 이 시리즈가 고주파수(30 MIPS)에서 최대 24비트 오디오 캡처를 제공함으로써 일부 고급 음성 인식 응용 프로그램에 이 컴포넌트를 도입할 수 있습니다.

[DSPIC30F 데이터시트]에서 가져온 예제 응용 다이어그램

Texas Instruments, OMAP5910JZZG2

Texas Instruments의 OMAP5910JZZG2 DSP는 비디오 가속, 음성 인식, 암호화/복호화, 이미지/비디오 워터마킹 등 다양한 응용 프로그램에 적합한 매우 적응성이 높은 DSP입니다. 이 저전력 장치는 호스트 인터페이스, 10개의 GPIO 및 기타 주변 장치를 포함하여 다양한 기능을 칩에 직접 통합합니다. 이 DSP는 오래된 모델이지만, 음성 신호의 사전 처리를 위한 강력한 옵션이며 여전히 생산 중입니다.

Synaptics, CX20921-21Z

Synaptics의 CX20921-21Z SoC는 일반적으로 스마트 홈 시스템에서 자리잡고 있습니다. Microsoft Cortana나 Amazon Alexa와 통합하고자 하는 디자이너들은 임베디드 애플리케이션 개발을 위한 SDK에 접근할 수 있습니다. 이 컴포넌트는 2개 또는 4개의 마이크로폰 어레이와 함께 사용할 수 있습니다. 24비트 및 106 dB의 다이내믹 레인지로 음성을 캡처합니다. 사용 가능한 샘플 레이트는 마이크로폰 채널당 8kHz에서 96kHz까지 다양합니다.