Bên trong Chip Nhận Dạng Giọng Nói cho IoT là gì?

Created: Tháng Năm 15, 2020
Updated: Tháng Bảy 1, 2024

Khả năng nhận dạng giọng nói trước đây chỉ được giới hạn ở điện thoại di động và một số máy tính cao cấp, nhưng giờ đây mọi thứ từ ô tô đến máy pha cà phê đều bao gồm khả năng nhận dạng giọng nói hoặc kích hoạt bằng giọng nói. Dù bạn đang phát triển sản phẩm công nghiệp cần phát hiện các tông âm cụ thể trong mẫu âm thanh hay bạn muốn hét lên để điều hòa hoạt động hết công suất, bạn sẽ cần một bộ chipset hoàn chỉnh cho việc thu âm và nhận dạng giọng nói.

Khả năng nhận dạng giọng nói trước đây được định nghĩa ở cấp độ phần mềm cùng với một loạt phần cứng lẫn lộn cho việc điều kiện tín hiệu và xử lý. Bộ sản phẩm chipset nhận dạng giọng nói hiện đại và giá cả phải chăng nhất hiện nay tích hợp nhiều chức năng trước đây được tách biệt vào một IC duy nhất. Nếu bạn đang tìm kiếm các thành phần chipset nhận dạng giọng nói mạnh mẽ cho sản phẩm IoT, hãy xem các lựa chọn dưới đây.

Điều gì Tạo Nên Sự Thành Công Của Nhận Dạng Giọng Nói?

Câu trả lời cho câu hỏi này không chỉ là chọn một microphone và ADC có băng thông phù hợp. Cả hai khía cạnh của việc xây dựng một chipset nhận dạng giọng nói đều quan trọng, nhưng việc vượt qua việc chỉ ghi âm dữ liệu giọng nói đòi hỏi một số bước xử lý. Sau khi chuyển đổi âm thanh thu được thành tín hiệu số, một số nhiệm vụ DSP phải được thực hiện để cung cấp trải nghiệm người dùng có ý nghĩa.

Nếu bạn từng nghe một bản ghi của chính mình với một microphone chất lượng phòng thu được ghi âm trong một phòng bình thường, bạn có thể nhận thấy một số hiện tượng cần được loại bỏ để nhận dạng giọng nói/chữ nói chính xác. Một loại IC DSP âm thanh, được biết đến là IC xa trường, lý tưởng cho việc loại bỏ các hiện tượng tín hiệu trong quá trình chuẩn bị nhận dạng giọng nói. Những thành phần này cung cấp một số khả năng quan trọng như một phần của nhận dạng giọng nói:

Điều khiển tăng cường hoạt động: Cơ bản, tính năng này lắng nghe bất cứ thứ gì có thể được phân loại là giọng nói con người. Khi một giọng nói con người được xác định, bộ xử lý sẽ tăng cường độ của tín hiệu được thu. Một số bộ xử lý có thể tiến xa hơn và chủ động điều chỉnh cường độ tăng khi có thêm dữ liệu được thu thập.
Beamforming: Điều này đòi hỏi một mảng micro, có thể được sử dụng để xác định hướng của nguồn âm thanh bằng cách phát hiện pha giữa các tín hiệu âm thanh được chuyển đổi khác nhau. Nếu bạn quen thuộc với ăng-ten mảng pha, thì đây đơn giản là tương đương âm thanh của nó, tức là micro mảng pha.
Giảm tiếng vang và dội: Các giải pháp giảm tiếng vang cũng có thể được triển khai ở cấp độ phần cứng sử dụng mảng micro. Tiếng vang mạnh nhận được bởi bộ xử lý nhận dạng giọng nói có thể tạo ra nhận dạng giọng nói không chính xác, và khả năng xuất hiện tiếng vang càng lớn khi thiết bị càng xa nguồn âm thanh. Các thuật toán cũng có thể được sử dụng với các sản phẩm micro đơn để phát hiện độ trễ và giảm tín hiệu bị trễ trong miền thời gian hoặc miền tần số.
Lọc tiếng ồn tham chiếu: Tính năng này khá quan trọng trong xe cộ, nơi một số nguồn tiếng ồn nền cụ thể có thể tồn tại. Tiếng ồn nền có thể xuất hiện như tiếng ồn đường/phương tiện, radio, hoặc còi báo động trong trường hợp của xe cứu thương. Một số bộ điều khiển bao gồm lọc tiếng ồn tham chiếu ở cấp độ phần cứng, hoặc điều này có thể được tích hợp với một bộ xử lý bên ngoài (ví dụ, MCU hoặc FPGA).

Sau khi tín hiệu giọng nói được thu trước xử lý, từ có thể được phát hiện từ các mẫu giọng nói với các thuật toán được triển khai ở cấp độ phần cứng hoặc phần mềm. Không đi sâu vào phần tính toán, mục tiêu trong nhận dạng giọng nói là phân loại một loạt các chữ ký âm thanh thành một trong nhiều từ trong một từ điển lớn các từ. Các mô hình xử lý ngôn ngữ tự nhiên (NLP) đơn giản, như bộ phân loại Naive-Bayes, có thể cung cấp phân loại chính xác cao miễn là các bước xử lý tín hiệu đúng được thực hiện.

Chipset lý tưởng cho Sản phẩm IoT

Theo lý thuyết, bất kỳ IC DSP nào, hoặc một MCU và một IC codec âm thanh, có thể được sử dụng như một phần của bộ xử lý nhận dạng giọng nói. Các sản phẩm dưới đây chỉ là một số lựa chọn được hướng tới các ứng dụng nhận dạng giọng nói.

Để cung cấp đủ độ trễ cho các bước xử lý trước và phân loại, bất kỳ IC DSP nào thực hiện phân loại trên chip nên cung cấp tốc độ tính toán ít nhất là vài MIPS. Các bước phân loại cũng có thể mất hàng trăm nghìn phép tính. Các I/O tiêu chuẩn (tức là, I2C và GPIO) cũng hữu ích cho việc kết nối với các thành phần khác trong hệ thống của bạn. Bạn có thể cần một bộ xử lý bên ngoài để thực hiện phân loại và giới hạn DSP của mình chỉ thực hiện các bước xử lý trước. Các thành phần dưới đây cho thấy điều gì là khả thi từ các DSP hiện tại và điều gì nên mong đợi từ các SoC sắp tới.

Microchip, DSPIC30F

Gia đình DSPIC30F của bộ xử lý tín hiệu từ Microchip đã được phát hành trước khi nhận dạng giọng nói trở thành một phần không thể thiếu trong phần cứng mới. Loạt IC DSP này được dành cho sản xuất âm nhạc số chất lượng studio, nhưng Microchip đã phát hành một thư viện nhận dạng giọng nói để mở rộng các ứng dụng có sẵn với loạt thành phần này. Các nhà thiết kế có thể đưa thành phần này vào một số ứng dụng nhận dạng giọng nói cao cấp vì loạt này cung cấp khả năng thu âm 24-bit với tần số cao (30 MIPS).

Sơ đồ ứng dụng DSPIC30F cho bộ chipset nhận dạng giọng nói

Sơ đồ ứng dụng ví dụ từ [Bảng dữ liệu DSPIC30F]

Texas Instruments, OMAP5910JZZG2

DSP OMAP5910JZZG2 từ Texas Instruments là một DSP linh hoạt cao cho nhiều ứng dụng, bao gồm tăng tốc video, nhận dạng giọng nói, mã hóa/giải mã, và đóng dấu ảnh/video. Thiết bị tiêu thụ điện năng thấp này tích hợp nhiều chức năng trực tiếp trên chip, bao gồm giao diện chủ, 10 GPIOs, và các phụ kiện khác. Mặc dù đây là một DSP cũ, nhưng vẫn là một lựa chọn mạnh mẽ cho việc xử lý trước tín hiệu giọng nói và vẫn đang được sản xuất.

Synaptics, CX20921-21Z

SoC CX20921-21Z từ Synaptics thường được sử dụng trong các hệ thống nhà thông minh. Các nhà thiết kế muốn tích hợp với Microsoft Cortana hoặc Amazon Alexa sẽ có quyền truy cập vào một SDK cho phát triển ứng dụng nhúng. Thành phần này có thể được sử dụng với mảng 2 microphone hoặc 4 microphone. Nó thu giọng nói ở 24-bit và với phạm vi động 106 dB. Các tốc độ mẫu có sẵn dao động từ 8 kHz đến 96 kHz cho mỗi kênh microphone.

Bảng đánh giá chipset nhận dạng giọng nói CX20921-21Z

Bảng đánh giá cho SoC CX20921-21Z từ Synaptics. Từ Bộ phát triển Synaptics AudioSmart.

Cuộc cách mạng IoT không có dấu hiệu chậm lại, và các SoC mới hơn tích hợp thu, điều kiện, xử lý, và kiểm soát hệ thống sẽ ra mắt thị trường với quy mô đầy đủ sớm. Khi bạn đang tìm kiếm chipset nhận dạng giọng nói mới nhất và tiên tiến nhất, bạn có thể tìm thấy các thành phần bạn cần trên Octopart.

Hãy cập nhật với các bài viết mới nhất của chúng tôi bằng cách đăng ký nhận bản tin của chúng tôi.

Explore Octopart Octopart Discover Octopart Pulse Octopart BOM Tool