Khả năng nhận dạng giọng nói trước đây chỉ được giới hạn ở điện thoại di động và một số máy tính cao cấp, nhưng giờ đây mọi thứ từ ô tô đến máy pha cà phê đều bao gồm khả năng nhận dạng giọng nói hoặc kích hoạt bằng giọng nói. Dù bạn đang phát triển sản phẩm công nghiệp cần phát hiện các tông âm cụ thể trong mẫu âm thanh hay bạn muốn hét lên để điều hòa hoạt động hết công suất, bạn sẽ cần một bộ chipset hoàn chỉnh cho việc thu âm và nhận dạng giọng nói.
Khả năng nhận dạng giọng nói trước đây được định nghĩa ở cấp độ phần mềm cùng với một loạt phần cứng lẫn lộn cho việc điều kiện tín hiệu và xử lý. Bộ sản phẩm chipset nhận dạng giọng nói hiện đại và giá cả phải chăng nhất hiện nay tích hợp nhiều chức năng trước đây được tách biệt vào một IC duy nhất. Nếu bạn đang tìm kiếm các thành phần chipset nhận dạng giọng nói mạnh mẽ cho sản phẩm IoT, hãy xem các lựa chọn dưới đây.
Câu trả lời cho câu hỏi này không chỉ là chọn một microphone và ADC có băng thông phù hợp. Cả hai khía cạnh của việc xây dựng một chipset nhận dạng giọng nói đều quan trọng, nhưng việc vượt qua việc chỉ ghi âm dữ liệu giọng nói đòi hỏi một số bước xử lý. Sau khi chuyển đổi âm thanh thu được thành tín hiệu số, một số nhiệm vụ DSP phải được thực hiện để cung cấp trải nghiệm người dùng có ý nghĩa.
Nếu bạn từng nghe một bản ghi của chính mình với một microphone chất lượng phòng thu được ghi âm trong một phòng bình thường, bạn có thể nhận thấy một số hiện tượng cần được loại bỏ để nhận dạng giọng nói/chữ nói chính xác. Một loại IC DSP âm thanh, được biết đến là IC xa trường, lý tưởng cho việc loại bỏ các hiện tượng tín hiệu trong quá trình chuẩn bị nhận dạng giọng nói. Những thành phần này cung cấp một số khả năng quan trọng như một phần của nhận dạng giọng nói:
Sau khi tín hiệu giọng nói được thu trước xử lý, từ có thể được phát hiện từ các mẫu giọng nói với các thuật toán được triển khai ở cấp độ phần cứng hoặc phần mềm. Không đi sâu vào phần tính toán, mục tiêu trong nhận dạng giọng nói là phân loại một loạt các chữ ký âm thanh thành một trong nhiều từ trong một từ điển lớn các từ. Các mô hình xử lý ngôn ngữ tự nhiên (NLP) đơn giản, như bộ phân loại Naive-Bayes, có thể cung cấp phân loại chính xác cao miễn là các bước xử lý tín hiệu đúng được thực hiện.
Theo lý thuyết, bất kỳ IC DSP nào, hoặc một MCU và một IC codec âm thanh, có thể được sử dụng như một phần của bộ xử lý nhận dạng giọng nói. Các sản phẩm dưới đây chỉ là một số lựa chọn được hướng tới các ứng dụng nhận dạng giọng nói.
Để cung cấp đủ độ trễ cho các bước xử lý trước và phân loại, bất kỳ IC DSP nào thực hiện phân loại trên chip nên cung cấp tốc độ tính toán ít nhất là vài MIPS. Các bước phân loại cũng có thể mất hàng trăm nghìn phép tính. Các I/O tiêu chuẩn (tức là, I2C và GPIO) cũng hữu ích cho việc kết nối với các thành phần khác trong hệ thống của bạn. Bạn có thể cần một bộ xử lý bên ngoài để thực hiện phân loại và giới hạn DSP của mình chỉ thực hiện các bước xử lý trước. Các thành phần dưới đây cho thấy điều gì là khả thi từ các DSP hiện tại và điều gì nên mong đợi từ các SoC sắp tới.
Gia đình DSPIC30F của bộ xử lý tín hiệu từ Microchip đã được phát hành trước khi nhận dạng giọng nói trở thành một phần không thể thiếu trong phần cứng mới. Loạt IC DSP này được dành cho sản xuất âm nhạc số chất lượng studio, nhưng Microchip đã phát hành một thư viện nhận dạng giọng nói để mở rộng các ứng dụng có sẵn với loạt thành phần này. Các nhà thiết kế có thể đưa thành phần này vào một số ứng dụng nhận dạng giọng nói cao cấp vì loạt này cung cấp khả năng thu âm 24-bit với tần số cao (30 MIPS).
Sơ đồ ứng dụng ví dụ từ [Bảng dữ liệu DSPIC30F]
DSP OMAP5910JZZG2 từ Texas Instruments là một DSP linh hoạt cao cho nhiều ứng dụng, bao gồm tăng tốc video, nhận dạng giọng nói, mã hóa/giải mã, và đóng dấu ảnh/video. Thiết bị tiêu thụ điện năng thấp này tích hợp nhiều chức năng trực tiếp trên chip, bao gồm giao diện chủ, 10 GPIOs, và các phụ kiện khác. Mặc dù đây là một DSP cũ, nhưng vẫn là một lựa chọn mạnh mẽ cho việc xử lý trước tín hiệu giọng nói và vẫn đang được sản xuất.
SoC CX20921-21Z từ Synaptics thường được sử dụng trong các hệ thống nhà thông minh. Các nhà thiết kế muốn tích hợp với Microsoft Cortana hoặc Amazon Alexa sẽ có quyền truy cập vào một SDK cho phát triển ứng dụng nhúng. Thành phần này có thể được sử dụng với mảng 2 microphone hoặc 4 microphone. Nó thu giọng nói ở 24-bit và với phạm vi động 106 dB. Các tốc độ mẫu có sẵn dao động từ 8 kHz đến 96 kHz cho mỗi kênh microphone.
Bảng đánh giá cho SoC CX20921-21Z từ Synaptics. Từ Bộ phát triển Synaptics AudioSmart.
Cuộc cách mạng IoT không có dấu hiệu chậm lại, và các SoC mới hơn tích hợp thu, điều kiện, xử lý, và kiểm soát hệ thống sẽ ra mắt thị trường với quy mô đầy đủ sớm. Khi bạn đang tìm kiếm chipset nhận dạng giọng nói mới nhất và tiên tiến nhất, bạn có thể tìm thấy các thành phần bạn cần trên Octopart.
Hãy cập nhật với các bài viết mới nhất của chúng tôi bằng cách đăng ký nhận bản tin của chúng tôi.