Khi bạn ngồi trước máy tính và gõ lần lượt các kí tự vào máy thì bạn có thể sẽ có cảm giác là đang đối thoại với người câm.
Ngày nay, một kiểu máy tính điều khiển bằng âm thanh hoàn toàn mới đã bước vào đời sống con người. Ví dụ khi một tổng giám đốc đi làm, đến trước cửa phòng làm việc và nói "Mở cửa", cánh cửa phòng tự động mở ra. Bước vào phòng, vị tổng giám đốc này lại nói: "Mời giám đốc các bộ phận đến ngay phòng họp hội ý", chỉ trong năm phút các giám đốc đều đã vào phòng họp. Điều này là gì vậy? Thì ra một chiếc máy tính được lắp đặt tại phòng làm việc của tổng giám đốc có khả năng nghe hiểu được tiếng của ông ta, và chính nó đã chỉ huy cánh cửa cũng như hệ thống ngữ âm điện thoại có phản ứng.
Để có thể "đối thoại" với máy tính một cách tự do và tiện lợi, các nhà chế tạo máy tính đã từ lâu bắt tay vào nghiên cứu làm sao để con người đối thoại trực tiếp với máy tính bằng lời nói.
Con người nói chuyện với máy, trước hết phải làm cho máy hiểu được tiếng người và biết xử lí một loạt công việc theo lệnh của người. Cuối cùng là biết thông báo cho người có liên quan các kết quả chấp hành bằng hình thức lời nói.
Làm cho máy tính hiểu được tiếng người thì phải có một bộ phần mềm, phần cứng phức tạp hỗ trợ. Nó phải gồm các bộ phận cơ bản như thiết bị phân tích ngữ âm, bộ nhớ và mạng điều khiển liên quan.
Khi ống nghe thu nhận được thông tin ngữ âm, nó chuyển ngữ âm vào thiết bị phân tích ngữ âm. Thiết bị này rút ra được những thông số thông tin ngữ âm cần thiết rồi phối hợp với ngữ âm chuẩn trong bộ lưu trữ. Nếu phối hợp thành công thì máy tính sẽ hiểu được (nhận ra) thông tin ngữ âm này, và đã có được phản ứng tương ứng.
Hệ thống nhận biết ngữ âm (tiếng nói) thông thường đều có chức năng học tập, và người sử dụng máy có thể huấn luyện cho nó. Ví dụ bưu điện có thể cung cấp cho thuê bao di động một hệ thống bấm số (quay số) ngữ âm. Người sử dụng trước hết phải ghi lại ba lần số điện thoại thường phải gọi và họ tên người mình gọi tới. Sau đó, khi sử dụng thì chỉ cần bấm một phím để mở hệ thống, rồi đọc họ tên và số điện thoại cần gọi tới là có thể tự động nối đường dây nói chuyện rồi. Nguyên lí thiết kế của hệ thống di động nhận biết được lời nói này là: Kho ngữ âm của hệ thống máy tính sẽ biến họ, tên và số điện thoại mà người sử dụng lần đầu đã đọc nhập vào cho máy thành mẫu ngữ âm tiêu chuẩn. Sau đó, mỗi lần sử dụng thì đều được đối chiếu với mẫu ngữ âm trong kho và họ tên, số máy và người sử dụng đã nạp vào. Nếu phù hợp thì sẽ được nối máy.
Đối tượng nhận biết ngữ âm chia ra ba lớp. Trước hết là nhận biết âm tiết, sau đó là nhận biết từ đơn, tiếp đến là sự hiểu biết về câu phù hợp với quy tắc nào đó. Trong cuộc sống thực tế thì giọng nói của bất kỳ hai người nào cũng không giống nhau. Thậm chí là cùng một người cũng không thể nào phát âm cùng một giọng điệu về một tiếng. Ngoài ra, cùng một từ lại có thể được sử dụng với những nghĩa khác nhau. Đó là điều mà người ta vẫn chưa vừa lòng về máy tính khi nó tìm hiểu ngôn ngữ tự nhiên. Hiện nay thì phần lớn hệ thống hiểu ngôn ngữ là rất đơn giản, thường là có nhiều hạn chế và còn cách xa với sự hiểu biết chính xác. Do vậy còn cần phải nghiên cứu nhiều hơn nữa.