Người ta cho máy tính đọc chữ như thế nào?

Bình thường chúng ta phải nhập vào máy tính nhiều văn kiện, con chữ, kí hiệu hoặc chữ Hán và thông thường là dùng chức năng biên dịch của hệ thống máy tính và thực hiện bằng các con chữ, phím kí hiệu trên bàn phím hoặc mã vào của chữ Hán. Nếu như lượng ghi nhớ rất lớn thì sẽ nảy sinh sai sót mà khó lòng phát hiện ra.

Trên thực tế còn có một cách nhớ nhanh mà đơn giản đó là dùng máy quét (scanner: thiết bị đọc các mẫu tuần tự từng phần rồi tạo các tín hiệu số hoặc tương tự tương ứng với mẫu ấy - chú thích của ND) để đưa từng trang văn bản vào bộ nhớ của máy tính như là những trang hình vậy. Sau đó là đọc biết bằng một phần mềm gọi là hệ thống đọc con chữ (bao gồm con chữ, con số và các kí hiệu khác) quang học OCR. Với một lượng rất ít con chữ mà hệ thống máy không đọc được thì phải bằng cách trao đổi trực tiếp giữa người và máy để hoàn thành công việc ghi vào toàn bộ văn bản. Với hệ thống OCR ngày nay thì độ sai sót trong việc nhận biết đã hạ thấp rất nhiều đối với những văn bản có chất lượng in ấn tốt. Cùng với sự nâng cao trình độ thông minh của hệ thống OCR thì việc nhận biết đối với các văn bản viết tay và văn bản in chất lượng thấp cũng được nâng cao nhanh chóng về hiệu quả.

Vậy thì máy tính đã nhận biết con chữ thế nào bằng hệ thống OCR? Thường thì hệ thống OCR hoàn thành việc nhận biết con chữ theo năm bước như sau:

- Trước hết, bằng máy quét sẽ đọc nhập vào bộ nhớ chính RAM những trang chữ để lưu trữ.

- Bước thứ hai, khu biệt các dòng, các đoạn, tiêu đề và chính văn, con chữ và hình ảnh không quy tắc của văn bản. Đây là bước trung tâm của quá trình nhận biết chữ.

- Bước thứ ba, nhận biết các con chữ đã được cách li ra, bước này thường gọi là nhận biết dạng chữ hoặc phối hợp dạng chữ. Phần mềm sẽ đối chiếu "chữ hình vẽ" được cách li thành khối vuông với chữ chuẩn được lưu trữ trong bộ nhớ bên trong máy, rồi nhận biết từng con chữ bằng cách phối hợp.

- Bước thứ tư, những con chữ chưa được nhận biết ở bước thứ ba lại được nhận biết bằng một quá trình xử lí tinh tế và có thời gian dài hơn. Quá trình này gọi là "nắm đặc trưng".

- Bước thứ năm, xử lí ký hiệu khó giải, thường có hai cách: (1) Đánh dấu những con chữ chưa được nhận biết và đẩy ra để sửa chữa hoặc thay đổi bằng phương pháp thủ công. (2) Sửa chữa những sai sót trong phiên âm bằng chương trình soát phiên âm sai hoặc chương trình soát sai chữ Hán thường dùng.

Để máy tính có thể nhận biết được càng nhiều chữ Hán một cách chính xác, người ta đã tiến hành nghiên cứu phương pháp cơ bản tự động nhận biết. Những phương pháp cơ bản này gồm hai loại là (1) Phương pháp quyết sách thống kê được hình thành từ đặc trưng thống kê chữ Hán được nêu ra để nhận biết và (2) Phương pháp cấu trúc cú pháp chữ Hán. Ngoài ra các ngành: phương pháp trí năng, toán học tập mờ và mạng thần kinh nhân tạo cũng đang có tác dụng ngày càng quan trọng trong việc tự động nhận biết chữ Hán.

Thế nào là điện thoại mạng?

Điện thoại mạng chính là hệ thống truyền tiếng nói bằng mạng dữ liệu. Do thường dùng là mạng liên kết, mà mạng liên kết lại dùng tiêu chuẩn IP, cho...

Con nhện giăng tơ bằng cách nào giữa khoảng cách hai cây rất xa?

Khi bạn nhìn thấy giữa các cây hai bên bờ kênh, hoặc hai góc nhà cách nhau rất xa, có kết một mạng nhện thường sẽ nghĩ đến một vấn đề: Nhện vừa không biết bơi, cũng không biết bay thì nó làm cách nào để giăng tơ?

Vì sao cơm chan nước nóng không tốt cho tiêu hóa?

Ở Thượng Hải và một số vùng phía Nam Trung Quốc, rất nhiều người ăn sáng với cơm chan nước nóng, vì cách ăn này vừa nhanh, vừa đơn giản. Nhưng ăn cơm...

Vì sao lá cây có đốm?

Nếu bạn quan sát kĩ những cây xung quanh sẽ phát hiện thấy hiện tượng kì lạ: đó là lá của một số loài cây có đốm màu vàng, màu nâu, thậm chí là màu...

Tại sao nhân ngư được gọi là cá người đẹp mỹ nhân ngư?

Nếu như bạn đến Viện bảo tàng tự nhiên hoặc Công viên Hải dương để tham quan, người giới thiệu sẽ chỉ vào nhân ngư và bò biển nói với bạn rằng, đó...

Vì sao khi tủ lạnh dừng chạy ta lại nghe thấy tiếng nước chảy?

Trong suốt quá trình tủ lạnh vận hành, chế độ làm lạnh của tủ không phải không có lúc bị ngắt quãng. Sau khi bị ngắt, tủ lại bắt đầu vận hành theo chế độ làm lạnh.

Vì sao nói rừng xanh là "lá phổi" của Trái Đất?

Rừng xanh là vệ sĩ của thiên nhiên, là trụ cột cân bằng sinh thái. Rừng có thể duy trì sự cân bằng giữa khí cacbonic và oxi trong không khí, còn có...

Vì sao diễn viên xiếc có thể đỡ được chiếc vò từ trên rơi xuống?

Mọi người đều biết rằng, một hòn đá nhỏ từ trên cao rơi xuống có thể đập rách đầu. Thế thì vì sao một diễn viên xiếc có thể lấy đầu đỡ được chiếc vò từ trên cao rơi xuống mà không bị hề hấn gì cả nhỉ? 

Vì sao máy thăm dò phải đổ bộ lên sao chổi?

Đại bộ phận sao chổi trong hệ Mặt Trời xuất phát và mất đi ở vùng tận cùng giá rét xa xăm. Trên sao chổi tồn tại những vật chất nguyên thủy của thời...