Tại sao bằng những cách thức khác nhau đưa chữ Hán vào lại có thể tìm thấy cùng một chữ Hán trong máy tính?

Hiện nay máy tính ở Trung Quốc có nhiều cách nhập chữ Hán. Ví dụ, ta có thể dùng cách gõ phiên âm hoặc cách 5 nét để gõ được cùng một chữ Hán. Vì sao vậy? Lý do là chúng tham chiếu cùng một tiêu chuẩn. Mã số đưa vào bằng bàn phím sẽ tự động đổi ra thành "mã trong" của máy tính. Mã nhập vào của chữ Hán qua bàn phím đối ứng với loại “mã trong” của máy thì gọi là "mã ngoài". Mã ngoài chỉ là con số đại diện cho chữ Hán được soạn ra tiện cho việc ghi nhớ và vận dụng thành thạo những khi thao tác.

Tiêu chuẩn chung để tham chiếu chính là "mã ghi chữ Hán dùng cho việc trao đổi thông tin chuẩn quốc gia" GB2312 - 80, tức là mã khu vị quốc tế hoặc gọi là mã trao đổi chữ Hán. Hệ thống ghi mã này cả thảy có 94 khu, mỗi khu có 94 con chữ tức mỗi khu có 94 vị. Bộ phận thứ nhất của mã khu vị là mã khu, bộ phận thứ hai là mã vị, mã khu và mã vị đều theo hệ đếm 10, chẳng hạn mã khu vị của chữ 码 là 3475.

Mã khu vị có liên quan mật thiết với mã chuẩn quốc tế theo hệ đếm 16. Khi chuyển từ mã khu vị sang mã chuẩn quốc tế, thoạt đầu hãy chuyển mã khu vị ra hệ đếm 16. Ví dụ mã khu vị của chữ 码 là 3475, chuyển ra hệ đếm 16 sẽ là 224B (A, B, C, D, E, F trong hệ đếm 16 lần lượt đại diện cho 10, 11, 12, 13, 14, 15 trong hệ đếm 10). Vì rằng khu 00  20 trong hệ đếm 16 của mã quốc tế là khu trống, cũng có nghĩa là mã chuẩn quốc tế bắt đầu đánh số từ khu 21 của hệ đếm 16. Bởi vậy mã khu và mã vị còn cần lần lượt thêm 20 của hệ đếm 16. Ví dụ 码 224B của mã khu vị chuẩn ra mã chuẩn quốc tế phải là 224B + 2020, tức là 426B. Kí tự đầu của nó là 42, kí tự thứ 2 là 6B.

 

Lưu trữ trong máy tính không phải là mã số khu vực, cũng không phải là mã chuẩn quốc tế, mà là mã số bằng chữ Hán trong máy có liên quan tới cả hai mã này. Hai kí tự của mã chuẩn quốc tế lần lượt thêm vào 80 của hệ đếm 16 sẽ thành chữ Hán trong máy.

Bởi vậy, mã trong máy của chữ 码 là 426B + 8080, tức là C2EB. Chữ 码 của mã chữ Hán trong máy hiển thị trong hệ thống chính là C2EB.

Khi sử dụng một cách nhập vào nào đó, dù là sử dụng dạng chữ năm nét hay là phiên âm thì mã viết đưa vào từ bàn phím đều là mã ngoài của chữ Hán, và chúng đều chuyển đổi thành mã trong của chữ Hán thì mới lưu trữ và đọc được. Mã ngoài biến hóa nhiều dạng, nhưng mã trong chỉ có một mà thôi.

Mã trong máy bằng chữ Hán ở ví dụ trên là hai ký tự, và mã trong bằng chữ Hán cũng có trường hợp dùng bốn kí tự hoặc ba kí tự. Thế nhưng mã số ghi vào bằng những chữ Hán khác nhau ta có thể tìm ra cùng một chữ Hán, về nguyên tắc là như nhau.

Xem thêm