• Thứ Sáu, 26/03/2004 15:15 (GMT+7)

    Unicode cho chữ Việt trên máy tính

    Microsoft tuyên bố muốn biến "Tiếng Anh cũng chỉ là một ngôn ngữ trên máy tính" thông qua Unicode. Như vậy, đã đến lúc chữ Việt hiện hữu như bất cứ mọi chữ viết khác trên máy tính...

    Cơ hội Unicode

    Tại phiên họp thứ nhất vào ngày 3/1/2002, Ban Chỉ Đạo Triển Khai Chỉ Thị 58 của Bộ Chính Trị (gọi tắt là Ban Chỉ Đạo 58) đã nghe báo cáo về kế hoạch triển khai việc dùng bộ mã 16-bit các ký tự chữ Việt TCVN 6909:2001 theo Unicode, do Bộ Khoa Học, Công Nghệ và Môi Trường (KHCN&MT) ban hành vào ngày 24/9/2001. Theo kế hoạch này, Ban Chỉ đạo 58 đã đề nghị Thủ Tướng Chính Phủ  ra quyết định về việc dùng bộ mã chữ Việt theo TCVN 6909 trong mọi trao đổi thông tin điện tử giữa các cơ quan nhà nước cũng như với nhân dân.

    Trước mắt, bộ mã TCVN 6909 sẽ được sử dụng trong các lĩnh vực:

    -  Các dịch vụ tin học hóa văn phòng của các cơ quan nhà nước;

    -  Trao đổi thông tin chữ Việt trên mạng máy tính, kể cả internet, intranet  giữa các cơ quan, tổ chức nhà nước với nhau;

    -  Các dịch vụ có sử dụng máy tính trực tuyến hoặc không trực tuyến  của các cơ quan nhà nước cung cấp cho doanh nghiệp và nhân dân;

    -  Website thông tin chữ Việt của các cơ quan nhà nước.

    Để tiết kiệm thời gian, công sức và kinh phí, việc chuyển đổi các hệ thống thông tin và cơ sở dữ liệu (CSDL) được lưu trữ theo những bộ mã khác với TCVN 6909 của các cơ quan nhà nước sẽ được thực hiện từng bước sang bộ mã TCVN 6909 tùy theo  tính cấp bách, phạm vi phục vụ và nhu cầu của từng cơ quan, tổ chức.

    Quá trình chuyển đổi này phải bảo đảm:

    -  Có đủ công cụ cung cấp cho người dùng: những phần mềm thiết yếu cho tin học hóa văn phòng, thư tín điện tử, CSDL, tìm kiếm thông tin chữ Việt trên các trang web đã được xây dựng, thử nghiệm và sẵn sàng cung cấp miễn phí cho các cơ quan nhà nước trên cơ sở mua bản quyền sử dụng của tác giả. Các phần mềm công cụ khác sẽ theo cơ chế thị trường.

    -  Không gây tốn kém khi chuyển sang bộ mã mới: về cơ bản, máy tính (từ 386 trở lên) và các phần mềm hiện có không phải thay đổi khi dùng bộ mã mới. Chi phí chủ yếu là huấn luyện người dùng.

    -  Dễ dàng cho người dùng: về nguyên tắc, việc chuyển sang bộ mã 16-bit sẽ không tạo ra khó khăn mới cho người dùng, họ vẫn thực hiện những thao tác trên máy như bình thường. Điều duy nhất cần học thêm là cách sử dụng những tính năng mới do bộ mã này cung cấp.

    -  Có yêu cầu bắt buộc các cơ quan nhà nước sử dụng: yêu cầu này là cốt lõi để đảm bảo sự thống nhất trong trao đổi thông tin chữ Việt trên máy tính và mạng máy tính.

    Thống nhất xử lý chữ Việt qua Unicode còn là cơ hội tốt để đưa các chữ viết dân tộc vào chuẩn quốc tế Unicode. Trước mắt đã có đề nghị về chữ Chăm, chữ Thái-Việt, chữ Nôm-Tày, tiếp theo quá trình đưa chữ Nôm. Với ấn bản 3.1 của Unicode, 9299 chữ Nôm đã vào chuẩn quốc tế. Công việc còn lại vẫn cần nỗ lực kiên trì để hoàn tất.

    Dựng sẵn hay tổ hợp?

    Gần đây, có một số thảo luận về vấn đề đồng ý dùng Unicode, nhưng chọn bộ mã nào trong Unicode, dựng sẵn hay tổ hợp?

    Trước hết, phải đặt vấn đề chuẩn để làm gì, cho những ai? Vì chuẩn chỉ có ý nghĩa để cho một cộng đồng cùng hiểu với nhau một cách thống nhất về vấn đề nào đó, để hoạt động chung với nhau cho mục đích nào đó. Một số thảo luận lại hoàn toàn không để ý đến người sử dụng mà chỉ nhìn trong góc độ hạn hẹp của các "chuyên gia", hạn hẹp theo nghĩa mình làm việc này hay việc khác dễ hơn nếu chuẩn là thế này hay thế khác. Điều cần nhấn mạnh là chuẩn phải đi theo người sử dụng, và kỹ thuật phải đi theo chuẩn, chứ không phải là ngược lại. Các thuật toán cần thiết để thích ứng không quá phức tạp và sức máy đã quá thừa thãi, không hiểu tại sao thay vì xác định các công việc kỹ thuật phải làm để đưa Unicode thành chuẩn, người ta lại lấy lý do kỹ thuật để biện minh cho giải pháp này hay giải pháp khác.

    Unicode là chuẩn đa ngữ, nó cố gắng thỏa mãn yêu cầu của mọi chữ viết trong mọi lĩnh vực sử dụng và cho mọi nước, chính vì thế mà nó không đạt được lý tưởng là một đối một, từ đó gây khó khăn và nảy sinh bàn cãi. Cần phân biệt hoàn cảnh áp dụng của bộ mã: trao đổi (interchange), lưu trữ (storage), xử lý (processing), hiển thị (display). Trong mỗi hoàn cảnh, mỗi dạng có những lợi điểm khác nhau, khó thể nào áp đặt thống nhất một dạng nào đó. Khi nào vẫn còn ý nghĩ là cần có một dạng duy nhất, thì không thể nào có kết luận thống nhất được. Chỉ khi nào có tư duy "dung hợp" thì may ra mới có thể đồng ý với nhau được mà thôi.

    Trong trường hợp của ta hiện tại, yêu cầu chuẩn trong trao đổi thông tin là chính, còn công việc làm cục bộ trong máy hoặc trong một cụm máy tại một cơ quan nhất định, với những hệ điều hành nhất định thì là việc "xào nấu" nội bộ của các nhà làm phần mềm, làm dịch vụ và các khách hàng tin học, họ có thể có nhiều giải pháp cạnh tranh và chọn lựa khác nhau. Miễn là khi gửi thông tin ra ngoài để xử lý thì phải theo chuẩn, trong nghĩa Unicode và rõ ràng trong từng trường hợp.

    Xét cho cùng thì dựng sẵn hay tổ hợp không phải là vấn đề của người sử dụng mà là vấn đề của người lập trình cấp hệ thống. Người lập trình ứng dụng rồi cũng sẽ không thấy. Thí dụ: trình duyệt từ IE 5 trở lên tự động hiển thị thành dựng sẵn, cho dù dữ liệu của chúng ta là tổ hợp. Do đó, khi gọi hàm tìm thì chỉ biết có tìm, không cần biết thông tin được tổ chức ra sao. IE 5 là một bằng chứng cho thấy ngay cả lưu trữ ở dạng tổ hợp cũng vẫn hiển thị đẹp. Một loạt chuyện cần làm, rất thích thú và là một thị trường lớn cho các chuyên gia phần mềm tung hoành.

    GS Trần Lưu Chương
    Ban Công Tác Unicode,
    Bộ KHCN&MT

    ID: B0206_19