• Thứ Năm, 14/10/2004 15:46 (GMT+7)

    Chuyển mã chữ Hán trong Word

    Lượt xem 7812
    Đánh giá

     

    Bảng mã chữ Hán trên máy tính

    Khi chưa có unicode, các bảng mã chữ Hán được qui ước theo những cách thức riêng biệt. Do đó người sử dụng phải cài đặt phần mềm đặc thù cho từng bảng mã mới đọc được văn bản chữ Hán. Ngoài ra, việc chuyển đổi ký tự giữa các văn bản gặp rất nhiều khó khăn. Các nước sử dụng chữ Hán như Trung Quốc, Đài Loan, Nhật, Singapore đều có những bảng mã riêng. Có rất nhiều chữ Hán giống nhau giữa các ngôn ngữ trên, nhưng khi sao chép từ văn bản của ngôn ngữ này sang văn bản của ngôn ngữ kia thì chữ Hán bị biến đổi. Chưa kể việc dùng các chương trình mã hoá (encoding) cho từng ngôn ngữ gây phiền phức không kém. Người dùng chuyên nghiệp có xu hướng chỉ lựa chọn một bảng mã của một ngôn ngữ cố định và cài đặt luôn hệ điều hành đặc thù cho ngôn ngữ đã chọn.

    Với trình độ CNTT phát triển cao, Nhật là nước đi đầu trong công nghệ chữ Hán trên máy tính. Trung Quốc và Đài Loan do có số lượng chữ Hán nhiều hơn và có những đặc điểm riêng nên họ không thể sử dụng bảng mã của Nhật mà phải tự lập bảng mã riêng. Ở nước ta nhu cầu sử dụng chữ Hán không cao nên chúng ta chỉ sử dụng các bảng mã có sẵn. Sau đây chúng ta tìm hiểu sơ lược qua các bảng mã chữ Hán điển hình.

    1. Bảng mã JIS (Japanese Industry Standard): Bao gồm khoảng 12.300 chữ Hán và những chữ Kana riêng của Nhật. Đây là bảng mã theo tiêu chuẩn công nghệ Nhật Bản, được coi là bảng mã chữ Hán trên máy tính được phát triển đầu tiên trên thế giới. Nó chủ yếu dành cho người sử dụng tiếng Nhật trên máy tính; được tu bổ lại vào các năm 1983 và 1990.

    2. Bảng mã Big5: Bao gồm 13.051 chữ Hán, ra đời vào năm 1986. Đây là bảng mã dành cho những người sử dụng chữ Hán phồn thể.

    3. Bảng mã GB: Đây là bảng mã Quốc Tiêu (Quốc gia tiêu chuẩn) của Trung Quốc. Bao gồm khoảng 7.039 chữ Hán thường dùng. Bảng mã này dành cho những người sử dụng chữ Hán giản thể. Sau này bảng mã GB được tu bổ thành bảng mã GBK (Quốc tiêu khoáng triển), bổ sung thêm khoảng 14.240 chữ Hán.

    4. Hiệp hội Unicode với sự tham gia của nhiều tổ chức, công ty của các quốc gia trên thế giới đã thống nhất bảng mã các ngôn ngữ sử dụng trên máy tính trong đó có bảng mã chữ Hán. Với phiên bản 2.1 họ đã định nghĩa được 20.902 chữ Hán (bảng mã này được gọi là CJK Unified Ideographs). Các phông chữ unicode như: Arial Unicode Ms, Ms Song, MingLiU, Simsun đều có chứa những chữ Hán này. Riêng đối với phông chữ Ms Mincho và Ms Gothic chỉ chứa những chữ Hán riêng của tiếng Nhật trong số 20.902 chữ Hán.

    Các version sau của unicode còn định nghĩa thêm các bảng mã chữ Hán mở rộng (những chữ Hán không thông dụng trong đó có chữ thuần Nôm của Việt Nam) gồm: CJKV Unified Ideographs Extension A, chứa 6.582 chữ Hán và CJKV Unified Ideographs Extension B chứa 42.711 chữ Hán. Riêng bảng mã chữ Hán CJKV Unified Ideographs Extension C đang trong giai đoạn bổ sung và hiệu chỉnh.

    Chuyễn mã chữ Hán bằng Microsoft Word

    Ở Việt Nam, các văn bản Hán và Nhật được gõ trước đây thông thường sử dụng các bảng mã sau: BIG5 đối với chữ Hán phồn thể, GB đối với chữ Hán giản thể và JIS đối với chữ Nhật. Tuy nhiên về sau này đa số người dùng đều chuyển sang dùng unicode, nên việc chuyển đổi các văn bản trên sang mã unicode rất cần thiết. Microsoft Word 2000 và 2002 tích hợp sẵn công cụ chuyển đổi mã với độ chính xác cao. Phương pháp chuyển đổi mã trong Word như sau:

    1. Mở Word, vào menu Tools->Options và đánh dấu Confirm conversion at Open

    2. Mở tập tin chữ Hán hiện có, chọn tất cả (Ctrl-A) và sau đó Copy (Ctrl-C).

    3. Trở lại Windows, chọn menu Start->Run và gõ vàoWrite rồi chọn OK để mở ứng dụng WordPad. Trong ứng dụng WordPad chọn New, chọn tiếp Text Document rồi chọn OK.
    Paste (Ctrl-V) tất cả văn bản đã copy bên Word vào văn bản mới của WordPad. Sau đó lưu lại dưới dạng Text Document có phần mở rộng là .txt (nếu xuất hiện các hộp thoại thì chỉ việc nhấn Yes).

    4. Đóng văn bản WordPad lại. Trở lại Word và chọn Open. Trong hộp thoại Open ở phần Files of type chọn All files (*.*) để thấy được tập tin .txt vừa lưu. Mở tập tin .txt này. Hộp thoại Convert File xuất hiện, chọn Encoded Text và nhấn OK.

    5. Hộp thoại File Conversion xuất hiện. Chọn nút Other encoding và chọn bảng mã tuỳ theo văn bản nguồn. Ví dụ văn bản nguồn chữ Hán phồn thể sử dụng bảng mã BIG5, do đó chọn Chinese Traditional (Big5). Sau đó nhấn OK.
     

    Toàn bộ văn bản chữ Hán sẽ được chuyển đổi sang unicode. Những minh họa trên được thực hiện trong Word 2000. Đối với Word 2002 có thể bỏ qua bước 1 và sẽ không thấy hiển thị hộp thoại Convert File ở bước 4.

    Tống Phước Khải
    E-mail: tongphuockhai@yahoo.com

     

    ID: A0409_136
    Ý kiến của bạn? Ý kiến của bạn?
    Tin ngày :

Thuật ngữ