• Thứ Năm, 10/05/2007 10:27 (GMT+7)

    CNTT và ngôn ngữ học (kỳ cuối)

    Đưa tiếng Việt vào máy tính thực sự là nỗi trăn trở lớn của các chuyên gia CNTT. Khi đề cập đến chủ đề này, BBT không ngờ đã nhận được rất nhiều ý kiến tâm huyết của các chuyên gia tin học. Chúng tôi đã chuyển những ý kiến đó đến các cơ quan liên quan như viện Chiến Lược BCVT & CNTT - bộ BCVT, Hội Ngôn Ngữ Học VN và khoa Ngôn Ngữ Học - ĐHKHXH&NV Hà Nội. Tuy nhiên, vì nhiều lý do, cho dến khi tạp chí đi in, chúng tôi vẫn chưa nhận được phản hồi hay nhận định của các cơ quan nói trên. Những người thực hiện chuyên mục sẽ khép lại chủ đề này với hy vọng trong tương lai gần, giới CNTT và NNH sẽ có dịp gặp nhau trong vấn đề tuy nhỏ nhưng mang tính chiến lược quốc gia này.

    Đưa tiếng Việt vào máy tính thực sự là nỗi trăn trở lớn của các chuyên gia CNTT. Khi đề cập đến chủ đề này, BBT không ngờ đã nhận được rất nhiều ý kiến tâm huyết của các chuyên gia tin học. Chúng tôi đã chuyển những ý kiến đó đến các cơ quan liên quan như viện Chiến Lược BCVT & CNTT - bộ BCVT, Hội Ngôn Ngữ Học VN và khoa Ngôn Ngữ Học - ĐHKHXH&NV Hà Nội. Tuy nhiên, vì nhiều lý do, cho dến khi tạp chí đi in, chúng tôi vẫn chưa nhận được phản hồi hay nhận định của các cơ quan nói trên. Những người thực hiện chuyên mục sẽ khép lại chủ đề này với hy vọng trong tương lai gần, giới CNTT và NNH sẽ có dịp gặp nhau trong vấn đề tuy nhỏ nhưng mang tính chiến lược quốc gia này.

    Bóng tối dưới chân cột đèn?

    Chỉ có sự vận động tự thân của chuyên gia tin học

    Không thể trách những người có trách nhiệm của các cơ quan nói trên bởi vấn đề này khá nhạy cảm. Dù muốn hay không chúng ta cũng cần nhìn thẳng vào sự thật của chính ngành CNTT, cụ thể là trong các nhà trường. Một cuộc điều tra “bỏ túi” đã được tiến hành với sinh viên năm cuối của khoa CNTT ĐH Bách Khoa Hà Nội và ĐH Công Nghệ - ĐHQG Hà Nội với câu hỏi về tiếng Việt trên máy tính (chưa đề cập đến mối quan hệ giữa CNTT và NNH) thì câu trả lời chỉ là cơ chế hoạt động của các hệ soạn thảo như Vietkey hay ABC. Còn về những nội dung như mã tổ hợp và dựng sẵn cho font chữ tiếng Việt trong bộ mã Unicode mà báo chí đã từng tốn nhiều giấy mực hồi cuối 2002 đầu 2003 thì rất ít sinh viên biết.

    Cũng cần nhắc lại ý kiến của một quan chức có trách nhiệm về CNTT trong ngành giáo dục khi cho rằng “trong tiềm thức, xã hội đang xem CNTT là công việc nội bộ của các chuyên gia tin học”. Phải chăng ngành NNH cũng có suy nghĩ như thế? TS Ngô Trung Việt, chuyên viên viện CNTT - Viện Khoa Học Công Nghệ VN cho biết, thời điểm máy vi tính mới xuất hiện (những năm 1980), việc đưa tiếng Việt vào máy tính đã được đặt ra. Chính ông và các đồng nghiệp đã chủ động mời các chuyên gia NNH cộng tác. Tuy nhiên, kết quả là chính các chuyên gia tin học phải tự nghiên cứu về NNH để phục vụ công việc của mình. Chỉ có GS Hoàng Phê, một người của NNH lại rất quan tâm đến CNTT, nhưng những người như ông rất ít ỏi.

    Đáng mừng là vấn đề này đã trở thành một đề tài cấp nhà nước về xây dựng và thống nhất các bộ mã tiếng Việt. Rất nhiều hội thảo được tổ chức với sự hưởng ứng nhiệt tình của cộng đồng tin học, kể cả Việt kiều, song dường như không có sự tham gia của các chuyên gia NNH trong nước. Và rồi những tiêu chuẩn quốc gia cho chữ Việt trên máy tính cũng đã ra đời, giải quyết được vấn đề chuẩn chung cho các bộ mã và hệ soạn thảo. Còn về những sản phẩm thì không chỉ là các hệ soạn thảo, bộ mã mà còn có cả các hệ thống kiểm lỗi chính tả, từ điển điện tử, hệ thống phiên dịch, phần mềm nhận dạng chữ in, các hệ thống trả lời tự động qua điện thoại...

    Bóng tối dưới chân cột đèn

    Ngay sau khi bộ BCVT ra đời, viện Chiến Lược BCVT&CNTT với sự tài trợ của Chương Trình Phát Triển Liên Hiệp Quốc (UNDP) đã bắt tay soạn thảo "Chiến lược quốc gia về CNTT-TT đến 2010 và định hướng đến 2020". Ít nhất, đã có 3 cuộc hội thảo được tổ chức trong năm 2003 để lấy ý kiến đóng góp, xây dựng. Tuy nhiên tại các hội thảo đó, vấn đề tiếng Việt trên hệ thống máy tính và sự tích hợp giữa CNTT và NNH đã không mấy được đề cập. Do vậy, sự thiếu sót của vấn đề hết sức quan trọng này trong chiến lược quốc gia về CNTT-TT được Chính Phủ phê duyệt tháng 10/2005 âu cũng là điều dễ hiểu. Và theo ông Ngô Trung Việt, chuyên viên viện CNTT - viện KHCN VN thì đây là “bóng tối dưới chân cột đèn” bởi ngọn đèn treo trên cao sẽ tạo ra bóng tối phía dưới, nhưng nó nhỏ bé tới mức phải hết sức quan tâm, để ý thì mới nhìn thấy. Thực tế này của Việt Nam khác hẳn với những nước như Trung Quốc, Nhật Bản, Hàn Quốc, Thái Lan...

    Dẫu rằng, muộn còn hơn không, những người thực hiện loạt bài này không có mong muốn gì hơn là sớm có những hội thảo, diễn đàn chính thức với sự tham gia của cả hai ngành CNTT và NNH. Đó chính là điều cần thiết hàng đầu cho sự nghiệp phát triển CNTT mang màu sắc riêng của Việt Nam.

    “Thiếu chuẩn - lỗi của Nhà Nước”
    TS.Nguyễn Quang A - nguyên chủ tịch hội Tin Học Việt Nam

    Trong giới CNTT ai cũng hiểu rõ và nay càng nhiều người hiểu: sự không thống nhất về các vấn đề tiếng Việt gây ra vô vàn khó khăn cho sự phát triển CNTT và kinh tế-xã hội, sẽ gây ra những thiệt hại có thể tính bằng tiền, rất nhiều tiền. Trong ba vấn đề tranh cãi thì bộ mã chuẩn đứng hàng đầu, rồi đến bộ gõ và bàn phím. Không phải hội Tin Học VN và những người làm CNTT đã không bàn về bàn phím, nhưng vì vấn đề bộ mã chuẩn là vấn đề cốt lõi, được bàn rất nhiều nhưng không thể đi đến ngã ngũ.

     

    Với cách biểu diễn 1 byte cho 1 ký tự thì vấn đề biểu diễn tất cả các ký tự tiếng Việt là không thể giải quyết được (đơn giản vì “chim nhiều hơn lồng” (số lượng ký tự Việt nhiều hơn 128) nên khi phân chia, nhốt chim vào các lồng thì ít nhất có một lồng có từ 2 con trở lên). Tức là phải dùng mẹo, dùng một cái gì đó - một bít, một số bít - để đánh dấu. Đã không có sự nhất trí về mẹo, về chỗ để phân các ký tự thuần Việt. Điều đó cũng dễ hiểu vì nhà chế tạo nào cũng muốn bảo vệ giải pháp của mình và vì bài toán không có lời giải nhất quán nên ai cũng có lý.

    Lúc đó cần đến Nhà Nước, với hiệu lực bắt buộc, Nhà Nước phải đưa ra chuẩn. Rất đáng tiếc các cơ quan nhà nước do không hiểu kỹ vấn đề nên đã đưa ra tiêu chuẩn khá muộn. TCVN 5712 được ban hành năm 1993. Những người làm chuẩn đã phạm một sai lầm vô cùng lớn: họ đã (vô tình hay cố ý) lẫn lộn giữa bộ mã, các bộ font và các bộ gõ, nên mới quy định luôn bộ font chữ ABC.

    Bộ mã chuẩn là cốt lõi, nếu ai cũng theo thì vấn đề tiếng Việt trên máy tính đã giải quyết được 95%. Và bộ mã chuẩn, các bộ font, các bộ gõ là những thứ khác nhau, tách biệt với nhau. Nếu chỉ quy định bảng mã chuẩn, tôi nghĩ VNI và các nhà cung cấp khác vẫn giữ các bộ font của mình, cách gõ của mình, các driver (bộ phận điều khiển - PV) của mình và chỉ cần chỉnh chúng theo bộ mã chuẩn (một việc cực dễ) để thống nhất. Những người dùng đã quen font chữ cũ, cách gõ cũ không gặp khó khăn gì khi theo bảng mã chuẩn. Đáng tiếc đã không xảy ra như vậy, và TCVN 5712 “chết yểu” vì những lý do đó. Thiệt hại có thể cân đo, đong đếm được. Đấy là lỗi của những người làm chuẩn, ban hành chuẩn. May thay với Unicode, bài toán bảng mã chuẩn tiếng Việt có những lời giải nhất quán, và một bộ mã đã dần dần trở thành chuẩn.

    Về bàn phím nên có những nghiên cứu nghiêm túc về tần suất các ký tự Việt, về cách gõ, về cách phân ký tự với mục đích tăng năng suất của người gõ (chỉ có ý nghĩa khi nhập liệu, đánh máy chữ), đưa ra các tiêu chí đánh giá khoa học (thuận tiện, tốc độ, sức khỏe...) và thống nhất chọn ra một cách bố trí đạt các tiêu chí đề ra và ban hành thành chuẩn. Sau đó yêu cầu các nhà sản xuất tuân thủ. Tôi nghĩ bảng mã chuẩn đã có cơ sở để thống nhất. Bàn phím nên nghiên cứu tiếp. Không có chuẩn là lỗi của Nhà Nước!

    “Lãnh đạo các ngành cần là những người có tầm nhìn chiến lược và chủ động đón bắt thành tựu khoa học”
    Một chuyên gia CNTT đề nghị không nêu tên

    Là một chuyên viên CNTT trong lĩnh vực xử lý ngôn ngữ, tôi thấy rằng với những tác động của CNTT, việc nghiên cứu NNH phải được phát triển theo cách thức làm việc hoàn toàn khác so với các cách thức truyền thống trước đó. Đó là việc phải dùng hữu hiệu máy tính trong xử lí ngôn ngữ theo cách mới. Tuy nhiên thực tế đã diễn ra thì không được như những đòi hỏi cần có đó và những tri thức công nghệ thông tin đã không được cập nhật đầy đủ cho người làm ngôn ngữ. Người làm ngôn ngữ phải tiến lên để bắt lấy những cái mới nhất của công nghệ hỗ trợ cho công việc của mình.

    Việc này cần có một hoàn cảnh và môi trường thích hợp, và phải có mối quan tâm của các cấp lãnh đạo để tạo ra môi trường này. Thực tế đòi hỏi những người làm công tác lãnh đạo của tất cả các ngành từ tự nhiên tới xã hội phải có tầm nhìn chiến lược và chủ động đón bắt những thành tựu khoa học của các lĩnh vực khác để phục vụ cho mình chứ không chỉ là những định hướng mang tính "hàn lâm" một cách cổ điển để đào sâu kiến thức của mình, mà không tiếp thu tri thức của các ngành khoa học khác.

    Trong thực tế, sinh viên năm cuối ngành CNTT chưa nhận thức được mối quan hệ giữa CNTT và các vấn đề ngôn ngữ. Nguyên nhân một phần do vì sự thiếu hiểu biết của cả một lớp người đi trước, của chính đội ngũ giáo viên và lãnh đạo ngành CNTT. Trong ý thức và cách hiểu của đa số mọi người đã không thấy được vấn đề này mà vẫn chủ yếu nghĩ dưới dạng các bài toán quản lý, kế toán… Mối quan hệ giữa NNH và CNTT là câu chuyện ở đâu đó gần như không bao giờ được nhìn vào. Ngay cả với những người lãnh đạo ở tầm chiến lược quốc gia, vấn đề này là cũng chưa được coi như một nhiệm vụ chiến lược. Chúng ta đã từng có một đề án cấp nhà nước về vấn đề chữ Việt và máy tính nhưng rất tiếc nó đã không được tiếp tục vì phần lớn mọi người sau khi thấy soạn thảo được tiếng Việt trên máy tính là xem như đã đáp ứng được yêu cầu.

    “Khoa CNTT cần đào tạo về ngôn ngữ học”
    TS Đỗ Bá Lộc – giảng viên Ngôn Ngữ và Văn Hóa VN, ĐH Ngoại Ngữ, ĐHQG Hà Nội

     

    Là giảng viên chuyên dạy tiếng Việt cho người Việt Nam và nước ngoài, bản thân tôi cũng như các đồng nghiệp đương nhiên phải có những nghiên cứu rất sâu sắc về NNH không chỉ của tiếng Việt. Giống như mọi lĩnh vực khác, CNTT có ảnh hưởng lớn đến việc đổi mới giảng dạy ngoại ngữ nhưng theo tôi, ngành NNH phải quan tâm đặc biệt đến CNTT. Việc đào tạo NNH ở nước ta chưa bắt kịp với CNTT do nhiều nguyên nhân chủ quan và khách quan. Chưa bàn đến CNTT mà ngay trong chương trình khung nhiều năm qua vẫn quá thiếu các môn về khoa học tự nhiên.

    Tuy nhiên, thực tế phát triển là không ai có thể chờ đợi ai và trong khi hoạt động đào tạo ở bậc đại học về NNH chưa kịp cập nhật, nên chăng chính các khoa CNTT nên chủ động đưa NNH vào chương trình đào tạo của mình vì đó là định hướng mà xã hội rất cần. Cũng cần nói thêm, ngành NNH ra đời bởi sự đóng góp rất lớn của các nhà toán học, vật lý như Lomonosov, Chromsky... Chính vì thế ở VN, các chuyên gia CNTT hoàn toàn có thể chủ động dùng kiến thức của mình để nghiên cứu về NNH và đưa ra những kết quả mà bản thân những người được đào tạo qua trường lớp về NNH không dễ làm được.

    “Không thể chờ Microsoft hay Mac OS”
    GS Ngô Thanh Nhàn


    CNTT phục vụ nhu cầu mọi mặt của xã hội. Tuy nhiên, các nhà NNH không giỏi về CNTT nên không thể giải thích luật ngôn ngữ theo thuật toán (algorithm) cho các chuyên gia CNTT. Ngược lại, các chuyên gia CNTT cho đến nay ít để ý đến việc quan sát thao tác và tri thức của các nhà NNH để chuyển thành algorithm hệ thống. Vì thế, sinh viên ngành CNTT nên học thêm các lớp cơ bản của ngành mình theo đuổi, ví dụ, lập trình cho ngữ âm học lịch sử tiếng Việt phải học các lớp cơ bản về NHH và NNH lịch sử một cách chính quy và có hệ thống. Nếu không thấy tính hệ thống trong NNH, không thể lập trình có tính hợp tác hệ thống cao (mỗi người làm một bộ phận, hợp lại theo hệ thống, như phương pháp luận của Linux).

     

    Nhận xét của tôi sau BKED, VietStar... là giới CNTT Việt Nam thừa sức sửa lại hệ văn phòng nguồn mở Open Office và bản địa hoá dựa trên Linux như Word, Powerpoint, Excel và Access trên nền Linux miễn phí hợp với người Việt Nam hơn - không những cho chữ quốc ngữ mà còn cho tất cả các loại chữ viết của các dân tộc trong nước. Trung Quốc đã làm được như vậy. Rõ ràng, chúng ta không thể chờ Microsoft hay Mac OS, và Việt Nam cũng không thể bản địa hoá tự do trên nền hệ điều hành sở hữu (proprietary) của họ. CNTT phải mang tính kinh tế. Những điều dưới đây cần cơ quan chức năng chú ý vì chúng đều mang tính kinh tế dài hơi, nhưng khó thấy ngay, và chúng ta đang bị trễ:

    1. Hiện nay, Việt Nam không có ai tham gia cùng với Unicode làm chuẩn chữ viết cho các dân tộc thiểu số ngoài các tổ chức quốc tế, ông Đỗ Bá Phước tức James Đỗ (Unicode), và ông Ngô Trung Việt (viện CNTT). Đào tạo CNTT ở bậc đại học cần dạy chuẩn quốc tế để tạo cách suy nghĩ “toàn cầu” (globally) trong bối cảnh toàn cầu hoá (globalization), ngay cả khi lập trình cho người sử dụng trong nước. Các hệ chữ viết của 54 dân tộc trong nước, Nhà Nước phải tập trung làm xong trong 5 năm tới. Unicode đã thông qua bộ mã chữ Chăm (nhưng Việt Nam chưa in lại) và đang sửa soạn thông qua hệ chữ Thái Việt Nam.

    2. Các chuyên gia CNTT cần tiếp tục công tác dịch hệ điều hành và hệ văn phòng từ tiếng Anh sang tiếng Việt trên nền Linux, tốt hơn và rẻ hơn nhiều so với việc tiếp tục mua hệ điều hành và hệ văn phòng Microsoft.

    3. Sự hợp tác giữa NNH và CNTT là cần thiết để giải quyết những vấn đề cơ bản như sửa chính tả, bỏ dấu đúng chỗ, làm danh sách từ, từ điển, địa danh, tên lịch sử, cây cỏ, chữ viết tắt, thuốc men (cả thuốc ta), sử, lịch xuyên niên đại (như của Lê Thành Lân)... và còn vô vàn danh sách (hay cơ sở dữ liệu) khác cần làm miễn phí.

    4. Mỗi chữ trong tiếng Việt là một tiếng. Danh sách tiếng trong tiếng Việt không nhiều nên có thể làm nhanh giúp máy tính đọc cho người mù, chữ Braille cho người mù Việt Nam, chỉ đường cho xe hành khách, trả lời điện thoại, dịch vụ thư tín, du lịch... tiến tới nhận dạng tiếng nói, chữ in và chữ viết tay...

    5. Viết tiếng Việt trong email phải bỏ được dấu. Trong các trường, khi bắt đầu dạy máy tính, dạy gõ bàn phím đúng quy trình (10 ngón) và đúng chuẩn là điều mà các trường trung học Mỹ dạy rất kỹ. Ở đây tôi chưa thấy có giáo trình dạy đánh máy theo chuẩn bàn phím Việt Nam của bộ Giáo Dục.

    Như vậy, (a) một bộ phận nằm ở việc tập trung tài lực và trí tuệ để giải quyết những vấn đề cơ bản cho CNTT VN nói trên, (b) một bộ phận phổ biến sử dụng đại trà miễn phí thúc đẩy kinh tế phát triển qua thông tin và (c) một bộ phận đưa vào giáo dục đại trà. Tôi xin gọi là phối hợp đồng bộ hoá tập trung để hội nhập. Việc này không thể có công ty tư nhân, cá nhân, nước ngoài hay thị trường tự do nào làm được ngoài Chính Phủ.

    “Phải quan tâm đến nhu cầu của các dân tộc thiểu số”
    Ông Ngô Thế Long – nguyên chuyên viên tin học viện Hán Nôm

     

    Tôi không muốn bàn nhiều về tiếng Việt mà muốn tập trung vào Hán Nôm và ngôn ngữ của tất cả cộng đồng các dân tộc thiểu số trên đất nước ta. Bước vào thời đại CNTT, mọi dân tộc đều cần có chỗ đứng trong bảng mã Unicode quốc tế. Điều đó cần có sự lãnh đạo, ủng hộ mạnh mẽ từ các cơ quan Chính Phủ. Điều đáng mừng là Việt Nam đã giành được chỗ đứng trong bảng mã Unicode của các ngôn ngữ biểu ý (chữ tượng hình) cho chữ Nôm bên cạnh các vị trí của chữ Hán, Nhật Bản, Hàn Quốc...

    Những năm gần đây, Đảng và Chính Phủ rất chú trọng đến việc xuất bản báo, thực hiện các chương trình phát thanh, truyền hình phục vụ đồng bào các dân tộc thiểu số. Để làm tốt các nhiệm vụ đó, các cơ quan báo chí, phát thanh, truyền hình rất cần số hoá các nguồn thông tin cùng sản phẩm của mình. Tuy nhiên, tôi được biết, tại các ban biên tập tiếng các dân tộc thiểu số của Đài Tiếng Nói VN, nhiều ngôn ngữ vẫn chưa được tin học hóa và hoạt động lưu trữ điện tử chưa thực hiện được. Chính vì vậy, Chính Phủ cần quan tâm, đầu tư và tạo điều kiện về nghiên cứu ứng dụng CNTT cho ngôn ngữ của các dân tộc thiểu số.

    Thực hiện: Đức Hoàng - Thu Nga

    ID: B0705_20