• Thứ Tư, 25/11/2009 07:45 (GMT+7)

    Máy tính phải hiểu tiếng Việt

    Việc dịch từ tiếng nước ngoài sang tiếng Việt dẫu sao vẫn thuận lợi hơn vì đã có sẵn các công cụ phân tích ngữ nghĩa. Tuy nhiên, nếu dịch theo chiều ngược lại thì vấn đề sẽ phức tạp hơn bởi chính chúng ta sẽ phải xây dựng các công cụ phân tích để máy tính “hiểu” được tiếng Việt.

    LTS: Tạp chí TGVT B khởi đăng từ số tháng 9/2009 vấn đề “Công cụ hỗ trợ dịch thuật”. Chúng tôi đã nhận nhiều bài viết và ý kiến trao đổi của các chuyên gia và nhà ngôn ngữ học (NNH). Các ý kiến bàn về thực trạng cũng như gợi mở một lĩnh vực cần được quan tâm nghiên cứu và đầu tư phát triển. Sau bài viết và các ý kiến dưới đây, chúng tôi tạm khép lại diễn đàn này trên tạp chí. Để duy trì trao đổi về vấn đề đã được khơi mào này, mời các bạn tiếp tục chia sẻ ý kiến qua mạng Cộng đồng TGVT (http://www.pcworld.com.vn/forum).

    TS. Đào Hồng Thu, giảng viên Khoa Ngoại ngữ ĐH Bách khoa Hà Nội

    Cần đầu tư cho ngôn ngữ học khối liệu tiếng Việt
    Trong lĩnh vực NNH có ngành NNH khối liệu (Corpus Linguistics). Đây là khoa học liên ngành giữa NNH ứng dụng với kỹ thuật số và công nghệ máy tính. Thực tế đã chứng minh chuyên ngành khoa học này đóng vai trò hết sức quan trọng cho việc phát triển công nghệ dịch thuật và xây dựng các hệ thống khối liệu ngôn ngữ. Chuyên ngành này đi sâu vào nghiên cứu ngôn ngữ ứng dụng trên một khối lượng rất lớn từ vựng và cấu trúc cú pháp. Tuy nhiên, ở Việt Nam, hiện chưa có nhiều chuyên gia trong ngành này để có thể hiểu được nhu cầu của các chuyên gia tin học đang làm về công nghệ dịch thuật. Trong các công việc chung cần phải làm này, sự hiểu biết lẫn nhau giữa người làm NNH ứng dụng và tin học còn là một vấn đề tồn tại ở Việt Nam và có lẽ, những nỗ lực từ cả hai phía vẫn cần có sự quan tâm của Nhà nước.

    Các hệ thống dịch máy theo chiều từ tiếng Anh (hoặc một ngôn ngữ khác) sang tiếng Việt vẫn dễ thực hiện hơn, vì chúng ta đã thừa hưởng hệ thống phân tích ngôn ngữ trong khối liệu của tác giả các hệ thống dịch máy này. Tuy nhiên, hệ thống dịch máy chỉ thực sự có ý nghĩa đối với người sử dụng nếu xử lý được hai chiều. Việc đó chỉ có thể làm được khi có những đầu tư, nghiên cứu về ngôn ngữ khối liệu cho tiếng Việt.

    Tôi rất vui vì qua tạp chí TGVT B, với chuyên đề công nghệ dịch thuật này, những người như tôi đã bắt đầu tìm được tiếng nói chung với ngành tin học. Nếu được sự chú ý và quan tâm thực sự từ phía Nhà nước, các chuyên gia về ngôn ngữ và tin học có thể cùng tham gia những công việc chung để giải quyết được những vấn đề cấp thiết, và đào tạo được thế hệ các nhà chuyên môn của khoa học liên ngành giữa ngôn ngữ và tin học.

    TS Nguyễn Chí Công, Ủy viên Ban chấp hành Hội Tin học Việt Nam
    Cần hoàn thành các thống kê, phân tích tiếng Việt hiện đại

    Các nghiên cứu phân tích tiếng Nga, tiếng Anh… trước đây chắc chắn là cần và quan trọng nhưng chưa thể đầy đủ khi sử dụng cho những cấu trúc ngữ nghĩa đặc thù của tiếng Việt. Vì thế, chúng ta còn phải nghiên cứu tiếng Việt từ góc nhìn mới với những công cụ hiện đại. Để công việc này có kết quả như mong muốn thì phải nghiên cứu kỹ sự phát triển của tiếng Việt gần đây và tiến hành thống kê, phân tích các nhóm từ gốc, từ cơ bản cho đến các nhóm thuật ngữ chuyên ngành của thời hội nhập quốc tế.

    Chúng ta có thể dựa vào máy tính để phân tích, xử lý từ vựng và ngữ nghĩa trên cơ sở các bộ từ điển chính tả tiếng Việt và kho ngữ liệu Internet khổng lồ để đi đến các sắp xếp, phân loại phù hợp và chính xác hơn cho việc dịch máy theo hướng các chuyên ngành. Với năng lực xử lý của các thế hệ máy tính ngày nay, đây là công việc cũng không tốn nhiều thời gian nhưng nếu tạm so sánh với công việc quét sạch cả một sân vận động thì đương nhiên phải cần đến một đội ngũ nhân lực không nhỏ để rà soát và tiếp tục cập nhật. Đây là công việc mà sinh viên các ngành NNH, ngoại ngữ có thể tham gia cùng với sinh viên ngành tin học và chắc chắn nguồn nhân lực này sẽ tích luỹ được nhiều kinh nghiệm quý báu cho những nghiên cứu khoa học sau này có thể tiếp cận và phát triển.

    Trước đây (năm 1997), tôi đã từng lưu ý rằng tiếng Việt của chúng ta không hoàn toàn là đơn âm và phần lớn các từ bên ngoài nhóm từ gốc thường viết bằng 2 chữ hoặc nhiều hơn như “trong sáng”, “văn chương”, “ý nghĩa”, “hợp tác xã”, “dân chủ hoá”, “tư bản chủ nghĩa”… Trong máy tính, chúng ta đang viết dấu cách bằng phím Space chèn vào giữa các chữ của tiếng Việt, bất kể nó ở giữa từ nọ và từ kia hay là giữa các chữ của một từ phức. Chính thực tế đó đã khiến máy tính khó “đọc” và “hiểu” được tiếng Việt. Trong khi đó, một trong các giải pháp hỗ trợ đã có ngay từ đầu trong các bảng mã ISO Latin-1, TCVN 5712 trước kia và Unicode, TCVN 6909 sau này. Đó là một ký tự có tên gọi Non Breaking Space (NBSP). Nếu sử dụng ký tự NBSP thay vì ký tự trắng (Space) hoặc thay vì dấu gạch nối (-) vào vị trí ở giữa các chữ của một từ phức tiếng Việt, việc tự động hoá trong xử lý tiếng Việt có thể sẽ thuận lợi hơn rất nhiều mà không gây khác biệt cho người quan sát sự hiển thị trên màn hình hoặc giấy in.

    TS Nguyễn Ái Việt, Viện CNTT – ĐH Quốc gia Hà Nội
    Ứng dụng CNTT và công nghiệp CNTT phải song hành

    Mối quan hệ giữa NNH và CNTT ở Việt Nam lại là câu chuyện của “bóng tối dưới chân cột đèn” không được ai nhìn vào, chính vì thế mà tại các cuộc hội thảo lấy ý kiến cho việc soạn thảo chiến lược giai đoạn 2005 - 2010 đã không được ai bàn đến, đề cập đến. Có một thực tế của việc xây dựng các chiến lược trong nhiều lĩnh vực ở Việt Nam là dường như không sắc nét và cũng thiếu một cái nhìn mang tính toàn cảnh. Đã là chiến lược thì cần phải hết sức thực tiễn chứ không chỉ vẽ ra viễn cảnh mà phải chỉ rõ ra là Nhà nước làm gì? Doanh nghiệp làm gì? Xã hội làm gì?

    Để máy tính có thể đọc và hiểu…

    Khi dịch một câu thì chủ thể, máy tính hay người phiên dịch, phải hiểu ý nghĩa câu văn đó. Với một số ngôn ngữ, chẳng hạn tiếng Hungary, phải nghe hết câu mới hiểu được nghĩa. Với tiếng Nga, mọi thứ được quy định rõ ràng là phải chia động từ cho tất cả các ngôi thứ, có giống, số ít – số nhiều và 6 cách cho danh từ trong các trạng thái bị chi phối cùng tính từ đi theo... Tất nhiên là vẫn có những ngoại lệ nhưng về cơ bản, tiếng Nga là ngôn ngữ mà máy tính có thể đọc và hiểu dễ dàng hơn nhiều ngôn ngữ khác.

    Với tiếng Anh, cũng có việc chia động từ, số ít – số nhiều, tân ngữ… nhưng đơn giản hơn tiếng Nga. Câu hỏi được quy định bằng việc đảo động từ ra trước chủ ngữ và như vậy, máy tính dễ dàng nhận biết. Còn chuyện viết một đằng phát âm một nẻo (theo phiên âm quốc tế chứ không như chữ cái) thì thực ra cũng có những quy luật của nó, và nếu chỉ là xử lý văn bản chứ không xử lý tiếng nói thì máy tính cũng không nhất thiết phải quan tâm đến yếu tố này. Với tiếng Pháp, nếu trên quan điểm phân tích cho máy tính thì có lẽ cũng không khác nhiều so với tiếng Anh. Đặc thù của tiếng Pháp là có thêm mạo từ (le, la, les) để phân biệt giống đực, giống cái và số nhiều.

    Với tiếng Trung, đất nước này có một đặc điểm là tiếng nói có thể khác nhau giữa tỉnh này và tỉnh kia nhưng khi viết lại giống nhau (chữ Hán). Vì thế mới có chuyện quy ra thành tiếng Bắc Kinh, tiếng Quảng Đông, tiếng Quảng Tây… Đặc điểm của chữ Hán là nghĩa của mỗi chữ đều rõ ràng và máy tính cần phải hiểu chính là nghĩa của chữ đó cùng những bộ chữ được tổ hợp để ghép lại thành.

    Mặc dù sử dụng hệ chữ tượng hình như chữ Hán nhưng thực chất chữ Hàn Quốc lại là theo phương thức đánh vần giống như hệ Latin. Vì thế, công cụ phân tích tiếng Hàn để máy tính có thể hiểu phải chăng sẽ giống với tiếng Việt?

    Tiếng Việt cho máy tính

    Vấn đề dễ nhận thấy đầu tiên của tiếng Việt chính là sự phức tạp trong cách dùng từ. Chẳng hạn chữ “nhà tôi” là “vợ (hay chồng) của tôi” hoặc “nhà của tôi”. Và rồi với câu hỏi thì cũng không được quy định bằng việc đảo động từ như tiếng Anh mà chỉ quy định bằng ngữ điệu hoặc cuối câu phải có dấu hỏi kèm theo những thán từ như “có phải không”. Còn để kiểm lỗi chính tả đa âm tiết, với tiếng Việt nếu nói ngọng thì người nghe vẫn hiểu. Vì thế, quy luật để kiểm hợp lý nhất phải là soát từ đuôi lên đầu chứ không phải là “bê” cơ cấu đánh vần của tiếng Anh sang…

    Vì vậy, những gì mà chúng ta vẫn quen viết, đọc của tiếng Việt để cho máy tính “tiêu hoá” ngay thì sẽ không ổn vì đã là máy móc thì cơ chế làm việc sẽ rất “máy móc”. Để máy tính hiểu được tiếng Việt có lẽ chúng ra buộc phải có một quá trình nữa là dịch từ tiếng Việt sang một thứ tiếng Việt khác có logic cho máy tính (!). Chỉ có như vậy, sau khi máy tính hiểu được tiếng Việt mới đến công đoạn tìm kiếm mẫu câu tương ứng của ngôn ngữ đích cần dịch và đưa ra.

    Trên đây là những suy nghĩ của một người đam mê theo dõi và phản ánh về CNTT nói chung và ứng dụng CNTT NNH, công nghệ dịch thuật nói riêng. Đó có thể chỉ là những cảm nhận một cách hết sức chủ quan vì chưa thực sự có điều kiện nghiên cứu sâu về NNH và công nghệ dịch thuật. Rất mong các chuyên gia về NNH và tin học làm việc trong lĩnh vực này bổ sung thêm ý kiến.

    Bocohan SE, công cụ dịch trực tuyến
    Được xây dựng từ năm 2007, Bocohan SE của Công ty Cổ phần Công nghệ Viegrid ra mắt tháng 6/2009. Bocohan là công cụ hỗ trợ dịch thuật và là sản phẩm thương mại. Theo đó, người sử dụng sẽ cài đặt phần dữ liệu cơ bản trên máy tính của mình và kết nối online với hệ thống máy chủ của Viegrid. Cùng với Bocohan, Viegrid còn phát triển một sản phẩm nữa là “Công cụ Việt” có thể “nhúng” vào hệ soạn thảo Winword để kiểm tra lỗi chính tả tiếng Việt, chuyển mã font và cung cấp từ điển. Còn nếu không cài đặt các bộ công cụ này, người sử dụng vẫn có thể vào trang web www.thegioichu.com để đăng ký sử dụng dịch thuật trực tuyến nhưng các dịch vụ hỗ trợ sẽ ít hơn.

    Sử dụng Bocohan, người dùng sẽ có một lợi thế là khi lặp lại những đoạn dịch tương tự với những lần trước đó thì sẽ không mất công phải dịch lại mà được phần mềm gợi ý lấy ra để đưa vào. Các sản phẩm phần cứng và phần mềm của Viegrid đều được thiết kế với năng lực tự học. Chính vì thế, phần mềm thông minh hay không là phụ thuộc vào chủ của nó. Năng suất làm việc của người sử dụng Bocohan có thể tăng từ vài chục tới hàng trăm phần trăm, tùy theo kỹ năng sử dụng và kiến thức của người dùng.

    TânKhoa

    ID: B0911_73