• Thứ Năm, 07/04/2011 11:11 (GMT+7)

    Đôi điều về “Xử lý tiếng Việt”

    Tân Khoa
    Vấn đề giữa CNTT và ngôn ngữ học đã được các nhà ngôn ngữ học, chuyên gia CNTT góp ý trao đổi trên Tạp chí TGVT B từ số tháng 2 - 5/2007 và số tháng 9 - 11/2009. “Tiểu nhiệm vụ” “xử lý tiếng Việt” đã được đưa vào Đề án Tăng tốc và một chuyên gia về CNTT đã chia sẻ thêm về cơ hội này.

    Cụm từ “Xử lý tiếng Việt” đã được đưa vào nhiệm vụ thứ 6 của Đề án Đưa Việt Nam sớm thành nước mạnh về CNTT (Đề án Tăng tốc) được Thủ tướng Chính phủ ký ban hành ngày 22/9/2010. Đáng mừng là mối quan hệ giữa CNTT và ngôn ngữ học đã được đề cập, dù chỉ là một “tiểu nhiệm vụ” với vỏn vẹn 4 chữ “Xử lý tiếng Việt”.

    Với kết quả này, những người nỗ lực vận động cho định hướng này chắc hẳn rất phấn khởi, dù họ mong muốn cụm từ đó phải là “Xử lý ngôn ngữ học”. Lý do là vấn đề không chỉ với tiếng Việt mà còn cả với tiếng nói, ngôn ngữ cho các dân tộc thiểu số, công nghệ dịch thuật, ngoại giao số... Tuy nhiên, nên hiểu cụm từ này theo nghĩa rộng vì “Xử lý tiếng Việt” không chỉ với chữ quốc ngữ mà đã bao hàm cho cả các dân tộc thiểu số. Riêng với công nghệ dịch thuật, thực chất vấn đề cũng là “Xử lý tiếng Việt” vì chỉ khi làm được điều đó thì máy tính mới hiểu được tiếng Việt và thực hiện được việc dịch từ tiếng Việt ra tiếng nước ngoài. Còn với chiều ngược lại, chúng ta đã thừa hưởng các công cụ phân tích có sẵn của nước ngoài nên máy tính về cơ bản đã hiểu được các nội dung cần dịch và việc chuyển đổi thành câu tiếng Việt cũng thuận tiện hơn (tham khảo TGVT B tháng 11/2009, trang 73).

    Có thể nói đó là câu chuyện của “bóng tối dưới chân cột đèn” (TGVT B tháng 5/2007, trang 20). Tuy đã được Chính phủ quan tâm đến nhưng để vấn đề phổ biến trong cộng đồng cần thời gian và sự nỗ lực của nhiều người. Theo những khảo sát mới nhất với sinh viên ngành CNTT của một số trường đại học lớn, kết quả đáng buồn là phần lớn sinh viên không biết gì về những cuộc tranh cãi giữa mã tổ hợp và mã dựng sẵn cho tiếng Việt đã từng “ồn ào” trên báo chí. Thậm chí, có sinh viên không ngần ngại nói rằng không cần biết để làm gì vì sau này ra trường sẽ tham gia vào thị trường gia công, xuất khẩu phần mềm nên chỉ cần tập trung giỏi ngoại ngữ (!). 

    “Nếu không cải thiện được tâm thức xã hội vẫn coi "CNTT là công việc nội bộ của các chuyên gia tin học" sẽ rất khó xúc tiến được nhiệm vụ “Xử lý tiếng Việt””.

    Liệu đây có là điều đáng báo động cho CNTT Việt Nam trên chặng đường “tăng tốc” hay không? Theo một chuyên gia về lĩnh vực này, đây là lỗi của nhiều thế hệ đi trước do quan điểm “không hàn lâm không phải là đại học”, thậm chí coi thường hay bỏ quên những điều đơn giản khi truyền đạt đã cho ra đời các thế hệ học trò không biết gì về những điều đó cũng là dễ hiểu. Nguyên Bộ trưởng Bộ Giáo dục - Đào tạo, Trần Hồng Quân từng đặt vấn đề trước Quốc hội: “Việt Nam là nước đi sau. Do đó, không nên suy nghĩ theo hướng muốn đóng góp cho thành tựu khoa học kỹ thuật của thế giới, mà việc cần làm là tranh thủ vận dụng các thành tựu đó cho sự phát triển của chính mình”.

    Tuy nhiên, cũng cần lưu ý có những thứ Việt Nam sẽ phải tự làm chứ không thể trông chờ nước ngoài. Vậy đâu là nguyên nhân? Đã có người lý giải: Phải đặt câu hỏi xem thầy dạy của họ là ai? Nhưng, những người thầy của các nhà khoa học Việt Nam dù giỏi đến đâu cũng không thể dạy họ vận dụng những kiến thức đã học như thế nào vì làm gì có thực tế tại Việt Nam. Và nhiệm vụ đó là của Chính phủ, phải đưa ra những đầu bài thiết thực với đất nước cho các nhà khoa học.

    Cụm từ “Xử lý tiếng Việt” trong nhiệm vụ thứ 6 của Đề án Tăng tốc thể hiện Chính phủ đã để mắt tới, nhưng để quan tâm một cách đầy đủ đến nó chắc chắn còn phải làm rất nhiều việc.

    Máy tính, mạng, công cụ xử lý vẫn chưa đủ mà yếu tố con người mới mang tính quyết định cho sự thành công trong xử lý tiếng Việt
     

    Tạm thời kết luận bước đầu cho những gì đã có được xung quanh 4 chữ “Xử lý tiếng Việt”, đã có người đưa ra lời khuyên là “hãy học cách để biết nghe và thưởng thức được nhạc jazz”. Đây là một dòng nhạc mà âm điệu của nó rất đơn giản, chỉ giới hạn trong đúng 7 nốt nhạc, nhưng trong chính giới âm nhạc không ai dám coi thường dòng nhạc này, với CNTT cũng vậy. Mong rằng, lãnh đạo các cơ sở đào tạo và nghiên cứu hãy để mắt quan tâm đến cái “bóng tối dưới chân cột đèn” này và tư duy một cách nghiêm túc về nó. Chỉ khi làm được việc đó, CNTT mới có đủ điều kiện để thâm nhập vào mọi lĩnh vực có nhu cầu.

    TS Nguyễn Ái Việt, Phó Viện trưởng Viện CNTT thuộc ĐHQG Hà Nội:

    "Hạ tầng không mạnh, không xử lý được"

    ĐHQG Hà Nội có trách nhiệm tham gia góp phần triển khai Đề án Tăng tốc. Dự án “Phát triển hạ tầng công nghệ và kho tài nguyên xử lý tiếng Việt, đưa nội dung số đến người sử dụng” do chúng tôi đề xuất, có căn cứ vào tiểu nhiệm vụ “Xử lý tiếng Việt” của Đề án Tăng tốc.
    Đây là nhiệm vụ hết sức quan trọng và thực tế, vì với người trình độ càng thấp thì càng cần công nghệ xử lý.

    Để làm được nhiệm vụ này, chúng ta phải có một kho tài nguyên số thật lớn: từ phông chữ đến khối liệu, có công cụ để xử lý khối liệu đó; và một hạ tầng mạng đủ mạnh. Trước đây, chúng ta quá chú tâm vào thuật toán để giải quyết vấn đề. Tuy nhiên, phải lưu ý rằng nếu hạ tầng không mạnh thì sẽ không xử lý được.

    Về các công cụ xử lý, trước hết là phải đầu tư hệ thống các máy tìm kiếm. Kế tiếp là phải xây dựng máy biên dịch để xử lý được nhanh với những khối lượng lớn các tài nguyên số của nước ngoài và đưa các giá trị thông tin khoa học của Việt Nam đóng góp vào kho tàng tri thức của nhân loại. Đương nhiên, máy dịch mà chúng tôi tham vọng để thực hiện được điều đó phải là máy dịch đa ngữ không chỉ Anh - Việt và Việt – Anh mà phải với cả nhiều ngôn ngữ khác như: Trung Quốc, Nga, Pháp, Nhật... Đương nhiên, cũng phải nói tới việc xây dựng các từ điển số mang tính chuyên ngành cùng hệ thống đăng ký sở hữu trí tuệ bằng các ngôn ngữ đó.

    Và cũng phải xây dựng các hệ thống tra cứu tri thức đa ngành, đa lĩnh vực về y tế, nông nghiệp, văn hoá, lịch sử, địa lý... để mọi người dân đều có thể truy nhập và tiếp thu được tri thức. Nhân đây, tôi cũng xin nói thêm là các thiết bị di động cầm tay ngày càng trở nên phổ biến với giá thành rẻ. Tuy nhiên, để tri thức, thông tin có thể phổ cập qua môi trường đó thì chúng ta phải có phần mềm xử lý tiếng Việt đi kèm. Điều hết sức quan trọng nữa là chúng ta phải có hệ thống máy chủ đủ mạnh để lưu trữ các nội dung số đó. Chúng ta cũng phải xây dựng được một mạng lưới trí thức trẻ để giúp cộng đồng biết sử dụng và khai thác những tài nguyên số hoá đó để phục vụ cho đời sống và sự phát triển.

     

    ID: B1101_68