• Thứ Ba, 01/12/2009 12:38 (GMT+7)

    Hệ thống tổng hợp tiếng nói tiếng Việt

    Nhóm nghiên cứu thuộc phòng thí nghiệm Trí tuệ nhân tạo (AILab), ĐH Khoa học Tự nhiên (KHTN), ĐH Quốc gia TP.HCM (ĐHQG) đã xây dựng thành công hệ thống tổng hợp tiếng nói tiếng Việt: “Tiếng nói phương Nam” (VOS) phiên bản 1.0.

    Kết hợp giữa âm tiết và cụm từ

    Tiếng nói là công cụ giao tiếp tự nhiên nhất của con người. Hướng nghiên cứu tạo ra tiếng nói nhân tạo trên máy tính được gọi là tổng hợp tiếng nói. Hai yêu cầu quan trọng về chất lượng tổng hợp tiếng nói là mức độ tự nhiên và mức độ dễ nghe. Mức độ tự nhiên chỉ sự giống nhau giữa giọng tổng hợp và giọng nói tự nhiên của người thật. Mức độ dễ nghe là khả năng hiểu câu nói phát âm có dễ dàng không. Một hệ thống tổng hợp tiếng nói lý tưởng phải thỏa mãn hai tính chất này.

    Tuy nhiên, theo TS. Vũ Hải Quân, trưởng phòng thí nghiệm AILab, trong thực tế, một số hệ thống thiên về mức độ dễ nghe hơn, hoặc mức độ tự nhiên hơn tùy thuộc vào mục đích và công nghệ được lựa chọn. VOS là hệ thống có thể tạo ra giọng nói nhân tạo của người trên máy tính từ dữ liệu đầu vào là văn bản. “Tiếng nói phương Nam – VOS” được phát triển theo phương pháp tổng hợp ghép nối có cải tiến để tạo ra tiếng nói tự nhiên, rõ ràng, gần với giọng thực. Cụ thể, đơn vị ngữ âm để ghép không nhất thiết phải là âm tiết mà nó có thể là từ, thậm chí cụm từ, được xác định một cách mềm dẻo trong quá trình tổng hợp. Nhờ đó, các đơn vị này được phân đoạn tự động trên mỗi câu thu âm theo cách gần với giọng nói thật.

    Tiềm năng ứng dụng

    Khả năng ứng dụng của hệ thống VOS lớn và cho nhiều lĩnh vực như: truyền thông, tự động hóa, giáo dục. Với truyền thông, VOS có thể được áp dụng trong các ứng dụng truy vấn thông tin qua tổng đài điện thoại. Người dùng yêu cầu nhân viên tổng đài cung cấp thông tin. Ngay khi nhân viên tìm được thông tin dạng văn bản sẽ đưa vào VOS chuyển thành dạng âm thanh và trả về cho người dùng. Các hệ thống này xử lý hoàn toàn tự động, có thể hoạt động 24/7, đáp ứng nhu cầu thông tin của người dùng, đặc biệt là các thông tin nóng, cập nhật liên tục.

    Trong lĩnh vực tự động hóa, VOS có thể được tích hợp với hệ thống định vị GPS cho các ứng dụng tìm đường đi, gắn trên xe hơi để cung cấp chỉ dẫn dạng âm thanh, hạn chế việc lái xe phải liên tục theo dõi màn hình GPS

    Công nghệ tổng hợp tiếng nói cũng được sử dụng trong các hệ thống dịch tiếng nói. Ngoài ra, những người khiếm thị có thể sử dụng hệ thống này để cập nhật kiến thức, tin tức thời sự, giúp họ hòa nhập tốt với xã hội.

    Xác định tổng hợp tiếng nói là công nghệ nền tảng cho lĩnh vực giao tiếp người máy, ĐHQG TP.HCM đã đầu tư phát triển hướng nghiên cứu này. Cụ thể năm 2008, ĐHQG TP.HCM đã phê duyệt dự án phòng thí nghiệm Trí tuệ nhân tạo đặt tại ĐH KHTN. Trong năm 2009, nhóm cũng được Quỹ Phát triển Khoa học và Công nghệ Quốc gia (NAFOSTED) phê duyệt thực hiện nghiên cứu cơ bản về dịch tiếng nói Anh-Việt trong phạm vi hẹp.

    VOS đang tiếp tục được bổ sung từ vựng tiếng Việt và tiếng nước ngoài. Đến cuối năm 2009, nhóm sẽ hoàn tất phiên bản 2.0, xác định mục tiêu phủ đến 99% các từ tiếng Việt và đọc được ngoại ngữ thông dụng. Nhóm sẽ tiếp tục cải tiến để đưa chất lượng của tiếng nói nhân tạo gần hơn nữa với tiếng nói tự nhiên, đặc biệt là các đoạn ngắt, nghỉ, lên, xuống trong quá trình đọc. Phiên bản dùng thử của VOS tại địa chỉ: http://www.ailab.hcmus.edu.vn/slp/index.html

    TS. Vũ Hải Quân


    Hồng Vinh
    ID: B0911_58