Nghiên cứu Phát triển Hệ thống báo nói tự động cho báo điện tử dựa trên nền tảng web và công nghệ tổng hợp tiếng nói. Mã số đề tài: VAST01.02/14-15

Chủ nhiệm đề tài TS. Vũ Tất Thắng
Đơn vị thực hiện Viện Công nghệ Thông tin
Thời gian thực hiện 2014 - 2016
Tổng kinh phí 600.000.000 đồng
Xếp loại đề tài Đạt
Mục tiêu đề tài

•    Xây dựng hệ thống tự động chuyển báo điện tử trên nền web thành báo nói dựa vào công nghệ tổng hợp tiếng nói tiếng Việt.
•    Đưa công nghệ này vào thực tiễn.

Kết quả đạt được

* Hệ thống chuyển đổi báo điện tử thành báo nói dựa trên công nghệ tổng hợp tiếng nói tiếng Việt:     01    Biến báo viết thành báo nói trên nhiều môi trường như máy tính PC, cũng như điện thoại smartphone.
Yêu cầu hệ thống đạt được giọng nói nghe rõ, chính xác, giọng nói tự nhiên, có cảm xúc. Hệ thống đọc được các từ viết tắt thông dụng, các cụm từ nước ngoài phổ biến nhiều nhất có thể. Hệ  thống áp dụng được cho các trang báo điện tử phổ biến như dantri.vn, vietnamnet.vn, ... Tin tức cập nhật kịp thời.
Bao gồm đầy đủ các module cấu thành như trong kiến trúc ở hình 10.1 của đề cương:
-    Các module của tầng ứng dụng
-    Các module của tầng thu thập tin tức và xử lí
-    Các module của tầng quản lí tài nguyên

vtthang


* 01 Hệ thống thu thập tin tức và xử lý: Là sản phẩm bổ sung cho hệ thống ở  tầng thu thập tin tức và xử lí, để nâng cấp hệ thống báo nói ViNAS.  Sản phẩm tập trung vào các chức năng nâng cao hướng ngữ cảnh, module chuẩn hóa văn bản, tiếp cận có hệ thống cho chuẩn hóa văn bản tiếng Việt. Văn bản viết đôi khi không đủ tốt để chuyển sang tiếng nói, sản phẩm sẽ đưa văn bản đạt được các chuẩn cần thiết để tiếng nói tạo ra đạt được chất lượng tốt nhất
- Module Chia nhỏ văn bản
- Module Phát hiện từ không chuẩn
- Module Phân loại từ không chuẩn
- Module Khai triển từ không chuẩn
- Các thuật toán xử lí nhập nhằng
* 01 Hệ thống máy chủ quản lý tài nguyên: Là sản phẩm bổ sung cho hệ thống ở tầng quản lí tài nguyên, để nâng cấp hệ thống báo nói ViNAS.
Sản phẩm tập trung vào chất lượng tiếng nói tổng hợp, và khả năng đáp ứng được lượng truy vấn từ lớn đến rất lớn.
- Đáp ứng yêu cầu chất lượng nâng cao của tiếng nói tổng hợp. Server thu thập các yêu cầu từ phía người sử dụng (cách đọc từ viết tắt, sai sót các từ khi đọc,...) để chỉnh sửa các bài báo sao cho phù hợp hơn và lấy các yêu cầu làm dữ liệu tham khảo cho các bài báo tổng hợp sau đó.
- Đáp ứng yêu cầu quản trị tài nguyên text/audio với số lượng hơn 100k bản tin trong cache, các bài báo cần được tổng hợp sẵn là lưu giữ  lại trên server để có thể đáp ứng lượng truy cập lớn mà không quá trễ về thời gian.
- Đáp ứng yêu cầu về phân tích các cấu trúc động của các trang tin để lấy chính xác nội dung bản tin và tổng hợp tiếng nói trong thời gian thực.
* 01 Phần mềm nghe nội dung báo điện tử trên PC: Là sản phẩm bổ sung cho hệ thống ở tầng ứng dụng, để nâng cấp hệ thống báo nói ViNAS trên môi trường PC.
- Đáp ứng nhu cầu thống kê các trang tin tức, các mục tin được chú ý, tập trung xử lý các sự kiện được nhiều sự quan tâm của người sử dụng
- Đáp ứng nhu cầu cập nhập tin tức gần như tức thời, trong vòng 5 phút xuất hiện bản tin mới, sẽ có bản tin audio được cập nhập.
-Đáp ứng như cầu liên kết với hệ thống của người sử dụng, quản lý người dùng trên môi trường PC của hệ thống.
* Công bố 09 bài báo: Trong đó có 01 bài tạp chí thuộc SCI-E, 02 tạp chí trong nước, 05 bài đăng trong kỷ yếu hội nghị quốc tế, 01 bài đăng trong kỷ yếu hội nghị quốc gia.
* 01 Báo cáo các loại của đề tài. Các báo cáo ở các dạng thức: Tổng quan, tổng kết, tóm tắt, kỹ thuật, tài chính…
* Đào tạo: 01 Thạc sĩ

Những đóng góp mới

Đề tài đã tập trung vào các yêu cầu kỹ thuật, hướng sản phẩm với kiến trúc hệ thống đáp ứng với hoạt động của một hệ thống dựa trên nền tảng web, cung cấp khả năng tự động biến báo điện tử thành báo nói dựa trên công nghệ tổng hợp tiếng nói VieTalk, đưa công nghệ tổng hợp tiếng Việt vào một giải pháp tổng thể, có tính thực tiễn, nhằm hướng đến hệ thống báo nói đa nền tảng, trọng tâm là cung cấp khả năng tương tác bằng tiếng nói cho các thiết bị máy tính, di động.
Sản phẩm đề tài có thể để hoạt động như những dịch vụ Services, và cho dùng từ xa qua internet. Sản phẩm đề tài còn có ý nghĩa ứng dụng trong thực tế, cả cho người dùng nói chung, và đặc biệt là hỗ trợ các đơn vị làm báo điện tử có thể thêm tính năng hỗ trợ người dùng bằng giọng đọc tổng hợp.

Sản phẩm

Sản phẩm cụ thể giao nộp:
-    Các bài báo đã công bố (liệt kê): 08 bài báo khoa học trong đó có 03 tạp chí, 04 bài đăng trong kỷ yếu hội nghị quốc tế, 01 bài đăng trong kỷ yếu hội nghị quốc gia.
01.    T.T. Quyen Bui, Thang T. Vu, and K.-S. Hong, “Extraction of sparse features of color images in recognizing objects,” International Journal of Control, Automation and Systems, vol. 14, no. 2, pp. 616-627, April 2016. (DOI: 10.1007/s12555-014-0502-9) (ISSN: 1598-6446).
02.    Nguyen Van Huy, Luong Chi Mai, Vu Tat Thang, Do Quoc Truong, Vietnamese recognition using tonal phoneme based on multi space distribution, Journal of Computer Science and Cybernetics, Vietnam, ISSN 1813-9663, 2014.
03.    Trần Lâm Quân, Phan Đăng Hưng, Vũ Tất Thắng, “Tìm kiếm bằng giọng nói với kỹ thuật hướng ngữ cảnh”, Tạp chí Khoa học và Công nghệ, Viện Hàn lâm Khoa học và Công nghệ Việt Nam; ISSN: 0886 798X; Book 22 - No.1B, 2014, pp. 172-182.
04.    Trần Lâm Quân, Đinh Anh Tuấn, Phan Đăng Hưng, Vũ Tất Thắng, “Improving prosodic information for HMM-based synthesized Aviation announcements”, Proceedings of the first NAFOSTED Conference on Information and Computer Science (NICS 2014) ISBN: 978-604-67-0228-4.
05.    Nguyen Van Huy, Luong Chi Mai, Vu Tat Thang, Adapting tonal bottle neck feature to multi space distribution model for vietnamese speech recognition, OCOCOSDA, ThaiLan, 2014.
06.    Quoc Bao Nguyen, Tat Thang Vu, Chi Mai Luong, “Improving Acoustic Model for Vietnamese Large Vocabulary Continuous Speech Recognition System using Deep Bottleneck features”, KSE 2014, pp. 49-60.
07.    Quoc Bao Nguyen, Tat Thang Vu, Chi Mai Luong, “The Speech Recognition Systems of IOIT for IWSLT 2014”, IWSLT,2014.
08.    Quoc Bao Nguyen, Tat Thang Vu, Chi Mai Luong, “Improving Acoustic Model for English ASR Systems using Deep Neural Network”, RIVF, 2015.
-    Các bằng sáng chế, giải pháp hữu ích (liệt kê)
-    Các sản phẩm cụ thể (mô tả sản phẩm, nơi lưu giữ)
1) 01 Phần mềm cài trên sever bao gồm: Hệ thống chuyển đổi báo điện tử thành báo nói dựa trên công nghệ tổng hợp tiếng nói tiếng Việt, hệ thống thu thập tin tức và xử lý và hệ thống máy chủ quản lý tài nguyên
2) 01 Phần mềm nghe nội dung báo điện tử trên PC (tên là ViNAS)
3) 01 Báo cáo tổng hợp của đề tài
4) 06 bài báo

Địa chỉ ứng dụng

Các địa chỉ đã áp dụng sản phẩm của đề tài:
-    Trung tâm công nghệ thông tin Hải phòng, 36 Văn Cao, Hải An, Hải Phòng.
-    VOV Giao thông quốc gia, tầng 10, 58 Quán Sứ, Hàng Bông, Hoàn Kiếm, Hà Nội.

Bản quyền thuộc về Viện Hàn lâm Khoa học và Công nghệ Việt Nam.
Địa chỉ: 18 Hoàng Quốc Việt, Cầu Giấy, Hà Nội. Email: This email address is being protected from spambots. You need JavaScript enabled to view it.
Khi phát hành lại thông tin trên Website cần ghi rõ nguồn: "Viện Hàn lâm Khoa học và Công nghệ Việt Nam".