Nghiên cứu, phát triển các phương pháp phân tích cấu trúc và nhận dạng văn bản trong bài toán nhập liệu tự động. Mã số đề tài: VAST01.08/15-16

Chủ nhiệm đề tài TS. Nguyễn Đức Dũng
Đơn vị thực hiện Viện Công nghệ Thông tin
Thời gian thực hiện 2015 - 2016
Tổng kinh phí 600 triệu đồng
Xếp loại đề tài Xuất sắc
Mục tiêu đề tài

•     Nghiên cứu phát triển các phương pháp phát hiện, phân tích và nhận dạng cấu trúc bảng trong ảnh văn bản, định vị và nhận dạng biểu mẫu.
•     Phát triển chương trình nhận dạng bảng, nhận dạng biểu mẫu và ghi kết quả ra một số dạng cơ sở dữ liệu khác thông dụng như MySQL hoặc Microsoft SQL Server.

Kết quả đạt được

*    Về khoa học:
- Bài báo được đăng/chấp nhận đăng trên tạp chí Quốc tế SCI/SCIE về các phương pháp phát hiện và phân tích cấu trúc bảng, định vị biểu mẫu, nhận dạng nội dung bảng và biểu mẫu:

+  Ha Dai-Ton, Nguyen Duc-Dung, and Le Duc-Hieu. 2016. An adaptive over-split and merge algorithm for page segmentation. Pattern Recognition Letter 80, C, 137-143 (September 2016). (SCIE)
+ Ha Dai-Ton, Nguyen Duc-Dung. A HYBRID PARAGRAPH-LEVEL PAGE SEGMENTATION. Journal of Computer Science and Cybernetics

- Bài báo được đăng/chấp nhận đăng trong kỷ yếu hội nghị có phản biện Quốc tế hoặc hội thảo quốc gia:   

+ Hà Đại Tôn, Nguyễn Đức Dũng. Cải Tiến Thuật Toán Phân Tách Trang Ảnh Tài Liệu Sử Dụng Phân Tích Cấu Trúc Nền. Hội thảo quốc gia lần thứ XIX: Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông – Hà Nội, 1-2/10/2016.
+ Ha Dai Ton, Nguyen Duc Dung, Le Duc Hieu. Over-splitted and merged for geometry document layout analysis. Kỷ yếu hội nghị quốc gia lần thứ VIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR): Hà Nội, ngày 9-10/2015

- Ý nghĩa khoa học: Nghiên cứu góp phần đưa ra giải pháp phát triển các phương pháp phân tích cấu trúc và nhận dạng văn bản trong bài toán nhập liệu tự động
- Về sản phẩm: Chương trình nhận dạng bảng và biểu mẫu.
- Về đào tạo: hướng dẫn 01 nghiên cứu sinh

Tên đề tài: Phân tích trang ảnh văn bản tiếng Việt dựa trên các thành phần liên thông ảnh và phép chiếu song song - học viên : Hà Đại Tôn -  Người hướng dẫn: TS. Nguyễn Đức Dũng -   Học viện Khoa học và  Công nghệ    
- Hỗ trợ 1 thạc sỹ

Tên đề tài : Phát hiện chữ trong ảnh   - học viên : Đặng Trần Long -  Người hướng dẫn: TS. Nguyễn Đức Dũng  -  Học viện Công nghệ Bưu chính Viễn thông   

nddung

Những đóng góp mới

•    Xây dựng thuật toán phân tách trang mới có chất lượng tốt hơn so với thuật toán truyền thống [1]
•    Xây dựng thuật toán mới cải tiến tốc độ phân tách trang văn bản, giữ nguyên độ chính xác của thuật toán gốc [2]

Sản phẩm

- Các bài báo đã công bố (liệt kê)
    [1] Ha Dai-Ton, Nguyen Duc-Dung, and Le Duc-Hieu. 2016. An adaptive over-split and merge algorithm for page segmentation. Pattern Recognition Letter 80, C, 137-143 (September 2016). (SCIE)
    [2] Ha Dai-Ton, Nguyen Duc-Dung, Le Duc-Hieu.Over-splitted and merged for geometry document layout analysis. Kỷ yếu Hội nghị Quốc gia lần thứ VIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 9-10/7/2015
     [3] Ha Dai-Ton, Nguyen Duc-Dung. A HYBRID PARAGRAPH-LEVEL PAGE SEGMENTATION. Journal of Computer Science and Cybernetics.
    [4] Hà Đại Tôn, Nguyễn Đức Dũng. Cải Tiến Thuật Toán Phân Tách Trang Ảnh Tài Liệu Sử Dụng Phân Tích Cấu Trúc Nền. Hội thảo quốc gia lần thứ XIX: Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông – Hà Nội, 1-2/10/2016.

- Các sản phẩm cụ thể (mô tả sản phẩm, nơi lưu giữ)
•    Các báo cáo chuyên đề, các bài báo đã công cố
•    Chương trình thực nghiệm nhận dạng bảng và biểu mẫu
Lưu trữ tại phòng Nhận dạng và Công nghệ tri thức- Viện Công nghệ thông tin

Bản quyền thuộc về Viện Hàn lâm Khoa học và Công nghệ Việt Nam.
Địa chỉ: 18 Hoàng Quốc Việt, Cầu Giấy, Hà Nội. Email: This email address is being protected from spambots. You need JavaScript enabled to view it.
Khi phát hành lại thông tin trên Website cần ghi rõ nguồn: "Viện Hàn lâm Khoa học và Công nghệ Việt Nam".