Saturday, January 12, 2008

Tìm kiếm tự động văn bản song ngữ Anh-Việt từ Internet

Hôm nay tôi bắt đầu start mạnh mẽ lại vấn đề của riêng mình với một đề tài mới: ParallelDocSearch. Tôi sẽ tóm lược phần nào những thông tin về đề tài và sẽ cập nhật những thông tin đi theo tiến độ thực hiện của đề tài, hy vọng những chia sẽ này có thể để những bạn quan tâm đến vấn đề này cùng trao đổi, cũng có thể để các bạn không trong domain này có thể cùng nhau góp ý cho cách làm việc một project dạng này.


Tìm kiếm tự động văn bản song ngữ Anh-Việt từ Internet

Mục tiêu đề tài: Xây dựng hệ thống tìm kiếm tự động những bản dịch song ngữ Anh Việt từ nguồn Internet thông qua hệ thống tìm kiếm Google và các công cụ xử lý ngôn ngữ tự nhiên.

Nội dung đề tài:
Sử dụng hệ thống dịch tự động Anh-Việt để dịch tự động văn bản tiếng Anh ra văn bản tiếng Việt. Từ văn bản tiếng Việt này, hệ thống tiến hành rút bộ từ khóa và đưa vào bộ máy tìm kiếm Google để rút ra tập liên kết đến các văn bản có chứa bộ từ khóa này. Từ các văn bản tìm kiếm được, chương trình tiến hành đánh giá mức độ tương đồng giữa hai văn bản để xác định văn bản có khả năng cao nhất là văn bản dịch của văn bản tiếng Anh ban đầu.
Mô hình Tìm kiếm tự động văn bản song ngữ Anh-Việt từ Internet

Kết qủa đề tài: Chương trình có khả năng đưa vào một tài liệu tiếng Anh, hệ thống sẽ tự động tìm kiếm bản dịch có khả năng nhất nếu có từ nguồn Internet.

No comments:

Post a Comment