Thursday, August 21, 2008

Khai thác THNNews và THNOnline

Hôm nay tôi bắt đầu tiến trình khai thác trang web báo chí song ngữ Anh-Việt của báo ThannNien. Hệ thông báo của THN gồm nhiều trang khác nhau phục vụ nhiều mục đích khác nhau, nhưng giá trị nhất và đáp ứng nhu cầu mà hiện tại tôi đang quan tâm là trang tin tức tiếng Anh, tiếng Việt:

[EN] http://www.thanhniennews.com
[VN] http://www.thanhnien.com.vn

Đây là hai trang tin tức với hai ngôn ngữ song song có khối lượng bài viết rất lớn từ năm 2002 (VN), 2004 (EN), tuy nhiên bài viết hai bên có thể là bản dịch của nhau, có thể chỉ là bản dịch của một tin từ báo khac. Vấn đề chúng ta khai thác dữ liệu này như thế nào.

Với tôi, tôi quan tâm đến những trang tiếng Anh và trang tiếng Việt tương ứng là trang nào, có thể nằm trong tên miền tiếng Việt [VN], cũng có thể là không (mà nó nằm ở một báo khác).

Các bước khai thác như:
- Collect dữ liệu bằng công cụ Crawler
- Sử dụng các cơ chế tìm kiếm, lọc và so sánh để tìm ra những cặp song song tưng ứng từ nguồn dữ liệu trên.

No comments:

Post a Comment