Thursday, August 21, 2008

Những trang web song ngữ

Những trang web song ngữ Anh-Việt mà tôi thấy có thể chia sẽ để phục vụ cho các nghiên cứu xử lý ngôn ngữ tự nhiên:

1. Website Đại sứ quán Mỹ tại Việt Nam:
EN: http://vietnam.usembassy.gov/
VN: http://vietnamese.vietnam.usembassy.gov/

2. Thời báo kinh tế Việt nam
EN: http://www.vneconomy.com.vn/eng/
VN: http://vneconomy.vn/

3. VOANews
EN: http://www.voanews.com/english/portal.cfm
VN: http://www.voanews.com/vietnamese/
FR: http://www.voanews.com/french/
CH: http://www.voanews.com/chinese/

4. British Embassy
EN: http://www.britishembassy.gov.uk/servlet/Front?pagename=OpenMarket/Xcelerate/...
VN: http://www.britishembassy.gov.uk/servlet/Front?pagename=OpenMarket/Xcelerate/...

5. BBC
EN: http://www.bbc.co.uk/
VN: http://www.bbc.co.uk/vietnamese/

6. Viet magazine
EN: http://www.vps.org/sommaire_en.php3
VN: http://www.saigon.com/vietmag/

7. Du lịch VN
EN: http://www.vietnamtourism.com/e_pages/news/index.asp
VN: http://www.vietnamtourism.com/v_pages/news/index.asp
FR: http://www.vietnamtourism.com/f_pages/news/index.asp
JP: http://www.vietnamtourism.com/j_pages/news/index.asp
CH: http://www.vietnamtourism.com/c_pages/tourist/travel.asp

8. PhapLuat
EN: http://vbqppl3.moj.gov.vn/law/en/main_page
VN: http://vbqppl.moj.gov.vn

9. CDC
EN: http://www.bt.cdc.gov/
VN: http://www.bt.cdc.gov/vi/
FR: http://www.bt.cdc.gov/fr/

10. Influenza
EN: http://www.cdc.gov/flu/avian/
VN: http://www.cdc.gov/flu/vie/

11. Flu

EN: http://www.pandemicflu.gov/index.html
VN: http://vietnamese.pandemicflu.gov/pandemicflu/envi/24/_www_pandemicflu_gov/in...

12. HIV
EN: http://www.acas.org/treatment/engmap.html
VN: http://www.acas.org/treatment/vietmap.html

*** Others ***

Vietnamese Health http://nutrition.berkeley.edu/extension/vietnamese.health/

WHO
FR: http://www.who.int/csr/don/fr/index.html
EN: http://www.who.int/csr/don/en/index.html



13. Website chính phủ ViệtNam
EN: http://www.chinhphu.vn/pls/portal/url/page/vgp_en
VN: http://www.chinhphu.vn/vi

14. Trang tin ToQuoc của Bộ văn hóa, Thể thao và Du lịch
EN: http://www.toquoc.gov.vn/english/home.asp
VN: http://www.toquoc.gov.vn/vietnam/home.asp

15. Trang tin VietNamNet
EN: http://english.vietnamnet.vn/news/
VN: http://vietnamnet.vn/

16. Báo Kinh Tế Việt Nam
EN: http://www.ven.org.vn/home/switchLanguage?set_language=en&cur_lang=en
VN: http://www.ven.org.vn/home

17. Trang tin e-TinTuc
EN: http://e-tintuc.com/public.php?lang=english
VN: http://e-tintuc.com/public.php?lang=vietnamese

18. Trang tin tuc VNDaily.Net
EN: http://www.vndaily.net/english
VN: http://www.vndaily.net/
FR: http://www.vndaily.net/francais
JP: http://www.vndaily.net/japanese
CH: http://www.vndaily.net/chinese

19. Trang tin BOM
EN: http://www.bvom.com/news/english/home
VN: http://www.bvom.com/news/vietnam/home

Khai thác THNNews và THNOnline

Hôm nay tôi bắt đầu tiến trình khai thác trang web báo chí song ngữ Anh-Việt của báo ThannNien. Hệ thông báo của THN gồm nhiều trang khác nhau phục vụ nhiều mục đích khác nhau, nhưng giá trị nhất và đáp ứng nhu cầu mà hiện tại tôi đang quan tâm là trang tin tức tiếng Anh, tiếng Việt:

[EN] http://www.thanhniennews.com
[VN] http://www.thanhnien.com.vn

Đây là hai trang tin tức với hai ngôn ngữ song song có khối lượng bài viết rất lớn từ năm 2002 (VN), 2004 (EN), tuy nhiên bài viết hai bên có thể là bản dịch của nhau, có thể chỉ là bản dịch của một tin từ báo khac. Vấn đề chúng ta khai thác dữ liệu này như thế nào.

Với tôi, tôi quan tâm đến những trang tiếng Anh và trang tiếng Việt tương ứng là trang nào, có thể nằm trong tên miền tiếng Việt [VN], cũng có thể là không (mà nó nằm ở một báo khác).

Các bước khai thác như:
- Collect dữ liệu bằng công cụ Crawler
- Sử dụng các cơ chế tìm kiếm, lọc và so sánh để tìm ra những cặp song song tưng ứng từ nguồn dữ liệu trên.