Showing posts with label NLP Research. Show all posts
Showing posts with label NLP Research. Show all posts

Monday, June 22, 2009

Làm slide luận văn


Sắp tới ngày bảo vệ luận văn, nhiều bạn vẫn còn đang loay hoay với chương trình Power Point để làm slide trình diễn. Bài viết sau đây sẽ giúp các bạn có đươc một slide ưng ý. Chúc các bạn chuẩn bị tổt để bảo vệ thành công.

Thanksgiving 01 - Free PowerPoint Template
Dragon 05 - Free PowerPoint Template Hollywood 05 - Free PowerPoint Template Japan Flag 06 - Free PowerPoint Template

Chọn template cho slide.
Đây là công việc không kém khó khăn. Để chọn một mẫu ưng ý thật là khó. Nhất là phải thỏa mãn các yêu cầu bạn đề ra như đẹp, thẩm mỹ, màu sắc phù hợp với tính cách... Những template mẫu trong PowerPoint dường như quá nhàm chán. Nhất là bạn lại không muốn đụng hàng với ai đó.

Hãy bắt đầu quá trình tìm kiếm template phù hợp nhất với Google bằng từ khóa "free template power point". Một số lưu ý khi chọn template:
+ Template phù hợp với nội dung, lĩnh vực trình bày
+ Teplate không quá hoa lá hẹ

Chọn slide màu sáng. Nên chọn slide có nền màu trắng, vàng nhạt, xanh da trời... Nên kiểm tra lại slide dưới điều kiện thật, hoặc thử vặn màn hình về độ tối nhất xem có bị ảnh hưởng nặng nề không? Cần thiết thì bạn nên chuẩn bị 2 slide, một cái màu sắc, một cái chỉ có chữ đen, nền trắng để dự phòng trường hợp xấu nhất.

Chọn màu & font chữ. Nên chọn chữ đen, làm nổi bật chữ trên nền trắng là tốt nhất. Bạn có thể Insert a shape để tạo 1 hình vẽ làm nền cho chữ, nhớ chọn màu nền của hình mờ dần. Như vậy bạn vẫn giữ được mẫu nền slide đã chọn, mà vẫn làm nổi chữ lên.

Font chữ nên chọn loại thông dụng, cần thiết thì embed font kèm theo. Nên chọn Arial, Time New Roman, ... . Đối với bảng biểu, hình vẽ dễ bị thay đổi kích thước, màu sắc do máy không tương thích, bạn có thể chuyển nó sang dạng ảnh bitmap rồi nhúng trở lại slide dưới dạng ảnh.

Giới hạn số slide. Tốt nhất không nên làm quá nhiều slide. Theo tớ chỉ nên 30 slide là đẹp. Khi in handout thì nên in 2 slide trên 1 trang. Nên sắp xếp trình bày ngắn gọn. Cần chuẩn bị những slide làm chi tiết những vấn đề cần thiết (để có thể show lên khi được yêu cầu).

Không tham tạo hiệu ứng cho slide. Càng đơn giản càng tốt. Tốt nhất nên để slide trơn, không tự chạy. Bạn sẽ dễ dàng làm chủ slide khi muốn lật slide trong lúc đang trình bày. Người xem cũng không bị hoa mắt khi hình ảnh, chữ cứ bay nhảy liên tục trên màn hình.

Bố cục slide: Nên có slide tóm tắt (như mục lục) các nội dung trình bày; slide cám ơn.

Saturday, June 6, 2009

Hành trình kết thúc LV tại ĐH TÔN ĐỨC THẮNG

1. Thời gian nộp LV:15/06->17/06/09
  • Hình thức:Sinh viên xem file đính kèm về mẫu hình thức luận văn/tiểu luận.
  • Số lượng: 03 cuốn bìa giấy thường
  • Lưu ý: Nộp kèm Đĩa CD, “Phiếu theo dõi tiến độ thực hiện luận văn/tiểu luận tốt nghiệp” + ”Đề tài hướng dẫn luận văn/tiểu luận tốt nghiệp” để rời ngoài, có nhận xét và chữ ký của GV hướng dẫn.

2. Thời gian gặp GVPB (dự kiến):01/07/09->15/07/09

3. Thời gian bảo vệ (dự kiến): Đầu tháng 08/2009.

Thursday, May 21, 2009

Extract relation từ dữ liệu sách luyện tiếng Anh

Hôm nay ngồi bắn tỉa cuốn "501 Word Analogy Questions" mới có vấn đề hay để khai thác. Đó là những dạng câu định nghĩa khá chuẩn. Vậy tại sao từ những câu như thế này, không khai thác (rút trích để xây dựng những tập các quan hệ, ngữ nghĩa..... hay cái gì đại loại như thế nhỉ ?
To segregate is an antonym of to unify, and to repair is an antonym of to damage.
To congeal means to solidify, and to singe means to char.
A principle is another word for a doctrine, and a living is another word for livelihood.
An ascent is a climb, and a recession is a withdrawal.
Sẽ rất thú vị đấy chứ, giờ nguồn sách, dữ liệu dạng này nhiều mà, vậy tại sao không ?

Wednesday, May 13, 2009

Nhận diện thực thể có tên (NER)

Nhận diện thực thể có tên (Named Entity Recognization) là xác định các đối tượng như địa danh, tên người, tổ chức ... xuất hiện trong văn bản. Tùy theo mỗi mức, mỗi mục tiêu mà có số loại thực thể khác nhau.

Nhận dạng tên người, tên tổ chức là một bài toán khó trong nhận dạng tiếng nói vì có rất nhiều sự khác nhau trong cánh nói của mỗi người, sự phong phú về ngôn ngữ và cách phát âm tên người. tên tổ chức.

Các link tham khảo:

http://www.aclweb.org/anthology-new/E/E06/E06-3004.pdf
http://
pages.cs.wisc.edu/~bsettles/pub/bsettles-nlpba04.pdf
http://www.nii.ac.jp/pi/n4/4_5.pdf
http://www.springerlink.com/index/M27U265246L64570.pdf
http://research.nii.ac.jp/~collier/papers/RIAO%202007.pdf

Gán nhãn từ loại tiếng Việt (VietPOS)

Gán nhãn từ loại (còn được viết viết tắt là POS Tagger) là nghiên cứu nền tảng của xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP).

Gán nhãn từ loại tiếng Việt hiện nay đã có một số nghiên cứu (Nhóm ở Jaist, ở HCMUNS, ở HCMUT), tuy nhiên kết quả chỉ mới dựng lại trong từng nhóm nghiên cứu chứ chưa được phổ biến rộng rãi trong cộng đồng nghiên cứu cũng như ứng dụng trong các ứng dụng cao hơn, lớn hơn.

Xác định từ loại chính xác cho các từ trong văn bản tiếng Việt là vấn đề rất quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên.Việc xác định này sẽ hỗ trợ cho việc phân tích cú pháp các văn bản, góp phần giải quyết tính đa nghĩa của từ, và trợ giúp các hệ thống rút trích thông tin hướng đến ngữ nghĩa, v.v…

Gắn nhãn từ loại là việc xác định các chức năng ngữ pháp của từ trong câu. Đây là bước cơ bản trước khi phân tích sâu văn phạm hay các vấn đề xử lý ngôn ngữ phức tạp khác. Thông thường, một từ có thể có nhiều chức năng ngữ pháp, ví dụ: trong câu “con ngựa đá đá con ngựa đá”, cùng một từ “đá” nhưng từ thứ nhất và thứ ba giữ chức năng ngữ pháp là danh từ, nhưng từ thứ hai lại là động từ trong câu.

Các link tham khảo :
http://www.jaist.ac.jp/~bao/VLSP-text/ICTrda08/ICT08-VLSP-SP83.pdf
http://www.vietlex.com/lib/compuLinguistics/ITCra03POSTagging.pdf
http://www.vnulib.edu.vn:8000/dspace/bitstream/123456789/1801/1/sedev0206-02.pdf
http://gralib.hcmuns.edu.vn/greenstonelib/library?e=d-000-00---0bckh2006--00-0-0--0prompt-10---4------0-1l--1-vi-50---20-about---00031-001-1-0utfZz-8-00&cl=CL1.3&d=HASH01b48a28e6ab967248d8e5b1&x=1

Monday, April 6, 2009

Các hệ cơ sở tri thức ứng dụng

"Các hệ cơ sở tri thức ứng dụng" : topic có vẽ rất là thú vị cho những nghiên cứu của tôi, không biết tiến trình sẽ thế nào ?

>> Lecture - 34 Data Mining and Knowledge Discovery




>> Lecture - 35 Data Mining and Knowledge Discovery Part II




>> Và ứng dụng trong Semantic Web


Tuesday, December 16, 2008

Bóc tách nội dung từ trang Web

Việc bóc tách nội dung trên web thường được thực hiện bằng cách sử dụng các crawler hay wrapper. Một wrapper được xem như là một thủ tục được thiết kế để có thể rút trích được những nội dung cần quan tâm của một nguồn thông tin nào đó. Đã có nhiều công trình nghiên cứu khác nhau trên thế giới sử dụng nhiều phương pháp tạo wrapper khác nhau để thực hiện rút trích thông tin trên web. Các phương pháp này bao gồm:

+ Phân tích mã HTML

+ So sánh khung mẫu

+ Xử lí ngôn ngữ tự nhiên

Cũng giống như Google News, hệ thống khai thác và tổng hợp nội dung có nhiệm vụ khai thác, tổng hợp, lưu trữ rồi phát hành lại tới người dùng. Wrapper nhận cấu hình đầu vào của một website (tin tức, nhật ký trực tuyến, ...) tiến hành bóc tách, tổng hợp chủ đề liên quan, lưu trữ trong database và phát hành lại tới người đầu cuối. Nội dung được bóc tách toàn vẹn, sạch sẽ và được tổng hợp từ nhiều nguồn khác nhau giúp người đọc có thể theo dõi, kiểm soát, tìm kiếm, biên soạn, lưu trữ, xuất bản,...

Khó khăn của bài toán là không phải toàn bộ nội dung của trang web đều cần thiết. Nếu chỉ đơn thuần loại các chuỗi script HTML thì nội dung lọc được sẽ rất nhiều lỗi rác không cần thiết. Ví dụ: phần thông tin quảng cáo, tin mới cập nhật, nội dung tin ngắn, menu... những nội dung như thế này thường cần phải bỏ qua trong quá trình bóc tách nội dung chính của trang web

1. Phân tích mã HTML

Hiện nay, VietSpider[1] của tác giả Nhữ Đình Thuần là một phần mềm bóc tách đúng nghĩa, chúng truy xuất trực tiếp vào nội dung toàn diện rồi tiến hành bóc tách. Sau đó những đặc tả dữ liệu (meta data) được xây dựng tự động trên nền nội dung đã bóc tách. Sau quy trình khai thác, nội dung sẽ trở thành độc lập với website nguồn, được lưu trữ và tái sử dụng cho những mục đích khác nhau.

Hình 1: Hệ thống bóc tách nội dung của VietSpider

Hệ thống của tác giả Nhữ Đình Thuần cũng đã cài đặt mô hình khai phá dữ liệu cho phép tổng hợp những nội dung liên quan. Xây dựng mô hình topic tracking cho phép theo dõi các sự kiện đang diễn ra theo tuần tự thời gian. Mô hình thuật toán được cài đặt là LOR (Linked Object Representation) với sự hỗ trợ của kỹ thuật Stopping trong phân tách nội dung. Giải pháp đánh chỉ mục (indexing) và tìm kiếm (searching) được sửa đổi và cải tiến từ một giải pháp nguồn mở nổi tiếng của Apache là Lucene Search.

Tuy nhiên, hạn chế của chương trình là cần phải xác định đường dẫn đến vùng nội dung chính trước khi bóc tách đối với mỗi domain. Như thế sẽ khó khăn nếu hệ thống khi gặp phải một trang web mới hoàn toàn.

2. So sánh khung mẫu

Phương pháp rút trích thông tin bằng cách so trùng hai trang web được xây dựng trên nền tảng nhận dạng mẫu được tác giả Trang Nhật Quang thực hiện trong việc rút trích nội dung nhằm cung cấp tin tức trên trang web hành chính [5]. Phương pháp này cho phép so khớp trang web cần rút trích với một trang web mẫu để xác định khung trình bày chung cho cả hai trang web cần rút trích, từ đó đi đến rút trích ra nội dung nằm trong phần được xác định chứa nội dung chính trên trang mẫu.

(a) (b) (c)

Hình 2: Mô hình bóc tách nội dung chính bằng so sánh khung mẫu

(a) Trang web cần rút nội dung chính

(b) Trang web khung mẫu (được xác định trước)

(c) Nội dung chính sau khi so khớp và rút được

Phương pháp này không đòi hỏi người sử dụng phải biết về ngôn ngữ xây dựng wrapper hay phải thay đổi wrapper khi cách trình bày thay đổi do trang web mẫu có thể lấy trực tiếp từ trang chủ và có cùng cách trình bày với trang cần rút trích. Tuy nhiên, đối với mỗi domain, cần phải xác định được một trang web làm mẫu cho những trang khác. Đây cũng là một hạn chế trong quá trình tự động hóa xác định nội dung chính của web.

3. Xử lý ngôn ngữ tự nhiên

Đây là phương pháp sử dụng các kỹ thuật xử lý ngôn ngữ tự nhiên được áp dụng cho những tài liệu mà thông tin trên đó thường không có một cấu trúc nhất định (như truyện). Các kỹ thuật này xem xét sự ràng buộc về mặt cú pháp và ngữ nghĩa để nhận dạng ra các thông tin liên quan và rút trích ra thông tin cần thiết cho các bước xử lý nào đó. Các công cụ sử dụng phương pháp này thích hợp cho việc rút trích thông tin trên những trang web có chứa những đoạn văn tuân theo quy luật văn phạm. Một số công cụ sử dụng phương pháp xử lý ngôn ngữ tự nhiên trong việc bóc tách nội dung như: WHISK hay RAPIER

Đặc trưng của phương pháp này còn phụ thuộc vào ngôn ngữ trên trang web cần được bóc tách nội dung. Đối với tiếng Việt có đề tài “Rút trích nội dung chính trang web dựa vào ngữ cảnh của trang web” của tác giả Hồ Anh Thư [3]. Đề tài tiến hành xác định nội dung chính của trang web dựa vào ngữ cảnh của nội dung, sau đó tiến hành rút trích bản tóm tắt của nội dung dựa trên phương pháp chọn câu trội. Việc xác định nội dung chính được thực hiện qua các bước:

- Loại bỏ thông tin định dạng

- Tách vùng nội dung dựa vào cấu trúc, mà cụ thể là sử dụng tag TABLE để tách vùng văn bản.

- Xác định mức độ liên quan về mặt nội dung để ghép nối các vùng kế cận với nhau.

- Chọn vùng văn bản có kích thước lớn nhất để xử lý tiếp

Tuy nhiên phương pháp này có một số nhược điểm sau:

- Tùy theo mức độ xử lý mà quá trình bóc tách phụ thuộc nhiều hoặc ít vào ngôn ngữ xử lý

- Phương pháp dựa vào độ đo tương tự giữa các vùng để ghép nối từ đó xác định nội dung chính. Những nếu các nội dung chính được chia trên nhiều table với các thông tin ít liên quan đến nhau thì sẽ khó khăn trong việc mở rộng và xác định vùng nội dung chính chứa tất cả chúng.

- Trường hợp thông tin trong một vùng (table) quá ít, sẽ ảnh hưởng đến quá trình tính tương đồng và mở rộng vùng nội dung chính.

4. Kết hợp phân tích mã và xử lý ngôn ngữ tự nhiên

Giải pháp thực hiện của tôi cũng dựa trên phương pháp bóc tách nội dung nhờ vào phân tích mã HTML theo các bộ mã nguồn HTMLParser của dự án Majestic-12[2] để tạo thành cây Document Tree. Từ đó áp dụng các công cụ và kỹ thuật ngôn ngữ để quyết định phần nội dung chính.

Phương pháp này dựa trên tiền đề là trang web đã được phân tích các tag HTML để xây dựng nên cây Document Tree. Từ cây này chúng ta đi xác định node nào ở trên cây chứa nội dung chính của trang WEB. Phương pháp cho điểm các node dựa vào kết quả xử lý ngôn ngữ tự nhiên trên nội dung mà nó chứa bên trong đó.

Một số quy tắc cho điểm được áp dụng:

+ Chỉ cho điểm cho những NODE có tag là TEXT. Vì chỉ có những node này mới là node chứa nội dung thực sự. Các node khác tổng hợp từ node này.

+ Cho điểm NODE TEXT dựa vào số câu của nội dung chứa bên trong node đó. Càng nhiều câu thì node có điểm càng cao.

+ Node được cho điểm phải chứa tối thiểu một đoạn văn. (Tuy nhiên việc xác định như thế nào là một đoạn vẫn chỉ là một heuristic)

+ Điểm của các node cha sẽ bằng điểm của các node con cộng lại.

Hình 3: Node chứa nội dung chính trên cây văn bản [3]

Xác định node nội dung: Để xác định node nội dung chính mà không chứa các nội dung không cần thiết chính là đi xác định node sâu nhất trên cây có điểm cao nhất. Bằng việc xác định node nội dung như vậy, hệ thống có thể tự động xác định nội dung trang web mà không cần biết trước khung mẫu cũng như nguồn gốc của trang web đó.


Mọi tham khảo vui lòng ghi rõ nguồn gốc:
Ngô Quốc Hưng, 2008, "Tìm kiếm tự động văn bản song ngữ Anh-Việt từ Internet", Luận văn Thạc sỹ, tr.5-10, ĐH KHTN TP.HCM

Thursday, August 21, 2008

Những trang web song ngữ

Những trang web song ngữ Anh-Việt mà tôi thấy có thể chia sẽ để phục vụ cho các nghiên cứu xử lý ngôn ngữ tự nhiên:

1. Website Đại sứ quán Mỹ tại Việt Nam:
EN: http://vietnam.usembassy.gov/
VN: http://vietnamese.vietnam.usembassy.gov/

2. Thời báo kinh tế Việt nam
EN: http://www.vneconomy.com.vn/eng/
VN: http://vneconomy.vn/

3. VOANews
EN: http://www.voanews.com/english/portal.cfm
VN: http://www.voanews.com/vietnamese/
FR: http://www.voanews.com/french/
CH: http://www.voanews.com/chinese/

4. British Embassy
EN: http://www.britishembassy.gov.uk/servlet/Front?pagename=OpenMarket/Xcelerate/...
VN: http://www.britishembassy.gov.uk/servlet/Front?pagename=OpenMarket/Xcelerate/...

5. BBC
EN: http://www.bbc.co.uk/
VN: http://www.bbc.co.uk/vietnamese/

6. Viet magazine
EN: http://www.vps.org/sommaire_en.php3
VN: http://www.saigon.com/vietmag/

7. Du lịch VN
EN: http://www.vietnamtourism.com/e_pages/news/index.asp
VN: http://www.vietnamtourism.com/v_pages/news/index.asp
FR: http://www.vietnamtourism.com/f_pages/news/index.asp
JP: http://www.vietnamtourism.com/j_pages/news/index.asp
CH: http://www.vietnamtourism.com/c_pages/tourist/travel.asp

8. PhapLuat
EN: http://vbqppl3.moj.gov.vn/law/en/main_page
VN: http://vbqppl.moj.gov.vn

9. CDC
EN: http://www.bt.cdc.gov/
VN: http://www.bt.cdc.gov/vi/
FR: http://www.bt.cdc.gov/fr/

10. Influenza
EN: http://www.cdc.gov/flu/avian/
VN: http://www.cdc.gov/flu/vie/

11. Flu

EN: http://www.pandemicflu.gov/index.html
VN: http://vietnamese.pandemicflu.gov/pandemicflu/envi/24/_www_pandemicflu_gov/in...

12. HIV
EN: http://www.acas.org/treatment/engmap.html
VN: http://www.acas.org/treatment/vietmap.html

*** Others ***

Vietnamese Health http://nutrition.berkeley.edu/extension/vietnamese.health/

WHO
FR: http://www.who.int/csr/don/fr/index.html
EN: http://www.who.int/csr/don/en/index.html



13. Website chính phủ ViệtNam
EN: http://www.chinhphu.vn/pls/portal/url/page/vgp_en
VN: http://www.chinhphu.vn/vi

14. Trang tin ToQuoc của Bộ văn hóa, Thể thao và Du lịch
EN: http://www.toquoc.gov.vn/english/home.asp
VN: http://www.toquoc.gov.vn/vietnam/home.asp

15. Trang tin VietNamNet
EN: http://english.vietnamnet.vn/news/
VN: http://vietnamnet.vn/

16. Báo Kinh Tế Việt Nam
EN: http://www.ven.org.vn/home/switchLanguage?set_language=en&cur_lang=en
VN: http://www.ven.org.vn/home

17. Trang tin e-TinTuc
EN: http://e-tintuc.com/public.php?lang=english
VN: http://e-tintuc.com/public.php?lang=vietnamese

18. Trang tin tuc VNDaily.Net
EN: http://www.vndaily.net/english
VN: http://www.vndaily.net/
FR: http://www.vndaily.net/francais
JP: http://www.vndaily.net/japanese
CH: http://www.vndaily.net/chinese

19. Trang tin BOM
EN: http://www.bvom.com/news/english/home
VN: http://www.bvom.com/news/vietnam/home

Khai thác THNNews và THNOnline

Hôm nay tôi bắt đầu tiến trình khai thác trang web báo chí song ngữ Anh-Việt của báo ThannNien. Hệ thông báo của THN gồm nhiều trang khác nhau phục vụ nhiều mục đích khác nhau, nhưng giá trị nhất và đáp ứng nhu cầu mà hiện tại tôi đang quan tâm là trang tin tức tiếng Anh, tiếng Việt:

[EN] http://www.thanhniennews.com
[VN] http://www.thanhnien.com.vn

Đây là hai trang tin tức với hai ngôn ngữ song song có khối lượng bài viết rất lớn từ năm 2002 (VN), 2004 (EN), tuy nhiên bài viết hai bên có thể là bản dịch của nhau, có thể chỉ là bản dịch của một tin từ báo khac. Vấn đề chúng ta khai thác dữ liệu này như thế nào.

Với tôi, tôi quan tâm đến những trang tiếng Anh và trang tiếng Việt tương ứng là trang nào, có thể nằm trong tên miền tiếng Việt [VN], cũng có thể là không (mà nó nằm ở một báo khác).

Các bước khai thác như:
- Collect dữ liệu bằng công cụ Crawler
- Sử dụng các cơ chế tìm kiếm, lọc và so sánh để tìm ra những cặp song song tưng ứng từ nguồn dữ liệu trên.

Tuesday, July 1, 2008

Rút trích từ khóa tự động trên tài liệu tiếng Việt

URL: http://ngo.2uoc.hung.googlepages.com/RuttrichTukhoa.htm

Từ khóa là một từ hoặc một cụm từ mô tả nội dung chính của một tài liệu. Rút trích từ khóa tự động trên tài liệu tiếng Việt là một bài toán thường bắt gặp trong nghiên cứu xử lý ngôn ngữ tự nhiên cũng như trong cuộc sống hàng ngày.


Những trang báo điện tử hiện nay đang hướng đến việc sử dụng những từ khóa nhằm đại diện cho một văn bản, hỗ trợ người đọc nhanh chóng nắm bắt thông tin. Đi đầu trong hướng sử dụng từ khóa như một phần thông tin đăng tải của bản tin là Báo mới (www.baomoi.com, beta.baomoi.com); Vietbao.vn. Báo mới đã thực hiện rất tốt việc rút trích từ khóa từ một văn bản ban đầu. Những từ khóa mà Báo mới rút ra sau khi sử dụng công cụ tìm kiếm Google hoặc Yahoo chúng ta luôn luôn tìm được link đến bài viết gốc.

Vấn đề đặt ra là những từ khóa rút trích được phải được xem là đại diện cho văn bản ban đầu, thông qua các từ khóa, người đọc có thể phần nào biết được nội dung của văn bản và cũng thông qua danh sách các từ khóa đó, các công cụ tìm kiếm có thể tìm được văn bản ban đầu.

Các phương pháp áp dụng có thể sử dụng đến một tập dữ liệu huấn luyện ban đầu hoặc là không. Tuy nhiên, việc tránh tập dữ liệu ban đầu luôn được hướng đến, vì nó sẽ giảm được công việc xây dựng một tập dữ liệu lớn hỗ trợ quá trình huấn luyện đó,

Để đưa ra từ khóa cho một tài liệu, ta dựa vào thông tin thống kê trên các từ có trong văn bản, thống kê đồng hiện của tất cả các từ phổ biến trong tài liệu đó, từ đó dựa vào các thông số thống kê và yêu cầu của bài toán để xét xem đâu là từ khóa đại diện cho văn bản ban đầu.

Một số đặc điểm ảnh hưởng đến quá trình rút trích từ khóa:
- Các từ chức năng (stopword) không nằm trong danh sách các từ khóa rút được. Các từ chức năng là các từ không hàm chứa nghĩa như: là, cũng, sẽ, đến, tới, .....
- Các từ nằm trong danh sách từ khóa thường là các danh từ và động từ
- Một số từ khóa xuất hiện trong tiêu đề của văn bản.
- Các danh từ tên riêng thường có khả năng xuất hiện trong danh sách các từ khóa cao hơn các danh từ phổ biến.

Đối với mỗi bài toán mà yêu cầu có một danh sách từ khóa khác nhau với số lượng khác nhau. Số lượng các từ khóa đại diện có thể chỉ là 5 hoặc 10, hoặc cũng có thể là không xác định trước. Tùy theo yêu cầu đó mà các chi tiết cụ thể của phương pháp áp dụng có thể khác nhau để cho kết quả cuối cùng tốt nhất.

Tuesday, June 3, 2008

[BioCaster Portal] Notify of ontology download page

[BioCaster Portal] Notify of ontology download page. Đây là thông báo source của Onotlogy của chúng tôi nhận được từ BioCaster portal được người dùng download. Cũng vui lắm vì những nghiên cứu của mình được người khác quan tâm và sử dụng trong các nghiên cứu khác.

Bio-Ontology của dự án BioCaster là một ontology về các căn bệnh (dịch tể học), và về địa danh hành chính (Geo-Ontology) trên toàn thế giới. Phần thông tin về y học thì có một nhóm phát triển, phần tôi chỉ phải triển phần nội dung và quan hệ liên quan đến địa danh mà thôi. Dữ liệu địa danh phần lớn mà chúng tôi sử dụng được rút trích từ Wikipedia.org , đây là bộ bách khoa toàn thư được cư dân mạng cập nhật nên thông tin cũng rất có ý nghĩa và tương đối đầy đủ.

Những thông báo dạng như thế này nhằm mục đích để chúng tôi nhận được những phản hồi từ phía người dùng nhằm update cho phiên bản của mình càng tốt hơn.

Hiện nay, Bio-Ontology đã update được phiên bản thứ 2 với 8 ngôn ngữ trong đó. Trong đó các phần thông tin về bệnh tật và địa danh được cập nhật rất nhiều so với phiên bản 1.0 trước đó.

Thông tin xin xem thêm: BioCaster page.

Friday, January 18, 2008

Những vấn đề liên quan đến bài toán Bóc tách nội dung


Phương pháp mà tôi sử dụng cho bài toán bóc tách nội dung chính trang web là phân tích mã HTML để tạo nên cây cấu trúc của trang WEB. Tuy nhiên, để xác định tốt nội dung chính, hệ thống cần giải quyết những vấn đề sau:

1. Lỗi trong TAG của HTML

Trường hợp lỗi của TAG HTML có hai dạng: lỗi có tag mở nhưng không có tag đóng và lỗi sử dụng tag HTML không hợp lệ, sai cú pháp.

Trong trường hợp TAG đóng không được sử dụng, TAG đi sau sẽ có nhiệm vụ tìm kiếm TAG tương ứng để đóng TAG đã mở trước đó.
Còn trường hợp TAG sử dụng bị lỗi, thiếu dấu CloseTag chẳng hạn, thì trình duyệt sẽ không thể hiện đúng nội dung cho nên chương trình cũng sẽ bỏ qua trường hợp này, coi như lỗi dữ liệu.

2. Dữ liệu được tổ chức hỗn loạn


Trường hợp dữ liệu được nhúng nhiều thành phần khác nhau: đoạn văn bản nội dung, bảng số liệu, hình ảnh minh họa, thông tin chú thích. Trong trường hợp này chương trình sẽ dò tìm để loại bỏ những TAG không cần thiết như , tag có nội dung theo dạng bảng số liệu.

Đau đầu nhất vẫn là trường hợp các đoạn dữ liệu được tổ chức xen kẽ với các đoạn thông tin kính kèm theo, thông tin quảng cáo ... Trong trường hợp này cần phải có giải pháp để loại bỏ những đoạn dữ liệu không cần thiết đó như: quảng cáo, liên kết liên quan...

3. Xác định vùng nội dung chính

Trong bài toán Bóc tách nội dung trang Web thì vấn đề lớn nhất là xác định nội dung chính của trang web, loại bỏ đi những nội dung dư thừa không cần thiết. Đây là một vấn đề khó và nó ảnh hưởng đến kết quả bài toán, hơn nữa chất lượng loại vùng nội dung dư thừa bị còn tùy thược vào bài toán cụ thể để quyết định nội dung chính gồm những phần nào. Vấn đề này tôi xin để trong một bài viết riêng để xử lý cho vấn đề này.