Wednesday, May 13, 2009

Gán nhãn từ loại tiếng Việt (VietPOS)

Gán nhãn từ loại (còn được viết viết tắt là POS Tagger) là nghiên cứu nền tảng của xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP).

Gán nhãn từ loại tiếng Việt hiện nay đã có một số nghiên cứu (Nhóm ở Jaist, ở HCMUNS, ở HCMUT), tuy nhiên kết quả chỉ mới dựng lại trong từng nhóm nghiên cứu chứ chưa được phổ biến rộng rãi trong cộng đồng nghiên cứu cũng như ứng dụng trong các ứng dụng cao hơn, lớn hơn.

Xác định từ loại chính xác cho các từ trong văn bản tiếng Việt là vấn đề rất quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên.Việc xác định này sẽ hỗ trợ cho việc phân tích cú pháp các văn bản, góp phần giải quyết tính đa nghĩa của từ, và trợ giúp các hệ thống rút trích thông tin hướng đến ngữ nghĩa, v.v…

Gắn nhãn từ loại là việc xác định các chức năng ngữ pháp của từ trong câu. Đây là bước cơ bản trước khi phân tích sâu văn phạm hay các vấn đề xử lý ngôn ngữ phức tạp khác. Thông thường, một từ có thể có nhiều chức năng ngữ pháp, ví dụ: trong câu “con ngựa đá đá con ngựa đá”, cùng một từ “đá” nhưng từ thứ nhất và thứ ba giữ chức năng ngữ pháp là danh từ, nhưng từ thứ hai lại là động từ trong câu.

Các link tham khảo :
http://www.jaist.ac.jp/~bao/VLSP-text/ICTrda08/ICT08-VLSP-SP83.pdf
http://www.vietlex.com/lib/compuLinguistics/ITCra03POSTagging.pdf
http://www.vnulib.edu.vn:8000/dspace/bitstream/123456789/1801/1/sedev0206-02.pdf
http://gralib.hcmuns.edu.vn/greenstonelib/library?e=d-000-00---0bckh2006--00-0-0--0prompt-10---4------0-1l--1-vi-50---20-about---00031-001-1-0utfZz-8-00&cl=CL1.3&d=HASH01b48a28e6ab967248d8e5b1&x=1

1 comment: