Tuesday, July 1, 2008

Rút trích từ khóa tự động trên tài liệu tiếng Việt

URL: http://ngo.2uoc.hung.googlepages.com/RuttrichTukhoa.htm

Từ khóa là một từ hoặc một cụm từ mô tả nội dung chính của một tài liệu. Rút trích từ khóa tự động trên tài liệu tiếng Việt là một bài toán thường bắt gặp trong nghiên cứu xử lý ngôn ngữ tự nhiên cũng như trong cuộc sống hàng ngày.


Những trang báo điện tử hiện nay đang hướng đến việc sử dụng những từ khóa nhằm đại diện cho một văn bản, hỗ trợ người đọc nhanh chóng nắm bắt thông tin. Đi đầu trong hướng sử dụng từ khóa như một phần thông tin đăng tải của bản tin là Báo mới (www.baomoi.com, beta.baomoi.com); Vietbao.vn. Báo mới đã thực hiện rất tốt việc rút trích từ khóa từ một văn bản ban đầu. Những từ khóa mà Báo mới rút ra sau khi sử dụng công cụ tìm kiếm Google hoặc Yahoo chúng ta luôn luôn tìm được link đến bài viết gốc.

Vấn đề đặt ra là những từ khóa rút trích được phải được xem là đại diện cho văn bản ban đầu, thông qua các từ khóa, người đọc có thể phần nào biết được nội dung của văn bản và cũng thông qua danh sách các từ khóa đó, các công cụ tìm kiếm có thể tìm được văn bản ban đầu.

Các phương pháp áp dụng có thể sử dụng đến một tập dữ liệu huấn luyện ban đầu hoặc là không. Tuy nhiên, việc tránh tập dữ liệu ban đầu luôn được hướng đến, vì nó sẽ giảm được công việc xây dựng một tập dữ liệu lớn hỗ trợ quá trình huấn luyện đó,

Để đưa ra từ khóa cho một tài liệu, ta dựa vào thông tin thống kê trên các từ có trong văn bản, thống kê đồng hiện của tất cả các từ phổ biến trong tài liệu đó, từ đó dựa vào các thông số thống kê và yêu cầu của bài toán để xét xem đâu là từ khóa đại diện cho văn bản ban đầu.

Một số đặc điểm ảnh hưởng đến quá trình rút trích từ khóa:
- Các từ chức năng (stopword) không nằm trong danh sách các từ khóa rút được. Các từ chức năng là các từ không hàm chứa nghĩa như: là, cũng, sẽ, đến, tới, .....
- Các từ nằm trong danh sách từ khóa thường là các danh từ và động từ
- Một số từ khóa xuất hiện trong tiêu đề của văn bản.
- Các danh từ tên riêng thường có khả năng xuất hiện trong danh sách các từ khóa cao hơn các danh từ phổ biến.

Đối với mỗi bài toán mà yêu cầu có một danh sách từ khóa khác nhau với số lượng khác nhau. Số lượng các từ khóa đại diện có thể chỉ là 5 hoặc 10, hoặc cũng có thể là không xác định trước. Tùy theo yêu cầu đó mà các chi tiết cụ thể của phương pháp áp dụng có thể khác nhau để cho kết quả cuối cùng tốt nhất.