Friday, January 18, 2008

Những vấn đề liên quan đến bài toán Bóc tách nội dung


Phương pháp mà tôi sử dụng cho bài toán bóc tách nội dung chính trang web là phân tích mã HTML để tạo nên cây cấu trúc của trang WEB. Tuy nhiên, để xác định tốt nội dung chính, hệ thống cần giải quyết những vấn đề sau:

1. Lỗi trong TAG của HTML

Trường hợp lỗi của TAG HTML có hai dạng: lỗi có tag mở nhưng không có tag đóng và lỗi sử dụng tag HTML không hợp lệ, sai cú pháp.

Trong trường hợp TAG đóng không được sử dụng, TAG đi sau sẽ có nhiệm vụ tìm kiếm TAG tương ứng để đóng TAG đã mở trước đó.
Còn trường hợp TAG sử dụng bị lỗi, thiếu dấu CloseTag chẳng hạn, thì trình duyệt sẽ không thể hiện đúng nội dung cho nên chương trình cũng sẽ bỏ qua trường hợp này, coi như lỗi dữ liệu.

2. Dữ liệu được tổ chức hỗn loạn


Trường hợp dữ liệu được nhúng nhiều thành phần khác nhau: đoạn văn bản nội dung, bảng số liệu, hình ảnh minh họa, thông tin chú thích. Trong trường hợp này chương trình sẽ dò tìm để loại bỏ những TAG không cần thiết như , tag có nội dung theo dạng bảng số liệu.

Đau đầu nhất vẫn là trường hợp các đoạn dữ liệu được tổ chức xen kẽ với các đoạn thông tin kính kèm theo, thông tin quảng cáo ... Trong trường hợp này cần phải có giải pháp để loại bỏ những đoạn dữ liệu không cần thiết đó như: quảng cáo, liên kết liên quan...

3. Xác định vùng nội dung chính

Trong bài toán Bóc tách nội dung trang Web thì vấn đề lớn nhất là xác định nội dung chính của trang web, loại bỏ đi những nội dung dư thừa không cần thiết. Đây là một vấn đề khó và nó ảnh hưởng đến kết quả bài toán, hơn nữa chất lượng loại vùng nội dung dư thừa bị còn tùy thược vào bài toán cụ thể để quyết định nội dung chính gồm những phần nào. Vấn đề này tôi xin để trong một bài viết riêng để xử lý cho vấn đề này.