Phương pháp mà tôi sử dụng cho bài toán bóc tách nội dung chính trang web là phân tích mã HTML để tạo nên cây cấu trúc của trang WEB. Tuy nhiên, để xác định tốt nội dung chính, hệ thống cần giải quyết những vấn đề sau:
1. Lỗi trong TAG của HTML
Trường hợp lỗi của TAG HTML có hai dạng: lỗi có tag mở nhưng không có tag đóng và lỗi sử dụng tag HTML không hợp lệ, sai cú pháp.
1. Lỗi trong TAG của HTML
Trường hợp lỗi của TAG HTML có hai dạng: lỗi có tag mở nhưng không có tag đóng và lỗi sử dụng tag HTML không hợp lệ, sai cú pháp.
Trong trường hợp TAG đóng không được sử dụng, TAG đi sau sẽ có nhiệm vụ tìm kiếm TAG tương ứng để đóng TAG đã mở trước đó.
Còn trường hợp TAG sử dụng bị lỗi, thiếu dấu CloseTag chẳng hạn, thì trình duyệt sẽ không thể hiện đúng nội dung cho nên chương trình cũng sẽ bỏ qua trường hợp này, coi như lỗi dữ liệu.
2. Dữ liệu được tổ chức hỗn loạn
Trường hợp dữ liệu được nhúng nhiều thành phần khác nhau: đoạn văn bản nội dung, bảng số liệu, hình ảnh minh họa, thông tin chú thích. Trong trường hợp này chương trình sẽ dò tìm để loại bỏ những TAG không cần thiết như , tag có nội dung theo dạng bảng số liệu.
Còn trường hợp TAG sử dụng bị lỗi, thiếu dấu CloseTag chẳng hạn, thì trình duyệt sẽ không thể hiện đúng nội dung cho nên chương trình cũng sẽ bỏ qua trường hợp này, coi như lỗi dữ liệu.
2. Dữ liệu được tổ chức hỗn loạn
Trường hợp dữ liệu được nhúng nhiều thành phần khác nhau: đoạn văn bản nội dung, bảng số liệu, hình ảnh minh họa, thông tin chú thích. Trong trường hợp này chương trình sẽ dò tìm để loại bỏ những TAG không cần thiết như , tag