Hé lộ bí mật về quy trình tìm kiếm của google

(danghienIT) - Hé lộ bí mật về quy trình tìm kiếm của google? Bài viết sẽ giúp bạn hình dung phần nào về quy trình tìm kiếm của Search Engine Google

Đây là quá trình khai phá các trang web mới. Quá trình này được thực hiện thường xuyên. Tuy nhiên các con bọ không phải chạy theo các liên kết 1 cách lung tung hết từ trang web này nhảy qua trang web khác mà đi theo 1 thứ tự ưu tiên: Google trước hết sẽ "mò" ra 1 bộ các trang web "nổi tiếng" (thường website có pagerank cao), xong sẽ róc toàn bộ các liên kết ngoài từ các trang web nổi tiếng đó, cho vào riêng cấp 1. Các trang web cấp 1 này lại được rót tiếp toàn bộ liên kết ngoài cho cấp 2. Đám url cấp trên hết sẽ được ưu tiên quăng sang quá trình tiếp theo là Spam Filter.

- Sitemaps: song song quá trình Discovery, Google cũng phát hiện web mới bằng cách xem xét các url được submit lên từ các qui trình submit sitemaps, ví dụ như bằng robot.txt files, HTTP request hay Google Webmaster Tool.

- Spam Filter: kết quả từ 2 quá trình trên đều được đưa vào bộ lọc spam, có nhiệm vụ phát hiện và loại bỏ các liên kết spam từ các bộ liên kết nhận được rồi mới chuyển sang quá trình kế tiếp.

- Web Crawler: các con bọ của google sẽ nhận được bộ url sạch từ spam filter chuyển qua, tạo ra các HTTP request theo yêu cầu ping Google của các website rồi bắt đầu thực hiện quá trình thu (retrieve) dữ liệu trên các trang đó. Lúc này các links lại tiếp tục được rót ra cho vào các thứ cấp chuyển trở lại bước Discovery. Tại đây con bọ web cũng bảo đảm sẽ quay trở lại update trang web đã crawl theo yêu cầu về mặt tần suất.

- Index: tại đây, bộ phận index sẽ chịu trách nhiệm phân các trang được đưa sang thành từng nhóm khác nhau dựa trên các thông số chất lượng và xây dựng nên dữ liệu index cho các trang này.

- Server: các dữ liệu index sẽ được lưu trữ tại đây để phục vụ cho yêu cầu của người dùng khi họ truy cập và tìm kiếm 1 từ khóa.