Googlebot

Googlebot là trình thu thập web được Google sử dụng để thu thập tài liệu từ web để xây dựng một chỉ mục có thể tìm kiếm cho công cụ tìm kiếm Google. Googlebot là tên gọi chung cho hai loại trình thu thập dữ liệu khác nhau: Trình thu thập dữ liệu trên máy tính (Googlebot Desktop) – mô phỏng người dùng trên máy tính, và trình thu thập trên thiết bị di động (Googlebot Smartphone) – mô phỏng người dùng trên thiết bị di động[1][2].

Googlebot sử dụng các thuật toán và vào các website, thực hiện quá trình thu thập và tiếp nhận dữ liệu web. Nhờ vậy mà người dùng tìm kiếm được thông tin từ hàng tỷ website trên thế giới.

Quá trình thực hiện

Googlebot bắt đầu với danh sách URL của web tạo ra từ quá trình thu thập trước đó và bổ sung sitemap dữ liệu được cung cấp bởi quản trị web.

Khi Googlebot ghé thăm mỗi người trong số các trang web này và phát hiện liên kết (SRC và HREF) trên mỗi trang và thêm chúng vào danh sách của các trang để thu thập dữ liệu. Các trang web mới, sự thay đổi của các trang web đang hoạt động, các liên kết chết được ghi nhận và được sử dụng để cập nhật chỉ mục trên Google.

Googlebot thu thập dữ liệu qua HTTP/1.1. Tuy nhiên, bắt đầu từ tháng 11 năm 2020, nếu cho rằng một trang web có thể thu được nhiều lợi ích từ việc thu thập dữ liệu qua HTTP/2 thì Google sẽ có thể thu thập dữ liệu trang đó qua HTTP/2 nếu trang hỗ trợ giao thức này. Việc này có thể giúp tiết kiệm tài nguyên điện toán (ví dụ như CPU, RAM) cho trang web và Googlebot, nhưng không ảnh hưởng đến việc lập chỉ mục hoặc xếp hạng trang web trên Google[1].

Tham khảo

  1. ^ a b “Googlebot là gì | Trung tâm Google Tìm kiếm | Tài liệu”. Google Developers. Truy cập ngày 6 tháng 6 năm 2022.
  2. ^ “Googlebot”. Google. 11 tháng 3 năm 2019. Truy cập ngày 11 tháng 3 năm 2019.
Bài viết này vẫn còn sơ khai. Bạn có thể giúp Wikipedia mở rộng nội dung để bài được hoàn chỉnh hơn.
  • x
  • t
  • s
  • x
  • t
  • s
Google
Tổng quan
Quảng cáo
Liên lạc
Phần mềm
Nền tảng
Công cụ
phát triển
Xuất bản
Tìm kiếm
(thời biểu)
Thuật toán
Tính năng
  • Web History
  • Personalized
  • Real-Time
  • Instant Search
  • SafeSearch
  • Voice Search
Phân tích
  • Insights for Search
  • Trends
  • Knowledge Graph
  • Knowledge Vault
Đã ngừng
Đội ngũ
  • Al Gore
  • Alan Eustace
  • Alan Mulally
  • Amit Singhal
  • Ann Mather
  • David Drummond
  • Eric Schmidt
  • Jeff Dean
  • John Doerr
  • John L. Hennessy
  • Krishna Bharat
  • Matt Cutts
  • Patrick Pichette
  • Paul Otellini
  • Omid Kordestani
  • Rachel Whetstone
  • Rajen Sheth
  • Ram Shriram
  • Ray Kurzweil
  • Ruth Porat
  • Salar Kamangar
  • Shirley M. Tilghman
  • Sundar Pichai
  • Susan Wojcicki
  • Urs Hölzle
  • Vint Cerf
Sáng lập
Khác
Sự kiện
  • Science Fair
  • Searchology
  • I/O
  • Developer Day
  • AtGoogleTalks
  • Code Jam
  • Highly Open Participation Contest
  • Code-in
Các dự án
  • Ara
  • Loon
  • Tango
  • Sunroof
Bất động sản
Logo
Liên quan
  • AI Challenge
  • Bomb
  • Goojje
  • Monopoly City Streets
  • Unity
  • Googled: The End of the World as We Know It
  • Thể loại Thể loại