谷歌近期對其爬蟲文檔進行了全新的調整,主概覽頁面得到了簡化,內容被拆分成了三個更加集中和精煉的頁面。更新日志雖然沒有詳細闡述這些變化,但實際上新增了一個全新的部分,并且將整個爬蟲概覽進行了基本的重寫。新添加的頁面提升了所有爬蟲信息的密度,同時改善了主題的覆蓋范圍。
變化的具體情況
谷歌的文檔更新日志記錄了其中兩條主要變動,實際上還有不少改動。技術屬性部分現在增添了全新的信息,盡管抓取工具的行為沒有根本變化,通過劃分為三個特定主題的頁面,谷歌能夠在抓取工具概述頁面上添加更多的信息,同時減少整體的頁面字數。關于內容編碼(壓縮)的新內容也被納入:“谷歌的抓取工具和提取器支持以下內容編碼:gzip、deflate 和 Brotli (br)。每個谷歌的用戶代理在發出每個請求時的 Accept-Encoding 頭中會公開支持的內容編碼。例如,Accept-Encoding:gzip、deflate、br!贝送,還增加了通過 HTTP/1.1 和 HTTP/2進行抓取的相關信息,并提出了一個目標:在不影響網站服務器的情況下盡可能多地抓取頁面。
重組的意圖
文檔的更新主要是由于概覽頁面內容過于龐大。額外的信息只會讓概覽頁面更臃腫,于是決定將內容分為三個子主題,以便特定爬蟲信息能夠持續擴展,同時騰出更多空間用于一般信息。將子主題拆分出來成為獨立頁面是一種聰明的方式,有助于更好地服務用戶。文檔變更日志對此的解釋是:“文檔變得異常冗長,限制了我們擴展有關爬蟲和用戶觸發的抓取工具內容的能力…對谷歌抓取工具和用戶觸發抓取工具的文檔進行了重新組織。我們還明確說明了每個抓取工具影響哪些產品,并為每個抓取工具增加了 robots.txt 代碼片段,展示如何使用用戶代理令牌。除此之外,內容并沒有實質性的改變!
新頁面的構成
變更日志將這些調整形容為重組,以降低其重要性,然而爬蟲概述頁面實際上經歷了相當大的重寫,并且新創建了三個獨立頁面。雖然內容的基調保持不變,但將其按子主題分類,使得谷歌可以更簡單地向新頁面添加更多的信息,而不需要擴展原有的大頁面。原先的頁面名為谷歌抓取工具與提取器(用戶代理)概述,現今實質上轉變成一個概覽,其中更詳細的內容被轉移到獨立頁面。
新增的爬蟲類別
谷歌也推出了三個新頁面。第一個是常見爬蟲,正如標題所示,這些都是常用的抓取工具,其中不少與 GoogleBot 直接關聯,包括使用 GoogleBot 用戶代理的 Google-InspectionTool。本頁面列出的所有爬蟲均遵守 robots.txt 規則,并詳細記錄了眾多谷歌爬蟲的相關信息。第二類是特殊爬蟲,它們與特定產品綁定,根據和這些產品用戶的協議進行抓取,并且從不同于 GoogleBot 爬蟲 IP 地址的地址運行。第三類是用戶觸發的獲取器頁面,涵蓋了由用戶特定請求激活的機器人,簡單來說就是用戶啟動的抓取行為。比如,Google Site Verifier 根據用戶的要求執行,或者在 Google Cloud (GCP) 上的網站提供了訪問外部 RSS 源的功能。
總結
谷歌的爬蟲概述頁面發生了翻天覆地的變化。原本龐大的頁面變得不再令人窒息,分成更細致的子主題后,用戶能夠更容易獲取他們需要的信息。新結構不僅提升了可讀性,也讓用戶能夠更靈活地找到所需的信息變得充實并且深入。通過將原本綜合性過強的頁面劃分,谷歌不僅展示了如何再造文檔,也為如何提高用戶的搜索體驗提供了新的思路。 |