新聞動态
其實Baidu spider在抓取過程中面對(duì)的(de)是一個(gè)超級複雜(zá)的(de)網絡環境.爲了(le)使系統可(kě)以抓取到盡可(kě)能多(duō)的(de)有價值的(de)資源,并保持系統及實際環境中頁面的(de)一緻性,同時(shí)不給網站體驗造成壓力,須設計多(duō)種複雜(zá)的(de)抓取策略。
下(xià)面作一簡單介紹:
(1)抓取友好性
互聯網資源龐大(dà)的(de)數量級,要求抓取系統盡可(kě)能地高(gāo)效利用(yòng)帶寬,在有限的(de)硬件和(hé)帶寬資源下(xià)盡可(kě)能多(duō)地抓取到有價值的(de)資源。這(zhè)就造成另一個(gè)問題:耗費被抓網站的(de)帶寬造成訪問壓力,如果程度過大(dà),将直接影(yǐng)響被抓網站的(de)正常用(yòng)戶訪問行爲。因此,在抓取過程中就要進行一定的(de)抓取壓力控制,達到既不影(yǐng)響網站的(de)正常用(yòng)戶訪問又能盡量多(duō)地抓取到有價值資源的(de)目的(de)。
通(tōng)常,最基本的(de)是基于IP的(de)壓力控制。因爲如果基于域名,可(kě)能存在一個(gè)域名對(duì)多(duō)個(gè)IP(很多(duō)大(dà)網站)或多(duō)個(gè)域名對(duì)應同一個(gè)IP(小網站共享IP)的(de)問題。實際中往往根據P及域名的(de)多(duō)種條件進行壓力調配控制。同時(shí),站長(cháng)平台也(yě)推出了(le)壓力反饋工具,站長(cháng)可(kě)以人(rén)工調配對(duì)自己網站的(de)抓取壓力,這(zhè)時(shí)!百度spider将優先按照(zhào)站長(cháng)的(de)要求進行抓取壓力控制。
對(duì)同一站點的(de)抓取速度控制一般分(fēn)爲兩類:
其一,一段時(shí)間内的(de)抓取頻(pín)率;
其二,段時(shí)間内的(de)抓取流量。
同一站點不同的(de)時(shí)間抓取速度也(yě)不同。例如,夜晚抓取的(de)可(kě)能就會快(kuài)一些,也(yě)視具體站點類型而定,主要思想是錯開正常用(yòng)戶訪問高(gāo)峰,不斷調整。對(duì)于不同站點,也(yě)需要不同的(de)抓取速度。
(2)常用(yòng)抓取返回碼示意
下(xià)面簡單介紹幾種百度支持的(de)返回碼。
①最常見的(de)404代表“NOT FOUND”,認爲網頁已經失效,通(tōng)常将在庫中删除,同時(shí)短期内如果spider再次發現這(zhè)條URL.也(yě)不會抓取。
②503代表“Service unavailabl ,認爲網頁臨時(shí)不可(kě)訪問,通(tōng)常網站臨時(shí)關閉,帶寬有限等會産生這(zhè)種情況。對(duì)于網頁返回503百度spider不會把這(zhè)條url直接删除,同時(shí)短期内将會反複訪問幾次,如果網頁已恢複,則正常抓取;如果繼續503狀态碼,那麽這(zhè)條URL仍會被認爲是失效鏈接,從庫中删除。
③403代表Forbidden,認爲網頁目前禁止訪問。如果是新URL, spider暫時(shí)不抓取,短期内同樣會反複訪問幾次;如果是已收錄UHL,不會直接删除,短期内同樣反複訪認爲是失效鏈接,從庫中删除。問幾次。如果網頁正常訪問,則正常抓取;如果仍然禁止訪問,那麽這(zhè)條URL也(yě)會被。
④301代表“Moved”認爲網頁重定向至新URL當遇到站點遷移 域名更換、站點改版的(de)情況時(shí),推薦使用(yòng)301返回碼,同田時(shí)使用(yòng)站長(cháng)平台網站改版工具,以減少改版對(duì)網站流量造成的(de)損失。
(3)多(duō)種URL重定向的(de)識别
互聯網中的(de)一部分(fēn)網頁因爲各種各樣的(de)原因存在URL重定向狀态,爲了(le)對(duì)這(zhè)部分(fēn)資源正常抓取,要求 spider對(duì)URL重定向進行識别判斷,同時(shí)防止作弊行爲。重定向可(kě)分(fēn)爲三類:htp30x重定向、 meta refresh重定向和(hé)js重定向。另外,百度也(yě)支持Canonical标簽,在效果上也(yě)可(kě)以認爲是一種間接的(de)重定向。
(4)抓取優先級調配
由于互聯網資源規模巨大(dà)以及變化(huà)迅速,對(duì)于搜索引擎來(lái)說,全部抓取到并合理(lǐ)地更新,保持一緻性幾乎是不可(kě)能的(de)事情,因此要求抓取系統設計一套合理(lǐ)的(de)抓取優先級調配策略,主要包括深度優先遍曆策略、寬度優先遍曆策略、pr優先策略、反鏈策略、社會化(huà)分(fēn)享指導策略等。每個(gè)策略各有優劣,在實際情況中往往是多(duō)種策略結合使用(yòng),以達到最優的(de)抓取效果。
(5)重複URL的(de)過濾
spider在抓取過程中需要判斷一個(gè)頁面是否已經抓取過了(le),如果還(hái)沒有抓取,再進行抓取網頁的(de)行爲,并放在已抓取網址集合中。判斷是否已經抓取其中涉及最核心的(de)是快(kuài)速查找并對(duì)比,同時(shí)于涉及URL歸一化(huà)識别。例如,一個(gè)URL中包含大(dà)量無效參數,而實際是同一個(gè)頁面,這(zhè)将視爲同一個(gè)URL來(lái)對(duì)待。
(6)暗網數據的(de)獲取
互聯網中存在著(zhe)大(dà)量的(de)搜索引擎暫時(shí)無法抓取到的(de)數據,被稱爲暗網數據。一方面,很多(duō)網站的(de)大(dà)量數據存在于網絡數據庫中,spider難以采用(yòng)抓取網頁的(de)方式獲得(de)完整内容;另一方面,由于網絡環境、網站本身不符合規範、孤島等問題,也(yě)會造成搜索引擎無法抓取。目前,對(duì)于暗網數據的(de)獲取,主要思路仍然是通(tōng)過開放平台采用(yòng)數據提交的(de)方式來(lái)解決,如“百度站長(cháng)平台”“百度開放平台”等。
(7)抓取反作弊
spider在抓取過程中往往會遇到所謂抓取黑(hēi)洞,或者面臨大(dà)量低質量頁面的(de)因擾這(zhè)就要求抓取系統中同樣需要設計一套完善的(de)抓取反作弊系統。例如,分(fēn)析URL特征分(fēn)析頁面大(dà)小及内容、分(fēn)析站點規模對(duì)應抓取規模等。Spider抓取系統是搜索引擎數據來(lái)源的(de)重要保證,這(zhè)對(duì)于網站制作、網站建設、網站設計者來(lái)說就是機遇和(hé)突破口,具體的(de)做(zuò)法就千差萬别了(le)。
下(xià)一篇: SEO的(de)優勢與劣勢