搜索引擎抓取策略類型-漳州網站建設_漳州做(zuò)網站_漳州市芗城區微風時代網絡科技有限公司

新聞動态News information

您的(de)位置：首頁>新聞動态

新聞動态

News information

服務熱(rè)線：0596-6108220

傳真：0596-6108220

公司地址：福建省漳州市龍文區(qū)漳華東路327号中森陽光(guāng)美(měi)地12幢2單元203室
漳州市芗城(chéng)區(qū)怡秀園翰榮樓2幢211室

郵政編碼：363000

搜索引擎抓取策略類型

發表于2018/2/5

其實Baidu spider在抓取過程中面對(duì)的(de)是一個(gè)超級複雜(zá)的(de)網絡環境.爲了(le)使系統可(kě)以抓取到盡可(kě)能多(duō)的(de)有價值的(de)資源，并保持系統及實際環境中頁面的(de)一緻性，同時(shí)不給網站體驗造成壓力，須設計多(duō)種複雜(zá)的(de)抓取策略。

下(xià)面作一簡單介紹：

(1)抓取友好性
互聯網資源龐大(dà)的(de)數量級，要求抓取系統盡可(kě)能地高(gāo)效利用(yòng)帶寬，在有限的(de)硬件和(hé)帶寬資源下(xià)盡可(kě)能多(duō)地抓取到有價值的(de)資源。這(zhè)就造成另一個(gè)問題:耗費被抓網站的(de)帶寬造成訪問壓力，如果程度過大(dà)，将直接影(yǐng)響被抓網站的(de)正常用(yòng)戶訪問行爲。因此，在抓取過程中就要進行一定的(de)抓取壓力控制，達到既不影(yǐng)響網站的(de)正常用(yòng)戶訪問又能盡量多(duō)地抓取到有價值資源的(de)目的(de)。
通(tōng)常，最基本的(de)是基于IP的(de)壓力控制。因爲如果基于域名，可(kě)能存在一個(gè)域名對(duì)多(duō)個(gè)IP(很多(duō)大(dà)網站)或多(duō)個(gè)域名對(duì)應同一個(gè)IP(小網站共享IP)的(de)問題。實際中往往根據P及域名的(de)多(duō)種條件進行壓力調配控制。同時(shí)，站長(cháng)平台也(yě)推出了(le)壓力反饋工具，站長(cháng)可(kě)以人(rén)工調配對(duì)自己網站的(de)抓取壓力，這(zhè)時(shí)!百度spider将優先按照(zhào)站長(cháng)的(de)要求進行抓取壓力控制。
對(duì)同一站點的(de)抓取速度控制一般分(fēn)爲兩類:
其一，一段時(shí)間内的(de)抓取頻(pín)率；
其二，段時(shí)間内的(de)抓取流量。
同一站點不同的(de)時(shí)間抓取速度也(yě)不同。例如，夜晚抓取的(de)可(kě)能就會快(kuài)一些，也(yě)視具體站點類型而定，主要思想是錯開正常用(yòng)戶訪問高(gāo)峰，不斷調整。對(duì)于不同站點，也(yě)需要不同的(de)抓取速度。

(2)常用(yòng)抓取返回碼示意
下(xià)面簡單介紹幾種百度支持的(de)返回碼。
①最常見的(de)404代表“NOT FOUND”，認爲網頁已經失效，通(tōng)常将在庫中删除，同時(shí)短期内如果spider再次發現這(zhè)條URL.也(yě)不會抓取。
②503代表“Service unavailabl ，認爲網頁臨時(shí)不可(kě)訪問，通(tōng)常網站臨時(shí)關閉，帶寬有限等會産生這(zhè)種情況。對(duì)于網頁返回503百度spider不會把這(zhè)條url直接删除，同時(shí)短期内将會反複訪問幾次，如果網頁已恢複，則正常抓取；如果繼續503狀态碼，那麽這(zhè)條URL仍會被認爲是失效鏈接，從庫中删除。
③403代表Forbidden，認爲網頁目前禁止訪問。如果是新URL， spider暫時(shí)不抓取，短期内同樣會反複訪問幾次；如果是已收錄UHL，不會直接删除，短期内同樣反複訪認爲是失效鏈接，從庫中删除。問幾次。如果網頁正常訪問，則正常抓取；如果仍然禁止訪問，那麽這(zhè)條URL也(yě)會被。
④301代表“Moved”認爲網頁重定向至新URL當遇到站點遷移域名更換、站點改版的(de)情況時(shí)，推薦使用(yòng)301返回碼，同田時(shí)使用(yòng)站長(cháng)平台網站改版工具，以減少改版對(duì)網站流量造成的(de)損失。

(3)多(duō)種URL重定向的(de)識别
互聯網中的(de)一部分(fēn)網頁因爲各種各樣的(de)原因存在URL重定向狀态，爲了(le)對(duì)這(zhè)部分(fēn)資源正常抓取，要求 spider對(duì)URL重定向進行識别判斷，同時(shí)防止作弊行爲。重定向可(kě)分(fēn)爲三類:htp30x重定向、 meta refresh重定向和(hé)js重定向。另外，百度也(yě)支持Canonical标簽，在效果上也(yě)可(kě)以認爲是一種間接的(de)重定向。

(4)抓取優先級調配
由于互聯網資源規模巨大(dà)以及變化(huà)迅速，對(duì)于搜索引擎來(lái)說，全部抓取到并合理(lǐ)地更新，保持一緻性幾乎是不可(kě)能的(de)事情，因此要求抓取系統設計一套合理(lǐ)的(de)抓取優先級調配策略，主要包括深度優先遍曆策略、寬度優先遍曆策略、pr優先策略、反鏈策略、社會化(huà)分(fēn)享指導策略等。每個(gè)策略各有優劣，在實際情況中往往是多(duō)種策略結合使用(yòng)，以達到最優的(de)抓取效果。

(5)重複URL的(de)過濾
spider在抓取過程中需要判斷一個(gè)頁面是否已經抓取過了(le)，如果還(hái)沒有抓取，再進行抓取網頁的(de)行爲，并放在已抓取網址集合中。判斷是否已經抓取其中涉及最核心的(de)是快(kuài)速查找并對(duì)比，同時(shí)于涉及URL歸一化(huà)識别。例如，一個(gè)URL中包含大(dà)量無效參數，而實際是同一個(gè)頁面，這(zhè)将視爲同一個(gè)URL來(lái)對(duì)待。

(6)暗網數據的(de)獲取
互聯網中存在著(zhe)大(dà)量的(de)搜索引擎暫時(shí)無法抓取到的(de)數據，被稱爲暗網數據。一方面，很多(duō)網站的(de)大(dà)量數據存在于網絡數據庫中，spider難以采用(yòng)抓取網頁的(de)方式獲得(de)完整内容；另一方面，由于網絡環境、網站本身不符合規範、孤島等問題，也(yě)會造成搜索引擎無法抓取。目前，對(duì)于暗網數據的(de)獲取，主要思路仍然是通(tōng)過開放平台采用(yòng)數據提交的(de)方式來(lái)解決，如“百度站長(cháng)平台”“百度開放平台”等。

(7)抓取反作弊
spider在抓取過程中往往會遇到所謂抓取黑(hēi)洞，或者面臨大(dà)量低質量頁面的(de)因擾這(zhè)就要求抓取系統中同樣需要設計一套完善的(de)抓取反作弊系統。例如，分(fēn)析URL特征分(fēn)析頁面大(dà)小及内容、分(fēn)析站點規模對(duì)應抓取規模等。Spider抓取系統是搜索引擎數據來(lái)源的(de)重要保證，這(zhè)對(duì)于網站制作、網站建設、網站設計者來(lái)說就是機遇和(hé)突破口，具體的(de)做(zuò)法就千差萬别了(le)。

上一篇: Baidu spider抓取頻(pín)次原則

下(xià)一篇: SEO的(de)優勢與劣勢

QQ在線客服

售前客服

售後客服

電話(huà)咨詢

0596-6108220