新聞動态
有一些網頁,内容優質,用(yòng)戶也(yě)可(kě)以正常訪問,但是Baidu spider卻無法正常訪問并抓取,造成搜索結果覆蓋率缺失,對(duì)百度搜索引擎、對(duì)站點都是一種損失,百度把這(zhè)種情況叫“抓取異常”。對(duì)于大(dà)量内容無法正常抓取的(de)網站,百度搜索引擎會認爲網站存在用(yòng)戶體驗上的(de)缺陷,并降低對(duì)網站的(de)評價,在抓取、索引,排序上都會受到一定程度的(de)負面影(yǐng)響,最終影(yǐng)響到網站從百度獲取的(de)流量。
下(xià)面介紹一些常見的(de)抓取異常的(de)原因。
(1)服務器連接異常。服務器連接異常會有兩種情況。一種是站點不穩定,Baidu spider嘗試連接網站的(de)服務器時(shí)出現暫時(shí)無法連接的(de)情況;另一種是Baidu spider一直無法連接上網站的(de)服務器。造成服務器連接異常的(de)原因通(tōng)常是網站服務器過大(dà),超負荷運轉。也(yě)有可(kě)能是網站運行不正常,請檢查網站的(de)Web服務器(如apache、is)是否安裝且正常運行,并使用(yòng)浏覽器檢查主要頁面能否正常訪問。網站和(hé)主機還(hái)可(kě)能阻止了(le)Baidu spider的(de)訪問,需要檢查網站和(hé)主機的(de)防火牆。
(2)網絡運營商異常。網絡運營商分(fēn)電信和(hé)聯通(tōng)兩種,Baidu spider通(tōng)過電信或網通(tōng)無法訪問網站。如果出現這(zhè)種情況,需要與網絡服務運營商進行聯系,或者購(gòu)買擁有雙線服務的(de)空間或者購(gòu)買cdn服務。
(3)DNS異常。當Baidu spider無法解析網站的(de)P時(shí),會出現DNS異常。可(kě)能是網站IP地址錯誤,或者域名服務商把Baidu spider封禁。請使用(yòng) WHOIS或者host查詢自己網站的(de)IP地址是否正确且可(kě)解析,如果不正确或無法解析,請與域名注冊商聯系,更新IP地址。
(4)IP封禁。限制網絡的(de)出口IP地址,禁止該P段的(de)使用(yòng)者進行内容訪問、,這(zhè)裏特指封禁了(le)Baidu spider ip。當網站不希望Baidu spider訪問時(shí),才需要該設置,如果希望Baidu spider訪問網站,請檢查相關設置中是否誤添了(le)Baidu spider ip.。也(yě)有可(kě)能是網站所在的(de)空間服務商把百度P進行i了(le)封禁,這(zhè)日時(shí)需要聯系服務商更改設置。
(5)UA封禁。服務器通(tōng)過UA識别訪問者的(de)身份。當網站針對(duì)指定UA的(de)訪不希望Baidu spider訪間時(shí),才需要該設置,如果您希望 Baidu spider訪問您的(de)網站 問,返回異常頁面(如403,500)或跳轉到其他(tā)頁面的(de)情況,即爲UA封禁。當網站useragent相關的(de)設置中是否有Baidu spider ua,并及時(shí)修改。
(6)死鏈。頁面已經無效,無法對(duì)用(yòng)戶提供任何有價值信息的(de)頁面就是死鏈接, 包括協議(yì)死鏈和(hé)内容死鏈兩種形式協議(yì)死鏈。頁面的(de)tcp狀态,http狀态明(míng)确表示的(de)死鏈,常見的(de)如404、403、503狀态等。内容死鏈。服務器返回狀态是正常的(de),但内容已經變更爲不存在,已删或需要權限等與原内容無關的(de)信息頁面。對(duì)于死鏈,建議(yì)站點使用(yòng)協議(yì)死鏈,并通(tōng)過百度站長(cháng)平台—死結工具向百度提交,以便百度更快(kuài)地發現死鏈,減少死鏈對(duì)用(yòng)戶以及搜索引擎造成的(de)負面影(yǐng)響。
(7)異常跳轉。将網絡請求重新指向其他(tā)位置即爲跳轉。異常跳轉指的(de)是以下(xià)幾種情況:
①當前該頁面爲無效頁面(如内容已删除。死鏈等),直接跳轉到前一目錄或者首頁,百度建議(yì)站長(cháng)将該無效頁面的(de)人(rén)口超鏈接删除。
②跳轉到出錯或者無效頁面注意:對(duì)于長(cháng)時(shí)間跳轉到其他(tā)城(chéng)名的(de)情況,如網站更繞域名,百度建議(yì)使用(yòng)301跳轉協議(yì)進行設置。
(8)其他(tā)異常。
①針對(duì)百度reer的(de)異常:網頁針對(duì)來(lái)自百度的(de)mfe返回不同于正常内容的(de)行爲。
②針對(duì)百度ua的(de)異常:網頁對(duì)百度UA返回不同于頁面原内容的(de)行爲。
③Js跳轉異常:網站設計加載了(le)百度無法識别的(de)N跳轉代碼,使得(de)用(yòng)戶通(tōng)過搜索結果進入頁面後發生了(le)跳轉的(de)情況。
④壓力過大(dà)引起的(de)偶然封禁:百度會根據站點的(de)規模、訪問量等信息,自動設定一個(gè)合理(lǐ)的(de)抓取壓力。但是在異常情況下(xià),如壓力控制失常時(shí),服務器會根據自身負荷進行保護性的(de)偶然封禁。這(zhè)種情況下(xià),請在返回碼中返回503(其含義是Service Unavailable),這(zhè)樣Baidu spider會過段時(shí)間再來(lái)嘗試抓取這(zhè)個(gè)鏈接,如果網站已空閑,則會被成功抓取。
上一篇: 新鏈接重要程度判斷
下(xià)一篇: 簽約:海德堡(深圳)教育有限公司與海洋網絡達成網站建設協議(yì)