搜索引擎統一Robots文件標準
搜索引擎三巨頭打的不亦樂(lè )乎,但偶爾也合作一下。去年Google,雅虎,微軟就合作,共同遵守統一的Sitemaps標準。前兩天三巨頭又同時(shí)宣布,共同遵守的robots.txt文件標準。Google,雅虎,微軟各自在自己的官方博客上發(fā)了一篇帖子,公布三家都支持的robots.txt文件及Meta標簽的標準,以及一些各自特有的標準。下面做一個(gè)總結。
三家都支持的robots文件記錄包括:
Disallow – 告訴蜘蛛不要抓取某些文件或目錄。如下面代碼將阻止蜘蛛抓取所有的網(wǎng)站文件:
User-agent: *
Disallow: /
Allow – 告訴蜘蛛應該抓取某些文件。Allow和Disallow配合使用,可以告訴蜘蛛某個(gè)目錄下,大部分都不抓取,只抓取一部分。如下面代碼將使蜘蛛不抓取ab目錄下其他文件,而只抓取其中cd下的文件:
User-agent: *
Disallow: /ab/
Allow: /ab/cd
$通配符 – 匹配URL結尾的字符。如下面代碼將允許蜘蛛訪(fǎng)問(wèn)以。htm為后綴的URL:
User-agent: *
Allow: .htm$
*通配符 – 告訴蜘蛛匹配任意一段字符。如下面一段代碼將禁止蜘蛛抓取所有htm文件:
User-agent: *
Disallow: /*.htm
Sitemaps位置 – 告訴蜘蛛你的網(wǎng)站地圖在哪里,格式為:
Sitemap:
三家都支持的Meta標簽包括:
NOINDEX – 告訴蜘蛛不要索引某個(gè)網(wǎng)頁(yè)。西安網(wǎng)站建設推薦閱讀>>> robots.txt文件的重要作用意義,
NOFOLLOW – 告訴蜘蛛不要跟蹤網(wǎng)頁(yè)上的鏈接。
NOSNIPPET – 告訴蜘蛛不要在搜索結果中顯示說(shuō)明文字。
NOARCHIVE – 告訴蜘蛛不要顯示快照。
NOODP – 告訴蜘蛛不要使用開(kāi)放目錄中的標題和說(shuō)明。
上面這些記錄或標簽,現在三家都共同支持。其中通配符好像以前雅虎微軟并不支持。百度現在也支持Disallow,Allow及兩種通配符。Meta標簽我沒(méi)有找到百度是否支持的官方說(shuō)明。
只有Google支持的Meta標簽有:
UNAVAILABLE_AFTER – 告訴蜘蛛網(wǎng)頁(yè)什么時(shí)候過(guò)期。在這個(gè)日期之后,不應該再出現在搜索結果中。西安做網(wǎng)站推薦閱讀>>> 使用robots.txt引導百度爬蟲(chóng)合理分配抓取資源,
NOIMAGEINDEX – 告訴蜘蛛不要索引頁(yè)面上的圖片。
NOTRANSLATE – 告訴蜘蛛不要翻譯頁(yè)面內容。
雅虎還支持Meta標簽:
Crawl-Delay – 允許蜘蛛延時(shí)抓取的頻率。
NOYDIR – 和NOODP標簽相似,但是指雅虎目錄,而不是開(kāi)放目錄。
Robots-nocontent – 告訴蜘蛛被標注的部分html不是網(wǎng)頁(yè)內容的一部分,或者換個(gè)角度,告訴蜘蛛哪些部分是頁(yè)面的主要內容(想被檢索的內容)。西安網(wǎng)站建設推薦閱讀>>> 帶你玩轉robots協(xié)議,新手必備,
MSN還支持Meta標簽:
Crawl-Delay
另外提醒大家注意的是,robots.txt文件可以不存在,返回404錯誤,意味著(zhù)允許蜘蛛抓取所有內容。但抓取robots.txt文件時(shí)卻發(fā)生超時(shí)之類(lèi)的錯誤,可能導致搜索引擎不收錄網(wǎng)站,因為蜘蛛不知道robots.txt文件是否存在或者里面有什么內容,這與確認文件不存在是不一樣的。
相關(guān)文章:
-
User-agent: * Disallow: / Allow: /complain/ Allow: /media_partners/ Allow: /about/ Allow: /user_agreement/ User-agent: ByteSpider Allow: / User-agent: ToutiaoSpider Allow: / 以上是今日頭條的robots.txt,禁止所有搜索引擎收錄,同時(shí)又...
-
有同學(xué)問(wèn)百度站長(cháng)學(xué)院一個(gè)關(guān)于robots的問(wèn)題:我們有個(gè)站點(diǎn)的目錄結構使用的是中文,這樣式兒的:www.a.com/冒險島/123.html,那在制作robots文件和sitemap文件的時(shí)候,可以直接使用中文嗎?百度能...
-
robots文件是搜索生態(tài)中很重要的一個(gè)環(huán)節,同時(shí)也是一個(gè)很細節的環(huán)節。很多站長(cháng)同學(xué)在網(wǎng)站運營(yíng)過(guò)程中,很容易忽視r(shí)obots文件的存在,進(jìn)行錯誤覆蓋或者全部封禁robots,造成不必要損失! 那...
-
目前百度圖片搜索也使用了與百度網(wǎng)頁(yè)搜索相同的spider,如果想禁止Baiduspider抓取網(wǎng)站上所有圖片、禁止或允許Baiduspider抓取網(wǎng)站上的某種特定格式的圖片文件可以通過(guò)設置robots實(shí)現:西安廣告...
-
對于百度搜索引擎來(lái)說(shuō),蜘蛛黑洞特指網(wǎng)站通過(guò)極低的成本制造出大量參數過(guò)多、內容類(lèi)同但url不同的動(dòng)態(tài)URL ,就像一個(gè)無(wú)限循環(huán)的黑洞,將spider困住。spider浪費了大量資源抓取的卻是無(wú)效網(wǎng)...
-
robots是站點(diǎn)與spider溝通的重要渠道,站點(diǎn)通過(guò)robots文件聲明該網(wǎng)站中不想被搜索引擎收錄的部分或者指定搜索引擎只收錄特定的部分。請注意,僅當您的網(wǎng)站包含不希望被搜索引擎收錄的內容...
-
親愛(ài)的網(wǎng)站管理員, 很高興的告訴大家,百度站長(cháng)平臺 robots 工具全新升級,升級后能夠實(shí)時(shí)查看網(wǎng)站在百度中已生效的的robots文件,并支持對robots進(jìn)行語(yǔ)法及邏輯校驗,有助于站長(cháng)更清晰的...
-
資料一 1.robots.txt文件是什么 robots.txt是一個(gè)純文本文件,是搜索引擎中訪(fǎng)問(wèn)網(wǎng)站的時(shí)候要查看的第一個(gè)文件。robots.txt文件告訴蜘蛛程序在服務(wù)器上什么文件是可以被查看的。每個(gè)站點(diǎn)最好建立...
-
robots.txt文件包含一條或更多的記錄,這些記錄通過(guò)空行分開(kāi)(以CR,CR/NL, or NL作為結束符),每一條記錄的格式如下所示: field:optional spacevalueoptionalspace 在該文件中可以使用#進(jìn)行注解,具體使...
-
搜索引擎通過(guò)一種程序robot(又稱(chēng)spider),自動(dòng)訪(fǎng)問(wèn)互聯(lián)網(wǎng)上的網(wǎng)頁(yè)并獲取網(wǎng)頁(yè)信 息。您可以在您的網(wǎng)站中創(chuàng )建一個(gè)純文本文件robots.txt,在這個(gè)文件中聲明該網(wǎng)站中不想被robot 訪(fǎng)問(wèn)的部分,這...