午夜免费福利,国产精品福利小视频,国偷自产一区二区免费视频,免费人成视频在线观看视频,久久大胆视频

在線(xiàn)客服與您一對一交流
當前位置: 主頁(yè) > 行業(yè)新聞 > seo >

網(wǎng)站收錄原理

  收集待索引網(wǎng)頁(yè)

  Internet上存在的網(wǎng)頁(yè)數量絕對是個(gè)天文數字,每天新增的網(wǎng)頁(yè)也不計其數,搜索引擎需要首先找到要索引收錄的對象。

  具體到Google而言,雖然對GoogleBot是否存在DeepBot與FreshBot的區別存在爭議——至于是否叫這么兩個(gè)名字更是眾說(shuō)紛紜。

  主流的看法是,在Google的robots中,的確存在著(zhù)相當部分專(zhuān)門(mén)為真正的索引收錄頁(yè)頁(yè)準備“素材”的robots——在這里我們姑且仍稱(chēng)之為FreshBot吧

  它們的任務(wù)便是每天不停地掃描Internet,以發(fā)現并維護一個(gè)龐大的url列表供DeepBot使用,換言之,當其訪(fǎng)問(wèn)、讀取其一個(gè)網(wǎng)頁(yè)時(shí),目的并不在于索引這個(gè)網(wǎng)頁(yè),而是找出這個(gè)網(wǎng)頁(yè)中的所有鏈接。當然,這樣似乎在效率上存在矛盾,有點(diǎn)不太可信。不過(guò),我們可以簡(jiǎn)單地通過(guò)以下方式判斷:FreshBot在掃描網(wǎng)頁(yè)時(shí)不具備“排它性”。也即是說(shuō),位于Google不同的數據中心的多個(gè)robots可能在某個(gè)很短的時(shí)間周期,比如說(shuō)一天甚至一小時(shí),訪(fǎng)問(wèn)同一個(gè)頁(yè)面,而DeepBot在索引、緩存頁(yè)面時(shí)則不會(huì )出現類(lèi)似的情況。即Google會(huì )限制由某個(gè)數據中心的robots來(lái)完成這項工作的,而不會(huì )出現兩個(gè)數據中心同時(shí)索引網(wǎng)頁(yè)同一個(gè)版本的情況,如果這種說(shuō)法沒(méi)有破綻的話(huà),則似乎可以從服務(wù)器訪(fǎng)問(wèn)日志中時(shí)??梢钥吹皆醋圆煌琁P的GoogleBot在很短的時(shí)間內多次訪(fǎng)問(wèn)同一個(gè)網(wǎng)頁(yè)證明FreshBot的存在。

  因此,有時(shí)候發(fā)現GoogleBot頻繁訪(fǎng)問(wèn)網(wǎng)站也不要高興得太早,也許其根本不是在索引網(wǎng)頁(yè)而只是在掃描url。

  FreshBot記錄的信息包括網(wǎng)頁(yè)的url、TimeStamp(網(wǎng)頁(yè)創(chuàng )建或更新的時(shí)間戳),以及網(wǎng)頁(yè)的Head信息(注:這一點(diǎn)存在爭議,也有不少人相信FreshBot不會(huì )去讀取目標網(wǎng)頁(yè)信息的,而是將這部分工作交由DeepBot完成。

  不過(guò),筆者傾向于前一種說(shuō)法,因為在FreshBot向DeepBot提交的url列表中,會(huì )將網(wǎng)站設置禁止索引、收錄的頁(yè)面排除在外,以提高效率,而網(wǎng)站進(jìn)行此類(lèi)設置時(shí)除使用robots.txt外還有相當部分是通過(guò)mata標簽中的“noindex”實(shí)現的,不讀取目標網(wǎng)頁(yè)的head似乎是無(wú)法實(shí)現這一點(diǎn)的),如果網(wǎng)頁(yè)不可訪(fǎng)問(wèn),比如說(shuō)網(wǎng)絡(luò )中斷或服務(wù)器故障,FreshBot則會(huì )記下該url并擇機重試,但在該url可訪(fǎng)問(wèn)之前,不會(huì )將其加入向DeepBot提交的url列表。

  總的來(lái)說(shuō),FreshBot對服務(wù)器帶寬、資源的占用還是比較小的。最后,FreshBot對記錄信息按不同的優(yōu)先級進(jìn)行分類(lèi),向DeepBot提交,根據優(yōu)先級不同,主要有以下幾種:

  A:新建網(wǎng)頁(yè);B:舊網(wǎng)頁(yè)/新的TimeStamp,即存在更新的網(wǎng)頁(yè);C:使用301/302重定向的網(wǎng)頁(yè);D:復雜的動(dòng)態(tài)url:如使用多個(gè)參數的動(dòng)態(tài)url,Google可能需要附加的工作才能正確分析其內容。西安網(wǎng)站制作維護,建設網(wǎng)站制作推薦閱讀>>> 五大搜索引擎收錄網(wǎng)站的特點(diǎn)分析,

  ——隨著(zhù)Google對動(dòng)態(tài)網(wǎng)頁(yè)支持能力的提高,這一分類(lèi)可能已經(jīng)取消;E:其他類(lèi)型的文件,如指向PDF、DOC文件的鏈接,對這些文件的索引,也可能需要附加的工作;

  F:舊網(wǎng)頁(yè)/舊的TimeStamp,即未更新的網(wǎng)頁(yè),注意,這里的時(shí)間戳不是以Google搜索結果中顯示的日期為準,而是與Google索引數據庫中的日期比對;G:錯誤的url,即訪(fǎng)問(wèn)時(shí)返回404回應的頁(yè)面;

  網(wǎng)頁(yè)的索引與收錄

  接下來(lái)才進(jìn)入真正的索引與收錄網(wǎng)頁(yè)過(guò)程。從上面的介紹可以看出,FreshBot提交的url列表是相當龐大的,根據語(yǔ)言、網(wǎng)站位置等不同,對特定網(wǎng)站的索引工作將分配至不同的數據中心完成。

  整個(gè)索引過(guò)程,由于龐大的數據量,可能需要幾周甚至更長(cháng)時(shí)間才能完成。

  正如上文所言,DeepBot會(huì )首先索引優(yōu)先級較高的網(wǎng)站/網(wǎng)頁(yè),優(yōu)先級越高,出現在Google索引數據庫及至最終出現在Google搜索結果頁(yè)面中的速度便越快。西安營(yíng)銷(xiāo)網(wǎng)站制作,西安網(wǎng)站建設推薦閱讀>>> 網(wǎng)站收錄減少原因,

  對新建網(wǎng)頁(yè)而言,只要進(jìn)入到這個(gè)階段,即使整個(gè)索引過(guò)程沒(méi)有完成,相應的網(wǎng)頁(yè)便已具備出現在Google索引庫中的可能,相信許多朋友在Google中使用“site”搜索時(shí)常??吹綐俗檠a充結果只顯示網(wǎng)頁(yè)url或只顯示網(wǎng)頁(yè)標題與url但沒(méi)有描述的頁(yè)面,此即是處于這一階段網(wǎng)頁(yè)的正常結果。

  當Google真正讀取、分析、緩存了這個(gè)頁(yè)面后,其便會(huì )從補充結果中逃出而顯示正常的信息。

  ——當然,前提是該網(wǎng)頁(yè)具有足夠的鏈接,特別是來(lái)自權威網(wǎng)站的鏈接,并且,索引庫中沒(méi)有與該網(wǎng)頁(yè)內容相同或近似的記錄(DuplicateContent過(guò)濾)。

  對動(dòng)態(tài)url而言,雖然如今Google宣稱(chēng)在對其處理方面已不存在障礙,不過(guò),可以觀(guān)察到的事實(shí)仍然顯示動(dòng)態(tài)url出現在補充結果中的幾率遠大于使用靜態(tài)url的網(wǎng)頁(yè),往往需要更多、更有價(jià)值的鏈接才能從補充結果中逸出。

  而對于上文中之“F”類(lèi),即未更新的網(wǎng)頁(yè),DeepBot會(huì )將其時(shí)間戳與Google索引數據庫中的日期比對,確認盡管可能搜索結果中相應頁(yè)面信息未來(lái)得及更新但只要索引了最新版本即可——考慮網(wǎng)頁(yè)多次更新、修改的情況——;至于“G”類(lèi)即404url,則會(huì )查找索引庫中是否存在相應的記錄,如果有,將其刪除。陜西建站,網(wǎng)站設計制作推薦閱讀>>> 增加外鏈并被更快收錄的方法,

  數據中心間的同步

  前文我們提到過(guò),DeepBot索引某個(gè)網(wǎng)頁(yè)時(shí)會(huì )由特定的數據中心完成,而不會(huì )出現多個(gè)數據中心同時(shí)讀取該網(wǎng)頁(yè),分別獲得網(wǎng)頁(yè)最近版本的情況,這樣,在索引過(guò)程完成后,便需要一個(gè)數據同步過(guò)程,將網(wǎng)頁(yè)的最新版本在多個(gè)數據中心得到更新。

  這就是之前著(zhù)名的GoogleDance。不過(guò),在BigDaddy更新后,數據中心間的同步不再像那樣集中在特定的時(shí)間段,而是以一種連續的、時(shí)效性更強的方式進(jìn)行。

相關(guān)文章:

  • 搜狗網(wǎng)站收錄提交入口 一個(gè)網(wǎng)站只需提交一次。 您只需要提交網(wǎng)站的首頁(yè)地址,無(wú)需提交詳細的內容頁(yè)面。 符合相關(guān)標準的網(wǎng)站,會(huì )在您提交的一周內按照搜狗搜索引擎的收錄標準被處理。...

  • 這個(gè)問(wèn)題估計很多SEOer在網(wǎng)站優(yōu)化過(guò)程中都會(huì )遇到過(guò),就是網(wǎng)站的內容拿網(wǎng)址去搜索是已經(jīng)收錄了,但是如果拿文章的題目去搜索的話(huà),卻完全找不到自己的網(wǎng)站了,只出來(lái)一大堆相似的結果,...

  • SEO之路上難免會(huì )碰到一些奇葩的事情,比如網(wǎng)站改版了還收錄舊的URL地址、測試網(wǎng)址無(wú)緣無(wú)故就被收錄了導致正式網(wǎng)址不被收錄、換了IP結果導致百度收錄不更新了等等,大多數的時(shí)候大家都把...

  • 一、 概述與分析; 二、 網(wǎng)站建設前期的準備 三、 網(wǎng)站建設中的設置 四、 網(wǎng)站完成后的操作 五、 提升排名的幾點(diǎn)因素與影響排名的幾個(gè)因素 一、 概述與分析 如何讓百度快速的收錄網(wǎng)站?...

  • 百度對站點(diǎn)的收錄不理想,導致站內搜索結果數太少? 收錄不及時(shí),導致最新的頁(yè)面搜不到? 您可以在結果頁(yè)管理的提升收錄效果功能中提交數據,從而提升您的站內搜索收錄時(shí)效性和覆蓋率...

  • 做SEO的同學(xué)一定都希望自己的站點(diǎn)能夠被快速收錄,能夠獲得良好的排名。于是,在工作中就針對各大搜索引擎展開(kāi)攻擊,對于一個(gè)新站來(lái)說(shuō),這樣做顯 然是不理智的。我們只有摸清各大搜索...

  • 關(guān)于SEO優(yōu)化的問(wèn)答很多,今天我想再跟大家說(shuō)說(shuō)關(guān)于偽原創(chuàng )的話(huà)題,偽原創(chuàng )是做站的人最喜歡的更新網(wǎng)站的方式,可是有些人的偽原創(chuàng )被搜索引擎大大喜歡,而有的卻一篇不收,為什么區別如...

  • 1、網(wǎng)頁(yè)使用框架 框架內的內容通常不在搜索引擎抓取的范圍之內。 2、圖片太多,文本太少。 3、提交頁(yè)面轉向另一網(wǎng)站 搜索引擎可能完全跳過(guò)這個(gè)頁(yè)面。西安科技風(fēng)格網(wǎng)站建設,公司網(wǎng)頁(yè)制作...

  • 站內搜索工具升級了!為站長(cháng)又開(kāi)辟了一條收錄綠色通道。站長(cháng)安裝站內搜索工具后,可以在工具后臺提交種子頁(yè)面,Baiduspider將從這個(gè)頁(yè)面出發(fā),沿著(zhù)該頁(yè)面發(fā)出的所有超鏈接進(jìn)行抓取,且層...

  • 新站為什么會(huì )收錄不穩定?經(jīng)常聽(tīng)到一些站長(cháng)朋友討論自己的網(wǎng)站收錄每天都會(huì )減少一些,甚至是昨天收錄的,今天基本上都被百度刪除了,其實(shí)博客也正處于這個(gè)時(shí)期,為什么呢,采集是其...

  • 公司:西安蟠龍網(wǎng)絡(luò )科技有限公司
  • 聯(lián)系人:張經(jīng)理
  • 手機/微信:
  • Q Q: 點(diǎn)擊這里給我發(fā)消息
  • 地址:西安市雁塔區唐延南路11號逸翠園i都會(huì )
午夜免费福利,国产精品福利小视频,国偷自产一区二区免费视频,免费人成视频在线观看视频,久久大胆视频