日韩一区电影_欧美一区成人_日日爽天天_国产精品伦一区二区三级视频_www.97国产_黄色av电影在线观看_91av免费观看

首頁 >> 新聞資訊 >> 三貓觀點

蜘蛛抓取網(wǎng)站有哪些收錄機制?

來源:鄭州網(wǎng)站建設(shè) | 時間:2019-05-26 14:46:16 | 瀏覽: 4975

Spider系統(tǒng)的目標就是發(fā)現(xiàn)并抓取互聯(lián)網(wǎng)中一切有價值的網(wǎng)頁,百度官方也明確表示蜘蛛只可以抓取到盡可能多的有價值資源并保持系統(tǒng)及實際環(huán)境中頁面的一致性同時不給網(wǎng)站體驗造成壓力,也就是說蜘蛛不會抓取所有網(wǎng)站的所有頁面,對此蜘蛛有很多的抓取策略來盡量快而全的發(fā)現(xiàn)資源鏈接,提高抓取效率。只有這樣蜘蛛才能盡量滿足絕大部分網(wǎng)站,這也是為什么我們要做好網(wǎng)站的鏈接結(jié)構(gòu),接下來筆者就只針對一種蜘蛛對翻頁式網(wǎng)頁的抓住機制來發(fā)表一點看法。

為什么需要這個抓取機制?

當前大多數(shù)網(wǎng)站都用翻頁的形式來有序分布網(wǎng)站資源,當有新文章增加時,老資源往后推移到翻頁系列中。對蜘蛛來說,這種特定類型的索引頁是爬行的有效渠道,但是蜘蛛爬行頻率和網(wǎng)站文章更新頻率不盡相同,文章鏈接很有可能就被推到翻頁條中,這樣蜘蛛不可能每天從第1個翻頁條爬到第80個,然后一個文章一個文章的抓取,到數(shù)據(jù)庫對比,這樣太浪費蜘蛛時間,也浪費你網(wǎng)站的收錄時間,所以蜘蛛需要對這種特殊類型的翻頁式網(wǎng)頁來一個額外的抓取機制,從而保證收錄資源的完全。

如何判斷是否是有序翻頁式頁面?  

判斷文章是否按發(fā)布時間有序排布是這類頁面的一個必要條件,下面會說到。那么如何判斷資源是否按發(fā)布時間有序排布呢?有些頁面中每個文章鏈接后面跟隨著對應的發(fā)布時間,通過文章鏈接對應的時間集合,判斷時間集合是否按大到小或小到大排序,如果是的話,則說明網(wǎng)頁中的資源是按發(fā)布時間有序排布,反之亦然。就算沒寫發(fā)布時間,蜘蛛寫可以根據(jù)文章本身的實際發(fā)布時間進行判斷。

該抓取機制原理?

針對這種翻頁式頁面,蜘蛛主要是通過記錄每次抓取網(wǎng)頁發(fā)現(xiàn)的文章鏈接,然后將此次發(fā)現(xiàn)的文章鏈接與歷史上發(fā)現(xiàn)的鏈接作比較,如果有交集,說明該次抓取發(fā)現(xiàn)了所有的新增文章,可以停止對后面翻頁條的抓取了;否則,說明該次抓取并未發(fā)現(xiàn)所有的新增文章,需要繼續(xù)抓取下一頁甚至下幾頁來發(fā)現(xiàn)所有的新增文章。
當前百度蜘蛛對網(wǎng)頁的類型,網(wǎng)頁中翻頁條的位置,翻頁條對應的鏈接,以及列表是否按照時間排序都會做相應的判斷,并根據(jù)實際的情況進行處理,但是蜘蛛畢竟不能做到100%的識別準確率,所以如果站長在做翻頁條時不要用JS,更不要用FALSH,同時要有頻率的進行文章更新,配合蜘蛛的抓取,這樣就可以極大地提高蜘蛛識別的準確率,從而提高蜘蛛在你網(wǎng)站的抓取效率。
在這里提醒大家本文只是從蜘蛛一個抓取機制進行的解說,不代表蜘蛛就此一種抓取機制,在實際情況中是很多機制同時進行的。

TAG:
在線咨詢
QQ咨詢
服務(wù)熱線
服務(wù)熱線:15903608907
TOP
點擊撥打電話
主站蜘蛛池模板: 日本一区二区三区不卡视频中文字幕 | 久久操网站| 玖玖色 | 青青草视频国产 | 久久99国产亚洲精品 | 韩国免费一级片 | 久久久久久夜精品精品免费啦 | 午夜成私人影院在线观看 | 国产全黄三级国产全黄三级书 | 精品卡一卡2卡3卡4卡在线 | 国产成人一区二区三区精品久久 | 欧美性视频一区二区三区 | 国产在线高清一级毛片 | 国产精品资源站 | 欧美高清一区二区三区 | 日本a视频在线 | 国产欧美在线观看不卡一 | 国产一级一片免费播放刺激 | 天天视频色版 | 日本午夜大片 | 亚洲黄网视频 | 欧美特黄a级高清免费看片 欧美特黄高清免费观看的 欧美特黄三级成人 | 黄色小说网站免费 | 精品阁| 国产精品123| 久久久久久免费精品视频 | 成人字幕网视频在线观看 | 日本大片久久久高清免费看 | 中文字幕亚洲视频 | 日本免费网站视频 | jizz曰本| 天天干夜啪 | 国内精品不卡一区二区三区 | 欧美色精品天天在线观看视频 | 天天爽天天干 | 欧美性生活一级 | 六月婷婷在线 | 亚洲女人天堂a在线播放 | 欧美影院网站视频观看 | 日本三级三级三级免费看 | 午色|