当前位置:380元网站建设 虎网站 > 网站维护 > 正文

搜索引擎抓取策略类型

发布日期:2019-05-08
其实Baidu spider在抓取过程中面对的是一个超级复杂的网络环境.为了使系统可以抓取到尽可能多的有价值的资源,并保持系统及实际环境中页面的一致性,同时不给网站体验造成压力,须设计多种复杂的抓取策略。

搜索引擎抓取策略类型

下面作一简单介绍:
 
(1)抓取友好性
  互联网资源庞大的数量级,要求抓取系统尽可能地高效利用带宽,在有限的硬件和带宽资源下尽可能多地抓取到有价值的资源。这就造成另一个问题:耗费被抓网站的带宽造成访问压力,如果程度过大,将直接影响被抓网站的正常用户访问行为。因此,在抓取过程中就要进行一定的抓取压力控制,达到既不影响网站的正常用户访问又能尽量多地抓取到有价值资源的目的。
  通常,更基本的是基于IP的压力控制。因为如果基于域名,可能存在一个域名对多个IP(很多大网站)或多个域名对应同一个IP(小网站共享IP)的问题。实际中往往根据P及域名的多种条件进行压力调配控制。同时,站长平台也推出了压力反馈工具,站长可以人工调配对自己网站的抓取压力,这时!百度spider将优先按照站长的要求进行抓取压力控制。
对同一站点的抓取速度控制一般分为两类:
其一,一段时间内的抓取频率;
其二,段时间内的抓取流量。
同一站点不同的时间抓取速度也不同。例如,夜晚抓取的可能就会快一些,也视具体站点类型而定,主要思想是错开正常用户访问高峰,不断调整。对于不同站点,也需要不同的抓取速度。
 
(2)常用抓取返回码示意
  下面简单介绍几种百度支持的返回码。
更常见的404代表“NOT FOUND”,认为网页已经失效,通常将在库中删除,同时短期内如果spider再次发现这条URL.也不会抓取。
②503代表“Service unavailabl ,认为网页临时不可访问,通常网站临时关闭,带宽有限等会产生这种情况。对于网页返回503百度spider不会把这条url直接删除,同时短期内将会反复访问几次,如果网页已恢复,则正常抓取;如果继续503状态码,那么这条URL仍会被认为是失效链接,从库中删除。
③403代表Forbidden,认为网页目前禁止访问。如果是新URL, spider暂时不抓取,短期内同样会反复访问几次;如果是已收录UHL,不会直接删除,短期内同样反复访认为是失效链接,从库中删除。问几次。如果网页正常访问,则正常抓取;如果仍然禁止访问,那么这条URL也会被。
④301代表“Moved”认为网页重定向至新URL当遇到站点迁移 域名更换、站点改版的情况时,推荐使用301返回码,同田时使用站长平台网站改版工具,以减少改版对网站流量造成的损失。
 
(3)多种URL重定向的识别
  互联网中的一部分网页因为各种各样的原因存在URL重定向状态,为了对这部分资源正常抓取,要求 spider对URL重定向进行识别判断,同时防止作弊行为。重定向可分为三类:htp30x重定向、 meta refresh重定向和js重定向。另外,百度也支持Canonical标签,在效果上也可以认为是一种间接的重定向。
 
(4)抓取优先级调配
  由于互联网资源规模巨大以及变化迅速,对于搜索引擎来说,全部抓取到并合理地更新,保持一致性几乎是不可能的事情,因此要求抓取系统设计一套合理的抓取优先级调配策略,主要包括深度优先遍历策略、宽度优先遍历策略、pr优先策略、反链策略、社会化分享指导策略等。每个策略各有优劣,在实际情况中往往是多种策略结合使用,以达到更优的抓取效果。
 
(5)重复URL的过滤
  spider在抓取过程中需要判断一个页面是否已经抓取过了,如果还没有抓取,再进行抓取网页的行为,并放在已抓取网址集合中。判断是否已经抓取其中涉及更核心的是快速查找并对比,同时于涉及URL归一化识别。例如,一个URL中包含大量无效参数,而实际是同一个页面,这将视为同一个URL来对待。
 
(6)暗网数据的获取
  互联网中存在着大量的搜索引擎暂时无法抓取到的数据,被称为暗网数据。一方面,很多网站的大量数据存在于网络数据库中,spider难以采用抓取网页的方式获得完整内容;另一方面,由于网络环境、网站本身不符合规范、孤岛等问题,也会造成搜索引擎无法抓取。目前,对于暗网数据的获取,主要思路仍然是通过开放平台采用数据提交的方式来解决,如“百度站长平台”“百度开放平台”等。
 
(7)抓取反作弊
  spider在抓取过程中往往会遇到所谓抓取黑洞,或者面临大量低质量页面的因扰这就要求抓取系统中同样需要设计一套完善的抓取反作弊系统。例如,分析URL特征分析页面大小及内容、分析站点规模对应抓取规模等。Spider抓取系统是搜索引擎数据来源的重要保证,这对于网站制作、网站建设、网站设计者来说就是机遇和突破口,具体的做法就千差万别了。

马尔代夫发展旅游优势条件?马尔代夫经济结构特征?

    马尔代夫经济结构特征? 马尔代夫印度洋上的群岛国家。以旅游业、船运业为马尔代夫的经济支柱。经济结构单一、资源贫乏、严重依赖进口,经济基础较为薄弱。 马尔代夫5月为什么是淡季? 5月是马尔代夫的淡季主要是因为这个月属于马尔代夫的雨季。虽然整年都有降雨,但5月通常是马尔代夫降雨最多的一个月之一。此外,5月也是欧洲和北美等地放假旅游旺季结束的时候,许多人已经完成了他们的旅游计划而不会再去度假。因此,在5...

       深圳福田创锐包装印刷和虎网科技签订做网站项目 创锐选用虎网站网络实用型网站案例,此案例比经济型多了些功能,如动漫广告图片、在线客服QQ/MSN等聊天工具、顶部侧部二级分类导航、走马灯等功能。创锐位于深圳市福田区八卦岭工业区512栋。创锐是经深圳市福田区工商局审核的有资质公司,统一社会信用代码:91440300MA5DBQATX2。同时经国家工信部和广东省通信管理局审核通过ICP备案;备案号:粤ICP备18068778号。   公司拥有全新海德...

       浅谈个人建站推广心得 从2009年4月18日起,我新建的网站宁波厂房租售网www.nbcfzs.cn上线差不多有两个月了,网站PR值从0到1,在百度搜索“宁波厂房租售网”也排到了第一位,百度相关搜索也有了“宁波厂房租售网”关键字推荐,网站推广迈出了第一步。我的另一个新建网站宁波店面网www.nbdmw.com也于2009年6月9日上线,现在日IP也能有50~60。 在网站推广过程中,坚持不懈很重要,但是好的推广方法更...

       网站一直没排名怎么办? 当网站没有排名时,不要担心,不要惊慌。冷静地思考,问题在哪里?哪一步做得不好,要多分析和思考,找出问题,解决问题,从而做好工作。今天无锡seo给大家分享的是:网站一直没排名的解决方法      1.我们必须有正确的态度。如果这种情况发生在我们身上,我们应该好好看看我们的网站上是否有任何东西。我们不能使用太多的优化,如太多的网站建设。关键词,转到网站,扰乱那些不可靠的外部链接,盲目地添加锚文本到主页...

       搜索引擎的站外优化方式有哪些? 当有客户来找我们做搜索引擎优化的时候,按照一般来说客户都是有一定的基础的,所谓的基础就是有网站的,需要我们在这上面做一定的排名优化或者说是其他方面的优化。如果是没有网站的我们还需要再搭建网站,如果有的话,我们则需要为他在网站的页面先进行优化,当这些都有了之后。我们就需要为网站添加一些高质量内容,当你有了好的内容,客户还是不能看见的话,那说明还是没有达到效果,我们做这些的目的就是为了让用户看见,然后...

       宝安勤予电路板和虎网科技签订网站建设合同 勤予是经深圳市宝安区工商局审核的正规企业,统一社会信用代码:440306117668957。同时经国家工信部和广东省通信管理局审核通过ICP备案;备案号:粤ICP备18142440号。勤予选用虎网站网络实用型网站案例,此案例比经济型多了些功能,如动漫广告图片、在线客服QQ/MSN等聊天工具、顶部侧部二级分类导航、走马灯等功能。勤予位于深圳市宝安区福永街道办凤塘大道合盛工业区D1栋。   公司拥有专...

最新模板
少儿英语培训机构网站建设 培训公司网站建设
成人自考网站建设 成人培训网站制作设计版面
智能家居摆设设计网站建设 智能家居装修企业网站建设
铜螺母,铜螺丝,螺栓,螺钉工厂网站建设
废气处理设备,如活性炭吸附箱、RTO蓄热式氧化处理设备、光氧等离子复合设备 低温等离子设备 光氧催化设备等网企业网站建设
图文阅读