什么是搜索引擎蜘蛛?

  • 2,124 views
  • 阅读模式

什么是搜索引擎蜘蛛?它的概念含义是什么?它有哪些分类?抓取策略是什么?

什么是搜索引擎蜘蛛

什么是搜索引擎蜘蛛

搜索引擎蜘蛛的概念:

搜索引擎蜘蛛英文名字叫Spider,它并不是真正意义上的蜘蛛,它只是搜索引擎指派出的一个有调度机制的抓取程序,用于抓取互联网中的网页,根据搜索引擎的不同,spider也会有不同的分类,但是大部分的spider都是解决相同的问题,有着相同的工作原理。

搜索引擎蜘蛛Spider的分类 :

1、批量型spider,此类型的spider具有明确的抓取范围和目标,抓取时间、抓取数量限制,或抓取固定范围页面的限制,当spider的工作达到预先设置的目标就会停止,我们一般自己用工具或程序采集的工具,所派出的spider一般就属于批量型的spider,只抓取固定网站的固定内容,或者对某一资源设置固定的目标抓取数量限制。

2、垂直型搜索引擎蜘蛛spider,垂直spider也可以称为聚焦爬虫,只对特定主题、特定内容或特定行业的网页进行抓取,一般都会聚焦在某一个限制范围内进行增量的抓取,此类型的spider不像增量型spider一样追求大而广的覆盖面,而是在增量型spider上增加一个抓取网页的限制,根据需求抓取含有目标内容的网页。

3、增量型搜索引擎蜘蛛spider是一种比较通用的爬虫,这类爬虫的目标和批量型spider的目标不同,它们不需要尽可能的抓取更多的网页,增量型spider主要工作是对已经抓取到的页面进行再次的抓取和更新,因为互联网中的网页是不断变化的,网页上的内容可能会随着时间发生随时发生改变,增量型spider就负责抓取不断被更改更新的网页,抓取后并返回给搜索引擎的预处理系统进行处理,重新计算该页面的权值。

搜索引擎蜘蛛Spider抓取网页的策略

搜索引擎把蜘蛛分为这么多的类型,每个类型的spider都有它们各自的作用,如何协调这些spider进行协同工作,就需要搜索引擎有强大的spider抓取策略,因为互联网中的网页是无穷无尽的,每天都会产生数以百万的网页,优秀搜索引擎的抓取策略也决定了它是否能为用户提供高效的查询服务。

1、搜索引擎会把网页进行分类抓取,分为已抓取页面、待抓取页面、可抓取页面、暗网页面、这些页面是搜索引擎抓取网页和存储的基本方式。

2、搜索引擎在面对不同类型网站的时候,会使用不同的抓取策略机制,常见的深度优先策略、广度优先策略,这些策略的实施和抓取都是通过搜索引擎的调度机制来控制的。

3、深度优先即沿着当前网页被优先发现的链接一直顺着抓取下去,直到该链接页面没有其它页面的链接,spider才会再次返回来抓取原来第一批发现页面上的另外一个链接,依次这样抓取循环下去。

4、广度优先的策略一般在新站上的体现比较明显,搜索引擎蜘蛛在一个页面上发现多个链接时,会先把该页面抓取一遍,然后再抓从这些页面上提取下来的链接,把链接放入到待抓取URL列表,在返回抓取原页面上的其它链接页面,重复上述步骤先抓取当前页面的全部链接,放入到待抓取URL列表,依次这样持续循环抓取下去。

国内各大搜索引擎蜘蛛名称:

1、百度:百度spider
2、谷歌:googlebot
3、搜狗:sogou spider
4、搜搜:Sosospider
5、360搜索:360Spider
6、有道:YodaoBot
7、雅虎:Yahoo Slurp
8、必应:msnbot
9、Msn:msnbot
以上是常见的搜索引擎蜘蛛(爬虫),如果你的网站不想让让某些蜘蛛抓取,那么可以通过robots.txt来限制爬虫的抓取。

weinxin
虎纠自媒体官方微信
这是我的微信扫一扫
f9seo
  • 本文由 发表于 2016年5月9日08:27:07
  • 转载请务必保留本文链接:https://www.f9seo.com/post-80.html
评论:3   其中:访客  3   博主  0
    • f9seo
      f9seo

      spider对一个网站服务器造成的访问压力如何?
      uspider会自动根据服务器的负载能力调节访问密度。在连续访问一段时间后,、spider会暂停一会,以防止增大服务器的访问压力。所以在一般情下,对您网站的服务器不会造成过大压力。

      • f9seo
        f9seo

        Baiduspider抓取造成的带宽堵塞?
        Baiduspider的正常抓取并不会造成您网站的带宽堵塞,造成此现象可能是由于有人冒充baidu的spider恶意抓取。如果您发现有名为Baiduspider的agent抓取并且造成带宽堵塞,请尽快和我们联系。您可以将信息反馈至百度网页投诉中心,如果能够提供您网站该时段的访问日志将更加有利于我们的分析。

        • f9seo
          f9seo

          搜索引擎“蜘蛛”是指什么?常见的搜索引擎蜘蛛名称有哪些?

        匿名

        发表评论

        匿名网友 填写信息

        :?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

        确定