互联网56%的网页浏览量都由爬虫机器人贡献

2014-12-27 09:23:07 来源:好奇心日报 作者:王嘉俊 编辑:石头小君 浏览:loading

  网站安全和内容分发公司 Incapsula 发布了一个数据,56%的网页浏览量都由爬虫机器人贡献。

游民星空

  爬虫机器人因为功能和目的不同分为这几类:

  Search engine crawlers:搜索引擎爬虫,它们能够对网页建立索引,这样人们就可以在搜索框查找到对应网页的内容。百度和 Google 就使用这个爬虫整理全世界的信息。

  RSS bots:订阅类爬虫,能够从网站抓取内容聚合起来,鲜果、今日头条和网页新闻客户端就使用了这类爬虫。

  Scrapers:网页爬虫,一般是盗取内容、邮箱地址和逆向破解定价模型,它可以作用在电子商务网站。

  Impersonator:拟人伪装爬虫,它能够伪装成搜索引擎或者浏览器,以避免被网站发现。它能够搜集营销情报,发动 DDos 攻击,消耗带宽甚至使网站瘫痪。

  Hacking Tools:黑客工具,它能够盗取信息,植入流氓软件,破坏网页内容甚至劫持网站和服务器。

  Spammers:垃圾邮件发送工具,它可以骚扰普通访客,发布无关内容或者钓鱼链接。它还可以加载过量链接,让网站进入搜索引擎的黑名单而从互联网 “消失”。

  在 56 %的访问中,恶意爬虫机器人占比 29%,善意占比 27%。随着 RSS 爬虫的减少,善意爬虫的比例更小了。

游民星空

  大部分网站的爬虫访问比例在 63% 到 80% 之间,越小的网站爬虫访问的比例越高。搜索引擎爬虫是这一现象的主要原因,它对小网站和大网站几乎无差别对待,而平均每个网站一天要被谷歌的搜索引擎爬虫访问 187 次。

  拟人伪装爬虫增长很快,它是过去 3 年里唯一持续增长的爬虫。在上面提到的 Google 搜索引擎爬虫中,平均来说每 24 次访问就会有一个伪装爬虫来访。在这些伪装爬虫中,25.16% 来自美国,中国占比 15.61%,是第二大的来源国。

游民星空

  RSS 爬虫逐渐走向衰落。老一代 RSS 工具,例如 Google Reader、鲜果都已经走向死亡。

游民星空

  Incapsula 的数据来源于 20000 个每天至少有 10 个访问量的网站,它整理了过去 90 天的 150 亿次访问数据得出了这个结果。

  我们的所见所得,数据安全,带宽消耗和广告浏览都和爬虫机器人息息相关,它们重塑了我们工作和生活的方式。

人喜欢
游民星空APP
随时掌握游戏情报
code
休闲娱乐
综合热点资讯
单机游戏下载
好物推荐
游民星空联运游戏
互联网用户多数不是人https://imgs.gamersky.com/upimg/2014/201412252330247969.jpg