网站突然出现大量国外 Googlebot 爬取攻击,这些 googlebot 是真的谷歌爬虫吗?为什么访问速率这么高呢?
由于网站一般不会屏蔽谷歌爬虫(用户代理:Googlebot),所以会有很多爬虫模拟 Googlebot 的用户代理,假装自己是谷歌爬虫来达到攻击、爬取数据的目的。
要验证谷歌爬虫,可以通过 nslookup 命令反向查询来访IP 地址是否是 Googlebot 的 ,看看是不是解析到了 *.google.com 或者 *.googlebot.com 这两个域名上。
近日,新的研究表明,假冒谷歌爬虫已经成为第三大DDoS攻击工具,详情如下:
Incapsula研究人员在调查了搜索引擎在1万家网站上的4亿次搜索访问后,发现超过23%的假冒谷歌爬虫被用于DDoS攻击,10.8%被用于窃取数据的恶意软件、垃圾邮件和扫描器。
分析结果中的一些亮点对于很多对于SEO专业人士和网站运营者来说非常有趣:
谷歌的web爬虫比其竞争对手(如MSN/Bing、百度和Yandex bots)的要活跃深入得多。
被谷歌爬虫访问次数多的网站,其自然流量份额并不会随之增长,这意味着谷歌对网站并没有特殊关照。
平均每个网站每天会被谷歌爬虫访问187次,每次访问平均抓取深度是4页。内容密集型以及频繁更新的网站,例如论坛、新闻站点、大型电商网站被爬虫光顾的次数较多。
由于谷歌依然是全球第一搜索引擎,因此绝大多数网站运营者都不会屏蔽谷歌爬虫,但遗憾的是,这也导致假冒谷歌爬虫得以大行其道,发起DDoS攻击、剽窃内容、发送垃圾信息甚至入侵系统。
假冒的谷歌爬虫能以谷歌的身份获取网站信息,它们利用了谷歌爬虫的HTTP(S)用户代理——功能相当于一个访客的ID。根据Incapsula收集的数据,超过4%的使用用户代理的爬虫都不是真正的谷歌爬虫。
通过分析5000万个假冒谷歌爬虫会话数据,Incapsula发现高达34.3%的假冒爬虫都是恶意的,其中23.5%被用于7层DDoS攻击。
假冒谷歌爬虫发起的DDoS攻击让网站经营者非常难办:要么屏蔽所有谷歌爬虫,从搜索引擎中消失,要么购买更多带宽来防范DDoS。
假冒谷歌爬虫的访问通常来自僵尸网络,排名靠前的流量大国依次是美国(25.2%)、中国(15.6%),土耳其(14.7%),巴西(13.49%)和印度(8.4%),而正牌的谷歌爬虫则98%都来自美国。好消息是,人们如今可以通过一系列安全手段精确识别假冒谷歌爬虫,包括IP和ASN核对——一种通过来源地识别爬虫的技术流程,但遗憾的是,中小网站通常不掌握这些手段。
1.本站大部分内容均收集于网络!若内容若侵犯到您的权益,请发送邮件至:115904045@qq.com,我们将第一时间处理!
2.资源所需价格并非资源售卖价格,是收集、整理、编辑详情以及本站运营的适当补贴,并且本站不提供任何免费技术支持
3.所有资源仅限于参考和学习,版权归原作者所有,更多请阅读网站声明。