本插件可以阻止指定的蜘蛛、爬虫程序抓取网站,降低服务器负载。
演示地址:
http://dz.25941.cn
搜索引擎爬虫对网站的负面影响:
(1)、网站有限的带宽资源,而爬虫的量过多,导致正常用户访问缓慢。
例如,原本虚拟主机主机的连接数受限,带宽资源也是有限。这种情况搜索引擎爬虫受影响呈现更明显。
(2)、搜索引擎爬虫过频密,抓取扫描很多无效页面。甚至抓页面抓到服务器报502、500 、504 等服务器内部错误了,蜘蛛爬虫还在不停使劲抓取。
(3)、robots.txt文件不是万能!
肯定有很多人认为,在robots.txt设置屏蔽搜索引擎爬虫即可,或者允许某些特定的搜索引擎爬虫,能达到你预想效果。不错正规的搜索引擎会遵守规则,且不会及时生效。实际中某些蜘蛛往往不是这样的,先扫描抓取你的页面,无视你的robots.txt。也可能它抓取后不一定留用;或者它只是统计信息,收集互联网行业趋势分析统计。
(4)、还有一种它们不是蜘蛛,但其有蜘蛛的特性。例如采集软件,采集程序,网络扫描e-mail地址的工具,各式各样的SEO分析统计工具,千奇百怪的网站漏洞扫描工具,等等,只有你想不到的工具,没有它做不到的...,对于这种蜘蛛,需要从网站访问日志中提取UA关键字,放到插件设置中。
常见蜘蛛:
Baiduspider
YodaoBot
YoudaoBot
Googlebot
Googlebot-Image
Mediapartners-Google
Sogou-Test-Spider
Twiceler
Yahoo! Slurp
Yahoo! Slurp China
Yahoo!-AdCrawler
Yahoo ContentMatch Crawler
Sosospider
CollapsarWEB qihoobot
NaverBot
sogou spider
sogou in spider
Sogou web spider
Sogou News Spider
Sogou Orion spider
Sogou head spider
SurveyBot
Yanga WorldSearch Bot v
baiduspider-mobile-gate
discobot
ia_archiver
msnbot
msnbot-media
360Spider
bingbot
YisouSpider
EasouSpider
JikeSpider
EtaoSpider
YandexBot
AhrefsBot
ezooms.bot