找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 86|回复: 7

大佬们,htaccess屏蔽爬虫,姿势怎么摆啊

[复制链接]

63

主题

669

回帖

1569

积分

金牌会员

积分
1569
发表于 2018-6-8 20:09:41 | 显示全部楼层 |阅读模式
小站被yandex直接爬挂了,写了robots,不过生效太慢,然后网上找了htaccess屏蔽代码,如下
RewriteCond %{HTTP_USER_AGENT} “Bingbot|MSNbot|Webdup|AcoonBot|AhrefsBot|Ezooms|EdisterBot|EC2LinkFinder|jikespider|Purebot|MJ12bot|WangIDSpider|WBSearchBot|Wotbox|xbfMozilla|Yottaa|YandexBot|Jorgee|SWEBot|spbot|TurnitinBot-Agent|mail.RU|curl|perl|Python|Wget|Xenu|ZmEu” [NC]
RewriteRule !(^robots\.txt$) http://en.wikipedia.org/wiki/Robots_exclusion_standard [R=403,L]

RewriteRule !(^robots\.txt$) http://en.wikipedia.org/wiki/Robots_exclusion_standard [R=403,L]   这段有点不理解,是只要这些爬虫就让他们访问 robots么,后面的网址是什么意思啊。懂的大佬指点下吧
回复

使用道具 举报

6

主题

116

回帖

280

积分

中级会员

积分
280
发表于 2018-6-8 20:27:11 | 显示全部楼层
robots不起作用的,封ip段,来一次封一次。
回复

使用道具 举报

63

主题

669

回帖

1569

积分

金牌会员

积分
1569
 楼主| 发表于 2018-6-8 20:32:08 | 显示全部楼层

yanghao54 发表于 2018-6-8 20:27

robots不起作用的,封ip段,来一次封一次。

没IP库...这个htaccess可以么
回复

使用道具 举报

6

主题

116

回帖

280

积分

中级会员

积分
280
发表于 2018-6-8 20:27:00 | 显示全部楼层
看日志呀,还要什么ip库,一个蜘蛛也就十几个ip段。
回复

使用道具 举报

63

主题

669

回帖

1569

积分

金牌会员

积分
1569
 楼主| 发表于 2018-6-8 20:34:14 | 显示全部楼层

yanghao54 发表于 2018-6-8 20:34

看日志呀,还要什么ip库,一个蜘蛛也就十几个ip段。

直接屏蔽所有垃圾爬虫不是最省事么
回复

使用道具 举报

222

主题

1436

回帖

3584

积分

论坛元老

积分
3584
发表于 2018-6-8 20:43:21 | 显示全部楼层
yandex我是直接导向百度的
回复

使用道具 举报

63

主题

669

回帖

1569

积分

金牌会员

积分
1569
 楼主| 发表于 2018-6-8 20:34:00 | 显示全部楼层

Abbey 发表于 2018-6-8 20:56

yandex我是直接导向百度的

大佬怎么弄的啊  我被搞的死去活来

回复

使用道具 举报

1

主题

41

回帖

97

积分

注册会员

积分
97
发表于 2018-6-8 20:56:26 | 显示全部楼层
封ip是最简单的办法  现在免费的东西越来越少
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|Discuz! X

GMT+8, 2025-5-9 00:54 , Processed in 0.020477 second(s), 3 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表