爬虫系统介绍之 Indy Library
| {$MY_文章通用_Ding} |
不幸的是,这个程序库被强制破解(hi-jacked)并被滥用于一些中国的spam bots中。近期所见使用“Indy Library”字串作为User Agent信息的访问,大多是这些中国“原创作品”。
是开源项目Indy的一部分,是关于网络操作的一个程序库。
爬虫信息
- 爬虫名称: Indy Library
- HTTP User Agent:
Mozilla/3.0 (compatible; Indy Library) </pre>
- 抓取强度: 不一定,很多服务器上较少出现,但也有部分服务器被大量访问
- 搜索引擎推广效果:无!
- 来访IP:无规律,很杂乱
-
对Indy Library爬虫进行控制
Indy Library只是一个程序库,很多使用它的用户并不遵循robots.txt抓取规范,可能抓取你服务器上声明禁止访问的内容!。如果此类爬虫对您的服务器造成困扰,您可以:
- 用服务器防火墙屏蔽相关访问
- 用.htaccess屏蔽相关访问
- 在程序中进行相关检测和屏蔽
- 用户信息中心
- 热门排行TOP10
-
- 1如何让百度重新收录的几种方法 (1694)
- 2谈谈我对baidu优化的看法 (1325)
- 3[转]我从百度来30万IP的经验 (1268)
- 4注意的几个构建链接“陷阱” (1245)
- 5关于百度“反垃圾网站”的若干问答 (1202)
- 6怎样做好百度优化 (1184)
- 7这样为域名破产 想要问你敢不敢 (1183)
- 8影响网站更新的一些因素 (1159)
- 9影响google更新网站的一些因素 (1139)
- 10[转]突破百度贴吧的验证码限制 (1129)
- 推荐排行TOP10
-
- 1国外站长学习参考网站 站长论坛大全 (757)
- 2分享一下我了解的一些Digg类网站 (682)
- 3没有网站也可以赚钱 (681)
- 4怎样去优化多个关键词? (667)
- 5怎么样做CPS广告才能赚钱? (644)
- 6专家透露—做好5点让你的Goole收入倍 (638)
- 7本站今天始资讯与论坛都启用快网CDN加 (601)
- 8QQ类网站迅速盈利的机会经验谈 (593)
- 9教你快速通过域名ICP备案!!个人亲身经 (581)
- 10Google Adsense如何屏蔽低价的广告 (561)
- 网站统计
-

