采集时被封ip的解决方法 不指定

Jan 14 18:08 出处:本站原创 | |
最近各种网站的采集程序写的比较多,遇到在采某网站时采到100多条时突然发现对方的网站打不开了,猜到肯定被封ip了,用了代理还是会封,这不是办法。在网上找了一些资料都没有找到,功夫不负有心人啊,在找的时侯有一个人提到了用搜索引擎爬虫蜘蛛的USERAGENT。虽然只提到一点点我还是想到了,列出我的解决方法,

1.使用Snoopy或curl传搜索引擎爬虫的USERAGENT值。
  查看搜索引擎爬虫的USERAGENT值:http://www.geekso.com/spdier-useragent/

2.使用Snoopy或curl传referer值。
   如:$snoopy->referer = 'http://www.google.com';
         $header[] = "Referer: http://www.google.com/";

3.使用Snoopy或curl代理。
   如:$snoopy->proxy_host  = "59.108.44.41";
         $snoopy->proxy_port  = "3128";

4.使用Snoopy或curl防造IP。
   如:$snoopy->rawheaders['X_FORWARDED_FOR'] = '127.0.0.1';

: 365Key网摘 和讯网摘 我摘网摘 天极网摘 新浪网摘 Del.icio.us(美味书签) QQ书签 Google书签
发表评论
表情
emotemotemotemotemotemotemotemotemotemot
emotemotemotemotemotemotemotemotemotemot
emotemotemotemotemot
打开HTML
打开UBB
打开表情
隐藏
记住我
昵称   密码 游客无需密码
网址   电邮   [注册]