网站信息收费采集数据,联系QQ:185154979

完成零距离商务网企业信息与供求信息的采集 不指定

Feb 22 14:00 出处:本站原创
采集的网站名:零距离商务网

采集的网站域名:http://www.09635.com/company.aspx

企业信息数据条数:1110325 数据大小:339.4MB,文件格式:sql、Access。

供求信息数据条数:74333 数据大小:173.9MB,文件格式:sql、Access。

联系采集QQ:185154979

采集时被封ip的解决方法 不指定

Jan 14 18:08 出处:本站原创
最近各种网站的采集程序写的比较多,遇到在采某网站时采到100多条时突然发现对方的网站打不开了,猜到肯定被封ip了,用了代理还是会封,这不是办法。在网上找了一些资料都没有找到,功夫不负有心人啊,在找的时侯有一个人提到了用搜索引擎爬虫蜘蛛的USERAGENT。虽然只提到一点点我还是想到了,列出我的解决方法,

1.使用Snoopy或curl传搜索引擎爬虫的USERAGENT值。
  查看搜索引擎爬虫的USERAGENT值:http://www.geekso.com/spdier-useragent/

2.使用Snoopy或curl传referer值。
   如:$snoopy->referer = 'http://www.google.com';
         $header[] = "Referer: http://www.google.com/";

3.使用Snoopy或curl代理。
   如:$snoopy->proxy_host  = "59.108.44.41";
         $snoopy->proxy_port  = "3128";

4.使用Snoopy或curl防造IP。
   如:$snoopy->rawheaders['X_FORWARDED_FOR'] = '127.0.0.1';

实现顺丰快递无需验证码提交查询快递状态 不指定

Jan 11 17:22 出处:本站原创
要求:用户要求把顺丰快递的数据采集过来,在本站上显示。

分析:1.顺丰快递查询快递配送状态要求输验证码,所以要实现验证码识别。
         2.获得到的cookie与验证码只要没有关闭浏览器都能用,所以只要第一次查询时得到。

实现:我把我做的地址发布出来,便于大家查询顺丰快递邮件快递状态。

顺丰快递无需验证码提交查询快递状态地址:http://www.geekso.com/sf-express.php

ems邮件快递跟踪数据查询 不指定

Jan 10 15:05 出处:本站原创
用户要求把ems的数据采集过来,在本站上显示。我看了一下ems的验证码肯定破解不了,所以只能做到数据采集过来显示。难点是要解决多人查询时验证码图片与cookie文件不被覆盖的问题。我把我做的地址发布出来,便于大家查询ems邮件快递状态。

ems邮件快递跟踪数据查询地址:http://www.geekso.com/ems.php

更新:
    2010-1-18:增加批量查询功能。

最全的邮件快递查询网站:http://kd.geekso.com

php实现百度音乐采集下载 不指定

Dec 20 10:30 出处:本站原创
简介:
支持 歌名+歌手 此方式下载,所以支持百度mp3(新歌TOP100、歌曲TOP500、经典老歌、热门对唱、相声小品荟萃、摇滚歌曲榜)下载。

在网上没找到php cli方式的下载百度mp3的脚本,很奇怪,php挺流行就是cli方式却很少,安全问题,效率问题?个人还是挺喜欢这种方式的。比如批量的图片缩放,合并,用 ImageMagick 比 GD 效率好多了,而且功能也多,但需要安装插件,太麻烦,直接用system调用ImageMagick,方便又灵活,perl ,python 都是这样做的,为什么php不行。

难点:
1、对html页面进行正则分析,获取歌名、歌手、mp3地址。参考preg_match_all。
2、百度mp3地址用js加密了,把它解出来。
原理在shell 方式有详细说明,不再罗嗦,简单说2句:
取加密地址第一位,然后根据这个来生成 search。
取加密地址中:的位置来生成replace。
然后用str_replace(search, replace, encode)来解密,但 str_replace 函数不行,我用了另一种方法,见代码。

mysql数据导出SQLserver格式的数据总结 不指定

Dec 18 15:47 出处:本站原创
我用php写的采集程序入库的数据都是mysql,用户可能要求给他的数据是Access或SQLserver,这时侯就涉及到数据转换的过程,
从网上找了一下要想mysql直接转成SQLserver的,
得装mysql odbc driver,同时还得装SQLserver,
这种方法我直接不考虑了。

最后我想到方法是:mysql导出Access在导出SQLserver

1.mysql导入Access文章地址:http://www.geekso.com/mysqltoaccess/

2.Access导入SQLserver文章地址:http://www.geekso.com/Access-to-SQLserver/

完成中国电信黄页网站的采集 不指定

Oct 30 14:55 出处:本站原创
采集的网站名:中国电信黄页“本地搜”

采集的网站域名:http://www.locoso.com/html/hyfl.html

此站的难点在于:
电话号码放在图片当中的数字如何识别成数字,
如何采集到分类、城市放在各个信息记录当中。

数据文件格式sql、Access。

状态:已完成采集

数据条数:3722956

数据大小:1.1 GB

联系采集QQ:185154979

完成法规库的信息采集 不指定

Oct 26 17:18 出处:本站原创
网址:http://202.108.90.178/guoshui/main.jsp

数据大小203.0 MB,文件格式sql、Access。

网址:http://www.js-n-tax.gov.cn/

数据大小50.1 MB,文件格式sql、Access。

联系采集QQ:185154979


完成用友伟库网黄页信息的采集 不指定

Oct 26 17:07 出处:本站原创
采集的网站名:伟库网

采集的网站域名:http://kym.wecoo.com/wecoo/index.html

数据条数:10026147 数据大小:2.7 GB,文件格式:sql、Access,压缩后大小:460M。

联系采集QQ:185154979

采集某黄页网站上面信息时遇到电话号码是图片的解决思路 不指定

Oct 19 23:35 出处:本站原创
要破解的图片如下图所示(我只放出一张,那个网站这个图的背景会随机变化):
Highslide JS
我用到的知识点如下:
第一步有两种可能
第一种情况:要采集的网站怎么弄都采不到图片时,用以下两种方法得到图片
1.用PHP截取整个网页
2.用PHP截取图片的某个区域

第二种情况:要采集的网站可以采到图片时
用CURL或snoopy得到图片。

第二步:用php实现验证码的破解识别

第三步:入库从图片中读取识别出来的电话号码

破解演示地址:http://www.geekso.com/component/yanzhengma/

收费识别破解联系QQ:185154979

分页: 1/1 第一页 1 最后页 [ 显示模式: 摘要 | 列表 ]