数据采集
0
采集的网站域名:www.dianping.com
采集内容:餐饮美食企业信息,包含地图坐标纬度与经度
餐饮行业企业信息数据条数:295613条,文件格式:sql、Access。
联系采集QQ:185154979
大众点评(dianping)美食餐饮企业信息采集(包含地图坐标)
© kekehu / 数据采集 / 2010.05.05 / 09:27 / 898PV
采集的网站名:大众点评网采集的网站域名:www.dianping.com
采集内容:餐饮美食企业信息,包含地图坐标纬度与经度
餐饮行业企业信息数据条数:295613条,文件格式:sql、Access。
联系采集QQ:185154979
0
采集的网站域名:http://www.hqew.com/
采集内容:IC/二三级管电子元器件信息企业信息
企业信息数据条数: 38685861条,
Read more...
完成华强电子网的IC/二三级管电子元器件信息与企业信息采集
© kekehu / 数据采集 / 2010.04.27 / 14:08 / 832PV
采集的网站名:华强电子网 - 中国领先的电子元器件商务平台采集的网站域名:http://www.hqew.com/
采集内容:IC/二三级管电子元器件信息企业信息
企业信息数据条数: 38685861条,
Read more...
0
采集的网站域名:http://www.souml.com/
企业信息数据条数: 10927740条,文件格式:sql、Access。
数据存储格式查看:点击查看>>
联系采集QQ:185154979
完成搜名录1000多万家企业名录信息数据采集
© kekehu / 数据采集 / 2010.04.22 / 10:45 / 890PV
采集的网站名:搜名录采集的网站域名:http://www.souml.com/
企业信息数据条数: 10927740条,文件格式:sql、Access。
数据存储格式查看:点击查看>>
联系采集QQ:185154979
0
采集的网站域名:http://www.fantong.com/
餐饮企业信息数据条数:185,061 数据大小:52.0 MB,文件格式:sql、Access。
难点:电话是图片要识别成数字。
联系采集QQ:185154979
完成饭统网餐饮企业信息数据的采集
© kekehu / 数据采集 / 2010.04.16 / 12:00 / 616PV
采集的网站名:饭统网采集的网站域名:http://www.fantong.com/
餐饮企业信息数据条数:185,061 数据大小:52.0 MB,文件格式:sql、Access。
难点:电话是图片要识别成数字。
联系采集QQ:185154979
0
采集的网站域名:http://www.09635.com/company.aspx
企业信息数据条数:1110325 数据大小:339.4MB,文件格式:sql、Access。
供求信息数据条数:74333 数据大小:173.9MB,文件格式:sql、Access。
联系采集QQ:185154979
完成零距离商务网企业信息与供求信息的采集
© kekehu / 数据采集 / 2010.02.22 / 14:00 / 853PV
采集的网站名:零距离商务网采集的网站域名:http://www.09635.com/company.aspx
企业信息数据条数:1110325 数据大小:339.4MB,文件格式:sql、Access。
供求信息数据条数:74333 数据大小:173.9MB,文件格式:sql、Access。
联系采集QQ:185154979
0
1.使用Snoopy或curl传搜索引擎爬虫的USERAGENT值。
查看搜索引擎爬虫的USERAGENT值:http://www.geekso.com/spdier-useragent/
2.使用Snoopy或curl传referer值。
如:$snoopy->referer = 'http://www.google.com';
$header[] = "Referer: http://www.google.com/";
Read more...
采集时被封ip的解决方法
© kekehu / 数据采集 / 2010.01.14 / 18:08 / 1515PV
最近各种网站的采集程序写的比较多,遇到在采某网站时采到100多条时突然发现对方的网站打不开了,猜到肯定被封ip了,用了代理还是会封,这不是办法。在网上找了一些资料都没有找到,功夫不负有心人啊,在找的时侯有一个人提到了用搜索引擎爬虫蜘蛛的USERAGENT。虽然只提到一点点我还是想到了,列出我的解决方法,1.使用Snoopy或curl传搜索引擎爬虫的USERAGENT值。
查看搜索引擎爬虫的USERAGENT值:http://www.geekso.com/spdier-useragent/
2.使用Snoopy或curl传referer值。
如:$snoopy->referer = 'http://www.google.com';
$header[] = "Referer: http://www.google.com/";
Read more...
3
分析:1.顺丰快递查询快递配送状态要求输验证码,所以要实现验证码识别。
2.获得到的cookie与验证码只要没有关闭浏览器都能用,所以只要第一次查询时得到。
实现:我把我做的地址发布出来,便于大家查询顺丰快递邮件快递状态。
最全的邮件快递查询网站:http://kd.geekso.com
收费采集联系QQ:185154979
实现顺丰快递无需验证码提交查询快递状态
© kekehu / 数据采集 / 2010.01.11 / 17:22 / 1259PV
要求:用户要求把顺丰快递的数据采集过来,在本站上显示。分析:1.顺丰快递查询快递配送状态要求输验证码,所以要实现验证码识别。
2.获得到的cookie与验证码只要没有关闭浏览器都能用,所以只要第一次查询时得到。
实现:我把我做的地址发布出来,便于大家查询顺丰快递邮件快递状态。
最全的邮件快递查询网站:http://kd.geekso.com
收费采集联系QQ:185154979
6
ems邮件快递跟踪数据查询地址:http://www.geekso.com/ems.php
更新:2010-1-18:增加批量查询功能。
最全的邮件快递查询网站:http://kd.geekso.com
ems邮件快递跟踪数据查询
© kekehu / 数据采集 / 2010.01.10 / 15:05 / 1617PV
用户要求把ems的数据采集过来,在本站上显示。我看了一下ems的验证码肯定破解不了,所以只能做到数据采集过来显示。难点是要解决多人查询时验证码图片与cookie文件不被覆盖的问题。我把我做的地址发布出来,便于大家查询ems邮件快递状态。ems邮件快递跟踪数据查询地址:http://www.geekso.com/ems.php
更新:2010-1-18:增加批量查询功能。
最全的邮件快递查询网站:http://kd.geekso.com
0
在网上没找到php cli方式的下载百度mp3的脚本,很奇怪,php挺流行就是cli方式却很少,安全问题,效率问题?个人还是挺喜欢这种方式的。比如批量的图片缩放,合并,用 ImageMagick 比 GD 效率好多了,而且功能也多,但需要安装插件,太麻烦,直接用system调用ImageMagick,方便又灵活,perl ,python 都是这样做的,为什么php不行。
难点:
1、对html页面进行正则分析,获取歌名、歌手、mp3地址。参考preg_match_all。
2、百度mp3地址用js加密了,把它解出来。
原理在shell 方式有详细说明,不再罗嗦,简单说2句:
Read more...
php实现百度音乐采集下载
© kekehu / 数据采集 / 2009.12.20 / 10:30 / 1118PV
简介:支持 歌名+歌手 此方式下载,所以支持百度mp3(新歌TOP100、歌曲TOP500、经典老歌、热门对唱、相声小品荟萃、摇滚歌曲榜)下载。在网上没找到php cli方式的下载百度mp3的脚本,很奇怪,php挺流行就是cli方式却很少,安全问题,效率问题?个人还是挺喜欢这种方式的。比如批量的图片缩放,合并,用 ImageMagick 比 GD 效率好多了,而且功能也多,但需要安装插件,太麻烦,直接用system调用ImageMagick,方便又灵活,perl ,python 都是这样做的,为什么php不行。
难点:
1、对html页面进行正则分析,获取歌名、歌手、mp3地址。参考preg_match_all。
2、百度mp3地址用js加密了,把它解出来。
原理在shell 方式有详细说明,不再罗嗦,简单说2句:
Read more...
0
从网上找了一下要想mysql直接转成SQLserver的,
得装mysql odbc driver,同时还得装SQLserver,
这种方法我直接不考虑了。
最后我想到方法是:mysql导出Access在导出SQLserver
1.mysql导入Access文章地址:http://www.geekso.com/mysqltoaccess/
2.Access导入SQLserver文章地址:http://www.geekso.com/Access-to-SQLserver/
mysql数据导出SQLserver格式的数据总结
© kekehu / 数据采集 / 2009.12.18 / 15:47 / 1308PV
我用php写的采集程序入库的数据都是mysql,用户可能要求给他的数据是Access或SQLserver,这时侯就涉及到数据转换的过程,从网上找了一下要想mysql直接转成SQLserver的,
得装mysql odbc driver,同时还得装SQLserver,
这种方法我直接不考虑了。
最后我想到方法是:mysql导出Access在导出SQLserver
1.mysql导入Access文章地址:http://www.geekso.com/mysqltoaccess/
2.Access导入SQLserver文章地址:http://www.geekso.com/Access-to-SQLserver/


