数据采集

0

大众点评(dianping)美食餐饮企业信息采集(包含地图坐标)

© kekehu / 数据采集 / 2010.05.05 / 09:27 / 898PV

采集的网站名:大众点评网
采集的网站域名:www.dianping.com
采集内容:餐饮美食企业信息,包含地图坐标纬度与经度
餐饮行业企业信息数据条数:295613条,文件格式:sql、Access。
联系采集QQ:185154979
0

完成华强电子网的IC/二三级管电子元器件信息与企业信息采集

© kekehu / 数据采集 / 2010.04.27 / 14:08 / 832PV

采集的网站名:华强电子网 - 中国领先的电子元器件商务平台
采集的网站域名:http://www.hqew.com/
采集内容:IC/二三级管电子元器件信息企业信息
企业信息数据条数: 38685861条,
Read more...
0

完成搜名录1000多万家企业名录信息数据采集

© kekehu / 数据采集 / 2010.04.22 / 10:45 / 890PV

采集的网站名:搜名录

采集的网站域名:http://www.souml.com/

企业信息数据条数: 10927740条,文件格式:sql、Access。

数据存储格式查看:点击查看>>

联系采集QQ:185154979
0

完成饭统网餐饮企业信息数据的采集

© kekehu / 数据采集 / 2010.04.16 / 12:00 / 616PV

采集的网站名:饭统网

采集的网站域名:http://www.fantong.com/

餐饮企业信息数据条数:185,061  数据大小:52.0 MB,文件格式:sql、Access。

难点:电话是图片要识别成数字。

联系采集QQ:185154979
0

完成零距离商务网企业信息与供求信息的采集

© kekehu / 数据采集 / 2010.02.22 / 14:00 / 853PV

采集的网站名:零距离商务网

采集的网站域名:http://www.09635.com/company.aspx

企业信息数据条数:1110325 数据大小:339.4MB,文件格式:sql、Access。

供求信息数据条数:74333 数据大小:173.9MB,文件格式:sql、Access。

联系采集QQ:185154979
0

采集时被封ip的解决方法

© kekehu / 数据采集 / 2010.01.14 / 18:08 / 1515PV

最近各种网站的采集程序写的比较多,遇到在采某网站时采到100多条时突然发现对方的网站打不开了,猜到肯定被封ip了,用了代理还是会封,这不是办法。在网上找了一些资料都没有找到,功夫不负有心人啊,在找的时侯有一个人提到了用搜索引擎爬虫蜘蛛的USERAGENT。虽然只提到一点点我还是想到了,列出我的解决方法,

1.使用Snoopy或curl传搜索引擎爬虫的USERAGENT值。
  查看搜索引擎爬虫的USERAGENT值:http://www.geekso.com/spdier-useragent/

2.使用Snoopy或curl传referer值。
   如:$snoopy->referer = 'http://www.google.com';
         $header[] = "Referer: http://www.google.com/";
Read more...
3

实现顺丰快递无需验证码提交查询快递状态

© kekehu / 数据采集 / 2010.01.11 / 17:22 / 1259PV

要求:用户要求把顺丰快递的数据采集过来,在本站上显示。
分析:1.顺丰快递查询快递配送状态要求输验证码,所以要实现验证码识别。
         2.获得到的cookie与验证码只要没有关闭浏览器都能用,所以只要第一次查询时得到。

实现:我把我做的地址发布出来,便于大家查询顺丰快递邮件快递状态。
最全的邮件快递查询网站:http://kd.geekso.com
收费采集联系QQ:185154979
6

ems邮件快递跟踪数据查询

© kekehu / 数据采集 / 2010.01.10 / 15:05 / 1617PV

用户要求把ems的数据采集过来,在本站上显示。我看了一下ems的验证码肯定破解不了,所以只能做到数据采集过来显示。难点是要解决多人查询时验证码图片与cookie文件不被覆盖的问题。我把我做的地址发布出来,便于大家查询ems邮件快递状态。

ems邮件快递跟踪数据查询地址:http://www.geekso.com/ems.php

更新:2010-1-18:增加批量查询功能。
最全的邮件快递查询网站:http://kd.geekso.com
0

php实现百度音乐采集下载

© kekehu / 数据采集 / 2009.12.20 / 10:30 / 1118PV

简介:支持 歌名+歌手 此方式下载,所以支持百度mp3(新歌TOP100、歌曲TOP500、经典老歌、热门对唱、相声小品荟萃、摇滚歌曲榜)下载。

在网上没找到php cli方式的下载百度mp3的脚本,很奇怪,php挺流行就是cli方式却很少,安全问题,效率问题?个人还是挺喜欢这种方式的。比如批量的图片缩放,合并,用 ImageMagick 比 GD 效率好多了,而且功能也多,但需要安装插件,太麻烦,直接用system调用ImageMagick,方便又灵活,perl ,python 都是这样做的,为什么php不行。

难点:
1、对html页面进行正则分析,获取歌名、歌手、mp3地址。参考preg_match_all。
2、百度mp3地址用js加密了,把它解出来。
原理在shell 方式有详细说明,不再罗嗦,简单说2句:
Read more...
0

mysql数据导出SQLserver格式的数据总结

© kekehu / 数据采集 / 2009.12.18 / 15:47 / 1308PV

我用php写的采集程序入库的数据都是mysql,用户可能要求给他的数据是Access或SQLserver,这时侯就涉及到数据转换的过程,
从网上找了一下要想mysql直接转成SQLserver的,
得装mysql odbc driver,同时还得装SQLserver,
这种方法我直接不考虑了。

最后我想到方法是:mysql导出Access在导出SQLserver
1.mysql导入Access文章地址:http://www.geekso.com/mysqltoaccess/
2.Access导入SQLserver文章地址:http://www.geekso.com/Access-to-SQLserver/

1/2 第一页 1 2 下页 最后页