信息抓取

1

ems快递查询工具无须输验证码哦

© kekehu / 信息抓取 / 2011.12.31 / 22:59 / 9780PV

我之前也做过ems快递查询,但是有验证码的,最近ems改版终于搞定验证码。淘宝上面如果选用ems快递的无法跟踪状态,所以做这个主要是方便大家查询,而且还可以批量查询。你可以收藏以下链接,省去每次都打开EMS官网查询时还得输验证码。查询的数据都是引用EMS官方网站的数据,不包含任何虚假数据,可放心使用。
ems快递跟踪查询工具地址:http://www.geekso.com/doc/ems/

同时也附上顺丰快递查询地址:
PS:顺丰快递查询网址:http://www.geekso.com/sf-express.php(无验证码)
0

最全的modoer城市列表

© kekehu / 信息抓取 / 2011.08.04 / 10:17 / 6880PV

完全支持Modoer点评系统或2.5以上版本。
是目前最全最完整的的城市列表数据。
可支付宝担保交易,交易安全可靠。
数据为mysql格式,数据总计4082条,导入即可使用。
支持批量导入,避免一条条录入。
城市范围地区最小到县。

Read more...
2

58同城联系电话或QQ图片识别方法

© kekehu / 信息抓取 / 2011.07.09 / 15:29 / 17473PV

此方法并不是OCR识别。【此方法已失效】
而使用我这个方法,就可以实现100%正确率。
免费版火车头也可实现,不用插件,不用链接第三方网站接口。
而且还可以采集到电话,QQ号等信息。
本方法只需要免费版的火车头就行,不需要其它的插件。
此方法也可以修改成其它的语言的程序如php,jsp,asp等等。
php版在线电话识别演示地址http://www.geekso.com/doc/58/58.php
5

完成商家数据导入到modoer2.5点评系统中

© kekehu / 信息抓取 / 2011.05.11 / 22:09 / 41835PV

最近刚好手头上有些商家数据,也刚好也有Modoer_2.5_MC_UTF8点评系统的安装包。安装Modoer_2.5_MC时界面提示要装 Zend Optimizer,看来加密了,我为了不想装Zend Optimizer软件所以用dezender破解了那三个加密文件,如何破解可以点击查看这里。安装成功后,研究了一下数据库结构,开始写导入数据的程序。
方法步骤:
1、导入商家分类。
2、导入地区分类。
3、对应好地区、分类与商家对应关系。
4、导入商家信息、商家标签
5、导入成功。

Read more...
2

赶集网电话图片识别

© kekehu / 信息抓取 / 2011.03.18 / 11:13 / 8740PV

    最近很多人问我赶集网的电话图片能不能识别成数据,研究了一下发现还是比较简单能识别的。如果不识别图片,我觉的在图片链接上找算法应该也可以,例如:
http://bj.ganji.com/tel/0731003404340379533005335639026200330e360d685261.png
0731003404340379533005335639026200330e360d685261 对应的电话010-57720030
也就是说4位(共12位)一组为一个数字,但我没有找到链接上的规律算法,如果能破解出那个算法就牛B了,我只做到用图片识别。
演示地址:(第10组就是赶集网的电话)
http://www.geekso.com/component/yanzhengma/
参考文章:http://www.geekso.com/Valite2/
3

ip被封的解决方法

© kekehu / 信息抓取 / 2010.01.14 / 18:08 / 27514PV

最近各种网站的采集程序写的比较多,遇到在采时采到100多条时突然发现对方的网站打不开了,猜到肯定被封ip了,用了代理还是会封,这不是办法。在网上找了一些资料都没有找到,功夫不负有心人啊,在找的时侯有一个人提到了用搜索引擎爬虫蜘蛛的USERAGENT。虽然只提到一点点我还是想到了,列出我的解决方法,

1.使用Snoopy或curl传搜索引擎爬虫的USERAGENT值。
  查看搜索引擎爬虫的USERAGENT值:http://www.geekso.com/spdier-useragent/

2.使用Snoopy或curl传referer值。
   如:$snoopy->referer = 'http://www.google.com';
         $header[] = "Referer: http://www.google.com/";
Read more...
0

实现顺丰快递无需验证码提交查询快递状态

© kekehu / 信息抓取 / 2010.01.11 / 17:22 / 5268PV

要求:用户要求把顺丰快递的数据采集过来,在本站上显示。
分析:1.顺丰快递查询快递配送状态要求输验证码,所以要实现验证码识别。
         2.获得到的cookie与验证码只要没有关闭浏览器都能用,所以只要第一次查询时得到。

实现:我把我做的地址发布出来,便于大家查询顺丰快递邮件快递状态。

顺丰快递查询网址:http://www.geekso.com/sf-express.php(无验证码)

最全的邮件快递查询网站:http://kd.geekso.com
需要购买此顺丰快递查询代码或采集抓取的朋友联系QQ:1085015507
7

ems邮件快递跟踪数据查询

© kekehu / 信息抓取 / 2010.01.10 / 15:05 / 20731PV

用户要求把ems的数据采集过来,在本站上显示。我看了一下ems的验证码可以破解。难点是要解决多人查询时验证码图片与cookie文件不被覆盖的问题。我把我做的地址发布出来,便于大家查询ems邮件快递状态。

ems邮件快递跟踪数据查询地址:http://www.geekso.com/doc/ems/

更新:2010-1-18:增加批量查询功能。
最全的邮件快递查询网站:http://kd.geekso.com

0

php实现百度音乐采集下载

© kekehu / 信息抓取 / 2009.12.20 / 10:30 / 15894PV

简介:支持 歌名+歌手 此方式下载,所以支持百度mp3(新歌TOP100、歌曲TOP500、经典老歌、热门对唱、相声小品荟萃、摇滚歌曲榜)下载。

在网上没找到php cli方式的下载百度mp3的脚本,很奇怪,php挺流行就是cli方式却很少,安全问题,效率问题?个人还是挺喜欢这种方式的。比如批量的图片缩放,合并,用 ImageMagick 比 GD 效率好多了,而且功能也多,但需要安装插件,太麻烦,直接用system调用ImageMagick,方便又灵活,perl ,python 都是这样做的,为什么php不行。

难点:
1、对html页面进行正则分析,获取歌名、歌手、mp3地址。参考preg_match_all。
2、百度mp3地址用js加密了,把它解出来。
原理在shell 方式有详细说明,不再罗嗦,简单说2句:
Read more...
0

mysql数据导出SQLserver格式的数据总结

© kekehu / 信息抓取 / 2009.12.18 / 15:47 / 12999PV

我用php写的采集程序入库的数据都是mysql,用户可能要求给他的数据是Access或SQLserver,这时侯就涉及到数据转换的过程,
从网上找了一下要想mysql直接转成SQLserver的,
得装mysql odbc driver,同时还得装SQLserver,
这种方法我直接不考虑了。

最后我想到方法是:mysql导出Access在导出SQLserver
1.mysql导入Access文章地址:http://www.geekso.com/mysqltoaccess/
2.Access导入SQLserver文章地址:http://www.geekso.com/Access-to-SQLserver/

1/2 第一页 1 2 下页 最后页