新鲜发布:

3

ip被封的解决方法

© kekehu / 信息抓取 / 2010.01.14 / 18:08 / 30278PV

最近各种网站的采集程序写的比较多,遇到在采时采到100多条时突然发现对方的网站打不开了,猜到肯定被封ip了,用了代理还是会封,这不是办法。在网上找了一些资料都没有找到,功夫不负有心人啊,在找的时侯有一个人提到了用搜索引擎爬虫蜘蛛的USERAGENT。虽然只提到一点点我还是想到了,列出我的解决方法,

1.使用Snoopy或curl传搜索引擎爬虫的USERAGENT值。
  查看搜索引擎爬虫的USERAGENT值:http://www.geekso.com/spdier-useragent/

2.使用Snoopy或curl传referer值。
   如:$snoopy->referer = 'http://www.google.com';
         $header[] = "Referer: http://www.google.com/";
Read more...
0

搜索引擎爬虫蜘蛛的USERAGENT收集

© kekehu / 技术资源 / 2010.01.14 / 17:52 / 11553PV

百度爬虫
    * Baiduspider+(+http://www.baidu.com/search/spider.htm”)

google爬虫
    * Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
    * Googlebot/2.1 (+http://www.googlebot.com/bot.html)
    * Googlebot/2.1 (+http://www.google.com/bot.html)

雅虎爬虫(分别是雅虎中国和美国总部的爬虫)
    *Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html”)
    *Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp”)
Read more...
1

CSS 3.0 参考手册 (中文版)

© kekehu / 工具下载 / 2010.01.14 / 16:09 / 7609PV

快讯,今天发现腾讯的同学们整理了CSS 3手册,分享给大家。
CSS 3.0 参考手册 (中文版)版本号:beta1 (最后更新时间:2009-8-22)
CSS 是 Cascading Style Sheet 的缩写。译作「层叠样式表」。
是用于(增强)控制网页样式并允许将样式信息与网页内容分离的一种标记性语言。
手册难点
   1. 中文资料少,对英文翻译功底要求较高;
   2. 基础语法要求字斟句酌,避免产生歧义;
Read more...
0

实现顺丰快递无需验证码提交查询快递状态

© kekehu / 信息抓取 / 2010.01.11 / 17:22 / 6107PV

要求:用户要求把顺丰快递的数据采集过来,在本站上显示。
分析:1.顺丰快递查询快递配送状态要求输验证码,所以要实现验证码识别。
         2.获得到的cookie与验证码只要没有关闭浏览器都能用,所以只要第一次查询时得到。

实现:我把我做的地址发布出来,便于大家查询顺丰快递邮件快递状态。

顺丰快递查询网址:http://www.geekso.com/sf-express.php(无验证码)

最全的邮件快递查询网站:http://kd.geekso.com
需要购买此顺丰快递查询代码或采集抓取的朋友联系QQ:1085015507
7

ems邮件快递跟踪数据查询

© kekehu / 信息抓取 / 2010.01.10 / 15:05 / 21944PV

用户要求把ems的数据采集过来,在本站上显示。我看了一下ems的验证码可以破解。难点是要解决多人查询时验证码图片与cookie文件不被覆盖的问题。我把我做的地址发布出来,便于大家查询ems邮件快递状态。

ems邮件快递跟踪数据查询地址:http://www.geekso.com/doc/ems/

更新:2010-1-18:增加批量查询功能。
最全的邮件快递查询网站:http://kd.geekso.com

1

分享包含索引功能的CSS 2.0中文手册

© kekehu / 工具下载 / 2010.01.04 / 21:55 / 6955PV

今天在网上找资料时无意间发现有人把css2.0手册重新编译了。我用苏沈小雨制作的《CSS 2.0中文手册》,也用了很多年了,记是在大学里就开始用了。此手册的唯一的缺点就是没有索引功能,每次去查找一个属性需要根据分类,但很多时候并不知道属于哪个分类。

此手册是在苏沈小雨制作的《CSS 2.0中文手册》的基础上增加了索引功能,极大的增加网页设计的效率,推荐下载shy。该文件版权归苏沈小雨和Jet Mah共同所有,希望大家使用的愉快!
Read more...
0

php实现百度音乐采集下载

© kekehu / 信息抓取 / 2009.12.20 / 10:30 / 17081PV

简介:支持 歌名+歌手 此方式下载,所以支持百度mp3(新歌TOP100、歌曲TOP500、经典老歌、热门对唱、相声小品荟萃、摇滚歌曲榜)下载。

在网上没找到php cli方式的下载百度mp3的脚本,很奇怪,php挺流行就是cli方式却很少,安全问题,效率问题?个人还是挺喜欢这种方式的。比如批量的图片缩放,合并,用 ImageMagick 比 GD 效率好多了,而且功能也多,但需要安装插件,太麻烦,直接用system调用ImageMagick,方便又灵活,perl ,python 都是这样做的,为什么php不行。

难点:
1、对html页面进行正则分析,获取歌名、歌手、mp3地址。参考preg_match_all。
2、百度mp3地址用js加密了,把它解出来。
原理在shell 方式有详细说明,不再罗嗦,简单说2句:
Read more...
0

mysql数据导出SQLserver格式的数据总结

© kekehu / 信息抓取 / 2009.12.18 / 15:47 / 13902PV

我用php写的采集程序入库的数据都是mysql,用户可能要求给他的数据是Access或SQLserver,这时侯就涉及到数据转换的过程,
从网上找了一下要想mysql直接转成SQLserver的,
得装mysql odbc driver,同时还得装SQLserver,
这种方法我直接不考虑了。

最后我想到方法是:mysql导出Access在导出SQLserver
1.mysql导入Access文章地址:http://www.geekso.com/mysqltoaccess/
2.Access导入SQLserver文章地址:http://www.geekso.com/Access-to-SQLserver/
1

Access数据格式导入SQLserver

© kekehu / 技术资源 / 2009.12.18 / 15:21 / 10846PV

CooSel2.0 CreateSQL V1.06
档案包含 ASP 和 Exe 两个版本
Asp版本不支持直接导入到SQLserver,只支持脚本的编写
Exe 版本可以直接导入到SQLserver

功能:
1.生成升迁 SQL脚本,保存为 *.sql文件后,SQL2000的查询分析器里调入执行
2.生成升迁 ASP脚本,这样你可以用该脚本和相应MDB数据库上传到服务器在线升迁
3.直接执行Access数据导入到SQL2000服务器(表结构和数据)
Read more...
0

Mysql数据库转换导出为Access格式数据Convert Mysql to Access

© kekehu / 技术资源 / 2009.12.18 / 13:27 / 9973PV

这个软件很好很强大,只可惜不能设置导出Access条数的设置。
最新版本:4.0
Convert Mysql to Access是一个免费的数据库转换工具,实现快速安全地将Mysql数据库导入为Access数据库。
Convert Mysql to Access 功能特点
    * 可以转换所有的Mysql字段类型
    * 支持所有版本的Mysql
    * 可以将数据合并到已经存在的Access表中
    * 非常容易使用的向导模式
    * 支持所有版本的Mysql字符集
    * 对超大数据表的导出进行了优化处理
Read more...

11/47 第一页 上页 6 7 8 9 10 11 12 13 14 15 下页 最后页