新鲜发布:
0
采集的网站域名:http://www.locoso.com/html/hyfl.html
此站的难点在于:
电话号码放在图片当中的数字如何识别成数字,
如何采集到分类、城市放在各个信息记录当中。
数据文件格式:sql、Access。
状态:已完成采集
数据条数:3722956
数据大小:1.1 GB
联系采集QQ:185154979
完成中国电信黄页网站的采集
© kekehu / 数据采集 / 2009.10.30 / 14:55 / 1605PV
采集的网站名:中国电信黄页“本地搜”采集的网站域名:http://www.locoso.com/html/hyfl.html
此站的难点在于:
电话号码放在图片当中的数字如何识别成数字,
如何采集到分类、城市放在各个信息记录当中。
数据文件格式:sql、Access。
状态:已完成采集
数据条数:3722956
数据大小:1.1 GB
联系采集QQ:185154979
2
Read more...
在window7上安装ie6与ie7实现多种浏览器共存
© kekehu / 工具下载 / 2009.10.27 / 23:10 / 2656PV
没有办法因为工作的需要必须装上多版本的浏览器以测试网站的一些bug,今天找了一下IETester这个工具已解决了在win7上运行不了的问题,装上去之后果然很好很强大,外国牛人很多啊,这个软件方便了很多人。特此发出链接供大家有这方面需要的人下载。Read more...
0
数据大小203.0 MB,文件格式sql、Access。
网址:http://www.js-n-tax.gov.cn/
数据大小50.1 MB,文件格式sql、Access。
联系采集QQ:185154979
完成法规库的信息采集
© kekehu / 数据采集 / 2009.10.26 / 17:18 / 1021PV
网址:http://202.108.90.178/guoshui/main.jsp数据大小203.0 MB,文件格式sql、Access。
网址:http://www.js-n-tax.gov.cn/
数据大小50.1 MB,文件格式sql、Access。
联系采集QQ:185154979
0
采集的网站域名:http://kym.wecoo.com/wecoo/index.html
数据条数:10026147 数据大小:2.7 GB,文件格式:sql、Access,压缩后大小:460M。
联系采集QQ:185154979
完成用友伟库网黄页信息的采集
© kekehu / 数据采集 / 2009.10.26 / 17:07 / 837PV
采集的网站名:伟库网采集的网站域名:http://kym.wecoo.com/wecoo/index.html
数据条数:10026147 数据大小:2.7 GB,文件格式:sql、Access,压缩后大小:460M。
联系采集QQ:185154979
0
下载文件 光盘刻录大师 6.0 中文版
Read more...
光盘刻录大师 6.0 中文版(绿色版)
© kekehu / 工具下载 / 2009.10.25 / 16:05 / 1225PV
光盘刻录大师是一款涵盖了数据刻录,光盘备份与复制,影碟光盘制作,音乐光盘制作,音视频格式转换,音视频编辑,CD/DVD音视频提取等多种功能的超级多媒体软件合集。简洁的步骤,强大而高效的功能,为您的影音数字生活带来极致的享受!下载文件 光盘刻录大师 6.0 中文版
Read more...
0

我用到的知识点如下:
第一步:有两种可能
第一种情况:要采集的网站怎么弄都采不到图片时,用以下两种方法得到图片
1.用PHP截取整个网页
2.用PHP截取图片的某个区域
第二种情况:要采集的网站可以采到图片时
用CURL或snoopy得到图片。
第二步:用php实现验证码的破解识别
第三步:入库从图片中读取识别出来的电话号码
破解演示地址:http://www.geekso.com/component/yanzhengma/
收费识别破解联系QQ:185154979
采集某黄页网站上面信息时遇到电话号码是图片的解决思路
© kekehu / 数据采集 / 2009.10.19 / 23:35 / 1716PV
要破解的图片如下图所示(我只放出一张,那个网站这个图的背景会随机变化):我用到的知识点如下:
第一步:有两种可能
第一种情况:要采集的网站怎么弄都采不到图片时,用以下两种方法得到图片
1.用PHP截取整个网页
2.用PHP截取图片的某个区域
第二种情况:要采集的网站可以采到图片时
用CURL或snoopy得到图片。
第二步:用php实现验证码的破解识别
第三步:入库从图片中读取识别出来的电话号码
破解演示地址:http://www.geekso.com/component/yanzhengma/
收费识别破解联系QQ:185154979
4
CutyCapt的说明地址:http://cutycapt.sourceforge.net/
不过要求主机环境的支持:
Linux : 要求安装了qt或x-server
Windows:要求安装了IE(^_…)
下边分别以两种环境开始实现:
Windows :
1.下载 CutyCapt-Win32-2008-06-11.zip (6MB, .exe for Win32 systems)
2.
Read more...
PHP网页截图-网页快照实现
© kekehu / 技术资源 / 2009.10.19 / 23:30 / 2067PV
单纯使用PHP很难实现,还好在有个比较适中的解决方案:CutyCapt的说明地址:http://cutycapt.sourceforge.net/
不过要求主机环境的支持:
Linux : 要求安装了qt或x-server
Windows:要求安装了IE(^_…)
下边分别以两种环境开始实现:
Windows :
1.下载 CutyCapt-Win32-2008-06-11.zip (6MB, .exe for Win32 systems)
2.
<?php
//要截图的网址
$url = 'http://www.geekso.com';
//输出图片的位置与名称
$out = 'D:/ex.png';
$path = 'D:/CutyCapt/CutyCapt.exe';//你下载CutyCapt存放的位置
$cmd = "$path --url=$url --out=$out";
//exec($cmd);
system($cmd);
?>
//要截图的网址
$url = 'http://www.geekso.com';
//输出图片的位置与名称
$out = 'D:/ex.png';
$path = 'D:/CutyCapt/CutyCapt.exe';//你下载CutyCapt存放的位置
$cmd = "$path --url=$url --out=$out";
//exec($cmd);
system($cmd);
?>
Read more...
0
imagecopyresampled($newim, $im, 0, 0, 7, 174, 120, 42, $new_img_width, $new_img_height); // 原始尺寸 120 x 42
imagecopyresampled($newim, $im, 0, 0, 100, 30, 500, 500, $new_img_width, $new_img_height); // 截取出来后放到 500 x 500
imagecopyresampled($newim, $im, 0, 0, 100, 30, 10, 10, $new_img_width, $new_img_height); // 截取出来后縮小到 10 x 10
原始代码如下:
Read more...
PHP截取图片的某个区域
© kekehu / 技术资源 / 2009.10.19 / 23:23 / 1240PV
解釋一下主要参数:imagecopyresampled($newim, $im, 0, 0, 7, 174, 120, 42, $new_img_width, $new_img_height); // 原始尺寸 120 x 42
imagecopyresampled($newim, $im, 0, 0, 100, 30, 500, 500, $new_img_width, $new_img_height); // 截取出来后放到 500 x 500
imagecopyresampled($newim, $im, 0, 0, 100, 30, 10, 10, $new_img_width, $new_img_height); // 截取出来后縮小到 10 x 10
原始代码如下:
Read more...
2
在上篇文章[php实现验证码的识别(初级篇)]中,讲了如何识别简单的验证,这里的简单指的是验证码有数字和字母组成,格式统一,每次出现位置固定。
这篇文章将继续深入研究识别验证码,这次识别的目标是,验证码有字符和数字组成,验证码存在旋转(可能左右都旋转),位置不固定,存在字符与字符之间的粘连,且验证码有更强的干扰素。这篇文章讲解的方法,并不是万能的解决方案,并且提供代码不能直接解决你的问题,这里仅仅是方法,具体需求得有读者自己解决,需要说明的是,识别验证码与具体的编程语言无关,这里只是使用php语言实现,使用这里介绍的方法,你可以使用任何语言实现。
这篇文章逐步讲解识别验证码过程中的各个步骤。
Read more...
php实现验证码的破解识别(中级篇)
© kekehu / 技术资源 / 2009.10.19 / 18:29 / 1842PV
以下内容转载自网络。在上篇文章[php实现验证码的识别(初级篇)]中,讲了如何识别简单的验证,这里的简单指的是验证码有数字和字母组成,格式统一,每次出现位置固定。
这篇文章将继续深入研究识别验证码,这次识别的目标是,验证码有字符和数字组成,验证码存在旋转(可能左右都旋转),位置不固定,存在字符与字符之间的粘连,且验证码有更强的干扰素。这篇文章讲解的方法,并不是万能的解决方案,并且提供代码不能直接解决你的问题,这里仅仅是方法,具体需求得有读者自己解决,需要说明的是,识别验证码与具体的编程语言无关,这里只是使用php语言实现,使用这里介绍的方法,你可以使用任何语言实现。
这篇文章逐步讲解识别验证码过程中的各个步骤。
Read more...
1
近期研究一些突破验证码方面的知识,记录下来。一方面算是对这几天学习知识的总结帮助自己理解;另一方面希望对研究这方面的技术同学有所帮助;另外也希望引起网站管理者的注意,在提供验证码时多些考虑进去。由于刚刚接触这方面的知识,理解比较浅显,有错误再所难免,欢迎拍砖。
验证码的作用
有效防止某个黑客对某一个特定注册用户用特定程序暴力破解方式进行不断的登陆尝试。其实现代的验证码一般是防止机器批量注册的,防止机器批量发帖回复。目前,不少网站为了防止用户利用机器人自动注册、登录、灌水,都采用了验证码技术。
所谓验证码,就是将一串随机产生的数字或符号,生成一幅图片,图片里加上一些干扰象素(防止OCR),由用户肉眼识别其中的验证码信息,输入表单提交网站验证,验证成功后才能使用某项功能。
我们最常见的验证码
1,四位数字,随机的一数字字符串,最原始的验证码,验证作用几乎为零。
2,随机数字图片验证码。图片上的字符比较中规中矩,有的可能加入一些随机干扰素,还有一些是随机字符颜色,验证作用比上一个好。没有基本图形图像学知识的人,不可破!
3,各种图片格式的随机数字+随机大写英文字母+随机干扰像素+随机位置。
4,汉字是注册目前最新的验证码,随机生成,打起来更难了,影响用户体验,所以,一般应用的比较少。
简单起见,我们这次说明的主要对象是第2种类型的,我们先看几种网上比较常见的这种验证码的图片.
Read more...
php实现验证码的破解识别(初级篇)
© kekehu / 技术资源 / 2009.10.19 / 16:05 / 1762PV
以下内容转载自网络。近期研究一些突破验证码方面的知识,记录下来。一方面算是对这几天学习知识的总结帮助自己理解;另一方面希望对研究这方面的技术同学有所帮助;另外也希望引起网站管理者的注意,在提供验证码时多些考虑进去。由于刚刚接触这方面的知识,理解比较浅显,有错误再所难免,欢迎拍砖。
验证码的作用
有效防止某个黑客对某一个特定注册用户用特定程序暴力破解方式进行不断的登陆尝试。其实现代的验证码一般是防止机器批量注册的,防止机器批量发帖回复。目前,不少网站为了防止用户利用机器人自动注册、登录、灌水,都采用了验证码技术。
所谓验证码,就是将一串随机产生的数字或符号,生成一幅图片,图片里加上一些干扰象素(防止OCR),由用户肉眼识别其中的验证码信息,输入表单提交网站验证,验证成功后才能使用某项功能。
我们最常见的验证码
1,四位数字,随机的一数字字符串,最原始的验证码,验证作用几乎为零。
2,随机数字图片验证码。图片上的字符比较中规中矩,有的可能加入一些随机干扰素,还有一些是随机字符颜色,验证作用比上一个好。没有基本图形图像学知识的人,不可破!
3,各种图片格式的随机数字+随机大写英文字母+随机干扰像素+随机位置。
4,汉字是注册目前最新的验证码,随机生成,打起来更难了,影响用户体验,所以,一般应用的比较少。
简单起见,我们这次说明的主要对象是第2种类型的,我们先看几种网上比较常见的这种验证码的图片.
Read more...



