本文 9931 pv

2

抓取网站上面信息时遇到电话号码是图片的解决思路

© kekehu / 信息抓取 / 2009.10.19 / 23:35 / 9931PV

要破解的图片如下图所示(我只放出一张,那个网站这个图的背景会随机变化):
点击在新窗口中浏览此图片
我用到的知识点如下:
第一步:有两种可能
    第一种情况:要采集的网站怎么弄都采不到图片时,用以下两种方法得到图片
        1.用PHP截取整个网页
        2.用PHP截取图片的某个区域
    第二种情况:要采集的网站可以采到图片时
用CURL或snoopy得到图片。
第二步:用php实现验证码的破解识别
第三步:入库从图片中读取识别出来的电话号码

破解演示地址:http://www.geekso.com/component/yanzhengma/
收费识别破解联系QQ:1085015507

本文有 2 篇评论

  1. @ allankliu Email 说 :
    2010.11.06 11:36
    avatar

    好像还有OCR模块吧。日后多交流。

  2. @ allankliu Email 说 :
    2010.11.06 11:36
    avatar

    最简单就是将图片存在数据库里。BASE64。话说,搞不好,别人用JS调用JS插入Div方式来防备你。爬虫必须支持DOM和JS运行才可以。

1/1 第一页 1 最后页

发表你的见解

打开HTML 打开UBB 打开表情 隐藏 记住我
emotemotemotemotemotemotemotemotemotemotemotemotemotemotemotemotemotemotemotemot
emotemotemotemotemot