网站信息抓取实践

导语:

成绩抓取主要涉及到三块技术:web、数字图像处理与机器学习

目标


从目标官网上,根据数据库中已有的身份证和姓名,抓取其所有成绩,并存入数据库中。

步骤


  • 1 获取验证码
  • 2 识别验证码
  • 3 查询成绩
  • 4 成绩入库

获取验证码

原始验证码如下,是一个数学表达式。图中的数字是经过旋转和扭曲处理的,还随机分布着点和线。破解难度中等。


识别验证码

  • 1 图像二值化
    干扰点和干扰线的灰度值,比字符的灰度值小,因此可以利用这个特征,通过图像二值化,去除干扰点和干扰线。使用opencv库,首先计算图像的灰度直方图,并归一化,根据灰度直方图的分布找到二值化的阈值后,再二值化。
  void procBinary(Mat image,Mat& threshold_image,int index)
  {
      float range[] = {float(min_grey),float(max_grey)} ;
      const float* hist_range = {range};
      bool uniform = true;
      bool accumulate = false;
      Mat hist;
      //计算灰度直方图
      calcHist(&image,1,0,Mat(),hist,1,&max_grey,&hist_range,uniform,accumulate);
      //归一化
      normalize(hist,hist,0,image.rows,NORM_MINMAX,-1,Mat());
      int threhold = 0;
      for(int j = 0; j < hist.size().height; j++){
          if(abs(hist.at<float>(0,j)-image.rows)<precision){
              threhold = j;
          }
      }
      //根据阈值二值化
      threshold(image,threshold_image,threhold+1,max_grey,THRESH_BINARY);
  }

预处理后的效果如下:


  • 2 字符分割

破解验证码的重点和难点就在于能否成功分割字符,这一点也是机器视觉里的一道难题,对物件的识别能力。对于颜色相同又完全粘连的字符,比如google的验证码,目前是没法做到5%以上的识别率的。不过google的验证码基本上人类也只有30%的识别率

官网上的验证码,字符有一定几率会粘连,因此会一定程度上影响验证码识别的准确率。
使用扫描线法,从最左侧开始从左到右扫描,如果没有遇到任何文字的像素,就则往右一个像素然后再扫描,如果遇到有文字像素存在,就记录当前横坐标,继续向右扫,突然没有文字像素的时候,就说明到了两个字符直接的空白部分。再根据记录的位置分割字符。

  • 3 标准化
    主要是对字符进行缩放,使之成为32x32的图片。
    这里并没有使用算法对旋转扭曲的字符进行处理,原因有两点1、训练数据中的字符也是旋转的,不处理对识别率的影响不大,2、如果每次都对旋转、扭曲的算法进行处理,计算量也大。


  • 4 使用卷积神经网络(CNN)
生成训练数据

如果手动对几千张图片分类,需要大量的人工操作了,至少得好几个小时。观察接口发现,官网上是使用securimage开源库生成的验证码,使用的是SI_CAPTCHA_MATHEMATIC模式。


既然能够拿到验证码生成程序,那么训练数据就很容易得到。在生成验证码时,不生成随机干扰点与线,将验证码对应的值作为图像名的一部分保存。

//验证码数据生成
do {
       $signs = array('+', '-', 'x');
       $left  = mt_rand(1, 10);
       $right = mt_rand(1, 10);
       $sign  = $signs[mt_rand(0, 2)];
       $equal = '=';
       $out   = '?';

       switch($sign) {
             case 'x': $c = $left * $right; break;
             case '-': $c = $left - $right; break;
             default:  $c = $left + $right; break;
        }
} while ($c <= 0); // no negative #'s or 0
$this->code         = "$c";
$this->code_display = "$left $sign $right $equal $out"
//将验证码对应的值作为图像名的一部分保存
$filename = "data/".uniqid()."_".$this->code_display.".png";
imagepng($this->im,$filename);
imagedestroy($this->im);

将securimage生成验证码,并自动归类到相应的文件夹中


训练

卷积神经网络(Convolutional Neural Network,CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。
CNN可以用来识别位移、缩放及其他形式扭曲不变性的二维图形。由于CNN的特征检测层通过训练数据进行学习,所以在使用CNN时,避免了显示的特征抽取,而隐式地从训练数据中进行学习。

代码实现参照nladuo,使用LeNet5卷积神经网络,以32x32的图片作为输入,对于字符的变形、旋转、干扰线等扭曲都可以很好的识别,可以实现以下效果。


卷积神经网络会自己不断的对训练集进行学习迭代,每次迭代都会对识别率有所改进。
具体步骤如下:

  • 1 将测试数据放到training_set目录下
  • 2 设置字符集
std::string label_strs[13] = {
    "-", "x", "+", "0", "1", "2", "3", "4", "5", "6", "7", "8", "9"
};
  • 3 将4/5的数据作为训练集,将1/5的数据作为测试集
  • 4 开始训练
  //进度轴
  progress_display disp(train_images.size());
  timer t;
  //最小批处理尺寸
  int minibatch_size = 100;
  //迭代次数
  int num_epochs = 50;
  //一轮训练后的回调函数
  auto on_enumerate_epoch = [&](){
  std::cout << t.elapsed() << "s elapsed." << std::endl;
  tiny_cnn::result res = nn.test(test_images, test_labels);
  std::cout << res.num_success << "/" << res.num_total << std::endl;
  disp.restart(train_images.size());
  t.restart();
  };
  auto on_enumerate_minibatch = [&](){
  disp += minibatch_size;
  };
  // 开始训练
  nn.train<mse>(optimizer, train_images, train_labels, minibatch_size, num_epochs, on_enumerate_minibatch, on_enumerate_epoch);

将神经网络的权重输出到"weights"中。
训练结束后,根据输出可以看到单个字符有1806/1870=97%的识别率,假设验证码有4个字符,那么有0.97^4=0.88左右的识别率。考虑到验证码分割大概有20%概率不会成功,整体验证码识别率应该在0.88*0.8= 70%左右。


之前验证码的识别结果如下

查询成绩

官网将cookie中的PHPSESSID值作为用户的身份标识,因此在获取验证码和查询成绩时设置同样的PHPSESSID即可。

$content    = $this->curlHelper->request($this->config["captchaUrl"]);
file_put_contents("bin/captcha$index.png",$content);
exec("cd bin;./recognizer captcha$index.png",$ret);

需要注意的是,如果网站有反爬虫机制,对访问频次和ip有限制,则需要使用ip池,通过代理访问。最大重试次数的设置,由于150000pow((1-0.7),10)=0.885*,因此将最大重试次数设置为10时,循环15万个身份证,基本都能识别出来

成绩入库

数据库中有15万个有身份证,最终从官网上能查到成绩的有41836选手,188077条记录

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,133评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,682评论 3 390
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,784评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,508评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,603评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,607评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,604评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,359评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,805评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,121评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,280评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,959评论 5 339
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,588评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,206评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,442评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,193评论 2 367
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,144评论 2 352

推荐阅读更多精彩内容