网站信息抓取实践

导语：

成绩抓取主要涉及到三块技术：web、数字图像处理与机器学习

目标

从目标官网上，根据数据库中已有的身份证和姓名，抓取其所有成绩，并存入数据库中。

步骤

1 获取验证码
2 识别验证码
3 查询成绩
4 成绩入库

获取验证码

原始验证码如下，是一个数学表达式。图中的数字是经过旋转和扭曲处理的，还随机分布着点和线。破解难度中等。

识别验证码

1 图像二值化
干扰点和干扰线的灰度值，比字符的灰度值小，因此可以利用这个特征，通过图像二值化，去除干扰点和干扰线。使用opencv库，首先计算图像的灰度直方图，并归一化，根据灰度直方图的分布找到二值化的阈值后，再二值化。

  void procBinary(Mat image,Mat& threshold_image,int index)
  {
      float range[] = {float(min_grey),float(max_grey)} ;
      const float* hist_range = {range};
      bool uniform = true;
      bool accumulate = false;
      Mat hist;
      //计算灰度直方图
      calcHist(&image,1,0,Mat(),hist,1,&max_grey,&hist_range,uniform,accumulate);
      //归一化
      normalize(hist,hist,0,image.rows,NORM_MINMAX,-1,Mat());
      int threhold = 0;
      for(int j = 0; j < hist.size().height; j++){
          if(abs(hist.at<float>(0,j)-image.rows)<precision){
              threhold = j;
          }
      }
      //根据阈值二值化
      threshold(image,threshold_image,threhold+1,max_grey,THRESH_BINARY);
  }

预处理后的效果如下：

2 字符分割

破解验证码的重点和难点就在于能否成功分割字符，这一点也是机器视觉里的一道难题，对物件的识别能力。对于颜色相同又完全粘连的字符，比如google的验证码，目前是没法做到5%以上的识别率的。不过google的验证码基本上人类也只有30%的识别率

官网上的验证码，字符有一定几率会粘连，因此会一定程度上影响验证码识别的准确率。
使用扫描线法，从最左侧开始从左到右扫描，如果没有遇到任何文字的像素，就则往右一个像素然后再扫描，如果遇到有文字像素存在，就记录当前横坐标，继续向右扫，突然没有文字像素的时候，就说明到了两个字符直接的空白部分。再根据记录的位置分割字符。

3 标准化
主要是对字符进行缩放，使之成为32x32的图片。
这里并没有使用算法对旋转扭曲的字符进行处理，原因有两点1、训练数据中的字符也是旋转的，不处理对识别率的影响不大，2、如果每次都对旋转、扭曲的算法进行处理，计算量也大。
4 使用卷积神经网络(CNN)

生成训练数据

如果手动对几千张图片分类，需要大量的人工操作了，至少得好几个小时。观察接口发现，官网上是使用securimage开源库生成的验证码，使用的是SI_CAPTCHA_MATHEMATIC模式。

既然能够拿到验证码生成程序，那么训练数据就很容易得到。在生成验证码时，不生成随机干扰点与线，将验证码对应的值作为图像名的一部分保存。

//验证码数据生成
do {
       $signs = array('+', '-', 'x');
       $left  = mt_rand(1, 10);
       $right = mt_rand(1, 10);
       $sign  = $signs[mt_rand(0, 2)];
       $equal = '=';
       $out   = '?';

       switch($sign) {
             case 'x': $c = $left * $right; break;
             case '-': $c = $left - $right; break;
             default:  $c = $left + $right; break;
        }
} while ($c <= 0); // no negative #'s or 0
$this->code         = "$c";
$this->code_display = "$left $sign $right $equal $out"
//将验证码对应的值作为图像名的一部分保存
$filename = "data/".uniqid()."_".$this->code_display.".png";
imagepng($this->im,$filename);
imagedestroy($this->im);

将securimage生成验证码，并自动归类到相应的文件夹中

训练

卷积神经网络（Convolutional Neural Network,CNN）是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。
CNN可以用来识别位移、缩放及其他形式扭曲不变性的二维图形。由于CNN的特征检测层通过训练数据进行学习，所以在使用CNN时，避免了显示的特征抽取，而隐式地从训练数据中进行学习。

代码实现参照nladuo，使用LeNet5卷积神经网络，以32x32的图片作为输入，对于字符的变形、旋转、干扰线等扭曲都可以很好的识别，可以实现以下效果。

卷积神经网络会自己不断的对训练集进行学习迭代，每次迭代都会对识别率有所改进。
具体步骤如下：

1 将测试数据放到training_set目录下
2 设置字符集

std::string label_strs[13] = {
    "-", "x", "+", "0", "1", "2", "3", "4", "5", "6", "7", "8", "9"
};

3 将4/5的数据作为训练集，将1/5的数据作为测试集
4 开始训练

  //进度轴
  progress_display disp(train_images.size());
  timer t;
  //最小批处理尺寸
  int minibatch_size = 100;
  //迭代次数
  int num_epochs = 50;
  //一轮训练后的回调函数
  auto on_enumerate_epoch = [&](){
  std::cout << t.elapsed() << "s elapsed." << std::endl;
  tiny_cnn::result res = nn.test(test_images, test_labels);
  std::cout << res.num_success << "/" << res.num_total << std::endl;
  disp.restart(train_images.size());
  t.restart();
  };
  auto on_enumerate_minibatch = [&](){
  disp += minibatch_size;
  };
  // 开始训练
  nn.train<mse>(optimizer, train_images, train_labels, minibatch_size, num_epochs, on_enumerate_minibatch, on_enumerate_epoch);

将神经网络的权重输出到"weights"中。
训练结束后，根据输出可以看到单个字符有1806/1870=97%的识别率，假设验证码有4个字符，那么有0.97^4=0.88左右的识别率。考虑到验证码分割大概有20%概率不会成功，整体验证码识别率应该在0.88*0.8= 70%左右。

之前验证码的识别结果如下

查询成绩

官网将cookie中的PHPSESSID值作为用户的身份标识，因此在获取验证码和查询成绩时设置同样的PHPSESSID即可。

$content    = $this->curlHelper->request($this->config["captchaUrl"]);
file_put_contents("bin/captcha$index.png",$content);
exec("cd bin;./recognizer captcha$index.png",$ret);

需要注意的是，如果网站有反爬虫机制，对访问频次和ip有限制，则需要使用ip池，通过代理访问。最大重试次数的设置，由于150000pow((1-0.7),10)=0.885*，因此将最大重试次数设置为10时，循环15万个身份证，基本都能识别出来

成绩入库

数据库中有15万个有身份证，最终从官网上能查到成绩的有41836选手，188077条记录

网站信息抓取实践