[造轮子]爬取搜狗微信公众号文章

博客链接：http://www.charlesjiang.com/archives/9.html

背景：想做一个公众号文章资源APP，发现搜狗有搜索公众号文章功能，果断开撸。http://wxiread.com (用CMS搭了个简易的站)。

Step1.分析栏目及接口

搜狗微信地址：http://weixin.sogou.com/ , 如下图：

搜狗分了20个栏目，分别是热门,推荐,段子手,养生堂,私房话… 对应地址从 /pcindex/pc/pc_0 到 /pcindex/pc/pc_19 , 如：http://weixin.sogou.com/pcindex/pc/pc_0/1.html [1.html为分页号]。整理栏目对应关系见表如下：

Step2.分析列表结构

文章列表页由 li 节点构成，li 的ID可看做文章ID，li子节点包括文章标题，描述信息，作者，作者头像等。

Step3.使用QueryList采集文章基本信息

QueryList 是一个基于PHP的DOM解析工具，功能强大，语法类似于JQuery；详细使用可查看官方文档

代码如下：

protected function get_article_list($url)
{
     //获取文章LI ID规则
    $rules = array(
        'article_id' => array('li', 'id'),//文章ID
        'inner_html' => array('li', 'html')
    );

    //递归获取LI节点内容
    $data = QueryList::Query($url, $rules)->getData(function($li) {
        $id   = $li['article_id'];
        $info = QueryList::Query($li['inner_html'], array(
            'article_url'   => array(".wx-img-box > a", "href"), //文章地址
            'author_url'    => array(".pos-wxrw > a", "href"), //作者地址
            'author_avatar' => array(".pos-wxrw > a > p > img", "src"), //作者头像
            'article_thumb' => array(".wx-img-box > a > img", "src"), //文章缩略图
            'author_name'   => array(".pos-wxrw > a > p:eq(1)", "text"), //作者名称
            'article_title' => array(".wx-news-info2 > h4", "text"), //文章标题
            'article_des'   => array(".wx-news-info", "text"), //文章简介
            'article_create_at' => array(".wx-news-info2 [v]", "v"), //文章标题
            'article_hits' => array(".wx-news-info2 > .s-p", "text", "", function($i){ preg_match('/\d+/', $i, $ms); return (int)$ms[0];}), //文章标题
        ))->data;
        unset($info['inner_html']);

        $info[0]['article_id']   = $id;
        $info[0]['article_hits'] = intval($info[0]['article_hits']);

        return $info[0];
    });

    return $data;
}

Step4.获取文章详情

第三步仅采集了文章基本信息（标题，作者，简介等），要获取详情信息需要打开原文地址爬取内容。代码如下：

/**
* 获取文章详情(并返回文章基本信息用于更新)
* @param $url
* @return array
*/
protected function get_content($url)
{
    $option = array(
        'http' => array(
            'header' => "Referer:" . self::SET_REFER),
    );
    $url = file_get_contents($url, FALSE, stream_context_create($option));

    //去除微信干扰元素!!!否则乱码
    $url = str_replace("<!--headTrap<body></body><head></head><html></html>-->", "", $url);
    $rules = array(
        'content' => array('#js_content', 'html'),//文章内容
    );
    $content = QueryList::Query($url, $rules)->getData();
    //原文链接
    preg_match("/var msg_link = \".*\"/", $url, $matches);
    $orUrl = html_entity_decode(urldecode($matches[0]));
    $orUrl = substr(explode('var msg_link = "', $orUrl)[1], 0, -4);

    //原文标题 !避免出现标题被截取
    preg_match("/var msg_title = \".*\"/", $url, $matches);
    $orTitle = $matches[0];
    $orTitle = substr(explode('var msg_title = "', $orTitle)[1], 0, -1);

    //原文作者头像
    preg_match("/var round_head_img = \".*\"/", $url, $matches);
    $orAuthAvatar = $matches[0];
    $orAuthAvatar = substr(explode('var round_head_img = "', $orAuthAvatar)[1], 0, -1);

    //原文缩略图
    preg_match("/var msg_cdn_url = \".*\"/", $url, $matches);
    $orImgUrl = $matches[0];
    $orImgUrl = substr(explode('var msg_cdn_url = "', $orImgUrl)[1], 0, -1);

    return array(
        'content'        => $content[0]['content'],
        'article_url'    => urldecode($orUrl),
        'article_title'  => html_entity_decode($orTitle),
        'author_avatar'  => $orAuthAvatar,
        'article_thumb'  => $orImgUrl
    );
}

Step5.数据入库

数据库大致设计如下：

wechat_article: 保存文章基本信息
wechat_article_content: 文章详情信息
wechat_category: 栏目信息
wechat_article_ids: 已被导入的文章，避免重复导入（可以选用Redis等）

Step6.将文章同步到CMS

方便操作，我选用的是PHPCMS, 在后台建好栏目，写一个导入脚本，用定时任务执行，现情况如下：

其他

1.微信图片防盗链：

微信原文图片做了防盗链，在同步到CMS时，我将所有图片链接替换为中转地址如：
http://www.wxiread.com/api.php?op=ref_control&url=http://mmbiz.qpic.cn/mmbiz_gif/jxateR9eXe1x9yPwA89Rm8mtjZYCgMuiauGKMMOtsEVAyCrsicJVhNv5ON4QOfLJHXRdsUyj8kklDwzicIrNSRyNw/0?wx_fmt=gif

api.php 代码如下：

$sogouPre = "http://img02.store.sogou.com/net/a/05/link?appid=100520091&url=";
/**
* 防盗链处理
*/
$url  = @trim($_REQUEST['url']);
if (empty($url) || !isUrl($url)) {
    return;
}

$imgType = getImgType($url);
$opts = array(
    'http'=>array(
        'method'=>"GET",
        'header'=>"Referer:http://weixin.sogou.com/ \n" .
            "User-Agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.116 Safari/537.36 \n".
            "Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8"
    )
);
$context = stream_context_create($opts);
$file    = file_get_contents($sogouPre . $url, FALSE, $context);
header("Content-type:image/{$imgType}");
echo $file;

最后编辑于：2017.12.04 14:38:42

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 216,402评论 6赞 499
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,377评论 3赞 392
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 162,483评论 0赞 353
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,165评论 1赞 292
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,176评论 6赞 388
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,146评论 1赞 297
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,032评论 3赞 417
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,896评论 0赞 274
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,311评论 1赞 310
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,536评论 2赞 332
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,696评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,413评论 5赞 343
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,008评论 3赞 325
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,659评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,815评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,698评论 2赞 368
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,592评论 2赞 353