新手爬虫,教你爬掘金(二)

距离上次教程已经过了快两周了,没办法啊,学业繁忙(¬、¬) (¬_¬)

本文用到的三个工具为

  • cheerio:jQuery语法,帮助你在非浏览器环境下解析网页用的
    • 上次没用到,这个肯定用到啦
  • segment 一个基于盘古词库的中文分词工具,cnode大神写的,手动@leizongmin大神

cheerio用法

const cheerio = require('cheerio'),
    $ = cheerio.load('<h2 class="title">Hello world</h2>');

$('h2.title').text('Hello there!');
$('h2').addClass('welcome');

$.html();
//=> <h2 class="title welcome">Hello there!</h2>

额外用法戳这里

segment 用法

const Segment = require('segment');
// 创建实例
const segment = new Segment();
// 使用默认的识别模块及字典,载入字典文件需要1秒,仅初始化时执行一次即可
segment.useDefault();

// 开始分词
console.log(segment.doSegment('这是一个基于Node.js的中文分词模块。'));
// [ { w: '这是', p: 0 },
//   { w: '一个', p: 2097152 },
//   { w: '基于', p: 262144 },
//   { w: 'Node.js', p: 8 },
//   { w: '的', p: 8192 },
//   { w: '中文', p: 1048576 },
//   { w: '分词', p: 4096 },
//   { w: '模块', p: 1048576 },
//   { w: '。', p: 2048 } ]

但是我们一般不需要输出词性,也不需要输出多余的标点符号,所以

const result = segment.doSegment(text, {
  simple: true,          //不输出词性
  stripPunctuation: true //去除标点符号
});
//  [ '这是', '一个', '基于', 'Node.js', '的', '中文', '分词', '模块' ]

更高级用法见segment

全部代码见github

基本用法也了解了,接下来进入正题吧╰(●’◡’●)╮

爬取图片

image.png

image.png

爬取到的图片

image.png

可以看到img元素上面src和自定义的data-src属性都带有图片地址,至于为什么再下面的代码中我没有获取src的值
完全是我太菜了◔ ‸◔?,img.eq(i).src 获取不到值,只能 prop('data-src')

自定义属性兼容性很差劲

Internet Explorer 11+
Chrome 8+
Firefox 6.0+
Opera 11.10+
Safari 6+

熟悉正则的同学,稍微分析下图片的地址就可以通过正则来获取url了,以下是我给出的示例
/(https:\/\/user-gold-cdn).+?\/ignore-error\/1/g
需要注意的是/的转义,以及惰性匹配.+?,关于惰性匹配我这里不打算说了(稍微提一下下(//▽//),其实就是匹配符合要求的最短串),要是说起来又可以写一大堆了

想详细了解的同学可以看看这个解释

/**
 * 
 * @param {any} $ cheerio
 * @param {any} request 请求函数
 */
function saveImg($, request) {
  const img = $('.lazyload');
  const origin = request.default();  //这里是我对request进行了一个简单的封装,default返回未封装的request
  for (let i = 0; i < img.length; ++i) {
    //data.body.match(/(https:\/\/user-gold-cdn).+?\/ignore-error\/1/g)
    let src = img.eq(i).prop('data-src');
    let name = src.match(/\/.{16}\?/g) && src.match(/\/.{16}\?/g)[0].slice(1, -1); //匹配出图片名称
    if (name) {
      origin.get(src).pipe(fs.createWriteStream(`./images/${name}.png`)); //愉快的下载图片
    }
  }
}

数据处理

介绍下用的数据结构Map,用来存储词频(词-词出现的次数)

类似于对象,也是键值对的集合,但是“键”的范围不限于字符串,各种类型的值(包括对象)都可以当作键。也就是说,Object 结构提供了“字符串—值”的对应,Map 结构提供了“值—值”的对应,是一种更完善的 Hash 结构实现。如果你需要“键值对”的数据结构,Map 比 Object 更合适。

其实对于本文来讲,键都为字符串,用对象也完全没有问题,使用Map完全是为了尝鲜 (●’◡’●)ノ
关于Map复制的解释,这一点和对象又不一样

Map复制

image.png

Object复制,作为参数传进构造函数并不可以复制
image.png

async function getPage(request, url) {
  const data = await request.get({ url });
  const $ = cheerio.load(data.body);
  saveImg($, request);
  //获取内容
  let length = $('p').length;
  for (let i = 0; i < length; ++i) {
    let result = segment.doSegment(
      $('p')  //大部分内容都是p标签包裹的,这里不做过复杂的处理
        .eq(i)
        .text(),
      {
        simple: true, //不输出词性
        stripPunctuation: true //去除标点符号
      }
    );
    result.forEach((item, key) => {
      map.set(item, map.get(item) + 1 || 1); //1 + undefined || 1 => 1
    });
  }
  map = sortToken(map);
}

function sortToken(map) {
  const words = {}; //存储词
  let mapCopy = new Map(map); //获取副本,Map直接赋值应该也是地址引用,参见上文
  map.forEach((value, key) => {
    //分词长度大于1
    if (value !== 1 && key.length > 1) { //词频大于1且不是单个字的留下,单字没有什么号分析的吧?
      words[key] = value;
    }
    if (value === 1) { //词频过低,直接刷了
      mapCopy.delete(key);
    }
  });
  const keys = Object.keys(words);
  //排序
  keys.sort((a, b) => {
    return words[b] - words[a];
  });
  //  每篇文章词频最高的20个词,有兴趣了解的同学可以去看看top k算法(我们是获取前k个,它是获取第k个,但是它这样需要把前k个都保存下来,用来比较哪些是前k大)
  //  我这个方法只是粗略的获取词频最高的20个词,实际上会有偏差,假设第一次排序,第十一个词词频为23,而第二次排序,第十个词词频为12,这样本来之前词频高的反被刷了
  //  但这样的好处是节省内存(其实是假的),真正的可以利用最大堆和利用数据库存储,这样就不用存在内存了
  //  最后爬取完了,从数据库取出数据,再参照top k思想算法得出结果
  keys.slice(0, 20).forEach(item => {
    console.log(item, words[item]);
  });
  //返回分词中词频为1的分词
  return mapCopy;
}

image.png

我爬取了最新评论前100个文章的内容进行了分析,得出了以上结果
可以看到,代码方法函数对象执行调用组件等等跟代码有关的中文词语都出现了
不过还是一个最受欢迎,出现次数快1000次了 (」゜ロ゜)」
有兴趣的同学,可以使用英文分词进行分析,分析下程序员们写文章喜欢写什么代码
image.png

以上是我分析的一篇文章里面的英文

还可以再分析标题,然后还可以改进排序算法,直接把整个article-content(class)的text进行分析,而不是像我一样,只是分析p标签 (๑•̀_•́๑) ,最后用可视化工具(例如e-cahrt)把数据展示出来

喜欢的同学可以star哦github

以上,如有错误,欢迎大家指正

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,163评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,301评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,089评论 0 352
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,093评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,110评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,079评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,005评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,840评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,278评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,497评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,667评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,394评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,980评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,628评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,649评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,548评论 2 352

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,651评论 18 139
  • 第2章 基本语法 2.1 概述 基本句法和变量 语句 JavaScript程序的执行单位为行(line),也就是一...
    悟名先生阅读 4,145评论 0 13
  • 我们每天都在上演“虚张声势”,目的是证明自己还好好的活着,同时也证明自己多么自卑。 就如每天照镜子一样...
    烽火煤阅读 213评论 0 0
  • 当别人遭遇失恋时 你是否落井下石 当别人亲人遇难时 你是否搬弄是非 当别人承受灾难时 你是否坐以待毙 每个人都有自...
    蔷薇飒阅读 251评论 1 0
  • 因为囗才教练TOm的书社作客,知道了简书,来这里逛逛。
    羽羽向往阅读 278评论 0 0