【工作】浅谈爬虫

本来想继续写Go方面的,不过由于五一节前收到需要爬取3个网站的一些数据,那就刚好总结一下。文章讲的都是很基本让你大概知道爬虫是个什么东西用来做什么的,适合新手入门,之后有可能会逐步加深功能,譬如多线程,队列,深网爬取,反爬等。

一句话概括爬虫

利用Http、Https协议模拟人操作将开放性的web传输内容保存到本地中。

爬虫准备
  • 开发语言(这次用C#写)
  • 目标数据
开始爬取案例一

这次需要爬取的是平行进口车的数据
  1. 分析网页的数据来源

    首先了解需求之后打开F12,看到有好多数据请求会影响我们分析有用的数据来源,所以一般可以直接选择XHR看接口,这样就可以筛走很多不需要的请求,最终定位到这个接口是我们所需要的。
    请求接口
    既然知道了是哪个接口,请求头的信息也知道了,那么就可以模拟发送请求了。
    请求头信息
  2. 代码爬取
    由于是工作汇总,所以这次就直接用内部的类库了,但是基本逻辑是一样的(访问请求地址,发送参数,得到内容,解析内容)这里需要做一步escape解析得到中文。
var html = "";
var postUrl = "http://*************/conditionList?version=v2.0";
var postData = "page_size=200&price_range=&pbid=&page=1&mtat=&level=&import=3&drive=&displacement=&bodywork=";

html = client.POST(postUrl, postData).HTML; //请求接口并接收返回内容
html = UAP.Function.String.EscapeDecode(html); //这里需要做escape解析

if (string.IsNullOrWhiteSpace(html)) //判断内容是否为空
{
    Console.WriteLine("html is null");
    return;
}

var data = UAP.JSON.Parse(html); //解析成为JSON
if (!(data.Int("code") == 200 && data.Boolean("success"))) //判断接口是否正常
{
    Console.WriteLine("code or success not match");
    return;
}

var list = data["data"]["list"];
var dt = new UAP.Data.DataTable(list);
if (dt.Rows.Count <= 0) //数据是否有值
{
    Console.WriteLine("dt count is 0");
    return;
}
CAR.DB.admin.Once().Inserts("table", dt); //入库

这种是最简单的爬取接口直接返回json没有做cookies验证或者sign之类的,所以基本上这就已经完成一个爬取需求了。

接下来案例二

第二个案例同样是需要爬取车型数据,至于有什么特殊我们接下来看

同样的,打开F12 -> XHR 看接口
可是WFT???什么内容都没有,这是为什么呢?原因有两种,第一种是静态HTML,第二种数据从后台加载出来的前端没有直接访问数据接口,那么我们需要怎么做才能拿到这个数据呢。

step 1. 右键查看源代码,发现我们需要的内容都存在,这就好办了。

step 2. 写代码利用webclient用get请求这个网站得到内容

var html = "";
var postUrl = "";
List<object> ls = new List<object>();

postUrl = "http://*************/meiguiche/";

html = client.GET(postUrl).HTML; //获取数据
html = Regex.Replace(html, @"\s*\n\s*", ""); //关键去掉多余空格和换行

var matchs = Regex.Matches(html, @"<a href=.(http://www.*********.com/\d+/meiguiche/).>(.*?)</a>");
if (matchs.Count == 0) //判断正则匹配是否有值
{
    Console.WriteLine("matchs is null");
    return;
}
foreach (Match match in matchs)
{
    ls.Add(
        UAP.JSON.NEW
        .Add("id", match.Result("$1").RegexGetResult(@"(\d+)"))
        .Add("name", match.Result("$2"))
        .Add("url", match.Result("$1"))
    );
}
if (ls.Count == 0)
{
    Console.WriteLine("ls count is 0");
    return;
}
CAR.DB.admin.Once().Inserts("table", new UAP.Data.DataTable(ls)); //入库

这时候捕捉数据需要用到正则表达式做匹配处理,至于怎么用这里就不多说了。

题外话 爬取数据要注意的事项
  • 注意爬取的时间间隔,避免被封IP或者导致别人的服务器奔溃;
  • 用到正则爬取,最好把多余的空格换行去掉,方便写正则匹配;
  • 保存数据到库里面的时候不要每条都操作dbinsert,最好一批dbinsert;
  • 多些判断验证条件可以让你思考问题更加严谨,从而形成习惯、积累经验;
  • 爬取时尽量保存更多有用字段数据而不是局限于需求提出的字段这样可以避免二次爬取的烦恼;

coding不难,用更多的时间思考问题,才能减少敲键盘的时间。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,686评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,668评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,160评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,736评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,847评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,043评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,129评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,872评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,318评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,645评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,777评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,861评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,589评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,687评论 2 351