本来想继续写Go方面的,不过由于五一节前收到需要爬取3个网站的一些数据,那就刚好总结一下。文章讲的都是很基本让你大概知道爬虫是个什么东西用来做什么的,适合新手入门,之后有可能会逐步加深功能,譬如多线程,队列,深网爬取,反爬等。
一句话概括爬虫
利用Http、Https协议模拟人操作将开放性的web传输内容保存到本地中。
爬虫准备
- 开发语言(这次用C#写)
- 目标数据
开始爬取案例一
这次需要爬取的是平行进口车的数据-
分析网页的数据来源
首先了解需求之后打开F12,看到有好多数据请求会影响我们分析有用的数据来源,所以一般可以直接选择XHR看接口,这样就可以筛走很多不需要的请求,最终定位到这个接口是我们所需要的。
- 代码爬取
由于是工作汇总,所以这次就直接用内部的类库了,但是基本逻辑是一样的(访问请求地址,发送参数,得到内容,解析内容)这里需要做一步escape解析得到中文。
var html = "";
var postUrl = "http://*************/conditionList?version=v2.0";
var postData = "page_size=200&price_range=&pbid=&page=1&mtat=&level=&import=3&drive=&displacement=&bodywork=";
html = client.POST(postUrl, postData).HTML; //请求接口并接收返回内容
html = UAP.Function.String.EscapeDecode(html); //这里需要做escape解析
if (string.IsNullOrWhiteSpace(html)) //判断内容是否为空
{
Console.WriteLine("html is null");
return;
}
var data = UAP.JSON.Parse(html); //解析成为JSON
if (!(data.Int("code") == 200 && data.Boolean("success"))) //判断接口是否正常
{
Console.WriteLine("code or success not match");
return;
}
var list = data["data"]["list"];
var dt = new UAP.Data.DataTable(list);
if (dt.Rows.Count <= 0) //数据是否有值
{
Console.WriteLine("dt count is 0");
return;
}
CAR.DB.admin.Once().Inserts("table", dt); //入库
这种是最简单的爬取接口直接返回json没有做cookies验证或者sign之类的,所以基本上这就已经完成一个爬取需求了。
接下来案例二
第二个案例同样是需要爬取车型数据,至于有什么特殊我们接下来看step 2. 写代码利用webclient用get请求这个网站得到内容
var html = "";
var postUrl = "";
List<object> ls = new List<object>();
postUrl = "http://*************/meiguiche/";
html = client.GET(postUrl).HTML; //获取数据
html = Regex.Replace(html, @"\s*\n\s*", ""); //关键去掉多余空格和换行
var matchs = Regex.Matches(html, @"<a href=.(http://www.*********.com/\d+/meiguiche/).>(.*?)</a>");
if (matchs.Count == 0) //判断正则匹配是否有值
{
Console.WriteLine("matchs is null");
return;
}
foreach (Match match in matchs)
{
ls.Add(
UAP.JSON.NEW
.Add("id", match.Result("$1").RegexGetResult(@"(\d+)"))
.Add("name", match.Result("$2"))
.Add("url", match.Result("$1"))
);
}
if (ls.Count == 0)
{
Console.WriteLine("ls count is 0");
return;
}
CAR.DB.admin.Once().Inserts("table", new UAP.Data.DataTable(ls)); //入库
这时候捕捉数据需要用到正则表达式做匹配处理,至于怎么用这里就不多说了。
题外话 爬取数据要注意的事项
- 注意爬取的时间间隔,避免被封IP或者导致别人的服务器奔溃;
- 用到正则爬取,最好把多余的空格换行去掉,方便写正则匹配;
- 保存数据到库里面的时候不要每条都操作dbinsert,最好一批dbinsert;
- 多些判断验证条件可以让你思考问题更加严谨,从而形成习惯、积累经验;
- 爬取时尽量保存更多有用字段数据而不是局限于需求提出的字段这样可以避免二次爬取的烦恼;
coding不难,用更多的时间思考问题,才能减少敲键盘的时间。