java爬虫简单小案例

一、HttpClients + jsoup java爬虫简单小案例

用到的内容:

HttpClients + jsoup

pom依赖:

<dependency>
 <groupId>org.apache.httpcomponents</groupId>
 <artifactId>httpclient</artifactId>
 <version>4.5.13</version>
 </dependency>

 <dependency>
 <groupId>org.jsoup</groupId>
 <artifactId>jsoup</artifactId>
 <version>1.12.1</version>
 </dependency>

代码:

package com.pcf.spdemo.common.commonutils.httpclient;

import org.apache.http.HttpEntity;
import org.apache.http.HttpHost;
import org.apache.http.HttpStatus;
import org.apache.http.client.ClientProtocolException;
import org.apache.http.client.config.RequestConfig;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.client.utils.HttpClientUtils;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

import java.io.IOException;

public class SpHttpClientUtils {
 private static Logger log = LoggerFactory.getLogger(SpHttpClientUtils.class);

 private static String WEB_PAGE_URL = "https://www.cnblogs.com/";

 private int totalPage = 1;

 // 爬虫方法,获取网页信息
 public void getHttpPageInfo(String htmlUrl) {
 //1.生成httpclient,相当于该打开一个浏览器
 CloseableHttpClient httpClient = HttpClients.createDefault();
 CloseableHttpResponse response = null;
 //2.创建get请求,相当于在浏览器地址栏输入 网址
 HttpGet request = new HttpGet(htmlUrl);
 // 伪装成浏览器,可以绕过简单的反爬虫
 request.setHeader("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.127 Safari/537.36");
 // 使用代理IP,防止一个IP一直访问,被网站识别
 HttpHost proxy = new HttpHost("120.42.46.226", 6666);
 RequestConfig config = RequestConfig.custom().setProxy(proxy).build();
 request.setConfig(config);
 try {
 //3.执行get请求,相当于在输入地址栏后敲回车键
 response = httpClient.execute(request);
 //4.判断响应状态为200,进行处理
 if (response.getStatusLine().getStatusCode() == HttpStatus.SC_OK) {
 //5.获取响应内容
 HttpEntity httpEntity = response.getEntity();
 String html = EntityUtils.toString(httpEntity, "utf-8");
//                log.info("开始 获取网址html信息=======================================================================");
//                log.info(html);
//                log.info("结束 获取网址html信息=======================================================================");
 // 解析html
 log.info("开始 解析第[" + totalPage + "]页html信息=======================================================================");
 String nextPageSuffix = parseWebPage(html);
 log.info("结束 解析第[" + totalPage + "]页html信息=======================================================================");
 totalPage++;
 // 此处是在网站上观察到只有200页跳转,所以就设置了200次,递归调用。也可以用多线程提高效率。
 if (totalPage <= 200) {
 getHttpPageInfo(WEB_PAGE_URL + nextPageSuffix);
 }
 } else {
 //如果返回状态不是200,比如404(页面不存在)等,根据情况做处理,这里略
 log.error("返回状态不是200");
 log.error("EntityUtils.toString(response.getEntity(), \"utf-8\")" + EntityUtils.toString(response.getEntity(), "utf-8"));
 }
 } catch (ClientProtocolException e) {
 e.printStackTrace();
 log.error("[" + WEB_PAGE_URL + "] 网址爬取时出现ClientProtocolException异常:" + e.getMessage());
 } catch (IOException e) {
 e.printStackTrace();
 log.error("[" + WEB_PAGE_URL + "] 网址爬取时出现IOException异常:" + e.getMessage());
 } finally {
 //6.关闭
 HttpClientUtils.closeQuietly(response);
 HttpClientUtils.closeQuietly(httpClient);
 }
 }

 /**
 * Jsoup解析
 */
 public String parseWebPage(String html) {
 // 解析html字符串
 Document document = Jsoup.parse(html);
 // 主要用到CSS选择器知识
 // 找到html中文章list所在位置,选中它。此处用id选择器
 Element postList = document.getElementById("post_list");
 // 找到list下所有文章,此处用类选择器
 Elements postItems = postList.getElementsByClass("post-item");
 // 循环处理每一个文章
 for (Element postItem : postItems) {
 Elements titleEle = postItem.select(".post-item-title");
 System.out.println("文章标题:" + titleEle.text());
 System.out.println("文章地址:" + titleEle.attr("href"));
 // 组合选择器,父类选择器>子类选择器
 Elements footEle = postItem.select(".post-item-foot>.post-item-author");
 System.out.println("文章作者:" + footEle.text());
 System.out.println("作者主页:" + footEle.attr("href"));
 System.out.println("*********************************");
 }
 // 找到页面上“下一页”的元素,找出其中跳转的参数,递归调用解析所有页的信息
 Element paging_block = document.getElementById("paging_block");
 Elements pageNum = paging_block.select(".pager a:last-child");
 String nextPage = pageNum.attr("href");
 System.out.println(nextPage);
 return nextPage;
 }
}

NOTE:

简单的爬虫小体验没什么难度,代码复制上去,网站一换就能捕捉到html页面信息了。

1、主要是要获取到自己想要的内容,得稍微地学一下CSS选择器,尤其是各种组合选择器,能让你更快捷找到自己想要爬取的元素,大幅度降低代码量。

2、获取代理IP的方法
百度一搜一大堆。我也是随便搜了一个: https://www.zdaye.com/dayProxy/ip/333314/2.html

效果:

image.png

二、爬虫提醒:

现在各大网站好多都有反爬虫,有些内容是禁止爬取的,如果爬到了可能就会有一些麻烦。所以在练习之前最好查一下。我爬的是博客园,信息都让爬,没有禁止内容。

查询方法:网址+/robots.txt

如:www.baidu.com/robots.txt 点开你会看到以下内容

Disallow后面就是禁止爬取的目录。

User-agent: Baiduspider
Disallow: /baidu
Disallow: /s?
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bh

User-agent: Googlebot
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bh

User-agent: MSNBot
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bh

如:https://www.cnblogs.com/robots.txt

没有禁止目录

User-Agent: *
Allow: /</pre>

robots协议的内容规范

robots协议的内容规范
User-agent: 表明爬虫名字
Disallow: 表示禁止爬取的页面
Allow: 表示允许爬取的页面
Sitemap: 表示网站地图
*: 表示任意长度的任意字符
$: 表示结尾
/: 表示这级文件夹下的所有文件
可以发现,这和这正则表达式有点相似,不过,?和.没有特别的含义,/也不需要转义
有关页面的写法:
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录
Disallow: /cgi-bin/.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
Disallow: /?* 禁止访问网站中所有包含问号 (?) 的网址
Disallow: /.jpg 仅允许访问以".htm"为后缀的URL。
Allow: .gif$ 允许抓取网页和gif格式图片
Sitemap: 网站地图 告诉爬虫这个页面是网站地图
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,222评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,455评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,720评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,568评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,696评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,879评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,028评论 3 409
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,773评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,220评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,550评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,697评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,360评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,002评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,782评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,010评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,433评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,587评论 2 350