springboot之简易爬虫demo

需求:

使用httpClient 爬: 白居易的<琵琶行>

      http://www.shicimingju.com/chaxun/list/4059.html

      要求:输入上述url 返回白居易的琵琶行

效果如下: 


java爬虫

一、该项目使用springboot的多组件方式,即需要一个前端和后端提供数据的api接口。项目目录结构如下:

爬虫项目目录结构

二、思路: 获取前端的url内容地址, 通过HttpClients获取整个页面内容,再通过Jsoup进行解析获取相关标签下面的内容。

三、maven需要的依赖及版本

<parent> <groupId>org.springframework.boot</groupId>

<artifactId>spring-boot-starter-parent</artifactId>

<version>2.1.3.RELEASE</version>

<relativePath/>

</parent><groupId>com.alibaba</groupId>

<artifactId>httpclient</artifactId>

<version>1.0.0</version><properties>

<java.version>1.8</java.version>

</properties><dependencies>

<dependency>

<groupId>org.apache.httpcomponents</groupId>

<artifactId>httpclient</artifactId>

<version>4.5.8</version>

</dependency>

<dependency> <groupId>org.springframework.boot</groupId>

<artifactId>spring-boot-starter</artifactId>

</dependency>

<dependency>

<groupId>org.springframework.boot</groupId>

<artifactId>spring-boot-starter-web</artifactId>

</dependency>

<dependency>

<groupId>org.jsoup</groupId>

<artifactId>jsoup</artifactId>

<version>1.7.3</version>

</dependency>

<!--lombok-->

<dependency>

<groupId>org.projectlombok</groupId>

<artifactId>lombok</artifactId>

</dependency>

</dependencies>

controller:


controller

两个工具类

public class HttpClientUtil {

public static StringgetHtml(String url) {

//1.生成httpclient,相当于该打开一个浏览器

        CloseableHttpClient httpClient = HttpClients.createDefault();

        CloseableHttpResponse response =null;

        //2.创建get请求,相当于在浏览器地址栏输入 网址

//        HttpGet request = new HttpGet("http://www.shicimingju.com/chaxun/list/4059.html");

        HttpGet request =new HttpGet(url);

        try {

//3.执行get请求,相当于在输入地址栏后敲回车键

            response = httpClient.execute(request);

            //4.判断响应状态为200,进行处理

            if (response.getStatusLine().getStatusCode() == HttpStatus.SC_OK) {

//5.获取响应内容

                HttpEntity httpEntity = response.getEntity();

                String html = EntityUtils.toString(httpEntity, "utf-8");

                // Jsoup 解析网页数据

                Document document = Jsoup.parse(html);

                // 获取目标内容

                Elements item_content = document.getElementsByClass("item_content");

//                String text = item_content.text();

                return item_content.toString();

            }else {

//如果返回状态不是200,比如404(页面不存在)等,根据情况做处理,这里略

                System.out.println("返回状态不是200");

                System.out.println(EntityUtils.toString(response.getEntity(), "utf-8"));

                return "不是200";

            }

}catch (ClientProtocolException e) {

e.printStackTrace();

        }catch (IOException e) {

e.printStackTrace();

        }finally {

//6.关闭

            HttpClientUtils.closeQuietly(response);

            HttpClientUtils.closeQuietly(httpClient);

        }

return "请输入正确url地址";

    }

}



@Setter

@Getter

@NoArgsConstructor

public class JsonResult {

public static final int CODE_SUCCESS =200;

    public static final StringMSG_SUCCESS ="操作成功";

    public static final int CODE_NOLOGIN =401;

    public static final StringMSG_NOLOGIN ="请先登录";

    public static final int CODE_ERROR =500;

    public static final StringMSG_ERROR ="系统异常,请联系管理员";

    public static final int CODE_ERROR_PARAM =501; // 参数异常

    private int code; // 用来区分不同的结果, 不是true或false

    private Stringmsg; // 处理操作, 还要携带的数据

    private T data;

    public JsonResult(int code, String msg, T data){

this.code = code;

        this.msg = msg;

        this.data = data;

    }

public static JsonResultsuccess(T data){

return new JsonResult(CODE_SUCCESS, MSG_SUCCESS, data);

    }

public static JsonResultsuccess(){

return new JsonResult(CODE_SUCCESS, MSG_SUCCESS, null);

    }

public static JsonResulterror(int code, String msg, T data){

return new JsonResult(code, msg, data);

    }

public static JsonResultdefaultError(){

return new JsonResult(CODE_ERROR, MSG_ERROR, null);

    }

public static JsonResultnoLogin() {

return new JsonResult(CODE_NOLOGIN, MSG_NOLOGIN, null);

    }

}



主方法:

@SpringBootApplication

public class WebSiteAppimplements WebMvcConfigurer {

//跨域访问

    @Bean

    public WebMvcConfigurercorsConfigurer() {

return new WebMvcConfigurer() {

@Override

            //重写父类提供的跨域请求处理的接口

            public void addCorsMappings(CorsRegistry registry) {

//添加映射路径

                registry.addMapping("/**")

//放行哪些原始域

                        .allowedOrigins("*")

//是否发送Cookie信息

                        .allowCredentials(true)

//放行哪些原始域(请求方式)

                        .allowedMethods("GET", "POST", "PUT", "DELETE","OPTIONS")

//放行哪些原始域(头部信息)

                        .allowedHeaders("*")

//暴露哪些头部信息(因为跨域访问默认不能获取全部头部信息)

                        .exposedHeaders("Header1", "Header2");

            }

};

    }

public static void main(String[] args) {

SpringApplication.run(WebSiteApp.class, args);

    }

}



配置端口: application.properties

server.port=8081



前端用到jquery的插件:

<!DOCTYPE html>

<html lang="en">

    <meta charset="UTF-8">

    <title>Title

    <script src="../jquery/jquery.js">

        $(function () {

$('#url').blur(function () {

// 获取url地址

                var url =$("#url").val();

                console.log(url);

                // 提交表单

                $.get('http://localhost:8081/htmlclient/list',{url: url}, function (data) {

                    console.log(data.data);

                    if (data.code ==200){

// 追加内容

                        $("#item_content").append(data.data)

}

})

})

})

<form id="myForm">

    <table border="1" cellspacing="0">

                    url:<input type="text" id="url">

                <div class="item_content" id="item_content">

</html>

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,284评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,115评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,614评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,671评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,699评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,562评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,309评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,223评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,668评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,859评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,981评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,705评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,310评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,904评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,023评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,146评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,933评论 2 355