TOP250影评数据分析之《Jsoup实现Java爬虫》

一、课程目标

利用Jsoup爬取豆瓣TOP电影网站的电影信息:电影链接、电影名称、电影评分、电影评价人数。

二、主要知识点
  • URL(统一资源定位符)

url是统资源定位符,对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。

  • Jsoup
  • 基本简介
    Jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。

  • 主要功能
    ① 从一个URL,文件或字符串中解析HTML;
    ② 使用DOM或CSS选择器来查找、取出数据;
    ③ 可操作HTML元素、属性、文本;

三、分析过程
1. 根据TOP250网站的URL直接解析内容,获得目标电影的信息
    1.1 准备目标网站的URL地址
    
    1.2 利用jsoup直接通过URL获取目标网页的HTML文本文档
    
    1.3 锁定目标信息所在的位置
        1.3.1 在页面中我们需要的信息有两种:该页面中的全部电影信息(25条)
              ID为content的DIV中,包括其中每条电影的基本信息class属性为
              info的DIV中
        
        1.3.2 对于每一个电影而言,他的电影链接、和电影名称在超链接中
        
        1.3.3 同时每个电影的电影评分和评价人数在class属性为star的DIV中
        
    1.4 获取电影具体的电影信息:电影链接、电影名称、电影评分、电影评价人数
    
2. 将获得的电影信息打印显示在控制台:电影链接、电影名称、电影评分、电影评价人数
四、代码实现
public static void main(String[] args) throws IOException {
      
      //1. 根据TOP250网站的URL直接解析内容,获得目标电影的信息
      //1.1 准备目标网站的URL地址
      String url = "https://movie.douban.com/top250?start=0";
      
      //1.2 利用jsoup直接通过URL获取目标网页的HTML文本文档
      Document document = Jsoup.connect(url).get();
      
      //System.out.println(document);
      //1.3 锁定目标信息所在的位置
      Element elementById = document.getElementById("content");
      //System.out.println(elementById);
      //1.3.1 在页面中我们需要的信息有两种:该页面中的全部电影信息(25条)ID为content的DIV中,
      //包括其中每条电影的基本信息class属性为info的DIV中
      Elements elementsByClass = elementById.getElementsByClass("info");
      //System.out.println(elementsByClass);
      for (Element element : elementsByClass) {
          
          //1.3.2 对于每一个电影而言,他的电影链接、和电影名称在超链接中
          Element links = element.getElementsByTag("a").get(0);
          
          //1.3.3 同时每个电影的电影评分和评价人数在class属性为star的DIV中
          Element stars = element.getElementsByClass("star").get(0);
          
          //1.4 获取电影具体的电影信息:
          //电影链接
          String link = links.attr("href");
          //电影名称
          String title = links.child(0).html();
          //电影评分
          String score = stars.child(1).html();
          //电影评价人数
          String num = stars.child(3).html();
                  
          //2. 将获得的电影信息打印显示在控制台:电影链接、电影名称、电影评分、电影评价人数
          System.out.println("电影链接:" + link);
          System.out.println("电影名称:" + title);
          System.out.println("电影评分:" + score);
          System.out.println("电影评价人数:" + num);
          //  分割线--将每一部的电影信息分割开,更容易看清楚
          System.out.println("====================================================");
      }
  }
五、运行结果

电影链接:https://movie.douban.com/subject/1292052/
电影名称:肖申克的救赎
电影评分:9.6
电影评价人数:1334930人评价
====================================================
电影链接:https://movie.douban.com/subject/1291546/
电影名称:霸王别姬
电影评分:9.6
电影评价人数:986233人评价
====================================================
电影链接:https://movie.douban.com/subject/1295644/
电影名称:这个杀手不太冷
电影评分:9.4
电影评价人数:1221832人评价
====================================================
电影链接:https://movie.douban.com/subject/1292720/
电影名称:阿甘正传
电影评分:9.4
电影评价人数:1051505人评价
====================================================
电影链接:https://movie.douban.com/subject/1292063/
电影名称:美丽人生
电影评分:9.5
电影评价人数:615299人评价
====================================================
电影链接:https://movie.douban.com/subject/1292722/
电影名称:泰坦尼克号
电影评分:9.3
电影评价人数:990297人评价
====================================================
电影链接:https://movie.douban.com/subject/1291561/
电影名称:千与千寻
电影评分:9.3
电影评价人数:979044人评价
====================================================
电影链接:https://movie.douban.com/subject/1295124/
电影名称:辛德勒的名单
电影评分:9.5
电影评价人数:549330人评价
====================================================
电影链接:https://movie.douban.com/subject/3541415/
电影名称:盗梦空间
电影评分:9.3
电影评价人数:1064756人评价
====================================================
电影链接:https://movie.douban.com/subject/3011091/
电影名称:忠犬八公的故事
电影评分:9.3
电影评价人数:695459人评价
====================================================
电影链接:https://movie.douban.com/subject/2131459/
电影名称:机器人总动员
电影评分:9.3
电影评价人数:706297人评价
====================================================
电影链接:https://movie.douban.com/subject/3793023/
电影名称:三傻大闹宝莱坞
电影评分:9.2
电影评价人数:952088人评价
====================================================
电影链接:https://movie.douban.com/subject/1292001/
电影名称:海上钢琴师
电影评分:9.2
电影评价人数:786425人评价
====================================================
电影链接:https://movie.douban.com/subject/1291549/
电影名称:放牛班的春天
电影评分:9.3
电影评价人数:657858人评价
====================================================
电影链接:https://movie.douban.com/subject/1292064/
电影名称:楚门的世界
电影评分:9.2
电影评价人数:721846人评价
====================================================
电影链接:https://movie.douban.com/subject/1292213/
电影名称:大话西游之大圣娶亲
电影评分:9.2
电影评价人数:734285人评价
====================================================
电影链接:https://movie.douban.com/subject/1889243/
电影名称:星际穿越
电影评分:9.2
电影评价人数:750977人评价
====================================================
电影链接:https://movie.douban.com/subject/1291560/
电影名称:龙猫
电影评分:9.2
电影评价人数:648667人评价
====================================================
电影链接:https://movie.douban.com/subject/1291841/
电影名称:教父
电影评分:9.2
电影评价人数:478934人评价
====================================================
电影链接:https://movie.douban.com/subject/5912992/
电影名称:熔炉
电影评分:9.3
电影评价人数:419422人评价
====================================================
电影链接:https://movie.douban.com/subject/1307914/
电影名称:无间道
电影评分:9.1
电影评价人数:602047人评价
====================================================
电影链接:https://movie.douban.com/subject/25662329/
电影名称:疯狂动物城
电影评分:9.2
电影评价人数:819094人评价
====================================================
电影链接:https://movie.douban.com/subject/1849031/
电影名称:当幸福来敲门
电影评分:9.0
电影评价人数:769207人评价
====================================================
电影链接:https://movie.douban.com/subject/3319755/
电影名称:怦然心动
电影评分:9.0
电影评价人数:845948人评价
====================================================
电影链接:https://movie.douban.com/subject/6786002/
电影名称:触不可及
电影评分:9.2
电影评价人数:505312人评价
====================================================

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,456评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,370评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,337评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,583评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,596评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,572评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,936评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,595评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,850评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,601评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,685评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,371评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,951评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,934评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,167评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,636评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,411评论 2 342

推荐阅读更多精彩内容