一转眼开学了……

开学修了一门楼sir的Java应用技术,上学期选课的时候谁特么跟我说这门课是零基础的TAT

只能够边学暑期的清华课程边做作业了……

第二次作业——爬网页:

作业:网页信息提取

读取网页,去除广告等无关部分,主要内容在屏幕显示或将其以TXT文件方式存盘。

要求:不使用第三方工具,自己作String处理。

本次作业经验总结:

1. 一开始爬下来是乱码,感觉是编码问题,但是workspace里面默认UTF-8,没有GBK。我想💊,结果网上搜了一下,直接在设置中(workspace)填入GBK,结果就可以了~


图0

初步结果如下图所示:


图1

所用到的技术:

1. try-catch 结构

    用于处理异常:


图2

2. URL数据类型,String数据类型,以及缓冲的处理(这一部分上课时候楼sir讲过)


图3

3. Pattern类,Matcher类——用于过滤出制定标签内的正文。

我首先用它来过滤出通知的标题(标题用<h1>修饰)


图4

4. 使用String类中的replace方法来把超链接(<a.xxxx>)及其中间的内容全部过滤掉。


图5

基本上就是用了这些方法。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,860评论 18 139
  • 1. Java基础部分 基础部分的顺序:基本语法,类相关的语法,内部类的语法,继承相关的语法,异常的语法,线程的语...
    子非鱼_t_阅读 31,742评论 18 399
  • 如蝉久哲,如叶常新,逶迤时光为证,如花般的岁月,如夏般的流年,一个转身,一次回眸,转瞬即逝。恍惚间,我已与这岁月...
    手写我们的开始阅读 277评论 0 0
  • 最近一段时间因为一位同事休假,工作量陡然增大,忙乱的人都没了脾气。随着手头的事情越来愈多,中午的时间全部占据,晚上...
    胡泉_hq阅读 180评论 5 3
  • 早起,看了许多今日头条上许多关于书法的帖子,突然意识到书法的背后体现是中国的传统文化博大精深,之所以博大是因为他既...
    mw568阅读 191评论 0 0