java网络爬虫项目--慕课猿问爬取

spider.jpg

网络爬虫（英语：web crawler），也叫网络蜘蛛（spider），是一种用来自动浏览万维网的网络机器人。其目的一般为编纂网络索引。

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

一个比较简单的java练习项目。

在慕课网的猿问页面，寻找一个你喜欢的问题页面，利用http请求获取问题页面的源码，然后通过正则表达式，不断爬取相关问题页面。

该项目存在三个类
Imooc.java : imooc问题bean类
Spider.java: 封装用来爬取页面的方法类
Main.java: 运行起始页面

IMOOCSpider项目已上传到我的github上----传送门
欢迎Star

下载下来后导入eclipse即可运行。

Paste_Image.png

最后编辑于：2017.12.06 03:59:18

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。