最近有一个goood idea,想把电影网站中能用迅雷下载的链接用程序给爬下来,分别对应:电影名称 下载链接 IMDB或豆瓣的评分,优先取IMDB评分,没有再取豆瓣评分,为了提高电影质量,筛选的都是8.0分以上的,低于8.0或者没有评分的不入库,传说IMDB评分8.0以上的都是非常值得看的,9.0以上的称谓"神片",至于IMDB(Internet Movie Database )的评分我认为还是比较公正的,是使用贝叶斯统计的算法加权算出来的,哈哈,后续有时间深入学习一下该算法,当然也存在漏网之鱼,没评分的或者服务器没反应的时候也不乏存在好电影
接下来是程序的过程
1、先说要做的事情,上面也有简介过,爬取该界面的>8.0评分的电影......http://www.dytt8.net/html/gndy/dyzz/list_23_1.html
2、先设计数据库(moveId moveName moveLink moveScore),其中moveId是自增,如图所示:
3、创建一个Maven项目,并配置pom.xml文件,因为该框架你一大牛写的。。所有要配置该引用项目,如图所示:
4、moveLink文件是爬虫逻辑
moveInfo是实体类对应的表结构
moveUtil是对数据库的一些操作,其中数据库配置信息存放在源程序的这个位置
其中java操作数据库,需要一个jar包
程序源码:https://github.com/zhangzichao11/Android_Move