回顾上一篇爬取NBA新闻,爬图片与新闻相差不大。文章最后提到爬取图片的Java代码,接着上篇文章开始:
在图集页面查看网页源代码发现并没有提供图片集合的地址,只有网页地址。上文提到网页地址要转成图片集合的地址。
先分析网页源代码,根据链接打开一个网页:
查看该页面源代码
不难发现,这与图片新闻的url有一定相似之处。
图片新闻:http://nbachina.qq.com/a/20180423/010407.htm 真实图片列表: http://shipei.qq.com/c/chinanba/20180423010407
通过String的一些操作达到需要的地址:
根据转换的地址得到图片的集合
接着遍历集合就可以根据单张图实际url下载图片了。