python3.6版本的urlparse模块需要先引包,这个地方区别于python2.7
from urllib import parse
我发现需要获取的图片的链接形式是:
- /shtml/sxwb/20180608/images/b_page_01.jpg
这个路径不是完整的,就没办法直接通过这个路径访问到图片,这个时候就可以用parse模块的urljoin函数 - 定义: def urljoin(base,url,allow_fragments=Ture)
前提是我已经抓取这个图片对应文章的链接即base = http://epaper.sxrb.com/shtml/sxwb/20180608/749257.shtml
url = /shtml/sxwb/20180608/images/b_page_01.jpg
img_url= parse.urljoin(base,url)
就可以得到图片路径的完整形式
输出:
url=/shtml/sxwb/20180608/images/b_page_09.jpg
img_url =http://epaper.sxrb.com/shtml/sxwb/20180608/images/b_page_09.jpg