爬虫url 拼接的坑

前端设置根目录

<head>
<base href="http://www.w3school.com.cn/i/" />
<base target="_blank" />
</head>

<body>
<img src="eg_smile.gif" />
<a href="http://www.w3school.com.cn">W3School</a>
</body>

scrapy
可利用urllib 和scrapy中的response.urljoin(url) 去拼接

from urllib import parse
 url = response.urljoin(u)
 url_path = parse.urlparse(url).path
 url_basename = os.path.basename(url)

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

scrapy学习笔记(有示例版）
scrapy学习笔记(有示例版）我的博客 scrapy学习笔记1.使用scrapy1.1创建工程1.2创建爬虫模...
陈思煜阅读 13,196评论 4赞 46
Spring Cloud
Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具（例如配置管理，服务发现，断路器，智...
卡卡罗2017阅读 136,918评论 19赞 139

《Learning Scrapy》（中文版）第3章爬虫基础
序言第1章 Scrapy介绍第2章理解HTML和XPath第3章爬虫基础第4章从Scrapy到移动应用第5章...
SeanCheney阅读 15,271评论 13赞 61
优点、缺点、特点
最近从吴军老师的文章里面看到一个观点：世界上很多东西（无论任何事），无所谓优点和缺点，只有特点。对一个人，很多看似...
凉白开007阅读 1,781评论 1赞 1
《秘密》丨NOTES
内容简介在你手上的，是一个至大的秘密……这个秘密沉默了许多年，一些最伟大科学家、思想家、企业家都因运用这个秘密而...
少穻阅读 390评论 0赞 0

友情链接更多精彩内容

赞1赞

赞赏

手机看全文