爬虫url 拼接的坑

前端设置根目录

<head>
<base href="http://www.w3school.com.cn/i/" />
<base target="_blank" />
</head>

<body>
<img src="eg_smile.gif" />
<a href="http://www.w3school.com.cn">W3School</a>
</body>

scrapy
可利用urllib 和scrapy中的response.urljoin(url) 去拼接

from urllib import parse
 url = response.urljoin(u)
 url_path = parse.urlparse(url).path
 url_basename = os.path.basename(url)
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • scrapy学习笔记(有示例版) 我的博客 scrapy学习笔记1.使用scrapy1.1创建工程1.2创建爬虫模...
    陈思煜阅读 12,812评论 4 46
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 135,099评论 19 139
  • 序言第1章 Scrapy介绍第2章 理解HTML和XPath第3章 爬虫基础第4章 从Scrapy到移动应用第5章...
    SeanCheney阅读 15,187评论 13 61
  • 最近从吴军老师的文章里面看到一个观点:世界上很多东西(无论任何事),无所谓优点和缺点,只有特点。对一个人,很多看似...
    凉白开007阅读 1,610评论 1 1
  • 内容简介 在你手上的,是一个至大的秘密……这个秘密沉默了许多年,一些最伟大科学家、思想家、企业家都因运用这个秘密而...
    少穻阅读 324评论 0 0