scrapy取不规则结构

<td align="left">工商管理<br>市场营销<br>财务管理<br>人力资源管理<br>电子商务</td>

今天爬页面的时候遇到这种结构的,要求把每一个分开,最开始直接用text()发现取出来的在一起,不能分开。
于是采用了一种折中的方法:用正则

';'.join((''.join(tr.xpath('td[5]').re('<td align="left">(.*?)</td>'))).split('<br>'))

有更好的方法,欢迎大家评论讨论

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 174,675评论 25 709
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 135,273评论 19 139
  • 问答题47 /72 常见浏览器兼容性问题与解决方案? 参考答案 (1)浏览器兼容问题一:不同浏览器的标签默认的外补...
    _Yfling阅读 13,865评论 1 92
  • 邂逅是一件刚刚好的技术活, 差一点点距离就遇不到。 好比在车站的会面, 你来得晚了些, 载着他的车就开走了; 他的...
    山屈生阅读 226评论 0 0
  • 金钱不能使你富有,只有资产能够让你富有,如果你加入一个系统,坚持建立你的生意,你迟早会遇到“钱太多”的问题。有一天...
    风追叶子阅读 1,087评论 0 0