scrapy爬取整个ttmeiju的资源

天天美剧是我非常喜欢的一个美剧资源网站,资源更新比较迅速。

我以前写过不用scrapy的爬虫,详见(https://github.com/daxiangpanda/ttmeiju)。写的比较痛苦,因为一开始对这个网站的资源分布认识不深刻。我一开始的想法是使用网站中内嵌的站内搜索来爬取指定的美剧的所有名称,链接,大小,格式等信息。

这个想法在一开始还是遇到了一些问题,主要的问题就是汉字编码的问题以及确定url的问题。 

站内的搜索引擎要求不能中英文混输,


如上图所示,如果我输入“无耻家庭”(作者最喜爱的美剧),点击搜索按钮,浏览器会打开url为:

http://www.ttmeiju.com/search.php?keyword=%CE%DE%B3%DC%BC%D2%CD%A5&range=0的网页。

其中“%CE%DE%B3%DC%BC%D2%CD%A5”是‘无耻家庭’几个字的gbk编码。



有空再写吧

这是爬完整个网站后出来的数据,19m多的json格式数据,纯干货

https://github.com/daxiangpanda/ttmeiju_scrapy

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 非对称加密和摘要非对称加密的特性和用法非对称加密算法可能是世界上最重要的算法,它是当今电子商务等领域的基石。简而言...
    哈哈哈我的简书账号阅读 5,059评论 1 5
  • 接触iOS开发多年,花了一点时间去研究了一下iOS这套证书和签名机制,并撰文分享给需要的朋友。由于本人才疏学浅,多...
    风和花阅读 5,871评论 0 7
  • 接下去两天,包子和王爷配戏,等哥下布景,等等找了个时间让包子安排弟弟把爸妈接来横店看他们拍戏。包子心想这是要求见家...
    唔理莫阅读 1,898评论 0 1
  • 昨天一日三好 1:走路13000步 2:早起半小时,晨练去早市 3:晚上去公园呆一小时,喝了一杯啤酒
    心境如花阅读 1,462评论 0 0
  • 还记得上次在简书上写东西也是在深夜,这次也是在深夜。也许是因为我更喜欢有月光的地方,也许是因为只有晚上才会看到一闪...
    烟岚出云岫阅读 2,312评论 3 0