天天美剧是我非常喜欢的一个美剧资源网站,资源更新比较迅速。
我以前写过不用scrapy的爬虫,详见(https://github.com/daxiangpanda/ttmeiju)。写的比较痛苦,因为一开始对这个网站的资源分布认识不深刻。我一开始的想法是使用网站中内嵌的站内搜索来爬取指定的美剧的所有名称,链接,大小,格式等信息。
这个想法在一开始还是遇到了一些问题,主要的问题就是汉字编码的问题以及确定url的问题。
站内的搜索引擎要求不能中英文混输,
如上图所示,如果我输入“无耻家庭”(作者最喜爱的美剧),点击搜索按钮,浏览器会打开url为:
http://www.ttmeiju.com/search.php?keyword=%CE%DE%B3%DC%BC%D2%CD%A5&range=0的网页。
其中“%CE%DE%B3%DC%BC%D2%CD%A5”是‘无耻家庭’几个字的gbk编码。
有空再写吧
这是爬完整个网站后出来的数据,19m多的json格式数据,纯干货
https://github.com/daxiangpanda/ttmeiju_scrapy