爬虫笔记（6）实战

网站分析

今天的目标是www.dy2018.com：

电影天堂

可以直接从首页进行爬，实际上点击导航条中的“动作片”，可以进入一个栏目分类列表中：

Paste_Image.png

打开F12，可以看到这些栏目地址形式是"/0/","/1/"..."/20/"。那么是不是可以直接从这些栏目爬到所有电影呢？有必要先试试。

测试访问

>>> import requests
>>> from bs4 import BeautifulSoup
>>> url = 'http://www.dy2018.com'
>>> url = 'http://www.dy2018.com/0/'
>>> response = requests.get(url)
>>> response.text
'\n<html>\n<head>\n
<meta http-equiv=\'Content-Type\' content=\'text/html; charset=utf-8\' />\n</head>\n<body>\n<script language=\'javascript\'>
window.location="/0/?_"   +   "_wangan"   +   "=30dd"   +   "be26"  +   "42e5e6de"+"c1bb" +   
"936d5"   +"3"+  "8" +   "8"   + "4d512"   +"14831919" +   "58_" +   "23"+ "1596";</script>\n</body>\n</html>'
>>>

发现什么问题了？显然这个网站是有反爬策略的。仔细看script中的代码，window.location是什么意思呢？

window.location="/0/?__wangan=30ddbe2642e5e6dec1bb936d53884d5121483191958_231596";

最后编辑于：2017.12.05 04:56:19

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

爬虫笔记（6）实战

爬虫笔记（6）实战

网站分析

测试访问

相关阅读更多精彩内容

友情链接更多精彩内容