Python实战课程1.3：爬取“猫途鹰”网页信息

（一）爬取一页信息

【1】任务一：将“猫途鹰”的信息爬下来。[此处，我选取 图片、标题、标签、价钱 作为爬取对象]爬取网页：http://www.tripadvisor.cn/Attractions-g60763-Activities-New_York_City_New_York.html

图1

图2

重点难点：1.只获取图片为单张的信息，如图2，“城市游览（182）”该信息不获取。

2.图片的CSS Select为“lazyload_1601710424_3”，即照片不在打开网页时立即加载，而是利用JavaScript延迟加载。此时如何获取照片信息。

【2】结果展示

【3】我的代码

11.图片的抓取.....

images = soup.select('img[width="160"]') #抓取的图片地址相同

images = soup.find_all("img","photo_image") #能抓取到图片地址，但不是想要的图片。

最后编辑于：2017.12.06 03:07:43

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

赞1赞

赞赏

手机看全文