Homework2-58tongcheng

遍历58同城上海站，平板电脑信息。

{'img'， 'visit_time'， 'category'， 'area'， 'price'，'title'}

现在存在“转转”和“58同城信息”，一开始没有对于href进行加工筛选，造成无法爬取。

#links = soup_page.select("#infolist > div.infocon > table > tbody > tr > td.img > a") ==》爬取所有页面

links = soup_page.select("#infolist > div.infocon > table > tbody > tr.zzinfo> td.img > a") ==》值爬取“转转”信息。

下面是页面解析后的样式：

如果要爬取58原来的信息要写个判断语句，然后重写一个get_detail2来爬取58原来的结构信息。

本来是想通过判断每条记录上的“精准推广”来判断是否是“转转”的记录，但是发觉很难去一条一条去选择分类，因为python一下子就拿到了所有的链接。以后要多多观察class对不同类型链接的进行选择，这样会方便很多。

if__name__ =='__main__':

main()

Python会用__name__是否等于‘__main__’来判断是否是主程序，当等于的时候就是主程序，否则就是被别的程序来调用。

所有，这个程序是主程序，所以要加这段让它进入main()函数。

最后编辑于：2017.12.04 02:06:46

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。