数据分析 | 六、分页爬取58同城房屋信息

一、爬取本地文件,并存入数据库。

1.1  引入数据库相关库 import  pymongo。

1.2  连接本地数据库

clicent = pymongo.MongoClicent("localhost","27017")

数据库名 =clicent(‘数据库名’)

数据库表单名 = clicent (‘数据库表单名’)

1.3  获取本地文件,并进行数据结构化

path =‘文件路径’

with  open(path,‘r’)as f:

      lines = f.readlines()

     for line,index in  enumerate(lines):

           data ={

           'line':line

           'index':index

           'words':len(line.split())

          }

    表单名.insert_one(data)

for  item  in 表单名.find({'words':{$le:5}})  :

     print(item)

二 、爬取58房屋信息,并存入数据库

2.1 导入库:数据库库、获取网页库、解析网页库

2.2 创建数据库:同一。

2.3 获取单页数据实现代码

url =‘网页地址’

获取网页数据 :web_data = repuests.get(url)

解析网页 :soup = BeautifulSoup(web_data.text,'lxml')

获取网页中的内容 :soup.select('css路径')

把数据存储在字典中  :

for 数据1 ,数据2 in zip(数据名1,数据名2):

存数据 :    data{}

2.4 获取多页数据代码:

根据不同页上url的不同找到规律,进行便利输出,为方便可以定义成方法。

def  get_web_pg(pages):

      for  page_num in range(1,pages+1):

           url ='http...{}'.format(page_num)

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容