数据分析 | 六、分页爬取58同城房屋信息

一、爬取本地文件，并存入数据库。

1.1 引入数据库相关库 import pymongo。

1.2 连接本地数据库

clicent = pymongo.MongoClicent("localhost","27017")

数据库名 =clicent（‘数据库名’）

数据库表单名 = clicent （‘数据库表单名’）

1.3 获取本地文件，并进行数据结构化

path =‘文件路径’

with open（path，‘r’）as f：

lines = f.readlines()

for line,index in enumerate(lines):

data ={

'line':line

'index':index

'words':len(line.split())

}

表单名.insert_one(data)

for item in 表单名.find({'words':{$le:5}}) :

print(item)

二、爬取58房屋信息，并存入数据库

2.1 导入库：数据库库、获取网页库、解析网页库

2.2 创建数据库：同一。

2.3 获取单页数据实现代码

url =‘网页地址’

获取网页数据：web_data = repuests.get(url)

解析网页：soup = BeautifulSoup（web_data.text,'lxml'）

获取网页中的内容：soup.select('css路径')

把数据存储在字典中：

for 数据1 ，数据2 in zip（数据名1，数据名2）：

存数据： data{}

2.4 获取多页数据代码:

根据不同页上url的不同找到规律，进行便利输出，为方便可以定义成方法。

def get_web_pg(pages):

for page_num in range(1,pages+1):

url ='http...{}'.format(page_num)

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。