一、爬取本地文件,并存入数据库。
1.1 引入数据库相关库 import pymongo。
1.2 连接本地数据库
clicent = pymongo.MongoClicent("localhost","27017")
数据库名 =clicent(‘数据库名’)
数据库表单名 = clicent (‘数据库表单名’)
1.3 获取本地文件,并进行数据结构化
path =‘文件路径’
with open(path,‘r’)as f:
lines = f.readlines()
for line,index in enumerate(lines):
data ={
'line':line
'index':index
'words':len(line.split())
}
表单名.insert_one(data)
for item in 表单名.find({'words':{$le:5}}) :
print(item)

二 、爬取58房屋信息,并存入数据库
2.1 导入库:数据库库、获取网页库、解析网页库
2.2 创建数据库:同一。
2.3 获取单页数据实现代码
url =‘网页地址’
获取网页数据 :web_data = repuests.get(url)
解析网页 :soup = BeautifulSoup(web_data.text,'lxml')
获取网页中的内容 :soup.select('css路径')
把数据存储在字典中 :
for 数据1 ,数据2 in zip(数据名1,数据名2):
存数据 : data{}
2.4 获取多页数据代码:
根据不同页上url的不同找到规律,进行便利输出,为方便可以定义成方法。
def get_web_pg(pages):
for page_num in range(1,pages+1):
url ='http...{}'.format(page_num)
