python爬虫--连接MongoDB 存数据

之前做爬虫爬取贴吧松爱协会的内容是存在txt文件的这个并不好所以这一次存在Mongdb

这次是在windows 安在Mongodb里

官网下载

https://www.mongodb.com/download-center?jmp=nav#community

启动：

mongod.exe --logpath "c:\data\log\mongodb.log" --logappend --dbpath "c:\data\db" --serviceName "MongoDB" --install

net start MongoDB

存：

#coding=utf-8

import requests

import datetime

from bs4 import BeautifulSoup

from pymongo import MongoClient

import sys

import time

reload(sys)

sys.setdefaultencoding('utf-8')

client = MongoClient('localhost',27017)

db = client.zhengdai_database

collection = db.zhengai

link = "https://tieba.baidu.com/p/4877675324"

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36'}

r = requests.get(link,headers=headers)

soup = BeautifulSoup(r.text,"lxml")

content_list = soup.find_all("div",class_ = "d_post_content j_d_post_content ")

for i in range(len(content_list)):

conent = content_list[i].text.strip()

print ("诗集"+str(i+1)+":")

print (conent)

post = {

"id":i,

"content":conent,

"date":datetime.datetime.utcnow()#获取当前时间

}

collection.insert_one(post)

最后编辑于：2017.12.11 07:56:50

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。