登录注册写文章

爬取knewone上的信息

宁静消失何如

爬取knewone上的信息

爬取knewone上的信息
<pre>
author = 'LEE'

-- coding: utf-8 -

from bs4 import BeautifulSoup
import time
import requests
import time
import io
import sys
import urllib.request
sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030')

url = 'https://knewone.com/things/?page='
def get_page(url,data=None):
wb_data = requests.get(url)
soup = BeautifulSoup(wb_data.text,'lxml')
imgs = soup.select('a.cover-inner > img')
titles =soup.select('section.content > h4 > a')
links = soup.select('section.content > h4 > a')
#print(soup)
if data ==None:
for img,title,link in zip(imgs,titles,links):
data = {
'img':img.get('src'),
'title':title.get('title'),
'link':link.get('href'),
}
print(data)
def get_more_page(start,end):
for one in range(start,end):
get_page(url+str(one))
time.sleep(1)

get_more_page(1,10)

</pre>

最后编辑于：2017.12.07 01:00:39

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

动手写爬虫(3):爬取赶集网二手物品信息
掌握了BeatifulSoup的基本用法之后，爬取单个网页实际上是比较简单的：只需要使用requests库中的ge...
废柴社阅读 6,215评论 1赞 7
关于macOS 开启任何来源软件安装问题
在升级了macOS Sierra (10.12)版本后在“安全性与隐私”中不再有“任何来源”选项接下来，我们就打...
一曲大风歌无尽阅读 3,440评论 0赞 1

Vue.js小白入门，搭建开发环境
最近Vue.js的热度持续上升，甚至有标题说2017再不会Vue.js就out了。而作为一个不排斥前段的后端码农来...
CatalinaX阅读 4,108评论 0赞 2
时间都去哪了
在平时的工作和生活中，我们经常听到“哎呀，时间过的太快了，我还没完成呢？如果再给我多点时间，我会完成的很好，是啊，...
丽丽4135阅读 3,430评论 0赞 1
不是你今天感觉不好，就可以随随便便输掉的
所有的事情都堆积在这一段时间里，人也显得心浮气躁，没有精力去做任何事，甚至也无心提笔写些有意思的文字。周围的一切都...
北斋小姐阅读 5,669评论 0赞 3

赞1赞

赞赏

手机看全文