由于课程上提供的网站访问不了,就随便找了一个网站来爬
地址是http://guo.lu
(好像是个很文艺的网站啊XD)
代码如下:
import requests
from bs4 import BeautifulSoup
import urllib.request
def get_url():
oriurl="http://guo.lu/page/"
urls=[]
for i in range(1,7):
url=oriurl+str(i)
urls.append(url)
return urls
def get_info(urls):
for url in urls:
wb_data = requests.get(url)
soup = BeautifulSoup(wb_data.text,'lxml')
for i in range(0,len(soup.select('#primary > div > div.else'))):
data = {
'title':soup.select('#primary > div > div > h3 > a')[i].get_text(),
'img':soup.select('#primary > div > a > img')[i].get('src'),
'description':soup.select('#primary > div > div.else > p')[i].get_text(),
'date' :soup.select('#primary > div > div > p')[i].get_text(),
'view_num' :soup.select('#primary > div > div > p.here > span.icon-view')[i].get_text(),
}
print(data)
get_info(get_url())
输出内容:
{'date': '五月 7, 2016', 'title': '用力地生活,只是因为拥有想要守护的人', 'description': '五月 7, 2016', 'img': 'http://guo.lu/wp-content/themes/Diaspora/timthumb/timthumb.php?src=http://guo.lu/wp-content/uploads/2016/05/wallhaven-229296.jpg', 'view_num': '5172'}
{'date': '一\n\n2013年,公司接了一个500强品牌的全国路演,那段时间项目很密集,人手不够用,我被临时调去项目组支...', 'title': '愿每个失恋的姑娘,都被时光温柔以待', 'description': '一\n\n2013年,公司接了一个500强品牌的全国路演,那段时间项目很密集,人手不够用,我被临时调去项目组支...', 'img': 'http://guo.lu/wp-content/themes/Diaspora/timthumb/timthumb.php?src=http://guo.lu/wp-content/uploads/2016/04/wallhaven-269911.jpg', 'view_num': '6724'}
{'date': '\n3588\n5172\n92 ', 'title': '可是,我依然没有遇见你', 'description': '\n3588\n5172\n92 ', 'img': 'http://guo.lu/wp-content/themes/Diaspora/timthumb/timthumb.php?src=http://guo.lu/wp-content/uploads/2016/04/wallhaven-105618-1.jpg', 'view_num': '9323'}
{'date': '四月 24, 2016', 'title': '第一眼心动的人,要怎么做朋友', 'description': '四月 24, 2016', 'img': 'http://guo.lu/wp-content/themes/Diaspora/timthumb/timthumb.php?src=http://guo.lu/wp-content/uploads/2016/03/wallhaven-215913.jpg', 'view_num': '11690'}
{'date': '昨天饭后无聊浏览QQ好友个人信息,无意中看到闺蜜z的前男友昵称还是俩人好的时候的情侣名,信息主页上还...', 'title': '哪有什么岁月静好,不过是有人替你负重前行', 'description': '昨天饭后无聊浏览QQ好友个人信息,无意中看到闺蜜z的前男友昵称还是俩人好的时候的情侣名,信息主页上还...', 'img': 'http://guo.lu/wp-content/themes/Diaspora/timthumb/timthumb.php?src=http://guo.lu/wp-content/uploads/2016/03/wallhaven-284841.jpg', 'view_num': '9722'}
{'date': '\n1415\n6724\n61 ', 'title': '那段奋不顾身的日子,叫青春', 'description': '\n1415\n6724\n61 ', 'img': 'http://guo.lu/wp-content/themes/Diaspora/timthumb/timthumb.php?src=http://guo.lu/wp-content/uploads/2016/03/wallhaven-194679.jpg', 'view_num': '8850'}
{'date': '四月 9, 2016', 'title': '我想要名正言顺的关心', 'description': '四月 9, 2016', 'img': 'http://guo.lu/wp-content/themes/Diaspora/timthumb/timthumb.php?src=http://guo.lu/wp-content/uploads/2016/02/13d2ed25a5591b695aa23245d5018b391ad44b6f998e5-R5QYdw.jpg', 'view_num': '11096'}
{'date': '我们为爱情付出了那么多,可它也从没有回报我们以安详。\n\n好像每个二十几岁的年轻女孩子都要有一个说出...', 'title': '让梦想照进现实', 'description': '我们为爱情付出了那么多,可它也从没有回报我们以安详。\n\n好像每个二十几岁的年轻女孩子都要有一个说出...', 'img': 'http://guo.lu/wp-content/themes/Diaspora/timthumb/timthumb.php?src=http://guo.lu/wp-content/uploads/2016/02/8bd6b9931ad5597e5ed5f1c0adaa6ace847c0253da4da-Aa4JWq.jpg', 'view_num': '10024'}
{'date': '\n3689\n9323\n92 ', 'title': '一想到你的不完美,便觉得更加爱你了', 'description': '\n3689\n9323\n92 ', 'img': 'http://guo.lu/wp-content/themes/Diaspora/timthumb/timthumb.php?src=http://guo.lu/wp-content/uploads/2016/01/wallhaven-109498.png', 'view_num': '9495'}
{'date': '三月 20, 2016', 'title': '我们拼命变好,是因为心里住着不想辜负的人', 'description': '三月 20, 2016', 'img': 'http://guo.lu/wp-content/themes/Diaspora/timthumb/timthumb.php?src=http://guo.lu/wp-content/uploads/2016/01/wallhaven-304681.jpg', 'view_num': '10601'}
{'date': '1\n\n车窗外是一片无垠的大海。\n\n雨下了又停,彩虹在不远的前方,返回市区的路很长,我坐在副驾驶上,向左...', 'title': '你多走了弯路,才看到更多的风景', 'description': '1\n\n车窗外是一片无垠的大海。\n\n雨下了又停,彩虹在不远的前方,返回市区的路很长,我坐在副驾驶上,向左...', 'img': 'http://guo.lu/wp-content/themes/Diaspora/timthumb/timthumb.php?src=http://guo.lu/wp-content/uploads/2016/01/wallhaven-282224.jpg', 'view_num': '8839'}
{'date': '\n7682\n11690\n154 ', 'title': '这真是个孤独的世界', 'description': '\n7682\n11690\n154 ', 'img': 'http://guo.lu/wp-content/themes/Diaspora/timthumb/timthumb.php?src=http://guo.lu/wp-content/uploads/2016/01/wallhaven-33805.jpg', 'view_num': '9555'}
date跟description会混淆,因为这两个的selector路径一模一样。。。。
其他没什么难度,在浏览器的network里找到了真实的网页地址之后就随便爬了