我的成果
我的代码
from bs4 import BeautifulSoup
import requests, time, random, json
# 换代理,参考现成的:https://mugglecoding.gitbooks.io/qa/content/ru_he_huo_qu_dai_li_ip.html
resp = requests.get("http://tor1024.com/static/proxy_pool.txt")
ips_txt = resp.text.strip().split("\n")
ips = []
for i in ips_txt:
try:
k = json.loads(i)
ips.append(k)
except Exception as e:
print(e)
# 58搜索页面
urls = ['http://bj.58.com/pbdn/0/pn{}/'.format(str(i)) for i in range(1,4)]
headers = {'headers':'Mozilla/5.0 (Windows NT 6.1; WOW64) \ '
'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36'}
# 从转转页面爬取二手商品信息
def zhuanzhuan_data(url):
# 列表用来整理商品标签(商品vs标签:1对多)
total_tags = []
try:
web_data = requests.get(url, headers=headers, proxies=random.choice(ips),timeout=6)
soup = BeautifulSoup(web_data.text, 'lxml')
category = soup.select('div[class="breadCrumb f12"] \> \ '
'span:nth-of-type(4) > a')[0].get_text().lstrip()
subject = soup.select('h1[class="info_titile"]')[0].get_text()
page_view = soup.select('span[class="look_time"]')[0].get_text()
price = soup.select('span[class="price_now"] > i')[0].get_text()
region = soup.select('div[class="palce_li"] > span > i')[0].get_text()
tags = soup.select('div[class="biaoqian_li"] > span')
# 标签需要单独整理一下
for tag in tags:
tag = tag.get_text()
total_tags.append(tag)
# 汇总信息到一个词典
data = {
'category':category,
'title':subject,
'view':page_view,
'price':price,
'region':region,
'tags':total_tags
}
# 打印词典,把词典传入“写入txt”的函数
print(data)
create_txt(data)
except Exception as e:
print(e)
def create_txt(data):
f = open(r'c:/users/administrator/desktop/zz.txt', 'a')
f.write(str(data) + '\n' + '-'*70 + '\n')
f.close()
# 从58搜索页面获取二手商品链接
def get_zz(url):
web_data = requests.get(url)
soup = BeautifulSoup(web_data.text, 'lxml')
zz_urls = soup.select('tr.zzinfo > td.img > a')
for zz_url in zz_urls:
print('这是第',zz_urls.index(zz_url) + 1,'条转转')
zz_url = zz_url.get('href')
zhuanzhuan_data(zz_url)
# 【#####起点#####】
for url in urls:
print('#####第',urls.index(url) + 1,'页#####')
print('-'*60)
get_zz(url)
print('-'*60)
我的感想:
- 这个作业做完了,但感觉有点勉强,而且满是疑惑,没有清爽的感觉,可能是“困难”带来的挫败感还没消失吧
- 这个作业花了很久:
其实实现爬虫功能的大部分代码我中午就写了得差不多了(大约花了40分钟),但是午休起来之后我怎么都爬不出完整的3页150条数据,因为老是报错:
从request.get()什么参数都没加,到试headers,试proxies……花了很久,其中包含了自我怀疑的放空时间。<a>换代理的代码以后可以随便抄了呃</a>
总体来说应该是花了<a>四个半小时</a>左右的时间吧(太恐怖了)。
- 写入到 txt 的时候,用 'w+' 就只能写1条数据,直到用了 'a' ,问题解决了。