Final,今天发烧终于好的差不多了。
之前差不多了解了,python爬虫的基本逻辑。
这次全方位的整理下。
我找到了一个大概的步骤。
1、首先倒腾下看你要抓取的站点有没有响应式的移动页面,如果有那就保持一个原则,尽可能的抓取他们的移动页面(原因就是一般移动页面都是内容干货啊,相对 PC 页面没那么臃肿,方便分析)。
2、Cookie 的操蛋之处,分析时建议开启隐身模式等,不然就面对清空 Cookie 大法了,清空 Cookie 对于爬虫网站分析至关重要,一定要 get 到。
3、分析爬取网页是静态页面还是动态页面,以便采取不同的爬取策略,使用不同的爬取工具。
4、查看网页源码找出对你有价值的数据的网页排版规律,譬如特定 CSS 选择等,从而指定抓取后的数据解析规则。
5、清洗数据后选择如何处理抓取到的有价值数据,譬如是存储还是直接使用,是如何存储等。
我之前做的其实都是第四部分的东西。
数据筛选,后面其实还有数据清洗,数据分类,数据整理等工作。
这里有一个基本的流程。
然后我开始找到了一个淘宝抓取的模范页面。
试着弄了下。
import requests
import re
import pandas
for ii in range(1,10):
header="User-Agent:Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0);"
mn=44*(ii-1)
url='https://s.taobao.com/search?q=%E5%B0%8F%E7%B1%B3%E6%89%8B%E6%9C%BA&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306'
html=requests.request('get',url,headers=old
ren = re.compile('"raw_tiitle":"(.*?)","pic_url":"(.*?)","detail_url":"(.*?)","view_price":"(.*?)"')
data=re.findall(ren,html.test)
data2=pandas.dataframe(data)
data2.to_csv(r'D:\tbb.csv',old=false,index=false,mode='a+')
一堆错误。。
弄了半天,现在的问题出在这一句上。
ren = re.compile('"raw_tiitle":"(.*?)","pic_url":"(.*?)","detail_url":"(.*?)","view_price":"(.*?)"')
头都大了,找了半天,不知道错误在哪里。
see you