为了对爬虫有更深的理解,我决定在网上随意找个小网站进行抓取,实践出真知。也是像豆瓣爬虫学习一样,分阶段进行,分阶段更新。也算是备份,方便日后查看。第一阶段成功如下:
# -*- coding: cp936 -*-
import urllib2
import re
f=urllib2.urlopen(‘http://www.360kad.com/dymhh/allclass.shtml’).read()
n1=f.find(‘http://www.360kad.com/Category_45/Index.aspx’)
n2=f.find(‘Category_4057/Index.aspx” target=”_blank”>’)
f1=f[n1:(n2)+54]#在豆瓣爬虫学习笔记(五)提到学到的技巧,总看别人写的优秀源代码确实很有帮助。
f2=re.findall(‘http://www.360kad.com/Category_\d{1,}/Index.aspx’,f1)
r=0
for n in f2:
tagpag=urllib2.urlopen(n).read()
r=r+1
e=file(‘tagpag_%d.txt’%r,’w')#批量新建文件,抓到的原始tag代码批量保存到文件中,方便日后编辑
e.write(tagpag)
e.close()
学习过程中碰到的问题:我本想讲tag的url和name以dic形式保存,结果没有弄明白,对dic还不熟,就先简单的只保存url吧