之前看了周浩晖的一下小说,包括邪恶催眠师系列,这个系列已经到了第三季但是网上好像没找到txt文件。只找到下方网页中的文章,网页看小说不是很方便,所以决定爬下来做成txt文件放在手机中看。
http://www.txt99.com/read/12/20831/1.html
技术点:
BeautifulSoup、urllib2
直接上代码
#!/usr/bin/env python
# -*-coding:utf-8-*-
from bs4 import BeautifulSoup
import html5lib
import urllib2
import sys
import codecs
strall='';
reload(sys)
sys.setdefaultencoding('utf-8')
for i in range(1,34):
urls=str('http://www.txt99.com/read/12/20831/') +str(i) +str('.html')
html=urllib2.urlopen(urls)
htmldata=html.read()
soup=BeautifulSoup(htmldata,'html.parser',from_encoding="gb18030") #这个网页是gb2312编码,所以要转一下
#view_content_txt
titleData=soup.find ('div',id='view_content_txt')
ss=str(unicode(titleData))
lists=ss.split('<div id="view_content_txt">')
lings=str(lists[1])
lists2=lings.split('<div class="view_page">')
print str(lists2[0])
strall+=str(lists2[0])
def writtetxt(content):
f = codecs.open('f:/python/1.txt', 'w', 'utf-8') #将拼接的字符串写到txt文件中
f.write(content)
# print titleData
writtetxt(strall)