七. 正则实战 - 爬小说和段子

任务1

爬取网址:http://www.doupoxs.com/doupocangqiong
爬取内容:斗破苍穹的各章节正文
爬取方式:正则表达式 & BeautifulSoup(get_info2(url),选用)

import requests
from bs4 import BeautifulSoup
import re
import time

base_url = "http://www.doupoxs.com/doupocangqiong"
headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3294.6 Safari/537.36'}
r = requests.get(base_url, headers = headers)
soup = BeautifulSoup(r.text,"lxml")

def get_url():
    detail_urls = soup.select("div.book_list a")
    url_list = []
    for url in detail_urls:
        detail_url = url.get("href")
        all_url = "http://www.doupoxs.com" + detail_url
        url_list.append(all_url)
    return url_list

##正则表达式
def get_info(url):
    r = requests.get(url,headers = headers)
    dpcp_texts = re.findall('<p>(.*?)</p>',r.content.decode('utf-8'),re.S)
    for dpcp_text in dpcp_texts:
        f.write(dpcp_text + '\n')

##BeautifulSoup
def get_info2(url):
    r = requests.get(url,headers = headers)
    soup = BeautifulSoup(r.content,"lxml")
    infos = soup.select("div.read_chapterDetail p")
    for info in infos:
        dpcq_text = info.text
        f.write(dpcp_text + '\n')
    

if __name__ == "__main__":
    url_list = get_url()
    f = open("F:/doupo.txt",'a+')
    for url in url_list:
        get_info(url)
        time.sleep(1)
    f.close()

部分结果为:

天才一秒记住本站网站 www.doupoxs.com 中间是<span style="color:blue">斗破 拼音+小说 首字母</span> 连起来就是斗破小说,喜欢我就记住我吧!
第一章陨落的天才
&ldquo;斗之力,三段!&rdquo;
望着测验魔石碑上面闪亮得甚至有些刺眼的五个大字,少年面无表情,唇角有着一抹自嘲,紧握的手掌,因为大力,而导致略微尖锐的指甲深深的刺进了掌心之中,带来一阵阵钻心的疼痛&hellip;
&ldquo;萧炎,斗之力,三段!级别:低级!&rdquo;测验魔石碑之旁,一位中年男子,看了一眼碑上所显示出来的信息,语气漠然的将之公布了出来&hellip;
中年男子话刚刚脱口,便是不出意外的在人头汹涌的广场上带起了一阵嘲讽的骚动。
&ldquo;三段?嘿嘿,果然不出我所料,这个&ldquo;天才&rdquo;这一年又是在原地踏步!&rdquo;
&ldquo;哎,这废物真是把家族的脸都给丢光了。&rdquo;
&ldquo;要不是族长是他的父亲,这种废物,早就被驱赶出家族,任其自生自灭了,哪还有机会待在家族中白吃白喝。&rdquo;

任务2

爬取网址:https://www.qiushibaike.com/text/
爬取内容:用户ID、用户等级、用户性别、发表段子文字信息、好笑数量、评价数量
爬取方式:正则表达式 & BeautifulSoup(get_info2(url),选用)

import requests
from bs4 import BeautifulSoup
import re
import time


def get_sex(sex_info):
    if sex_info == "manIcon":
        return "男"
    else:
        return "女"

##正则表达式
def get_info(url):
    headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3294.6 Safari/537.36'}
    r = requests.get(url, headers = headers)
    print(r.status_code)
    #infos = soup.select("div.article")
    ids = re.findall("<h2>(.*?)</h2>",r.text,re.S)
    try:
        levels = re.findall('<div class="articleGender .*?">(.*?)</div>',r.text,re.S)
        sex_infos = re.findall('<div class="articleGender (.*?)"',r.text,re.S)
    except:
        levels = '未知'
        sex_infos = '未知'
        
    contents = re.findall('<div class="content">.*?<span>(.*?)</span>',r.text,re.S)
    laughs = re.findall('<span class="stats-vote">.*?<i class="number">(.*?)</i>',r.text,re.S)
    comments = re.findall('<span class="stats-comments">.*?<i class="number">(.*?)</i>',r.text,re.S)
    for id,level,sex_info,content,laugh,comment in zip(ids,levels,sex_infos,contents,laughs,comments):
        info = {
            'id':id,
            'level':level,
            'sex':get_sex(sex_info),
            'content':content,
            'laugh':laugh,
            'comment':comment            
            }
        info_lists.append(info)
        #print(info)
    for info_list in info_lists:
        try:
            f.write(info_list['id']+'\n')
            f.write(info_list['level']+'\n')
            f.write(info_list['sex']+'\n')
            f.write(info_list['content']+'\n')
            f.write(info_list['laugh']+'\n')
            f.write(info_list['comment']+'\n\n')
        except UnicodeEncodeError:        ##写入txt文件时去掉错误编码。如果仅打印内容不需要此语句
            pass

##BeautifulSoup
def get_info2(url):
    headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3294.6 Safari/537.36'}
    r = requests.get(url, headers = headers)
    print(r.status_code)
    soup = BeautifulSoup(r.text,"lxml")
    infos = soup.select("div.article")
    for info in infos:
        id = info.select("h2")[0].text.strip()
        try:
            level = info.select("div.articleGender")[0].text
            sex_info = info.select("div.articleGender")[0].get("class")[1]
            if sex_info == "womenIcon":
                sex = "女"
            elif sex_info == "manIcon":
                sex = "男"        
        except:
            level = ""
            sex = "未知"
        content = info.select("div.content")[0].text.strip().replace('\u200b','').replace('\xba','')
        laugh = info.select("span.stats-vote i")[0].text
        comment = info.select("span.stats-comments i")[0].text.replace('\u2718','')
        f.write(id +' '+ level +' '+ sex +' '+ content +' '+ laugh +' '+ comment+'\n')
        #print(id,level,sex,content,laugh,comment)

if __name__ == "__main__":
    url_list = ["https://www.qiushibaike.com/text/page/{}/".format(i) for i in range(1,14)]
    info_lists = []
    f = open("F:/qiushibaike.txt",'a+')
    for url in url_list:
        get_info(url)
        time.sleep(1)
    f.close()
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,864评论 6 494
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,175评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,401评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,170评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,276评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,364评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,401评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,179评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,604评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,902评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,070评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,751评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,380评论 3 319
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,077评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,312评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,924评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,957评论 2 351

推荐阅读更多精彩内容