mac python 爬取段子

看看我们要达到的目的

E6F758B1-DD5E-40FE-97F4-BD377A3D2570.png

1.下载PYCHARM
PYcharm


#coding=utf-8

import sys
import re
import urllib




def gethtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html


def getmessage(html):

    p = re.compile(r'<div class="content">(.*)</div><script type="text/javascript">')
    message = re.findall(p, html)  # 返回正则匹配的结果

    return message


fp = open('data.txt','w+')


for i in range(1,7000):

    i = str(i)
    web = gethtml('http://ishuo.cn/subject/' + i)
    message = getmessage(web)
    message2 = ''.join(message)  # 将结果转换为字符串类型

    message2=str(message2)

    print message2

    fp.writelines(message2 + '\n')



fp.close()

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 173,916评论 25 709
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 135,082评论 19 139
  • 以前曾经听人说Windows系统越用越慢,还曾经听人说软件不要装C盘要装D盘这样系统更快……曾经我相信了,但是我不...
    等一轮残月阅读 4,321评论 5 18
  • 时隔一个寒假,我又下载了简书!或许是因为有太多的想法,想找一个宣泄的地方吧! 我决定考研究生了,就在上个月还不能完...
    连娣阅读 1,200评论 3 2
  • 2017年10月24日 晴 星期二 昨天做作业,忘了老师布置的格式了,早晨起来又重新做了一遍。今天记着了,按照笔画...
    泥鳅的恋爱阅读 222评论 2 6