Python  C7-5——网页下载翻墙效果

        感觉今天的代码可以实现爬虫的功能,解析一个网址并下载网址。


    完整代码如上;

1、导入urllib、re模块;从HTMLParser模块导入类;

2、利用urlretrieve()提取网址的信息,并存储在文件中;

3、以只读方式打开文件,读取文件所有行内容打印相关信息。

第一面的打印内容,包括了网址,gif图地址,时间信息;

标准时间前一天的时间信息和对应的网址信息;

.

.

.还有很多这样的信息。

一直到最后的网址信息。还有11好的信息,不知道是什么操作机制。

查阅相关资料后:

1、urllib模块是接受url请求的模块;也就是可以实现和互联网通信的功能;urlretrieve方法将url定位到的html文件下载到指定文件中;如果不指定filename,则会存为临时文件;

2、re模块是为高级字符串处理提供正则表达式的工具;re.sub()用于替换字符串中的匹配项,代码中是把文件中读取的内容匹配项(正则表达式)替换为''表示的空字符;

3、HTMLParser模块是Python自带的对html文件进行解析的模块,可以分析其中的标签、数据等;

4、join函数是将字符串、列表、元组中的元素按照指定分隔符连接成新的字符串;代码中的是把读取的文件内容用""表示的空字符连接起来。

被解析的网址是张这样的。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,923评论 18 139
  • 《裕语言》速成开发手册3.0 官方用户交流:iApp开发交流(1) 239547050iApp开发交流(2) 10...
    叶染柒丶阅读 27,790评论 5 19
  • 有一天,我正在努力码字发推送的时候,突然收到了春风小姐的微信消息。 “嘿,我们工作室拍的第一部电影过段时间要上线了...
    賤賤小姐阅读 364评论 1 5
  • 今天讲一则笑话,关于爱情。 或许不是爱情,是被爱。被接受的才叫爱,一厢情愿的付出追逐,是爱慕。因为爱慕,去了解一个...
    桃花太红李太白呀阅读 1,354评论 8 5