Python每日一题:第三题

今天我们来学习总结下Python之禅和他朋友们的第三题,这两天一直有事情没跟上大家的学习学习节奏,现在来学习一下的军哥的代码Python之禅,搞清楚每一行代码的意思

题目

统计一个文件中每个单词出现的次数,列出出现频率最多的5个单词。

The Zen of Python, by Tim Peters
Beautiful is better than ugly.
Explicit is better than implicit.
Simple is better than complex.
Complex is better than complicated.
Flat is better than nested.
Sparse is better than dense.
Readability counts.
Special cases aren't special enough to break the rules.
Although practicality beats purity.
Errors should never pass silently.
Unless explicitly silenced.
In the face of ambiguity, refuse the temptation to guess.
There should be one-- and preferably only one --obvious way to do it.
Although that way may not be obvious at first unless you're Dutch.
Now is better than never.
Although never is often better than right now.
If the implementation is hard to explain, it's a bad idea.
If the implementation is easy to explain, it may be a good idea.
Namespaces are one honking great idea -- let's do more of those!

在学习前我们需要了解一下几点知识:

  • Python的i\o操作
  • 列表解析、sort()方法、sorted()函数
  • 字典Dict操作
  • 正则表达式re
  • lambda表达式
  • Counter
  • assert断言

Python的i\o操作

I\O:input\output
这里推荐网上两个参考教程,一个是廖雪峰老师的,另一个是菜鸟教程
参考链接
参考链接

读写文件

#r:表示读,
#w:表示输出生成并打开文件
#a:文件尾部追加内容而打开文件
#文件处理模式字符串尾部加上b可以进行二进制数据处理,Example:'rb'
#加上‘+’:同时为输入和输出打开文件
>>> f = open('myfile.txt', 'w') #
>>> f.write('hello world!', 'w') #在文本内写入“hello world!”
>>> 12
>>> f.write('hello treehl!', 'w') #在文本内写入“hello world!”
>>> 12
>>> f.close() #关闭文本
>>> f = open('myfile.txt')
>>> f.readline() #读取一行
>>> 'hello world!'
>>> f.readline()
>>> 'hello treehl!'
使用for循环打印文本:
>>> for line in open('myfile'):
        print(line)
>>> data = open('data.bin', 'rb')
>>> print(data.read())
>>> b' \x00\x00\x07spam\x00\x08'        

由于文件读写时都有可能产生IOError,一旦出错,后面的f.close()就不会调用。所以,Python引入了with语句来自动帮我们调用close()方法

>>> with open('myfile.txt', 'r') as f: #r:表示读,w:
        print(f.read())
>>> hello world!
    hello treehl!

列表解析、sort()方法、sorted()函数

在军哥的代码中有一行使用了列表解析式,我们正好学习下

words = [s.lower() for s in re.findall("\w+", data)]

1. 列表解析
我们先看一下普通的生成列表

>>> res =[]
>>> for x in 'spam':
        res.append(x * 4)

>>> res
['ssss', 'pppp', 'aaaa', 'mmmm']

我们再来看一下列表解析的代码

>>> res = [x * 4 for x in 'spam']
>>> res
>>> ['ssss', 'pppp', 'aaaa', 'mmmm']

生成列表res的方式包含三行代码,而用列表解析只需要一行,非常简单!我们来分析下列表解析,首先制定列表名称,如res,接着定义一个表达式 x * 4 ,最后再编写一个for 循环 for x in 'spam'

2. sort()方法
sort()方法:原地对列表进行永久性排序,而且已递增的顺序进行排序

>>> cars = ['bmw', 'audi', 'tesla', 'honda']
>>> cars.sort()
>>> print(cars)
['audi', 'bmw', 'honda', 'tesla']
# 
>>> print(cars) #使用sort()方法后无法再回到原来的排序
['audi', 'bmw', 'honda', 'tesla']

我们可以在列表中添加reverse参数使列表反转

>>> cars = ['bmw', 'audi', 'tesla', 'honda']
>>> cars.sort(reverse=True)
>>> print(cars)
['tesla', 'honda', 'bmw', 'audi']

sorted()函数

sort 与 sorted 区别:
sort 是应用在 list 上的方法,sorted 可以对所有可迭代的对象进行排序操作。
list 的 sort 方法返回的是对已经存在的列表进行操作,而内建函数 sorted 方法返回的是一个新的 list,而不是在原来的基础上进行的操作。
sorted()对列表进行临时性排序,并且同样也可以向sorted函数传递reverse参数

>>> cars = ['bmw', 'audi', 'tesla', 'honda']
>>> print(cars)
['bmw', 'audi', 'tesla', 'honda']
>>> cars = ['bmw', 'audi', 'tesla', 'honda']
>>> print(sorted(cars))
['audi', 'bmw', 'honda', 'tesla']
>>> print(cars) #调用函数sorted()列表顺序并没有发生改变
['bmw', 'audi', 'tesla', 'honda']
>>>print(sorted(cars, reverse=True))
['tesla', 'honda', 'bmw', 'audi']

字典操作

这里就不总结字典使用方法了,可以参考廖雪峰老师的Python教程
我们看到军哥的代码中使用了dict中的get方法

self.mapping[word] = self.mapping.get(word, 0) + 1

字典以“键:值(key:value)”对形式表达

D = {'spam': 2, 'eggs': 3}

字典values和items方法分别返回字典的key值列表和(key, value)对元组

>>> D = {'spam': 2, 'hams': 1, 'eggs': 3}
>>> D.keys()
dict_keys(['spam', 'hams', 'eggs'])
>>> D.values()
dict_values([2, 1, 3])
>>> D.items()
dict_items([('spam', 2), ('hams', 1), ('eggs', 3)])

这里需要重点看下

读取不存在的键会报错,然而通过get()方法能够返回默认的值(None或用户定义的默认值),这是为了避免missing-key错误而填入默认值的一个方法:

>>> D.get('spam')
2
>>> print(D.get('toast'))
None
>>> D.get('toast', 88)
88

正则表达式re

学习正则还是有点繁琐的,不多废话附上参考
参考链接
参考链接

"\w+"
\w:匹配[A-Z,a-z,0-9];
+ :匹配前一个字符0次或无限次

lambda表达式

lambda表达式创建了一个之后能够调用的函数,但是它返回了一个函数而不是将这个函数赋值给一个变量名

  • lambda能够出现在Python语法不允许def出现的地方
  • lambda的主体是一个单个的表达式,而不是一个代码块

现在我们看一下def和lambda表达式的区别:

>>> def func(x, y, z):
        return x + Y + z

>>> func(2, 3, 4)
9
>>> f = lambda x, y, z: x + y +z
>>> f(2, 3, 4)
9

来看个复杂点的

>>> def knights():
        title = 'Sir'
        action = (lambda x: title + ' ' + x)
        return action
>>> act = knights()
>>> act('treehl')
'Sir treehl'

counter

参考链接
这里也谢谢九二同学的分享

assert断言

凡是用print()来辅助查看的地方,都可以用断言(assert)来替代,假如断言失败,就会抛出错误
这里分享下参考链接,今天翻了Python学习手册的assert,相比廖雪峰老师的教程Python学习手册的assert显得有点难懂。。。。。。。
参考链接

最后附上军哥的代码

# _*_ coding:utf-8 _*_
import io
import re

class Counter:
    def __init__(self, path):
        '''

        :param path: 文件路径
        '''
        self.mapping = dict()
        #使用io.open可以添加encoding参数
        with io.open(path, encoding='utf-8') as f:
            data = f.read()
            #使用列表解析式
            #findall(string[, pos[, endpos]]) | re.findall(pattern, string[, flags]):
            #搜索string,以列表形式返回全部能匹配的子串
            #\w匹配[A-Z,a-z,0-9];+ 匹配前一个字符0次或无限次,data为读取的文件
            #Python lower() 方法转换字符串中所有大写字符为小写
            words = [s.lower() for s in re.findall('\w+', data)]
            for word in words:
                #当key不存在时通过get方法返回默认值
                self.mapping[word] = self.mapping.get(word, 0) + 1

    def most_common(self, n):
        #使用assert断言
        assert n >0, 'n should be larger than 0'
        #sort()方法对列表进行永久性排列
        #sorted()函数对列表进行临时排序
        #reverse=True使列表反转
        #字典items()返回(key, value)对元组
        #使用lambda表达式
        return sorted(self.mapping.items(), key=lambda item:item[1], reverse=True)[:n]

if __name__ == '__main__':
    #创建实例,调用most_common方法,打印排名前五的单词
    most_common_5 = Counter('importthis.txt').most_common(5)
    for item in most_common_5:
        print(item)

欢迎大家访问我的博客Treehl的博客

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,384评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,845评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,148评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,640评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,731评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,712评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,703评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,473评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,915评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,227评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,384评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,063评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,706评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,302评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,531评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,321评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,248评论 2 352

推荐阅读更多精彩内容

  • @贰拾贰画生 感谢简明Python教程 输入输出 输入:raw_input string = raw_input(...
    贰拾贰画生阅读 2,631评论 4 21
  • 个人笔记,方便自己查阅使用 Py.LangSpec.Contents Refs Built-in Closure ...
    freenik阅读 67,693评论 0 5
  • http://python.jobbole.com/85231/ 关于专业技能写完项目接着写写一名3年工作经验的J...
    燕京博士阅读 7,566评论 1 118
  • 背景 一年多以前我在知乎上答了有关LeetCode的问题, 分享了一些自己做题目的经验。 张土汪:刷leetcod...
    土汪阅读 12,743评论 0 33
  • 文:郑元春一个有着美好梦想的coder! 人生苦短,我用Python。 P.S. 个人认为,查找和排序是算法的核心...
    北静王阅读 2,129评论 3 10