正文之前
这篇文是我跟师兄协定以后写代码的一些规范,虽然麻烦,但是对于后续的复查以及代码延续都有很大的好处的。
正文
必须统一的:
文件头
写入作者姓名,文件作用
"""
###################### File Introduction ######################
* Author: ZZB
* Function:这个文件主要用于定义中文拆分的一些函数和文件读写
######################*******************######################
"""
函数规范
Function: 写出该函数的作用,标准为:接受XXX的调用(可有可无,视功能而定),传入XXX参数,返回XXX
Args:列出每个参数的名字, 并在名字后使用一个冒号和一个空格, 分隔对该参数的描述.如果描述太长超过了单行80字符,使用2或者4个空格的悬挂缩进(与文件其他部分保持一致). 描述应该包括所需的类型和含义. 如果一个函数接受foo(可变长度参数列表)或者bar (任意关键字参数), 应该详细列出foo和bar.
Returns: (或者 Yields: 用于生成器)描述返回值的类型和语义. 如果函数返回None, 这一部分可以省略.
Raises:列出与接口有关的所有异常(这一部分如果有,就写清楚,没有就ignore).
"""
###################
# * function:这个get_radical函数用于接受中文字符串,返回拆解的偏旁数组
# * args:(Chinses_string)
# * Chinses_string:中文字符串
# * return radicals
# * radicals是一个偏旁组成的数组[a,b,c,d,e]
# * raise:未设置异常检测
###################
"""
def get_radical(Chinses_string)
......
return radicals
TODO注释
TODO注释应该在所有开头处包含”TODO”字符串, 另外必须添加后续需要做的功能及其设想,以及可选的下列信息:
- TODO填写人
- 后续工作完成者
# TODO
# Submiter:张照博
# Complete:唐训祝
# Email:zzb@hust.edu.cn
def get_radical(Chinese_string)
pass
代码日志
在主运行程序下,把所有有意义的(篇幅不大,便于人阅读的)中间结果write到一个log的日志文件里面去。同时建议以时间和当前文件名作为log日志的文件名。示例如下:
"""
# ###################在文件开头加这些就OK了###################
import os
import time
path = os.path.basename(__file__)
time = time.strftime("%Y-%m-%d-%H-%M", time.localtime())
log = open("log/"+path[:path.find('.')]+time+".log",'w',encoding='utf8')
# ###################*************************###################
"""
ram_range=(1,1) #表示
unigram, ngram_range=(2,2) #表示
bigram, ngram_range=(3,3) #表示 thirgram
from sklearn.feature_extraction.text import CountVectorizer
import pandas as pd
import jieba
data = ["为了祖国,为了胜利,向我开炮!向我开炮!",
"记者:你怎么会说出那番话",
"我只是觉得,对准我自己打"]
data = [" ".join(jieba.lcut(e)) for e in data] # 分词,并用" "连接
vector = CountVectorizer(min_df=1, ngram_range=(2,2)) # bigram
X = vector.fit_transform(data) # 将分词好的文本转换为矩阵
print(vector.vocabulary_ ) # 得到特征
###########有些变量可以print但是无法write,这时候加个类型转换就好了###########
log.write(str(vector.vocabulary_))
###########***********************************************************###########
print(X) #(句子下标, 单词特征下标) 频数
log.write(str(X))
df1 = pd.DataFrame(X.toarray(), columns=vector.get_feature_names()) # to DataFrame
df1.head()
###############记得最后要close日志文件###############
log.close()
###############************************###############
可改进的:
字符串
避免在循环中用+和+=操作符来累加字符串.
Yes: x = '%s, %s!' % (imperative, expletive)
x = '{}, {}!'.format(imperative, expletive)
x = 'name: %s; score: %d' % (name, n)
x = 'name: {}; score: {}'.format(name, n)
No: x = imperative + ', ' + expletive + '!'
x = 'name: ' + name + '; score: ' + str(n)
由于字符串是不可变的, 这样做会创建不必要的临时对象, 并且导致二次方而不是线性的运行时间. 作为替代方案, 你可以将每个子串加入列表, 然后在循环结束后用 .join 连接列表. (也可以将每个子串写入一个 cStringIO.StringIO 缓存中.)
Yes: items = ['<table>']
for last_name, first_name in employee_list:
items.append('<tr><td>%s, %s</td></tr>' % (last_name, first_name))
items.append('</table>')
employee_table = ''.join(items)
No: employee_table = '<table>'
for last_name, first_name in employee_list:
employee_table += '<tr><td>%s, %s</td></tr>' % (last_name, first_name)
employee_table += '</table>'
无关效率但是提高代码可读性的
空格
不要在逗号, 分号, 冒号前面加空格, 但应该在它们后面加(除了在行尾). 为了美观以及IDE的规范提示
Yes: if x == 4:
print x, y
x, y = y, x
No: if x == 4 :
print x , y
x , y = y , x
在二元操作符两边都加上一个空格, 比如赋值(=), 比较(==, <, >, !=, <>, <=, >=, in, not in, is, is not), 布尔(and, or, not). 至于算术操作符两边的空格该如何使用, 需要你自己好好判断. 不过两侧务必要保持一致.
分号
不要在行尾加分号, 也不要用分号将两条命令放在同一行.
行长度
每行不超过80个字符
例外: 长的导入模块语句,注释里的URL
括号
对括号进行最佳精简化,能少则少
空行
顶级定义之间空两行, 方法定义之间空一行
正文之后
搞掂 走起,后期看看效果哈