数据处理

数据处理

Pull Request是一种机制，能让开发者告诉项目成员一个功能已经完成的，一个分支开发完毕之后，提交审查代码并并入到master分支点，专注于某个提议功能的讨论版

有监督的算法需要把原始数据集分为训练测试的两个集合的，CV用于科学的统计训练模型的泛化能力的。

编码问题：可以使用此方法来得到对应的编码的
import codecs
file = codecs.open( "a.txt", "r", "unicode-escape" )
u = file.read()
print(u)

在使用pandas进行转换的过程中总是会出现各种各样的问题的，包括出现未识别字符以及其他情况的
则直接利用Linux的文件来做的
用于分开文件

cat training_set_rel3.tsv | awk -F '\t' '{if($2==1) print $7 "\t"  $3}' > test

用于随机获得文件

shuf datasets/dataset1 -o trainsets/trainset1

用于获得前n行的测试数据

head -178 trainsets/trainset1 > testsets/testset1

用于删除前n行

sed -i '1,178d' trainsets/trainset1

则分为了若干个行和列之间的对应关系的

对于util_functions.py中的 gen_cv_preds中的参数 num_chunks=3 改为 1，避免产生交叉验证的情况的？

因为添加了最小的数据使得对于在4的数据集中0的存在感太强烈了，因此最后所有的数据都会偏向于0的，严重的影响到了结果的

最后编辑于：2018.11.14 17:36:26

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。