小鹤双拼词库分析

前言: 数据挖掘这门课的大作业是上交一份数据挖掘的案例.于是乎我决定对比分析一下小鹤音形和正常全拼的码表.
首先是小鹤双拼的码表分析转换

  1. 概况
    查看行数和字符数,bash命令
wc -l xhupdict # 查看行数
wc -c xhupdict #查看总的字符数
小鹤的码表数量统计

码表的一瞥
  1. 简单处理
    经观察发现小鹤的码表组织使用的是tab制表符,所以可以用以下命令并导出纯净的词库.
cut -f1 xhupdict > pureChineseVocabularyOfXhup.txt  # 导出目标词汇
#关于如何知道是不是制表符组织的,或者想查看文本的特殊字符可以使用下列命令
sed -n l xhupdict|more #如果文本太长,记得使用管道结合more命令查看,不然满屏的输出是在毫无意义
导出的目标词汇

sed命令查看文本组织方式

查看冗余的行

sed -n '1,10'p pureChineseVocabularyOfXhup.txt 
sed '1,12'd pureChineseVocabularyOfXhup.txt 
#突然发现这个sed命令的删除只是在输出显示的删除不是对文本的实际操作
#那试试用它的替换操作
sed '1,12s/.*//g' pureChineseVocabularyOfXhup.txt  #终于成功删除了前几行,但是总是只在输出生效.使用重定向就可以了
#再或者直接打开 vim 一个命令 12dd 废行就烟消云散了
#还是使用vim更加便捷无论是使用替换命令还是按键剪切命令都比sed好用.如果不用重定向,感觉sed更适合抽样观察,或者说sed是一种探针,用于查看文本的细节便于我们决定使用什么样的手段去处理文本

效果如图: sed对于这种文本真是小菜一碟,根本犯不着上python


删除冗余行的效果

同理分离编码部分

cut -f2 xhupdict >pureEncodingOfXhup.txt 
分离后当前目录文件列表
  1. 文本深加工
    且搁笔
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • linux资料总章2.1 1.0写的不好抱歉 但是2.0已经改了很多 但是错误还是无法避免 以后资料会慢慢更新 大...
    数据革命阅读 13,360评论 2 33
  • 在我的2017年目标一文中提到的其中一个年度目标就是学习双拼输入法。那学习双拼输入法首先要选择的就是一套双拼方案,...
    keyboard_dancer阅读 29,044评论 10 35
  • 输入法是使用频率较高的一种生产力工具,什么是生产力工具呢?英语叫做productivity tool,生产力工具就...
    lemonTreeTop阅读 4,282评论 1 14
  • sed与awk实例 文本间隔 在每一行后面增加一空行 将原来的所有空行删除并在每一行后面增加一空行。这样在输出的文...
    stuha阅读 2,032评论 0 20
  • 基础命令 主要的命令和快捷键 Linux系统命令由三部分组成:cmd + [options]+[operation...
    485b1aca799e阅读 1,234评论 0 0

友情链接更多精彩内容