知识图谱--汉字

汉字处理的场景

汉字、汉语词汇的处理是自然语言处理技术的基础,主要应用场景包括:
输入法、输入提示、语音识别、文字朗读、繁简转换、文字考古

  1. 拼音
    汉字是是汉语体系中最小的发音单位,语音识别技术要想成熟,就需要处理好以下的问题
  • 拼音转汉字
    不少同学都选择拼音输入法打字,敲拼音给出汉字,拼音输入法基本上都支持全拼、简拼的形式;
    另外,很多网站的搜索框也支持用户输入拼音,给出汉字的结果候选项这种自动提示的功能。
    还有,同一个汉字,方言与普通话的发音存在着差异,举个例子,普通话的脚(jiao),药(yao), 在河南话里就是脚(juo),药(yuo),这个例子还是有一定的相似性的,而还有更多完全不一样的,例如普通话-牛(niu),河南话-牛(ou),吴侬语、粤语我不懂,但差异应该会更大。
  1. 汉字转拼音
    有些博客网站,会根据文章标题生成一个标题对应拼音的url, 有助于SEO加分

  2. 同音字的谐音效果
    例如:河蟹-和谐。笑话、歇后语、文学作品中常见、也是祖国网民应付网络审查的一种方式。

  3. 文学押韵
    春晓,押韵ao
    锄禾,押韵u
    有人根据这个开发出能够“自动写诗”的程序。

  4. 偏旁部首

  • 汉字是象形文字,因此相同偏旁部首的字代表的事物往往具备一定的相似性,例如常见的草字头,木字旁,金字旁等等。
  • 拼音不好的同学,通常用五笔输入中文,五笔就是基于偏旁部首等字形的;
  1. 繁简转换
  • 在历史的发展过程中,汉字的形状发生过变化,甲骨文-金鼎文-小篆等等,有文字变迁的记录数据,对于考古非常有帮助;
  • 繁体字简化,是汉字最近一次经历的非常剧烈的变化,简体字主要在大陆应用,而繁体字则主要在港澳台以及海外。
  • 有没有多个繁体字简化成一个简体字的case?
  • 需要注意的是,繁简转换,很多是词语粒度的,例如台湾常说的“網路”,在简体中应该是“网络”,就不能只是简单的“網-网”转换了。

汉字在知识图谱中的描述

需要的建立的数据集:

  1. 字母
    需要的字段:大小写、中文发音、英文-法语-拉丁?
  2. 汉语声母、韵母(拆开,还是放一起?拆开?)
    需要的字段:
    http://baike.baidu.com/view/24374.htm
    http://baike.baidu.com/view/147736.htm
  3. 汉语拼音
    需要的字段:拼音、声母、韵母、口型动画
    字母-声母/韵母-拼音,通过json-ld方式做关联
    http://www.zybang.com/question/2597d63aa38c8d8debcd5e6c4216d9e1.html
  4. 汉字笔画
    需要的字段:笔画名称,图形
    http://baike.baidu.com/view/421765.htm
  5. 汉字偏旁部首
    需要的字段:名称,图形,所包含的笔画?
    笔画-偏旁部首 通过 json-ld关联
    http://baike.baidu.com/view/1433394.htm
  6. 汉字
    需要的字段:简体,拼音,声调,偏旁部首,繁体,各种古文字形式

一个汉字引申出来的东西可真不少,全部搞定后,我就可以去小学当语文课代表了,哦也~

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 一百分先生: 你好!允许我很做作的作一下自我介绍,我是C小姐,一个在你面前乖得不了而离开你视线后疯狂得不得了的女生...
    晓晓K阅读 2,929评论 0 0
  • 乌……汽笛汽笛长鸣 一曲美丽的乐章由此开始奏响 铿锵有力的节奏在钢轨线上回荡 飞驰的车轮 载着梦想 载着希望 载着...
    放牛娃也有春天阅读 1,373评论 0 1
  • 因为现在人们使用高科技产品的频率加大,可能一天下除了睡觉的时候是没有在使用高科技产品其他的时候都在使用。现在还会有...
    教你吃水果阅读 2,372评论 0 1
  • 想要提升亲密关系,需要了解亲密关系是如何发展的? 我们往往会经历浪漫期、争夺期、整合期、承诺期、创造期...
    飞瀑也阅读 1,594评论 0 1

友情链接更多精彩内容