从中文分词开始

如果 中文 词语 之间 也 用 空格 分开,会不会 理解 起来 更好 更快 呢?对于 机器 来说 肯定 是的?

机器在识别像中文这样的自然语言时,第一步就是分词。然后根据每个词意思来理解整句。

那么人脑理解中文时是不是也要先分词呢,理解英文这样自带分词的语言时呢,跳过分词这个步骤了?那么中文母语者和英文母语者的大脑处理语言的过程就不一样了。

人脑可能会有一个语言库,里面会分级,比如有句子库、词库、字库,偏旁部首库,笔画库。常用的句子会有一个直接匹配,直接整句被解码。如果整句没有准确匹配或者模糊匹配,可能会分词,然后到词库一级去匹配,这一级也匹配不到,那么可能是一个新词,再到字库里去匹配,再分析这个新词可能是什么含义。

英文对应的会有句库,词库,词根词缀库,字母库。这样与中文对比是不是少了一级,中文的笔画对应英文字母,中文偏旁部首对应英文的词根词缀,中文的字和词是对应英文的词。(补:英文还有词组,但是中文的词不能对应。)

会不会使用中文的人,句库的句子数量要高于英文使用者。因为对于整句匹配来说,英文中分词的空格就是无意义的,但是占用了空间,中文的空间效率要高。但是中文整句匹配不成功时,要进行分词,英文不用,此时英文的时间效率又高。

机器做自然语言处理时,也需要对应的语料库。并且,如果机器的存储能力高于人类,以至于大部分语言内容都可以在句库一级直接匹配,以大数据的逻辑,是不是机器的理解能力会超过人类呢。这其中可能也会有空间换时间的问题,但是机器最起码可能会赶上人类。

还有一个关键的问题是创造力。即便机器储存一个比人脑更全的句库,如果没有创造力的话还是无法与人类匹敌。

创造本身是有逻辑的,还是偶然的呢?还是逻辑与偶然结合的呢?

有的人可能会相信直觉,认为那是灵机一动,来自于灵感,而不是来自于外部刺激与内部经验的结合。

一个理性的人,会认为创造力是有逻辑可寻的,是有原因的。受别人的影响而不自知,却当成是自己的灵感,是很愚蠢的事。这世界上根本就不存在灵感这回事。

这到底是不是一个因果逻辑的世界,是不是所有的事情都有其原因呢?

还是说,宏观上是一个逻辑的世界,微观上都是偶然的。又或者,微观上是有原因可寻的,宏观上是偶然的。

再或,是逻辑与偶然的结合。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 常用概念: 自然语言处理(NLP) 数据挖掘 推荐算法 用户画像 知识图谱 信息检索 文本分类 常用技术: 词级别...
    御风之星阅读 9,361评论 1 25
  • 转载请注明:终小南 » 中文分词算法总结 什么是中文分词众所周知,英文是以 词为单位的,词和词之间是靠空格隔开,而...
    kirai阅读 9,953评论 3 24
  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 174,288评论 25 709
  • 为何想写这篇文章?缘起两天前一位妈妈在微信上对我的倾诉。 她看了我在2月6号写的一篇关于原生家庭的文章: www....
    一条小鲷鱼阅读 848评论 0 0
  • 有个朋友在做建材类橱柜定制,他自己有工人采购板材,按照客户需要定做产品,主要依靠以前建立起来的关系客户,没有自己独...
    黑面小生阅读 1,111评论 10 0