1、当象形文字开始变得越来越多时,单靠人的记忆已经不能接受更多了,这时候就会出现概念上的聚类,举例,“日”本意为太阳,后引申为一天。这个在原理上是与自然语言处理或机器学习是相通的。但聚类也会引发歧义,一个比较好的解决方法就是依据上下文。
2、翻译这件事之所以能达成,仅仅是因为不同的文字系统在记录信息的能力上是等价的。文字只是信息的载体,并不是信息本身。
3、信息的冗余是信息安全的保障,同样一份内容重复三遍,可保证不丢失,这对信道编码有指导意义,罗塞塔石碑;语言的数据,即语料,多种语言的相互对照很重要,是机器翻译研究的基础。
4、宽带互联网是宽带传输,因此页面设计的比较大;而无线WAP互联网由于空中频道带宽的限制,传输速度要慢一到两个数量级,因此WAP页面都非常小。
5、通信的原理和信息传播的摸型
(信源)编码和最短编码
解码的规则,语法
聚类
校验位
双语对照文本,语料库和机器翻译
多义性和利用上下文消除歧义性
Chapter 1 文字和语言vs数字和信息
最后编辑于 :
©著作权归作者所有,转载或内容合作请联系作者
- 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
- 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
- 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
推荐阅读更多精彩内容
- 命名实体识别 命名实体的提出源自信息抽取问题,即从报章等非结构化文本中抽取关于公司活动和国防相关活动的结构化信息,...
- Deep Learning 算法已经在图像和音频领域取得了惊人的成果,但是在 NLP 领域中尚未见到如此激动人心的...