DAY14 信息论重要模型

【通识课学习日志】

本训练营:林超所长的通识课

今日主题:第十五课   信息论重要模型

学习日期:2022年10月2日

本课能量金句:组成你人生每一刻的所有人事物,都是通过你给出去的想法和感受吸引回来的,你生命中的一切都不是偶发的,你接收到的所有事物都是以你给出去的为基础。

                                                                                                         ——朗达·拜恩《力量》


1. 三个重要公式

1.1E=MC^2

其中E是指能量,M值物质,C是指光速。这个公式把能量和物质通过一个抽象的公式联系了起来。

1.2ΔxΔp≥h/4π

这个公式是海森堡测不准原理,其指出:不可能同时精确确定一个基本粒子的位置和动量,在微观世界中粒子会因为人类的观察而改变运动轨迹。这个原理告诉我们,我们真正观察到的东西是客观世界和主观想象的结合。

1.3信息熵

1.3.1定义:信息熵(information entropy)是信息论的基本概念。描述信息源各可能事件发生的不确定性。20世纪40年代,香农(C.E.Shannon)借鉴了热力学的概念,把信息中排除了冗余后的平均信息量称为“信息熵”,并给出了计算信息熵的数学表达式,信息熵的提出解决了对信息的量化度量问题。

1.3.2解读1:能量守恒定律告诉我们能量不会凭空产生,也不会凭空消失,只会由一种形式转换为另一种形式。但信息是不守恒的,意味着人类之间分享知识可以为这个世界创造纯粹增量的事情。

解读2:由于信息熵是对信息平均信息量的度量,因此一种信息出现的可能性越平均,信息熵越大。比如在一个盒子里面各种一半蓝色的皮卡丘和黄色的皮卡丘,这样的话盒子里的信息熵是最大的,但如果只装黄色或只装蓝色的皮卡丘则信息熵几乎为0.再比如有一场饭局,别人问你吃什么,这个时候回答“随便”的信息熵大于回答“不吃辣”的信息熵,大于直接回答“吃这家店”的信息熵。

2. 霍夫曼编码&奥卡姆提刀

2.1定义

①霍夫曼编码(英语:Huffman Coding),又译为哈夫曼编码、赫夫曼编码,是一种用于无损数据压缩的熵编码(权编码)算法。由大卫·霍夫曼在1952年发明。

在计算机数据处理中,霍夫曼编码使用变长编码表对源符号(如文件中的一个字母)进行编码,其中变长编码表是通过一种评估来源符号出现机率的方法得到的,出现机率高的字母使用较短的编码,反之出现机率低的则使用较长的编码,这便使编码之后的字符串的平均长度、期望值降低,从而达到无损压缩数据的目的

例如,在英文中,e的出现机率最高,而z的出现概率则最低。当利用霍夫曼编码对一篇英文进行压缩时,e极有可能用一个比特来表示,而z则可能花去25个比特。用普通的表示方法时,每个英文字母均占用一个字节,即8个比特。二者相比,e使用了一般编码的1/8的长度,z则使用了3倍多。倘若我们能实现对于英文中各个字母出现概率的较准确的估算,就可以大幅度提高无损压缩的比例。

②奥卡姆剃刀:如无必要,勿增实体。

2.2启发1:为了提高效率,我们应该把生活中最重要的资源,分配给人生中最高频出现的场景。比如所长举得例子,生活中电脑和手机的适用频率很高,所以这两样东西要尽量买最好的。反例是衣服,一些衣服可能只穿一两次,但是还是有人花大价钱去买,这个做法很不符合霍夫曼编码的原理。

启发2:大刀阔斧做减法,同时围绕关键领域饱和配置资源。比如所长举得例子,一般的出租屋会把客厅看电视的地方做的很大,而没有书桌的区域,由于所长几乎不花时间在看电视上,反而会话很多时间看书,因此会把看电视的区域改造成读书的地方,然后配置书桌等资源。

3. 帧间压缩算法

3.1定义

帧间压缩是通过比较时间轴上不同帧之间的数据进行压缩。帧间压缩一般是无损的。帧差值(Frame differencing)算法是一种典型的时间压缩法,它通过比较本帧与相邻帧之间的差异,仅记录本帧与其相邻帧的差值,这样可以大大减少数据量。

一场两个小时的电影在没有压缩的前提下信息量高达一千多GB,占用很大的存储空间因此必须要进行压缩。而帧间压缩算法通过关注差异量或者增量而实现无损压缩的效果。

3.2启发:通过关注信息增量而不是关注信息存量,来极大地提升效率。即是关注变化,忽略重复,可以使我们的学习效率提升N倍。

4. 互信息

4.1定义

互信息是信息论里一种有用的信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量。如果一段信息当中的互信息太多,意味着等价信息太多,就是所谓的废话太多。互信息的多少可以用冗余度来衡量。冗余的信息会使传信料率降低,但能提高通讯的抗干扰能力。

4.2启发

①冗余并不一定是坏东西,在工程领域,它可以保证系统运作的安全,在表达上,它能更好地服务于人类的认知习惯。比如正常的逗号或者句号传递的信息量很少,几乎不传递什么信息,但是人脑对一篇没有任何标点符号的文章是很难接受的,这个就是人类的认知习惯决定的。

②时代在进步,人类习惯接受的冗余度也在减少,所以我们越来越需要掌握去除冗余的方法。

③以阅读为例,去除冗余的方法:

第一步,先把在一本书里读到的关键概念零散地列出来。第二步,寻找卡片之间的连接,同时拿掉那些信息等价的卡片;③套用和矫正。即是运用已经掌握的分析框架对新的框架进行套用或者进行矫正。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,869评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,716评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,223评论 0 357
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,047评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,089评论 6 395
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,839评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,516评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,410评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,920评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,052评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,179评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,868评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,522评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,070评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,186评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,487评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,162评论 2 356

推荐阅读更多精彩内容

  • 整个宇宙最重要的就是能量和信息。 三条最重要的公式, 1.物质与能量的关系,能量和物质是相通的。 2.香农的信息熵...
    千云百鸟阅读 520评论 0 0
  • b站大咖林超的跨学科通识课讲了信息论中常见的模型。 首先通过张首晟教授最推荐的三条最重要的公式引出。质能方程真是太...
    深度思考er阅读 236评论 0 0
  • 物理世界是由信息和能量组成的。 宇宙爆炸,信息和能量一同出现 世界上任何一种物质都可以用信息量化。 能量守恒,单信...
    infoyou阅读 561评论 0 0
  • 一、世界上的股市已经被人研究了几百年, 各种直观的能够预测股市的有用信号已经被挖掘殆尽。论证过程:信息理论对这个问...
    飞行的奋进号阅读 892评论 0 1
  • 我受够了每篇论文不同的世界观与叙述方式。下文的所有公式与算法流程都将以Python代码的形式给出。人会犯错,语言有...
    ChengLin阅读 2,716评论 0 3