huffman编译码

1.算法描述

利用哈夫曼编码进行信息通信可以较大提高信道利用率,缩短信息传输时间,降低传输成本。但是,这要求在发送端通过一个编码系统对待传数据预先编码;在接收端将传来的数据进行译码(复原)。对于双工信道(即可以双向传输信息的信道),每端都需要一个完整的编/译码系统。试为这样的信息收发站写一个哈夫曼码的编译码系统。

哈夫曼编码(Huffman Coding),又称霍夫曼编码,是一种编码方式,哈夫曼编码是可变字长编码(VLC)的一种。Huffman于1952年提出一种编码方法,该方法完全依据字符出现概率来构造异字头的平均长度最短的码字,有时称之为最佳编码,一般就叫做Huffman编码(有时也称为霍夫曼编码)。


设某信源产生有五种符号u1、u2、u3、u4和u5,对应概率P1=0.4,P2=0.1,P3=P4=0.2,P5=0.1。首先,将符号按照概率由大到小排队,如图1所示。编码时,从最小概率的两个符号开始,可选其中一个支路为0,另一支路为1。这里,我们选上支路为0,下支路为1。再将已编码的两支路的概率合并,并重新排队。多次重复使用上述方法直至合并概率归一时为止。从图1中(a)和(b)可以看出,两者虽平均码长相等,但同一符号可以有不同的码长,即编码方法并不唯一,其原因是两支路概率合并后重新排队时,可能出现几个支路概率相等,造成排队方法不唯一。一般,若将新合并后的支路排到等概率的最上支路,将有利于缩短码长方差,且编出的码更接近于等长码。这里图1中(a)的编码比(b)好。


赫夫曼码的码字(各符号的代码)是异前置码字,即任一码字不会是另一码字的前面部分,这使各码字可以连在一起传送,中间不需另加隔离符号,只要传送时不出错,收端仍可分离各个码字,不致混淆。

实际应用中,除采用定时清洗以消除误差扩散和采用缓冲存储以解决速率匹配以外,主要问题是解决小符号集合的统计匹配,例如黑(1)、白(0)传真信源的统计匹配,采用0和1不同长度游程组成扩大的符号集合信源。游程,指相同码元的长度(如二进码中连续的一串0或一串1的长度或个数)。按照CCITT标准,需要统计2×1728种游程(长度),这样,实现时的存储量太大。事实上长游程的概率很小,故CCITT还规定:若l表示游程长度,则l=64q+r。其中q称主码,r为基码。编码时,不小于64的游程长度由主码和基码组成。而当l为64的整数倍时,只用主码的代码,已不存在基码的代码。

长游程的主码和基码均用赫夫曼规则进行编码,这称为修正赫夫曼码,其结果有表可查。该方法已广泛应用于文件传真机中。


2.仿真效果预览

matlab2022a仿真结果如下:




3.MATLAB部分代码预览

function [zipped,info] = norm2huff(vector)




% ensure to handle uint8 input vector

if ~isa(vector,'uint8'),

error('input argument must be a uint8 vector')

end


% vector as a row

vector = vector(:)';


% frequency

f = frequency(vector);


% simbols presents in the vector are

simbols = find(f~=0); % first value is 1 not 0!!!

f = f(simbols);


% sort using the frequency

[f,sortindex] = sort(f);

simbols = simbols(sortindex);


% generate the codewords as the 52 bits of a double

len = length(simbols);

simbols_index = num2cell(1:len);

codeword_tmp = cell(len,1);

while length(f)>1,

index1 = simbols_index{1};

index2 = simbols_index{2};

codeword_tmp(index1) = addnode(codeword_tmp(index1),uint8(0));

codeword_tmp(index2) = addnode(codeword_tmp(index2),uint8(1));

f = [sum(f(1:2)) f(3:end)];

simbols_index = [{[index1 index2]} simbols_index(3:end)];

% resort data in order to have the two nodes with lower frequency as first two

[f,sortindex] = sort(f);

simbols_index = simbols_index(sortindex);

end


% arrange cell array to have correspondance simbol <-> codeword

codeword = cell(256,1);

codeword(simbols) = codeword_tmp;


% calculate full string length

len = 0;

for index=1:length(vector),

len = len+length(codeword{double(vector(index))+1});

end

% create the full 01 sequence

string = repmat(uint8(0),1,len);

pointer = 1;

for index=1:length(vector),

code = codeword{double(vector(index))+1};

len = length(code);

string(pointer+(0:len-1)) = code;

pointer = pointer+len;

end


% calculate if it is necessary to add padding zeros

len = length(string);

pad = 8-mod(len,8);

if pad>0,

string = [string uint8(zeros(1,pad))];

end


% now save only usefull codewords

codeword = codeword(simbols);

codelen = zeros(size(codeword));

weights = 2.^(0:51);

maxcodelen = 0;

for index = 1:length(codeword),

len = length(codeword{index});

if len>maxcodelen,

maxcodelen = len;

end

if len>0,

code = sum(weights(codeword{index}==1));

code = bitset(code,len+1);

codeword{index} = code;

codelen(index) = len;

end

end

codeword = [codeword{:}];


% calculate zipped vector

cols = length(string)/8;

string = reshape(string,8,cols);

weights = 2.^(0:7);

zipped = uint8(weights*double(string));


% store data into a sparse matrix

huffcodes = sparse(1,1); % init sparse matrix

for index = 1:numel(codeword),

huffcodes(codeword(index),1) = simbols(index);

end


% create info structure

info.pad = pad;

info.huffcodes = huffcodes;

info.ratio = cols./length(vector);

info.length = length(vector);

info.maxcodelen = maxcodelen;



%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

function codeword_new = addnode(codeword_old,item)

codeword_new = cell(size(codeword_old));

for index = 1:length(codeword_old),

codeword_new{index} = [item codeword_old{index}];

end

A_039

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 220,192评论 6 511
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,858评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,517评论 0 357
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,148评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,162评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,905评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,537评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,439评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,956评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,083评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,218评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,899评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,565评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,093评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,201评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,539评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,215评论 2 358

推荐阅读更多精彩内容

  • 整个库的核心部分之一。参考:https://blog.csdn.net/g332065255/article/de...
    云峰yf阅读 4,308评论 0 2
  • 目录faster rcnn论文备注caffe代码框架简介faster rcnn代码分析后记 faster rcnn...
    db24cc阅读 9,616评论 2 12
  • 设原始数据规模为n,需要采样的数量为k 先选取数据流中的前k个元素,保存在集合A中; 从第j(k + 1 <= j...
    Impossible安徒生阅读 295评论 0 0
  • 教程一:视频截图(Tutorial 01: Making Screencaps) 首先我们需要了解视频文件的一些基...
    90后的思维阅读 4,702评论 0 3
  • 目录 1.go 各种代码运行 2.go 在线编辑代码运行 3.通过 Gob 包序列化二进制数据 4.使用 ...
    杨言锡阅读 1,130评论 0 1