大师兄的数据结构学习笔记(八): 哈夫曼树与哈夫曼编码

大师兄的数据结构学习笔记(七):堆
大师兄的数据结构学习笔记(九): 图

一、哈夫曼树

1. 带权路径长度(WPL)
  • 树的所有叶结点的带权路径长度之和,称为树的带权路径长度,表示为WPL。
  • 公式:WPL = \sum^n_{k=1}w_kl_k
2. 什么是哈夫曼树(Huffman Tree)
  • 如果一颗二叉树的WPL达到最小,称为最优二叉树或哈夫曼树。


3. 哈夫曼树的构造
  • 每次把权值最小得两颗二叉树合并。
// 树结构
struct TreeNode 
{
    int Weight;    //权值
    int lchild, rchild, parent;  // 左、右和双亲结点的下标
};

// 选出权值最小的两个结点
void SelectMin(TreeNode a[], int n, int& s1, int& s2)
{
    for (int i = 0; i < n; i++)
    {
        if (a[i].parent == -1)
        {
            s1 = i;
            break;
        }
    }
    for (int i = 0; i < n; i++)
    {
        if (a[i].parent == -1 && a[s1].Weight > a[i].Weight)
            s1 = i;
    }
    for (int j = 0; j < n; j++)
    {
        if (a[j].parent == -1 && j != s1)
        {
            s2 = j;
            break;
        }
    }
    for (int j = 0; j < n; j++)
    {
        if (a[j].parent == -1 && a[s2].Weight > a[j].Weight && j != s1)
            s2 = j;
    }
}

// 构造哈夫曼树
void Huffman(TreeNode huftree[],int w[],int n)
{
    for (int i = 0; i < 2 * n - 1; i++)  // 初始化
    {
        huftree[i].parent = -1;
        huftree[i].lchild = -1;
        huftree[i].rchild = -1;
    }
    for (int i = 0; i < n; i++) // 构造只有根节点的二叉树 
    {
        huftree[i].Weight = w[i];
    }
    for (int k = n; k < 2 * n - 1; k++) // 从权值最小的两个合并
    {
        int i1, i2;
        SelectMin(huftree, k, i1, i2);
        huftree[i1].parent = k;
        huftree[i2].parent = k;
        huftree[k].lchild = i1;
        huftree[k].rchild = i2;
        huftree[k].Weight = huftree[i1].Weight + huftree[i2].Weight;
    }
}
4. 哈夫曼树的特点
  • 没有度为1的结点。
  • n个叶结点的哈夫曼树共有2n-1个结点。
  • 任意非叶结点的左右子树交换后仍是哈夫曼树。
  • 对同一组权值,可以存在不同构的两个哈夫曼树。

二、哈夫曼编码

1. 关于编码
  • 在通信行业中,通常用二进制编码表示字母或其他字符,并用这样的编码来表示字符序列, 例: A,B,C分别用00,01,10表示,ABC就是000110。
2. 前缀编码
  • 实际应用中各字符的出现频度不相同,为了让编码序列的总长度更小,所需总空间最少,需要使用短编码表示大频率字符,用长编码表示小频率字符。
  • 译码的二义性问题,例:A,B,C分别为0,1,11,011可以译成ABB或AC。
  • 为了解决这个问题,需要使用前缀编码,要求任一字符的编码都不能是另一字符编码的前缀。
3. 用二叉树设计前缀编码
  • 左右分支分表为0,1。
  • 字符只在叶节点上
  • 例:A:0 C:10 B:110 D:111
4. 用哈夫曼树设计前缀编码
  • 假设需传送的电文为‘ABBCCCD’, 二叉树编码为'0110110101010111'(16位)。
  • 使用频率(权值)为:A(1) B(2) C(3) D(1)。
  • 这时如果使用哈夫曼树,可以根据权重优化编码,使编码最短。
  • 例: A(111) B(10) C (0) D(110)
  • 优化后的编码为:'1111010000110'(13位)
4. 实现哈夫曼编码
#ifndef HUFFMANCODE
#define HUFFMANCODE
#include<string>
using namespace std;

// 哈夫曼树结点结构
struct Node {
    int Weight;                         // 权重
    char ch;                            // 存储符号
    string code;                        // 对应的编码
    int leftChild, rightChild, parent;  // 树的元素
};

class HuffmanCode
{
public:
    HuffmanCode(string str);                            // 构造函数
    ~HuffmanCode();                                     // 析构函数
    void getMin(int& first, int& second, int parent);   // 选取两个最小的元素
    void Merge(int first, int second, int parent);      // 合并结点
    void Encode();                                      // 编码
    void Decode(string str);                            // 解码
private:
    Node* HuffmanTree; // 哈夫曼树
    int leafSize;  // 叶结点个数,也就是字符种类
};
#endif // !HUFFMANCODE
#include <iostream>
#include "HuffmanCode.h"

//析构函数
HuffmanCode::~HuffmanCode()
{
    delete[]HuffmanTree;
}

// 构造函数
HuffmanCode::HuffmanCode(string str)
{
    int len = (int)str.size();
    int arr[256], i;
    HuffmanTree = new Node[256]; // 分配空间

    for (i = 0; i < (2 * len - 1); i++)
    {
        HuffmanTree[i].leftChild = -1;
        HuffmanTree[i].rightChild = -1;
        HuffmanTree[i].parent = -1;
        HuffmanTree[i].code = "";
    }
    
    memset(arr, 0, sizeof(arr)); // 初始化内存空间
    for (i = 0; i < len; i++)  // 统计字符出现次数
    {
        arr[str[i]]++;
    }
    leafSize = 0;
    for (i = 0; i < 256; i++)
    {
        if (arr[i] != 0)
        {
            HuffmanTree[leafSize].ch = (char)i;
            HuffmanTree[leafSize].Weight = arr[i];
            leafSize++;
        }
    }

    int first, second;
    for (i = leafSize; i < (2 * leafSize - 1); i++) // 合并两个最小的结点
    {
        getMin(first, second, i);
        Merge(first, second, i);
    }
}

// 合并两个weight最小的结点
void HuffmanCode::Merge(int first, int second, int parent)
{
    HuffmanTree[first].parent = parent;
    HuffmanTree[second].parent = parent;
    HuffmanTree[parent].leftChild = first;
    HuffmanTree[parent].rightChild = second;
    HuffmanTree[parent].Weight = HuffmanTree[first].Weight + HuffmanTree[second].Weight;
}

// 选择两个weight最小的元素
void HuffmanCode::getMin(int& first, int& second, int parent)
{
    double weight = 0;
    int i;

    for (i = 0; i < parent; i++)
    {
        if (HuffmanTree[i].parent != -1) // 已选过
        {
            continue;
        }
        if (weight == 0) // 第一次选
        {
            weight = HuffmanTree[i].Weight;
            first = i;
        }
        else if (HuffmanTree[i].Weight < weight)
        {
            weight = HuffmanTree[i].Weight;
            first = i;
        }
    }

    weight = 0;
    for (i = 0; i < parent; i++)
    {
        if (HuffmanTree[i].parent != -1 || i == first) // 如果是first跳过
        {
            continue;
        }
        if (weight == 0) // 如果是第一次选到
        {
            weight = HuffmanTree[i].Weight;
            second = i;
        }
        else if (HuffmanTree[i].Weight < weight)
        {
            weight = HuffmanTree[i].Weight;
            second = i;
        }
    }
}


// 编码
void HuffmanCode::Encode()
{
    string code;
    int i, j, k, parent;

    for (i = 0; i < leafSize; i++)
    {
        j = i;
        code = "";
        while (HuffmanTree[j].parent != -1)
        {
            parent = HuffmanTree[j].parent;
            if (j == HuffmanTree[parent].leftChild)
            {
                code += "0";
            }
            else
            {
                code += "1";
            }
            j = parent;
        }
        for (k = (int)code.size() - 1; k >= 0; k--)
        {
            HuffmanTree[i].code += code[k];
        }
        std::cout << HuffmanTree[i].ch << "的编码为:" << HuffmanTree[i].code << endl;
    }
}

// 解码
void HuffmanCode::Decode(string str)
{
    string decode, temp;
    int len = (int)str.size();
    int i, j;
    decode = temp = "";
    for (i = 0; i < len; i++)
    {
        temp += str[i];
        for (j = 0; j < leafSize; j++)
        {
            if (HuffmanTree[j].code == temp)
            {
                decode += HuffmanTree[j].ch;
                temp = "";
                break;
            }
        }
        if (i == len - 1 && j == leafSize)
        {
            cout << "未找到编码" << endl;
            return;
        }
    }
    cout << decode << endl;
}
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,607评论 6 507
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,239评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,960评论 0 355
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,750评论 1 294
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,764评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,604评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,347评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,253评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,702评论 1 315
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,893评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,015评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,734评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,352评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,934评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,052评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,216评论 3 371
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,969评论 2 355