音视频知识图谱 2022.04

前些时间,我在知识星球上创建了一个音视频技术社群:关键帧的音视频开发圈,在这里群友们会一起做一些打卡任务。比如:周期性地整理音视频相关的面试题,汇集一份音视频面试题集锦,你可以看看《音视频面试题集锦 2022.04》。再比如:循序渐进地归纳总结音视频技术知识,绘制一幅音视频知识图谱

下面是 2022.04 月知识图谱新增的内容节选:

1)图谱路径:**采集/音频采集/声音三要素/响度******

  • 主观计量
    • 响度,反映人耳感受到的声音强弱。
    • 响度级,两个声音在听觉上认为是相同的响度时,就可以把 1000 Hz 纯音的这个声压级规定为该频率纯音的「响度级」。单位:方(Phon)。
  • 客观计量
    • 声能,声音在介质中传播时,使媒介附加的能量。质点振动动能和质点偏离平衡位置所具有的势能的总和。单位:瓦。
    • 声强,单位时间内通过垂直于声波传播方向的单位面积的平均声能。单位:瓦/平方米。
    • 声强级,人耳允许的声强范围太大;心理物理学的研究表明,人对声音强弱的感觉并不是与声强成正比,而是与其对数成正比。因此引入「声强级」。
    • 声压,声波通过媒质时,由振动所产生的压强改变量。单位:牛顿/平方米、帕斯卡。实际中更多使用声压来代表声波的振幅表现:人耳表现为压力敏感组织;压力或压强具有相对容易进行实地测量。
    • 声压级,人耳允许的声压范围太大;人对声音的强弱的感觉是与声压的对数成正比。因此引入「声压级」。通常我们说声音大小有多少分贝,说的就是「声压级」。

2)图谱路径:**采集/音频采集/声音三要素/音调******

  • 主观计量
    • 音调,人耳对声音高低的主观感受。单位:美(mel)。取频率 1000Hz、声压级为 40 分贝的纯音的音调作标准,称为 1000 美。另一些纯音,听起来调子高一倍的称为 2000 美,调子低一倍的称为 500 美,依此类推,可建立起整个可听频率内的音调标度。
    • 科学音调记号法,两个音符之间若频率相差整数倍,则听起来非常相似。因此,我们将这些音放在同一个「音调集合」中。两个音符间若相差一倍的频率,则我们称两者之间相差一个八度。
  • 客观计量
    • 频率,声音振动的快慢。单位:赫兹。

3)图谱路径:**采集/音频采集/声音数字化/采样率******

  • 奈奎斯特采样定理:一般实际应用中保证采样频率为信号最高频率的 2.56~4 倍。
  • 人类发声在 5kHz 内,听觉范围是 20~20kHz 内。数字音频的采样率需要在 40k 以上。
  • 44100Hz 由来:最早的数字录音由一台录像机加上一部 PCM 编码器制作的,由于当时使用的是 PAL 录像制式(帕制,与之对应的有 NTSC),场频 50 Hz,可用扫描线数 294 条,一条视频扫描线的磁迹中记录 3 个音频数据块,把它们相乘,就得到了 44100 这个奇葩数字。

4)图谱路径:**采集/音频采集/声音数字化/量化位深******

  • 对模拟音频信号的幅度轴进行数字化,它决定了模拟信号数字化以后的动态范围。
  • 8 bit 位深对应 48 分贝的动态范围(最大声压级 = 20 * lg(2^8) = 48.16),16 bit 位深对应 96 分贝的动态范围,24 bit 位深对应 144 分贝的动态范围。

5)图谱路径:**采集/视频采集/图像/颜色模型******

  • CIE RGB 颜色模型:基于人眼视觉感知三原色理论,CIE 通过大量实验数据建立了 RGB 颜色模型,标准化了 RGB 表示。
  • CIE XYZ 颜色模型:为了解决 RGB 模型中与负光混合所带来的种种问题,CIE 从数学上定义了三种标准基色 XYZ,形成了 CIE XYZ 颜色模型。
  • NTSC YIQ 颜色模型:在模拟电视时代,RGB 工业显示器要求一幅彩色图像由分开的 R、G、B 信号组成,而电视显示器则需要混合信号输入,为了实现对这两种标准的兼容,NTSC 基于 XYZ 模型制定了 YIQ 颜色模型,实现了彩色电视和黑白电视的信号兼容。
  • PAL YUV 颜色模型:为了解决 NTSC YIQ 的组合模拟视频信号中分配给色度信息的带宽较低而影响了图像颜色质量的问题,PAL 引入了 YUV 颜色模型,支持用不同的采样格式来调整传输的色度信息量。
  • ITU-R YCbCr 颜色模型:进入数字电视时代,ITU-R 为数字视频转换制定了 YCbCr 颜色模型,成为我们现在最常使用的颜色模型。
  • 伽马校正:在早年 CRT 显示器流行的年代,我们遇到了显示伽马问题,从而引入了伽马校正过程并延用至今。

6)图谱路径:**采集/视频采集/纹理/数据与纹理转换/纹理转数据(GPU → CPU)/Android 方案******

  • glReadPixels
    • OpenGL ES 2.0 和 3.0 均支持,兼容性较好。
    • 会影响 CPU 时钟周期,同时 GPU 会等待当前帧绘制完成,读取像素完成之后,才开始下一帧的计算,造成渲染管线停滞。
    • 读取的是当前绑定 FBO 的颜色缓冲区图像,所以当使用多个 FBO(帧缓冲区对象)时,需要确定好我们要读那个 FBO 的颜色缓冲区。
    • 在大分辨率图像的读取时性能略差。目前通用的优化方法是在 shader 中将处理完成的 RGBA 转成 YUV (一般是 YUYV 格式),然后基于 RGBA 的格式读出 YUV 图像,这样传输数据量会降低一半,性能提升明显。
  • PBO(Pixel Buffer Object,像素缓冲区对象)
    • OpenGL ES 3.0 才支持,在 Android 上有兼容性问题。
    • PBO 类似于 VBO(顶点缓冲区对象),开辟的也是 GPU 缓存,而存储的是图像数据。PBO 不连接到纹理,且与 FBO (帧缓冲区对象)无关。
    • PBO 可以在 GPU 的缓存间快速传递像素数据,不影响 CPU 时钟周期,支持异步,主要用于异步像素传输。
    • 以空间换时间,通常需要多个 PBO 交替配合使用来提升性能。
  • ImageReader
    • ImageReader 是 Android SDK 提供的 Java 层对象,其内部会创建一个 Surface 对象。
    • EGL 创建 OpenGL 上下文环境时,eglCreateWindowSurface 需要传入 ANativeWindow 对象,而 ANativeWindow 又基于 Surface 对象创建的。可以利用 ImageReader 对象的 Surface 对象作为 OpenGL 展示渲染结果的 Window Surface ,每次渲染的结果可以通过 ImageReader 对象的回调获取。
  • HardwareBuffer
    • 一个更底层的对象,代表可由各种硬件单元(GPU、传感器或上下文集线器或其他辅助处理单元)访问的缓冲区。Native 层叫 AHardwareBuffer,AHardwareBuffer 读取显存(纹理)图像数据时,需要与 GLEXT 和 EGLEXT 配合使用。
    • HardwareBuffer 是 Android 8 API >= 26 提供的用于替换 GraphicBuffer 的接口,在 API <= 25 时可以使用 GraphicBuffer。两者在使用步骤上基本一致,均可以用于快速读取显存(纹理)图像数据,但是 HardwareBuffer 还可以访问其他硬件的存储器,使用更广泛。
  • 性能和实现选择
    • 大分辨率情况,ImageReader、PBO、HardwareBuffer 明显优于 glReadPixels 方式。一般 HardwareBuffer、ImageReader、PBO 三种方式性能相差不大,HardwareBuffer 理论上性能最优。
    • Native 层建议选择 PBO 方式,超大分辨率建议尝试 HardwareBuffer 方式,Java 层建议使用 ImageReader 方式。

如果你也对音视频技术感兴趣,比如,符合下面的情况:

  • 在校大学生 → 学习音视频开发
  • iOS/Android 客户端开发 → 转入音视频领域
  • 直播/短视频业务开发 → 深入音视频底层 SDK 开发
  • 音视频 SDK 开发 → 提升技能,解决优化瓶颈

我们创建了一个音视频社群,vx 搜索『gjzkeyframe』 关注『关键帧Keyframe』咨询,或知识星球搜『关键帧的音视频开发圈』,了解一下这个社群,根据自己的情况按需加入


下面是 2022.04 月的知识图谱新增内容快照(图片被平台压缩不够清晰,可以加文章后面微信索要清晰原图):

2022.04 知识图谱新增内容

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,245评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,749评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,960评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,575评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,668评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,670评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,664评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,422评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,864评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,178评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,340评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,015评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,646评论 3 323
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,265评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,494评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,261评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,206评论 2 352

推荐阅读更多精彩内容