RDMA技术简介

  RDMA(Remote Direct Memory Access)全称为远程直接内存访问,是从DMA衍生出来的一种技术,此项技术特点在于在于不需要CPU干预而直接访问远程主机内存,重点是为解决网络传输中服务器端数据处理的延迟。本质上RDMA是一种硬件技术,它通过网络把数据直接传入计算机的存储区,并将数据从一个系统快速传输到另外一台远程主机的存储器中,此传输过程只需要网卡参与,基本上不需要耗费CPU的处理功能,因此节省了大量的CPU资源。同时又消除了操作系统操作外部存储器的复制及内存空间切换的开销,因而减少CPU周期的占用以及内存控制器的耗费,从而明显提高传输性能,为保障上层应用的性能提供极好的基础。

技术背景

  在传统的以太网传输中,一个应用和另外一台主机上的应用发生数据交换时,一般需要从用户空间将数据传递至操作系统的内核空间,内核通过网络接口将数据传输出去;在对端的主机上,需要内核从网口接收数据,完成接受以后再通知上层应用,最终完成一个传输过程。在此过程中用户空间到内核空间的处理以及操作系统的干预耗费了大量时间,在面对高性能计算、大数据分析和浪涌型IO高并发以及一些低时延应用时,现有的TCP/IP软硬件架构和应用高CPU消耗的技术特征根本不能满足应用的需求。这要有体现在

  • 处理延时过大,数十微秒;
  • 多次内存拷贝、中断处理;
  • 上下文切换、复杂的TCP/IP协议处理、网络延时过大、存储转发模式和丢包导致额外延时;

上述特点限制了应用的实时性,为了改变这种现状,引入了RDMA技术。


基于TCP/IP协议栈的以太网传输技术

技术特征

RDMA技术特征

  如上图所示,RDMA技术绕过了操作系统提供的协议栈,直接使用内存Buffer实现应用程序之间的通信,这样带来的好处是显而易见的:

  • 绝对的低延时
  • 高效的吞吐
  • 极少的CPU参与

标准组织

  RDMAC(RDMA Consortium)和IBTA(InfiniBand Trade Association)主导了RDMA发展,RDMAC是IETF的一个补充并主要定义的是iWRAP和iSER,IBTA是infiniband的全部标准制定者,并补充了RoCE v1和RoCE v2的标准化。IBTA解释了RDMA传输过程中应具备的特性行为,而传输相关的Verbs接口和数据结构原型是由另一个组织OFA(Open Fabric Alliance)来完成。
RDMA, DDP, MPA and Verbs Version 1.0 Specifications:

Sockets Direct Protocol (SDP) Version 1.0 Specifications:

iSCSI Extensions for RDMA (iSER) and Datamover Architecture for iSCSI (DA) Version 1.0 Specifications:

Background Material:

Press Releases:

RDMA网络

  提出RDMA技术后,需要制定相关协议来支持RDMA传输,目前,有三类RDMA网络,分别是IB、RoCE、iWARP。其中,IB网络是专为RDMA设计的网络,从硬件级别保证可靠传输 , 而RoCE 和 iWARP都是基于以太网的RDMA技术,如下图所示。


RDMA网络
  • IB(InfiniBand )网络:基于RDMA提出的一种新型网络技术,需要支持该技术的NIC和交换机,该网络依靠如下特征保证网络转发的低时延

    -- 采用Cut-Through转发模式,减少转发时延;
    -- 基于Credit的流控机制,保证无丢包;
    -- 硬件卸载;
    -- Buffer尽可能小,减少报文被缓冲的时延;

  • RoCE(RDMA Over Converged Ethernet )网络:一项允许在以太网上执行RDMA的网络协议

  • IWARRP(Internet Wide Area RDMA Protocol)网络:一项可以完全兼容现有以太网和RDMA网络的协议,同时具有IB和RoCE协议的特征,用在传统网络中时,会丧失RDMA的所有特性

  RoCE协议存在RoCEv1和RoCEv2两个版本,主要区别在于RoCEv1是基于以太网链路层实现的RDMA协议(交换机需要支持PFC等流控技术,在物理层保证可靠传输),而RoCEv2是以太网TCP/IP协议中UDP层实现。三种协议中性能最好的为IB网络,但此网络的部署成本太高,目前应用较多的是RoCE网络。

RDMA网络比较

  目前Linux系统从kernel 4.9版本开始支持RDMA,其他操作系统可能需要安装OFED(Open Fabrics Enterprise Distribution)来支持RDMA网络,OFED协议栈由OpenFabric联盟发布,分为Linux和windows版本,可以无缝兼容已有应用。在软件实现方面,这三种协议可以同时兼容libibverbs,因此在编写应用程序时,只要使用libibverbs接口,就可以无缝兼容这三种网络。
RDMA基于verbs接口开发示意图.png

小结

  本文主要介绍了RDMA的技术背景、技术特征、组织标准以及RDMA的网络构成,并简要解释了RDMA的开发方式。

  • 技术背景
  • 技术特征
  • 组织标准
  • 网络构成
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,383评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,522评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,852评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,621评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,741评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,929评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,076评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,803评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,265评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,582评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,716评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,395评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,039评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,798评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,027评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,488评论 2 361
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,612评论 2 350

推荐阅读更多精彩内容