IPFS大咖谈(一)| 分布式系统模型及关键问题分析

2019年1月5日,分布式存储的创新与未来——首届亚太IPFS产业发展高峰论坛成功举办。作为一场产学研各界汇聚的行业交流盛会,现场多位嘉宾分享干货满满,获得与会者一致好评。

其中,来自中山大学数据科学与计算机学院的陈鹏飞教授《分布式系统模型及关键问题分析》尤为瞩目,本文即为陈鹏飞教授现场演讲精华。

1、数据时代,分布式系统重要性凸显

1分钟Internet会产生多少数据呢?

 YouTube一分钟产生130万个video,Google有200万个搜索查询,Facebook一分钟有600万个浏览查看。

据权威咨询公司Gartner报告,企业互联网数据大概每年有50%的增长,报告同时预测到2020年左右,全球的数据量就会达到35个ZB的量级。35个ZB大概需要有80亿块的4T的硬盘才能装得下。

随着5G时代的到来,数据量增长将更迅速,需要通过网络将互相隔离的存储设备连接起来,形成一个比较庞大的分布式存储系统。通常说的分布式存储指的是一个持久性、制度化、分布式的存储系统,通常有两大类:中心化的分布式存储系统,去中心化的P2P存储系统。 

中心化的分布式存储系统,将数据存储在一些分布的、网络互联的节点上,最终形成一个一体的命名空间。这一类文件系统是中心化的分布式文件系统,有一个集中的控制节点,整体是树状结构;

另外一类文件系统是去中心化或者说P2P的文件系统。这类文件系统是一个网状结构,没有中心控制节点。

IPFS就是一个典型的P2P的文件系统。它跟传统的HTTP网络七层协议一样,它底层有网络层、路由层、交换层以及典型的属性存储结构。网络层采用存储结构,实现了按内容去搜索。在IPFS里面比较核心的是共识协议,采用存储量证明、可能性证明、可检索性证明,是对区块链系统的可扩展性的补充。

2、分布式存储系统的发展历程

分布式存储的发展历程要追溯到1983年。整个分布式文件系统的发展,无论是中心化的分布式文件系统,还是去中心化的P2P的文件系统,发展过程是不断交叉的,可能在这一时期集中型的文件系统占优势,下一阶段可能就是去中心化的点对点式的文件系统占优势。各个阶段的分布式存储项目盘点如下:

1983年,AFS。由卡耐基梅隆大学开发出文件系统AFS。这个系统分布在网络上的不同节点,具有分布式跨平台,高安全性等特点。

1995年,Zebra。用于大规模并行系统上的分布式系统,采用了分区分片的技术,技术上有很强的可靠性,这类文件系统主要是用在一些高密度计算任务上。

2000年,Oceanstore。一种点对点的分布式文件系统,可以在全球部署,具有很强的网络穿透能力,在不同的子网络间互联,但这个文件系统没有用到当前的区块链激励制度,参与者自愿去贡献存储空间。激励的缺失导致底层的基础设施不稳定,缺乏保障。

2003年,GFS。它是一个集中式的文件系统,需要有一个主控节点去管控整个集群的任务的调度、数据的分布。

2005年,XrootD。这个项目是构造一个全局的或者是叫全球的文件系统。这类文件系统没有实现它底层的细节,只是把不同的文件空间做了一个关联,每一个机器都有自己的文件系统,不同的文件系统之间没有用协议去互联,只是用不同的文件系统做一个代理映射,挂到不同的节点上,然后串起来形成一个统一的空间。

2006年,HDFS。这类文件系统它有一个很大的好处,它可以跑在廉价的硬件上,有很强的可靠性和容错的一个措施。

2014年,IPFS。这类P2P的文件存储协议问世,主要是用来做归档存储,可能大家一年或者是很久不访问的数据会丢在上面,很快的完成文档的存储和检索。

伴随着互联网技术以及硬件的发展,分布式系统的出现、演变一直未曾止步。随着数据量的剧增,对于分布式系统的稳定性、可拓展性、安全性要求也越来越高。

3、分布式存储系统的关键问题

当前的分布式存储系统主要是沿着P2P文件系统方向发展。每一个P2P文件系统都会牵扯到一个基本原理:数据与存数据的节点之间,需要做一个哈希映射,大家存到一个哈希空间里面,数据跟节点的ID都在一个存储哈希空间里,节点与数据分在不同类型的拓朴结构上(环状或树状),最后将节点接入网络,把数据存在对应的节点上。最终实现按数据的文件路径访问,而不是按地址访问。

分布式系统里边需要考虑这样几方面的问题:容错性,可扩展性,安全性、稳定性、效率等等。在实现文件系统的时候,大家要考虑这样几个问题:

1、  服务器如何设计?设计成有状态还是没有状态的,这个关系到系统的稳定性;

2、  系统要有一些基本的文件语义,怎么打开文件,怎么处理文件锁?

3、  容错问题。如何保证数据的一致性或者可靠性呢?

4、  文件检索的效率问题。一般的做法是检索者在存储网络上依据内容挨个检索节点,先找到某个节点,再找它的邻居,但这样效率太低。需要一套高速的解决方案,提升检索效率。

4、分布式存储的展望

基于硬件的资源利用主要是计算与存储。计算大家可能听得比较多,主要边缘计算,雾计算,甚至华为提出来的无边界计算。

相对于计算,存储也有类似的概念。目前比较常见的几个概念是云存储,集中化存储,无边界存储。所谓的无边界存储,是指数据存在各种各样的设备、数据平台和存储系统里面。据预测,到2020年,全球智能物联网设备将达到200亿台以上,海量的智能设备意味着巨大的算力资源以及存储空间资源将处于闲置,如何充分管理、利用这些闲置资源,将是一个想象力巨大的市场。

当前比较火的IPFS能否为以上闲置内存资源,提供可靠、稳定的技术支撑,值得期待。

对于分布的计算力资源,又该如何充分利用呢?目前全球范围内,布局分布式计算的公司屈指可数,谷歌、IBM等行业巨头在这一领域的默默探索,同时他们的技术也遥遥领先。

星际鑫航立足于IPFS产业,致力于为行业提供分布式存储落地解决方案,目前已开发出硬件资源统一管理和监控的操作系统Sarah OS,其介绍以及功能特点如下:

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,417评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,921评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,850评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,945评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,069评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,188评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,239评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,994评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,409评论 1 304
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,735评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,898评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,578评论 4 336
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,205评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,916评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,156评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,722评论 2 363
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,781评论 2 351

推荐阅读更多精彩内容

  • 关于Mongodb的全面总结 MongoDB的内部构造《MongoDB The Definitive Guide》...
    中v中阅读 31,916评论 2 89
  • IPFS - Content Addressed, Versioned, P2P File System (dra...
    wade_van阅读 3,112评论 5 14
  • 分布式系统面临的第一个问题就是数据分布,即将数据均匀地分布到多个存储节点。另外,为了保证可靠性和可用性,需要将数据...
    olostin阅读 4,565评论 2 26
  • 想说的话,其实很多,但是只能以流水式写下这些话。我知道我这些年的书是白读了,对语言表达存在一定的问题。 我想不停的...
    迷离25阅读 188评论 4 0
  • (二) 婆婆一阵风似的刮进门来。 此时,如萍更哭得梨花带雨,另一间房里,男人无声无息。 婆婆面对着躺床上的如萍大声...
    释然心理阅读 246评论 0 0