PDX公有链,旨在打造公共的区块链生态体系,作为公共的区块链IaaS,以强有力的底层专利技术,助力企业级客户、开发者团体和普通用户都能享受到区块链带来的便利和乐趣。
区块链,正在一步步改变我们的生活。
什么是流数据?
流数据是一组顺序、大量、快速、连续到达的数据序列,一般情况下,数据流可被视为一个随时间延续而无限增长的动态数据集合。可应用于网络监控、传感器网络、航空航天、气象测控和金融服务等领域。
流数据优势及特点
对于持续生成动态新数据的大多数场景,流数据处理方法适用于大多数行业和大数据使用案例。
流数据具有四个特点:
1)数据实时到达;
2)数据到达次序独立,不受应用系统所控制;
3)数据规模宏大且不能预知其最大值;
4)数据一经处理,除非特意保存,否则不能被再次取出处理,或者再次提取数据代价昂贵。
流数据处理系统的查询处理
内存需要:大部分数据流是无法预知最终大小的;在这种情况下,如果要在数据流上计算一个准确的结果(如累计数),需要的存储空间将无法预知,有可能超过可用的内存。为了达到高速的处理数据,流数据处理一般优先采用基于内存的数据处理算法,无须存取磁盘。
近似查询结果:在内存容量有限的情况下,获得一个准确的结果是不太可能的。很多时候我们并不需要一个准确的答案。在流数据处理领域,数据流上的查询研究了一系列的数据缩减或者摘要构建技术,如:数据轮廓,随机采样,真方图,小波变换等。
滑动窗口:从数据流上产生近似查询结果的一种技术。滑动窗口上的查询处理指的是在数据的最近数据元素(记录)上执行查询,而不是在数据流的所有历史记录上执行查询。滑动窗口强调最近的数据,即最近的数据权重更高。
查询数据流的历史数据:在标准的流数据处理模式中,当某个数据元素处理结束后,将无法再访问到。流数据允许新提交的即席查询参考历史数据。这里所说的历史数据只是一个摘要,或者聚集汇总。这些数据摘要有助于为未来的即席查询计算一个近似的结果。
多查询优化与查询计划的适应性 :在流数据处理系统中,大多数的查询是长时间运行的持续查询。系统同时运行大量的查询,可以通过多查询优化技术,提高查询处理的性能。
堵塞操作:该操作需要看到所有的输入数据以后才能开始产生输出结果。排序、Sum、Count、Min、Max、Avg等聚集操作都是堵塞操作,因为只有看到所有的输入数据,才能开始产生输出。让流数据处理系统有效的处理排序、聚集等操作是一个严峻的挑战。 其中有一种称为标点(Punctuation,标点就是一个断言,它规定在剩下的数据流数据中,什么数据可出现,什么数据不可出现。)的技术,来帮助其操作做出决策。
PDX与流数据
当我们做交易时,交易的payload中可以存放数据,对于kb级别的数据可以直接放到交易payload中,进行传输、执行。如果说数据的字节数是比较大的,这个时候再放到交易中,进行传输执行的话,就不太现实了。首先一次网络传输对数据量的大小是有限制的,其次,交易的执行计算gas时,其中会根据字节的大小进行计算,大的数据消耗的gas也是比较大的。
为了实现大数据的处理,我们添加了一个数据服务器,当交易需要处理大数据时,首先把数据的具体内容存放到数据服务器中,服务器返回一个唯一id,然后我们将这个唯一id放到交易体中。当交易执行时,从交易的参数中获取数据的唯一id,再通过唯一id从数据服务器中将数据取出,进行数据的具体处理。