基于spark实现emd算法

emd（empirical mode decomposition）算法广泛用于非平稳时间序列的平稳性处理，其基本原理是将原始序列分解为一系列本征模函数（IMFs）。在数据量比较大的情形下，单机难以处理，可以借助spark分布式计算框架将时间序列分割存储于worker节点上，在分别对每个节点上的子序列进行emd分解，最后将各个节点的结果进行叠加。这一过程需借助RDD的mapPartitions方法实现。

    def f(iterator):
        data = [x for x in iterator]
        npArray = np.array(data).astype('float32')
        imfs = emd(npArray, n_imfs=params['n_imfs'])
        imfs = np.array(imfs).T.tolist()
        return imfs
    y_label = y_label.mapPartitions(f)

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

RDD:基于内存集群计算的容错抽象
该论文来自Berkeley实验室，英文标题为：Resilient Distributed Datasets: A ...
九七学姐阅读 1,844评论 0赞 3
Apache Spark 2.2.0 中文文档 - Spark 编程指南 | ApacheCN
Spark 编程指南概述 Spark 依赖初始化 Spark 使用 Shell 弹性分布式数据集 (RDDs)...
草里有只羊阅读 3,290评论 0赞 15
冰解的破-spark
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AM...
大佛爱读书阅读 2,859评论 0赞 20
Apache Spark 2.2.0 中文文档 - Spark RDD（Resilient D...
Spark RDD（Resilient Distributed Datasets）论文概要 1: 介绍 2: R...
Joyyx阅读 1,886评论 0赞 5
买凶杀人
一如今我已经是小学五年级的学生了，很快我就要毕业，向大人的年龄迈进。在我十几年的人生中，可以说是历经苦难了。二年...
城外42阅读 2,229评论 29赞 79

1赞2赞

赞赏

手机看全文