spark mllib支持哪些机器学习算法?

Spark 2.1 Mllib
考虑到spark选型做mllib的人,最关心问题,就是spark mllib能够支持多少机器学习的算法呢?
问题很简单,就下面这么多,你看着用吧。
数据集:
• Local vector(向量)(稀疏/密集)
• Labeled point(坐标向量)(稀疏/密集)
• Local matrix(矩阵)(稀疏/密集)
• Distributed matrix(矩阵)
o RowMatrix(行矩阵)(向量矩阵)
o IndexedRowMatrix(行坐标矩阵)(indexRow)
o CoordinateMatrix(坐标矩阵)(适用于稀疏矩阵)(matrixEntry)
o BlockMatrix(块矩阵)
向量(1.0,0.0,1.0,3.0)用密集格式表示为[1.0,0.0,1.0,3.0],用稀疏格式表示为(4,[0,2,3],[1.0,1.0,3.0]) 第一个4表示向量的长度(元素个数),[0,2,3]就是indices数组,[1.0,1.0,3.0]是values数组 表示向量0的位置的值是1.0,2的位置的值是1.0,而3的位置的值是3.0,其他的位置都是0,矩阵同理。
算法包:
• Basic statistics(基本统计信息)
o summary statistics(摘要统计)
o correlations(相关性)
o stratified sampling(分层抽样)
o hypothesis testing(假设)
o streaming significance testing(流量统计)
o random data generation(随机数据生成)
• Classification and regression(分类和回归)
o linear models (SVMs, logistic regression, linear regression)(线性模型(向量机、罗辑回归、线性回归))
o naive Bayes(朴素贝叶斯)
o decision trees(决策树)
o ensembles of trees (Random Forests and Gradient-Boosted Trees)(随机森林、梯度树)
o isotonic regression(保序回归)
• Collaborative filtering(协同过滤)
o alternating least squares (ALS)(最小二乘)
• Clustering
o k-means(聚类)
o Gaussian mixture(高斯混合)
o power iteration clustering (PIC)(迭代聚类)
o latent Dirichlet allocation (LDA)(三层贝叶斯概率模型)
o bisecting k-means(二分聚类)
o streaming k-means(流聚类)
• Dimensionality reduction(降维)
o singular value decomposition (SVD)(奇异值分解)
o principal component analysis (PCA)(主成分分析)
• Feature extraction and transformation(特征提取和转换)
• Frequent pattern mining(频繁模式挖掘)
o FP-growth(关联分析算法)
o association rules(关联规则)
o PrefixSpan(序列模式分析算法)
• Evaluation metrics(指标评测)
• PMML model export(PMML模型)
• Optimization (developer)(优化算法)
o stochastic gradient descent(随机梯度下降法)
o limited-memory BFGS (L-BFGS)(拟牛顿算法)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 220,458评论 6 513
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,030评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,879评论 0 358
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,278评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,296评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,019评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,633评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,541评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,068评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,181评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,318评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,991评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,670评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,183评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,302评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,655评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,327评论 2 358

推荐阅读更多精彩内容