说明

以下内容来自群中出现的问题，大家讨论的结果

Q群：432600958

微信群：加微信w3aboutyun,附上about云铁粉

部分内容整理时，已经注明出处，但很多内容，较为零碎，也无暇整理，如有不妥，请联系我，谢谢。
~~五月一直在加班，整理的东西有限~~

如何从小白快速蜕变为大佬

时间

2018.05.03

内容

这是一些经验，主要有两点
1、培养自己的阅读习惯
2、提高对新技术的敏感力
文章末附了很多公众号

ref

Spark 读取本地文件

时间

2018.05.03

讨论内容

Spark 作为一个分布式系统，如果读取本地文件，则要求该文件在所有节点都存在，并且目录都要求一致。

解决方法1：分发到所有节点（麻烦）
解决方法2：将文件传到hdfs，读取hdfs路径
解决方法3：使用addfile方法

扩展

Spark中函数addFile 和 addJar函数介绍

机器学习优化算法讨论 -- by 木东居士 ref

时间

2018.05.03

讨论内容

机器学习的算法其实比运筹算法要简单，更偏重应用场景，更多的时间在做特征工程

机器学习算法里基本都有用到二阶特性（牛顿法要求hessian矩阵），都是一阶的（如梯度下降）

大规模学习来说，障碍往往在于算法的计算能力不足，而不是数据不够，所以也可以说传统额统计学习方法都不适合大规模数据处理

在样本量比较多的时候，线性分类方法的劣势小很多，例如可以通过手工拆分/离散化特征来模拟非线性关系。而且有个经验是，在数据量大的时候，一些看起来粗暴无脑的方法反而有令人惊奇的效果。

SVM 计算复杂度O(n^2)，存在两个超参数，只能通过穷举实验来求，计算时间要高于不少非线性分类器
随机森林计算复杂度O(nlogn)

资源分享

时间

2018.05.08

内容

经典算法大全密码 ce85

算法导论中文版.pdf 密码 2ygr

python资源分享密码：ll7q

内容包括：《Python 2.7 Tutorial 中文版》《Python3程序开发指南(第二版)》《Python高级编程》《python核心笔记》《python核心编程第二版笔记》《Python技术手册（第2版）》《Python源码剖析》《quantsp研究计划书》《笨办法学Python》
by 小青年

工作感悟

时间

2018.05.12

内容

工作的意义

最近在思考一个问题，工作的意义，一份工作最终目的究竟不该是一份简单的工资，而是这个公司能赋予你的资源，另一个是这份资源的成果转换对于市场的冲击力，对人，对社会的贡献度，人终究是需要处理社会活动的。

职业背景和职业活动的限制，换句话说，工作本身是用来解决社会问题的，个人可能觉得只是天天码代码，做工作量，但它的成效简直太小了，一眼可以看到他的发展和未来。但如果说直面社会问题，去为解决问题而去选择走向，我个人理解人是会不去换不同的工作和行业，最终形成一套解决方案的，另一个角度，如果是为了盈利，这个解决方案的出发点一开始就是针对购买力的问题，你做的是服务和解决方案的路子。触手伸的越广，收益越大。

即使是办企业也一样，仔细去看每个企业的基本描述类似，但核心针对点不一样，不管是个人也好，企业也罢，需要求同存异，找出自己的突破点，这个时代不是靠努力，而是靠挖掘力，执行力。

by 道友枫柚master

Spark persist(DISK_ONLY)产生的问题

时间

2018.05.30

内容

在Spark 的代码中增加persist(DISK_ONLY) 之后，会出现多个task failed,错误原因为container memoryOverhead

去掉persist(DISK_ONLY) 就不再报这个错误，没有task failed, 并且运行速度提升。
此外，对比每个stage的IO,发现DISK_ONLY的有部分stage的IO是去掉persist的两倍。

猜想原因

DISK_ONLY 是将不做序列化的对象直接存入DISK,这部分产生大量IO,会占用内存。

Spark中cache和persist的作用以及存储级别

Spark 代码优化

使用更高效的数据结构 BitSet、OpenHashSet、OpenHashMap
inline
一些汉字字符串，做维表映射之后，变成数字编号

Spark 高效数据结构

人工智能主要三块大数据、NLP、CV

分布式发号器选择方案

UUID
DB
SnowFlake

群内2018_5月讨论整理

群内2018_5月讨论整理

说明

如何从小白快速蜕变为大佬

时间

内容

Spark 读取本地文件

时间

讨论内容

扩展

机器学习优化算法讨论 -- by 木东居士 ref

时间

讨论内容

资源分享

时间

内容

工作感悟

时间

内容

工作的意义

Spark persist(DISK_ONLY)产生的问题

时间

内容

Spark 代码优化

人工智能主要三块大数据、NLP、CV

分布式发号器选择方案

推荐阅读更多精彩内容

友情链接更多精彩内容

群内2018_5月讨论整理

说明

如何从小白快速蜕变为大佬

时间

内容

Spark 读取本地文件

时间

讨论内容

扩展

机器学习优化算法讨论 -- by 木东居士 ref

时间

讨论内容

资源分享

时间

内容

工作感悟

时间

内容

工作的意义

Spark persist(DISK_ONLY)产生的问题

时间

内容

Spark 代码优化

人工智能主要三块 大数据、NLP、CV

分布式发号器选择方案

推荐阅读更多精彩内容

友情链接更多精彩内容

人工智能主要三块大数据、NLP、CV