ML&DL 回顾

https://github.com/zhourunlai/deep-learning-demo

deeplearningDemo

Wunderlist


一、记录深度学习例子:

名称 目录
Caffe [dir]
TensorFlow [dir]
Theano [dir]
Keras [dir]

二、记录历程点滴:

  1. 掌握机器学习相关的概念及计算公式,包括有/无/半监督学习,强化学习,分类/回归/标注,聚类;训练集/验证集,交叉验证,测试集;数据预处理,正则化,归一化;损失函数,经验风险最小化,结构风险最小化,最优化算法;训练误差,泛化误差,欠拟合,过拟合;准确率,召回率,F1值,ROC和AUC;

  2. 掌握机器学习主流的模型及其算法,包括有生成方法:朴素贝叶斯、隐马尔可夫模型,判别方法:感知机、logistic回归、决策树、K近邻、支持向量机、提升方法、最大熵、条件随机场等;

  3. 安装 numpy, scipy, pandas, matplotlib, scikit-learn, xgboost 等 python 包,实战项目:识别手写数字、画决策树、文本挖掘过滤垃圾邮件、情感倾向分析、波斯顿房价预测、基于协同过滤的推荐系统、图像分类等,上手 kaggle、KDD 比赛题或者阿里天池、滴滴Di-Tech、今日头条bytecup 比赛题;

  4. 了解大数据相关的知识,包括有Flume、Kafka,Storm,Hadoop,Spark等,知道Hadoop基金下的项目(Cassandra、HBase、Hive、Pig、ZooKeeper等)的应用场景,特别地要知道分布式计算框架的原理,从 HDFS、MapReducer 到 Streaming;

  5. 安装 spark-2.0.0-bin-hadoop2.7,掌握 Hadoop Shell命令,两种模式下运行 Spark 作业,了解 Spark SQL/Streaming/GraphX,掌握 Spark MLlib 写机器学习算法

  6. 深度学习相关的概念及计算公式,包括神经元模型、输入层、隐藏层、输出层、weight、bias、BP算法、目标函数(mean_squared_error、mean_absolute_percentage_error等)、激活函数(sigmoid、softmax、tanh、relu等)、优化算法(SGD、RMSprop、Adagrad、Adam等)、多层感知器、自动编码器、卷积神经网络CNN(卷积层Convolution2D、池化层MaxPooling2D)、递归神经网络RNN、LSTM、全连接网络等;

  7. 安装深度学习框架 TensorFlow/Theano 或其它,掌握 tf 的张量、图、会话的用法,了解分布式/使用GPU的方法,动手写经典的项目,学会使用 Vgg 16/19 和 ResNet 的模型并运用到自己的项目中;

  8. 安装更上层的深度学习库 Keras,更加快速、熟练的编写出各种种类的神经网络模型。


TODO:

  1. Autoencoder:
    特点:1)数据相关的,2)有损的,3)从样本中自动学习的;
    作用:1)数据去噪,2)进行可视化而降维;
    类型:简单自编码器、稀疏自编码器、深度自编码器、卷积自编码器、序列到序列的自动编码器、变分自编码器;

  2. CNN:
    LeNet、AlexNet、GoogLeNet、VGG、ResNet

    高级激活: LeakyReLU, PReLU, ELU, ParametricSoftplus, ThresholdedReLU, SReLU

    卷积: Convolution1D, Convolution2D, AtrousConvolution2D, SeparableConvolution2D, Deconvolution2D, Convolution3D, UpSampling1D, UpSampling2D, UpSampling3D, ZeroPadding1D, ZeroPadding2D, ZeroPadding3D

    内核: Dense, Activation, Dropout, SpatialDropout2D, SpatialDropout3D, Flatten, Reshape, Permute, RepeatVector, Merge, Highway, MaxoutDense

    嵌入: Embedding

    归一化: BatchNormalization

    池化: MaxPooling1D, MaxPooling2D, MaxPooling3D, AveragePooling1D, AveragePooling2D, AveragePooling3D, GlobalMaxPooling1D, GlobalAveragePooling1D, GlobalMaxPooling2D, GlobalAveragePooling2D

    循环: SimpleRNN, LSTM, GRU

    包装器:Bidirectional, TimeDistributed

  3. RNN:
    http://deeplearning.net/tutorial/rnnslu.html

  4. LSTM:
    http://deeplearning.net/tutorial/lstm.html

  5. GAN:
    http://datascienceassn.org/sites/default/files/Generative%20Adversarial%20Nets.pdf
    https://github.com/255BITS/HyperGAN


三、记录开源资料:

机器学习相关

网站:
  1. awesome-machine-learning
  2. dl
  3. 我爱机器学习
  4. 寒小阳的博客
书籍
  1. 统计学习方法、集体智慧编程、利用python进行数据分析、机器学习实战、机器学习西瓜书、Spark MLlib 机器学习
  2. 自然语言处理、计算广告、推荐系统、计算机视觉、大数据应用实践
课程:
  1. Coursera Ng大牛的课程
  2. 小象学院邹博老师的课程

深度学习相关

网站:
  1. deeplearning.net 收藏夹必备,paper指南
  2. Neural Networks and Deep Learning
  3. UFLDL教程
书籍:
  1. DeepLearningBook 亚马逊预售12月出,等不及花40元打
课程:
  1. 优达学城的deep-learning免费课程
  2. 深度学习2016暑假课程有PPT无字幕
  3. 周莫烦的录制视频Youtebe和优酷均有

Tips:
①Follow 业界大牛的 Twitter,比如 Geoffrey Hinton (Google AI团队)、Aymeric Damien (Facebook AI实验室)、Yoshua Bengio (蒙特利尔大学终身教授) 、Andrew Ng (斯坦福大学副教授)、Li Feifei、Andrej Karpathy 等,掌握大神们的最新研究进展;
②Reddit 上订阅一些主题如 /r/deeplearning,可以知道业界最新的新闻动态,还有一些 discussion 如 WAYR(what_are_you_reading) 可以交流。


四、记录开发机

  1. 自己的 MacBook Pro 一训练数据CPU升到200%300就开始发热,甚至风扇开始转;

  2. 偶然听朋友建议到 SuperVessel上试试,装了GPU下的TF,但是必须在规定的VPN下才能SSH;

  3. 接下来转到 AWS,可以自己搭建应用了, 现在有两种虚拟机 g2.2xlarge(单块CPU,4G显存)和 g2.8xlarge(4块CPU,4G显存),都是CUDA的。知乎上的教程在AWS上配置深度学习主机

  4. 阿里云HPC 和 Ucloud 现也有带 Tesla 的物理机了。用前者低配版的训练 neural-style,14分钟左右,python neural_style.py --content content.jpg --styles style.jpg --output output.jpg --iteration 1000 --width 512。用之前算一算数据量要付费多少,大了的话买虚拟机还不如自己搭一台工作站;

  5. 等毕业了自己搭一台工作站吧...

  6. TPU是什么鬼


五、记录集群部署

  1. Spark集群部署

  2. 分布式tensorflow部署与训练

使用 git hook,配合 rsync,本地开发机一次提交代码,使集群间指定目录代码一致,节省每台机器都复制粘贴代码的操作;这样跑分布式训练时,只需要在每台机器上带参数来运行代码就可以了


六、项目demo

  1. IMAGE相关:
    1.1 图像风格转换neural-style anishathalye/neural-style
    1.2 素描自动上色 pfnet/PaintsChainer
    1.3 图像描述 iFighting/im2txt
    1.4 图片生成故事 ryankiros/neural-storyteller
    1.5 小度机器人
    1.6 生成明星脸

  2. NLP相关:
    2.1 古诗词生成器

  3. RNN相关:
    3.1 创作歌曲/歌曲风格转换

  4. RL相关:
    4.1 愤怒的小鸟 yenchenlin/DeepLearningFlappyBird
    4.2 模拟自动驾驶 kevinhughes27/TensorKart


七、调参trick

  1. Theano调试技巧
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,937评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,503评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,712评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,668评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,677评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,601评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,975评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,637评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,881评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,621评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,710评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,387评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,971评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,947评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,189评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,805评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,449评论 2 342

推荐阅读更多精彩内容