数据集总结
姓名:张艳博 学号:17021223249
【嵌牛导读】: 深度学习进阶项目介绍
【嵌牛鼻子】: 数据集 深度学习 项目
【嵌牛提问】: 深度学习有哪些进阶项目?
【嵌牛正文】:
1.图像数据集:
分类与识别数据集: (1)MNIST:由纽约大学的Yann LeCun整理的手写数字(0-9)数据集,图片大小为28*28,包含60000个训练集,10000个测试集,广泛用于机器学习的测试和训练。 (2)cifar:由加拿大先进技术研究院的AlexKrizhevsky等收集的小图片数据集。包含CIFAR-10和CIFAR-100两种, 图片大小为32*32。cifar-10共10个分类。50000张训练,10000张测试。CIFAR-100包含100个类别,每个类别600张图像,其中500张用于训练,100张用于测试。其中这100个类别又组成了20个大的类别,每个图像包含小类别和大类别两个标签。 (3)ImageNet:由美国斯坦福的李飞飞模拟人类的识别系统建立的图像识别数据库,目前已经包含14197122张图像,图像包含1000类,是已知的最大的图像数据库,AlexNet、VggNet、GoogleLeNet、ResNet这些经典图像识别模型都是用的此数据集。 图片生成描述数据集: (4)COCO:是微软团队获取的一种新的图像识别,分割和加字幕标注的数据集。特点为:目标分割,通过上下文进行识别,每个图像包含多个目标对象,超过300000个图像,超过2000000个实例,80种对象,每个图像包含5个字幕,包含100000个人的关键点。是图片描述常用的数据集。也可用于做多标签训练。 (5)图像中文描述数据集:由搜狗、今日头条等举办的ai挑战赛的数据集。每张图片有五句中文描述,训练集有210000张,验证集有30000张。 风景图片多标签数据集:南京大学收集,包括2000张图像,每个图像有五个标签分别为 desert, mountains, sea, sunset , trees。可以用来做网络的迁移训练以及图像的多标签训练。
2.语音数据集: (1)clesent:由母语为汉语的说话人录制的英语语料库。clesent语音库分为口音自适应和测试两个集合,一共有3小时。 (2)CET:通过大学生英语四六级考试抽样出来音频。语料库大约为800个小时。 (3)TIMIT:该语音库是由美国各地区(带方言)本土人录制的连续英语语音数据库。数据集分为训练集和测试集,大约5.5小时。 (4)WSJCAM0:由英国剑桥大学发布的英语音库。该语料库大约为24小时。 (5)WSJ1:华尔街日报口语料库,主要由播音员录制的语音音频。大小约为162小时。 (6)WSJ0:美国国防部口语项目提供的《华尔街日报》语料库,主要用于大词汇量连续语音识别系统的研究。该语料库大约42.5小时。 (6)TM:是一些英语教材的音频,大约为43小时。 (7)Libirispeech:是基于LibriVox的公共领域的阅读有声书本的语料库。主要是训练和测试自动语音识别系统。其中有纯净的训练语音库100个小时,300个小时以及其他包含一些噪声的500小时的语料库;测试集和开发集包含以上训练集。 硬件平台 前期学习使用自己的笔记本进行CPU跑神经网络,后期需要尽可能有GPU资源节约时间。
项目: 手写数字识别项目: tensorflow是特别好用的深度学习开源框架,而手写数字识别是机器学习最经典的案例。本项目在TensorFlow环境下,分别利用逻辑回归、人工神经网络这两传统方法以及卷积神经网络这个深度学习方法来实现手写数字的识别与分类。 项目特色: 1. 熟练掌握TensorFlow框架的安装及思想,熟悉其API的操作,会用API实现图像的分类。 2.掌握逻辑回归、人工神经网络等经典机器学习方法。 3.会用TensorFlow搭建逻辑回归(LR)模型,实现手写数字的识别。 4.会用TensorFlow搭建简单的人工神经网络(ANN),对手写数字进行分类。 5.掌握卷积神经网络(CNN)的结构与原理,以及卷积、池化等操作的作用。 6.会用Tensorflow搭建卷积神经网络,并会训练网络,调整参数,生成图像分类模型。 7.掌握传统机器学习分类方法与深度学习方法的思想异同,以及操作和准确率的差异,更好的体会深度学习方法的优势。
图像分类项目: 全球最权威的计算机视觉竞赛---ILSVRC,从2012年到现在产生了很多经典的图像识别模型,如AlexNet、googNet、VggNet、ResNet。本项目首先讲解这些经典模型的原理和结构,然后利用TensorFlow搭建这些图像识别模型,并实现cifar数据集的分类。 项目特色: 1. 掌握图像识别提取特征到分类的基本过程。 2.掌握Alexnet、googlenet、Vggnet、ResNet的模型结构,以及这些网络模型之间的联系及特点。 3.会用TensorFlow搭建图像识别经典模型框架。 4.会用数据集进行模型训练和测试,以及调参,优化。 5.会查阅TensorFlow官方文档,及使用所需要的API。 6.掌握深度学习处理图像的原理与技巧。 7. 能够根据实际应用修改网络结构及参数。 图像多标签项目: 如果我们对一副图像进行标注,单个标签是不全面的,所以本项目利用TensorFlow,在inceptionV3模型的基础上 做图像多标签的迁移训练。数据集每张图片有多个标签,利用经典的CNN模型充分提取数据集特征,然后设计多标签的分类,最终当我们输入一张相关图片会输出图片中有什么。 项目特色: 1. 掌握inception模型的结构思想,以及1*1卷积核的作用和参数量的计算 2. 掌握迁移训练的思想,用处及实现方法。 3. 掌握多标签分类的思想和方法。 4. 会根据自己的数据集编写Python代码生成标签数据。 5. 会用TensorFlow修改官网迁移训练的源码,实现图像多标签的识别。 6. 会修改网络训练参数,优化模型。 7. 会调用训练好的模型,测试自己的图片。
看图说话项目: 图像自动打标签(图像叙事功能)一直是一项非常前沿的技术,涉及到机器视觉,自然语言处理等模块。本项目利用TensorFlow实现im2txt模型,根据输入图片对网络进行训练,实现当输入一张图片时,会生成五句话来描述该图像。 项目特色: 1. 掌握im2txt模型的结构思想,包括inception提取图像特征,LSTM生成图片描述。 2. 掌握CNN与RNN结合的方法。 3. 会用TensorFlow结合官网的例子搭建im2txt模型结构 4. 会用训练集对模型进行训练,并用测试集进行测试。 5. 掌握TensorFlow图像识别与自然语言处理相关的API操作。 6. 会解决训练出现的各种bug。 7. 会调用训练好的模型来处理图片生成描述的问题
单词发音预测项目: seq2seq 模型就像一个翻译模型,输入是一个序列(比如一个英文单词),输出也是一个序列(比如音素)本项目利用tensorflow实现了简单的seq2seq模型,并用模型实现了英文单词的发音预测。 项目特色: 1. 掌握常见RNN结构 2. 掌握BPTT算法 3. 了解RNN网络中的常见问题 4.了解LSTM和GRU结构及他们解决了什么问题 5. 掌握seq2seq模型结构 6. 掌握数列数据预处理的方法 7. 使用TensorFlow实现seq2seq模型,并且用于发音预测
对抗生成网络项目: 本项目利用TensorFlow实现了简单的DCGAN(Deep Convolutional Generative Adeversarial Networks),输入数据为图片,根据输入的图片对网络进行训练,最终目标是利用网络生成与输入图片类似的图片 项目特色: 1. 了解什么是生成模型 2. 熟悉对抗生成网络原理 3. 掌握对抗生成网络结构和训练方法 4. 熟悉DCGAN结构 5. 会使用TensorFlow搭建DCGAN网络 6. 掌握对抗生成模型的训练技巧 7. 能使用训练好的模型生成与输入类似的图片
语音识别音素分类项目: 用Tensorflow搭建基于深度学习的音素分类器,了解基于深度学习的声学模型建模方法。理解DNN、CNN、RNN等模型结构在语音识别声学建模中的应用。 1、语音信号处理基本知识。 2、使用MFCC特征,DNN作为分类器对语音分帧后识别每帧语音对应的音素。 3、使用CNN直接从时域提取特征识别音素 4、使用CNN从频域提取特征识别音素 5、使用MFCC+RNN识别音素
语音识别项目: 用Tensorflow搭建基于LSTM+CTC的语音识别系统。了解基于深度学习的语音识别系统的完整流程,掌握相关建模方法,学会独立搭建先进的语音识别系统。 1、 了解语音识别完整流程 2、 学习RNN、LSTM、GRU等模型结构及训练方法 3、 学习LSTM+CTC语音识别解码