CS224n笔记01 自然语言处理与深度学习简介

cs224n-2017-lecture1.png.jpeg

简单声明

本笔记为 CS224n 课程在学习过程中留下的笔记。整体风格以简洁为主,尽量去掉不必要的背景知识说明,只留下个人觉得最重要的内容以供日后参考回忆。其中部分内容为了巩固英语,可能会因为方便采用英文记录。

课程先决条件

  • Python基础知识
  • 高等数学、概率论、线性代数知识
  • 基础机器学习算法
    • 梯度下降
    • 线性回归
    • 逻辑回归
    • Softmax
    • SVM
    • PAC
      注:斯坦福CS229 / 周志华西瓜书

本课学习收获总览

  • 整体自然语言处理的流程
  • 深度学习的 NLP 和之前的有什么区别
  • NLP 的难点在哪里

自然语言处理的总览

image

Phonetic : representing speech sounds by means of symbols that have one value only
Phonology : the phonetics and phonemics of a language at a particular time
Morphology:a study and description of word formation (such as inflection, derivation, and compounding) in language
Syntactic:of, relating to, or according to the rules of syntax or syntactics

根据上述 Webstar 词典的翻译我们可以看到,这个整个过程很像是通信领域信号的发出和接受的过程。自然语言处理系统的输入分为两个部分,一个是文本的输入(我们暂且不谈),另一个则是语音的输入。好的,我们收到了语音,我们都知道这些语音不一定都是标准的,可能还带有方言之类的,所以我们首先要分析它,也就是第一个圈圈。之后由于单词的变形有很多,所以我们要把它们全部变换成原本的形式,也就是 Morphological Analysis 这个过程。之后,再进行语法(Syntactic)分析,最后再进行语义(Semantic Interpretation)理解。

NLP 为什么难

  • Complexity in representing, learning and using linguistic/situational/world/visual knowledge
  • Human languages are ambiguous (unlike programming and other formal languages)
  • Human language interpretation depends on real world, common sense, and contextual knowledge

机器学习 VS 深度学习

如下图所示,传统的机器学习中很大一部分人工部分是人力的去观察你的数据,然后从中人为的提出特征,这需要消耗大量的人力,甚至这个人力还必须由有博士学位的专家才能做,而机器只是代替人类做了人类不容易做到的对算法调优的过程。


image

那么深度学习 (Deep Learning) 是什么呢,首先从宏观的来讲深度学习隶属于表征学习(Representation Learning),即特征学习(Feature learning)。正如其名,表征学习就是自动的从原始数据中提取分类和特征提取(feature detection)所需要的特征(representation),也就是说深度学习可以做之前机器学习中人力的那部分内容。

宏观结束了,进入微观理解, 如下图所示,深度学习中是一个多层的网络,每一层都会学习出一部分特征,然后将这些特征喂给下一层,这个学习过程可以反复的去修正 / 训练这些提出的特征,效率高。


image

最后,大家在学机器学习的时候都知道有两种机器学习,一种是有监督学习,一种是无监督学习。深度学习两者都能做,这点是真的有点厉害。

其他总结

这堂课中有一个很重要的总结,就是在所有的 NLP 学习 Level 中,所有字的表达和其表达的含义(representations for words and what they actually represent)都是用向量(Vectors)来代替的。这点非常重要,特此记录。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,039评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,223评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,916评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,009评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,030评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,011评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,934评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,754评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,202评论 1 309
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,433评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,590评论 1 346
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,321评论 5 342
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,917评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,568评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,738评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,583评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,482评论 2 352

推荐阅读更多精彩内容

  • 古道微茫致曲全 由来学术诬先贤 ...
    性本善良阅读 620评论 0 0
  • 29日早场的写作主题是穿越!好吧,我之前已经想到会是一个很开放的题目,但是没想到会这么大,无限的驰骋空间反而让我没...
    临渊而叹阅读 241评论 1 1
  • 我不是那个幸运的人,但是我必须做那个努力的人。 现在的自己突然发现不想努力,更不想长大,小时候总说,等我长大了一定...
    稀子阅读 223评论 0 0
  • 最近闺蜜跟我讲她好烦,她平时很少有烦心事的,我就问怎么了,难道遇到什么事了? 原来是我们同学,一个跟她关系特别好的...
    陌生人的独白阅读 653评论 0 1