[深度学习]案例-情绪预测

一、模型的基本框架

封装成类
  • __init__

添加参数:
+统计min_count
+阈值polarity_cutoff

  • pre_process_data

只分析频次大于min_count & 比例大于polarity_cutoff阈值的单词

  1. 算法关键点:反向传播过程中分两步 error+errorterm(delta)

梯度下降的计算:对y_hat的偏导的负数(相减更新权重)

  • y_hat−y 权重更新的符号是负号
  1. 权重的初始化
  2. 判断分类是否正确

分类正确时对应特定概率

  • 标签为Pos时,概率>0.5
  • 标签为Neg时,概率<0.5

二、模型优化

  1. 反馈调整:区分信号与噪声
    数据挖掘:有时候问题不在于挖掘机,在于选择挖掘的位置/方向
  • 作者的思路

避免无关信息的权重影响:权重统一设置为1

  • me思路

删除无关符号/单词:耗费力气,且治标不治本

  • “本”:神经网络的结构设置

+节点设置
+网络连接方式

  1. 单词频次出现的次数@二阶统计

比如最频繁出现的单词频次为336713,但观察后发现这个频次数只出现1次:可能是普遍存在的噪音,比如空格号,冠词the等

而频次(某个数字)出现最高的次数为27656,对应频次为1:即只出现一次的单词,比如电影中的人名

三、经验:代码规范

  1. 知识点-编程
  • collections.Counter()
    自动统计单词列表中的频率:生成字典
    .most_common()

  • map(lambda , )
    行列级操作:map针对读取的每一行文本进行lambda操作

    map:针对行列级的lambda操作

  1. 知识点-数学
  • 内积表示相似性

  • 统计-TSNE
    非线性降维

    相似性:距离按照t分布——>形成右侧的相似性矩阵
    统计-TSNE
  • 特征工程:数据转化
    三类词:中性词,pos,neg
    比例:用来体现倾向性,以1为分界;转化为log后,以0为分界

  1. 编程技巧
  • 命名:对象清晰+操作直观
    lay_n_input
    lay_n_output
    lay_n_error(y−y_hat)
    lay_n_delta(δ)

  • 添加判断:针对明显的前提
    1)状态属性
    assert(len(training_reviews) == len(training_labels))
    2)存在归属
    if(word in self.word2index.keys()):

  • 运行时间统计
    start = time.time()

  • 全局变量慎用
    定义全局变量后,中途数据类型的改变(标量——>列表)会引起错误
    注意用类中定义的函数和属性:需要添加self.

  • 内存管理
    事先知道变量的维度时:给变量分配预存空间,并进行初始化@lay_0
    (而不是边创建,边开辟新的空间@list.append())

  • 优化数据运算:针对0-1变量(开关数据)
    0属于无关运算
    1的统计:直接相加

四、经验:反省

  1. 任何事情/解决问题等的第一要点
    认识、了解对象

  2. 你以为的对象是你以为的那样吗?
    mlp.pos_neg_ratios_cutoff.most_common() 返回对象:元组的列表(不是表示第一列的单词:而是第一个元组)

    返回对象:元组的列表

  3. enjoy探索的过程@80%工作在于数据整理

  4. 作者的思路

  • 基于初始的思路:调整某些设置(完成后再迭代优化)
  • 用几个实验的样例:验证自己的思路 逻辑是否正确
    噪声占权重太大,覆盖有效信号
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,657评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,662评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,143评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,732评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,837评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,036评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,126评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,868评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,315评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,641评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,773评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,859评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,584评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,676评论 2 351

推荐阅读更多精彩内容

  • 文章作者:Tyan博客:noahsnail.com | CSDN | 简书 1. 统计学习方法概论 本文是统计学习...
    SnailTyan阅读 3,230评论 0 7
  • 首页 资讯 文章 资源 小组 相亲 登录 注册 首页 最新文章 IT 职场 前端 后端 移动端 数据库 运维 其他...
    Helen_Cat阅读 3,850评论 1 10
  • 以西瓜书为主线,以其他书籍作为参考进行补充,例如《统计学习方法》,《PRML》等 第一章 绪论 1.2 基本术语 ...
    danielAck阅读 4,504评论 0 6
  • 动机 万事皆有因果。我之所以想要学习深度学习,是因为深度学习在学术界获得了巨大的成功。现在在数据挖掘顶会上大多数的...
    稀饭里的辣椒阅读 639评论 2 0
  • 今天晚上也加班班了,叫去吃饭呢,不是很想去,想自己回来看看书什么的。突然很想吃重口味的东西,做了这个。卖想不太好,...
    WoodSage阅读 263评论 1 1