240 发简信
IP属地:北京
  • 8. 词的标准化 2023-06-05

    stem 是主干的意思,顾名思义提取词的主干,去掉时态复数等附加信息。这个算法是用if eles逻辑写的。

  • 7. 词过滤

    一般根据目的和场景,将样本里不用的词干掉,减少计算难度和干扰。这种被忽略或者说干掉的词就叫停用词。 在文本分类中也可以把所有文本都含有的词,统计出来词频很高的词干掉。很好理解...

  • 6.最大似然估计和后验估计

    最大似然估计和后验估计是统计学中两个重要的概念。 最大似然估计是指在给定一定的数据和概率模型的条件下,通过寻找最大化似然函数的参数来估计未知的参数值。似然函数是指在已知参数的...

  • 5. 防止过拟合

    防止过拟合的方法包括: 增加数据量:通过增加数据量可以有效地防止模型过拟合。通过对训练数据进行一些变换,如旋转、缩放、裁剪等,可以增加训练数据量,降低模型的过拟合风险 使用更...

  • 4. 召回率和精确率

    怎么记忆呢?比如玩一个地狱的召唤射击游戏。你的目标是干掉所有敌人解救人质,楼里一共100人,敌人90人。你是个神枪手,敌人就爆头,人质就打绳子。你发射了100颗子弹,98颗爆...

  • 3. 最大似然估计(Maximum Likelihood Estimation)

    最大似然估计(Maximum Likelihood Estimation)是一种常用的统计方法,用于通过样本数据来估计一个未知参数的值。简单来说,就是寻找最合适的参数值,使得...

  • 2. Linear Regression线性回归是什么

    线性回归是一种常见的机器学习算法,用于在给定一组输入变量和相应的目标变量之后,预测目标变量与输入变量之间的线性关系。 independent variable:a varia...

  • 120
    1. 动态规划简单理解

    动态规划是一种常见的算法思想,用于解决具有重叠子问题和最优子结构特征的问题。动态规划算法通常涉及到将问题分解成一系列子问题,并且通过求解子问题的最优解来计算原问题的最优解。 ...

  • 120
    1.NLP基本概念

    NLP是自然语言处理(Natural Language Processing)的缩写。是一种研究如何使计算机理解、处理和生成自然语言的领域。它通过结合语言学、计算机科学、数学...

  • nginx - 灰度发布

    灰度发布大概原理以及nginx配置 1. 服务器划分 2.【反向代理主机】nginx.conf 1. nginx.conf 完整代码 1)将http请求直接交给lua文件封装...

  • 思维和勇气随笔

    什么是富人思维? 14天了解了股票、基金、保险等入门知识。读了许多人的故事(水湄姐、小熊哥、思绪、可馨、敏敏100万小胖子等等)。还有富人思维和穷人思维。 我们很多人...