240 发简信
IP属地:北京
  • nlp -- 资源合集

    (1)知乎https://zhuanlan.zhihu.com/p/48508221[https://zhuanlan.zhihu.com/p/48508221]https:...

  • 快速排序

    快速排序平均时间复杂度:O(nlogn),最坏O(n^2)平均空间复杂度为:O(logn) 非递归 引用:https://www.jianshu.com/p/f535a405...

  • 堆排序 -- topk问题

    获取列表前 K 大的所有元素,则需要建立小根堆,维持堆内元素为当前所有元素的最大值,堆顶即第 K 大元素;若是得到前 K 小元素,则建立大根堆,维持堆内元素为当前所有元素的最...

  • pip 和 conda 镜像

    pip安装一些包时用清华、中科大等官方镜像也不一定可用,但下面这个亲测都可用 conda命令:

  • 文本生成任务十大发展趋势

    1、挑战总结 2、多语言、低资源场景 3、非典型“文本生成任务” 4、基于seq2seq(如BART,T5)的预训练语言模型成为生成任务的标配 5、非端到端系统(多步生成)表...

  • 120
    BFS&DFS——Python实现

    BFS ——队列 步骤:1、首先A入队列, 2、A出队列时,A的邻接结点B,C相应进入队列 3、B出队列时,B的邻接结点A,C,D中未进过队列的D进入队列 4、C出队列时,C...

  • 120
    Pycharm2020.1激活

    亲测可行!1、在网上找了很多方法都不可行,可以试试这种:首先找到你的 将PyCharm 2020.1目录删除 切记!!! 该目录有你pycharm之前的各种配置,包括插件、字...

  • 120
    conda复现environment.yml

    对于windows而言(本人机子为windows10) 1、environment.yml格式,如下所示: 注:如果用记事本打开的话会出现如下错误 这是提示yml文件的编码格...

  • linux小命令

    1、axel的使用 2、linux与windows文件互传

  • 120
    12、大规模机器学习

    (1)随机梯度下降法(Stochastic Gradient Descent) 如果我们一定需要一个大规模的训练集,我们我们可以尝试使用随机梯度下降法(SGD)来代替...

  • 120
    11、推荐系统

    (1)基于内容的推荐系统 增加一个特征常量X0=1,如=[1,0.99,0],假设参数向量𝜃(1)=[0,5,0] 代价函数。针对用户 𝑗,该线性回归模型的代价为预...

  • 120
    10、异常检测(Anomaly Detection)

    (1)高斯分布(Gaussian Distribution ) 在图像中呈现结果,𝜇为中心轴,𝜎2为x到𝜇的横坐标之差 将正态分布图像“投影”到x轴上(逆思想可由数据映射到正...

  • 120
    9、降维(Dimensionality Reduction)

    动机:数据压缩 + 数据可视化 (1)主成分分析问题(PCA) 主成分分析(PCA)是最常见的降维算法。 在 PCA 中,我们要做的是找到一个方向向量(Vector dire...

  • 120
    8、聚类(Clustering)

    (1)K-均值算法(K-Means Algorithm) K-均值是最普及的聚类算法,算法接受一个未标记的数据集,然后将数据聚类成不同的组。K-均值是一个迭代算法,假设我们...

  • 120
    7、支持向量机

    (1)优化目标 与逻辑回归和神经网络相比,支持向量机,或者简称 SVM,在学习复杂的非线性方程时提供了一种更为清晰,更加强大的方式。 逻辑回归要做的事情:如果有样本y=1,...

  • 120
    6、应用机器学习

    改进算法性能: 1.尝试减少特征的数量 2.尝试获得更多的特征 3.尝试增加多项式特征 4.尝试减少正则化程度𝜆 5.尝试增加正则化程度𝜆 (1)评估一个假设 避免过拟合和欠...

  • 120
    5、神经网络的学习

    (1)代价函数 假设神经网络的训练样本有𝑚个,每个包含一组输入𝑥和一组输出信号𝑦,𝐿表示神经网络层数,𝑆𝐼表示每层的 neuron 个数(𝑆𝑙表示输出层神经元个数),𝑆𝐿代表...

  • 120
    4、神经网络Neural Networks

    (1)非线性假设 图片有大量的数据集,产生大量的特征 (2)模型表示1 以逻辑回归模型作为自身学习模型的神经元示例,在神经网络中,参数又可被成为权重(weight) 第一层成...

  • 120
    3、正则化

    (1)过度拟合问题 由于选取数据集时会出现“过拟合”现象,因此出现正则化用于改善或减少上述问题。如果发现过拟合问题,处理方法如下: a. 丢弃一些不能帮助我们正确预测的特征...

  • 120
    2、机器学习--分类算法

    (1)逻辑回归(Logistic Regression) 逻辑回归函数因其‘S’形,被称为Sigmoid function或logistic function。 例如,如果对...