240 发简信
IP属地:河南
  • 2020-06-27 使用机器学习模型对DNA序列分类

    翻译自kaggle Classifying DNA Sequences 在本教程中,我们将使用马尔科夫模型、k近邻算法、支持向量机和其他常用的分类器来对大肠杆菌DNA序列进行...

  • 2020-06-26 在Python中处理FASTA格式文件

    FASTA文件格式介绍 FASTA文件格式 用python处理FASTA数据 https://blog.csdn.net/qq_18369669/article/detail...

  • 文件格式——FASTA

    FASTA文件的格式在生物信息学中,FASTA格式(又称为Pearson格式)是一种基于文本的、用于表示核苷酸序列或氨基酸序列的格式。在这种格式中碱基对或氨基酸用单个字母来表...

  • 2020-06-25 监督学习小节

    今天过端午节节,上午做饭,中午孩子不睡,脾气暴躁,没看多少东西。潦草应付一下。 最近邻 适用于小型数据集,是很好的基准模型,很容易解释 线性模型 非常可靠的首选算法,适用于非...

  • 120
    2020-06-25 One-hot编码

    背景 某些数据集的特征并不是连续的数值,而是离散的字符串。而用基于数学运算的机器学习方法,无法处理。这时,需要换一种方式来表示数据。对于某个特定应用来说,如何找到最佳数据表示...

  • 2020-06-24 监督学习

    2.1 分类与回归 回归任务的目标是预测一个连续值,区分分类任务和回归任务有一个简单方法,就是问一个问题:输出是否具有某种连续性。如果在可能的结果之间具有连续性,那么它就是一...

  • 2020-06-24 K近邻方法的python实现流程

    K近邻方法简介 模型训练好之后,在验证测试样本时,选择与训练样本距离最近的点,将其标签作为测试样本的结果。K表示选择K个最近的点,取数量最多的标签。 步骤 对预处理的数据分离...