信息熵一条信息的信息量和它的不确定性有关系,对于不知道不了解的事情,所需要的信息量更大。 对于大概率发生的事情的信息量较小,而越小概率的事情发生的信息量越大。比如太阳从东方升...

信息熵一条信息的信息量和它的不确定性有关系,对于不知道不了解的事情,所需要的信息量更大。 对于大概率发生的事情的信息量较小,而越小概率的事情发生的信息量越大。比如太阳从东方升...
需求:爬取每天00:00:05的个别币种中行外汇价格
突然发现可以用markdown插入代码的╮(╯▽╰)╭ 可以使用ImageEnhance方法对图像进行处理,首先改变图像的对比度,使用ImageEnhance.Contras...
1. 通常对于y进行log变换,因为诸如线性模型、SVM等要求target variable是服从正态分布的 2. 对于特征值服从偏态分布的,可以使用box-cox进行变换,...
概述 本文数据来源kaggle的House Prices: Advanced Regression Techniques大赛。 本文接着Kaggle 初探 -- 房价预测案例...
关于“误差项服从正态分布时,最小二乘法等同于极大似然估计“这句话尝试推导了一下,如有错误请指正
本文为初学者个人理解,既不规范也不全面,还有可能理解有误,慎入。 Ridge Regression(称岭回归或脊回归)、Lasso Regression和Elastic Ne...
归一化其实就是把数据scale缩小到一定范围内,就像概率中相关系数是协方差的归一化结果。 对定性型特征采用one-hot,对定量型特征采用归一化。最终结果使所有特征值...
one-hot encoding与哑变量均用于将定性特征转为定量特征。注:无序列要求的定量,若有序,考虑用map。 one-hot encoding与哑变量的区别在于...
最近挤出时间,用python在kaggle上试了几个project,有点体会,记录下。 Step1: Exploratory Data Analysis EDA,也就是对数据...
前言 在使用数据挖掘(DM)或机器学习(ML)算法建模时,有时候需要对特征进行归一化(Scaling)或独热编码(One-Hot Encoding)。 以前建模的时候,并没有...