一、基础概念 决策树是一类极为常用的机器学习方法,尤其是在分类场景。决策树通过树形结构来递归地将样本分割到不同的叶子结点中去,并根据每个叶子结点中的样本构成对该结点中的样本进...
一、基础概念 决策树是一类极为常用的机器学习方法,尤其是在分类场景。决策树通过树形结构来递归地将样本分割到不同的叶子结点中去,并根据每个叶子结点中的样本构成对该结点中的样本进...
最近这几个月,新冠疫情牵动了全国乃至全世界人民的心。股市崩盘、经济发展开倒车都已经是小事情了,最令人担忧的是每天都有许多家庭在面对令人难以承受的别离。非常感谢我们伟大的政府,...
不要把所有的鸡蛋放在同一个篮子里,这是投资界中历久弥新的至理名言。 为了避免风险,投资人往往会将资产分散到不同的金融工具中,比如信托、债券、基金、股票、期货、期权甚至房地产市...
今天,我们将介绍非常重要的一部分:风险的量化。我们会从原理以及Python实战两个角度来学习。 我们开始今天的内容。 一、方差 1952年,Markowitz发表了均值-方差...
之前我们曾经学习了简单线性回归模型的推导、sklearn实战,并尝试从零搭建了一个简单线性回归的模型工具。 但是我们遇到的数据并不总是线性的,这时如果我们还拿线性模型去拟合,...
特征选择与特征工程 特征工程是机器学习的第一步,涉及清理现有数据集、提高信噪比和降低维数的所有技术。大多数算法对输入数据有很强的假设,当使用原始数据集时,它们的性能可能会受到...
温故知新: 在昨天,我们学习了使用seaborn.lmplot()来绘制回归图,用来表示变量之间的线性关系。它主要是在散点图的基础上,绘制了一条直线,而这条直线(也可以是曲线...
今天我们的目的并不是完全掌握Python量化分析,仅仅是作为入门引领,开启一扇新的大门。在之后的日子里,我会不定时地分享更多关于时间序列分析、量化分析的内容,欢迎关注、收藏、...
现代人的时间越来越碎片化,因此我们准备抛弃那种长篇大论的教程,希望大家每天花上几分钟就可以学到一个小窍门或者某种图的绘制方法。只要每天都认真看一遍文章,有时间的时候花几分钟练...
让图形充满魅力是非常重要的。当我们探索一个数据集并且要进行可视化,那么,把图画得令人愉悦终究是不错的。可视化,是与听众交流大量信息时的核心方法,在这种情况下,让图形变得能瞬间...
当探索具有中等数量(不多不少的意思……)维度的数据集时,一个很好的方式是基于不同的子数据集构建不同的实例,并将它们以网格的方式组织在一张图之中。这种技术有时被称为“latti...
许多数据集含有多个定量变量(数值型变量),而我们分析的目的往往是将他们关联起来。我们曾讨论过通过两个变量的联合分布来实现这一点。然而,使用统计模型来为两组带有噪声数据的观测值...
当我们上手一个数据集时,往往第一件事就是了解每个变量是如何分布的。这一章节会简单地教大家如何在seaborn中检验一元分布和二元(维)分布。你也许会对如何对比一个变量在其他变...
在统计关系可视化教程中,我们学会了使用多种不同的方式来展示一个数据集中多个变量之间的关系。在一系列的例子中,我们聚焦于那些关系主要存在于两个数值型变量之间的情况。然而当其中一...
众所周知,Seaborn“可能”是Python下最友好、易用的可视化工具了,可视化效果也非常好。但是截止目前,并没有一份中文教程供广大国内Python使用者查阅学习。怎么能因...
在统计学中,线性回归是利用称为线性回归方程的最小二乘函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。当因变...
K-近邻算法又称KNN算法(K-Nearest Neighbors),既可以用来解决分类问题,也可以用来解决回归问题。 如标题所言,KNN算法的核心原理就是让距离最近的“邻居...
在上一篇文章中,我们实战使用urllib和BeautifulSoup抓取了关于豆瓣电影TOP250的非常丰富的信息,包括导演、编剧、演员、上映时间和地区、语言、别名、短评数、...
我们曾经抓取过猫眼电影TOP100,并进行了简单的分析。但是众所周知,豆瓣的用户比较小众、比较独特,那么豆瓣的TOP250又会是哪些电影呢? 我在整理代码的时候突然发现一年多...