
@小狮子_3c37 这个倒是复现出来了。。。github上面有个源码。可以参考下这一个:https://github.com/LinXueyuanStdio/LaTeX_OCR_PRO。好久没用简书了
公式检测(1)--ScanSSD摘要最近在做公式检测的项目。从本文开始介绍一个用于扫描式公式检测的方法,我们将分为三个部分介绍。第一、解读论文。第二、开源代码详解。第三、在本地数据集上的复现。论文地址和代码地址...
为了测试我们写的代码是否正确,我们需要自己写两个个方法,这两个方法对于调试代码来说是十分有帮助的。 编写辅助函数:通过一个数组创建一个链表 Java 代码: 对代码的说明 1...
上一篇文章介绍了预剪枝,本文接着介绍后剪枝。 其实预剪枝和后剪枝都是为了防止模型过拟合。 我们先记住一句话。 后剪枝,就是将完整的树划分好之后,再考虑如何剪枝。。。 我们先看...
剪枝(pruning)是决策树学习算法对付"过拟合"的主要手段。在决策树学习中,为了尽可能正确分类训练样本,结点划分过程将不断重复,有时会造成决策树分支过多,这时就可能因训练...
上一篇文章我们介绍了增益率,本文介绍基尼指数(Gini index)。 CART决策树使用基尼指数来选择划分属性。 CART是Classification and Regre...
上一篇文章我们介绍了信息增益,本文介绍增益率。 我们知道信息增益可以帮助我们构建决策树,但是信息增益准则有一个缺点。具体是什么缺点呢? 在上面的表格中,我们试着对编号这一列计...
前面提到了信息熵,公式为:。本篇文章我们介绍信息增益。 我们先记住很抽象的一句话,属性划分样本所获得的信息增益。 如何理解呢? 我如何挑选出想要的瓜,如何挑选出好瓜和坏瓜,瓜...
本篇文章我们介绍信息熵。 信息熵(information entropy)是度量样本集合纯度最常用的一种指标。信息熵的公式为: 怎么理解这句话呢? 比如:现在有一个样本D,里...
前面提到了,决策树关键的问题在于选择,比如走到“每月收入=?”这个结点时,下一个结点选择“主营业务=?”还是“公司位于哪个地区=?”,这就涉及到了选择。为了解决这些问题,我们...
下个学期开始就要讲数据挖掘了,有点开心,也有点紧张。数据挖掘不是单纯的讲解理论,更偏向于实践。所以除了把基础的概念讲清楚,如何带着同学们做一些有意义的项目,确实是一个挑战~~...
这几天在学习Django,简单记录一下。我用到的Django版本是4.0,目前完成的功能如下:1.可以在浏览器页面上展示本地数据库中的用户信息 2.可以在浏览器页面上添加数据...
昨天八点十五分开始看了一会张佳玮的直播。一直以来都很喜欢张佳玮的文笔,看张佳玮的文章有一种感觉是,很平淡,但是很有逻辑。他的很多观点都有比较扎实的理论依据,这些理论依据一般都...
1.DataFrame和RDD最大的区别?DataFrame和RDD的区别在于:(1).DataFrame多了结构信息;(2).DataFrame除了提供比RDD更丰富的算子...
在开发或者面试过程中,如何解决hive的数据倾斜问题是不可避免的。 发生数据倾斜的根本原因在于,shuffle之后,key的分布不均匀,使得大量key集中在某个reduce节...
AI前线 快手八卦!突破TensorFlow、PyTorch并行瓶颈的开源分布式训练框架来了! 八卦的特点如下: 并行性能显著提高:在 ImageNet 数据集上,相较当前开...
机器之心 99行代码实现冰雪奇缘特效的[太极]再进化,胡渊鸣团队、快手等联合打造 文章地址[https://mp.weixin.qq.com/s/vJFOziFu2Dre6Q...
题目 给定两个有序链表的头指针head1和head2,打印两个链表的公共部分。 解答 本题难度很小,因为是有序链表,所以从两个链表的头开始进行如下判断:1.如果head1的值...
题目 编写一个类,用两个栈实现队列,支持队列的基本操作(add、poll、peek)。 解答 栈的特点是先进后出,而队列的特点是先进先出。我们用两个栈正好能把顺序反过来实现类...
这篇文章主要介绍经典的神经网络SSD的原论文的摘要部分。论文地址:论文地址[https://arxiv.org/pdf/1512.02325.pdf]。 标题 标题:SSD:...