tar -zcvf /home/xahot.tar.gz /xahot tar -zcvf 打包后生成的文件名全路径 要打包的目录 例子:把/xahot文件夹打包后生成一个/...
tar -zcvf /home/xahot.tar.gz /xahot tar -zcvf 打包后生成的文件名全路径 要打包的目录 例子:把/xahot文件夹打包后生成一个/...
spark 算法原理 协同过滤是用来对用户的兴趣偏好做预测的一种方法。在Spark中实现的是基于潜在因子模型的协同过滤。用户对特定物品的偏好往往可以用评分的形式给出,评分矩阵...
一、什么是归因分析? 在复杂的数据时代,我们每天都会面临产生产生的大量的数据以及用户复杂的消费行为路径,特别是在互联网广告行业,在广告投放的效果评估上,往往会产生一系列的问题...
从不浪费时间的人,没有工夫抱怨时间不够。 —— 杰弗逊 第一句话:时间戳 时间不分东西南北、在地球的每一个角落都是相同的。他们都有一个相同的名字,叫时间戳。时间戳 指的就是U...
假设说我们现在有这样一张表 问题分析 连续登陆,也就是在连续登陆的期间内,后一天和前一天的差值为1,不能为大于1的值,直到间断。那么在这里其实我们可以设置一列序号,如果是连续...
1、用conda创建Python虚拟环境(在conda prompt环境下完成) conda create -n environment_name python=X.X(注:...
搭建 Python 虚拟环境,可以方便地Python2,Python3 共存。避免包的混乱和版本的冲突。为每个程序单独创建虚拟环境可以保证程序中能访问虚拟环境中的包,保持解释...
前 言 作为自然语言处理爱好者,大家都应该听说过或使用过大名鼎鼎的Gensim吧,这是一款具备多种功能的神器。Gensim是一款开源的第三方Python工具包,用于从原始的...
谷歌推出的Bert,最近有多火,估计做自然语言处理的都知道。据称在SQuAD等11项任务当中达到了state of the art。bert的原理可参考论文,或者网上其他人翻...
在假设检验中,显着性水平和P值意味着什么? 究竟什么是统计显著性? 在这篇文章中,我主要用概念和图形来帮助读者更直观地理解假设检验在统计学中的工作原理。为了实现它,我将显着性...
[TOC] 简介 kafka是一个分布式消息队列。具有高性能、持久化、多副本备份、横向扩展能力。生产者往队列里写消息,消费者从队列里取消息进行业务逻辑。一般在架构设计中起到解...
什么是协同过滤 协同过滤推荐(Collaborative Filtering recommendation)是在信息过滤和信息系统中正迅速成为一项很受欢迎的技术。与传统的基于...
这篇文章会讨论: 在什么情况下需要做 AB 实验 从产品/交互角度,如何设计一个实验 前端工程师如何打点 如何统计数据,并保证数据准确可信 如何分析实验数据,有哪些数据需要重...
GBDT (Gradient Boosting Decision Tree) 梯度提升迭代决策树。GBDT 也是 Boosting 算法的一种,但是和 AdaBoost 算法...
在大规模数据处理中,这个错误比较常见。一般发生在有大量shuffle操作的时候,task不断的failed,然后又重执行,一直循环下去,直到application失败。 报错...
Spark-Job-Stage-Task之间的关系 基本概念 在开始之前需要先了解Spark中Application,Job,Stage等基本概念,官方给出的解释如下表: J...
Hive调优集锦[https://blog.csdn.net/zhanglong_4444/article/details/117264381]Hive/HiveSQL常用优...