240 发简信
IP属地:重庆
  • 在服务器上部署 Jupyter Notebook

    安装 Ananconda 使用命令行安装 注意,选择安装路径时,如果想要所有用户都能使用,则安装在usr/local/ananconda3目录下 注意修改/etc/profi...

  • 使用 Hugo 进行持续集成写作及同步

    我们通常会在本地计算机上写 Markdown 文件,然后使用 Hugo 建立静态博客网站。因此需要一种方法将本地文件同步到服务器上,同时实现 GitHub 集成,确保网站的可...

  • Hive优化

    Hive简单优化与定期ETL Hive优化 Hive的执行依赖于底层的MapReduce作业,因此对Hadoop作业的优化或者对MapReduce作业的调整是提高Hive性能...

  • 初始装载

    在Hive中装载维度表。 初始装载 在数据仓库可以使用前,需要装载历史数据。这些历史数据是导入进数据仓库的第一个数据集合。 首次装载被称为初始装载,一般是一次性工作。由最终用...

  • PCA算法推导

    PCA理解与应用。 Motivation PCA与Factor analysis非常相似,都是主要用于reduction data dimensions。但PCA的想法相比于...

  • 基于时间戳的并发控制

    实现基于时间戳的事务处理原型。 TO算法流程 维护若干时间戳事务时间戳:以事务开始时间标识事务的先后顺序,表示为ts(T)数据项读写时间戳:记录读写该数据的最新事务的时间戳,...

  • 基于锁的并发控制

    实现基于2PL的事务处理原型。 基本概念 Short duration lock 短锁动作开始前申请锁,动作结束立即把锁释放 Long duration Lock 长锁动作开...

  • Factor Analysis

    这应该是学ML依赖推导过的最痛苦的算法了,所以我想先用直观的语言描述什么是Factor analysis。 因子分析(factor analysis)是一种数据简化的技术。它...

  • Hive使用

    使用Hadoop和Hive。 首先,Hive是使用了MapReduce引擎和HDFS存储的中间键,其元数据存储在MySQL,Hive只是方便查询,其数据库中的数据都在HDFS...