问题 在项目启动时,发现打印了大量的debug日志,但是src/main/resources下明明有log4j.xml,而且日志级别还设置的是info,为什么会打印出大量的d...
转自git-flow[https://www.git-tower.com/learn/git/ebook/cn/command-line/advanced-topics/gi...
本机Airflow 安装 Pycharm 配置 设置Interpreter python env 选择安装airflow的python, 这样pycharm的环境才会包含ai...
介绍 SPI(Service Provider Interface),是JDK内置的一种服务提供发现机制,可以用来启用框架扩展和替换组件。 机制如图: 当服务的提供者提供了一...
前言 本文介绍的内存配置方法基于Flink 1.10 配置log4j Flink1.10 使用的默认日志是 Log4j,配置文件的如下: log4j-cli.properti...
前言 本文介绍的内存配置方法只适用于Flink 1.10及以上版本。 相关配置详细说明: Flink Config 配置 Flink 进程的内存 Flink JVM 进程的...
转载: https://segmentfault.com/a/1190000021121882 前言 最早开始撸码当时就遇到几次日志jar包冲突的问题,当时也是很烦躁,毕竟了...
你是说依赖的jar包? 我现在都是打成一个jar包或者放到flink lib 目录下
Flink入门-部署Flink提供了多种部署方式,本文主要介绍local cluster、standalone cluser、yarn 3种常用的模式。 环境准备 Java8或者11 Zooke...
Flink提供了多种部署方式,本文主要介绍local cluster、standalone cluser、yarn 3种常用的模式。 环境准备 Java8或者11 Zooke...
Flink 在设计和实现流计算算子时,把“面向状态编程”作为第一准则。因为在流计算中,为了保证状态(State)的一致性,需要将状态数据存储在状态后端(StateBacken...
查询优化 批量get请求 使用批量请求,可以减少RPC的次数,显著提高吞吐量。批量get请求要么成功返回所有请求数据,要么抛出异常。 设置Scan缓存 一次scan可能会返回...
RowKey设计长度原则唯一原则散列原则 列族设计列族数尽量少,不要超过3个BlockSize 数据块大小BlockCache 数据块缓存BloomFilter 布隆过滤器C...
原文地址 实时数仓建设目的 解决传统数仓的问题 实时数仓是一个很容易让人产生混淆的概念。实时数仓本身似乎和把 PPT 黑色的背景变得更白一样,从传统的经验来讲,我们认为数仓有...
开发环境准备 JDK1.8➜ ~ java -versionjava version "1.8.0_201"Java(TM) SE Runtime Environment ...
Apache Flink 是一个分布式大数据处理引擎,可对有界数据流和无界数据流进行有状态或无状态的计算,能够部署在各种集群环境,对各种规模大小的数据进行快速计。 简介 Fl...
算法(Algorithm)是指用来操作数据、解决程序问题的一组方法。对于同一个问题,使用不同的算法,也许最终得到的结果是一样的,但在过程中消耗的资源和时间却会有很大的区别。 ...
转自阮一峰的网络日志 CORS是一个W3C标准,全称是"跨域资源共享"(Cross-origin resource sharing)。 它允许浏览器向跨源服务器,发出XMLH...
什么是内存映射 所谓内存映射,就是将文件的磁盘扇区映射到进程的虚拟内存空间的过程。 操作系统中的进程 进程就是一个正在运行的应用程序 每一个进程都是独立的,并且每一个进程都在...