程序员高薪已经不是一个秘密了,现在社会上很多人谈起程序员,就自然想到,程序员的高薪。 现在转行程序员要么培训班要么自学,对于培训班而言,恕我直言,很多有水分,而且夸大,并且很...
程序员高薪已经不是一个秘密了,现在社会上很多人谈起程序员,就自然想到,程序员的高薪。 现在转行程序员要么培训班要么自学,对于培训班而言,恕我直言,很多有水分,而且夸大,并且很...
在sparksql中使用udf,比较简单,先在spark中自定义udf算子函数,然后进行注册,之后再sql中就可以直接使用该udf val len = udf{(str:St...
storm分布式实时计算框架,在整个程序中,spout接收数据源并封装数据为tuple,然后将tuple发送给bolt处理,处理完数据后可以发送到下一个bolt中再处理也可以...
当需要从大量数据中进行查询操作,我们可以使用建索引的方式,但是在使用索引上,需要注意,否则查询的时候会造成放弃索引使用全盘扫描方式 索引失效的原因? 1.联合索引使用顺序上,...
1 介绍 flume是实时日志采集系统, 使用场景:监控目录的日志信息,控制台输入信息,端口信息,http发送的信息,并将该信息发送到指定的存储中,比如hdfs,Hbase,...
前言 ReadWriteLock是一个抽象类,实现类为ReentrantReadWriteLock,其管理两组锁,一个读锁,一个写锁。读锁可以在没有写锁的情况下被多个线程持有...
前言 mysql中的存储引擎比较多,但是常用的也就两个InnoDB和MyISAM InnoDB 支持事务(提交、回滚),行级锁(对索引的行级锁,如果没有命中索引,将使用表级锁...
简单介绍 sparksql是spark的一个重要的组件,该组件主要是处理结构化的数据,从外部数据源(hive,json,.csv,parquet,orc等)读取到内存中,在...
DataFrame: DataFrame是以rdd为基础的分布式数据集,类似于传统数据库的二维表格,带有schema的元数据,即相当于二维表格的每一列都有列名和类型,基于次对...
前言 当一个函数传递给spark集群去运行的时候(map,reduce)。该函数的所有变量都会在各个节点的任务中创建一个副本,当该变量数据计较大的手,会极大的占用计算机宝贵的...
当我们需要将dataframe中的某一列数据装换为其它类型或者做一些其它的算法后,再新增加到datafram中时,最有效的方法是使用自定义的udf函数。本文的例子是将id列的...
前言 kafka具有,高吞吐量、数据可持久化、易扩张、消费端维护等特点。kafka以topic进行数据分类,每个topic都会有分区,每个分区都会有副本。每条消息都有一个of...
前言 垃圾回收器需要回收内存中的数据,以便保持内存一直处于可用状态。但是垃圾回收如何选择哪些数据对象需要回收,哪些不需要回收?主要是使用引用计数法及引用状态来决定是否需要回收...
一、内存统计命令 info memory 该命令会输出redis的相关信息,包括内存使用情况,cpu等数据 used_memory: redis内存分配器分配的内存情况,主要...
前言 redis的高可用涉及到持久化、主从复制(读写分离)、哨兵和集群。持久化主要是内存数据到磁盘,是一个单机备份问题,主从复制是多机数据备份问题。主从复制不仅仅解决数据备份...
前言: redis持久化是为了在redis服务重启的时候在内存中恢复数据,默认是从aof中恢复数据,redis的持久化策略,第一RDB,第二种AOF.,下文会对两种解析方式进...
Redis keys: 作为redis的key需要注意一下几个原则 1. key可以为null 2.key不能太长,太长的话不仅仅消耗内存而且还在查询过程中会提高查询的成本 ...
前言: redis简单理解,就是提高获取数据的响应速度,比如从数据库中获取数据,如果每次查询都从关系型数据库中获取数据,那么数据库的访问压力非常大并且响应速度也比较慢,re...