240 发简信
IP属地:陕西
  • 5、Flink概要

    一、基本特性 1、Flink简介 Flink 是分布式实时和离线计算引擎,用于在无界数据流和有界数据流上进行有状态的计算,能在常见集群环境中运行,并能以内存速度和任意规模进...

  • 120
    4、Spark概要

    一、基本特性 1、与MapReduce的不同 不同于MapReduce的是Job中间输出和结果可以“保存在内存”中,从而不再需要读写HDFS, (1)、基于内存 mapred...

  • 3、Kafka/flume概要

    七、Kafka ·kafka是一个分布式消息系统。具有高性能、持久化、多副本备份、横向扩展能力。将消息保存在磁盘中,以顺序读写方式访问磁盘,避免随机读写导致性能瓶颈。生产者往...

  • 2、Hbase/Hive概要

    五、HBase 1、HBase特点 Hbase是构建在HDFS上的分布式数据库,提供高可靠性、高性能、列存储、可伸缩、实时读写的分布式数据库系统。HBase主要用于大数据领域...

  • 1、Hadoop概要

    一、HDFS Hadoop中的分布式文件系统,高容错(数据库blcok备份),可扩展,适合存储大文件,不适合存储小文件,不适合处理低延时的数据(HBase更好),一次写入、多...

  • IDEA快捷

    Ctrl+Alt+V,可以引入变量。例如:new String(); 自动导入变量定义 Ctrl+Alt+T,快速代码块(try catch等) Alt+Insert,可以生...

  • 120
    pandas

    一、Series obj = pd.Series(index, values) = 索引 + 一维数组 index对象不可修改 obj.r...

  • 120
    numpy

    一、创建ndarry obj.astype(dtype):转化其他detype obj.reshape(a,b):转化为a*b形式 np.where(cond,x,y):if...