240 发简信
IP属地:海南
  • Flink Sink&Source

    1 Kafka 1.1 Kafka Source 1.2 Kafka Sink 2 RabbitMQ 2.1 RabbitMQ Source 2...

  • 使用Scala中的XML解析整个文件夹下的xml,并忽略dtd检测

    需求:快速解析一个文件夹下的所有xml(10年的数据,大概一千万个xml)遇到的坑:xml里面有dtd,必须这个文件存在,不然会报错处理思路:重...

  • XML大文件解析(文件大小:21G)

    最近解析了一个超大的xml,之间遇到很多坑,有写Java程序、spark程序,最后用Python处理的:Java、spark、python处理X...

  • 借助hive快速导数据到hbase(02)

    上一篇咱们讲了通过hive映射为hbase表导数据,这儿我么再讲一下通过hive,使用hbase原生jar生成hfile再bulkload到hb...

  • 借助hive快速导数据到hbase(01)

    需求:解析XML文件,写入到hbase(xml文件格式为GBK,spark读进来会乱码)痛点:普通的写入太慢太耗费时间 1.spark解决读取G...

  • Flink结合布隆过滤器进行全局去重并结合状态管理进行全局标号

    /********************************** 数据去重 ***************************...

  • Flink operator状态管理

    记录一下曾经走过的一些坑,一定要注意operator状态之前尽量不要用keyby Flink提供了Exactly once特性,是依赖于带有ba...

  • Flink sink数据到带有账号密码的ES

    话不多说直接上代码 /*********************************** 写数据到ElasticSearch *****...