spark读取hbase为DataFrame后利用SQL进行计算

最近在做spark和hbase的相关项目。暂且将其分为两部分：一是利用spark streaming消费前台推到kafka中的消息，进行简单处理后写入到hbase；然后就是利用spark读取hbase，将结果组装成json，再利用spark SQL进行计算。

介绍一下环境：
<properties>
<project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
<project.reporting.outputEncoding>UTF-8</project.reporting.outputEncoding>
<org.scala.version>2.11.2</org.scala.version>
<org.spark.version>2.0.2</org.spark.version>
<org.kafka.version>0.10.2.1</org.kafka.version>
<org.apache.hbase.version>1.2.2</org.apache.hbase.version>
</properties>

这里先来讨论后半部分，spark读取hbase。

首先，了解过hbase的都应该知道，它是一No SQL的非关系型数据。与我们平时常见的MySQL和Oracle不同，No SQL最大的特点就是不支持事务，对于关系型数据库轻松加随意的join啊、groupby啊什么的，都不擅长。不过hbase既然这么火，肯定有其道理。我这里之所以采用它，最重要的就是因为：一是数据量大，项目还没上线，不过预测日增量有上百g，二来呢hbase提供了java api，以前搞过，get和scan的效率还是很给力的。再加上我们记录的用户行为信息，根本不需要更新操作，我只要能写进去，拿出来就行啦。

废话不多数，下面上代码：

先要组装hbase client

先要引入配置文件

private val config = ConfigFactory.load()
private val conn = getConnection

具体的application.conf如下
spark{
master="local[*]"
appName="KafkaConsumer"
}
kafka {
topics = "topic007"
brokers = "192.168.1.97:9092,192.168.1.98:9092,192.168.1.99:9092,192.168.1.106:9092,192.168.1.107:9092,192.168.1.108:9092"
group = "groupid"
}
hbase{
port = "2181"
quorum = "master1.hadoop,slave2.hadoop,slave3.hadoop,slave4.hadoop,slave5.hadoop,slave6.hadoop"
tableName = "test"
}

大家根据自己的设置自行修改啊。

然后就是hbase相关的api调用啦，具体如下：

/**
  * 扫描HBase并返回结果
  * @param tableName 表名
  * @param filter 过滤条件
  * @param startRow 起始行键
  * @param stopRow 结束行键
  * @return 扫描结果
  */
  def scan(tableName: String, filter: Filter, startRow: String, stopRow: String): List[Map[String, String]] = {
    val s = buildScan(filter, startRow, stopRow)
    val t = conn.getTable(TableName.valueOf(tableName))
    scan(t, s)
  }

/**
  * 执行扫描
  * @param table 表
  * @param scan scan
  */
private def scan(table: Table, scan: Scan): List[Map[String, String]] = {
  val scanner = table.getScanner(scan)
  val ite = scanner.iterator()
  val result = new ListBuffer[Map[String, String]]
  while (ite.hasNext){
    val map = new mutable.ListMap[String, String]
    ite.next().listCells().foreach(c => map += readCell(c))
    result += map.toMap
  }
  result.toList
}

/**
  * 读取单元格
  * @param cell 单元格
  */
private def readCell(cell: Cell) = {
  val qualifier = Bytes.toString(CellUtil.cloneQualifier(cell))
  val value = Bytes.toString(CellUtil.cloneValue(cell))
  (qualifier, value)
}

/**
  * 构建Scan实例
  * @param filter 过滤条件
  * @param startRow 起始行键
  * @param stopRow 结束行键
  */
private def buildScan(filter: Filter, startRow: String, stopRow: String): Scan ={
  val scan = new Scan()
  scan.setMaxVersions()
  scan.setCaching(2000)
  scan.setCacheBlocks(false)
  if(filter != null)
    scan.setFilter(filter)
  if(startRow != null)
    scan.setStartRow(Bytes.toBytes(startRow))
  if(stopRow != null)
    scan.setStopRow(Bytes.toBytes(stopRow))
  scan
}

/**
  * 获取链接
  */
private def getConnection: Connection = {
  val conf = HBaseConfiguration.create()
  conf.set(HConstants.ZOOKEEPER_QUORUM, config.getString("hbase.quorum"))
  conf.set(HConstants.ZOOKEEPER_CLIENT_PORT, config.getString("hbase.port"))
  ConnectionFactory.createConnection(conf)
}

以上就是调用hbase 的scan api做的事，具体的条件设置大家可以自行查看官方文档，按需配置。
scan. 这个啊， scan. 那个啊，，，自己看着弄就行http://hbase.apache.org/apidocs/index.html

然后是我的驱动类：
这里就要介绍一下业务了。以我《Hbase权威指南》两个星期的阅读理解结合我们的实际需求来讲，我把rowkey设计为 "token_querytime" 的形式。例如：p4064d445c9f4ff4d536dfeae965aa95_1503364335426

token是什么呢，据我们的PHP前端工程师+技术总监来说，就是用户的访问行为，具体咋产生我也不知道。。。总之，我的目标就是，前端传过来用户要查看的某段时间内的某页面上的各种访问行为，也就是token和querytime的各种组合，我从hbase中给他拿出来计算好就行，所以我这样设计了rowkey。来看看我是怎么拿的：

def getDF(spark: SparkSession, filter: String, startRow: String, stopRow: String): DataFrame = {
  val filter1 = new PrefixFilter(Bytes.toBytes(filter))
  val results = HBaseClient.scan("test", filter1, startRow, stopRow)
  val jsonString = results.map(e => JSONObject(e).toString())
  val jsonRDD = spark.sparkContext.parallelize(jsonString)
  val df = spark.read.json(jsonRDD)
  df
}

里边的“test” 是我的表名，这里我写死了。startRow和stopRow传入的就是开始和结束的rowkey，filter可以为null。

之后就可以对着结果各种蹂躏啦，只要是DataFrame支持的，什么姿势都行。嘿嘿😁

（注：吐槽简书一句，感觉对代码的支持很不好啊，从idea粘贴过来各种不行）

最后编辑于：2017.12.10 05:16:26

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 218,122评论 6赞 505
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,070评论 3赞 395
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 164,491评论 0赞 354
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,636评论 1赞 293
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,676评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,541评论 1赞 305
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,292评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,211评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,655评论 1赞 314
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,846评论 3赞 336
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,965评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,684评论 5赞 347
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,295评论 3赞 329
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,894评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,012评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,126评论 3赞 370
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,914评论 2赞 355

spark读取hbase为DataFrame后利用SQL进行计算

推荐阅读更多精彩内容