Cassandra JAVA客户端是如何做到高性能高并发的

Cassandra Java驱动程序

本文翻译至: https://beyondthelines.net/databases/the-cassandra-java-driver/

同时也加上了作者阅读源码后的观后感,丰富了很多细节。

Cassandra驱动程序不是将CQL字符串发送到Cassandra节点并等待响应的傻瓜程序

它们实际上很聪明,并且以某种方式组织的,使您易于使用,工作更开心,同时仍然尝试从Cassandra中获得最大的性能。

在本文中,我将重点介绍Java驱动程序,快速了解其体系结构及其提供的某些功能。

快速使用

3.x版本

Cluster cluster = Cluster.builder().addContactPoints(contactPoints).withPort(port).build();

session = cluster.connect();

ResultSet results = session.execute(query);

for (Row row : results) {

//TODO: access row;

}

4.x版本

session = CqlSession.builder().build();

ResultSet results = session.execute(query);

for (Row row : results) {

//TODO: access row;

}

配置application.conf,放在java进程的classpath下

datastax-java-driver {

  basic.contact-points = ["127.0.0.1:9042"]

  basic {

    load-balancing-policy {

      local-datacenter = datacenter1

    }

  }

可以看到4.x完全移除了Cluster这个类,一个会话会创建n个pool(n=node个数),一个pool就是一个连接池,拥有若干个连接,请求都是异步的,所以一个连接也是可以同时发送多个request,这种我们称之为inFlight

因为目前主流的客户端还是3.x,下面我们重点介绍3.x版本

架构

Cassandra Java驱动程序提供了一个异步API。请注意,它还提供了一个同步API,但由于它是基于异步API的,并且我不想在我的应用程序线程与Cassandra交互时夯住,因此我不准备介绍它。

让我们自底向上研究一下驱动程序各个组件

连接

最底部是与Cassandra节点的连接。Cassandra协议是完全异步的。这意味着我们可以通过同一连接发送多个请求。在发送下一个请求之前,我们不必等待单个请求完成。每个请求都由流ID标识,并且在响应中也设置了该ID,以便driver可以将响应与相应的请求进行关联。

该驱动程序依靠Netty执行异步IO操作。

一旦将请求发送到连接会话,executeAsync将返回Future,然后在接收到相应的响应(或发生超时异常)时使用Promise完成。

正在进行的请求(也称为“in-flight”请求)存储在队列中。队列已满时,您将无法再将查询发送到Cassandra。executeAsync将返回失败的future(jdk8异步作业句柄)。在版本3.1之前,调用线程处于阻塞状态,等待有可用的连接。当然,队列大小可以在poolingOptions中配置。

val poolingOptions = new PoolingOptions()

poolingOptions

  .setMaxRequestsPerConnection(HostDistance.LOCAL, 32768)

  .setMaxRequestsPerConnection(HostDistance.REMOTE, 2000)

val cluster = Cluster.builder()

    .withContactPoints("127.0.0.1")

    .withPoolingOptions(poolingOptions)

    .build()

默认值非常低(本地连接为1024,远程连接为256)。256在生产环境很容易就用满,因此,我建议您根据需要调整这些值。

使用TCP保持活动状态或发送应用程序心跳以保持连接打开,以保持连接打开。

连接池

连接属于连接池。驱动程序为每个Cassandra节点维护一个连接池。连接池也可以通过poolingOptions进行配置。

poolingOptions

    .setConnectionsPerHost(HostDistance.LOCAL,  4, 10)

    .setConnectionsPerHost(HostDistance.REMOTE, 2, 4)

主要配置是池大小。可用连接的数量可以根据负载在核心和最大数量之间变化。我们还可以为本地或远程数据中心设置不同的设置。当连接闲置时间过长时,连接将关闭,直到池大小达到其核心大小为止。

会话

连接池属于会话。

会话也是应用程序用于与Cassandra通信的对象。

该层为应用程序抽象所有连接管理。

val session = cluster.connect()

Session提供了所有与Cassandra通信的API,例如session.executeAsync,它允许应用程序向Cassandra发送请求,或者session.getState允许我们监控后端主机和进行中的查询。

cluster

群集是顶层抽象。在这里,我们可以配置所有内容,例如指定池选项,负载平衡策略,重试策略或默认一致性级别。

val cluster = Cluster.builder()

.withContactPoints("127.0.0.1")

.withPoolingOptions(poolingOptions)

.withLoadBalancingPolicy(new RoundRobinPolicy())

.withQueryOptions(

  new QueryOptions().setConsistencyLevel(ConsistencyLevel.LOCAL_QUORUM)

)

.build()

Bootstrapping

当驱动程序首次连接到种子节点之一时,它会建立一个控制连接,用于发现群集拓扑。基本上,它查询Cassandra中的系统表。

引导启动时,从种子节点列表中随机选择种子节点,以避免在初始群集拓扑中始终使用相同的节点。

负载均衡

负载平衡负责建立与整个Cassandra集群(不仅在一个节点上)的连接,并维护与集群中每个主机的连接池。

它具有将某些请求发送到某些节点的逻辑。与哪些主机建立连接以及向哪些主机发送请求由负载平衡策略确定。

实际上,对每个请求都会算出一个查询计划。查询计划确定向哪个主机发送请求以及以哪个顺序发送(取决于推测执行策略和重试策略)。

负载平衡还确定主机是本地主机还是远程主机(跟客户端DCAware配置有关)。

如果默认策略不够用,可以编写自定义负载平衡策略。

驱动程序从请求中提取partitionKey,并使用正确的哈希算法路由到持有该分区的Cassandra节点。

默认策略是DatacenterAwareLoadBalancingPolicy。拥有如下两特性

数据中心感知:确定哪些节点属于本地数据中心,哪些节点属于远程数据中心。然后,驱动程序仅将请求发送到本地数据中心,并将远程数据中心用作备用。

令牌感知:查找请求的分区键,并使用与群集相同的算法对其进行哈希处理。然后,它将请求发送到负责令牌的节点(在该分区的副本中随机选择)。

使用DDCAwareRoundRobinPolicy时可以指定本地数据中心:

Cluster cluster = Cluster.builder()

  .addContactPoint("127.0.0.1")

  .withLoadBalancingPolicy(

    DCAwareRoundRobinPolicy.builder()

      .withLocalDc("myLocalDC")

      .withUsedHostsPerRemoteDc(2)

      .allowRemoteDCsForLocalConsistencyLevel()

      .build()

    )

  )

  .build()

容错能力

错误主要有3种:

无效的请求:错误直接返回应用上层,因为驱动程序无法知道如何处理此类请求

服务器错误:驱动程序可以根据负载平衡策略尝试下一个节点

网络超时:如果请求被标记为幂等,则驱动程序可以重试该请求。默认情况下,请求不被认为是幂等的,因此在可能的情况下将请求尽量标记是一个好习惯。

对于幂等请求,如果在一定的延迟内没有来自第一节点的响应,则驱动程序可以将请求发送到第二节点。这称为“推测重试”,用SpeculativeExecutionPolicy进行配置。

val cluster = Cluster.builder()

  .addContactPoint("127.0.0.1")

  .withSpeculativeExecutionPolicy(

    new ConstantSpeculativeExecutionPolicy(

      500, // delay before a new execution is launched

      2    // maximum number of executions

    )

  )

  .build()

结论

感谢datastax为我们提供了这么强大的客户端,Java驱动程序值得花一些时间来了解其体系结构以及如何正确配置它(每个连接的最大请求尤为重要,因为我发现默认值不是很合适–配置本地数据中心也很重要,否则驱动程序可能会连接到远程数据中心)。

链接:Java架构面试专题汇总(含所有架构面试专题及答案)和学习笔记

提取码:efdz

面试题库及更多资料获取

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,014评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,796评论 3 386
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,484评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,830评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,946评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,114评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,182评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,927评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,369评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,678评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,832评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,533评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,166评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,885评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,128评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,659评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,738评论 2 351

推荐阅读更多精彩内容