cassandra 概述

摘要

本篇文章主要是介绍cassandra与其他NoSQL的区别以及其身的特点与应用场景。在关系数据库我们没必要选择数据库,通常需要适配oracle/mysql/sql server/db2 等多种数据库。但是今天的NoSQL 还不够成熟,以及每一款的NoSQL 数据库应用领域不是很宽泛,设计理念也有很大差异,所以通常我们需要为我们的应用评估究竟哪款NoSQL数据库比较合适。个人认为各个NoSQL数据库并没有谁好谁差,需要从自己的应用本身出发来考量。

NoSQL比较——华山论剑,谁与争锋

排名

从DB Engines提供的数据可以看出,cassandra目前在NoSQL数据库排名第二,仅次于与MongoDB。所有数据库中排名第七。而且从趋势图中可以看出,cassandra目前处于快速上升阶段.

性能比较

有很多大公司或者学校的科研机构对目前比较流行的NoSQL 做过详细的benchmark.综合来看,cassandra的 insert throughput 有优势,线性扩展很好(貌似最流行的mongoDB在这一方面表现的不是很好),写操作要优于读操作。但是write,read latency还是比较大,不如其他的NoSQL.具体的读者可以参考下下面的两个链接信息.
http://www.planetcassandra.org/nosql-performance-benchmarks/

http://www.csdn.net/article/2013-04-15/2814886-nosql-benchmark

cassandra案例

cassandra 试用的场景主要有5个方面

1.物联网

物联网应用中有大量的传感器和设备,需要采集环境信息,然后发送给上位机。这些信息都是时间顺序排列的,cassandra非常适合用来存储这些信息。

2.个性化

使用cassandra接收,分析。可以提供快速,低成本,可扩展的用户体验

3.message

最早facebook就是使用cassandra来存储message(不过后期好像替换掉了)

4.欺骗检测

cassandra可以是欺骗分析模式变得更快速,精确,高效

5.列表

产品目录,电源评分,cassandra可以将用户选中的诸多项目作为一个集合存储起来

目前apple拥有最大的cassandra cluster.超过75,000nodes,存储数据达到10PB.不过apple没有关于他们使用cassandra的用途的相关报告。此外netflix 也有2500 nodes的cassandra cluster,netflix 是一家流媒体公司,使用cassandra来储存用户的访问痕迹,以及log数据,能够处理10M transactions/s的并发量。netflix在cassandra的实践过程中,遇到过很多的坑,也诞生了很多优秀的解决方案,他们都通过blog,code等方式开源了一部分出来。,是后续cassandra学习者不可多得的参考资料。

国内cassandra最早的实践者应该是360,用在搜索业务上,超过了1000Nodes.然后还有宜搜一家创业公司,做手机端的搜索,规模也有250Nodes.

总体架构——会当凌绝顶,一览众山小###

CAP

在NoSQL领域,CAP理论不可不提的。

C:Consistency 一致性,数据信息保持一致

A:Available 可用性

P:Partition tolerance 集群能够容纳一部分节点/数据分区 down掉的情况发生

CAP 理论指出你不可能想获得一个操作低延迟,同时使CAP 都满足。cassandra 是牺牲了一部分的C,保证
AP.从而降低延迟。当然如果你不在乎延迟,那么在cassandra中你也是可以调整的,使C也得到保证。

Constistency Level

cassandra创建keyspace的时候可以指定数据在cluster中存储几份

create keyspace test with replication={'class':'NetworkTopologyStrategy','replication_factor':3}

RF=3

在cassandra client 端,对于每次的write/read操作都可以分别指定consistency level.

consistency level=ONE 表示只要有一份数据返回,就认为操作成功了。

consistency level=quorum,表示只要有(n+1)/2 【向上取整】份数据返回,就认为操作成功了。n
就是上面创建Keyspace 时指定的RF

一般来说,只要保证W+R>N就可以实现一致性。W等于write写操作指定的consistency level.R等于读指定的consistency level.N等于replication_factor

上面我们说过,如果你不在乎延迟,那么可以调节。使consistency得到保证。在这里,你可以指定Consistency Level=ALL。
这样就是强一致性。

通过我们的写操作Consistency Level 设置为QUORUM,即超过一半的replication写人成功就认为这次写操作成功。剩下的replication我们不能
保证一定能写入成功。cassandra有其他的机制保证一条记录最终能够一致,及达到RF设置的要求。所以cassandra的一致性又称之为最终一致性。

最终一致性

1.read repair

cassandra去读数据的时候,当有read consistency level 份数据成功返回的时候就认为成功了。但是会有异步操作去检测这条record是不是都存在,如果有个Node上面丢失了这个record,就会去修复。

2.hintedhandoff repair

当某个节点down后,coordinator会将应当写入到这个down node的信息写入到自己本地hinted 文件。当检测到这个节点
恢复了,coordinator会使用hint将这些数据再写入到down node.当然,超过设定的max_hint_window_in_ms时间后,hint
文件就会被删除。down node节点的数据就不会通过这种方式来恢复了。

3.anti-entropy repair

这种方式需要手动执行。nodetool repair.

cassandra 有一个叫Merkle trees 的结构来存储每份复制数据应该保存在哪个节点。
nodetool repair 就是比较发现目前cluster与Merkle trees的差别,然后修复复制数据。

分片

数据分片的技术在关系型数据中就有,就是将相似的数据放在一起,这样查询相似的数据,就可以查询更少的物理节点/分区了,
大大减少了延迟。

cassandra 提供了灵活的分片规则,你可以指定不同的partition key来对数据分片。
默认使用org.apache.cassandra.dht.Murmur3Partitioner来实现。

create table test (
name text,
age int,
address text,
PRIMARY KEY(name,address,age)      
);

test 这种表的partition key 就是name 字段,根据name的hash value值在token ring 中的范围,来存储一条记录。
这样一样name的数据会有一样的hash value.就会存储在一个partition中。

参考

http://db-engines.com/en/ranking

http://db-engines.com/en/ranking_trend

http://stackoverflow.com/questions/2892729/mongodb-vs-cassandra

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,284评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,115评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,614评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,671评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,699评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,562评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,309评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,223评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,668评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,859评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,981评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,705评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,310评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,904评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,023评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,146评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,933评论 2 355

推荐阅读更多精彩内容