2018-06-14 群里小论聊天系统后台怎么存聊天记录

杨老板在群里讨论了一个系统设计题的内容。

聊天系统后台怎么存聊天记录？

开宇提出declearing

看需求了什么样的业务模型，以后怎样scale。比如支不支持group 支不支持群发。语音图片。

杨老板提出进阶

比如只是文字，当然是大型的，先不说群发。Nosql 用什么，Cassandra? 存成什么形式，怎么查找。

Beny提出细节：

先讨论问题范围吧：

1）要存多久？能否删除？

2）是否有搜索的需要？有无搜索的实效性需求？对旧信息的搜索需求？

3）群消息还是单独的消息居多？当然可以共存，但是如果有侧重可以进行特殊处理。

4）预计用户量和写入量是多少？可以估计peak traffic和存储量的需求。

等你快速过完problem definiation再开始讨论设计，思路会清晰一点。

特殊消息类型例如图片、表情、视频也可以特殊讨论。

感觉存储和搜索是两个主要需求，要大概估算需要存多少数据量。

第一印象是分层存储，信息和索引都要存下来，老信息加上他们的索引可以写到file system、较新信息放storage（nosql）、需要快速读取、推送的新信息放cache。需要考虑multi-Data center的写入速度和错误处理，写入需要回执确认成功，为了提高写入速度可以考虑支持物理层支持同时在disk两端写入。

每个人有自己的index，按时删除过时的部分，搜索应该可以支持分页，先搜新信息，后搜旧信息。

讨论的时候可以根据不同的constrain调整你的设计，例如QPS 乘100倍的情况会怎样，支持图片、视频这类大文件的情况如何支持。

杨老板小结

这是一道很常见的题面试。比如就是Facebook messager, 总流量很大。

图片，视频那些无所谓，在聊天记录里肯定是存链接或者id。假设没有搜索，没有删除，先不考虑群聊。Query就是个返回某个时间段的聊天记录。

另一个问题：nosql里，data具体怎么存？是table还是简单的key value pair?

query是什么样子的？

例如A给B发了一条信息，给C发了一条信息，然后收了D一条信息。

你的query结果是不是：

query(A, begin, end) ->

{

to B: xxxx

to C: xxxx

from D: xxxx

}

应该是(uid, timestamp, mid) 比较合适。毕竟有同时发送、接收的信息。

用这样的key,可以取字段时间的两人聊天记录吗？

可以的

这并不是几个字符构成的string，对于noSQL来说他们支持这类复合的key，我记得是实际上是某个带有索引功能的 hash，具体实现就不清楚了。

晓斌接上

只能按prefix搜索。

在后面的key拿不到只能说全表查然后手动filter。如果prefix太接近了好像某一个node会造成瓶颈。如果prefix太接近了好像某一个node会造成瓶颈。我一直觉得这个可以搞一个通用的解决方案然后开源一下。

end

最后编辑于：2018.06.15 01:19:04