您知道关系型数据库(RDBMS)与NoSQL数据库的本质区别和适用场景吗?
总的说来,RDBMS主要管理、存储和操作的是结构化的数据。其中,数据格式、列、数据类型、属性和模式都是固定的。而且实体之间的关系也基本保持一致。在使用RDBMS来存储事务型数据或记录时,底层数据库除了必须保证事务的ACID(原子性、一致性、隔离性、耐久性),此外还需要重视数据的安全性和可访问性。RDBMS的典型适用场景包括:财务交易记录、OLTP、ERP、CRM系统、以及电子商务应用等。而SQL是处理RDBMS时常用的查询语言。
NoSQL(有时也称为非SQL或非关系型)数据库是一种适用于管理非关系型数据(即:具有固定数据类型格式和变量,但不以表格格式来结构化数据)的数据库。NoSQL数据库有着诸如:键-值、基于文档、基于列和基于图等多种类型。NoSQL比较适合那些非结构化数据具备可扩展性,以及卓越性能的场景。
近年来,随着技术的发展,虽然一些图形数据库也提供了事务在存储时需要遵循的ACID属性,但是它们仍处于早期有待改进的阶段。NoSQL的典型数据是各种数据流、文档、聊天消息、以及大数据等。它们往往来自诸如内容管理、个性化Web搜索引擎、机器学习、物联网边缘设备、以及存储了来自异构源的大型用户配置文件。
在此,我们首先对两种数据库的特征进行如下对比和总结:
随着业务的发展和各类需求的出现,许多企业需要将现有的RDBMS数据库迁移到NoSQL,以实现业务的可扩展性和性能的动态调整。从上面的对比表格,我们可以看出,从RDBMS数据源迁移到NoSQL数据库的优势主要体现在:成本、收益、性能、可扩展性、变更、减少手动转换的工作量、以及对于分析的广泛支持等方面。
目前,Apache Cassandra和MongoDB是被使用最为广泛的NoSQL数据库。Atlas则是由MongoDB提供的DBaaS(数据库即服务)。不过,目前支持将RDBMS迁移到MongoDB或Cassandra的工具并不多。当然,我们也可以使用ETL工具或自定义的转换引擎,来实现此类复杂的迁移。
此外,由云服务提供商提供的专有数据库有:Azure Cosmos DB、AWS DynamoDB、以及Google Cloud Spanner。这些云服务提供商往往能够提供完善的架构、广泛的支持能力、文档和数据迁移工具。因此,与Cassandra或MongoDB相比,花费在建立和迁移到新的DynamoDB或Cosmos DB实例上所需的工作量会更少。当然,与Google相比,Azure和AWS NoSQL服务要更受业界的欢迎。
下面,我们来讨论如何使用云服务提供商所提供的各种工具选项,将RDBMS迁移或转换为NoSQL数据库。
1.从传统RDBMS DB到AWS DynamoDB的迁移工具
AWS Database Migration Service可以将数据从各种被广泛使用的商业化RDBMS、和开源的数据库,迁移到相似的同类数据库,或异构的数据库平台,以及AWS(RDS)的DBaaS平台上。
AWS Schema Conversion Tool(SCT)的对象映射功能,可以被用于在迁移的过程中,将原始数据重组为目标DynamoDB所需的数据结构。而对于复杂的转换,我们可以使用Lambda函数。当然,业界也有许多开源的工具,可以将数据库表先转换为JSON对象,然后再将这些JSON对象导入NoSQL数据库。
2.从RDBMS DB到Azure Cosmos DB的迁移工具
Azure Cosmos DB仿真器和Azure Cosmos DB Data Migration工具,可以将CSV或JSON对象等格式的源数据,从MSSQL数据库迁移到Cosmos DB中。
Azure Database Migration Service(DMS)、Cosmos DB和MongoDB的API,可被用于将MongoDB迁移到Cosmos DB。
Azure DMS、Cosmos DB、Cassandra API、以及cqlsh命令实用程序,可被用于将Cassandra迁移到Cosmos DB。
而为了从MSSQL以外的其他RDBMS中进行转换,Microsoft建议用户使用诸如Blitzz.io等第三方工具。
Azure DMS、Azure SQL Server Migration Assistant(SSMA)和Ora2Pg,也可以被用于在关系型RDBMS,与MSSQL或Azure的DBaaS平台之间,进行同质和异构的迁移。
当然,用户在使用上述工具进行迁移之前,都需要事先具有Azure的Cosmos DB订阅帐户。
3.从SQL迁移到Google DataStore
Google提供的NoSQL服务包括Cloud Datastore和Bigtable。其中,Cloud Datastore已被更新升级为Firestore的服务。
针对从RDBMS数据库或其他NoSQL平台,迁移到Firestore或Bigtable,Google并没有太多现成的工具和文档支持。我们只能依靠由Google托管的RDBMS Cloud SQL的内置功能,将各种传统的RDBMS迁移到Cloud SQL。而前文提到的另一个托管式RDBMS--Cloud Spanner,则需要通过手动操作来实现迁移。
小结
如今,除了直接从SQL数据迁移到NoSQL数据库,许多组织也正在将传统的大型数据存储,迁移到由文件存储、NoSQL数据库和SQL数据库组成的数据湖模式中,进而方便开展存储挖掘和大数据分析。