1.GSI与LSI区别
Amazon DynamoDB 通过指定主键值来提供对表中项目的快速访问。但是,很多应用程序可能适合有一个或多个二级(或替代)键,以便通过主键以外的属性对数据进行高效访问。要解决此问题,您可以对表创建一个或多个二级索引,然后对这些索引发出 Query 或 Scan 请求。
二级索引 是一种数据结构,它包含表中属性的子集以及一个支持 Query 操作的替代键。您可以使用 Query 从索引中检索数据,其方式与对表使用 Query 大致相同。一个表可以有多个二级索引,这样,应用程序可以访问许多不同的查询模式。
注意
也可以对索引使用 Scan,其方式与对表使用 Scan 大致相同。
每个 二级索引 关联且仅关联一个表,并从该表中获取其数据。这称为索引的基表。在创建索引时,您为索引定义一个替代键 (分区键和排序键)。您还需要定义从基表投影 或复制到索引的属性。DynamoDB 将这些属性与基表中的主键属性一起复制到索引中。然后,您可以查询或扫描该索引,就像查询或扫描表一样。
每个二级索引都由 DynamoDB 自动维护。在基表中添加、修改或删除项目时,表上的所有索引也会更新,以反映这些更改。
DynamoDB 支持两种二级索引:
Global secondary index — 其分区键和排序键可以与基表上的分区键和排序键不同的索引。全局二级索引被视为“全局”,是因为对索引执行的查询可以跨基表中所有分区的所有数据。
Local secondary index — 分区键与基表相同、但排序键不同的索引。local secondary index的含义是“本地”,表示local secondary index的每个分区的范围都将限定为具有相同分区键值的基表分区。
在确定要使用的索引类型时,应考虑应用程序的要求。下表是全局二级索引与local secondary index的主要差异:
如果要创建多个含有二级索引的表,必须按顺序执行此操作。例如,您可以创建第一个表,等待其状态变为 ACTIVE,创建下一个表,等待其状态变为 ACTIVE,依此类推。如果您尝试同时创建多个含有二级索引的表,DynamoDB 会返回 LimitExceededException。
对于每个二级索引,必须指定以下内容:
要创建的索引的类型 – 全局二级索引或local secondary index。
索引的名称。索引的命名规则与表的命名规则相同,具体请参阅 DynamoDB 中的限制。就相关联的基表而言,索引的名称必须唯一,不过,与不同的基表相关联的索引的名称可以相同。
索引的键架构。索引键架构中的每个属性必须是类型为字符串、数字或二进制的顶级属性。其他数据类型,包括文档和集,均不受支持。键架构的其他要求取决于索引的类型:
对于全局二级索引,分区键可以是基表的任何标量属性。排序键是可选的,也可以是基表的任何标量属性。
对于local secondary index,分区键必须与基表的分区键相同,排序键必须是非键基表属性。
要从基表投影到索引中的其他属性 (如果有)。这些属性是除表键属性之外的属性,表键属性会自动投影到每个索引。您可以投影任何数据类型的属性,包括标量、文档和集。
索引的预置吞吐量设置(如有必要):
对于全局二级索引,您必须指定读取和写入容量单位设置。这些预置吞吐量设置独立于基表的设置。
对于local secondary index,您无需指定读取和写入容量单位设置。对local secondary index进行的读取和写入操作会占用其基表的预置吞吐量设置。
为获得最大查询灵活性,您可以为每个表创建多达 5 个全局二级索引和多达 5 个local secondary index。有关演示如何利用有限数量的 GSI 满足多个应用程序访问模式的示例,请参阅 GSI 重载的设计指南。
要获取表的二级索引的详细列表,请使用 DescribeTable 操作。DescribeTable 将返回表的每个二级索引的名称、存储大小和项目计数。系统并不会实时更新这些值,但会大约每隔六个小时刷新一次。
您可以使用 Query 或 Scan 操作来访问二级索引中的数据。您必须指定您要使用的基表的名称和索引的名称、要在结果中返回的属性以及要应用的任何条件表达式或筛选条件。DynamoDB 可按升序或降序返回结果。
删除表时,会同时删除与该表关联的全部索引。
2.GSI与LSI场景与使用
要想使用GSI和LSI,首先需要创建表并创建索引,通过aws dyanmodb控制台创建一个数据表
控制台建表是一件傻瓜式就不多说了,看一下我的数据结构:
创建 year为hash title为range的表,创建一个year-author结构的LSI和一个author-title结构的GSI.然后向其中填充数据。
大概添了25条数据,然后我们设置一个场景想象一下如果我们想要查某个作者的全部电影要怎么查,如果不使用索引的话,我们需要scan整张表,然后通过FilterExpression这个参数来筛选结果集,这样确实可以实现,但是会对吞吐容量和查询时间造成大量的浪费。
这时候我们的GSI就发挥作用了,我们在author上建立索引以title为range建,再通过query方法查询,这就好比我们通过author的hash值直接去找author分区然后用可以选择title来排序,查询速度大大提升,吞吐容量大量减少