MySQL索引,可以理解为书籍的目录。所有的数据,相当于书籍的所有内容。
如果要在书籍中查找“如何学习编程”,显然,从目录入手查找,是快速的方法(使用索引);不使用目录,直接一页书一页书地查找(全表扫描),效率会低很多。从数据库中查询数据的时候,使用索引,会提高查询效率。
MySQL常用的引擎是MyISAM和InnoDB。InnoDB是比较新的MySQL版本的默认引擎,支持事务(ACID)。这两引擎,主要使用B-Tree实现索引。(记忆可能不准确,后续再核实)InnoDB的索引,包含具体的数据内容。
网络上有一些诸如“在查询频率高的列上建索引”的优化索引建议,开发者不可迷信。这些建议可能是别人在特定的条件下使用的优化措施,对别人有用,但不一定具有普适性。很多领域,放之四海而皆准的真理,往往是不存在的。优化数据库,必须结合开发者面临的实际情况,在使用科学的基准测试的基础上,小心翼翼地调整。
我从《高性能MySQL》上读到几条关于索引的运行规则。
创建一个数据库表。
CREATE TABLE user
(
id INT NOT NULL AUTOCREMENT PRIMARY KEY,
firstName VARCHAR(100) NOT NULL DEFAULT '',
lastName VARCHAR(100) NOT NULL DEFAULT '',
age INT NOT NULL DEFAULT 0,
sex TINYINT NOT NULL DEFAULT 1,
KEY(firstName,lastName,age,sex)
)ENGINE=InnoDB;
(1-1)
(1)索引选用,遵循“最左匹配原则”。在建立的索引中,最左边的索引在查询中没有被用到,所有的索引将不会被使用。
SELECT * FROM user WHERE lastName='cg' AND age=12; (1-2)
(1-2)在查询中使用了lastName、age索引,没有使用最左边的firstName索引,所以这次查询将不会使用索引。
(2)不会跳过中间的索引。
SELECT * FROM user WHERE firstName='cg' AND age=12; (1-3)
(1-3)询中使用了firstName、age,没有使用二者之间的lastName,这次查询实际使用的索引将只有firstName。
(3)查询条件中使用了比较,不会使用索引。
SELECT * FROM user WHERE firstName='cg' AND age>=12 AND age<=15 AND lastName='gz'; (1-4)
(1-4)查询由于包含age>12,虽然age列上建立了索引,但在查询中仍然不会被使用。如果改写比较表达式为IN,
SELECT * FROM user WHERE firstName='cg' AND age IN(12,13,14,15) AND lastName='gz'; (1-5)
查询中用到的索引将会是firstName、lastName、age。
(4)索引中不能使用表达式或函数。
SELECT * FROM user WHERE firstName='cg' AND lastName='gz' AND age IN(11+1,13,14,15) AND sex=1;
(1-6)
(1-6)中由于包含11+1,查询的使用将不会使用age及其后面的索引。
(5)避免建立冗余索引。若已经存在索引(A,B),如果再建立索引(A),就是冗余索引;建立索引(B)或(B,A)不是冗余索引。
建立索引会带来资源开销。要精心设计索引,应用程序应该尽量充分利用已经存在的索引。如果一些索引消耗了资源,却没有提高查询性能,就要清理掉这些索引。
使用
EXPLAIN SELECT * FROM user WHERE firstName='cg' AND lastName='gz' AND age IN(11+1,13,14,15) AND sex=1
(1-7)
可以查看查询的执行过程。这条语句的返回信息中,如果type的值是ALL,表示查询做了全表扫描,extra的值中包含using index...,表示查询使用的索引。
GROUP BY、ORDER,也遵循上述索引使用规则。(需核实)