一、前言
在MySQL中進(jìn)行SQL優(yōu)化的時(shí)候,經(jīng)常會(huì)在一些情況下,對(duì)MySQL能否利用索引有一些迷惑。譬如:1、MySQL 在遇到范圍查詢條件的時(shí)候就停止匹配了,那么到底是哪些范圍條件?2、MySQL 在LIKE進(jìn)行模糊匹配的時(shí)候又是如何利用索引的呢?3、MySQL 到底在怎么樣的情況下能夠利用索引進(jìn)行排序?今天,我將會(huì)用一個(gè)模型,把這些問題都一一解答,讓你對(duì)MySQL索引的使用不再畏懼。
二、知識(shí)補(bǔ)充
EXPLAIN執(zhí)行計(jì)劃中有一列 key_len 用于表示本次查詢中,所選擇的索引長(zhǎng)度有多少字節(jié),通常我們可借此判斷聯(lián)合索引有多少列被選擇了。在這里 key_len 大小的計(jì)算規(guī)則是:
一般地,key_len 等于索引列類型字節(jié)長(zhǎng)度,例如int類型為4 bytes,bigint為8 bytes;
如果是字符串類型,還需要同時(shí)考慮字符集因素,例如:CHAR(30) UTF8則key_len至少是90 bytes;
若該列類型定義時(shí)允許NULL,其key_len還需要再加 1 bytes;
若該列類型為變長(zhǎng)類型,例如 VARCHAR(TEXTBLOB不允許整列創(chuàng)建索引,如果創(chuàng)建部分索引也被視為動(dòng)態(tài)列類型),其key_len還需要再加 2 bytes;
三、哪些條件能用到索引
首先非常感謝登博,給了我一個(gè)很好的啟發(fā),我通過他的文章_,然后結(jié)合自己的理解,制作出了這幅圖:
乍一看,是不是很暈,不急,我們慢慢來看圖中一共分了三個(gè)部分:
1、Index Key :MySQL是用來確定掃描的數(shù)據(jù)范圍,實(shí)際就是可以利用到的MySQL索引部分,體現(xiàn)在Key Length。
2、Index Filter:MySQL用來確定哪些數(shù)據(jù)是可以用索引去過濾,在啟用ICP后,可以用上索引的部分。
3、Table Filter:MySQL無法用索引過濾,回表取回行數(shù)據(jù)后,到server層進(jìn)行數(shù)據(jù)過濾。下面我們細(xì)細(xì)展開。Index Key是用來確定MySQL的一個(gè)掃描范圍,分為上邊界和下邊界。MySQL利用=、》=、》 來確定下邊界(first key),利用最左原則,首先判斷第一個(gè)索引鍵值在where條件中是否存在,如果存在,則判斷比較符號(hào),如果為(=,》=)中的一種,加入下邊界的界定,然后繼續(xù)判斷下一個(gè)索引鍵,如果存在且是(》),則將該鍵值加入到下邊界的界定,停止匹配下一個(gè)索引鍵;如果不存在,直接停止下邊界匹配。
exp:
idx_c1_c2_c3(c1,c2,c3)
where c1>=1 and c2>2 and c3=1
--> first key (c1,c2)
--> c1為 '>=' ,加入下邊界界定,繼續(xù)匹配下一個(gè)
-->c2 為 '>',加入下邊界界定,停止匹配
上邊界(last key)和下邊界(first key)類似,首先判斷是否是否是(=,<=)中的一種,如果是,加入界定,繼續(xù)下一個(gè)索引鍵值匹配,如果是(<),加入界定,停止匹配exp:
idx_c1_c2_c3(c1,c2,c3)
where c1<=1 and c2=2 and c3<3
last key (c1,c2,c3)
'<=',加入上邊界界定,繼續(xù)匹配下一個(gè) c1為
'='加入上邊界界定,繼續(xù)匹配下一個(gè) c2為
'<',加入上邊界界定,停止匹配 c3 為
注:這里簡(jiǎn)單的記憶是,如果比較符號(hào)中包含‘=’號(hào),‘》=’也是包含‘=’,那么該索引鍵是可以被利用的,可以繼續(xù)匹配后面的索引鍵值;如果不存在‘=’,也就是‘》’,‘《’,這兩個(gè),后面的索引鍵值就無法匹配了。同時(shí),上下邊界是不可以混用的,哪個(gè)邊界能利用索引的的鍵值多,就是最終能夠利用索引鍵值的個(gè)數(shù)。
Index Filter
字面理解就是可以用索引去過濾。也就是字段在索引鍵值中,但是無法用去確定Index Key的部分。
exp:
idex_c1_c2_c3
where c1>=1 and c2<=2 and c3 =1
index key --> c1
index filter--> c2 c3
這里為什么index key 只是c1呢?因?yàn)閏2 是用來確定上邊界的,但是上邊界的c1沒有出現(xiàn)(《=,=),而下邊界中,c1是》=,c2沒有出現(xiàn),因此index key 只有c1字段。c2,c3 都出現(xiàn)在索引中,被當(dāng)做index filter.
Table Filter
無法利用索引完成過濾,就只能用table filter。此時(shí)引擎層會(huì)將行數(shù)據(jù)返回到server層,然后server層進(jìn)行table filter。
四、Between 和Like 的處理
那么如果查詢中存在between 和like,MySQL是如何進(jìn)行處理的呢?
Between
where c1 between ‘a(chǎn)’ and ‘b’ 等價(jià)于 where c1》=‘a(chǎn)’ and c1 《=‘b’,所以進(jìn)行相應(yīng)的替換,然后帶入上層模型,確定上下邊界即可
Like
首先需要確認(rèn)的是%不能是最在最左側(cè),where c1 like ‘%a’ 這樣的查詢是無法利用索引的,因?yàn)樗饕钠ヅ湫枰献钭笄熬Y原則where c1 like ‘a(chǎn)%’ 其實(shí)等價(jià)于 where c1》=‘a(chǎn)’ and c1《‘b’ 大家可以仔細(xì)思考下。
五、索引的排序
在數(shù)據(jù)庫中,如果無法利用索引完成排序,隨著過濾數(shù)據(jù)的數(shù)據(jù)量的上升,排序的成本會(huì)越來越大,即使是采用了limit,但是數(shù)據(jù)庫是會(huì)選擇將結(jié)果集進(jìn)行全部排序,再取排序后的limit 記錄,而且MySQL 針對(duì)可以用索引完成排序的limit 有優(yōu)化,更能減少成本。
Make sure it uses index It is very important to have ORDER BY with LIMIT executed without scanning and sorting full result set, so it is important for it to use index – in this case index range scan will be started and query execution stopped as soon as soon as required amount of rows generated.
CREATE TABLE `t1` (
`id` int(11) NOT NULL AUTO_INCREMENT,
`c1` int(11) NOT NULL DEFAULT '0',
`c2` int(11) NOT NULL DEFAULT '0',
`c3` int(11) NOT NULL DEFAULT '0',
`c4` int(11) NOT NULL DEFAULT '0',
`c5` int(11) NOT NULL DEFAULT '0',
PRIMARY KEY (`id`),
KEY `idx_c1_c2_c3` (`c1`,`c2`,`c3`)
) ENGINE=InnoDB AUTO_INCREMENT=8 DEFAULT CHARSET=utf8mb4
select * from t1;
+----+----+----+----+----+----+
| id | c1 | c2 | c3 | c4 | c5 |
+----+----+----+----+----+----+
| 1 | 3 | 3 | 2 | 0 | 0 |
| 2 | 2 | 4 | 5 | 0 | 0 |
| 3 | 3 | 2 | 4 | 0 | 0 |
| 4 | 1 | 3 | 2 | 0 | 0 |
| 5 | 1 | 3 | 3 | 0 | 0 |
| 6 | 2 | 3 | 5 | 0 | 0 |
| 7 | 3 | 2 | 6 | 0 | 0 |
+----+----+----+----+----+----+
7 rows in set (0.00 sec)
select c1,c2,c3 from t1;
+----+----+----+
| c1 | c2 | c3 |
+----+----+----+
| 1 | 3 | 2 |
| 1 | 3 | 3 |
| 2 | 3 | 5 |
| 2 | 4 | 5 |
| 3 | 2 | 4 |
| 3 | 2 | 6 |
| 3 | 3 | 2 |
+----+----+----+
7 rows in set (0.00 sec)
存在一張表,c1,c2,c3上面有索引,select c1,c2,c3 from t1; 查詢走的是索引全掃描,因此呈現(xiàn)的數(shù)據(jù)相當(dāng)于在沒有索引的情況下select c1,c2,c3 from t1 order by c1,c2,c3; 的結(jié)果。因此,索引的有序性規(guī)則是怎么樣的呢?c1=3 —》 c2 有序,c3 無序 c1=3,c2=2 — 》 c3 有序 c1 in(1,2) —》 c2 無序 ,c3 無序
有個(gè)小規(guī)律,idx_c1_c2_c3,那么如何確定某個(gè)字段是有序的呢?c1 在索引的最前面,肯定是有序的,c2在第二個(gè)位置,只有在c1 唯一確定一個(gè)值的時(shí)候,c2才是有序的,如果c1有多個(gè)值,那么c2 將不一定有序,同理,c3也是類似
六、小結(jié)
針對(duì)MySQL索引,我這邊只是提到了在單表查詢情況下的模型,通過這篇文章,想必大家應(yīng)該了解到MySQL大部分情況下是如何利用索引的。
責(zé)任編輯:xj
原文標(biāo)題:MySQL 的索引是如何工作的?10 分鐘講清楚!
文章出處:【微信公眾號(hào):數(shù)據(jù)分析與開發(fā)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
-
MySQL
+關(guān)注
關(guān)注
1文章
804瀏覽量
26528 -
索引
+關(guān)注
關(guān)注
0文章
59瀏覽量
10468
原文標(biāo)題:MySQL 的索引是如何工作的?10 分鐘講清楚!
文章出處:【微信號(hào):DBDevs,微信公眾號(hào):數(shù)據(jù)分析與開發(fā)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論