快捷導(dǎo)航

90%程序員面試會(huì)遇到的索引優(yōu)化問(wèn)題

更新時(shí)間：2017年11月16日 09:18:53 投稿：daisy

不管是用C/C++/Java等代碼編寫(xiě)的程序，還是SQL編寫(xiě)的數(shù)據(jù)庫(kù)腳本，都存在一個(gè)持續(xù)優(yōu)化的過(guò)程。也就是說(shuō)，代碼優(yōu)化對(duì)于程序員來(lái)說(shuō)，是一個(gè)永恒的話(huà)題。下面這篇文章主要給大家總結(jié)介紹了90%程序員在面試的時(shí)候會(huì)遇到的索引優(yōu)化問(wèn)題，需要的朋友可以參考下。

前言

本文給大家分享了90%程序員面試都用得上的索引優(yōu)化，重點(diǎn)提一下，索引基本原理和創(chuàng)建索引的原則是重點(diǎn)，面試基本必問(wèn)！大家可以收藏好多理解理解。下面來(lái)一起看看詳細(xì)的介紹吧。

關(guān)于索引，分為以下幾點(diǎn)來(lái)講解（技術(shù)文）：

索引的概述(什么是索引,索引的優(yōu)缺點(diǎn))
索引的基本使用（創(chuàng)建索引）
索引的基本原理（面試重點(diǎn)）
索引的數(shù)據(jù)結(jié)構(gòu)（B樹(shù)，hash）
創(chuàng)建索引的原則（重中之重，面試必問(wèn)！敬請(qǐng)收藏?。?/li>
百萬(wàn)級(jí)別或以上的數(shù)據(jù)如何刪除

一、索引的概述

1）什么是索引？

索引是一種特殊的文件(InnoDB數(shù)據(jù)表上的索引是表空間的一個(gè)組成部分)，它們包含著對(duì)數(shù)據(jù)表里所有記錄的引用指針。更通俗的說(shuō)，索引就相當(dāng)于目錄。當(dāng)你在用新華字典時(shí)，幫你把目錄撕掉了，你查詢(xún)某個(gè)字開(kāi)頭的成語(yǔ)只能從第一頁(yè)翻到第一千頁(yè)。累！把目錄還給你，則能快速定位！

2）索引的優(yōu)缺點(diǎn)：

可以大大加快數(shù)據(jù)的檢索速度，這也是創(chuàng)建索引的最主要的原因。，且通過(guò)使用索引，可以在查詢(xún)的過(guò)程中，使用優(yōu)化隱藏器，提高系統(tǒng)的性能。但是，索引也是有缺點(diǎn)的：索引需要額外的維護(hù)成本；因?yàn)樗饕募菃为?dú)存在的文件,對(duì)數(shù)據(jù)的增加,修改,刪除,都會(huì)產(chǎn)生額外的對(duì)索引文件的操作,這些操作需要消耗額外的IO,會(huì)降低增/改/刪的執(zhí)行效率。

二、索引的基本使用（真技術(shù)文）

1）創(chuàng)建索引：（三種方式）

第一種方式：

第二種方式：使用ALTER TABLE命令去增加索引：

ALTER TABLE用來(lái)創(chuàng)建普通索引、UNIQUE索引或PRIMARY KEY索引。

其中table_name是要增加索引的表名，column_list指出對(duì)哪些列進(jìn)行索引，多列時(shí)各列之間用逗號(hào)分隔。

索引名index_name可自己命名，缺省時(shí)，MySQL將根據(jù)第一個(gè)索引列賦一個(gè)名稱(chēng)。另外，ALTER TABLE允許在單個(gè)語(yǔ)句中更改多個(gè)表，因此可以在同時(shí)創(chuàng)建多個(gè)索引。

第三種方式：使用CREATE INDEX命令創(chuàng)建

CREATE INDEX可對(duì)表增加普通索引或UNIQUE索引。（但是，不能創(chuàng)建PRIMARY KEY索引）

三、索引的基本原理（不想像別的文章那樣一大堆篇幅廢話(huà)）

索引用來(lái)快速地尋找那些具有特定值的記錄。如果沒(méi)有索引，一般來(lái)說(shuō)執(zhí)行查詢(xún)時(shí)遍歷整張表。

索引的原理很簡(jiǎn)單，就是把無(wú)序的數(shù)據(jù)變成有序的查詢(xún)

1、把創(chuàng)建了索引的列的內(nèi)容進(jìn)行排序

2、對(duì)排序結(jié)果生成倒排表

3、在倒排表內(nèi)容上拼上數(shù)據(jù)地址鏈

4、在查詢(xún)的時(shí)候，先拿到倒排表內(nèi)容，再取出數(shù)據(jù)地址鏈，從而拿到具體數(shù)據(jù)

四、索引的數(shù)據(jù)結(jié)構(gòu)（b樹(shù)，hash）

1）B樹(shù)索引

mysql通過(guò)存儲(chǔ)引擎取數(shù)據(jù)，基本上90%的人用的就是InnoDB了，按照實(shí)現(xiàn)方式分，InnoDB的索引類(lèi)型目前只有兩種：BTREE（B樹(shù)）索引和HASH索引。B樹(shù)索引是Mysql數(shù)據(jù)庫(kù)中使用最頻繁的索引類(lèi)型，基本所有存儲(chǔ)引擎都支持BTree索引。通常我們說(shuō)的索引不出意外指的就是（B樹(shù)）索引（實(shí)際是用B+樹(shù)實(shí)現(xiàn)的，因?yàn)樵诓榭幢硭饕龝r(shí)，mysql一律打印BTREE，所以簡(jiǎn)稱(chēng)為B樹(shù)索引）

查詢(xún)方式：

主鍵索引區(qū):PI(關(guān)聯(lián)保存的時(shí)數(shù)據(jù)的地址)按主鍵查詢(xún),

普通索引區(qū):si(關(guān)聯(lián)的id的地址,然后再到達(dá)上面的地址)。所以按主鍵查詢(xún),速度最快

B+tree性質(zhì)：

1.）n棵子tree的節(jié)點(diǎn)包含n個(gè)關(guān)鍵字，不用來(lái)保存數(shù)據(jù)而是保存數(shù)據(jù)的索引。

2.）所有的葉子結(jié)點(diǎn)中包含了全部關(guān)鍵字的信息，及指向含這些關(guān)鍵字記錄的指針，且葉子結(jié)點(diǎn)本身依關(guān)鍵字的大小自小而大順序鏈接。

3.）所有的非終端結(jié)點(diǎn)可以看成是索引部分，結(jié)點(diǎn)中僅含其子樹(shù)中的最大（或最?。╆P(guān)鍵字。

4.）B+ 樹(shù)中，數(shù)據(jù)對(duì)象的插入和刪除僅在葉節(jié)點(diǎn)上進(jìn)行。

5.）B+樹(shù)有2個(gè)頭指針，一個(gè)是樹(shù)的根節(jié)點(diǎn)，一個(gè)是最小關(guān)鍵碼的葉節(jié)點(diǎn)。

2）哈希索引（好技術(shù)文）

簡(jiǎn)要說(shuō)下，類(lèi)似于數(shù)據(jù)結(jié)構(gòu)中簡(jiǎn)單實(shí)現(xiàn)的HASH表（散列表）一樣，當(dāng)我們?cè)趍ysql中用哈希索引時(shí)，主要就是通過(guò)Hash算法（常見(jiàn)的Hash算法有直接定址法、平方取中法、折疊法、除數(shù)取余法、隨機(jī)數(shù)法），將數(shù)據(jù)庫(kù)字段數(shù)據(jù)轉(zhuǎn)換成定長(zhǎng)的Hash值，與這條數(shù)據(jù)的行指針一并存入Hash表的對(duì)應(yīng)位置；如果發(fā)生Hash碰撞（兩個(gè)不同關(guān)鍵字的Hash值相同），則在對(duì)應(yīng)Hash鍵下以鏈表形式存儲(chǔ)。當(dāng)然這只是簡(jiǎn)略模擬圖。

ps：關(guān)于數(shù)據(jù)結(jié)構(gòu)，有興趣深入的朋友可以關(guān)注我后查看【數(shù)據(jù)結(jié)構(gòu)】專(zhuān)題，這里不做詳細(xì)講解。

五、創(chuàng)建索引的原則（重中之重）

索引雖好，但也不是無(wú)限制的使用，最好符合一下幾個(gè)原則

1）最左前綴匹配原則，組合索引非常重要的原則，mysql會(huì)一直向右匹配直到遇到范圍查詢(xún)(>、<、between、like)就停止匹配，比如a = 1 and b = 2 and c > 3 and d = 4 如果建立(a,b,c,d)順序的索引，d是用不到索引的，如果建立(a,b,d,c)的索引則都可以用到，a,b,d的順序可以任意調(diào)整。

2）較頻繁作為查詢(xún)條件的字段才去創(chuàng)建索引

3）更新頻繁字段不適合創(chuàng)建索引

4）若是不能有效區(qū)分?jǐn)?shù)據(jù)的列不適合做索引列(如性別，男女未知，最多也就三種，區(qū)分度實(shí)在太低)

5）盡量的擴(kuò)展索引，不要新建索引。比如表中已經(jīng)有a的索引，現(xiàn)在要加(a,b)的索引，那么只需要修改原來(lái)的索引即可。

6）定義有外鍵的數(shù)據(jù)列一定要建立索引。

7）對(duì)于那些查詢(xún)中很少涉及的列，重復(fù)值比較多的列不要建立索引。

8）對(duì)于定義為text、image和bit的數(shù)據(jù)類(lèi)型的列不要建立索引。

百萬(wàn)級(jí)別或以上的數(shù)據(jù)如何刪除（真好技術(shù)文）

關(guān)于索引：由于索引需要額外的維護(hù)成本，因?yàn)樗饕募菃为?dú)存在的文件,所以當(dāng)我們對(duì)數(shù)據(jù)的增加,修改,刪除,都會(huì)產(chǎn)生額外的對(duì)索引文件的操作,這些操作需要消耗額外的IO,會(huì)降低增/改/刪的執(zhí)行效率。所以，在我們刪除數(shù)據(jù)庫(kù)百萬(wàn)級(jí)別數(shù)據(jù)的時(shí)候，查詢(xún)MySQL官方手冊(cè)得知?jiǎng)h除數(shù)據(jù)的速度和創(chuàng)建的索引數(shù)量是成正比的。

所以我們想要?jiǎng)h除百萬(wàn)數(shù)據(jù)的時(shí)候可以先刪除索引（此時(shí)大概耗時(shí)三分多鐘）
然后刪除其中無(wú)用數(shù)據(jù)（此過(guò)程需要不到兩分鐘）
刪除完成后重新創(chuàng)建索引(此時(shí)數(shù)據(jù)較少了)創(chuàng)建索引也非?？?，約十分鐘左右。
與之前的直接刪除絕對(duì)是要快速很多，更別說(shuō)萬(wàn)一刪除中斷,一切刪除會(huì)回滾。那更是坑了。

常用的數(shù)據(jù)庫(kù)索引優(yōu)化語(yǔ)句

使用如下的表tb_test作為示例進(jìn)行說(shuō)明：

create table tb_test
(
id int not null,
age int not null, 
name varchar(30) not null,
addr varchar(50) not null
);
create unique index idx1_tb_test on tb_test(id);
create index idx2_tb_test on tb_test(name);
create index idx3_tb_test on tb_test(addr);

索引優(yōu)化建議

1.對(duì)索引列進(jìn)行計(jì)算

例如，我們想要將表tb_test中id大于100的數(shù)據(jù)記錄中的age和name查找出來(lái)。

正確的SQL語(yǔ)句是：

select age,name from tb_test where id > 1*100;

不建議采用的SQL語(yǔ)句是：

select age,name from tb_test where id/100 > 1;

2.對(duì)索引列進(jìn)行拼接

例如，我們想要將表tb_test中name為“zhou”、addr為“CQ”的記錄中的id和age查找出來(lái)。

正確的SQL語(yǔ)句是：

select id,age from tb_test where name='zhou' and addr='CQ';

不建議采用的SQL語(yǔ)句是：

select id,age from tb_test where concat(name,' ‘,addr) = ‘zhou CQ';

3.在索引列上is null或is not null的使用

例如，我們想要將表tb_test中id大于等于“0”的記錄中的age查找出來(lái)。

正確的SQL語(yǔ)句是：

select age from tb_test where id >= 0;

不建議采用的SQL語(yǔ)句是：

select age from tb_test where id is not null;

4.在索引列上or的使用

例如，我們想要將表tb_test中id等于101或102的記錄中的age和name查找出來(lái)。

正確的SQL語(yǔ)句(使用union)是：

select age,name from tb_test where id = 101 union select age,name from tb_test where id = 102;

不建議采用的SQL語(yǔ)句(使用or)是：

select age,name from tb_test where id = 101 or id = 102;

5.盡可能避免索引列在like的首字符使用通配符

例如，我們想要將表tb_test中name匹配“zho”的記錄中的id和age查找出來(lái)。

正確的SQL語(yǔ)句是：

select id,age from tb_test where name like ‘zho%';

不建議采用的SQL語(yǔ)句是：

select id,age from tb_test where name like ‘%ho%';

6.復(fù)合索引的使用

如果我們建立的索引是復(fù)合索引，那么必須使用到該索引中的第一個(gè)字段作為條件時(shí)才能保證系統(tǒng)使用該索引。

例如，我們?cè)诒韙b_test上新建了如下索引：

create index idx4_tb_test on tb_test(id,name,addr);

以上索引idx4_tb_test相當(dāng)于建立了index(id)、index(id,name)、index(id,name,addr) 這3個(gè)索引。在SQL語(yǔ)句的where條件中單獨(dú)使用name或addr時(shí)不會(huì)使用到該索引，必須使用id時(shí)才會(huì)使用到該索引。

在我們編寫(xiě)的SQL語(yǔ)句中，不正確地使用索引列可能會(huì)導(dǎo)致索引不被使用，而進(jìn)行全表掃描，極大地降低了數(shù)據(jù)庫(kù)的性能。因此，學(xué)習(xí)正確的索引的使用方法實(shí)在是很有必要的。

今天，索引的講解就到這里，重點(diǎn)提一下，索引基本原理和創(chuàng)建索引的原則是重點(diǎn)，面試基本必問(wèn)！大家可以收藏好多理解理解。

總結(jié)

以上就是這篇文章的全部?jī)?nèi)容了，希望本文的內(nèi)容對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，如果有疑問(wèn)大家可以留言交流，謝謝大家對(duì)腳本之家的支持。

您可能感興趣的文章: