索引很難麽?帶你從頭到尾捋一遍MySQL索引結構,不信你學不會!

来源:https://www.cnblogs.com/javazhiyin/archive/2019/12/10/12016500.html
-Advertisement-
Play Games

前言 Hello我又來了,快年底了,作為一個有抱負的碼農,我想給自己攢一個年終總結。自上上篇寫了手動搭建Redis集群和MySQL主從同步(非Docker)和上篇寫了動手實現MySQL讀寫分離and故障轉移之後,索性這次把資料庫中最核心的也是最難搞懂的內容,也就是索引,分享給大家。 這篇博客我會談談 ...


前言

Hello我又來了,快年底了,作為一個有抱負的碼農,我想給自己攢一個年終總結。自上上篇寫了手動搭建Redis集群和MySQL主從同步(非Docker)和上篇寫了動手實現MySQL讀寫分離and故障轉移之後,索性這次把資料庫中最核心的也是最難搞懂的內容,也就是索引,分享給大家。

這篇博客我會談談對於索引結構我自己的看法,以及分享如何從零開始一層一層向上最終理解索引結構。

從一個簡單的表開始

create table user(
    id int primary key,
    age int,
    height int,
    weight int,
    name varchar(32)
)engine = innoDb;

 

相信只要入門資料庫的同學都可以理解這個語句,我們也將從這個最簡單的表開始,一步步地理解MySQL的索引結構。

首先,我們往這個表中插入一些數據。

INSERT INTO user(id,age,height,weight,name)VALUES(2,1,2,7,'小吉');
INSERT INTO user(id,age,height,weight,name)VALUES(5,2,1,8,'小尼');
INSERT INTO user(id,age,height,weight,name)VALUES(1,4,3,1,'小泰');
INSERT INTO user(id,age,height,weight,name)VALUES(4,1,5,2,'小美');
INSERT INTO user(id,age,height,weight,name)VALUES(3,5,6,7,'小蔡');

 

我們來查一下,看看這些數據是否已經放入表中。

select * from user;

索引很難麽?帶你從頭到尾捋一遍MySQL索引結構,不信你學不會!

可以看到,數據已經完整地放到了我們創建的user表中。

但是不知道大家發現了什麼沒有,好像發生了一件非常詭異的事情,我們插入的數據好像亂序了…

MySQL好像悄悄的給我們按照id排了個序。

為什麼會出現MySQL在我們沒有顯式排序的情況下,默默幫我們排了序呢?它是在什麼時候進行排序的?

頁的引入

不知道大家畢業多長時間了,作為一個剛學完操作系統不久的學渣,頁的概念依舊在腦中還沒有變涼。其實MySQL中也有類似頁的邏輯存儲單位,聽我慢慢道來。

在操作系統的概念中,當我們往磁碟中取數據,假設要取出的數據的大小是1KB,但是操作系統並不會只取出這1kb的數據,而是會取出4KB的數據,因為操作系統的一個頁表項的大小是4KB。那為什麼我們只需要1KB的數據,但是操作系統要取出4KB的數據呢?

這就涉及到一個程式局部性的概念,具體的概念我背不清了,大概就是“一個程式在訪問了一條數據之後,在之後會有極大的可能再次訪問這條數據和訪問這條數據的相鄰數據”,所以索性直接載入4KB的數據到記憶體中,下次要訪問這一頁的數據時,直接從記憶體中找,可以減少磁碟IO次數,我們知道,磁碟IO是影響程式性能主要的因素,因為磁碟IO和記憶體IO的速度是不可同日而語的。

或許看完上面那一大段描述,還是有些抽象,所以我們索性回到資料庫層面中,重新理解頁的概念。

拋開所有東西不談,假設還是我們剛纔插入的那些數據,我們現在要找id = 5的數據,依照最原始的方式,我們一定會想到的就是——遍歷,沒錯,這也是我們剛開始學電腦的時候最常用的尋找數據的方式。那麼我們就來看看,以遍歷的方式,我們找到id=5的數據,需要經歷幾次磁碟IO。

首先,我們得先從id=1的數據開始讀起,然後判斷是否是我們需要的數據,如果不是,就再取id=2的數據,再進行判斷,迴圈往複。毋庸置疑,在MySQL幫我們排好序之後,我們需要經歷五次磁碟IO,才能將5號數據找到並讀出來。

那麼我們再來看看引入頁的概念之後,我們是如何讀數據的。

在引入頁的概念之後,MySQL會將多條數據存在一個叫“頁”的數據結構中,當MySQL讀取id=1的數據時,會將id=1數據所在的頁整頁讀到記憶體中,然後在記憶體中進行遍歷判斷,由於記憶體的IO速度比磁碟高很多,所以相對於磁碟IO,幾乎可以忽略不計,那麼我們來看看這樣讀取數據我們需要經歷幾次磁碟IO(假設每一頁可以存4條數據)。

 

那麼我們第一次會讀取id=1的數據,並且將id=1到id=4的數據全部讀到記憶體中,這是第一次磁碟IO,第二次將讀取id=5的數據到記憶體中,這是第二次磁碟IO。所以我們只需要經歷2次磁碟IO就可以找到id=5的這條數據。

但其實,在MySQL的InnoDb引擎中,頁的大小是16KB,是操作系統的4倍,而int類型的數據是4個位元組,其它類型的數據的位元組數通常也在4000位元組以內,所以一頁是可以存放很多很多條數據的,而MySQL的數據正是以頁為基本單位組合而成的

索引很難麽?帶你從頭到尾捋一遍MySQL索引結構,不信你學不會!

上圖就是我們目前為止所理解的頁的結構,他包含我們的多條數據,另外,MySQL的數據以頁組成,那麼它有指向下一頁的指針和指向上一頁的指針。

那麼說到這裡,其實可以回答第一個問題了,MySQL實際上就是在我們插入數據的時候,就幫我們在頁中排好了序,至於為什麼要排序,這裡先賣個關子,接著往下看。

排序對性能的影響

上文中我們提了一個問題,為什麼資料庫在插入數據時要對其進行排序呢?我們按正常順序插入數據不是也挺好的嗎?

這就要涉及到一個資料庫查詢流程的問題了,無論如何,我們是絕對不會去平白無故地在插入數據時增加一個操作來讓流程複雜化的,所以插入數據時排序一定有其目的,就是優化查詢的效率

而我們不難看出,頁內部存放數據的模塊,實質上就是一個鏈表的結構,鏈表的特點也就是增刪快,查詢慢,所以優化查詢的效率是必須的。

基於單頁模式存儲的查詢流程

還是基於我們第一節中的那張頁圖來談,我們插入了五條數據,id分別是從1-5,那麼假設我要找一個表中不存在的id,假設id=-1,那麼現在的查詢流程就是:

將id=1的這一整頁數據取出,進行逐個比對,那麼當我們找到id=1的這條數據時,發現這個id大於我們所需要找的哪個id,由於資料庫在插入數據時,已經進行過排序了,那麼在id=1的數據後面,都是id>1的數據,所以我們就不需要再繼續往下尋找了。

如果在插入時沒有進行排序,那毋庸置疑,我們需要再繼續往下進行尋找,逐條查找直到到結尾也沒有找到這條數據,才能返回不存在這條數據。

當然,這隻是排序優化的冰山一角,接著往下看。

上述頁模式可能帶來的問題

說完了排序,下麵就來分析一下我們在第一節中的那幅圖,對於大數據量下有什麼弊端,或者換一個說法,我們可以怎麼對這個模式進行優化。

我們不難看出,在現階段我們瞭解的頁模式中,只有一個功能,就是在查詢某條數據的時候直接將一整頁的數據載入到記憶體中,以減少硬碟IO次數,從而提高性能。但是,我們也可以看到,現在的頁模式內部,實際上是採用了鏈表的結構,前一條數據指向後一條數據,本質上還是通過數據的逐條比較來取出特定的數據。

那麼假設,我們這一頁中有一百萬條數據,我們要查的數據正好在最後一個,那麼我們是不是一定要從前往後找到這一條數據呢?如果是這樣,我們需要查找的次數就達到了一百萬次,即使是在記憶體中查找,這個效率也是不高的。那麼有什麼辦法來優化這種情況下的查找效率呢?

頁目錄的引入

我們可以打個比方,我們在看書的時候,如果要找到某一節,而這一節我們並不知道在哪一頁,我們是不是就要從前往後,一節一節地去尋找我們需要的內容的頁碼呢?答案是否定的,因為在書的前面,存在目錄,它會告訴你這一節在哪一頁,例如,第一節在第1頁、第二節在第13頁。在資料庫的頁中,實際上也使用了這種目錄的結構,這就是頁目錄。

那麼引入頁目錄之後,我們所理解的頁結構,就變成了這樣:

索引很難麽?帶你從頭到尾捋一遍MySQL索引結構,不信你學不會!

分析一下這張圖,實際上頁目錄就像是我們在看書的時候書本的目錄一樣,目錄項1就相當於第一節,目錄項2就相當於第二節,而每一條數據就相當於書本的每一頁,這張圖就可以解釋成,第一節從第一頁開始,第二節從第三頁開始,而實際上,每個目錄項會存放自己這個目錄項當中最小的id,也就是說,目錄項1中會存放1,而目錄項2會存放3。

那麼對比一下資料庫在沒有頁目錄時候的查找流程,假設要查找id=3的數據,在沒有頁目錄的情況下,需要查找id=1、id=2、id=3,三次才能找到該數據,而如果有頁目錄之後,只需要先查看一下id=3存在於哪個目錄項下,然後直接通過目錄項進行數據的查找即可,如果在該目錄項下沒有找到這條數據,那麼就可以直接確定這條數據不存在,這樣就大大提升了資料庫的查找效率,但是這種頁目錄的實現,首先就需要基於數據是在已經進行過排序的的場景下,才可以發揮其作用,所以看到這裡,大家應該明白第二個問題了,為什麼資料庫在插入時會進行排序,這才是真正發揮排序的作用的地方。

頁的擴展

在上文中,我們基本上說明白了MySQL資料庫中頁的概念,以及它是如何基於頁來減少磁碟IO次數的,以及排序是如何優化查詢的效率的。

那麼我們現在再來思考第三個問題:在開頭說頁的概念的時候,我們有說過,MySQL中每一頁的大小隻有16KB,不會隨著數據的插入而自動擴容,所以這16KB不可能存下我們所有的數據,那麼必定會有多個頁來存儲數據,那麼在多頁的情況下,MySQL中又是怎麼組織這些頁的呢?

針對這個問題,我們繼續來畫出我們現在所瞭解的多頁的結構圖:

索引很難麽?帶你從頭到尾捋一遍MySQL索引結構,不信你學不會!

可以看到,在數據不斷變多的情況下,MySQL會再去開闢新的頁來存放新的數據,而每個頁都有指向下一頁的指針和指向上一頁的指針,將所有頁組織起來(這裡修改了一下數據,將每一列的數據都放到了數據區中,其中第一個空格之前的代表id),第一頁中存放id為1-5的數據,第二頁存放id為6-10的數據,第三頁存放id為11-15的數據,需要註意的是在開闢新頁的時候,我們插入的數據不一定是放在新開闢的頁上,而是要進行所有頁的數據比較,來決定這條插入的數據放在哪一頁上,而完成數據插入之後,最終的多頁結構就會像上圖中畫的那樣。

多頁模式

在多頁模式下,MySQL終於可以完成多數據的存儲了,就是採用開闢新頁的方式,將多條數據放在不同的頁中,然後同樣採用鏈表的數據結構,將每一頁連接起來。那麼可以思考第四個問題:多頁情況下是否對查詢效率有影響呢?

多頁模式對於查詢效率的影響

針對這個問題,既然問出來了,那麼答案是肯定的,多頁會對查詢效率產生一定的影響,影響主要就體現在,多頁其本質也是一個鏈表結構,只要是鏈表結構,查詢效率一定不會高。

假設數據又非常多條,資料庫就會開闢非常多的新頁,而這些新頁就會像鏈表一樣連接在一起,當我們要在這麼多頁中查詢某條數據時,它還是會從頭節點遍歷到存在我們要查找的那條數據所存在的頁上,我們好不容易通過頁目錄優化了頁中數據的查詢效率,現在又出現了以頁為單位的鏈表,這不是前功盡棄了嗎?

如何優化多頁模式

由於多頁模式會影響查詢的效率,那麼肯定需要有一種方式來優化多頁模式下的查詢。相信有同學已經猜出來了,既然我們可以用頁目錄來優化頁內的數據區,那麼我們也可以採取類似的方式來優化這種多頁的情況。

是的,頁內數據區和多頁模式本質上都是鏈表,那麼的確可以採用相同的方式來對其進行優化,它就是目錄頁。

所以我們對比頁內數據區,來分析如何優化多頁結構。在單頁時,我們採用了頁目錄的目錄項來指向一行數據,這條數據就是存在於這個目錄項中的最小數據,那麼就可以通過頁目錄來查找所需數據。

所以對於多頁結構也可以採用這種方式,使用一個目錄項來指向某一頁,而這個目錄項存放的就是這一頁中存放的最小數據的索引值。和頁目錄不同的地方在於,這種目錄管理的級別是頁,而頁目錄管理的級別是行。

那麼分析到這裡,我們多頁模式的結構就會是下圖所示的這樣:

索引很難麽?帶你從頭到尾捋一遍MySQL索引結構,不信你學不會!

存在一個目錄頁來管理頁目錄,目錄頁中的數據存放的就是指向的那一頁中最小的數據。

這裡要註意的一點是:其實目錄頁的本質也是頁,普通頁中存的數據是項目數據,而目錄頁中存的數據是普通頁的地址。

假設我們要查找id=19的數據,那麼按照以前的查找方式,我們需要從第一頁開始查找,發現不存在那麼再到第二頁查找,一直找到第四頁才能找到id=19的數據,但是如果有了目錄頁,就可以使用id=19與目錄頁中存放的數據進行比較,發現19大於任何一條數據,於是進入id=16指向的頁進行查找,直接然後再通過頁內的頁目錄行級別的數據的查找,很快就可以找到id為19的數據了。隨著數據越來越多,這種結構的效率相對於普通的多頁模式,優勢也就越來越明顯。

回歸正題,相信有對MySQL比較瞭解的同學已經發現了,我們畫的最終的這幅圖,就是MySQL中的一種索引結構——B+樹。

B+樹的引入

B+樹的特點我在《[從入門到入土]令人脫髮的資料庫底層設計》已經有詳細敘述過了,在這裡就不重覆敘述了,如果有不瞭解的同學可以去看這篇博客。

我們接著往下聊,我們將我們畫的存在目錄頁的多頁模式圖巨集觀化,可以形成下麵的這張圖:

索引很難麽?帶你從頭到尾捋一遍MySQL索引結構,不信你學不會!

這就是我們兜兜轉轉由簡到繁形成的一顆B+樹。和常規B+樹有些許不同,這是一棵MySQL意義上的B+樹,MySQL的一種索引結構,其中的每個節點就可以理解為是一個頁,而葉子節點也就是數據頁,除了葉子節點以外的節點就是目錄頁。

這一點在圖中也可以看出來,非葉子節點只存放了索引,而只有葉子節點中存放了真實的數據,這也是符合B+樹的特點的。

B+樹的優勢

  • 由於葉子節點上存放了所有的數據,並且有指針相連,每個葉子節點在邏輯上是相連的,所以對於範圍查找比較友好。

  • B+樹的所有數據都在葉子節點上,所以B+樹的查詢效率穩定,一般都是查詢3次。

  • B+樹有利於資料庫的掃描。

  • B+樹有利於磁碟的IO,因為他的層高基本不會因為數據擴大而增高(三層樹結構大概可以存放兩千萬數據量。

頁的完整結構

說完了頁的概念和頁是如何一步一步地組合稱為B+樹的結構之後,相信大家對於頁都有了一個比較清楚的認知,所以這裡就要開始說說官方概念了,基於我們上文所說的,給出一個完整的頁結構,也算是對上文中自己理解頁結構的一種補充。

索引很難麽?帶你從頭到尾捋一遍MySQL索引結構,不信你學不會!

上圖為 Page 數據結構,File Header 欄位用於記錄 Page 的頭信息,其中比較重要的是 FIL_PAGE_PREV 和 FIL_PAGE_NEXT 欄位,通過這兩個欄位,我們可以找到該頁的上一頁和下一頁,實際上所有頁通過兩個欄位可以形成一條雙向鏈表。

Page Header 欄位用於記錄 Page 的狀態信息。接下來的 Infimum 和 Supremum 是兩個偽行記錄,Infimum(下確界)記錄比該頁中任何主鍵值都要小的值,Supremum (上確界)記錄比該頁中任何主鍵值都要大的值,這個偽記錄分別構成了頁中記錄的邊界。

 

User Records 中存放的是實際的數據行記錄,具體的行記錄結構將在本文的第二節中詳細介紹。Free Space 中存放的是空閑空間,被刪除的行記錄會被記錄成空閑空間。Page Directory 記錄著與二叉查找相關的信息。File Trailer 存儲用於檢測數據完整性的校驗和等數據。

引用來源:https://www.cnblogs.com/bdsir/p/8745553.html

基於B+樹聊聊MySQL的其它知識點

看到這裡,我們已經瞭解了MySQL從單條數據開始,到通過頁來減少磁碟IO次數,並且在頁中實現了頁目錄來優化頁中的查詢效率,然後使用多頁模式來存儲大量的數據,最終使用目錄頁來實現多頁模式的查詢效率並形成我們口中的索引結構——B+樹。既然說到這裡了,那我們就來聊聊MySQL的其他知識點。

聚簇索引和非聚簇索引

關於聚簇索引和非聚簇索引在[從入門到入土]令人脫髮的資料庫底層設計這篇文章中已經有了詳細的介紹,這裡簡單地說說,所謂聚簇索引,就是將索引和數據放到一起,找到索引也就找到了數據,我們剛纔看到的B+樹索引就是一種聚簇索引,而非聚簇索引就是將數據和索引分開,查找時需要先查找到索引,然後通過索引回表找到相應的數據。InnoDB有且只有一個聚簇索引,而MyISAM中都是非聚簇索引。

聯合索引的最左首碼匹配原則

在MySQL資料庫中不僅可以對某一列建立索引,還可以對多列建立一個聯合索引,而聯合索引存在一個最左首碼匹配原則的概念,如果基於B+樹來理解這個最左首碼匹配原則,相對來說就會容易很很多了。

首先我們基於文首的這張表建立一個聯合索引:

create index idx_obj on user(age asc,height asc,weight asc)

我們已經瞭解了索引的數據結構是一顆B+樹,也瞭解了B+樹優化查詢效率的其中一個因素就是對數據進行了排序,那麼我們在創建idx_obj這個索引的時候,也就相當於創建了一顆B+樹索引,而這個索引就是依據聯合索引的成員來進行排序,這裡是age,height,weight。

看過我之前那篇博客的同學知道,InnoDB中只要有主鍵被定義,那麼主鍵列被作為一個聚簇索引,而其它索引都將被作為非聚簇索引,所以自然而然的,這個索引就會是一個非聚簇索引。

所以根據這些我們可以得出結論:

  • idx_obj這個索引會根據age,height,weight進行排序

  • idx_obj這個索引是一個非聚簇索引,查詢時需要回表

根據這兩個結論,首先需要瞭解的就是,如何排序?

單列排序很簡單,比大小嘛,誰都會,但是多列排序是基於什麼原則的呢(重點)?

實際上在MySQL中,聯合索引的排序有這麼一個原則,從左往右依次比較大小,就拿剛纔建立的索引舉例子,他會先去比較age的大小,如果age的大小相同,那麼比較height的大小,如果height也無法比較大小, 那麼就比較weight的大小,最終對這個索引進行排序。

那麼根據這個排序我們也可以畫出一個B+樹,這裡就不像上文畫的那麼詳細了,簡化一下:

數據:

索引很難麽?帶你從頭到尾捋一遍MySQL索引結構,不信你學不會!

B+樹:

索引很難麽?帶你從頭到尾捋一遍MySQL索引結構,不信你學不會!

註意:此時由於是非聚簇索引,所以葉子節點不在有數據,而是存了一個主鍵索引,最終會通過主鍵索引來回表查詢數據。

B+樹的結構有了,就可以通過這個來理解最左首碼匹配原則了。

我們先寫一個查詢語句

SELECT * FROM user WHERE age=and height = and weight = 7

毋庸置疑,這條語句一定會走idx_obj這個索引。

那麼我們再看一個語句:

SELECT * FROM user WHERE height=and weight = 7

思考一下,這條SQL會走索引嗎?

答案是否定的,那麼我們分析的方向就是,為什麼這條語句不會走索引。

上文中我們提到了一個多列的排序原則,是從左到右進行比較然後排序的,而我們的idx_obj這個索引從左到右依次是age,height,weight,所以當我們使用height和weight來作為查詢條件時,由於age的缺失,那麼就無法從age來進行比較了。

看到這裡可能有小伙伴會有疑問,那如果直接用height和weight來進行比較不可以嗎?顯然是不可以的,可以舉個例子,我們把缺失的這一列寫作一個問號,那麼這條語句的查詢條件就變成了?27,那麼我們從這課B+樹的根節點開始,根節點上有127和365,那麼以height和weight來進行比較的話,走的一定是127這一邊,但是如果缺失的列數字是大於3的呢?比如427,527,627,那麼如果走索引來查詢數據,將會丟失數據,錯誤查詢。所以這種情況下是絕對不會走索引進行查詢的。這就是最左首碼匹配原則的成因。

  1. 最左首碼匹配原則,MySQL會一直向右匹配直到遇到範圍查詢(>、<、between、like)就停止匹配,比如 a=3 and b=4 and c>5 and d=6,如果建立(a,b,c,d)順序的索引,d是無法使用索引的,如果建立(a,b,d,c)的索引則都可以使用到,a、b、d的順序可以任意調整。

  2. =和in可以亂序,比如 a=1 and b=2 and c=3 建立(a,b,c)索引可以任意順序,MySQL的查詢優化器會幫你優化成索引可以識別的形式。

根據我們瞭解的可以得出結論:

只要無法進行排序比較大小的,就無法走聯合索引。

可以再看幾個語句:

SELECT * FROM user WHERE age=and height = 2

這條語句是可以走idx_obj索引的,因為它可以通過比較 (12?<365)。

SELECT * FROM user WHERE age=and weight=7

這條語句也是可以走ind_obj索引的,因為它也可以通過比較(1?7<365),走左子樹,但是實際上weight並沒有用到索引,因為根據最左匹配原則,如果有兩頁的age都等於1,那麼會去比較height,但是height在這裡並不作為查詢條件,所以MySQL會將這兩頁全都載入到記憶體中進行最後的weight欄位的比較,進行掃描查詢。

SELECT * FROM user where age>1

這條語句不會走索引,但是可以走索引。這句話是什麼意思呢?這條SQL很特殊,由於其存在可以比較的索引,所以它走索引也可以查詢出結果,但是由於這種情況是範圍查詢並且是全欄位查詢,如果走索引,還需要進行回表,MySQL查詢優化器就會認為走索引的效率比全表掃描還要低,所以MySQL會去優化它,讓他直接進行全表掃描。

SELECT * FROM user WEHRE age=and height>and weight=7

這條語句是可以走索引的,因為它可以通過age進行比較,但是weight不會用到索引,因為height是範圍查找,與第二條語句類似,如果有兩頁的height都大於2,那麼MySQL會將兩頁的數據都載入進記憶體,然後再來通過weight匹配正確的數據。

為什麼InnoDB只有一個聚簇索引,而不將所有索引都使用聚簇索引?

因為聚簇索引是將索引和數據都存放在葉子節點中,如果所有的索引都用聚簇索引,則每一個索引都將保存一份數據,會造成數據的冗餘,在數據量很大的情況下,這種數據冗餘是很消耗資源的。

補充兩個關於索引的點

這兩個點也是上次寫關於索引的博客時漏下的,這裡補上。

1.什麼情況下會發生明明創建了索引,但是執行的時候並沒有通過索引呢?

科普時間:查詢優化器 一條SQL語句的查詢,可以有不同的執行方案,至於最終選擇哪種方案,需要通過優化器進行選擇,選擇執行成本最低的方案。

在一條單表查詢語句真正執行之前,MySQL的查詢優化器會找出執行該語句所有可能使用的方案,對比之後找出成本最低的方案。這個成本最低的方案就是所謂的執行計劃。

優化過程大致如下:

1、根據搜索條件,找出所有可能使用的索引
2、計算全表掃描的代價
3、計算使用不同索引執行查詢的代價
4、對比各種執行方案的代價,找出成本最低的那一個 。

參考:https://juejin.im/post/5d23ef4ce51d45572c0600bc

根據我們剛纔的那張表的非聚簇索引,這條語句就是由於查詢優化器的作用,造成沒有走索引:

SELECT * FROM user where age>1

2.在稀疏索引情況下通常需要通過葉子節點的指針回表查詢數據,什麼情況下不需要回表?

科普時間:覆蓋索引 覆蓋索引(covering index)指一個查詢語句的執行只用從索引中就能夠取得,不必從數據表中讀取。也可以稱之為實現了索引覆蓋。

當一條查詢語句符合覆蓋索引條件時,MySQL只需要通過索引就可以返回查詢所需要的數據,這樣避免了查到索引後再返回表操作,減少I/O提高效率。

如,表covering_index_sample中有一個普通索引 idx_key1_key2(key1,key2)。當我們通過SQL語句:select key2 from covering_index_sample where key1 = 'keytest';的時候,就可以通過覆蓋索引查詢,無需回表。

參考:https://juejin.im/post/5d23ef4ce51d45572c0600bc

例如:

SELECT age FROM user where age = 1

這句話就不需要進行回表查詢。

結語

本篇文章著重聊了一下關於MySQL的索引結構,從零開始慢慢構建了一個B+樹索引,並且根據這個過程談了B+樹是如何一步一步去優化查詢效率的。

簡單地歸納一下就是:

排序:優化查詢的根本,插入時進行排序實際上就是為了優化查詢的效率。
頁:用於減少IO次數,還可以利用程式局部性原理,來稍微提高查詢效率。
頁目錄:用於規避鏈表的軟肋,避免在查詢時進行鏈表的掃描。
多頁:數據量增加的情況下開闢新頁來保存數據。
目錄頁:“特殊的頁目錄”,其中保存的數據是頁的地址。查詢時可以通過目錄頁快速定位到頁,避免多頁的掃描。

歡迎訪問博客:http://blog.objectspace.cn/


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 1.首先打開centos的命令行模式,這裡我使用的是CRT遠程連接 centos7的網卡配置文件在/etc/sysconfig/network-scripts/目錄下 2.在命令行中輸入ifconfig命令,如果是最小化安裝的centos7請輸入ip a s命令 3.進入網卡的配置文件 [root@ ...
  • C#是微軟公司發佈的一種面向對象的、運行於.NET Framework和.NET Core(完全開源,跨平臺)之上的高級程式設計語言。並定於在微軟職業開發者論壇(PDC)上登臺亮相。C#是微軟公司研究員Anders Hejlsberg的最新成果。C#看起來與Java有著驚人的相似;它包括了諸如單一繼 ...
  • 兩個重要文件 /etc/passwd /etc/shadow 用戶和組 # uesradd 新建用戶 -c 用戶的註釋性信息 -e 禁用賬號的日期 # passwd 指定和修改用戶賬戶口令 -l 鎖定(停用)用戶賬戶 -u 口令解鎖 -x 指定口令的最長存活期 -w 口令要到期前提前警告的天數 # ...
  • 下麵是針對 nfs 所有的版本,我們可以通過不同的RFC 進行詳細看其RFC的細節來進行對比: 下麵是備忘一些NFS RFC 的鏈接: https://datatracker.ietf.org/doc/search?name=nfs&sort=&rfcs=on&activedrafts=on nfs ...
  • 關於ip # ip addr 查看ip # vi /etc/sysconfig/network-scrupts/ifcfg-eno 手動設置IP地址 BOOTPROTO=static ONBOOY=yes IPADDR=192.168.233.128 NETMASK=255.255.255.0 GA ...
  • https://sqlserver.code.blog/2019/12/10/different-ag-groups-have-the-exactly-same-group_id-value-if-the-group-names-are-same-and-the-cluster_type-exter ...
  • Redis Cluster 自動化安裝,擴容和縮容 之前寫過一篇基於python的redis集群自動化安裝的實現,基於純命令的集群實現還是相當繁瑣的,因此官方提供了redis-trib.rb這個工具雖然官方的的redis-trib.rb提供了集群創建、 檢查、 修複、均衡等命令行工具,之所個人接受不 ...
  • Linux使用MySQL Yum存儲庫上安裝MySQL 5.7,適用於Oracle Linux,Red Hat Enterprise Linux和CentOS系統。 1、添加MySQL Yum存儲庫 將MySQL Yum存儲庫添加到系統的存儲庫列表中。這是一次性操作,可以通過安裝MySQL提供的RP ...
一周排行
    -Advertisement-
    Play Games
  • Dapr Outbox 是1.12中的功能。 本文只介紹Dapr Outbox 執行流程,Dapr Outbox基本用法請閱讀官方文檔 。本文中appID=order-processor,topic=orders 本文前提知識:熟悉Dapr狀態管理、Dapr發佈訂閱和Outbox 模式。 Outbo ...
  • 引言 在前幾章我們深度講解了單元測試和集成測試的基礎知識,這一章我們來講解一下代碼覆蓋率,代碼覆蓋率是單元測試運行的度量值,覆蓋率通常以百分比表示,用於衡量代碼被測試覆蓋的程度,幫助開發人員評估測試用例的質量和代碼的健壯性。常見的覆蓋率包括語句覆蓋率(Line Coverage)、分支覆蓋率(Bra ...
  • 前言 本文介紹瞭如何使用S7.NET庫實現對西門子PLC DB塊數據的讀寫,記錄了使用電腦模擬,模擬PLC,自至完成測試的詳細流程,並重點介紹了在這個過程中的易錯點,供參考。 用到的軟體: 1.Windows環境下鏈路層網路訪問的行業標準工具(WinPcap_4_1_3.exe)下載鏈接:http ...
  • 從依賴倒置原則(Dependency Inversion Principle, DIP)到控制反轉(Inversion of Control, IoC)再到依賴註入(Dependency Injection, DI)的演進過程,我們可以理解為一種逐步抽象和解耦的設計思想。這種思想在C#等面向對象的編 ...
  • 關於Python中的私有屬性和私有方法 Python對於類的成員沒有嚴格的訪問控制限制,這與其他面相對對象語言有區別。關於私有屬性和私有方法,有如下要點: 1、通常我們約定,兩個下劃線開頭的屬性是私有的(private)。其他為公共的(public); 2、類內部可以訪問私有屬性(方法); 3、類外 ...
  • C++ 訪問說明符 訪問說明符是 C++ 中控制類成員(屬性和方法)可訪問性的關鍵字。它們用於封裝類數據並保護其免受意外修改或濫用。 三種訪問說明符: public:允許從類外部的任何地方訪問成員。 private:僅允許在類內部訪問成員。 protected:允許在類內部及其派生類中訪問成員。 示 ...
  • 寫這個隨筆說一下C++的static_cast和dynamic_cast用在子類與父類的指針轉換時的一些事宜。首先,【static_cast,dynamic_cast】【父類指針,子類指針】,兩兩一組,共有4種組合:用 static_cast 父類轉子類、用 static_cast 子類轉父類、使用 ...
  • /******************************************************************************************************** * * * 設計雙向鏈表的介面 * * * * Copyright (c) 2023-2 ...
  • 相信接觸過spring做開發的小伙伴們一定使用過@ComponentScan註解 @ComponentScan("com.wangm.lifecycle") public class AppConfig { } @ComponentScan指定basePackage,將包下的類按照一定規則註冊成Be ...
  • 操作系統 :CentOS 7.6_x64 opensips版本: 2.4.9 python版本:2.7.5 python作為腳本語言,使用起來很方便,查了下opensips的文檔,支持使用python腳本寫邏輯代碼。今天整理下CentOS7環境下opensips2.4.9的python模塊筆記及使用 ...