現(xiàn)在的服務(wù)器大部分都是運(yùn)行在Linux上面的,所以,作為一個(gè)程序員有必要簡(jiǎn)單地了解一下系統(tǒng)是如何運(yùn)行的。對(duì)于內(nèi)存部分需要知道:
地址映射
內(nèi)存管理的方式
缺頁(yè)異常
先來(lái)看一些基本的知識(shí),在進(jìn)程看來(lái),內(nèi)存分為內(nèi)核態(tài)和用戶態(tài)兩部分,經(jīng)典比例如下:

從用戶態(tài)到內(nèi)核態(tài)一般通過(guò)系統(tǒng)調(diào)用、中斷來(lái)實(shí)現(xiàn)。用戶態(tài)的內(nèi)存被劃分為不同的區(qū)域用于不同的目的:

當(dāng)然內(nèi)核態(tài)也不會(huì)無(wú)差別地使用,所以,其劃分如下:

下面來(lái)仔細(xì)看這些內(nèi)存是如何管理的。
地址
在Linux內(nèi)部的地址的映射過(guò)程為邏輯地址–>線性地址–>物理地址,物理地址最簡(jiǎn)單:地址總線中傳輸?shù)?a target="_blank">數(shù)字信號(hào),而線性地址和邏輯地址所表示的則是一種轉(zhuǎn)換規(guī)則,線性地址規(guī)則如下:

這部分由MMU完成,其中涉及到主要的寄存器有CR0、CR3。機(jī)器指令中出現(xiàn)的是邏輯地址,邏輯地址規(guī)則如下:

在Linux中的邏輯地址等于線性地址,也就是說(shuō)Inter為了兼容把事情搞得很復(fù)雜,Linux簡(jiǎn)化順便偷個(gè)懶。
內(nèi)存管理的方式
在系統(tǒng)boot的時(shí)候會(huì)去探測(cè)內(nèi)存的大小和情況,在建立復(fù)雜的結(jié)構(gòu)之前,需要用一個(gè)簡(jiǎn)單的方式來(lái)管理這些內(nèi)存,這就是bootmem,簡(jiǎn)單來(lái)說(shuō)就是位圖,不過(guò)其中也有一些優(yōu)化的思路。
bootmem再怎么優(yōu)化,效率都不高,在要分配內(nèi)存的時(shí)候畢竟是要去遍歷,buddy系統(tǒng)剛好能解決這個(gè)問(wèn)題:在內(nèi)部保存一些2的冪次大小的空閑內(nèi)存片段,如果要分配3page,去4page的列表里面取一個(gè),分配3個(gè)之后將剩下的1個(gè)放回去,內(nèi)存釋放的過(guò)程剛好是一個(gè)逆過(guò)程。用一個(gè)圖來(lái)表示:

可以看到0、4、5、6、7都是正在使用的,那么,1、2被釋放的時(shí)候,他們會(huì)合并嗎?
static inline unsigned long
__find_buddy_index(unsigned long page_idx, unsigned int order)
{
return page_idx ^ (1 << order);// 更新最高位,0~1互換
}
從上面這段代碼中可以看到,0、1是buddy,2、3是buddy,雖然1、2相鄰,但他們不是。內(nèi)存碎片是系統(tǒng)運(yùn)行的大敵,伙伴系統(tǒng)機(jī)制可以在一定程度上防止碎片~~另外,我們可以通過(guò)cat /proc/buddyinfo獲取到各order中的空閑的頁(yè)面數(shù)。
伙伴系統(tǒng)每次分配內(nèi)存都是以頁(yè)(4KB)為單位的,但系統(tǒng)運(yùn)行的時(shí)候使用的絕大部分的數(shù)據(jù)結(jié)構(gòu)都是很小的,為一個(gè)小對(duì)象分配4KB顯然是不劃算了。Linux中使用slab來(lái)解決小對(duì)象的分配:

在運(yùn)行時(shí),slab向buddy“批發(fā)”一些內(nèi)存,加工切塊以后“散賣(mài)”出去。隨著大規(guī)模多處理器系統(tǒng)和NUMA系統(tǒng)的廣泛應(yīng)用,slab終于暴露出不足:
復(fù)雜的隊(duì)列管理
管理數(shù)據(jù)和隊(duì)列存儲(chǔ)開(kāi)銷較大
長(zhǎng)時(shí)間運(yùn)行partial隊(duì)列可能會(huì)非常長(zhǎng)
對(duì)NUMA支持非常復(fù)雜
為了解決這些高手們開(kāi)發(fā)了slub:改造page結(jié)構(gòu)來(lái)削減slab管理結(jié)構(gòu)的開(kāi)銷、每個(gè)CPU都有一個(gè)本地活動(dòng)的slab(kmem_cache_cpu)等。對(duì)于小型的嵌入式系統(tǒng)存在一個(gè)slab模擬層slob,在這種系統(tǒng)中它更有優(yōu)勢(shì)。
小內(nèi)存的問(wèn)題算是解決了,但還有一個(gè)大內(nèi)存的問(wèn)題:用伙伴系統(tǒng)分配10 x 4KB的數(shù)據(jù)時(shí),會(huì)去16 x 4KB的空閑列表里面去找(這樣得到的物理內(nèi)存是連續(xù)的),但很有可能系統(tǒng)里面有內(nèi)存,但是伙伴系統(tǒng)分配不出來(lái),因?yàn)樗麄儽环指畛尚〉钠巍D敲?,vmalloc就是要用這些碎片來(lái)拼湊出一個(gè)大內(nèi)存,相當(dāng)于收集一些“邊角料”,組裝成一個(gè)成品后“出售”:

之前的內(nèi)存都是直接映射的,第一次感覺(jué)到頁(yè)式管理的存在:D 另外對(duì)于高端內(nèi)存,提供了kmap方法為page分配一個(gè)線性地址。
進(jìn)程由不同長(zhǎng)度的段組成:代碼段、動(dòng)態(tài)庫(kù)的代碼、全局變量和動(dòng)態(tài)產(chǎn)生數(shù)據(jù)的堆、棧等,在Linux中為每個(gè)進(jìn)程管理了一套虛擬地址空間:

在我們寫(xiě)代碼malloc完以后,并沒(méi)有馬上占用那么大的物理內(nèi)存,而僅僅是維護(hù)上面的虛擬地址空間而已,只有在真正需要的時(shí)候才分配物理內(nèi)存,這就是COW(COPY-ON-WRITE:寫(xiě)時(shí)復(fù)制)技術(shù),而物理分配的過(guò)程就是最復(fù)雜的缺頁(yè)異常處理環(huán)節(jié)了,下面來(lái)看!
缺頁(yè)異常
在實(shí)際需要某個(gè)虛擬內(nèi)存區(qū)域的數(shù)據(jù)之前,和物理內(nèi)存之間的映射關(guān)系不會(huì)建立。如果進(jìn)程訪問(wèn)的虛擬地址空間部分尚未與頁(yè)幀關(guān)聯(lián),處理器自動(dòng)引發(fā)一個(gè)缺頁(yè)異常。在內(nèi)核處理缺頁(yè)異常時(shí)可以拿到的信息如下:
cr2:訪問(wèn)到線性地址
err_code:異常發(fā)生時(shí)由控制單元壓入棧中,表示發(fā)生異常的原因
regs:發(fā)生異常時(shí)寄存器的值
處理的流程如下:

發(fā)生缺頁(yè)異常的時(shí)候,可能因?yàn)椴怀J褂枚籹wap到磁盤(pán)上了,swap相關(guān)的命令如下:

如果內(nèi)存是mmap映射到內(nèi)存中的,那么在讀、寫(xiě)對(duì)應(yīng)內(nèi)存的時(shí)候也會(huì)產(chǎn)生缺頁(yè)異常。
-
Linux
+關(guān)注
關(guān)注
88文章
11763瀏覽量
219089 -
內(nèi)存管理
+關(guān)注
關(guān)注
0文章
171瀏覽量
14886
原文標(biāo)題:五分鐘徹底搞懂你一直沒(méi)明白的Linux內(nèi)存管理
文章出處:【微信號(hào):magedu-Linux,微信公眾號(hào):馬哥Linux運(yùn)維】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
Linux的內(nèi)存管理是什么,Linux的內(nèi)存管理詳解
關(guān)于Linux內(nèi)存管理的詳細(xì)介紹
Linux實(shí)現(xiàn)原理—虛擬內(nèi)存技術(shù)簡(jiǎn)析
Linux內(nèi)核內(nèi)存管理架構(gòu)解析
一種簡(jiǎn)單的內(nèi)存管理方式
linux內(nèi)存管理機(jī)制淺析
以Python語(yǔ)言為例探討語(yǔ)音內(nèi)存管理方式
Linux內(nèi)存管理體系介紹
Linux下動(dòng)態(tài)鏈接庫(kù)管理方式
工業(yè)交換機(jī)管理方式的全面指南
基于Linux的內(nèi)存管理方式解析
評(píng)論