匯編實現(xiàn)的memcpy和memset的方法

更新時間：2020年02月09日 11:28:37 作者：掃帚的影子 ·

這篇文章主要介紹了匯編實現(xiàn)的memcpy和memset的方法，本文給大家介紹的非常詳細(xì)，具有一定的參考借鑒價值,需要的朋友可以參考下

天天山珍海味的吃，也會煩。偶爾來點花生，毛豆小酌一點，也別有一番風(fēng)味。

天天java, golang, c++, 咱們今天來點匯編調(diào)劑一下，如何？

通過這篇文章，您可以了解過：

CPU寄存器的一些知識;
函數(shù)調(diào)用的過程;
匯編的一些知識;
glibc 中 memcpy和memset的使用;
匯編中memcpy和memset是如何實現(xiàn)的;

閑話不多說，今天來看看匯編中如何實現(xiàn)memcpy和memset(腦子里快回憶下你最后一次接觸匯編是什么時候......)

函數(shù)是如何被調(diào)用的

棧的簡單介紹

棧對函數(shù)調(diào)用來說特別重要，它其實就是進程虛擬地址空間中的一部分，當(dāng)然每個線程可以設(shè)置單獨的調(diào)用棧(可以用戶指定，也可以系統(tǒng)自動分配); 棧由?；?%ebp)和棧頂指針(%esp)組成，這兩個元素組成一個棧幀,棧一般由高地址向低地址增長，將數(shù)據(jù)壓棧時%esp減小，反之增大;
調(diào)用一個新函數(shù)時，會產(chǎn)生一個新的棧幀，即將老的%ebp壓棧，然后將%ebp設(shè)置成跟當(dāng)前的%esp一樣的值即可。函數(shù)返回后，之前壓棧的數(shù)據(jù)依然出棧，這樣最終之前進棧的%ebp也會出棧，即調(diào)用函數(shù)之前的棧幀被恢復(fù)了，也正是這種機制支撐了函數(shù)的多層嵌套調(diào)用；

不管是寫Windows程序還是Linux程序，也不管是用什么語言來寫程序，我們經(jīng)常會把某個獨立的功能抽出來封裝成一個函數(shù)，然后在需要的地方調(diào)用即可?？此坪唵蔚挠梅ǎ撬澈笫侨绾螌崿F(xiàn)的呢？一般分為四步：

棧

函數(shù)調(diào)用規(guī)則

函數(shù)一般都會有多個參數(shù)，我們根據(jù)函數(shù)調(diào)用時，
參數(shù)壓棧的方向(參數(shù)從左到右入棧，還是從右到左入棧);函數(shù)調(diào)用完是函數(shù)調(diào)用者負(fù)責(zé)將之前入棧的參數(shù)退棧，還是被調(diào)用函數(shù)本身來作等

這兩點（其實還有一點，就是代碼被編譯后，生成新函數(shù)名的規(guī)則，跟我們這里介紹的關(guān)系不大）來分類函數(shù)的調(diào)用方式：

stdcall: 函數(shù)參數(shù)由右向左入棧, 函數(shù)調(diào)用結(jié)束后由被調(diào)用函數(shù)清除棧內(nèi)數(shù)據(jù);
cdecl: 函數(shù)參數(shù)由右向左入棧, 函數(shù)調(diào)用結(jié)束后由函數(shù)調(diào)用者清除棧內(nèi)數(shù)據(jù);
fastcall: 從左開始不大于4字節(jié)的參數(shù)放入CPU的EAX,ECX,EDX寄存器，其余參數(shù)從右向左入棧, 函數(shù)調(diào)用結(jié)束后由被調(diào)用函數(shù)清除棧內(nèi)數(shù)據(jù);

這種方式最大的不同是用寄存器來存參數(shù)，所有它fast。

glibc中的memcpy

我們先來看下glibc中的memcpy , 原型如下：

void *memcpy(void *dest, const void *src, size_t n);

從src拷貝連續(xù)的n個字節(jié)數(shù)據(jù)到dest中, 不會有任何的內(nèi)存越界檢查。

char dest[5] = {0};                                                  
char test[5] = {0,'b'};                                                
char src[10] = {'a', 'a', 'a', 'a', 'a', 'a', 'a', 'a', 'a', 'a'};      
 ::memcpy(dest, src, 6);   
                          
std::cout << src << std::endl; 
std::cout << dest << std::endl;                                          
std::cout << test << std::endl;

大家有興趣的話可以考慮下上面的代碼輸出是什么？

匯編實現(xiàn)的memcpy

說來慚愧，匯編代碼作者本人也不會寫。不過我們可以參考linux源碼里面的實現(xiàn)，這相對還是比較權(quán)威的吧。

GLOBAL(memcpy)
  pushw  %si
  pushw  %di
  movw  %ax, %di
  movw  %dx, %si
  pushw  %cx
  shrw  $2, %cx
  rep; movsl
  popw  %cx
  andw  $3, %cx
  rep; movsb
  popw  %di
  popw  %si
  retl
ENDPROC(memcpy)

CPU的眾多通用寄存器有%esi和%edi, 它們一個是源址寄存器，一個是目的寄存器，常被用來作串操作，我們的這個memcpy最終就是將%esi指向的內(nèi)容拷貝到%edi中，因為這種代碼在linux源碼中是被標(biāo)識成了.code16, 所有這里都只用到這兩個寄存器的低16位：%si和%di；

代碼的第一，二句保存當(dāng)前的%si和%di到棧中；

這段代碼實際上是fastcall調(diào)用方式，void *memcpy(void *dest, const void *src, size_t n);

其中 dest 被放在了%ax寄存器，src被放在了%dx, n被放在了%cx;

movw %ax, %di, 將dest放入%di中，movw %dx, %s，將stc放入%si中；

一個字節(jié)一個字節(jié)的拷貝太慢了，我們四個字節(jié)四個字節(jié)的來，shrw $2, %cx，看看參數(shù)n里面有幾個4, 我們就需要循環(huán)拷貝幾次，循環(huán)的次數(shù)存在%cx中，因為后面還要用到這個%cx, 所以計算之前先將其壓棧保存pushw %cx；

rep; movsl，rep重復(fù)執(zhí)行movsl這個操作，每執(zhí)行一次%cx的內(nèi)容就減一，直到為0。movsl每次從%si中拷貝4個字節(jié)到%di中。這其實就相當(dāng)于一個for循環(huán)copy；

參數(shù)n不一定能被4整除，剩下的余數(shù)，我們只能一個字節(jié)一個字節(jié)的copy了。

andw $3, %cx就是對%cx取余，看還剩下多少字節(jié)沒copy;

rep; movsb一個字節(jié)一個字節(jié)的copy剩下的內(nèi)容;

glibc中的memset

我們先來看下glibc中的memset, 原型如下：

void *memset(void *s, int c, size_t n);

這個函數(shù)的作用是用第二個參數(shù)的最低位一個字節(jié)來填充s地址開始的n個字節(jié)，盡管第二個參數(shù)是個int, 但是填充時只會用到它最低位的一個字節(jié)。

你可以試一下下面代碼的輸出：

int c = 0x44332211;                                                  
int s = 0;                                                     
::memset((void*)&s, c, sizeof(s));                                           
std::cout << std::setbase(16) << s << std::endl; // 11111111

匯編實現(xiàn)的memset

我們還是來看一下arch/x86/boot/copy.S中的實現(xiàn)：

GLOBAL(memset)
  pushw  %di
  movw  %ax, %di
  movzbl %dl, %eax
  imull  $0x01010101,%eax
  pushw  %cx
  shrw  $2, %cx
  rep; stosl
  popw  %cx
  andw  $3, %cx
  rep; stosb
  popw  %di
  retl
ENDPROC(memset)

不同于memcpy，這里不需要%si源址寄存器，只需要目的寄存器，所以我們先將其壓棧保存pushw %di;

參考void *memset(void *s, int c, size_t n)可知，參數(shù)s被放在了%ax寄存器；參數(shù)n被放在了%cx寄存器;

參數(shù)c被放在了%dl寄存器，這里只用到了%edx寄存器的最低一個字節(jié)，所以對于c這個參數(shù)不管你是幾個字節(jié)，其實多只有最低一個字節(jié)被用到；

和memcpy一樣，一次一個字節(jié)的操作太慢了，一次四個字節(jié)吧，假設(shè)參數(shù)c的最低一個字節(jié)是0x11, 那么一次set四個字節(jié)的話，就是0x11111111: