腳本之家服務(wù)器常用軟件

快捷導航

軟件下載

android MAC 驅(qū)動下載字體下載 DLL

源碼下載

PHP ASP.NET ASP JSP

軟件編程

C# JAVA C 語言 Delphi Android

網(wǎng)絡(luò)編程

PHP ASP.NET ASP JavaScript

在線工具

CSS格式化 JS格式化 Html轉(zhuǎn)化為Js

數(shù)據(jù)庫

MYSQL MSSQL oracle DB2 MARIADB

CMS

PHPCMS DEDECMS 帝國CMS WordPress

常用工具

PHP開發(fā)工具 python Photoshop 必備軟件

淺談Linux的零拷貝技術(shù)

更新時間：2023年04月28日 10:14:24 作者：魏天樂大帥哥

零拷貝主要的任務(wù)就是避免CPU將數(shù)據(jù)從一塊存儲拷貝到另外一塊存儲，主要就是利用各種零拷貝技術(shù)，避免讓CPU做大量的數(shù)據(jù)拷貝任務(wù)，減少不必要的拷貝,需要的朋友可以參考下

前言

在Linux系統(tǒng)內(nèi)部緩存和內(nèi)存容量都是有限的，更多的數(shù)據(jù)都是存儲在磁盤中。對于Web服務(wù)器來說，經(jīng)常需要從磁盤中讀取數(shù)據(jù)到內(nèi)存，然后再通過網(wǎng)卡傳輸給用戶：

那么這也算一次I O的過程，都知道IO過程中需要狀態(tài)的切換還有一系列拷貝過程，都是要時間開銷的，那么怎么優(yōu)化用戶態(tài)和內(nèi)核態(tài)的狀態(tài)的切換次數(shù)和各種緩沖區(qū)之間的拷貝次數(shù)，也是linux的服務(wù)器實現(xiàn)高并發(fā)的重要技術(shù)了！

傳統(tǒng)數(shù)據(jù)交互

傳統(tǒng) io 的執(zhí)行流程: 下面將圖左半部分read過程的硬件抽象為磁盤; 圖右半部分write過程的硬件設(shè)為網(wǎng)卡，模擬webserver進行一次IO的過程; 方便理解;

read：將數(shù)據(jù)從 IO 設(shè)備讀取到內(nèi)核緩存區(qū)中，再將數(shù)據(jù)從內(nèi)核緩沖區(qū)拷貝到用戶緩沖區(qū)
write：將數(shù)據(jù)從用戶緩沖區(qū)寫入到內(nèi)核緩沖區(qū)中，再將數(shù)據(jù)從內(nèi)核緩沖區(qū)拷貝到 IO 設(shè)備

read/write 屬于系統(tǒng)調(diào)用 syscall，每一次系統(tǒng)調(diào)用，發(fā)生兩次上下文切換

調(diào)用 syscall 從用戶態(tài)切換到內(nèi)核態(tài)
syscall 返回從內(nèi)核態(tài)切換到用戶態(tài)

如圖所示，傳統(tǒng) io 的過程中，發(fā)生了4次空間切換 + 4次拷貝

在這里插入圖片描述

不難看出，傳統(tǒng)模式下的IO，涉及多次空間切換和數(shù)據(jù)冗余拷貝，效率并不高。而零拷貝 Zero-Copy 目的就是降低冗余數(shù)據(jù)拷貝，解放 CPU

減少數(shù)據(jù)在內(nèi)核緩沖區(qū)和用戶緩沖區(qū)之間的冗余拷貝（CPU拷貝）
減少系統(tǒng)調(diào)用導致的空間切換

目前來看，零拷貝技術(shù)的實現(xiàn)手段主要包括：mmap+write、sendfile、sendfile+DMA、splice

零拷貝

首先解釋一下，零拷貝中的0，指的是CPU級別的數(shù)據(jù)拷貝(比如內(nèi)核緩沖區(qū)到用戶緩沖區(qū)的拷貝，用戶緩沖區(qū)再到socket緩沖區(qū); 或者內(nèi)核緩沖區(qū)直接到socket緩沖區(qū)的拷貝！)，并不是DMA硬件的拷貝，否則數(shù)據(jù)不靠DMA怎么轉(zhuǎn)移呢？

mmap+write

內(nèi)存映射 memory mapping，mmap 是一種內(nèi)存映射文件的方法，即將一個文件或者其他對象映射到進程的地址空間，實現(xiàn)文件磁盤地址和進程虛擬地址空間中一段虛擬地址的一一映射關(guān)系。

mmap可以充當read的功能，將內(nèi)核讀緩沖區(qū)地址與用戶緩沖區(qū)地址進行映射，實現(xiàn)內(nèi)核緩沖區(qū)與用戶緩沖區(qū)的共享。這樣就減少了一次用戶態(tài)和內(nèi)核態(tài)的CPU拷貝。

mmap + write 流程如圖所示，發(fā)生了4次切換 + 2次DMA拷貝 + 1次CPU拷貝

在這里插入圖片描述

函數(shù)原型

#include <sys/mman.h>
// 內(nèi)存映射
void* mmap(void* start, size_t length, int prot, int flags, int fd, off_t offset);


/*
參數(shù)
start：指定映射的虛擬內(nèi)存地址，通常定義為 NULL，由內(nèi)核選定地址

length：映射的長度

prot：描述映射內(nèi)存的訪問權(quán)限

PROT_EXEC頁面可以被 cpu 執(zhí)行指令組成，PROT_NONE 頁面不能訪問

PROT_READ 頁面可讀，PROT_WRITE 頁面可寫，

flags：指定映射的類型，MAP_SHARED共享對象，MAP_PRIVATE私有的，寫時復制對象

fd：要進行映射的文件句柄

offset：文件偏移量
*/





// 解除映射
int munmap(void *addr, size_t length);

例：發(fā)送方:

// 建立內(nèi)存映射
char *pMap = (char*) mmap (NULL, fileInfo.st_size, PROT_READ|PROT_WRITE, MAP_SHARED, fd, 0); 

send(clientFd, pMap, fileInfo.st_size, 0);

// 解除映射
munmap(pMap, fileInfo.st_size);

接收方:

// 使用 mmap 前用使用 ftruncate 來擴大文件大小
ftruncate(fd, fileSize);
char *pMap = (char*) mmap (NULL, fileSize, PROT_READ|PROT_WRITE, MAP_SHARED, fd, 0);

recvCycle(sfd, pMap, fileSize);
munmap(pMap, fileSize);

小結(jié)

mmap充當read的功能，進行一次完整的IO，減少了傳統(tǒng)方式read數(shù)據(jù)的時候，從內(nèi)核態(tài)CPU拷貝到用戶態(tài)的這次拷貝; (發(fā)生了4次切換 + 2次DMA拷貝 + 1次CPU拷貝;)

mmap 存在的問題：mmap 對大文件傳輸有一定優(yōu)勢，但是小文件可能出現(xiàn)碎片，并且在多個進程同時操作文件時可能產(chǎn)生引發(fā) coredump 的 signal。

sendfile

mmap+write 方式有一定改進，但是由系統(tǒng)調(diào)用引起的狀態(tài)切換并沒有減少，因此在 Linux 內(nèi)核2.1版本中引入了 sendfile 系統(tǒng)調(diào)用。

sendfile 在兩個文件之間通過內(nèi)核直接傳輸數(shù)據(jù)，避免了內(nèi)核緩沖區(qū)和用戶緩沖區(qū)之間的數(shù)據(jù)拷貝操作。sendfile 只能用于發(fā)送數(shù)據(jù)，不能用于接收數(shù)據(jù)。

sendfile 方式只使用一個函數(shù)就可以完成之前的 read+write 和 mmap+write 的功能，這樣減少一個系統(tǒng)調(diào)用（2次狀態(tài)切換），由于數(shù)據(jù)不經(jīng)過用戶緩沖區(qū)，因此該數(shù)據(jù)無法被修改。

sendfile 的流程如圖所示，發(fā)生了2次切換 + 2次DMA拷貝+1次CPU拷貝

在這里插入圖片描述

sendfile + DMA

linux2.4版本后，對 sendfile 系統(tǒng)調(diào)用進行優(yōu)化，配合硬件 DMA，可以直接從內(nèi)核空間緩沖區(qū)中將數(shù)據(jù)拷貝到網(wǎng)卡，徹底省去了CPU拷貝。

如圖所示，sendfile + DMA 的過程中發(fā)生了2次切換 + 2次DMA拷貝 + 0次CPU拷貝

在這里插入圖片描述

sendfile 函數(shù)原型

#include <sys/sendfile.h>
ssize_t sendfile(int out_fd, int in_fd, off_t *offset, size_t count);

/*
參數(shù)
- out_fd：待寫入內(nèi)容的文件描述符
- in_fd：待讀出內(nèi)容的文件描述符
- offset：文件偏移量
- count：傳輸?shù)淖止?jié)數(shù)
*/

例:

發(fā)送方

sendfile(clientFd, fd, 0, fileInfo.st_size);

小結(jié)

早期sendfile ： 2次切換 (sendfile后，數(shù)據(jù)不用過用戶層了，導致不能修改了，不過也少了兩次狀態(tài)切換！)+ 2次DMA拷貝（磁盤到內(nèi)核，socket緩沖區(qū)到網(wǎng)卡）+ 1次CPU拷貝(內(nèi)核到socket緩沖區(qū))

改良的sendfile + DMA ：發(fā)生了2次切換 + 2次DMA拷貝（磁盤到內(nèi)核，內(nèi)核直接到網(wǎng)卡） + 0次CPU拷貝

sendfile 存在的問題：無法對數(shù)據(jù)進行修改(數(shù)據(jù)沒上到用戶層，也沒必要，webserver一般都不需要修改，返回的本地的資源！)，并且需要硬件層面DMA的支持，并且 sendfile 只能將文件數(shù)據(jù)拷貝到 socketfd，有一定的局限性。

splice

splice 系統(tǒng)調(diào)用在 Linux 2.6 版本引入，不需要硬件支持，并且不再限定于 socket 上，實現(xiàn)了兩個普通文件之間的零拷貝。

可以在內(nèi)核緩沖區(qū)和 socket 緩沖區(qū)間建立管道來傳輸數(shù)據(jù)，避免了兩者之間的 CPU 拷貝操作。

在這里插入圖片描述

函數(shù)原型

#define _GNU_SOURCE 
#include <fcntl.h>

ssize_t splice(int fd_in, loff_t *off_in, int fd_out, loff_t *off_out, size_t len, unsigned int flags);

/*
返回值；成功返回接收到的字節(jié)數(shù)，失敗-1

參數(shù)
- fd_in：待輸入數(shù)據(jù)的文件描述符。
- off_in: 輸入流偏移量。若 fd_in 是管道文件描述符，則設(shè)置為 NULL，表示從當前偏移讀入。   否則，off_in 表示從輸入數(shù)據(jù)流的某處開始讀取。
- fd_out：待輸出數(shù)據(jù)的文件描述符。
- off_out：輸出流偏移量，同上。
- len：單次寫入的數(shù)據(jù)長度，最多65536
- flags：0
*/

例：web服務(wù)器端代碼: transFile.c：

int fds[2];
pipe(fds);

int recvLen = 0;
//當讀到的數(shù)據(jù)量超過文件大小時，即已經(jīng)讀取數(shù)據(jù)完成
while(recvLen < fileInfo.st_size){
    //將數(shù)據(jù)從服務(wù)器端本地讀到管道
    ret = splice(fd, 0, fds[1], 0, 65536, 0);
    //將數(shù)據(jù)從管道讀到客戶端
    ret = splice(fds[0], 0, clientFd, 0, ret, 0);
    //計算已經(jīng)讀到的數(shù)據(jù)量
    recvLen += ret;
}

小結(jié)

splice 引入管道機制，實現(xiàn)了普通文件之間的0拷貝，突破了僅限于socket的sendfile0拷貝;