一文徹底弄懂零拷貝原理以及java實現(xiàn)

更新時間：2021年08月13日 10:27:53 作者：初念初戀

零拷貝(英語: Zero-copy) 技術是指計算機執(zhí)行操作時,CPU不需要先將數(shù)據(jù)從某處內存復制到另一個特定區(qū)域,下面這篇文章主要給大家介紹了關于零拷貝原理以及java實現(xiàn)的相關資料,需要的朋友可以參考下

零拷貝

零拷貝（Zero-Copy）是一種 I/O 操作優(yōu)化技術，可以快速高效地將數(shù)據(jù)從文件系統(tǒng)移動到網(wǎng)絡接口，而不需要將其從內核空間復制到用戶空間。其在 FTP 或者 HTTP 等協(xié)議中可以顯著地提升性能。但是需要注意的是，并不是所有的操作系統(tǒng)都支持這一特性，目前只有在使用 NIO 和 Epoll 傳輸時才可使用該特性。

需要注意，它不能用于實現(xiàn)了數(shù)據(jù)加密或者壓縮的文件系統(tǒng)上，只有傳輸文件的原始內容。這類原始內容也包括加密了的文件內容。

傳統(tǒng)I/O操作存在的性能問題

如果服務端要提供文件傳輸?shù)墓δ?，我們能想到的最簡單的方式是：將磁盤上的文件讀取出來，然后通過網(wǎng)絡協(xié)議發(fā)送給客戶端。

傳統(tǒng) I/O 的工作方式是，數(shù)據(jù)讀取和寫入是從用戶空間到內核空間來回復制，而內核空間的數(shù)據(jù)是通過操作系統(tǒng)層面的 I/O 接口從磁盤讀取或寫入。

代碼通常如下，一般會需要兩個系統(tǒng)調用：

read(file, tmp_buf, len);
write(socket, tmp_buf, len);

代碼很簡單，雖然就兩行代碼，但是這里面發(fā)生了不少的事情。

首先，期間共發(fā)生了 4 次用戶態(tài)與內核態(tài)的上下文切換，因為發(fā)生了兩次系統(tǒng)調用，一次是 read() ，一次是 write()，每次系統(tǒng)調用都得先從用戶態(tài)切換到內核態(tài)，等內核完成任務后，再從內核態(tài)切換回用戶態(tài)。

上下文切換到成本并不小，一次切換需要耗時幾十納秒到幾微秒，雖然時間看上去很短，但是在高并發(fā)的場景下，這類時間容易被累積和放大，從而影響系統(tǒng)的性能。

其次，還發(fā)生了 4 次數(shù)據(jù)拷貝，其中兩次是 DMA 的拷貝，另外兩次則是通過 CPU 拷貝的，下面說一下這個過程：

第一次拷貝，把磁盤上的數(shù)據(jù)拷貝到操作系統(tǒng)內核的緩沖區(qū)里，這個拷貝的過程是通過 DMA 搬運的。
第二次拷貝，把內核緩沖區(qū)的數(shù)據(jù)拷貝到用戶的緩沖區(qū)里，于是我們應用程序就可以使用這部分數(shù)據(jù)了，這個拷貝到過程是由 CPU 完成的。
第三次拷貝，把剛才拷貝到用戶的緩沖區(qū)里的數(shù)據(jù)，再拷貝到內核的 socket 的緩沖區(qū)里，這個過程依然還是由 CPU 搬運的。
第四次拷貝，把內核的 socket 緩沖區(qū)里的數(shù)據(jù)，拷貝到網(wǎng)卡的緩沖區(qū)里，這個過程又是由 DMA 搬運的。

這種簡單又傳統(tǒng)的文件傳輸方式，存在冗余的上文切換和數(shù)據(jù)拷貝，在高并發(fā)系統(tǒng)里是非常糟糕的，多了很多不必要的開銷，會嚴重影響系統(tǒng)性能。

所以，要想提高文件傳輸?shù)男阅?，就需要減少「用戶態(tài)與內核態(tài)的上下文切換」和「內存拷貝」的次數(shù)。

零拷貝技術原理

零拷貝主要是用來解決操作系統(tǒng)在處理 I/O 操作時，頻繁復制數(shù)據(jù)的問題。關于零拷貝主要技術有 mmap+write、sendfile和splice等幾種方式。

虛擬內存

在了解零拷貝技術之前，先了解虛擬內存的概念。
所有現(xiàn)代操作系統(tǒng)都使用虛擬內存，使用虛擬地址取代物理地址，主要有以下幾點好處：

多個虛擬內存可以指向同一個物理地址。
虛擬內存空間可以遠遠大于物理內存空間。

利用上述的第一條特性可以優(yōu)化，可以把內核空間和用戶空間的虛擬地址映射到同一個物理地址，這樣在 I/O 操作時就不需要來回復制了。

如下圖展示了虛擬內存的原理。

mmap/write 方式

使用mmap/write方式替換原來的傳統(tǒng)I/O方式，就是利用了虛擬內存的特性。下圖展示了mmap/write原理：

整個流程的核心區(qū)別就是，把數(shù)據(jù)讀取到內核緩沖區(qū)后，應用程序進行寫入操作時，直接把內核的Read Buffer的數(shù)據(jù)復制到Socket Buffer以便寫入，這次內核之間的復制也是需要CPU的參與的。

上述流程就是少了一個 CPU COPY，提升了 I/O 的速度。不過發(fā)現(xiàn)上下文的切換還是4次并沒有減少，這是因為還是要應用程序發(fā)起write操作。

那能不能減少上下文切換呢?這就需要sendfile方式來進一步優(yōu)化了。

sendfile 方式

從 Linux 2.1 版本開始，Linux 引入了 sendfile來簡化操作。sendfile方式可以替換上面的mmap/write方式來進一步優(yōu)化。

sendfile將以下操作：

  mmap();
  write();

替換為：

 sendfile();

這樣就減少了上下文切換，因為少了一個應用程序發(fā)起write操作，直接發(fā)起sendfile操作。

下圖展示了sendfile原理：

sendfile方式只有三次數(shù)據(jù)復制（其中只有一次 CPU COPY）以及2次上下文切換。

那能不能把 CPU COPY 減少到?jīng)]有呢？這樣需要帶有 scatter/gather的sendfile方式了。

帶有 scatter/gather 的 sendfile方式

Linux 2.4 內核進行了優(yōu)化，提供了帶有 scatter/gather 的 sendfile 操作，這個操作可以把最后一次 CPU COPY 去除。其原理就是在內核空間 Read BUffer 和 Socket Buffer 不做數(shù)據(jù)復制，而是將 Read Buffer 的內存地址、偏移量記錄到相應的 Socket Buffer 中，這樣就不需要復制。其本質和虛擬內存的解決方法思路一致，就是內存地址的記錄。

下圖展示了scatter/gather 的 sendfile 的原理：

scatter/gather 的 sendfile 只有兩次數(shù)據(jù)復制（都是 DMA COPY）及 2 次上下文切換。CUP COPY 已經(jīng)完全沒有。不過這一種收集復制功能是需要硬件及驅動程序支持的。

splice 方式

splice 調用和sendfile 非常相似，用戶應用程序必須擁有兩個已經(jīng)打開的文件描述符，一個表示輸入設備，一個表示輸出設備。與sendfile不同的是，splice允許任意兩個文件互相連接，而并不只是文件與socket進行數(shù)據(jù)傳輸。對于從一個文件描述符發(fā)送數(shù)據(jù)到socket這種特例來說，一直都是使用sendfile系統(tǒng)調用，而splice一直以來就只是一種機制，它并不僅限于sendfile的功能。也就是說 sendfile 是 splice 的一個子集。

在 Linux 2.6.17 版本引入了 splice，而在 Linux 2.6.23 版本中， sendfile 機制的實現(xiàn)已經(jīng)沒有了，但是其 API 及相應的功能還在，只不過 API 及相應的功能是利用了 splice 機制來實現(xiàn)的。

和 sendfile 不同的是，splice 不需要硬件支持。