Linux多隊列網(wǎng)卡的硬件的實現(xiàn)詳解

發(fā)布時間：2017-03-15 11:28:27 作者：佚名

多隊列網(wǎng)卡是一種技術(shù)，很多的朋友對多隊列網(wǎng)卡不了解！今天小編為大家分享的是Linux多隊列網(wǎng)卡的硬件的實現(xiàn)詳解；感興趣的朋友一起去看看吧

多隊列網(wǎng)卡是一種技術(shù)，最初是用來解決網(wǎng)絡(luò)IO QoS （quality of service）問題的，后來隨著網(wǎng)絡(luò)IO的帶寬的不斷提升，單核CPU不能完全處滿足網(wǎng)卡的需求，通過多隊列網(wǎng)卡驅(qū)動的支持，將各個隊列通過中斷綁定到不同的核上，以滿足網(wǎng)卡的需求。

常見的有Intel的82575、82576，Boardcom的57711等，下面以公司的服務(wù)器使用較多的Intel 82575網(wǎng)卡為例，分析一下多隊列網(wǎng)卡的硬件的實現(xiàn)以及l(fā)inux內(nèi)核軟件的支持。

1.多隊列網(wǎng)卡硬件實現(xiàn)

圖1.1是Intel 82575硬件邏輯圖，有四個硬件隊列。當(dāng)收到報文時，通過hash包頭的SIP、Sport、DIP、Dport四元組，將一條流總是收到相同的隊列。同時觸發(fā)與該隊列綁定的中斷。

圖1.1 82575硬件邏輯圖

2. 2.6.21以前網(wǎng)卡驅(qū)動實現(xiàn)

kernel從2.6.21之前不支持多隊列特性，一個網(wǎng)卡只能申請一個中斷號，因此同一個時刻只有一個核在處理網(wǎng)卡收到的包。如圖2.1，協(xié)議棧通過NAPI輪詢收取各個硬件queue中的報文到圖2.2的net_device數(shù)據(jù)結(jié)構(gòu)中，通過QDisc隊列將報文發(fā)送到網(wǎng)卡。

圖2.1 2.6.21之前內(nèi)核協(xié)議棧

圖2.2 2.6.21之前net_device

3. 2.6.21后網(wǎng)卡驅(qū)動實現(xiàn)

2.6.21開始支持多隊列特性，當(dāng)網(wǎng)卡驅(qū)動加載時，通過獲取的網(wǎng)卡型號，得到網(wǎng)卡的硬件queue的數(shù)量，并結(jié)合CPU核的數(shù)量，最終通過Sum=Min（網(wǎng)卡queue，CPU core）得出所要激活的網(wǎng)卡queue數(shù)量（Sum），并申請Sum個中斷號，分配給激活的各個queue。

如圖3.1，當(dāng)某個queue收到報文時，觸發(fā)相應(yīng)的中斷，收到中斷的核，將該任務(wù)加入到協(xié)議棧負(fù)責(zé)收包的該核的NET_RX_SOFTIRQ隊列中（NET_RX_SOFTIRQ在每個核上都有一個實例），在NET_RX_SOFTIRQ中，調(diào)用NAPI的收包接口，將報文收到CPU中如圖3.2的有多個netdev_queue的net_device數(shù)據(jù)結(jié)構(gòu)中。

這樣，CPU的各個核可以并發(fā)的收包，就不會應(yīng)為一個核不能滿足需求，導(dǎo)致網(wǎng)絡(luò)IO性能下降。

圖3.1 2.6.21之后內(nèi)核協(xié)議棧

圖3.2 2.6.21之后net_device

4.中斷綁定

當(dāng)CPU可以平行收包時，就會出現(xiàn)不同的核收取了同一個queue的報文，這就會產(chǎn)生報文亂序的問題，解決方法是將一個queue的中斷綁定到唯一的一個核上去，從而避免了亂序問題。同時如果網(wǎng)絡(luò)流量大的時候，可以將軟中斷均勻的分散到各個核上，避免CPU成為瓶頸。

圖4.1 /proc/interrupts

5.中斷親合糾正

一些多隊列網(wǎng)卡驅(qū)動實現(xiàn)的不是太好，在初始化后會出現(xiàn)圖4.1中同一個隊列的tx、rx中斷綁定到不同核上的問題，這樣數(shù)據(jù)在core0與core1之間流動，導(dǎo)致核間數(shù)據(jù)交互加大，cache命中率降低，降低了效率。

圖5.1 不合理中斷綁定

linux network子系統(tǒng)的負(fù)責(zé)人David Miller提供了一個腳本，首先檢索/proc/interrupts文件中的信息，按照圖4.1中eth0-rx-0（$VEC）中的VEC得出中斷MASK，并將MASK

寫入中斷號53對應(yīng)的smp_affinity中。由于eth-rx-0與eth-tx-0的VEC相同，實現(xiàn)同一個queue的tx與rx中斷綁定到一個核上，如圖4.3所示。

圖4.2 set_irq_affinity

圖4.3 合理的中斷綁定

set_irq_affinity腳本位于http://mirror.oa.com/tlinux/tools/set_irq_affinity.sh。

6.多隊列網(wǎng)卡識別

#lspci -vvv

Ethernet controller的條目內(nèi)容，如果有MSI-X && Enable+ && TabSize > 1，則該網(wǎng)卡是多隊列網(wǎng)卡，如圖4.4所示。

圖4.4 lspci內(nèi)容

Message Signaled Interrupts(MSI)是PCI規(guī)范的一個實現(xiàn)，可以突破CPU 256條interrupt的限制，使每個設(shè)備具有多個中斷線變成可能，多隊列網(wǎng)卡驅(qū)動給每個queue申請了MSI。MSI-X是MSI數(shù)組，Enable+指使能，TabSize是數(shù)組大小。

# setting up irq affinity according to /proc/interrupts

# 2008-11-25 Robert Olsson

# 2009-02-19 updated by Jesse Brandeburg

#

# > Dave Miller:

# (To get consistent naming in /proc/interrups)

# I would suggest that people use something like:

# char buf[IFNAMSIZ+6];

#

# sprintf(buf, "%s-%s-%d",

# netdev->name,

# (RX_INTERRUPT ? "rx" : "tx"),

# queue->index);

#

# Assuming a device with two RX and TX queues.

# This script will assign:

#

# eth0-rx-0 CPU0

# eth0-rx-1 CPU1

# eth0-tx-0 CPU0

# eth0-tx-1 CPU1

#

set_affinity()

{

MASK=$((1<<$VEC))

printf "%s mask=%X for /proc/irq/%d/smp_affinity\n" $DEV $MASK $IRQ

printf "%X" $MASK > /proc/irq/$IRQ/smp_affinity

#echo $DEV mask=$MASK for /proc/irq/$IRQ/smp_affinity

#echo $MASK > /proc/irq/$IRQ/smp_affinity

}

if [ "$1" = "" ] ; then

echo "Description:"

echo " This script attempts to bind each queue of a multi-queue NIC"

echo " to the same numbered core, ie tx0|rx0 --> cpu0, tx1|rx1 --> cpu1"

echo "usage:"

echo " $0 eth0 [eth1 eth2 eth3]"

fi

# check for irqbalance running

IRQBALANCE_ON=`ps ax | grep -v grep | grep -q irqbalance; echo $?`

if [ "$IRQBALANCE_ON" == "0" ] ; then

echo " WARNING: irqbalance is running and will"

echo " likely override this script's affinitization."

echo " Please stop the irqbalance service and/or execute"

echo " 'killall irqbalance'"

fi

#

# Set up the desired devices.

#

for DEV in $*

do

for DIR in rx tx TxRx

do

MAX=`grep $DEV-$DIR /proc/interrupts | wc -l`

if [ "$MAX" == "0" ] ; then

MAX=`egrep -i "$DEV:.*$DIR" /proc/interrupts | wc -l`

fi

if [ "$MAX" == "0" ] ; then

echo no $DIR vectors found on $DEV

continue

#exit 1

fi

for VEC in `seq 0 1 $MAX`

do

IRQ=`cat /proc/interrupts | grep -i $DEV-$DIR-$VEC"$" | cut -d: -f1 | sed "s/ //g"`

if [ -n "$IRQ" ]; then

set_affinity

else

IRQ=`cat /proc/interrupts | egrep -i $DEV:v$VEC-$DIR"$" | cut -d: -f1 | sed "s/ //g"`

if [ -n "$IRQ" ]; then

set_affinity

fi

done

Tag：Linux 多隊列網(wǎng)卡

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Linux多隊列網(wǎng)卡的硬件的實現(xiàn)詳解

相關(guān)文章

最新評論

文章分類

大家感興趣的內(nèi)容

最近更新的內(nèi)容