快捷導(dǎo)航

awk基礎(chǔ)知識(shí)小結(jié)第1/2頁(yè)

更新時(shí)間：2013年02月23日 13:28:58 作者：

awk基礎(chǔ)知識(shí)小結(jié)，方便學(xué)習(xí)awk的朋友

1、使用規(guī)則

awk 適合于文本處理和報(bào)表生成，它還有許多精心設(shè)計(jì)的特性，允許進(jìn)行需要特殊技巧程序設(shè)計(jì)。
awk 的語(yǔ)法較為常見。它借鑒了某些語(yǔ)言的一些精華部分，如C 語(yǔ)言、python 和 bash。

第一個(gè) awk
讓我們繼續(xù)，開始使用 awk，以了解其工作原理。在命令行中輸入以下命令：
$ awk '{ print }' /etc/passwd
您將會(huì)見到 /etc/passwd 文件的內(nèi)容出現(xiàn)在眼前。現(xiàn)在，解釋 awk 做了些什么。調(diào)用 awk 時(shí)，我們指定 /etc/passwd 作為輸入文件。執(zhí)行 awk 時(shí)，它依次對(duì) /etc/passwd 中的每一行執(zhí)行 print 命令。所有輸出都發(fā)送到 stdout，所得到的結(jié)果與與執(zhí)行catting /etc/passwd完全相同。

現(xiàn)在，解釋 { print } 代碼塊。在 awk 中，花括號(hào)用于將幾塊代碼組合到一起，這一點(diǎn)類似于 C 語(yǔ)言。在代碼塊中只有一條 print 命令。在 awk 中，如果只出現(xiàn) print 命令，那么將打印當(dāng)前行的全部?jī)?nèi)容。

這里是另一個(gè)awk 示例，作用與上例完全相同：
$ awk '{ print $0 }' /etc/passwd

在 awk 中，$0 變量表示整個(gè)當(dāng)前行，所以 print 和 print $0 的作用完全一樣。

創(chuàng)建一個(gè) awk 程序，讓它輸出與輸入數(shù)據(jù)完全無(wú)關(guān)的數(shù)據(jù)。
示例1：
$ awk '{ print "" }' /etc/passwd
只要將 "" 字符串傳遞給 print 命令，它就會(huì)打印空白行。測(cè)試該腳本，將會(huì)發(fā)現(xiàn)對(duì)于/etc/passwd文件中的每一行，awk 都輸出一個(gè)空白行。由此可知，awk對(duì)輸入文件中的每一行都執(zhí)行這個(gè)腳本。

示例2：
$ awk '{ print "hiya" }' /etc/passwd
運(yùn)行此腳本將在您的屏幕上寫滿 hiya。

2、處理多個(gè)字段
awk 非常善于處理分成多個(gè)邏輯字段的文本，還可以引用 awk 腳本中每個(gè)獨(dú)立的字段。
打印系統(tǒng)上所有用戶帳戶的列表：
$ awk -F":" '{ print $1 }' /etc/passwd
上例中，調(diào)用awk時(shí)，使用 -F 選項(xiàng)來(lái)指定 ":" 作為字段分隔符。awk 處理 print $1 命令時(shí)，它會(huì)打印出在輸入文件中每一行中出現(xiàn)的第一個(gè)字段。
以下是另一示例：
$ awk -F":" '{ print $1 $3 }' /etc/passwd

以下是該腳本輸出的摘錄：
halt7
operator11
root0
shutdown6
sync5
bin1
....etc.

如您所見，awk 打印出 /etc/passwd 文件的第一和第三個(gè)字段，它們正好分別是用戶名和用戶標(biāo)識(shí)字段?，F(xiàn)在，當(dāng)腳本運(yùn)行時(shí)，它并不理想--在兩個(gè)輸出字段之間沒(méi)有空格！如果習(xí)慣于使用 bash 或 python 進(jìn)行編程，那么您會(huì)指望 print $1 $3 命令在兩個(gè)字段之間插入空格。然而，當(dāng)兩個(gè)字符串在 awk 程序中彼此相鄰時(shí)，awk 會(huì)連接它們但不在它們之間添加空格。以下命令會(huì)在這兩個(gè)字段中插入空格：
$ awk -F":" '{ print $1 " " $3 }' /etc/passwd

以這種方式調(diào)用 print 時(shí)，它將連接 $1、" " 和 $3，創(chuàng)建可讀的輸出。
還可以插入一些文本標(biāo)簽：
$ awk -F":" '{ print "username: " $1 "ttuid:" $3" }' /etc/passwd

這將產(chǎn)生以下輸出：
username: halt          uid:7
username: operator      uid:11
username: root          uid:0
username: shutdown      uid:6
username: sync          uid:5
username: bin           uid:1
....etc.

3、調(diào)用外部腳本
將腳本作為命令行自變量傳遞給awk對(duì)于小的單行程序來(lái)說(shuō)很簡(jiǎn)單。
而對(duì)于多行程序，則可以在外部文件中撰寫腳本，然后向awk傳遞-f選項(xiàng)，以向它提供外部腳本文件的調(diào)用：
$ awk -f myscript.awk myfile.in

將腳本放入文本文件還可以使用附加awk功能。例如：
BEGIN {
FS=":"
}
{ print $1 }
打印出 /etc/passwd 中每一行的第一個(gè)字段

在這個(gè)腳本中，字段分隔符在代碼自身中指定（通過(guò)設(shè)置 FS 變量）。
在腳本自身中設(shè)置字段分隔符，可以少輸入一個(gè)命令行自變量。

4、begin和end塊

BEGIN 和 END 塊
通常，對(duì)于每個(gè)輸入行，awk 都會(huì)執(zhí)行每個(gè)腳本代碼塊一次。然而，可能需要在 awk 開始處理輸入文件中的文本之前執(zhí)行初始化代碼。對(duì)于這種情況，awk 允許您定義一個(gè) BEGIN 塊。我們?cè)谇耙粋€(gè)示例中使用了 BEGIN 塊。因?yàn)?awk 在開始處理輸入文件之前會(huì)執(zhí)行 BEGIN 塊，因此它是初始化 FS（字段分隔符）變量、打印頁(yè)眉或初始化其它在程序中以后會(huì)引用的全局變量的極佳位置。

awk 還提供了另一個(gè)特殊塊，叫作 END 塊。awk 在處理了輸入文件中的所有行之后執(zhí)行這個(gè)塊。通常，END 塊用于執(zhí)行最終計(jì)算或打印應(yīng)該出現(xiàn)在輸出流結(jié)尾的摘要信息。

5、正則表達(dá)式
awk 允許使用正則表達(dá)式，根據(jù)正則表達(dá)式是否匹配當(dāng)前行來(lái)選擇執(zhí)行獨(dú)立代碼塊。
輸出包含字符序列foo的行：
/foo/ { print }

復(fù)雜點(diǎn)的，只打印包含浮點(diǎn)數(shù)的行：
/[0-9]+.[0-9]*/ { print }

可以將任意一種布爾表達(dá)式放在一個(gè)代碼塊之前，以控制何時(shí)執(zhí)行某特定塊。僅當(dāng)對(duì)前面的布爾表達(dá)式求值為真時(shí)，awk 才執(zhí)行代碼塊。以下示例腳本輸出將輸出其第一個(gè)字段等于 fred 的所有行中的第三個(gè)字段。如果當(dāng)前行的第一個(gè)字段不等于 fred，awk 將繼續(xù)處理文件而不對(duì)當(dāng)前行執(zhí)行 print 語(yǔ)句：
$1 == "fred" { print $3 }

awk 提供了完整的比較運(yùn)算符集合，包括 "=="、"<"、">"、"<="、">=" 和 "!="。另外，awk 還提供了 "~" 和 "!~" 運(yùn)算符，它們分別表示“匹配”和“不匹配”。
它們的用法是在運(yùn)算符左邊指定變量，在右邊指定正則表達(dá)式。如果某一行的第五個(gè)字段包含字符序列 root，以下示例只打印這一行中的第三個(gè)字段：
$5 ~ /root/ { print $3 }

6、條件語(yǔ)句
awk 還提供了非常好的類似于 C 語(yǔ)言的 if 語(yǔ)句。if 語(yǔ)句示例：
{
    if ( $5 ~ /root/ ) {
       print $3
    }
}
對(duì)每一個(gè)輸入行執(zhí)行代碼塊，使用 if 語(yǔ)句來(lái)選擇執(zhí)行 print 命令。
更復(fù)雜的 awk if 語(yǔ)句示例。
{
    if ( $1 == "foo" ) {
       if ( $2 == "foo" ) {
            print "uno"
        } else {
          print "one"
        }
          } else if ($1 == "bar" ) {
                    print "two"
                 } else {
                    print "three"
                 }
}

使用 if 語(yǔ)句還可以將代碼：
! /matchme/ { print $1 $3 $4 }
轉(zhuǎn)換成：
{
     if ( $0 !~ /matchme/ ) {
         print $1 $3 $4
     }
}
這兩個(gè)腳本都只輸出不包含 matchme 字符序列的那些行。

awk 還允許使用布爾運(yùn)算符 "||"（邏輯與）和 "&&"（邏輯或），以便創(chuàng)建更復(fù)雜的布爾表達(dá)式：
( $1 == "foo" ) && ( $2 == "bar" ) { print }
這個(gè)示例只打印第一個(gè)字段等于 foo 且第二個(gè)字段等于 bar 的行。

7、變量
awk的變量，數(shù)值變量與字符串變量。

數(shù)值變量
至今，我們不是打印字符串、整行就是特定字段。然而，awk還可以執(zhí)行整數(shù)和浮點(diǎn)運(yùn)算。使用數(shù)學(xué)表達(dá)式，可以很方便地編寫計(jì)算文件中空白行數(shù)量的腳本。
BEGIN   { x=0 }
/^$/    { x=x+1 }
END     { print "I found " x " blank lines. :}" }
在 BEGIN 塊中，將整數(shù)變量 x 初始化成零。然后，awk 每次遇到空白行時(shí)，awk 將執(zhí)行 x=x+1 語(yǔ)句，遞增 x。
處理完所有行之后，執(zhí)行 END 塊，awk 將打印出最終摘要，指出它找到的空白行數(shù)量。

字符串化變量
awk 的優(yōu)點(diǎn)之一就是“簡(jiǎn)單和字符串化”。我認(rèn)為 awk 變量“字符串化”是因?yàn)樗?awk 變量在內(nèi)部都是按字符串形式存儲(chǔ)的。同時(shí)，awk 變量是“簡(jiǎn)單的”，因?yàn)榭梢詫?duì)它執(zhí)行數(shù)學(xué)操作，且只要變量包含有效數(shù)字字符串，awk 會(huì)自動(dòng)處理字符串到數(shù)字的轉(zhuǎn)換步驟。要理解我的觀點(diǎn)，請(qǐng)研究以下示例：
x="1.01"
# We just set x to contain the *string* "1.01"
x=x+1
# We just added one to a *string*
print x
# Incidentally, these are comments :)
awk 將輸出：
2.01

雖然將字符串值 1.01 賦值給變量 x，仍然可以對(duì)它加一。但在 bash 和 python 中卻不能這樣做。
首先，bash 不支持浮點(diǎn)運(yùn)算。而且，如果 bash 有“字符串化”變量，它們并不“簡(jiǎn)單”；要執(zhí)行任何數(shù)學(xué)操作，bash 要求我們將數(shù)字放到丑陋的 $( ) ) 結(jié)構(gòu)中。
如果使用 python，則必須在對(duì) 1.01 字符串執(zhí)行任何數(shù)學(xué)運(yùn)算之前，將它轉(zhuǎn)換成浮點(diǎn)值。雖然這并不困難，但它仍是附加的步驟。
如果使用 awk，它是全自動(dòng)的，而那會(huì)使我們的代碼又好又整潔。如果想要對(duì)每個(gè)輸入行的第一個(gè)字段乘方并加一，可以使用以下腳本：
{ print ($1^2)+1 }

如果做一個(gè)小實(shí)驗(yàn)，就可以發(fā)現(xiàn)如果某個(gè)特定變量不包含有效數(shù)字，awk 在對(duì)數(shù)學(xué)表達(dá)式求值時(shí)會(huì)將該變量當(dāng)作數(shù)字零處理。

8、運(yùn)算符
awk 有完整的數(shù)學(xué)運(yùn)算符集合。除了標(biāo)準(zhǔn)的加、減、乘、除，awk 還允許使用前面演示過(guò)的指數(shù)運(yùn)算符 "^"、模（余數(shù)）運(yùn)算符 "%" 和其它許多從 C 語(yǔ)言中借入的易于使用的賦值操作符。

這些運(yùn)算符包括前后加減（i++、--foo）、加／減／乘／除賦值運(yùn)算符（ a+=3、b*=2、c/=2.2、d-=6.2）。不僅如此 -- 我們還有易于使用的模／指數(shù)賦值運(yùn)算符（a^=2、b%=4）。

字段分隔符
awk 有它自己的特殊變量集合。其中一些允許調(diào)整 awk 的運(yùn)行方式，而其它變量可以被讀取以收集關(guān)于輸入的有用信息。我們已經(jīng)接觸過(guò)這些特殊變量中的一個(gè)，F(xiàn)S。前面已經(jīng)提到過(guò)，這個(gè)變量讓您可以設(shè)置 awk 要查找的字段之間的字符序列。我們使用 /etc/passwd 作為輸入時(shí)，將 FS 設(shè)置成 ":"。當(dāng)這樣做有問(wèn)題時(shí)，我們還可以更靈活地使用 FS。

FS 值并沒(méi)有被限制為單一字符；可以通過(guò)指定任意長(zhǎng)度的字符模式，將它設(shè)置成規(guī)則表達(dá)式。如果正在處理由一個(gè)或多個(gè) tab 分隔的字段，您可能希望按以下方式設(shè)置 FS：
FS="t+"

以上示例中，我們使用特殊 "+" 規(guī)則表達(dá)式字符，它表示“一個(gè)或多個(gè)前一字符”。

如果字段由空格分隔（一個(gè)或多個(gè)空格或 tab），您可能想要將 FS 設(shè)置成以下規(guī)則表達(dá)式：
FS="[[:space:]+]"

這個(gè)賦值表達(dá)式也有問(wèn)題，它并非必要。為什么？因?yàn)槿笔∏闆r下，F(xiàn)S 設(shè)置成單一空格字符，awk 將這解釋成表示“一個(gè)或多個(gè)空格或 tab”。在這個(gè)特殊示例中，缺省 FS 設(shè)置恰恰是您最想要的！

復(fù)雜的規(guī)則表達(dá)式也不成問(wèn)題。即使您的記錄由單詞 "foo" 分隔，后面跟著三個(gè)數(shù)字，以下規(guī)則表達(dá)式仍允許對(duì)數(shù)據(jù)進(jìn)行正確的分析：

FS="foo[0-9][0-9][0-9]"

字段數(shù)量
接著我們要討論的兩個(gè)變量通常并不是需要賦值的，而是用來(lái)讀取以獲取關(guān)于輸入的有用信息。第一個(gè)是 NF 變量，也叫做“字段數(shù)量”變量。awk 會(huì)自動(dòng)將該變量設(shè)置成當(dāng)前記錄中的字段數(shù)量?？梢允褂?NF 變量來(lái)只顯示某些輸入行：
NF == 3 { print "this particular record has three fields: " $0 }
當(dāng)然，也可以在條件語(yǔ)句中使用 NF 變量，如下：
{
    if ( NF > 2 ) {
       print $1 " " $2 ":" $3
    }
}

9、處理記錄
記錄號(hào)
記錄號(hào) (NR) 是另一個(gè)方便的變量。它始終包含當(dāng)前記錄的編號(hào)（awk 將第一個(gè)記錄算作記錄號(hào) 1）。迄今為止，我們已經(jīng)處理了每一行包含一個(gè)記錄的輸入文件。對(duì)于這些情況，NR 還會(huì)告訴您當(dāng)前行號(hào)。然而，當(dāng)我們?cè)诒鞠盗幸院蟛糠种虚_始處理多行記錄時(shí)，就不會(huì)再有這種情況，所以要注意！可以象使用 NF 變量一樣使用 NR 來(lái)只打印某些輸入行：
(NR < 10 ) || (NR > 100) { print "We are on record number 1-9 or 101+" }
另一個(gè)示例：
{
   #skip header
   if (NR>10) {
       print "ok, now for the real information!"
   }

}

awk 提供了適合各種用途的附加變量。我們將在以后的文章中討論這些變量。

多行記錄
awk 是一種用于讀取和處理結(jié)構(gòu)化數(shù)據(jù)（如系統(tǒng)的 /etc/passwd 文件）的極佳工具。/etc/passwd 是 UNIX 用戶數(shù)據(jù)庫(kù)，并且是用冒號(hào)定界的文本文件，它包含許多重要信息，包括所有現(xiàn)有用戶帳戶和用戶標(biāo)識(shí)，以及其它信息。在我的前一篇文章中，我演示了 awk 如何輕松地分析這個(gè)文件。我們只須將 FS（字段分隔符）變量設(shè)置成 ":"。

正確設(shè)置了 FS 變量之后，就可以將 awk 配置成分析幾乎任何類型的結(jié)構(gòu)化數(shù)據(jù)，只要這些數(shù)據(jù)是每行一個(gè)記錄。然而，如果要分析占據(jù)多行的記錄，僅僅依靠設(shè)置 FS 是不夠的。在這些情況下，我們還需要修改 RS 記錄分隔符變量。RS 變量告訴 awk 當(dāng)前記錄什么時(shí)候結(jié)束，新記錄什么時(shí)候開始。

譬如，讓我們討論一下如何完成處理“聯(lián)邦證人保護(hù)計(jì)劃”所涉及人員的地址列表的任務(wù)：
Jimmy the Weasel
100 Pleasant Drive
San Francisco, CA 12345
Big Tony
200 Incognito Ave.
Suburbia, WA 67890

理論上，我們希望 awk 將每 3 行看作是一個(gè)獨(dú)立的記錄，而不是三個(gè)獨(dú)立的記錄。如果 awk 將地址的第一行看作是第一個(gè)字段 ($1)，街道地址看作是第二個(gè)字段 ($2)，城市、州和郵政編碼看作是第三個(gè)字段 $3，那么這個(gè)代碼就會(huì)變得很簡(jiǎn)單。代碼如下：
BEGIN {
FS="n"
RS=""
}

在上面這段代碼中，將 FS 設(shè)置成 "n" 告訴 awk 每個(gè)字段都占據(jù)一行。通過(guò)將 RS 設(shè)置成 ""，還會(huì)告訴 awk 每個(gè)地址記錄都由空白行分隔。一旦 awk 知道是如何格式化輸入的，它就可以為我們執(zhí)行所有分析工作，腳本的其余部分很簡(jiǎn)單。讓我們研究一個(gè)完整的腳本，它將分析這個(gè)地址列表，并將每個(gè)記錄打印在一行上，用逗號(hào)分隔每個(gè)字段。
address.awk BEGIN {
FS="n"
RS=""
}
{
print $1 ", " $2 ", " $3
}

將腳本保存為 address.awk，地址數(shù)據(jù)存儲(chǔ)在文件 address.txt 中，可以通過(guò)輸入 "awk -f address.awk address.txt" 執(zhí)行此腳本。輸出如下：
Jimmy the Weasel, 100 Pleasant Drive, San Francisco, CA 12345
Big Tony, 200 Incognito Ave., Suburbia, WA 67890

OFS 和 ORS
在 address.awk 的 print 語(yǔ)句中，可以看到 awk 會(huì)連接（合并）一行中彼此相鄰的字符串。我們使用此功能在同一行上的三個(gè)字段之間插入一個(gè)逗號(hào)和空格 (", ")。這個(gè)方法雖然有用，但比較難看。與其在字段間插入 ", " 字符串，倒不如讓通過(guò)設(shè)置一個(gè)特殊 awk 變量 OFS，讓 awk 完成這件事。
print "Hello", "there", "Jim!"

這行代碼中的逗號(hào)并不是實(shí)際文字字符串的一部分。事實(shí)上，它們告訴 awk "Hello"、"there" 和 "Jim!" 是單獨(dú)的字段，并且應(yīng)該在每個(gè)字符串之間打印 OFS 變量。
缺省情況下，awk 產(chǎn)生以下輸出：
Hello there Jim!

這是缺省情況下的輸出結(jié)果，OFS 被設(shè)置成 " "，單個(gè)空格。不過(guò)，我們可以方便地重新定義 OFS，這樣 awk 將插入我們中意的字段分隔符。以下是原始 address.awk 程序的修訂版，它使用 OFS 來(lái)輸出那些中間的 ", " 字符串：

address.awk 的修訂版
BEGIN {
     FS="n"
     RS=""
    OFS=", "
}
{
    print $1, $2, $3
}
awk 還有一個(gè)特殊變量 ORS，全稱是“輸出記錄分隔符”。通過(guò)設(shè)置缺省為換行 ("n") 的 OFS，我們可以控制在 print 語(yǔ)句結(jié)尾自動(dòng)打印的字符。缺省 ORS 值會(huì)使 awk 在新行中輸出每個(gè)新的 print 語(yǔ)句。如果想使輸出的間隔翻倍，可以將 ORS 設(shè)置成 "nn"。或者，如果想要用單個(gè)空格分隔記錄（而不換行），將 ORS 設(shè)置成 " "。

將多行轉(zhuǎn)換成用 tab 分隔的格式
假設(shè)我們編寫了一個(gè)腳本，它將地址列表轉(zhuǎn)換成每個(gè)記錄一行，且用 tab 定界的格式，以便導(dǎo)入電子表格。使用稍加修改的 address.awk 之后，就可以清楚地看到這個(gè)程序只適合于三行的地址。如果 awk 遇到以下地址，將丟掉第四行，并且不打印該行：
Cousin Vinnie
Vinnie's Auto Shop
300 City Alley
Sosueme, OR 76543

要處理這種情況，代碼最好考慮每個(gè)字段的記錄數(shù)量，并依次打印每個(gè)記錄?，F(xiàn)在，代碼只打印地址的前三個(gè)字段。以下就是我們想要的一些代碼：

適合具有任意多字段的地址的 address.awk 版本
BEGIN {
FS="n"
RS=""
ORS=""
}
{
x=1
while ( x<NF ) {
print $x "t"
x++
}
print $NF "n"
}

首先，將字段分隔符 FS 設(shè)置成 "n"，將記錄分隔符 RS 設(shè)置成 ""，這樣 awk 可以象以前一樣正確分析多行地址。然后，將輸出記錄分隔符 ORS 設(shè)置成 ""，它將使 print 語(yǔ)句在每個(gè)調(diào)用結(jié)尾不輸出新行。這意味著如果希望任何文本從新的一行開始，那么需要明確寫入 print "n"。

在主代碼塊中，創(chuàng)建了一個(gè)變量 x 來(lái)存儲(chǔ)正在處理的當(dāng)前字段的編號(hào)。起初，它被設(shè)置成 1。然后，我們使用 while 循環(huán)（一種 awk 循環(huán)結(jié)構(gòu)，等同于 C 語(yǔ)言中的 while 循環(huán)），對(duì)于所有記錄（最后一個(gè)記錄除外）重復(fù)打印記錄和 tab 字符。最后，打印最后一個(gè)記錄和換行；此外，由于將 ORS 設(shè)置成 ""，print 將不輸出換行。程序輸出如下，這正是我們所期望的（不算漂亮，但用 tab 定界，以便于導(dǎo)入電子表格）：
Jimmy the Weasel        100 Pleasant Drive      San Francisco, CA 12345
Big Tony        200 Incognito Ave.      Suburbia, WA 67890
Cousin Vinnie   Vinnie's Auto Shop      300 City Alley Sosueme, OR 76543

12 下一頁(yè)閱讀全文