欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

awk基礎(chǔ)知識小結(jié)第1/2頁

 更新時間:2013年02月23日 13:28:58   作者:  
awk基礎(chǔ)知識小結(jié),方便學(xué)習(xí)awk的朋友

1、使用規(guī)則

awk 適合于文本處理和報表生成,它還有許多精心設(shè)計的特性,允許進行需要特殊技巧程序設(shè)計。
awk 的語法較為常見。它借鑒了某些語言的一些精華部分,如C 語言、python 和 bash。

第一個 awk
讓我們繼續(xù),開始使用 awk,以了解其工作原理。在命令行中輸入以下命令:
$ awk '{ print }' /etc/passwd
您將會見到 /etc/passwd 文件的內(nèi)容出現(xiàn)在眼前?,F(xiàn)在,解釋 awk 做了些什么。調(diào)用 awk 時,我們指定 /etc/passwd 作為輸入文件。執(zhí)行 awk 時,它依次對 /etc/passwd 中的每一行執(zhí)行 print 命令。所有輸出都發(fā)送到 stdout,所得到的結(jié)果與與執(zhí)行catting /etc/passwd完全相同。

現(xiàn)在,解釋 { print } 代碼塊。在 awk 中,花括號用于將幾塊代碼組合到一起,這一點類似于 C 語言。在代碼塊中只有一條 print 命令。在 awk 中,如果只出現(xiàn) print 命令,那么將打印當(dāng)前行的全部內(nèi)容。

這里是另一個awk 示例,作用與上例完全相同:
$ awk '{ print $0 }' /etc/passwd

在 awk 中,$0 變量表示整個當(dāng)前行,所以 print 和 print $0 的作用完全一樣。

創(chuàng)建一個 awk 程序,讓它輸出與輸入數(shù)據(jù)完全無關(guān)的數(shù)據(jù)。
示例1:
$ awk '{ print "" }' /etc/passwd
只要將 "" 字符串傳遞給 print 命令,它就會打印空白行。測試該腳本,將會發(fā)現(xiàn)對于/etc/passwd文件中的每一行,awk 都輸出一個空白行。由此可知,awk對輸入文件中的每一行都執(zhí)行這個腳本。

示例2:
$ awk '{ print "hiya" }' /etc/passwd
運行此腳本將在您的屏幕上寫滿 hiya。

2、處理多個字段
awk 非常善于處理分成多個邏輯字段的文本,還可以引用 awk 腳本中每個獨立的字段。
打印系統(tǒng)上所有用戶帳戶的列表:
$ awk -F":" '{ print $1 }' /etc/passwd
上例中,調(diào)用awk時,使用 -F 選項來指定 ":" 作為字段分隔符。awk 處理 print $1 命令時,它會打印出在輸入文件中每一行中出現(xiàn)的第一個字段。
以下是另一示例:
$ awk -F":" '{ print $1 $3 }' /etc/passwd

以下是該腳本輸出的摘錄:
halt7
operator11
root0
shutdown6
sync5
bin1
....etc.

如您所見,awk 打印出 /etc/passwd 文件的第一和第三個字段,它們正好分別是用戶名和用戶標(biāo)識字段。現(xiàn)在,當(dāng)腳本運行時,它并不理想--在兩個輸出字段之間沒有空格!如果習(xí)慣于使用 bash 或 python 進行編程,那么您會指望 print $1 $3 命令在兩個字段之間插入空格。然而,當(dāng)兩個字符串在 awk 程序中彼此相鄰時,awk 會連接它們但不在它們之間添加空格。以下命令會在這兩個字段中插入空格:
$ awk -F":" '{ print $1 " " $3 }' /etc/passwd

以這種方式調(diào)用 print 時,它將連接 $1、" " 和 $3,創(chuàng)建可讀的輸出。
還可以插入一些文本標(biāo)簽:
$ awk -F":" '{ print "username: " $1 "ttuid:" $3" }' /etc/passwd

這將產(chǎn)生以下輸出:
username: halt          uid:7
username: operator      uid:11
username: root          uid:0
username: shutdown      uid:6
username: sync          uid:5
username: bin           uid:1
....etc.

3、調(diào)用外部腳本
將腳本作為命令行自變量傳遞給awk對于小的單行程序來說很簡單。
而對于多行程序,則可以在外部文件中撰寫腳本,然后向awk傳遞-f選項,以向它提供外部腳本文件的調(diào)用:
$ awk -f myscript.awk myfile.in

將腳本放入文本文件還可以使用附加awk功能。例如:
BEGIN {
      FS=":"
}
{ print $1 }
打印出 /etc/passwd 中每一行的第一個字段

在這個腳本中,字段分隔符在代碼自身中指定(通過設(shè)置 FS 變量)。
在腳本自身中設(shè)置字段分隔符,可以少輸入一個命令行自變量。

4、begin和end塊

BEGIN 和 END 塊
通常,對于每個輸入行,awk 都會執(zhí)行每個腳本代碼塊一次。然而,可能需要在 awk 開始處理輸入文件中的文本之前執(zhí)行初始化代碼。對于這種情況,awk 允許您定義一個 BEGIN 塊。我們在前一個示例中使用了 BEGIN 塊。因為 awk 在開始處理輸入文件之前會執(zhí)行 BEGIN 塊,因此它是初始化 FS(字段分隔符)變量、打印頁眉或初始化其它在程序中以后會引用的全局變量的極佳位置。

awk 還提供了另一個特殊塊,叫作 END 塊。awk 在處理了輸入文件中的所有行之后執(zhí)行這個塊。通常,END 塊用于執(zhí)行最終計算或打印應(yīng)該出現(xiàn)在輸出流結(jié)尾的摘要信息。

5、正則表達式
awk 允許使用正則表達式,根據(jù)正則表達式是否匹配當(dāng)前行來選擇執(zhí)行獨立代碼塊。
輸出包含字符序列foo的行:
/foo/ { print }

復(fù)雜點的,只打印包含浮點數(shù)的行:
/[0-9]+.[0-9]*/ { print }

可以將任意一種布爾表達式放在一個代碼塊之前,以控制何時執(zhí)行某特定塊。僅當(dāng)對前面的布爾表達式求值為真時,awk 才執(zhí)行代碼塊。以下示例腳本輸出將輸出其第一個字段等于 fred 的所有行中的第三個字段。如果當(dāng)前行的第一個字段不等于 fred,awk 將繼續(xù)處理文件而不對當(dāng)前行執(zhí)行 print 語句:
$1 == "fred" { print $3 }

awk 提供了完整的比較運算符集合,包括 "=="、"<"、">"、"<="、">=" 和 "!="。另外,awk 還提供了 "~" 和 "!~" 運算符,它們分別表示“匹配”和“不匹配”。
它們的用法是在運算符左邊指定變量,在右邊指定正則表達式。如果某一行的第五個字段包含字符序列 root,以下示例只打印這一行中的第三個字段:
$5 ~ /root/ { print $3 }

6、條件語句
awk 還提供了非常好的類似于 C 語言的 if 語句。if 語句示例:
{
    if ( $5 ~ /root/ ) {
       print $3
    }
}
對每一個輸入行執(zhí)行代碼塊,使用 if 語句來選擇執(zhí)行 print 命令。
更復(fù)雜的 awk if 語句示例。
{
    if ( $1 == "foo" ) {
       if ( $2 == "foo" ) {
            print "uno"
        } else {
          print "one"
        }
          } else if ($1 == "bar" ) {
                    print "two"
                 } else {
                    print "three"
                 }
}

使用 if 語句還可以將代碼:
! /matchme/ { print $1 $3 $4 }
轉(zhuǎn)換成:
{
     if ( $0 !~ /matchme/ ) {
         print $1 $3 $4
     }
}
這兩個腳本都只輸出不包含 matchme 字符序列的那些行。

awk 還允許使用布爾運算符 "||"(邏輯與)和 "&&"(邏輯或),以便創(chuàng)建更復(fù)雜的布爾表達式:
( $1 == "foo" ) && ( $2 == "bar" ) { print }
這個示例只打印第一個字段等于 foo 且第二個字段等于 bar 的行。

7、變量
awk的變量,數(shù)值變量與字符串變量。

數(shù)值變量
至今,我們不是打印字符串、整行就是特定字段。然而,awk還可以執(zhí)行整數(shù)和浮點運算。使用數(shù)學(xué)表達式,可以很方便地編寫計算文件中空白行數(shù)量的腳本。
BEGIN   { x=0 }
/^$/    { x=x+1 }
END     { print "I found " x " blank lines. :}" }
在 BEGIN 塊中,將整數(shù)變量 x 初始化成零。然后,awk 每次遇到空白行時,awk 將執(zhí)行 x=x+1 語句,遞增 x。
處理完所有行之后,執(zhí)行 END 塊,awk 將打印出最終摘要,指出它找到的空白行數(shù)量。

字符串化變量
awk 的優(yōu)點之一就是“簡單和字符串化”。我認(rèn)為 awk 變量“字符串化”是因為所有 awk 變量在內(nèi)部都是按字符串形式存儲的。同時,awk 變量是“簡單的”,因為可以對它執(zhí)行數(shù)學(xué)操作,且只要變量包含有效數(shù)字字符串,awk 會自動處理字符串到數(shù)字的轉(zhuǎn)換步驟。要理解我的觀點,請研究以下示例:
x="1.01"
# We just set x to contain the *string* "1.01"
x=x+1
# We just added one to a *string*
print x
# Incidentally, these are comments :)
awk 將輸出:
2.01

雖然將字符串值 1.01 賦值給變量 x,仍然可以對它加一。但在 bash 和 python 中卻不能這樣做。
首先,bash 不支持浮點運算。而且,如果 bash 有“字符串化”變量,它們并不“簡單”;要執(zhí)行任何數(shù)學(xué)操作,bash 要求我們將數(shù)字放到丑陋的 $( ) ) 結(jié)構(gòu)中。
如果使用 python,則必須在對 1.01 字符串執(zhí)行任何數(shù)學(xué)運算之前,將它轉(zhuǎn)換成浮點值。雖然這并不困難,但它仍是附加的步驟。
如果使用 awk,它是全自動的,而那會使我們的代碼又好又整潔。如果想要對每個輸入行的第一個字段乘方并加一,可以使用以下腳本:
{ print ($1^2)+1 }

如果做一個小實驗,就可以發(fā)現(xiàn)如果某個特定變量不包含有效數(shù)字,awk 在對數(shù)學(xué)表達式求值時會將該變量當(dāng)作數(shù)字零處理。

8、運算符
awk 有完整的數(shù)學(xué)運算符集合。除了標(biāo)準(zhǔn)的加、減、乘、除,awk 還允許使用前面演示過的指數(shù)運算符 "^"、模(余數(shù))運算符 "%" 和其它許多從 C 語言中借入的易于使用的賦值操作符。

這些運算符包括前后加減(i++、--foo)、加/減/乘/除賦值運算符( a+=3、b*=2、c/=2.2、d-=6.2)。不僅如此 -- 我們還有易于使用的模/指數(shù)賦值運算符(a^=2、b%=4)。

字段分隔符
awk 有它自己的特殊變量集合。其中一些允許調(diào)整 awk 的運行方式,而其它變量可以被讀取以收集關(guān)于輸入的有用信息。我們已經(jīng)接觸過這些特殊變量中的一個,F(xiàn)S。前面已經(jīng)提到過,這個變量讓您可以設(shè)置 awk 要查找的字段之間的字符序列。我們使用 /etc/passwd 作為輸入時,將 FS 設(shè)置成 ":"。當(dāng)這樣做有問題時,我們還可以更靈活地使用 FS。

FS 值并沒有被限制為單一字符;可以通過指定任意長度的字符模式,將它設(shè)置成規(guī)則表達式。如果正在處理由一個或多個 tab 分隔的字段,您可能希望按以下方式設(shè)置 FS:
FS="t+"

以上示例中,我們使用特殊 "+" 規(guī)則表達式字符,它表示“一個或多個前一字符”。

如果字段由空格分隔(一個或多個空格或 tab),您可能想要將 FS 設(shè)置成以下規(guī)則表達式:
FS="[[:space:]+]"

這個賦值表達式也有問題,它并非必要。為什么?因為缺省情況下,F(xiàn)S 設(shè)置成單一空格字符,awk 將這解釋成表示“一個或多個空格或 tab”。在這個特殊示例中,缺省 FS 設(shè)置恰恰是您最想要的!

復(fù)雜的規(guī)則表達式也不成問題。即使您的記錄由單詞 "foo" 分隔,后面跟著三個數(shù)字,以下規(guī)則表達式仍允許對數(shù)據(jù)進行正確的分析:

FS="foo[0-9][0-9][0-9]"

字段數(shù)量
接著我們要討論的兩個變量通常并不是需要賦值的,而是用來讀取以獲取關(guān)于輸入的有用信息。第一個是 NF 變量,也叫做“字段數(shù)量”變量。awk 會自動將該變量設(shè)置成當(dāng)前記錄中的字段數(shù)量??梢允褂?NF 變量來只顯示某些輸入行:
NF == 3 { print "this particular record has three fields: " $0 }
當(dāng)然,也可以在條件語句中使用 NF 變量,如下:
{  
    if ( NF > 2 ) {
       print $1 " " $2 ":" $3
    }
}

9、處理記錄
記錄號
記錄號 (NR) 是另一個方便的變量。它始終包含當(dāng)前記錄的編號(awk 將第一個記錄算作記錄號 1)。迄今為止,我們已經(jīng)處理了每一行包含一個記錄的輸入文件。對于這些情況,NR 還會告訴您當(dāng)前行號。然而,當(dāng)我們在本系列以后部分中開始處理多行記錄時,就不會再有這種情況,所以要注意!可以象使用 NF 變量一樣使用 NR 來只打印某些輸入行:
(NR < 10 ) || (NR > 100) { print "We are on record number 1-9 or 101+" }
另一個示例:
{
   #skip header
   if (NR>10) {
       print "ok, now for the real information!"
   }

}

awk 提供了適合各種用途的附加變量。我們將在以后的文章中討論這些變量。

多行記錄
awk 是一種用于讀取和處理結(jié)構(gòu)化數(shù)據(jù)(如系統(tǒng)的 /etc/passwd 文件)的極佳工具。/etc/passwd 是 UNIX 用戶數(shù)據(jù)庫,并且是用冒號定界的文本文件,它包含許多重要信息,包括所有現(xiàn)有用戶帳戶和用戶標(biāo)識,以及其它信息。在我的前一篇文章中,我演示了 awk 如何輕松地分析這個文件。我們只須將 FS(字段分隔符)變量設(shè)置成 ":"。

正確設(shè)置了 FS 變量之后,就可以將 awk 配置成分析幾乎任何類型的結(jié)構(gòu)化數(shù)據(jù),只要這些數(shù)據(jù)是每行一個記錄。然而,如果要分析占據(jù)多行的記錄,僅僅依靠設(shè)置 FS 是不夠的。在這些情況下,我們還需要修改 RS 記錄分隔符變量。RS 變量告訴 awk 當(dāng)前記錄什么時候結(jié)束,新記錄什么時候開始。

譬如,讓我們討論一下如何完成處理“聯(lián)邦證人保護計劃”所涉及人員的地址列表的任務(wù):
Jimmy the Weasel
100 Pleasant Drive
San Francisco, CA 12345
Big Tony
200 Incognito Ave.
Suburbia, WA 67890

理論上,我們希望 awk 將每 3 行看作是一個獨立的記錄,而不是三個獨立的記錄。如果 awk 將地址的第一行看作是第一個字段 ($1),街道地址看作是第二個字段 ($2),城市、州和郵政編碼看作是第三個字段 $3,那么這個代碼就會變得很簡單。代碼如下:
BEGIN {
  FS="n"
  RS=""
}

在上面這段代碼中,將 FS 設(shè)置成 "n" 告訴 awk 每個字段都占據(jù)一行。通過將 RS 設(shè)置成 "",還會告訴 awk 每個地址記錄都由空白行分隔。一旦 awk 知道是如何格式化輸入的,它就可以為我們執(zhí)行所有分析工作,腳本的其余部分很簡單。讓我們研究一個完整的腳本,它將分析這個地址列表,并將每個記錄打印在一行上,用逗號分隔每個字段。
address.awk BEGIN {
   FS="n"
   RS=""
}
{
  print $1 ", " $2 ", " $3
}

將腳本保存為 address.awk,地址數(shù)據(jù)存儲在文件 address.txt 中,可以通過輸入 "awk -f address.awk address.txt" 執(zhí)行此腳本。輸出如下:
Jimmy the Weasel, 100 Pleasant Drive, San Francisco, CA 12345
Big Tony, 200 Incognito Ave., Suburbia, WA 67890

OFS 和 ORS
在 address.awk 的 print 語句中,可以看到 awk 會連接(合并)一行中彼此相鄰的字符串。我們使用此功能在同一行上的三個字段之間插入一個逗號和空格 (", ")。這個方法雖然有用,但比較難看。與其在字段間插入 ", " 字符串,倒不如讓通過設(shè)置一個特殊 awk 變量 OFS,讓 awk 完成這件事。
print "Hello", "there", "Jim!"

這行代碼中的逗號并不是實際文字字符串的一部分。事實上,它們告訴 awk "Hello"、"there" 和 "Jim!" 是單獨的字段,并且應(yīng)該在每個字符串之間打印 OFS 變量。
缺省情況下,awk 產(chǎn)生以下輸出:
Hello there Jim!

這是缺省情況下的輸出結(jié)果,OFS 被設(shè)置成 " ",單個空格。不過,我們可以方便地重新定義 OFS,這樣 awk 將插入我們中意的字段分隔符。以下是原始 address.awk 程序的修訂版,它使用 OFS 來輸出那些中間的 ", " 字符串:

address.awk 的修訂版
BEGIN {
     FS="n"
     RS=""
    OFS=", "
}
{
    print $1, $2, $3
}
 awk 還有一個特殊變量 ORS,全稱是“輸出記錄分隔符”。通過設(shè)置缺省為換行 ("n") 的 OFS,我們可以控制在 print 語句結(jié)尾自動打印的字符。缺省 ORS 值會使 awk 在新行中輸出每個新的 print 語句。如果想使輸出的間隔翻倍,可以將 ORS 設(shè)置成 "nn"?;蛘?,如果想要用單個空格分隔記錄(而不換行),將 ORS 設(shè)置成 " "。

將多行轉(zhuǎn)換成用 tab 分隔的格式
假設(shè)我們編寫了一個腳本,它將地址列表轉(zhuǎn)換成每個記錄一行,且用 tab 定界的格式,以便導(dǎo)入電子表格。使用稍加修改的 address.awk 之后,就可以清楚地看到這個程序只適合于三行的地址。如果 awk 遇到以下地址,將丟掉第四行,并且不打印該行:
Cousin Vinnie
Vinnie's Auto Shop
300 City Alley
Sosueme, OR 76543

要處理這種情況,代碼最好考慮每個字段的記錄數(shù)量,并依次打印每個記錄?,F(xiàn)在,代碼只打印地址的前三個字段。以下就是我們想要的一些代碼:

適合具有任意多字段的地址的 address.awk 版本
BEGIN {
  FS="n"
  RS=""
  ORS=""
}
 { 
 x=1
 while ( x<NF ) {
 print $x "t"
 x++
  }
print $NF "n"
}

首先,將字段分隔符 FS 設(shè)置成 "n",將記錄分隔符 RS 設(shè)置成 "",這樣 awk 可以象以前一樣正確分析多行地址。然后,將輸出記錄分隔符 ORS 設(shè)置成 "",它將使 print 語句在每個調(diào)用結(jié)尾不輸出新行。這意味著如果希望任何文本從新的一行開始,那么需要明確寫入 print "n"。

在主代碼塊中,創(chuàng)建了一個變量 x 來存儲正在處理的當(dāng)前字段的編號。起初,它被設(shè)置成 1。然后,我們使用 while 循環(huán)(一種 awk 循環(huán)結(jié)構(gòu),等同于 C 語言中的 while 循環(huán)),對于所有記錄(最后一個記錄除外)重復(fù)打印記錄和 tab 字符。最后,打印最后一個記錄和換行;此外,由于將 ORS 設(shè)置成 "",print 將不輸出換行。程序輸出如下,這正是我們所期望的(不算漂亮,但用 tab 定界,以便于導(dǎo)入電子表格):
Jimmy the Weasel        100 Pleasant Drive      San Francisco, CA 12345
Big Tony        200 Incognito Ave.      Suburbia, WA 67890
Cousin Vinnie   Vinnie's Auto Shop      300 City Alley  Sosueme, OR 76543


相關(guān)文章

  • Shell?iptales防火墻設(shè)置的方法步驟

    Shell?iptales防火墻設(shè)置的方法步驟

    本文主要介紹了Shell?iptales防火墻設(shè)置的方法步驟,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2023-06-06
  • 詳解Linux  Shell 實現(xiàn)一個獲取任意位數(shù)的隨機密碼的腳本

    詳解Linux Shell 實現(xiàn)一個獲取任意位數(shù)的隨機密碼的腳本

    這篇文章主要介紹了詳解Linux Shell 實現(xiàn)一個獲取任意位數(shù)的隨機密碼的腳本的相關(guān)資料,本文提供實現(xiàn)方法及實現(xiàn)代碼,需要的朋友可以參考下
    2017-08-08
  • 分享awk變量$0的妙用

    分享awk變量$0的妙用

    對awk的非常入學(xué),于是把exp.log的處理那段都用awk寫出來。驚喜的發(fā)現(xiàn)awk有個內(nèi)置參數(shù)NR,而且awk內(nèi)部也可以進行運算
    2013-03-03
  • 查看linux中某個端口(port)是否被占用的方法

    查看linux中某個端口(port)是否被占用的方法

    下面小編就為大家?guī)硪黄榭磍inux中某個端口(port)是否被占用的方法。小編覺得挺不錯的,現(xiàn)在就分享給大家,也給大家做個參考。一起跟隨小編過來看看吧
    2017-05-05
  • Linux crontab定時執(zhí)行Shell腳本需要執(zhí)行特定的命令時解決思路

    Linux crontab定時執(zhí)行Shell腳本需要執(zhí)行特定的命令時解決思路

    今天小編就為大家分享一篇關(guān)于Linux crontab定時執(zhí)行Shell腳本需要執(zhí)行特定的命令時解決思路,小編覺得內(nèi)容挺不錯的,現(xiàn)在分享給大家,具有很好的參考價值,需要的朋友一起跟隨小編來看看吧
    2019-01-01
  • Linux shell命令幫助格式詳解

    Linux shell命令幫助格式詳解

    最近看了一個教程,關(guān)于Linux命令的,本來以為當(dāng)是復(fù)習(xí)隨便看看的,結(jié)果看了不禁汗顏,這個真挺有學(xué)問的,很多東西都是我還不知道的,故此做總結(jié)。下面這篇文章主要介紹了Linux shell命令幫助格式的相關(guān)資料,需要的朋友可以參考借鑒。
    2017-01-01
  • 一文學(xué)會使用Linux內(nèi)核模塊&proc實例統(tǒng)計所有進程信息

    一文學(xué)會使用Linux內(nèi)核模塊&proc實例統(tǒng)計所有進程信息

    這篇文章主要介紹了使用Linux內(nèi)核模塊&proc實例統(tǒng)計所有進程信息詳解,
    2023-05-05
  • 解決linux?shell中傳遞包含空格的參數(shù)問題

    解決linux?shell中傳遞包含空格的參數(shù)問題

    這篇文章主要介紹了如何解決linux?shell中傳遞包含空格的參數(shù)問題,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教
    2023-09-09
  • PowerShell實現(xiàn)簡單的grep功能

    PowerShell實現(xiàn)簡單的grep功能

    下面的PS腳本針對目錄和文件進行了區(qū)分,借用Select-String命令,實現(xiàn)了內(nèi)容查找,并顯示查找到的文件和匹配內(nèi)容所在行號。感興趣的朋友一起看看吧
    2017-10-10
  • 防止shell腳本重復(fù)執(zhí)行的代碼

    防止shell腳本重復(fù)執(zhí)行的代碼

    利用鎖機制,讓一個特定的shell腳本,每次只能運行一個實例。具體來說,獲得鎖的腳本實例,能夠繼續(xù)往下執(zhí)行臨界區(qū)代碼;沒有獲得鎖的實例,則只能等待
    2013-01-01

最新評論