Linux awk 指令

⇒

awk

awk 文字記錄的資料處理
awk 基本用法
awk 程式模式
自定變數
內建變數
BEGIN 和 END
輸出函數 print 和 printf
關聯矩陣(Associative Arrays)
system 執行系統指令
close 關閉檔案/管線
getline 讀入資料
數學函數
字串函數
自定函數

awk 文字記錄的資料處理
許多的 UNIX/Linux 指令名稱都源自於很莫名奇怪的縮寫,awk 更是!其指令名稱來自其三位作者 Alfred Aho, Peter Weinberger 和 Brian Kernighan 的姓氏縮寫。

awk 為一直譯語言(Interpreter),大量引用 C 語言的語法,取 C 語言對文字處理和輸出格式的精華,再加上支援原始 C 語言所沒有的對正規表示法的匹配和關聯矩陣(Associative Arrays)的支援。

因此 awk 和 C 語言應用上最大的差別為 C 語言為通用的程式語言,指令和語法多而複雜,而 awk 小而精簡,特別適合用來處理和計算用文字記錄的資料和文字的排版。1980 年代 awk 曾很流行,一直到約 1990 才逐漸被另一通用的直譯語言 Perl 所瓜分。

awk 基本用法
相對於 sed 是以行為單位處理文字,awk 還可以用〝欄〞(Field)來處理文字。

例如以 ls -l 列出冗長檔案資訊的例子,如下共有 8 個欄位(欄位間以空白當間隔)

$ export TIME_STYLE=long-iso ←設時間格式(不同環境設定會影響〝ls -l〞的輸出格式)
$ ls -l
drwxr-xy-x	2	aaa	aaa	4096	2011-09-07	11:44	Desktop
drwxr-xy-x	2	aaa	aaa	4096	2011-09-07	11:44	Documents
drwxr-xy-x	2	aaa	aaa	4096	2011-09-07	11:44	Music
drwxr-xy-x	2	aaa	aaa	4096	2011-09-07	11:44	Pictures
drwxr-xy-x	2	aaa	aaa	4096	2011-09-07	11:44	Public
↑	↑	↑	↑	↑	↑	↑	↑
$1	$2	$3	$4	$5	$6	$7	$8 ←欄位變數

如把 ls -l 的輸出經管線到 awk 寫成 ls -l | awk {},對 awk 來說毎一欄位會自動儲存在其預設的欄位變數〝$0〞,〝$1〞~〝$N〞(N 為欄位數)。
因 awk 用在指令其間的參數和敘述可能很抽象和複雜,awk 可能會無法判讀,故一般除檔案和選項以外的參數都會用單引號「'」把其括起來而寫成 ls -l | awk '{}'。

上例中第一行共有 8 個欄位,但會產生有 9 筆欄位變數從 $0 到 $8 的值各如下:

變數	內容	註
$0	drwxr-xy-x 2 aaa aaa 4096 2011-09-07 11:44 Desktop	$0 內容為一整行
$1	drwxr-xy-x	欄位=1的字串
$2	2	欄位=2的字串
$3	aaa	欄位=3的字串
$4	aaa	欄位=4的字串
$5	4096	欄位=5的字串
$6	2011-09-07	欄位=6的字串
$7	11:44	欄位=7的字串
$8	Desktop	欄位=8的字串

最特別的欄位變數是〝$0〞,〝$0〞是一整行的內容,而〝$0〞內容有變更時會自動更新其他欄位變數〝$1〞~〝$N〞。

如只單純寫成 ls -l | awk '{}' 是不會有任何的輸出,因沒輸出函數(function)和要輸出那一欄位,awk 內建的輸出函數最常用的為〝print〞,例如我只要輸出 ls -l 檔案的大小欄(欄位=5)和檔名欄(欄位=8)可寫成。。

例:

$ ls -l | awk '{print $5,$8}'←只輸出欄位 5 和 8
4096 Desktop
4096 Documents
4096 Music
以下略

而 print 內的逗號〝,〞代表輸出欄位間隔(Output Field Separator〝OFS〞),預設的輸出欄位間隔為空白(space),即一個逗號〝,〞等於輸出一個空白。user 可以試者不加逗號輸入 ls -l | awk '{print $5 $8}' 便可知其間的差異。

而如果指令不只一個時,指令之間要用〝;〞間隔或寫在下一行;例如 ls -l | awk '{size=$5;file_name=$8;print size,file_name}'。(範例中的〝size〞和〝file_name〞為自定變數)

知道欄位變數〝$N〞的用法後,我們可以很容易利用這一特性來更改輸出格式,awk 最基本的用法就是改變輸出格式,如下例為用 awk 改變 ls 原來的輸出格式。

例:

$ ls -l | awk '{print "File",$8,"size =",$5,"Byte"}'
File Desktop size = 4096 Byte
File Documents size = 4096 Byte
File Music size = 4096 Byte
以下略

上例中可在函數 print 中添加要輸出的字串,要加的字串用「"」括起來,如上例中的 "File" 和 "size ="。

曾讓 awk 流行的原因為其(欄位)變數還可用來計算,如〝S3*base-1〞等,承上例如我想把檔案大小的欄位以 KiB 顯示我可以用 $5 除以 1024 。

例:

$ ls -l | awk '{print "File",$8,"size =",$5/1024,"KB"}'
File Desktop size = 4 KB
File Documents size = 4 KB
File Music size = 4 KB
以下略
$ ls -l | awk '{print "File",$8,"size =",$5/1024,"KB"}' > reformate.txt ←將新的輸出存成檔案〝reformat.txt〞

awk 的資料輸入除了來自管線〝|〞外也可來自檔案,例如 awk '{print $3}' data.txt 為印出檔案〝data.txt〞的欄位 3。
如需由鍵盤輸入的互動程式,awk 也支援〝-〞標準輸入,如下為任意輸入兩個數字會輸出相乘結果。

例:

$ awk '{print $1*$2}' - ←最後面的〝-〞為標準輸入(鍵盤)
3.14 1.41421 ←任意輸入兩個數字
4.44062 ←輸出相乘結果 (按 <Ctrl-D> 來結束)

至於執行 awk 除了上述方法外,也可和 sed 一樣用選項〝-f〞來使用外部的 script 檔或寫成 Shell 程式。
用外部的 script 檔時要拿掉括住〝{}〞的單引號「'」 ,如下的範例:

例:(用外部 awk script 檔)

$ cat awk_scr ←例如有一外部 script 檔〝awk_scr〞,內容如下
{print "File",$8,"size =",$5/1024,"KB"}
$ ls -l | awk -f awk_scr ←用選項〝-f〞來使用外部的 script 檔〝awk_scr〞

例:(寫成Shell 程式)

$ cat awk_scr1 ←例如有一檔〝awk_scr1〞,內容如下
awk '{print "File",$8,"size =",$5/1024,"KB"}'
$ chmod +x awk_scr1 ←讓〝awk_scr1〞具有可執行的權限
$ ls -l | ./awk_scr1 ←執行〝awk_scr1〞

^ back on top ^

awk 程式模式
awk 除了用在基本用法中的輸出模式,還有強大的程式模式,因 awk 本身有自己的 script 直譯語言。至於要不要學 awk 的程式模式?因每個人需求和專才不同,下段的敘述看完自行判斷。

許多的應用可用 C 語言或 shell script 或 awk 皆可達到要求,但 C 語言進入門檻較高,且對小程式來說如用牛刀殺雞太大費周章,而用 shell script 來處理文字常力有未逮。如熟 awk script 語言且才華洋溢,幾乎可完全取代所有過濾程式(如grep/sed/tr/cut 等)外加有計算統計功能,如有文字記錄的資料要處理,awk 可列為第一考慮。且有人測過同一功能用 awk 來完成其執行的速度是 shell script 的 30 倍以上。awk script 語法大量借用 C 語言語法,如果已熟悉 C/C++/Java 等語言,再來學習 awk 的 script 語言就覺得很簡單,但反之可能就比較吃力。

讀者可以不必懂 C 語言也可以精通 awk script 語言(awk script 相對 C 語言簡單許多),但限於篇幅後續的說明是假設讀者已了解 C 語言因此不會特別去解釋 C 語言的指令和語法,反而和 C 語言不一樣的地方才會去說明。

awk 程式結構主要為 [Pattern]'[{Actions}]'[Files],在 awk 的術語中〝Pattern〞可不是正規表示法的樣板,白話的解釋是判斷式,而〝{Actions}〞為要執行的敘述,最後一項 Files 為要處理的文字資料檔案,當然除了檔案也可來自其他的命令經管線給 awk 。

Pattern(判斷式)不一定會存在,如果有的話則判斷式成立時則執行後面的 {Actions},否則 {Actions} 不被執行。
例如要篩選檔案大小可用指令〝find -size〞,用 awk 來完成可寫為 ls -l | awk '$5 > 8192 {print $5,$8}',表示欄位 5 的內容如大於 8192,則執行〝print $5,$8〞。
如沒有 Pattern 如 ls -l | awk '{print $5,$8}' 則不管任何情況都會執行 {Actions} 中的敘述〝print $5,$8〞。

〝{Actions}〞也可省略,如省略時預設動作是〝print $0〞,如 awk 'NR <=5' /etc/passwd ,此動作就像 head。(例中的〝NR〞為內建變數)

awk 的 Pattern 提供如下和 C 語言類似的判斷語法:

awk relational operators
Operator	Meaning
==	相等
!=	不相等
>	大於
>=	大於或等於
<	小於
<=	小於或等於
&&	條件的 AND 判斷
\|\|	條件的 OR 判斷

和傳統 C 語言比較不一樣的是其 Pattern 可對正規表示法作匹配判斷,如〝~〞表示有匹配到正規表示法,而〝!~〞為沒有匹配到正規表示法。

語法如下:(實際上目前版本的 awk 可支援到延伸正規表示法)

awk relational operators
Operator	Meaning	Note
字串~ /正規表示法/[動作(actions)]	字串如可匹配正規表示法,則執行 Actions	[註]
字串 ! ~ /正規表示法/[動作]	字串如無法匹配正規表示法,則執行 Actions
/正規表示法/[動作]	目前讀入的行如可匹配正規表示法,則執行 Actions (省略字串和和符號〝~〞的敘述,會用 $0 來匹配正規表示法)
!/正規表示法/[動作]	目前讀入的行如無法匹配正規表示法,則執行 Actions

要匹配的正規表示法或要記得用成對斜線〝/〞括起來;例如 ls /etc | awk '$1 ~ /pr*e/' 表示如果某行的欄位 1 的內容可匹配正規表示法的〝pr*e〞,則輸出該行。
而如果同時省略要匹配的字串和符號〝~〞,此時的意義就可視為搜尋(目前讀入的行如搜尋到匹配的正規表示法則執行Actions),如 awk '/colou*r/' file 。此動作就像指令 grep。

{Actions}部份當然不只有 print,如下和 C 語言類似的指令和語法都合法。

List of awk syntax

Note

if ( conditional ) statement [ else statement ]
while ( conditional ) statement
do {statement} while (conditional)
for ( expression ; conditional ; expression ) statement
for ( variable in array ) statement
break
continue
{ [ statement ] ...}
variable=expression
[command][&][|]getline [var][<][ file]
print [ expression-list ] [ > expression ]
printf ( ) format [ , expression-list ] [ > expression ]
function( )
next
exit

參考來源
http://www.grymoire.com/Unix/Awk.html

另外 awk 的註解和 sed 一樣皆用〝#〞。

^ back on top ^

自定變數
和 C 語言的自定變數(user-defined variables)不一樣的為 awk 的變數不用宣告(declare),也無型別(typeless)且都是全域變數(global variable)。

例如我可以自定一變數〝score〞,不用宣告就可存取 score,因無型別,故可給予 score 數值或欄位變數或內建變數或字串等,如以下的例子都合法的:

score=99(整數)
score=99.99(浮點)
score="ninety-nine"(字串)
score= NF (內建變數)
score= $9 (欄位變數)

awk 之所以不像 C 語言要宣告變數的型別(如 int x)主要為 awk 把所有資料都當 ASCII 來存取,必要時才做型別的轉換去計算,例如指令 awk 'BEGIN {print 3 * 7}' 和 awk 'BEGIN {print "3" * "7"}' 輸出結果是一樣的(BEGIN 用法參考 BEGIN 和 END),但養成好習慣如已知目前正處理的是字串就用引號「"」把其括起來好一目了然知道是字串不是數字。

例:

$ cat awk_scr2
BEGIN {
   brand="555" #←變數〝brand〞= 字串 "555"
   unit_price = 0.8 #←變數〝unit_price〞= 數值 0.8
   dozen = 12 #←變數〝dozen〞= 數值 12
   print brand,"cigarettes a dozen price=",unit_price * dozen
  }
$ awk -f awk_scr2
555 cigarettes a dozen price= 9.6

矩陣(array)也是無型別變數,不用宣告和定義其大小,最多支援到二維矩陣(two-dimensional array)。下為 C 語言常用的九九乘法表二維矩陣範例,用 awk 重寫如下:

例:

$ cat awk_m_table
BEGIN{ #←awk of Multiplication Table example
   for( i=1; i<=9; i++ ){
for( j=1; j<=9; j++ ){
   array[i, j] = i * j
   print i" * "j" = "array[i,j]
}
   }
}
$ awk -f awk_m_table
1 * 1 = 1
1 * 2 = 2
中間略
9 * 7 = 63
9 * 8 = 72
9 * 9 = 81

^ back on top ^

內建變數
內建變數(Build-in Variables)和自定變數的差別為內建變數的值是 awk 運算時自己產生的,部分的內建變數有其預設值(default),但 user 可改變其預設值來變更其運算規則。

除了欄位變數外還有許多的內建變數提供 awk 來運算,內建變數皆用大寫,所以自定變數最好別用全是大寫的名稱,除避免和內建變數撞名外也可一目了然那些是內建變數或自定變數。

例如有一片段程式碼為〝for(i=0; i< NF; i++)〞一看就知〝NF〞為內建變數,〝i〞為自定變數。

最常用的內建變數有〝NF〞和〝NR〞等,其中 NF(Number of Fields)為儲存每一行的欄位數,而 NR(Number of Records)為檔案的行數(awk 所讀入的行其術語叫〝record〞)。

例:

$ echo 'ab cd ef' | awk '{print NF}' ←因有三個欄位故 NF=3
3

awk 所有的內建變數如下列表:

awk built-in variables
Variable	Meaning	Default	Regular-Eexpression support	Note
ARGC	輸入參數 count input arguments count	-
ARGV	輸入參數 vecter input arguments vecter	-
FILENAME	目前所讀取資料的檔名 name of current input file	-
FNR	目前檔案所讀入的列數 record number in current file	-
FS	輸入欄位間隔 input field separator	blank& tab	Yes	參考 BEGIN 範例
IGNORECASE	(非零值時)匹配時不管大小寫 ignoring case sensitivity	1	Yes	gun 版本的 gawk 有支援此內建變數
NF	目前列的欄位數 number of fields in current record	-
NR	awk 所累計讀入的列數 number of records read so far	-		參考 END 範例
OFMT	數值輸出格式 output format for numbers	%.6g		參考 print 範例
OFS	輸出欄位間隔 output field separator	blank		參考 print 範例
ORS	輸出列間隔 output record separator	newline
RS	輸入列間隔 input record separator	newline	Yes
RSTART	字串函數 match 的第一個字元索引 index of first character matched by match	-		參考字串函數
RLENGTH	字串函數 match 的長度匹配 match length of string matched by match	-		參考字串函數
SUBSEP	矩陣分隔字元 subscript separator	"\034"		參考關聯矩陣

上表的內建變數並非所有版本的 awk 都有支援,但現代版的 awk 大多數為 GNU 改良版叫 gawk,應都用支援 (可輸入 file awk確認一下)。

這只舉幾個和 C 不太一樣的用法,其餘的內建變數後續應用如有用到時再說明一下或自行測試。

〝ARGC〞和〝ARGV〞這兩個內建變數的用法和 C 語言的 argc/argv[] 類以,C 語言是用來讀入輸入的參數而 awk 為輸入檔案列表。比較特殊的為 argv[0]="awk" 例如 awk '{}' abc def ghi, (abc, def 和 ghi 為檔名)此時〝ARGC〞和〝ARGV〞值如下:
ARGC=4
ARGV[0]="awk"
ARGV[1]="abc"
ARGV[2}="def"
ARGV[3}="ghi"

因此 ARGC 常用來當索引,如下範例為列出讀入的檔案:
awk 'BEGIN {for( i=0; i<ARGC; i++) print ARGV[i]}' /etc/*.conf。

awk 對輸入資料的〝欄〞(field)和〝列〞(record)的間隔預設是以空白或〝\t〞和換行,但並非所有的資枓皆如此。故需要時可改其內建變數的〝FS〞和〝RS〞值,且還可用正規表示法。

如下一範例,其欄位間隔為並非空白而是〝:〞或〝-〞,我可用正規表示來指定欄位間隔變數〝FS="[:-]"〞,因無法確定每筆資料有幾欄,此時便可好好利用〝NF〞來當迴圈(loops)的次數。

例:(輸入的欄位間隔為〝:〞或〝-〞,並輸出每一欄的資料)

$ cat awk_scr3
BEGIN {
FS="[:-]" #←設定欄位間隔為〝:〞或〝-〞
}
{
for( i=1; i<=NF; i++ )
print $i
}
$ echo "ab-cd ef:gh-ij" | awk -f awk_scr3
ab
cd ef
gh
ij

其他比較常用的還有 DOS/Windows 格式的換行可設 RS="\r\n"。同理輸出資料相對應的〝欄〞和〝列〞內建變數為〝OFS〞和〝ORS〞也可自行定義。

^ back on top ^

BEGIN 和 END
和 C 語言有點不一樣的地方為 awk 程式可大約分如下三大塊:

[BEGIN { statement }]

[{main}]

[END{ statement }]

特別注意這三大塊各別用中括號〝[ ]〞括起來表示不一定要同時存在,〝BEGIN {}〞為當資料還沒讀進來時就先執行的部份,而〝END {}〞為資料都讀完才去執行的部份,故〝BEGIN {}〞和〝END {}〞只會各執行一次。而〝{main}〞內為主程式是每筆資料進來都會被執行。

所以 BEGIN {} 時常用來作初始設定,而 END {} 用來跑結束時的運算結果,而每筆資料進來都要運算的部分就放在 {main}。

例如〝/etc/shadow〞檔內的欄位間隔為〝:〞並非空白,我可以在檔案都還沒讀進來時在 BEING {}區塊內設定欄位間隔為〝:〞(設定內建變數 FS=":"),而會讀入每筆資料的{main}區塊內檢查看欄位 2 是否為空白來找出看誰沒設帳號密碼。實例如下:

例:(以 root 登入測試才可讀取檔案〝/etc/shadow〞)

# cat awk_nopasswd ←找出沒設帳號密碼的程式
BEGIN { # ←BEGIN{}區塊
FS=":" # ←設定欄位間隔為〝:〞
total=0 # ←初始自定變數值為 0
}

{ #←主程式區塊
if ( $2 == "" )
{
print $1 ": no password"
total ++
}
}

END { print "Total no password account=",total} #←END {}區塊
# cat /etc/shadow | awk -f awk_nopasswd ←執行〝找出沒設帳號密碼的程式〞
john: no password
fossett: no password
Total no password account= 2

如果某一程式不用讀取任何檔案,我可以寫在 BEGIN {} 內。

例:

$ awk 'BEGIN{print "Hello AWK"}'
Hello AWK

上例中如 print 寫在 END{}區塊內,因沒任何資料會讀入,故永遠不會被執行。如寫在 {main} 區塊,如下例 ls | awk '{print "Hello AWK"}',則不管三七二十一,有資料讀入就輸出一次〝Hello AWK〞。

所以 END {}區塊為用來跑結束時的運算結果,如下例為在 END {}區塊內印出內建變數〝NR〞就可知檔案共有多少行(模擬指令 wc -l) 。

例:

$ awk 'END {print NR}' /usr/share/dict/linux.words ←模擬指令 wc -l
479829

^ back on top ^

輸出函數 print 和 printf

print:
awk 如只有 Pattern(判斷式)其〝{Actions}〞部分是可省略,如省略時預設動作是〝print $0〞,例如 awk '/regex1/,/regex2/{print $0}' file 為列出檔案中符合正規表示法〝regex1〞到〝regex2〞之間所有的行,而〝print $0〞又可省略寫成〝print〞,甚至如預設動作為〝print〞,print 也可省略;所以下列 3 行指令是一樣的。

awk '/regex1/,/regex2/{print $0}' file
awk '/regex1/,/regex2/{print}' file
awk '/regex1/,/regex2/'file (此例同等用 sed 寫成 sed '/regex1/,/regex2/!d' file)

例:

$ awk '/^ayy*/,/^azz*/' /usr/share/dict/linux.words ←列出字典中 ay 到 az 開頭的所有的單字

print 內的逗號〝,〞代表輸出欄位間隔(Output Field Separator〝OFS〞)預設為空白是可以變更的,如下例。

例:

$ awk 'BEGIN {print "hello","awk"}' ←print 內的逗號〝,〞代表一個輸出欄位間隔,預設為空白
hello awk
$ awk 'BEGIN {OFS="<-->";print "hello","awk"}' ←更改輸出欄位間隔為〝<-->〞(輸出欄位間隔的內建變數為〝OFS〞)
hello<-->awk

而 print 預設的列間隔為 newline,可由內建變數〝ORS〞來變更,例如要輸出 DOS/Windows 格式的文字檔可設〝ORS=\r\n〞,例如 awk 'BEGIN {ORS="\r\n"}{print}' unix_file > dos_file 可模擬指令 unix2dos 。

print 預設的數值輸出格式為〝%.6g〞(小數點以下 6 位數的科學符號或浮點,參考 printf),如有必要可改其內建變數〝OFMT〞來變更位數或浮點(floating)或整數(integer)等。

例:

$ awk 'BEGIN{print 0123456789.0123456789}' ←預設輸出為 6 位數的科學符號
1.23457e+08
$ awk 'BEGIN{OFMT="%.3f";print 0123456789.0123456789}' ←改小數點三位的浮點輸出
123456789.012
$ awk 'BEGIN{OFMT="%d";print 0123456789.0123456789}' ←改整數輸出
123456789

其他 print 用法參考基本用法的範例。

printf:
如果要更進一步控制輸出格式,awk 提供幾乎和 C 語言一樣語法的 printf ( ) 指令,如下例。

例:

$ awk 'BEGIN{ printf ("%d %s %1.2f\n",2,"Cheeseburgers",4.699)}'
2 Cheeseburgers 4.70

如果不熟 C 語言一眼不易理解這種外星文,printf 如下圖所示,引號「" "」右邊的東東依序各自找引號「" "」內的〝%〞對號入座,且 printf 不受輸出列間隔(內建變數的 ORS)控制,故如要換行要自行加入代表換行的〝\n〞。

而〝%〞右側的〝d〞或〝s〞為輸出的資料型別(data types),常用的資料型別如下:

awk printf format
符號	資料型別
%c	ASCII 字元
%d	整數
%e	科學符號
%f	浮點
%g	awk 自動判斷使用科學符號或浮點
%o	八進位制
%s	字串
%x	十六進位制

除了可指定輸出的資料型別外還可指定資料的寬度,如上例的〝%1.2f〞為浮點,但寬度為一位數的整數和二位數的小數(〝.〞左邊為整數寬度,右邊為小數寬度)。如省略寬度則由系統決定,如下例:

awk printf format for width
符號	資料型別
%f	不指定寬度的浮點(系統預設)
%3d	3位數的整數
%.2f	兩位的小數寬度的浮點
%2.f	兩位的整數寬度的浮點

例:

$ awk 'BEGIN{ printf ("%f \n",4.699)}' ←只指定浮點,但不指定寬度
4.699000
$ awk 'BEGIN{ printf ("%.2f \n",4.699)}' ←兩位的小數寬度
4.70
$ awk 'BEGIN{ printf ("%2.f \n",4.699)}' ←只用浮點的整數部分(自動四捨五入)
5
$ awk 'BEGIN{ printf ("%3d \n",4.699)}' ←三位數的整數(無條件捨去小數)
4

由於系統預設的輸出是靠右,可在〝%〞後接〝-〞號寫成〝%-〞強制靠左輸出。

例:

$ echo 65 66| awk '{printf ("%10c%10c \n",$1,$2)}' ←輸出 10 位寬度的 ASCII 65 & 66 (靠右輸出)
A B
$ echo 65 66| awk '{printf ("%10c%-10c \n",$1,$2)}' ←強迫第二個字元靠左輸出
AB

^ back on top ^

關聯矩陣(Associative Arrays)
awk 除了提供以數字為索引(index)的傳統矩陣(arrays)外最特別和最有威力的部分就是還支援〝關聯矩陣〞(Associative Arrays),這種型態的矩陣是傳統 C 程式語言所沒有但也是 awk 特別的地方。

什麼是關聯矩陣?關聯矩陣就是以〝字串〞來當索引,而不似傳統 C 語言以數字為索引。關聯矩陣對傳統程式語言的使用者可能有點文化差異,故我們循序漸進來一步步實驗和說明。

關聯矩陣也是無型別的自定變數,和自定變數的差別為其記憶體是連續的,如把 MS office 的 Excel 想像為一個關聯矩陣,一個關聯矩陣就是一個 Excel 的〝工作表〞(sheet),而 Excel 的索引如〝A1〞,A2〞,〝B1〞,B2〞等,在關聯矩陣是用字串來當索引。

例如有一關聯矩陣為名稱為〝color〞(不用宣告和定義其大小就可直接用),寫入關聯矩陣語法為矩陣名[索引字串]=內容。

如下為寫入關聯矩陣二筆資料:

color ["RED"]=2.1
color ["BLUE"]="TV"

上述直接想像為 Excel 工作表,(但只有一維)其內容如下:

RED	BLUE	←索引字串
2.1	"TV"	←內容

要如要取出關聯矩陣儲存格(cell)的內容格式為矩陣名[索引字串],例如〝color["RED"]〞。下例為寫入關聯矩陣和印出內容

$ awk 'BEGIN{color["RED"]=2.1;color["BLUE"]="TV";print color["RED"],color["BLUE"]}'
2.1 TV ←color["RED"] 內容為〝2.1〞& color["BLUE"] 內容為〝TV〞

Excel 看工作表就可知那些儲存格存了資料,但我怎知關聯矩陣裡存了多少資料和有那些索引字串呢?關聯矩陣提供如下語法來存取全部的矩陣。
for (index_variable in array) do something with array[index_variable] 。

套用上一範例我要把關聯矩陣〝color〞內容全列印出來,寫法為〝for (i in color) print i,color[i]〞,實作如下:

$ awk 'BEGIN{color["RED"]=2.1;color["BLUE"]="TV";for (i in color) print i,color[i]}'
BLUE TV
RED 2.1

上例中指令〝for (i in color)〞(變數〝i〞名稱可自取)會自動搜索整個矩陣〝color〞,如矩陣內有放東西,則會把索引的字串存入變數〝i〞,故上例〝print i〞會輸出索引字串,而〝print color[i]〞會輸出以字串當索引的內容。(有一點要注意的地方為〝for (i in color) print i〞輸出的順序是隨機的)。

那要如何應用關聯矩陣呢?看下例就會知道關聯矩陣的好處,如下有一文字資料檔〝parts.db〞,為某電腦賣場週邊可選的顏色。

$ cat parts.db
KEYBOARD white   black
MOUSE    blue    red     black   white yellow
CASE     black
MONITOR white   silver red

而我想統計每一種顏色出現的次數,我用關聯矩陣可很簡單的完成,如下例:

$ cat awk_scr4 ←統計每一種顏色出現的次數的程式
{
    for( i=2; i<=NF; i++ )
         color[$i]++ #←同等 color[$i] = color[$i] +1
}
END {
      for( j in color )
         printf( "%10s %d \n", j, color[j] )
    }
$ awk -f awk_scr4 parts.db ←執行〝awk_scr4〞來統計檔案〝parts.db〞
       red 2
     white 3
     black 3
      blue 1
    silver 1
    yellow 1

上例程式如何解讀呢?程式片段〝for( i=2; i<=NF; i++)〞因欄位〝$1〞記載的不是顏色,故 for 迴圈從 2 開始且每一行的欄位不是固定的,所以可以巧妙的用內建變數的〝NF〞,讓迴圈止於〝NF〞。

迴圈內的〝color[$i]++〞,為先假設一開始執行時,讀入〝parts.db〞第一行的〝$1〞=字串〝white〞,故以字串當索引時執行 color[white]++ 此時 color[white] 的值等於 1。
而讀入第二行時欄位 4 的〝$5〞又是字串〝white〞,故再執行 color[white]++ 時 color[white] 的值等於 2,如此一直循環下去就可統計每一字串出現的次數。

此例如不用關聯矩陣來完成,程式一定又臭又長。

在介紹自定變數時有用九九乘法表來示範二維矩陣,但事實上 awk 並沒支援二維矩陣,而是巧妙的用關聯矩陣來模擬二維矩陣。
例如二維矩陣 arrayA[3,7] 其數字索引會被轉換成字串索引的 arrayA["3\0347"] ,其中綠底〝\034〞為內建變數〝SUBSEP〞所定義的,但如果和欲處理的資料有衝突可自行定義〝SUBSEP〞為其他值。

下例為實驗二維矩陣其實是關聯矩陣。

$ awk 'BEGIN{arrayA[3,7]="INDIGO";print arrayA["3\0347"];print arrayA[3,7]}'
INDIGO ←arrayA[3,7] 等於 arrayA["3\0347"] 故輸出結果是一樣的
INDIGO

delete 刪除矩陣:
由於矩陣很浪費 RAM,所以必要時可刪除矩陣的內容(一般矩陣或關聯矩陣皆可刪除),用法如下:

指令	note
delete array_name	刪除整個矩陣
delete array_name["string"]	刪除關聯矩陣內的一個儲存格(一維)
delete array_name[2,3]	刪除關聯矩陣內的一個儲存格(二維)
delete array_name [10]	刪除關聯矩陣內的一個儲存格(一維)

例:

$ cat awk_scr5
{
    for( i=2; i<=NF; i++ )
         color[$i]++
    delete color ["yellow"] #←刪除關聯矩陣人的一個儲存格〝color ["yellow"]〞
}
以下略

^ back on top ^

system 執行系統指令
awk 曾很流行並非浪得虛名,因 awk 可很輕易的執行系統程式,也可利用管線與重定向。
如下例修改自〝awk_scr4〞,把運算後的結果用重定向存成檔案。

例:

$ cat awk_scr6
BEGIN { #←BEGIN 區塊
        outfile = "result"
      }
{ #←主程式區塊
    for( i=2; i<=NF; i++ )
         color[$i]++
}
END { #←END 區塊
      for( j in color )
         printf( "%10s %d \n", j, color[j] ) > outfile #←結果重定向到檔案

      print "***** Result Statistics *****" > outfile #←輸出重定向到檔案
    }
$ awk -f awk_scr6 parts.db ←執行〝awk_scr6〞(檔案〝parts.db〞同關聯矩陣範例)
$ cat result ←查看檔案〝result〞
       red 2
     white 3
     black 3
      blue 1
    silver 1
    yellow 1
***** Result Statistics *****

上例重定向〝>〞和在 shell 內的重定向有點不一樣,awk script 所重定向的檔案如一開始已存在會刪除該檔再建立一新的檔案,但該檔建立後的後續動作〝>〞會被當累加重定向〝>>〞處理。

如要在 awk 內執行系統指令也很簡單用指令〝system ("COMMAND")〞即可,上例程式〝awk_scr6〞因把輸出結果直接重定向成檔案,如我要要螢幕也有輸出,只要再加 cat 指令即可。(下例 awk_scr7)

例:

$ cat awk_scr7
略 (BEGIN 和主程式區塊同〝awk_scr6〞)

END {
      for( j in color )
         printf( "%10s %d \n", j, color[j] ) > outfile

      print "***** Result Statistics *****" > outfile
      system ("cat "outfile) # ←執行系統指令〝cat〞
    }

^ back on top ^

close 關閉檔案/管線
上例的〝awk_scr6〞和〝awk_scr7〞有建立檔案的敘述〝> outfile〞,正確的寫法是要在程式結束時用指令〝close("file")〞來關閉檔案,不然〝可能〞會有無法預期的 bug。(好比開門外出而沒關門,可能沒事也可能被小偷光顧無法預測)

為什麼要關閉檔案呢?因 awk 在建立檔案時內部會對該檔建立一指標來連結,例如範例〝awk_scr6〞的符號〝>〞既可當重定向也可當累加重定向。原因為一開始時用〝>〞建立一檔案時會產生一指標來連結該檔,而如果指標的連結還存在後續的動作就自動變累加重定向。而指令〝close("file")〞會切斷檔案的指標連結。如果 awk 同時輸出許多的檔案而沒適當的用〝close("file")〞來關閉檔案 awk 會神經錯亂(因不知目前是在處理那個檔案或處理的檔是要重定向還是要累加。

一個很有用的判斷法為用如一個檔案已被建立如沒 close,後續的符號〝>〞為累加重定向,如有 close 則為建立該檔。下例〝awk_scr8〞和〝awk_scr9〞為最好的註解。

例:

$ cat awk_scr8
BEGIN {
        print "abc" > "fileA" # ←建立檔案〝fileA〞
        print "123" > "fileA" # ←累加重定向到〝fileA〞
      }
$ awk -f awk_scr8
$ cat fileA
abc
123

$ cat awk_scr9
BEGIN {
        print "abc" > "fileA" # ←建立檔案〝fileA〞
        close ("fileA") # ←關閉〝fileA〞(切斷檔案的指標連結)
        print "123" > "fileA" #指標連結被切斷,故此為建立檔案〝fileA〞
      }
$ awk -f awk_scr9
$ cat fileA
123  ←後面的結果蓋掉前一結果

close 有二種用法

close ("file")
close ("管線之後的 COMMAND")

第一種上例已使用了;第二種〝close (管線之後的 COMMAND)〞用於關閉經管線而建立的檔案,如下例〝awk_scr10〞修改自〝awk_scr9〞,主要差別為建立檔案之前經管線〝|〞後給 tr 把小寫改大寫,此時 close 檔案時要〝|〞之後的 COMMAND 一字不漏的寫進 close 內,否則會被視為 close 不同的檔案。

例如把小寫改大寫 tr 的寫法 tr 'a-z' 'A-Z' 和 tr '[:lower:]' '[:upper:]' 意義是一樣的,但對 close 來講是兩回事。

例:

$ cat awk_scr10
BEGIN {
        print "abc" | "tr 'a-z' 'A-Z' > fileA" #←輸出經管線用 tr 把小寫改大寫
        close ("tr 'a-z' 'A-Z' > fileA") #←close ("管線之後的 COMMAND")要一字不漏的寫進 close 內
        system ("echo '123' >>" "fileA") #←〝fileA〞指標連結被切斷(close 了)故如要累加要用累加重定向〝>>〞
      }
$ awk -f awk_scr10
$ cat fileA
ABC
123

上例中如在 debug 階段,不確定是否有正確的 close,可用〝print close ("tr 'a-z' 'A-Z' > fileA")〞把 close 結果列印出來,如非 0 表示 close 有誤(可能打錯字),debug 完再把 print 拿掉。

^ back on top ^

getline 讀入資料
awk 如要讀入的檔案超過二筆可寫成 awk file1 file2 而要讀入某系統指令的輸出超過兩個(如同時要讀入 ls 和 cat 的輸出)要怎麼寫呢?所以 awk 另提供〝getline〞指令來讀入系統指令的輸出或資料檔(主要用在讀入系統指令的輸出)。

getline 單獨使用是一次只讀一行目前的檔案到欄位變數內且如寫在主程式區是讀取下一行(因主程式已讀入目前的行)如下例:

例:

$ seq 1 10 | awk 'BEGIN{getline;print}' ← 一次只讀一行
1
$ seq 1 10 | awk '{getline;print}' ←getline 如寫在主程式區是讀到下一行,所以輸出是跳行
2
4
6
8
10

一次只讀一行好像沒什麼用,所以一般的應用會用迴圈來讀取全部的檔案,但如何知迴圈次數? 原來 getline 毎次讀取會有一傳回值,其傳回值如下:

getline 讀取 record	傳回值
成功	1
失敗	-1
檔案結束 (〝EOF〞End Of File )	0

如下例為列印出 getline 的傳回值:

$ seq 1 2 | awk 'BEGIN{print getline; print getline; print getline}'
1 ←getline 讀取成功 ($0=1) ,傳回值=1
1 ←getline 讀取成功 ($0=2) ,傳回值=1
0 ←getline 讀取失敗 ($0=EOF) ,傳回值=0

因 getline 讀取 record 如成功傳回值為 1,所以最簡單的方法為用 while 迴圈來重復執行 getline 來讀入全部資料,如下例:

例:

$ seq 1 3 | awk 'BEGIN{while (getline) print}' ←因檔案結束時 getline 會 return 0 而跳出while 迴圈)
1
2
3

getline 除了可讀取目前的檔案更可配合管線或重定向來讀取資料檔或某指令的輸出,其可能的格式如下:

getline [var]	單獨使用,讀入目前的行存於欄位變數
getline [var] < "FILE"	從檔案讀取資料
"COMMAND" \| getline [var]	從指令的輸出讀取資料

其中〝var〞為自定變數,如此變數已存在則〝var=$0〞,例如〝getline cell〞,此時變數〝cell=$0〞。

上表第二個〝getline [var] < "FILE"〞為從檔案讀取資料,如檔案變為減號,例如〝getline < "-" 〞表示標準輸入可例用鍵盤輸入來和程式互動。

上表第三個〝"COMMAND" | getline [var]〞為從指令的輸出讀取資料,如套用上例重寫為 awk 'BEGIN{while ("seq 1 10" | getline) print}' ,就可不用經管線直接讀取指令 seq 1 10 的輸出。

如下範例分別讀入兩筆系統指令 ls -F 和 ls -A 的輸出,此例為先由指令 ls -F 把檔名經管線輸出到 awk,如經 awk 判斷該檔名是目錄再由 getline 讀取 ls -A 目錄的輸出來判斷工作目錄內有那些空目錄。

例:(判斷工作目錄內有那些空目錄)

$ cat awk_scr11
{
    /\/$/ #←等於〝if ($0 ~/\/$/)〞(如果檔名是目錄,則繼續後續的動作,否則就處理下個檔名)
    {
       DirName=$0;

       while (("ls -A " DirName )| getline)#←用 getline 讀取系統指令〝ls -A〞的輸出
              ListCount++

       if (ListCount == 0) # ←假如 ListCount=0,一定是空目錄
              {print "Directory --> "DirName" is empty"}

       ListCount=0
    }
}
$ ls -F | awk -f awk_scr11
Directory --> dir2 is empty
Directory -- >Documents is empty
Directory --> Download is empty

程式片段〝/\/$/〞為用正規表示法過濾來自 ls -F 的輸出(如為目錄會在檔名的最後加〝/〞,例如〝Documents/〞則繼續後續的動作)。
而程式片段〝while( "ls -A" | getline)〞如一開始 getline 就 return 0(檔案結束)而跳出迴圈,此時變數〝ListCount=0〞則一定是空目錄。

^ back on top ^

數學函數
除了簡單的四則運算,awk 也提供如下相當有用的運算式:

數學函數名	說明	範例	範例返回值
%	餘數	7%5	2
^	指數	2^3	8

如還不能符合需求還有方便的數學函數可供應用,每一個數學函數皆會返回一運算結果,返回的值可以指定給一變數;如〝A=int(3.8)〞或直接列印如〝print int(3.8)〞。

下表為 awk 支援的數學函數,函數中的〝x〞或〝y〞為輸入的值。

數學函數名	說明	範例	範例返回值
sin( x )	正弦;其中 x 為弧度（弧度 = 角度/180 * PI）	sin (90 /180 * 3.4146)	1
cos( x )	餘弦;其中 x 為是弧度〝radian〞（弧度 = 角度/180 * PI）	cos (180/180*3.1416)	- 1
atan2( y, x )	反正切 arc-tangent (y/x)反正切,傳回值為徑度	atan2(30,45)	0.588003
exp( x )	e^x	exp(1)	2.71828
log( x )	log _ex	log (5)	1.60994
sqrt( x )	開根號	sqrt (9)	3
int( x )	整數值(無條件去小數)	int (5.6)	5
rand( )	亂數;其中 0 <=亂數 < 1
srand( [x] )	初始化 rand(),x 為亂數種子(seed),若省略,則會以執行時的時間+日期為起始的亂數種子

大部分的數學函數並沒什麼特別(不要問我數學,早還給老師了),這只介紹比較容易出錯和特殊的數學函數。

函數〝rand ()〞為亂數產生器,會隨機產生 0 到小於 1 的亂數,如下例為用 for 迴圈執行亂數產生器〝rand ()〞十次。

例:

$ awk 'BEGIN{for (i=1;i<=10;i++) print rand()}'
0.237788
0.291066
0.845814
0.152208
0.585537
0.193475
0.810623
0.173531
0.484983
0.151863

如上例表面上很亂,但如同一敘述多執行幾次會發現〝亂中有序〞,每次結果都一樣,原因為其演算法(algorithm)是固定的(如先以某一數當〝種子〞乘除某一數當亂數結果,再以此結果當亂數的種子一直運算下去),如不要有這種亂中有序的結果就加上另一函數〝srand()〞來改變其亂數種子。下例加為上〝srand()〞的用法。

例:

$ awk 'BEGIN{srand();for (i=1;i<=10;i++) print rand()}' ←用〝srand()〞來初始化〝rand()〞的亂數種子

為什亂數產生器亂數範圍為〝0 <= rand() < 1〞?因為很容易套用到任何範圍,如我想用 awk 選號來簽台彩的〝大樂透〞49 選 6 ,因亂數範圍 < 1,故把亂數 * 49 取整數再 + 1 就對了。

下例為〝大樂透〞1~49 選 6 的電腦選號的實作。

例:

$ awk 'BEGIN{srand();for (i=1;i<=6;i++) print int(rand()*49)+1}' ←〝明牌〞產生器
輸出略 ~~機密!等一下我先去簽看看~~

如果有某個運算 awk 的函數沒支援,不得已可用 getline 利用外部指令來獲得運算結果,如下例為利用外部指令 echo 把二進制的 1100 _bin 轉 10 進制放到變數〝dec〞^。

例:

$ awk 'BEGIN{"echo '$((2#1100))' " | getline dec ;print dec}'
12

^ back on top ^

字串函數
awk 對字串的運算很友善,兩字串要相加,只要兩字串間用空白當隔格擺在一起即可,如二字串 "123" "abc" 產生的新字串為 "123abc"。

例:

$ awk 'BEGIN{str1="123";str2= str1 "abc"; print str2}'
123abc

字串不可能只要相加那麼單純的運算,故 awk 支援如下函數來更進一步對字串運算。

字串函數	說明	範例	範例返回值
sub(regex, replace [,string] )	取代一筆字串	st1="google goooogle" sub(/go+g/,"YAHOO",st1)	1 st1="YAHOOle goooogle"
gsub regex,replace [,string ] )	取代全部字串	st1="google goooogle" gsub(/go+g/,"YAHOO",st1)	2 st1="YAHOOle YAHOOle"
index(string, substring)	返回 substring 在 string 的位置,	index("this","is")	3
match(string,regex )	返回正規表示法匹配 string 的位置和長度	match("123xyzxyzxyz456",/(xyz)+/)	RSTART=4 RLENGTH=9
length [(string)]	返回字串長度	length ("yahoo")	5
substr(string, index [,length] )	返回抽取後的字串	substr("12345678',3,4}	"3456"
split(string, Array [,regex] )	將字串切割放入矩陣	split("abc:de-fgh",arrA,/[:-]/	arraA[1]="abc" arraA[2]="de" arraA[3]="fgh"
tolower( string )	大寫轉小寫	tolower("Yahoo! 123")	"yahoo! 123"
toupper( string )	小寫轉大寫	toupperr("Yahoo! 123")	"YAHOO! 123"
sprintf(format, data1,data2 ... )	將 printf 的輸出變新字串	sprintf("%.4f",3.14162654)	3.1416

字串函數不太容易根據函數名就會使用,如沒實例有時不易解釋,故依序照上表的範例簡單的說明一下和實測。

sub(regex, replace [,string])取代一筆字串
此功能有點類似 sed 's/Regex/Replace/';原字串在 string 位置(如省略 string 為 $0),如符合正規表示法 regex 的匹配就以 replace 代替原字串,但只取代一次,並返回取代次數。

例:

$ echo "google goooogle" |awk '{sub(/go+g/,"YAHOO");print }' ←如字串〝google goooogle〞可被正規表示法的〝go+g〞匹配,則用〝YAHOO〞取代之且只取代一次
YAHOOle goooogle

gsub(regex,replace [,string ])取代全部字串
類似 sed 's/Regex/Replace/g' 同 sub( ) 但取代全部字串。

例:

$ awk 'BEGIN{st1="google gooooogle";print gsub(/go+g/,"YAHOO",st1);print st1}'
2 ←加了〝print gsub()〞會返回取代的次數
YAHOOle YAHOOle ←取代結果

index(String, substring)返回 substring 在 string 的位置
返回 substring 在 string 第一次出現的位置,若找不到返回 0。

例:

$ echo 'this' | awk '{print index($0,"is")}'
3
match(string,regex )返回正規表示法匹配 string 的位置和長度
和函數 index ()類似,但改用正規表示法匹配 string,且返回的位置和長度記錄在內建變數〝RSTART〞,〝RLENGTH〞。

例:

$ echo '123xyzxyzxyz456' | awk '{match($0,/(xyz)+/); print RSTART,RLENGTH}'
4 9
length [(string)]返回字串長度
如省略字串,則返回 $0 長度。

例:

$ echo 'yahoo' | awk '{print length()}'
5
substr(string, index [,length])返回抽取後的字串
返回字串由 index 起始算起,長度為 length 的字串,若省略 length 則到換行。

例:

$ echo '123456789' | awk '{print substr($0,3,4)}'
3456
$ echo '123456789' | awk '{print substr($0,3)}'
3456789
split(string, Array [,regex])將字串切割放入矩陣
將字串切割放入矩陣如省略最後一參數 [regex],預設切割字元為空白或 tab)

例:

$ echo "abc de fgh" | awk '{split($0,arrayA);for (i in arrayA) print arrayA[i]}'
abc
de
fgh
tolower(string)大寫轉小寫

toupper(string)小寫轉大寫

例:

$ awk 'BEGIN{print tolower("Yahoo! 123")}'
yahoo! 123
$ awk 'BEGIN{print toupper("Yahoo! 123")}'
YAHOO! 123

sprintf(format, data1,data2... )將 printf 的輸出變新字串
printf 很容易變更輸出格式,而 sprintf 用法和 printf 一樣,但會把變更後的輸出格式轉變為字串。

如下例用 "%.4f" 四捨五入取小數以下四位。

例:

$ echo '3.141592654' | awk '{new=sprintf("%.4f",$0);print new}'
3.1416

^ back on top ^

自定函數
當 awk 提供的內建函數無法滿足需求時,還可自己寫自定函數(User-defined functions)。
自定函數語法為 function name (para 1,para 2, para 3...) {body-of-function [return value]}。

自定函數和傳統 C 語言的自定函數很類似,但不用宣告(declare),也無型別(typeless),但要在自定函數前加 meta-char〝function〞。
如下範例為一簡單的計算絕對值的函數〝abs()〞。

例:

$ cat awk_abs
{
     print abs($0) # ←call 自定絕對值函數〝abs()〞
}

function abs (value) # ←自定的絕對值函數〝abs()〞
{
    if(value <0)
          value = value * (-1)

     return value # ←如有返回值用 return
}
$ echo "-13.38" | awk -f awk_abs
13.38

^ back on top ^

[註] 〝string ~ /regex/〞此種寫法在 awk 執行時會展開為〝{if (string ~ /regex/) print}〞,所以寫成外部的 script 檔時〝string ~ /regex/〞此種寫法要去除最外面的 "{ }"。
(例如 awk '$8 ~ /pr*e/展開後等於 awk '{if ($8 ~ /pr*e/) print}')