轉(zhuǎn)自:
http://hi.baidu.com/wangyuquansky/blog/item/46863716e253e756f2de322a.html1.字符串的操作:
1.1
字符串的類型
/ 數(shù)字或者數(shù)字組合(能夠返回結(jié)果,即程序退出狀態(tài)是0,說明屬于這種類型,反之不然)
$ i=5;j=9423483247234;
$ echo $i | grep [0-9]*
5
$ echo $j | grep [0-9]*
9423483247234
$ echo $j | grep [0-9]* >/dev/null
$ echo $?
0
// 字符組合(小寫字母、大寫字母、兩者的組合)
$ c="A"; d="fwefewjuew"; e="fewfEFWefwefe"
$ echo $c | grep [A-Z]
A
$ echo $d | grep "[a-z]*"
fwefewjuew
$ echo $e | grep "[a-zA-Z]*"
fewfEFWefwefe
// 字母和數(shù)字的組合
$ ic="432fwfwefeFWEwefwef"
$ echo $ic | grep "[0-9a-zA-Z]*"
432fwfwefeFWEwefwef
// 空格或者Tab鍵等
$ echo " " | grep " "
$ echo -e "\t" | grep "[[:space:]]" #[[:space:]]會同時匹配空格和TAB鍵
$ echo -e " \t" | grep "[[:space:]]"
$ echo -e "\t" | grep "<tab>" #<tab>為在鍵盤上按下TAB鍵,而不是字符<tab>
// 匹配郵件地址
$ echo "test2007@lzu.cn" | grep "[0-9a-zA-Z\.]*@[0-9a-zA-Z\.]"
test2007@lzu.cn
// 匹配URL地址(以http鏈接為例)
$ echo "http://news.lzu.edu.cn/article.jsp?newsid=10135" | grep "http://[0-9a-zA-Z\./=?]*"
http://news.lzu.edu.cn/article.jsp?newsid=10135說明:
[1] /dev/null和/dev/zero是非常有趣的兩個設(shè)備,它們都猶如一個黑洞,什么東西掉進(jìn)去都會消失殆盡;后者則是一個能源箱,你總能從那里取到0,直到你退出。兩者的部分用法見:
關(guān)于zero及NULL設(shè)備的一些問題[2] [[:space:]]是grep用于匹配空格或者TAB鍵類型字符串的一種標(biāo)記,其他類似的標(biāo)記請查看grep的幫助,man grep。
[3] 上面都是用grep來進(jìn)行模式匹配,實(shí)際上sed, awk都可以用來做模式匹配,關(guān)于匹配中用到的正則匹配模式知識,大家可以參考
正則匹配模式,更多相關(guān)資料請看參考資料。
[4] 如果僅僅想判斷字符串是否為空,即判斷字符串的長度是否為零,那么可以簡單的通過test命令的-z選項(xiàng)來判斷,具體用法見test命令,man test.
概要示例: 判斷字符是否可打印?如何控制字符在終端的顯示。
// 用grep判斷某個字符是否為可打印字符 $ echo "\t\n" | grep "[[:print:]]" \t\n $ echo $? 0 $ echo -e "\t\n" | grep "[[:print:]]" $ echo $? 1 // 用echo的-e選項(xiàng)在屏幕控制字符顯示位置、顏色、背景等 $ echo -e "\33[31;40m" #設(shè)置前景色為黑色,背景色為紅色 $ echo -e "\33[11;29H Hello, World\!" #在屏幕的第11行,29列開始打印字符串Hello,World! // 在屏幕的某個位置動態(tài)顯示當(dāng)前系統(tǒng)時間 $ while :; do echo -e "\33[11;29H "$(date "+%Y-%m-%d %H:%M:%S"); done // 用col命令過濾掉某些控制字符,在處理諸如script,screen等截屏命令的輸出結(jié)果時,很有用 $ screen -L $ cat /bin/cat $ exit $ cat screenlog.0 | col -b # 把一些控制字符過濾后,就可以保留可讀的操作日志
|
更多關(guān)于字符在終端的顯示控制方法,請參考資料[20]和字符顯示實(shí)例[21]:用shell實(shí)現(xiàn)的一個動態(tài)時鐘。
1.2
字符串的長度概要示例: 除了組成字符串的字符類型外,字符串還有哪些屬性呢?組成字符串的字符個數(shù)。下面我們來計(jì)算字符串的長度,即所有字符的個數(shù),并簡單介紹幾種求字符串中指定字符個數(shù)的方法。
// 計(jì)算某個字符串的長度,即所有字符的個數(shù)[這計(jì)算方法是五花八門,擇其優(yōu)著而用之] $ var="get the length of me" $ echo ${var} # 這里等同于$var get the length of me $ echo ${#var} 20 $ expr length "$var" 20 $ echo $var | awk '{printf("%d\n", length($0));}' 20 $ echo -n $var | wc -c 20 // 計(jì)算某些指定一個字符或者多個字符的個數(shù) $ echo $var | tr -cd g | wc -c 2 $ echo -n $var | sed -e 's/[^g]//g' | wc -c 2 $ echo -n $var | sed -e 's/[^gt]//g' | wc -c 5 // 如果要統(tǒng)計(jì)單詞個數(shù),更多相關(guān)信息見《shell編程之?dāng)?shù)值計(jì)算》之 _單詞統(tǒng)計(jì)_ 實(shí)例。 $ echo $var | wc -w 5 $ echo "$var" | tr " " "\n" | grep get | uniq -c 1 $ echo "$var" | tr " " "\n" | grep get | wc -l 1
|
說明:
${}操作符在Bash里頭一個“大牛”,能勝任相當(dāng)多的工作,具體就看看網(wǎng)中人的《shell十三問》之《Shell十三問》之"$(( )) 與 $( ) 還有${ } 差在哪?" 吧。
1.3 字符串的存儲
在我們看來,字符串是一連串的字符而已,但是為了操作方便,我們往往可以讓字符串呈現(xiàn)出一定的結(jié)構(gòu)。在這里,我們不關(guān)心字符串在內(nèi)存中的實(shí)際存儲結(jié)構(gòu),僅僅關(guān)系它呈現(xiàn)出來的邏輯結(jié)構(gòu)。比如,這樣一個字符串:"get the length of me",我們可以從不同的方面來呈現(xiàn)它。
1.3.1 通過字符在串中的位置來呈現(xiàn)它
這樣我們就可以通過指定位置來找到某個子串。這在c語言里頭通常可以利用指針來做。而在shell編程中,有很多可用的工具,諸如expr,awk都提供了類似的方法來實(shí)現(xiàn)子串的查詢動作。兩者都幾乎支持模式匹配(match)和完全匹配(index)。這在后面的字符串操作中將詳細(xì)介紹。
1.3.2 根據(jù)某個分割符來取得字符串的各個部分
這里最常見的就是行分割符、空格或者TAB分割符了,前者用來當(dāng)行號,我們似乎已經(jīng)司空見慣了,因?yàn)槲覀兊木庉嬈骶瓦@樣“莫名”地處理著行分割符(在 unix下為\n,在其他系統(tǒng)下有一些不同,比如windows下為\r\n)。而空格或者TAB鍵經(jīng)常用來分割數(shù)據(jù)庫的各個字段,這似乎也是司空見慣的事情。
正是因?yàn)檫@樣,所以產(chǎn)生了大量優(yōu)秀的行編輯工具,諸如grep,awk,sed等。在“行內(nèi)”(姑且這么說吧,就是處理單行,即字符串里頭不再包含行分割符)的字符串分割方面,cut和awk提供了非常優(yōu)越的“行內(nèi)”(處理單行)處理能力。
1.3.3 更方便地處理用分割符分割好的各個部分
同樣是用到分割符,但為了更方便的操作分割以后的字符串的各個部分,我們抽象了“數(shù)組”這么一個數(shù)據(jù)結(jié)構(gòu),從而讓我們更加方便地通過下標(biāo)來獲取某個指定的部分。bash提供了這么一種數(shù)據(jù)結(jié)構(gòu),而優(yōu)秀的awk也同樣提供了它,我們這里將簡單介紹它們的用法。
概要示例:利用數(shù)組存放"get the length of me"的用空格分開的各個部分。
//1. bash提供的數(shù)組數(shù)據(jù)結(jié)構(gòu),它是以數(shù)字為下標(biāo)的,和C語言從0開始的下標(biāo)一樣 $ var="get the length of me" $ var_arr=($var) #這里把字符串var存放到字符串?dāng)?shù)組var_arr中了,默認(rèn)以空格作為分割符 $ echo ${var_arr[0]} ${var_arr[1]} ${var_arr[2]} ${var_arr[3]} ${var_arr[4]} get the length of me $ echo ${var_arr[@]} #這個就是整個字符串所有部分啦,這里可以用*代替@,下同 get the length of me $ echo ${#var_arr[@]} #記得上面求某個字符串的長度么,#操作符,如果想求某個數(shù)組元素的字符串長度,那么就把@換成下標(biāo)吧 5 // 你也可以直接給某個數(shù)組元素賦值 $ var_arr[5]="new_element" $ echo ${var_arr[5]} 6 $ echo ${var_arr[5]} new_element // bash里頭實(shí)際上還提供了一種類似于“數(shù)組”的功能,即"for i in 用指定分割符分開的字符串" 的用法 // 即,你可以很方便的獲取某個字符串的某個部分 $ for i in $var; do echo -n $i" "; done; get the length of me
//2. awk里頭的數(shù)組,注意比較它和bash提供的數(shù)組的異同 // split把一行按照空格分割,存放到數(shù)組var_arr中,并返回?cái)?shù)組的長度。注意:這里的第一個元素下標(biāo)不是0,而是1 $ echo $var | awk '{printf("%d %s\n", split($0, var_arr, " "), var_arr[1]);}' 5 get // 實(shí)際上,上面的操作很類似awk自身的行處理功能:awk默認(rèn)把一行按照空格分割為多個域,并可以通過$1,$2,$3...來獲取,$0表示整行 // 這里的NF是該行的域的總數(shù),類似于上面數(shù)組的長度,它同樣提供了一種通過“下標(biāo)”訪問某個字符串的功能 $ echo $var | awk '{printf("%d | %s %s %s %s %s | %s\n", NF, $1, $2, $3, $4, $5, $0);}' 5 | get the length of me | get the length of me // awk的“數(shù)組”功能何止于此呢,看看它的for引用吧,注意,這個和bash里頭的for不太一樣,i不是元素本身,而是下標(biāo) $ echo $var | awk '{split($0, var_arr, " "); for(i in var_arr) printf("%s ",var_arr);}' get the length of me $ echo $var | awk '{split($0, var_arr, " "); for(i in var_arr) printf("%s ",i);}' 1 2 3 4 5 // awk還有更“厲害”的處理能力,它的下標(biāo)可以不是數(shù)字,而可以是字符串,從而變成了“關(guān)聯(lián)”數(shù)組,這種“關(guān)聯(lián)”的作用在某些方便將讓我們非常方便 // 比如,我們這里就實(shí)現(xiàn)一個非凡的應(yīng)用,把某個文件中的某個系統(tǒng)調(diào)用名替換成地址,如果你真正用起它,你會感慨它的“鬼斧神工”的。 // 這就是我在一個場合最好才發(fā)現(xiàn)的隨好的實(shí)現(xiàn)方案:有興趣看看awk手冊帖子中我在3樓回復(fù)的實(shí)例吧。 $ cat symbol sys_exit sys_read sys_close $ ls /boot/System.map* $ awk '{if(FILENAME ~ "System.map") map[$3]=$1; else {printf("%s\n", map[$1])}}' /boot/System.map-2.6.20-16-generic symbol c0129a80 c0177310 c0175d80 // 另外,awk還支持刪除某個數(shù)組元素,如果你不用了就可以用delete函數(shù)給刪除掉。如果某些場合有需要的話,別忘了awk還支持二維數(shù)組。
|
okay,就介紹到這里啦。為什么要介紹這些內(nèi)容?再接著看下面的內(nèi)容,你就會發(fā)現(xiàn),那些有些的工具是怎么產(chǎn)生和發(fā)展起來的了,如果累了,看看最后一篇參考資料吧,它介紹了一些linux命令名字的由來,說不定可以幫助你理解本節(jié)下面的部分呢。
2. 字符串常規(guī)操作
字符串操作包括取子串、查詢子串、插入子串、刪除子串、子串替換、子串比較、子串排序、子串進(jìn)制轉(zhuǎn)換、子串編碼轉(zhuǎn)換等。
2.1 取子串概要示例:取子串的方法主要有:直接到指定位置求子串,字符匹配求子串。
// 按照位置取子串,比如從什么位置開始,取多少個字符 $ var="get the length of me" $ echo ${var:0:3} get $ echo ${var:(-2)} # 方向相反呢 me $ echo `expr substr "$var" 5 3` #記得把$var引起來,否則expr會因?yàn)榭崭穸馕鲥e誤 the $ echo $var | awk '{printf("%s\n", substr($0, 9, 6))}' length
// 匹配字符求子串 $ echo ${var%% *} #從右邊開始計(jì)算,刪除最左邊的空格右邊的所有字符 get $ echo ${var% *} #從右邊開始計(jì)算,刪除第一個空格右邊的所有字符 get the length of $ echo ${var##* } #從左邊開始計(jì)算,刪除最右邊的空格左邊的所有字符 me $ echo ${var#* } #從左邊開始計(jì)算,刪除第一個空格左邊的所有字符 the length of me
$ echo $var | awk '{printf("%s\n", $1);}' # awk把$var按照空格分開為多個變量,依次為$1,$2,$3,$4,$5 get $ echo $var | awk '{printf("%s\n", $5);}' me
$ echo $var | cut -d" " -f 5 #差點(diǎn)把cut這個小東西忘記啦,用起來和awk類似, -d指定分割符,如同awk用-F指定分割符一樣,-f指定“域”,如同awk的$數(shù)字。
$ echo $var | sed 's/ [a-z]*//g' #刪除所有 空格+字母串 的字符串,所以get后面的全部被刪除了 get $ echo $var | sed 's/[a-z]* //g' me
$ echo $var | tr " " "\n" | sed -n 1p #sed有按地址(行)打印(p)的功能,記得先用tr把空格換成行號 get $ echo $var | tr " " "\n" | sed -n 5p me
// tr也可以用來取子串哦,它也可以類似#和%來“拿掉”一些字符串來實(shí)現(xiàn)取子串 $ echo $var | tr -d " " getthelengthofme $ echo $var | tr -cd "[a-z]" #把所有的空格都拿掉了,僅僅保留字母字符串,注意-c和-d的用法 getthelengthofme
|
說明:
[1] %和#的區(qū)別是,刪除字符的方向不一樣,前者在右,后者在左,%%和%,##和#的方向是前者是最大匹配,后者是最小匹配。(好的記憶方法見網(wǎng)中人的鍵盤記憶法:#$%是鍵盤依次從左到右的三個鍵)
[2] tr的-c選項(xiàng)是complement的縮寫,即invert,而-d選項(xiàng)是刪除的意思,tr -cd "[a-z]"這樣一來就變成保留所有的字母啦。
對于字符串的截取,實(shí)際上還有一些命令,如果head,tail等可以實(shí)現(xiàn)有意思的功能,可以截取某個字符串的前面、后面指定的行數(shù)或者字節(jié)數(shù)。例如:
$ echo "abcdefghijk" | head -c 4 abcd $ echo -n "abcdefghijk" | tail -c 4 hijk
|
2.2. 查詢子串概要示例:子串查詢包括:返回符合某個模式的子串本身和返回子串在目標(biāo)串中的位置。
準(zhǔn)備:在進(jìn)行下面的操作之前,請把
http://oss.lzu.edu.cn/blog/blog.php?do_showone/tid_1385.html鏈接中的內(nèi)容復(fù)制到一個文本text里頭,用于下面的操作。
// 查詢子串在目標(biāo)串中的位置 $ var="get the length of me" $ expr index "$var" t #貌似僅僅可以返回某個字符或者多個字符中第一個字符出現(xiàn)的位置 3 $ echo $var | awk '{printf("%d\n", match($0,"the"));}' #awk卻能找出字串,match還可以匹配正則表達(dá)式 5
// 查詢子串,返回包含子串的行(awk,sed都可以實(shí)現(xiàn)這些功能,但是grep最擅長) $ grep "consists of" text # 查詢text文件包含consists of的行,并打印這些行 $ grep "consists[[:space:]]of" -n -H text # 打印文件名,子串所在行的行號和該行的內(nèi)容 $ grep "consists[[:space:]]of" -n -o text # 僅僅打印行號和匹配到的子串本身的內(nèi)容 $ awk '/consists of/{ printf("%s:%d:%s\n",FILENAME, FNR, $0)}' text #看到?jīng)]?和grep的結(jié)果一樣 $ sed -n -e '/consists of/=;/consists of/p' text #同樣可以打印行號
|
說明:
[1] awk,grep,sed都能通過模式匹配查找指定的字符串,但是它們各有擅長的領(lǐng)域,我們將在后續(xù)的章節(jié)中繼續(xù)使用和比較它們,從而發(fā)現(xiàn)各自的優(yōu)點(diǎn)。
[2] 在這里我們姑且把文件內(nèi)容當(dāng)成了一個大的字符串,在后面的章節(jié)中我們將專門介紹文件的操作,所以對文件內(nèi)容中存放字符串的操作將會有更深入的分析和介紹。
2.3. 子串替換子串替換就是把某個指定的子串替換成其他的字符串,實(shí)際上這里就蘊(yùn)含了“插入子串”和“刪除子串”的操作。例如,你想插入某個字符串到某個子串之前,就可以把原來的子串替換成”子串+新的字符串“,如果想刪除某個子串,就把子串替換成空串。不過有些工具提供了一些專門的用法來做插入子串和刪除子串的操作,所以呆伙還是會專門介紹的。另外,要想替換掉某個子串,一般都是先找到子串(查詢子串),然后再把它替換掉的,實(shí)質(zhì)上很多工具在使用和設(shè)計(jì)上都體現(xiàn)了這么一點(diǎn)。
概要示例:下面我們把變量var中的空格替換成下劃線看看。
// 用{}運(yùn)算符,還記得么?網(wǎng)中人的教程。 $ var="get the length of me" $ echo ${var/ /_} #把第一個空格替換成下劃線 get_the length of me $ echo ${var// /_} #把所有空格都替換成了下劃線了 get_the_length_of_me
// 用awk,awk提供了轉(zhuǎn)換的最小替換函數(shù)sub和全局替換函數(shù)gsub,類似/和// $ echo $var | awk '{sub(" ", "_", $0); printf("%s\n", $0);}' get_the length of me $ echo $var | awk '{gsub(" ", "_", $0); printf("%s\n", $0);}' get_the_length_of_me
// 用sed了,子串替換可是sed的特長 $ echo $var | sed -e 's/ /_/' #s <= substitude get_the length of me $ echo $var | sed -e 's/ /_/g' #看到?jīng)]有,簡短兩個命令就實(shí)現(xiàn)了最小匹配和最大匹配g <= global get_the_length_of_me
// 有忘記tr命令么?可以用替換單個字符的 $ echo $var | tr " " "_" get_the_length_of_me $ echo $var | tr '[a-z]' '[A-Z]' #這個可有意思了,把所有小寫字母都替換為大寫字母 GET THE LENGTH OF ME
|
說明:sed還有很有趣的標(biāo)簽用法呢,下面再介紹吧。
有一種比較有意思的字符串替換是,整個文件行的倒置,這個可以通過tac命令實(shí)現(xiàn),它會把文件中所有的行全部倒轉(zhuǎn)過來。在一定意義上來說,排序?qū)嶋H上也是一個字符串替換。
2.4. 插入子串插入子串:就是在指定的位置插入子串,這個位置可能是某個子串的位置,也可能是從某個文件開頭算起的某個長度。通過上面的練習(xí),我們發(fā)現(xiàn)這兩者之間實(shí)際上是類似的。
公式:插入子串=把"old子串"替換成"old子串+new子串"或者"new子串+old子串"
概要示例::下面在var字符串的空格之前或之后插入一個下劃線
// 用{} $ var="get the length of me" $ echo ${var/ /_ } #在指定字符串之前插入一個字符串 get_ the length of me $ echo ${var// /_ } get_ the_ length_ of_ me $ echo ${var/ / _} #在指定字符串之后插入一個字符串 get _the length of me $ echo ${var// / _} get _the _length _of _me
// 其他的還用演示么?這里主要介紹sed怎么用來插入字符吧,因?yàn)樗臉?biāo)簽功能很有趣 $ echo $var | sed -e 's/\( \)/_\1/' #\(和\)將不匹配到的字符串存放為一個標(biāo)簽,按匹配順序?yàn)閈1,\2... get_ the length of me $ echo $var | sed -e 's/\( \)/_\1/g' get_ the_ length_ of_ me $ echo $var | sed -e 's/\( \)/\1_/' get _the length of me $ echo $var | sed -e 's/\( \)/\1_/g' get _the _length _of _me
// 看看sed的標(biāo)簽的順序是不是\1,\2....,看到?jīng)]?\2和\1掉換位置后,the和get的位置掉換了 $ echo $var | sed -e 's/\([a-z]*\) \([a-z]*\) /\2 \1 /g' the get of length me // sed還有專門的插入指令,a和i,分別表示在匹配的行后和行前插入指定字符 $ echo $var | sed '/get/a test' get the length of me test $ echo $var | sed '/get/i test' test get the length of me
|
2.5. 刪除子串刪除子串:應(yīng)該很簡單了吧,把子串替換成“空”(什么都沒有)不就變成了刪除么。還是來簡單復(fù)習(xí)一下替換吧。概要示例::把var字符串中所有的空格給刪除掉。鼓勵:這樣一替換不知道變成什么單詞啦,誰認(rèn)得呢?但是中文卻是連在一起的,所以中文有多難,你想到了么?原來你也是個語言天才,而英語并不可怕,你有學(xué)會它的天賦,只要你有這個打算。如果要刪除掉第一個空格后面所有的字符串該怎么辦呢?還記得{}的#和%用法么?如果不記得,回到這一節(jié)的還頭開始復(fù)習(xí)吧。(實(shí)際上刪除子串和取子串未嘗不是兩種互補(bǔ)的運(yùn)算呢,刪除掉某些不想要的子串,也就同時取得另外那些想要的子串——這個世界就是一個“二元”的世界,非常有趣)這個很簡單:還記得test命令的用法么?man test。它可以用來判斷兩個字符串是否相等的。另外,你發(fā)現(xiàn)了“字符串是否相等”和“字符串能否跟另外一個字符串匹配"兩個問題之間的關(guān)系嗎?如果兩個字符串完全匹配,那么這兩個字符串就相等了。所以呢,上面用到的字符串匹配方法,也同樣可以用到這里。差點(diǎn)忘記這個重要的內(nèi)容了,子串排序可是經(jīng)常用到的,常見的有按字母序、數(shù)字序等正序或反序排列。sort命令可以用來做這個工作,它和其他行處理命令一樣,是按行操作的,另外,它類似cut和awk,可以指定分割符,并指定需要排序的列。如果字母和數(shù)字字符用來計(jì)數(shù),那么就存在進(jìn)制轉(zhuǎn)換的問題。在數(shù)值計(jì)算一節(jié)的回復(fù)資料里,我們已經(jīng)介紹了bc命令,這里再簡單的復(fù)習(xí)一下。說明:ibase指定輸入進(jìn)制,obase指出輸出進(jìn)制,這樣通過調(diào)整ibase和obase,你想怎么轉(zhuǎn)就怎么轉(zhuǎn)啦!什么是字符編碼?這個就不用介紹了吧,看過那些亂七八糟顯示的網(wǎng)頁么?大多是因?yàn)闉g覽器顯示時的”編碼“和網(wǎng)頁實(shí)際采用的”編碼“不一致導(dǎo)致的。字符編碼通常是指把一序列”可打印“字符轉(zhuǎn)換成二進(jìn)制表示,而字符解碼呢則是執(zhí)行相反的過程,如果這兩個過程不匹配,則出現(xiàn)了所謂的”亂碼“。為了解決”亂碼“問題呢?就需要進(jìn)行編碼轉(zhuǎn)換。在linux下,我們可以使用iconv這個工具來進(jìn)行相關(guān)操作。這樣的情況經(jīng)常在不同的操作系統(tǒng)之間移動文件,不同的編輯器之間交換文件的時候遇到,目前在windows下常用的漢字編碼是gb2312,而在linux下則大多采用utf8。說明:我的終端默認(rèn)編碼是utf8,所以結(jié)果如上。實(shí)際上,在用Bash編程時,大部分時間都是在處理字符串,因此把這一節(jié)熟練掌握非常重要。范例演示:處理URL地址URL地址 (URL(Uniform Resoure Locator:統(tǒng)一資源定位器)是WWW頁的地址)幾乎是我們?nèi)粘I畹耐姘椋覀円呀?jīng)到了無法離開它的地步啦,對它的操作很多,包括判斷URL地址的有效性,截取地址的各個部分(服務(wù)器類型、服務(wù)器地址、端口、路徑等)并對各個部分進(jìn)行進(jìn)一步的操作。下面我們來具體處理這個URL地址:有了上面的知識,我們就可以非常容易地進(jìn)行這些工作啦:修改某個文件的文件名,比如調(diào)整它的編碼,下載某個網(wǎng)頁里頭的所有pdf文檔等。這些就作為練習(xí)自己做吧,如果遇到問題,可以在回帖交流。相應(yīng)地可以參考這個例子:[1] 用腳本下載某個網(wǎng)頁中的英文原著(pdf文檔)平時做工作,大多數(shù)時候處理的都是一些“格式化”的文本,比如類似/etc/passwd這樣的有固定行和列的文本,也有類似tree命令輸出的那種具有樹形結(jié)構(gòu)的文本,當(dāng)然還有其他具有特定結(jié)構(gòu)的文本。關(guān)于樹狀結(jié)構(gòu)的文本的處理,可以考慮看看這兩個例子: [1] 用AWK轉(zhuǎn)換樹形數(shù)據(jù)成關(guān)系表[2] 用Graphviz進(jìn)行可視化操作──繪制函數(shù)調(diào)用關(guān)系圖實(shí)際上,只要把握好特性結(jié)構(gòu)的一些特點(diǎn),并根據(jù)具體的應(yīng)用場合,處理起來就不會困難。下面我們來介紹具體有固定行和列的文本的操作,以/etc/passwd文件為例。關(guān)于這個文件的幫忙和用戶,請通過man 5 passwd查看。下面我們對這個文件以及相關(guān)的文件進(jìn)行一些有意義的操作。上面涉及到了處理某格式化行中的指定列,包括截取(如SQL的select用法),連接(如SQL的join用法),排序(如SQL的order by用法),都可以通過指定分割符來拆分某個格式化的行,另外,“截取”的做法還有很多,不光是cut,awk,甚至通過IFS指定分割符的read命令也可以做到,例如:因此,熟悉這些用法,我們的工作將變得非常靈活有趣。到這里,需要做一個簡單的練習(xí),如何把按照列對應(yīng)的用戶名和用戶ID轉(zhuǎn)換成按照行對應(yīng)的,即把類似下面的數(shù)據(jù):轉(zhuǎn)換成:并轉(zhuǎn)換回去,有什么辦法呢?記得諸如tr,paste,split等命令都可以使用。參考方法:*正轉(zhuǎn)換:先截取用戶名一列存入文件user,再截取用戶ID存入id,再把兩個文件用paste -s命令連在一起,這樣就完成了正轉(zhuǎn)換。*逆轉(zhuǎn)換:先把正轉(zhuǎn)換得到的結(jié)果用split -1拆分成兩個文件,再把兩個拆分后的文件用tr把分割符"\t"替換成"\n",只有用paste命令把兩個文件連在一起,這樣就完成了逆轉(zhuǎn)換。更多有趣的例子,可以參考該序列第一部分的回復(fù),即參考資料[16]的回復(fù),以及蘭大開源社區(qū)鏡像站用的鏡像腳本,即參考資料[17],另外,參考資料[18] 關(guān)于用Shell實(shí)現(xiàn)一個五筆反查小工具也值得閱讀和改進(jìn)。
posted on 2009-06-01 14:08
chatler 閱讀(520)
評論(0) 編輯 收藏 引用 所屬分類:
Shell