awk命令怎么处理awk f 特殊字符符

新手园地& & & 硬件问题Linux系统管理Linux网络问题Linux环境编程Linux桌面系统国产LinuxBSD& & & BSD文档中心AIX& & & 新手入门& & & AIX文档中心& & & 资源下载& & & Power高级应用& & & IBM存储AS400Solaris& & & Solaris文档中心HP-UX& & & HP文档中心SCO UNIX& & & SCO文档中心互操作专区IRIXTru64 UNIXMac OS X门户网站运维集群和高可用服务器应用监控和防护虚拟化技术架构设计行业应用和管理服务器及硬件技术& & & 服务器资源下载云计算& & & 云计算文档中心& & & 云计算业界& & & 云计算资源下载存储备份& & & 存储文档中心& & & 存储业界& & & 存储资源下载& & & Symantec技术交流区安全技术网络技术& & & 网络技术文档中心C/C++& & & GUI编程& & & Functional编程内核源码& & & 内核问题移动开发& & & 移动开发技术资料ShellPerlJava& & & Java文档中心PHP& & & php文档中心Python& & & Python文档中心RubyCPU与编译器嵌入式开发驱动开发Web开发VoIP开发技术MySQL& & & MySQL文档中心SybaseOraclePostgreSQLDB2Informix数据仓库与数据挖掘NoSQL技术IT业界新闻与评论IT职业生涯& & & 猎头招聘IT图书与评论& & & CU技术图书大系& & & Linux书友会二手交易下载共享Linux文档专区IT培训与认证& & & 培训交流& & & 认证培训清茶斋投资理财运动地带快乐数码摄影& & & 摄影器材& & & 摄影比赛专区IT爱车族旅游天下站务交流版主会议室博客SNS站务交流区CU活动专区& & & Power活动专区& & & 拍卖交流区频道交流区
白手起家, 积分 11, 距离下一级还需 189 积分
论坛徽章:0
&&比如文件shell.ini中包含有如下 一行 abc-efg = [&aa.tp://daylight-clear-data@127.0.0.1:2350&]。
然后想把这行替换为如下格式的: abc-efg = [&aa.tp://daylight-clear-data@127.0.0.1:2350&,&aa.tp://daylight-clear-data@127.0.0.2:2350&,&aa.tp://daylight-clear-data@127.0.0.3:2350&]. 其实主要是多添加了[]中的同一个内容,但ip不同。
求各位大侠,赐教
主要是这个里边包含了 //&&这符号,经常遇到报& & sed: -e expression #1, char 2: unterminated `s' command& &的错误
白手起家, 积分 2, 距离下一级还需 198 积分
论坛徽章:0
echo 'abc-efg = [&aa.tp://daylight-clear-data@127.0.0.1:2350&]' |sed -r 's/(abc-efg.*)\[(.*@)([0-9]+\.[0-9]+\.[0-9]+\.)[0-9]+(:2350\&)\]/\1\[\2\31\4\,\2\32\4\,\2\33\4\]/'
abc-efg = [&aa.tp://daylight-clear-data@127.0.0.1:2350&,&aa.tp://daylight-clear-data@127.0.0.2:2350&,&aa.tp://daylight-clear-data@127.0.0.3:2350&]
是这个意思么?
巨富豪门, 积分 38232, 距离下一级还需 1768 积分
论坛徽章:23
写 s 命令的时候用 #
s#xxx#ooo#
小富即安, 积分 4390, 距离下一级还需 610 积分
论坛徽章:20
这个awk写得比较戳。。。。awk --re-interval -F'[][]' -vOFS=&[& '{s=$2;for(i=2;i&=3;i++){s=s&,&gensub(/(([0-9]+.){3})[0-9]+/,&\\1&i,1,$2)}$2=s&]&;NF-=1}1' file复制代码
小富即安, 积分 2217, 距离下一级还需 2783 积分
论坛徽章:28
awk '{match($0,&([^[]+)\\[(.+\\.)([0-9]+)(.+\042)&,a);}END{printf a[1]&[&;for(i=0;i&=2;i++){printf &%s%d%s&,a[2],a[3]+i,a[4];if(i&=1)printf &,&}print &]&}' file复制代码回复
白手起家, 积分 11, 距离下一级还需 189 积分
论坛徽章:0
破晓丶丘比特
大侠好厉害。和我预想的有点出入,我一开始描述不详细。在描述下:
如 shell.ini中包含的信息如下:
abc-efg = [&aa.tp://daylight-clear-data@127.0.0.1:2350&]
然后呢,我创建一个shell脚本,然后执行这脚本后呢,shell.ini中的文件内容变成了这样
abc-efg = [&aa.tp://daylight-clear-data@127.0.0.1:2350&,&aa.tp://daylight-clear-data@127.0.0.2:2350&,&aa.tp://daylight-clear-data@127.0.0.3:2350&]
脚本的执行方式:./shell.sh&&ip1&&ip2 ip3 shell.ini.也就是说这个ip不是固定的,每次使用参数传进去,这样方便一些
您写的这个,后面:& & /\1\[\2\31\4\,\2\32\4\,\2\33\4\]/'&&这部分不明白。使用不知道到如果使用参数的话,该怎么样写呢, 先谢过大侠了
白手起家, 积分 11, 距离下一级还需 189 积分
论坛徽章:0
这个执行了一下,返回[0,1,2] ,应该不对
白手起家, 积分 11, 距离下一级还需 189 积分
论坛徽章:0
songyc_2015
执行了一次,是实现了,但是如何 能够灵活修改 这个 ip值呢,请赐教,多谢了。比如 参数传入后,直接由参数替换这其中的3个ip。
白手起家, 积分 11, 距离下一级还需 189 积分
论坛徽章:0
songyc_2015
这样还不行,会把文中多有 [。。。] 格式 这样的,都会复制修改成三份。
稍有积蓄, 积分 226, 距离下一级还需 274 积分
论坛徽章:3
sed -n 's#\(&aa.tp://daylight-clear-data@127.0.0.1:2350&\)#\1,\1,\1#p'&&shell.ini 这个是修改行内容的--灵活修改ip坐等大神解答10:55 提问
awk -f 特殊字符分割问题
我在用awk进行字符分割的时候,遇到特殊分隔符问题:
&$test&$保税区&保盈南$路19号广上科技
需要以"&$"作为分割符号。
我写了如下正则,awk -F "[&][$]" '{print $2}' awk_test.txt
各位帮忙看看是否合理,谢谢
还有没有更加高效的处理办法,这里用到正则了,由于我的数据量在千万级别,我感觉效率会有影响。
按赞数排序
正则表达式是最好方法了。
准确详细的回答,更有利于被提问者采纳,从而获得C币。复制、灌水、广告等回答会被删除,是时候展现真正的技术了!
其他相关推荐他的最新文章
他的热门文章
您举报文章:
举报原因:
原文地址:
原因补充:
(最多只允许输入30个字)下次自动登录
现在的位置:
& 综合 & 正文
shell 知识点补充(3)-修改语系/特殊字符/ printf/sed 工具/awk 工具/diff/cmp
1、修改语系的方法为:
[root@test root]# LANG=en
(根据情况指定为其它语法,如:C)
[root@test root]# export LANG
linux vi 删除指定所有字符
按一下esc键退回命令状态
输入以下命令,如删除文件中每一行中第一个|符号
其它字符类同
2、重要特殊字符(characters)
意义与范例
待搜寻的字符串(word)在行首!
范例:grep -n '^#' regular_express.txt 搜寻行首为 # 开始的那一行!
待搜寻的字符串(word)在行尾!
范例:grep -n '!$' regular_express.txt 将行尾为 ! 的那一行打印出来!
代表『任意一个』字符,一定是一个任意字符!
范例:grep -n 'e.e' regular_express.txt
搜寻的字符串可以是 (eve) (eae) (eee) (e e), 但不能仅有 (ee) !亦即 e 与 e 中间『一定』仅有一个字符,而空格符也是字符!
跳脱字符,将特殊符号的特殊意义去除!
范例:grep -n \' regular_express.txt 搜寻含有单引号 ' 的那一行!
重复零个或多个的前一个 RE 字符
范例:grep -n 'ess*' regular_express.txt 找出含有 (es) (ess) (esss) 等等的字符串,注意,因为 * 可以是 0 个,所以 es 也是符合带搜寻字符串。另外,因为 * 为重复『前一个 RE 字符』的符号, 因此,在 * 之前必须要紧接着一个 RE 字符喔!例如任意字符则为『.*』!
连续 n 到 m 个的『前一个 RE 字符』若为 \{n\} 则是连续 n 个的前一个 RE 字符, 若是 \{n,\} 则是连续 n 个以上的前一个 RE 字符!
范例:grep -n 'go\{2,3\}g' regular_express.txt 在 g 与 g 之间有 2 个到 3 个的 o 存在的字符串,亦即 (goog)(gooog)
字符集合的 RE 特殊字符的符号
[list] 范例:grep -n 'g[ld]' regular_express.txt 搜寻含有 (gl) 或 (gd) 的那一行~ 需要特别留意的是,在 [] 当中『谨代表一个待搜寻的字符』, 例如: a[afl]y 代表搜寻的字符串可以是 aay, afy, aly 亦即 [afl] 代表 a 或 f 或 l 的意思! [ch1-ch2] 范例:grep -n '[0-9]' regular_express.txt 搜寻含有任意数字的那一行!需特别留意,在字符集合 [] 中的减号
- 是有特殊意义的,他代表两个字符之间的所有连续字符!但这个连续与否与 ASCII 编码有关, 因此,您的编码需要设定正确(在 bash 当中,需要确定 LANG 与 LANGUAGE 的变量是否正确!) 例如所有大写字符则为 [A-Z] [^] 范例:grep -n 'oo[^t]' regular_express.txt 搜寻的字符串可以是 (oog) (ood) 但不能是 (oot) ,那个 ^ 在 [] 内时, 代表的意义是『反向选择』的意思~例如,我不要大写字符,则为 [^A-Z] ~ 但是,需要特别注意的是,如果以
grep -n [^A-Z] regular_express.txt 来搜寻, 却发现该档案内的所有行都被列出,为什么?因为这个 [^A-Z] 是『非大写字符』的意思, 因为每一行均有非大写字符,例如第一行的 "Open Source" 就有 p,e,n,o.... 等等的小写字符, 以及双引号 (") 等字符,所以当然符合 [^A-Z] 的搜寻!
特别留意的是,『正规表示法的特殊字符』与一般在指令列输入指令的『万用字符』并不相同, 例如,在万用字符当中,* 代表的是 0 ~ 无限多个字符的意思,但是在正规表示法当中, * 则是重复 0 到多个的前一个 RE 字符的意思~使用的意义并不相同,不要搞混了!
重复『一个或一个以上』的前一个 RE 字符;范例:egrep -n 'go+d' regular_express.txt 搜寻 (god) (good) (goood)... 等等的字符串。那个 o+ 代表『一个以上的 o 』所以,上面的执行成果会将第 1, 9, 13 行列出来。
『零个或一个』的前一个 RE 字符
『零个或一个』的前一个 RE 字符;范例:egrep -n 'go?d' regular_express.txt 搜寻 (gd) (god) 这两个字符串。那个 o? 代表『空的或 1 个 o 』所以,上面的执行成果会将第 13, 14 行列出来。有没有发现到,这两个案例( 'go+d' 与 'go?d' )的结果集合与 'go*d' 相同? 想想看,这是为什么喔! ^_^
用或( or )的方式找出数个字符串; 范例:egrep -n 'gd|good' regular_express.txt 搜寻 gd 或 good 这两个字符串,注意,是『或』! 所以,第 1,9,14 这三行都可以被打印出来喔!那如果还想要找出 dog 呢?就这样啊: egrep -n 'gd|good|dog' regular_express.txt
找出『群组』字符串;
范例:egrep -n 'g(la|oo)d' regular_express.txt 搜寻 (glad) 或 (good) 这两个字符串,因为 g 与 d 是重复的,所以, 我
就可以将 la 与 oo 列于 ( ) 当中,并以 | 来分隔开来,就可以啦! 此外,这个功能还可以用来作为『多个重复群组』的判别喔!举例来说: echo 'AxyzxyzxyzxyzC' | egrep 'A(xyz)+C' 上面的例子当中,意思是说,我要找开头是 A 结尾是 C ,中间有一个以上的 "xyz" 字符串的意思~
3、格式化打印: printf
[root@linux ~]# printf '打印格式' 实际内容
关于格式方面的几个特殊样式:
\a 警告声音输出
\b 退格键(backspace)
\f 清除屏幕 (form feed)
\n 输出新的一行
\r 亦即 Enter 按键
\t 水平的 [tab] 按键
\v 垂直的 [tabl] 按键
\xNN NN 为两位数的数字,可以转换数字成为字符。
关于 C 程序语言内,常见的变数格式
%ns 那个 n 是数字, s 代表 string ,亦即多少个字符;
%ni 那个 n 是数字, i 代表 integer ,亦即多少整数字数;
%N.nf 那个 n 与 N 都是数字, f 代表 floating (浮点),如果有小数字数,
假设我共要十个位数,但小数点有两位,即为 %10.2f 啰!
范例一:将刚刚上头的数据变成档案,仅列出姓名与成绩:(用 [tab] 分隔
[root@linux ~]# printf '%s\t %s\t %s\t %s\t %s\t \n' `cat printf.txt`
Name Chinese English Math Average
DmTsai 80 60 92 77.33
VBird 75 55 80 70.00
Ken 60 90 70 73.33
# 假设我将上面的档案存成 printf.txt 档案档名,则可利用上面的案例,
# 将每个单字中间以 [tab] 按键隔开。由上面的输出来看,虽然第二行以后是 OK 的,
# 但是第一行则因为某些单字长度较长,所以就无法对齐了!而 %s 表示以字符串 (string)
# 的方式来展现该内容。而每个内容则以 \t 即 [tab] 来隔开啊!
范例二:将上述资料关于第二行以后,分别以字符串、整数、小数点来显示:
[root@linux ~]# printf '%10s %5i %5i %5i %8.2f \n' `cat printf.txt |\
& grep -v Name`
DmTsai 80 60 92 77.33
VBird 75 55 80 70.00
Ken 60 90 70 73.33
# 这个时候的输出可就有趣了!我将几个内容分成不同的数据格式来输出,
# 最有趣的应该是 %8.2f 这个项目了!我可以针对不同的小数字数来进行格式输出,
# 例如变成底下的样子时,您自己试看看,会是输出什么结果喔!
# printf '%10s %5i %5i %5i %8.1f \n' `cat printf.txt | grep -v Name`
范例三:列出数值 45 代表的字符为何?
[root@linux ~]# printf '\x45\n'
4、sed 工具简介
sed 可以分析 Standard Input (STDIN) 的数据, 然后将数据经过处理后,再将他输出到 standrad out (STDOUT) 的一个工具;
[root@linux ~]# sed [-nefr] [动作]
-n :使用安静(silent)模式。在一般 sed 的用法中,所有来自 STDIN
的数据一般都会被列出到屏幕上。但如果加上 -n 参数后,则只有经过
sed 特殊处理的那一行(或者动作)才会被列出来。
-e :直接在指令列模式上进行 sed 的动作编辑;
-f :直接将 sed 的动作写在一个档案内, -f filename 则可以执行 filename 内的
sed 动作;
-r :sed 的动作支持的是延伸型正规表示法的语法。(预设是基础正规表示法语法)
动作说明: [n1[,n2]]function
n1, n2 :不见得会存在,一般代表『选择进行动作的行数』,举例来说,如果我的动作
是需要在 10 到 20 行之间进行的,则『 10,20[动作行为] 』
function 有底下这些咚咚:
a :新增, a 的后面可以接字符串,而这些字符串会在新的一行出现(目前的下一行)~
c :取代, c 的后面可以接字符串,这些字符串可以取代 n1,n2 之间的行!
d :删除,因为是删除啊,所以 d 后面通常不接任何咚咚;
i :插入, i 的后面可以接字符串,而这些字符串会在新的一行出现(目前的上一行);
p :打印,亦即将某个选择的数据印出。通常 p 会与参数 sed -n 一起运作~
s :取代,可以直接进行取代的工作哩!通常这个 s 的动作可以搭配
正规表示法!例如 1,20s/old/new/g 就是啦!
范例一:将 /etc/passwd 的内容列出,并且我需要打印行号,同时,请将第 2~5 行删除!
[root@linux ~]# nl /etc/passwd | sed '2,5d'
1 root:x:0:0:root:/root:/bin/bash
6 sync:x:5:0:sync:/sbin:/bin/sync
7 shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
.....(后面省略).....
# 看到了吧?因为 2-5 行给他删除了,所以显示的数据中,就没有 2-5 行啰~
# 另外,注意一下,原本应该是要下达 sed -e 才对,没有 -e 也行啦!
# 同时也要注意的是, sed 后面接的动作,请务必以 '' 两个单引号括住喔!
# 而,如果只要删除第 2 行,可以使用 nl /etc/passwd | sed '2d' 来达成,
# 至于第 3 到最后一行,则是 nl /etc/passwd | sed '3,$d' 的啦!
范例二:承上题,在第二行后(亦即是加在第三行)加上『drink tea?』字样!
[root@linux ~]# nl /etc/passwd | sed '2a drink tea'
1 root:x:0:0:root:/root:/bin/bash
2 bin:x:1:1:bin:/bin:/sbin/nologin
3 daemon:x:2:2:daemon:/sbin:/sbin/nologin
# 嘿嘿!在 a 后面加上的字符串就已将出现在第二行后面啰!那如果是要在第二行前呢?
# nl /etc/passwd | sed '2i drink tea' 就对啦!
范例三:在第二行后面加入两行字,例如『Drink tea or .....』『drink beer?』
[root@linux ~]# nl /etc/passwd | sed '2a Drink tea or ......\
& drink beer ?'
1 root:x:0:0:root:/root:/bin/bash
2 bin:x:1:1:bin:/bin:/sbin/nologin
Drink tea or ......
drink beer ?
3 daemon:x:2:2:daemon:/sbin:/sbin/nologin
# 这个范例的重点是,我们可以新增不只一行喔!可以新增好几行~
# 但是每一行之间都必须要以反斜线 \ 来进行新行的增加喔!所以,上面的例子中,
# 我们可以发现在第一行的最后面就有 \ 存在啦!那是一定要的喔!
范例四:我想将第2-5行的内容取代成为『No 2-5 number』呢?
[root@linux ~]# nl /etc/passwd | sed '2,5c No 2-5 number'
1 root:x:0:0:root:/root:/bin/bash
No 2-5 number
6 sync:x:5:0:sync:/sbin:/bin/sync
# 没有了 2-5 行,嘿嘿嘿嘿!我们要的数据就出现啦!
范例五:仅列出第 5-7 行
[root@linux ~]# nl /etc/passwd | sed -n '5,7p'
5 lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin
6 sync:x:5:0:sync:/sbin:/bin/sync
7 shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
# 为什么要加 -n 的参数呢?您可以自行下达 sed '5,7p' 就知道了!(5-7行会重复输出)
# 有没有加上 -n 的参数时,输出的数据可是差很多的喔!
范例六:我们可以使用 ifconfig 来列出 IP ,若仅要 eth0 的 IP 时?
[root@linux ~]# ifconfig eth0
eth0 Link encap:Ethernet HWaddr 00:51:FD:52:9A:CA
inet addr:192.168.1.12 Bcast:192.168.1.255 Mask:255.255.255.0
inet6 addr: fe80::250:fcff:fe22:9acb/64 Scope:Link
UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1
.....(以下省略).....
# 其实,我们要的只是那个 inet addr:..那一行而已,所以啰,利用 grep 与 sed 来捉
[root@linux ~]# ifconfig eth0 | grep 'inet ' | sed 's/^.*addr://g' | \
& sed 's/Bcast.*$//g'
# 您可以将每个管线 (|) 的过程都分开来执行,就会晓得原因啰!
# 去头去尾之后,就会得到我们所需要的 IP 亦即是 192.168.1.12 啰~
范例七:将 /etc/man.config 档案的内容中,有 MAN 的设定就取出来,但不要说明内容。
[root@linux ~]# cat /etc/man.config | grep 'MAN'| sed 's/#.*$//g' | \
& sed '/^$/d'
# 每一行当中,若有 # 表示该行为批注,但是要注意的是,有时候,
# 批注并不是写在第一个字符,亦即是写在某个指令后方,如底下的模样:
# 『shutdown -h now # 这个是关机的指令』,批注 # 就在指令的后方了。
# 因此,我们才会使用到将 #.*$ 这个正规表示法!
sed 去掉行首的数字:
sed 's/^[0-9]*//g'
5、awk 工具简介
awk 则比较倾向于一行当中分成数个『字段』来处理;
[root@linux ~]# awk '条件类型1{动作1} 条件类型2{动作2} ...' filename
awk 可以处理后续接的档案,也可以读取来自前个指令的 standard output 。但如前面说的, awk 主要是处理『每一行的字段内的数据』,而预设的『字段的分隔符为 "空格键"
或 "[tab]键" 』!(如果是按其它字符截取,则需要预设变量,见后文)举例来说,我们用last 可以将登入者的数据取出来, 结果如下所示:
[root@linux ~]# last
dmtsai pts/0 192.168.1.12 Mon Aug 22 09:40 still logged in
root tty1 Mon Aug 15 11:38 - 11:39 (00:01)
reboot system boot 2.6.11 Sun Aug 14 18:18 (7+15:41)
dmtsai pts/0 192.168.1.12 Fri Aug 12 12:07 - 12:08 (00:01)
若我想要取出账号与登入者的 IP ,且账号与 IP 之间以 [tab] 隔开,则会变成这样:
[root@linux ~]# last | awk '{print $1 "\t" $3}'
大括号两边的是单引号,不要和·优先执行搞混了;printf 也可以用,用了之后不会换行;
dmtsai 192.168.1.12
reboot boot
dmtsai 192.168.1.12
因为不论哪一行我都要处理,因此,就不需要有 "条件类型" 的限制!我所想要的是第一栏以及第三栏, 但是,第二行及第三行的内容怪怪的~这是因为数据格式的问题啊!所以啰~使用 awk 的时候,请先确认一下您的数据当中,如果是连续性的数据,请不要有空格或 [tab] 在内,否则,就会像这个例子这样,会发生误判喔! 另外,由上面这个例子您也会知道,在每一行的每个字段都是有变量名称的,那就是 $1, $2... 等变量名称,以上面的例子来说, dmtsai 是 $1
,因为他是第一栏嘛!至于 192.168.1.12 是第三栏,所以他就是 $3 啦!后面以此类推~呵呵!还有个变数喔!那就是 $0 ,$0 代表『一整列资料』的意思~ 以上面的例子来说,第一行的 $0 代表的就是『dmtsai pts/0.... 』那一行啊! 由此可知,刚刚上面四行当中,整个 awk 的处理流程是:
1. 读入第一行,并将第一行的资料填入 $0, $1, $2.... 等变数当中;
2. 依据 "条件类型" 的限制,判断是否需要进行后面的 "动作";
3. 做完所有的动作与条件类型;
4. 若还有后续的『行』的数据,则重复上面 1~3 的步骤,直到所有的数据都读完为止。
awk 怎么知道我到底这个数据有几行?有几栏呢?这就需要 awk 的内建变量的帮忙啦~
每一行 ($0) 拥有的字段总数
就是在句末统计有多少个$
目前 awk 所处理的是『第几行』数据,就是在句末加个行号
目前的分隔字符,预设是空格键
相当于输出空格
我们继续以上面例子来做说明,如果我想要列出每一行的账号,并且列出目前处理的行数, 并且说明,该行有多少字段,则可以这样 (注意, awk 后续的所有动作以 ' 括住, 所以,内容如果想要以 print 打印时,记得,非变量的文字部分,包含上一小节printf 提到的格式中,都需要使用双引号来定义出来喔!)
[root@linux ~]# last | awk '{print $1 "\t lines: " NR "\t columes: " NF}'
dmtsai lines: 1 columes:
root lines: 2 columes: 9
reboot lines: 3 columes: 9
dmtsai lines: 4 columes: 10
这样可以了解 NR 与 NF 的差别
awk 的逻辑运算字符
既然有需要用到 "条件" 的类别,自然就需要一些逻辑运算啰~例如底下这些:
大于或等于
小于或等于
值得注意的是那个 == 的符号,因为在『逻辑运算』上面, 就是所谓的大于、小于、等于等等的判断式上面,我们习惯上是以== 来表示,而如果是直接给予一个值,例如变量设定时,就直接使用 = 而已。好了,我们实际来运用一下逻辑判断吧!举例来说,在 /etc/passwd 当中是以冒号 ":" 来作为字段的分隔,那假设我要查阅,第三栏小于 10 以下的数据,并且仅列出账号与第三栏, 那么可以这样做:
[root@linux ~]# cat /etc/passwd | \
& awk '{FS=":"} $3 & 10 {print $1 "\t " $3}'
按指定字符截取
root:x:0:0:root:/root:/bin/bash
......(以下省略)......
有趣吧!不过,怎么第一行没有正确的显示出来呢?这是因为我们读入第一行的时候, 那些变数 $1, $2... 预设还是以空格键为分隔的,所以虽然我们定义了 FS=":" 了, 但是却仅能在第二行后才开始生效。那么怎么办呢?我们可以预先设定 awk 的变量啊! 利用 BEGIN 这个关键词喔!这样做:
[root@linux ~]# cat /etc/passwd | \
& awk 'BEGIN {FS=":"} $3 & 10 {print $1 "\t " $3}'
......(以下省略)......
很有趣吧!而除了 BEGIN 之外,我们还有 END 呢!另外,如果要用 awk 来进行『计算功能』呢?以底下的例子来看, 假设我有一个薪资数据表,内容是这样的:
Name 1st 2nd 3th
如何帮我计算每个人的总额呢?而且我还想要格式化输出喔! 你可以将上面的数据储存成一个名称为pay.txt 的档案,则:
[root@linux ~]# cat pay.txt | \
& awk 'NR==1{printf "%10s %10s %10s %10s %10s\n",$1,$2,$3,$4,"Total" }
NR&=2{total = $2 + $3 + $4
printf "%10s %10d %10d %10d %10.2f\n", $1, $2, $3, $4, total}'
Name 1st 2nd 3th Total
上面的例子有几个重要事项应该要先说明的:
o 所有的动作,亦即在 {} 内的动作,如果有需要多个指令辅助时,可利用分号『;』间隔, 或者直接以 [Enter] 按键来隔开每个指令,例如上面的 NR&=2 后面接的动作, 利用 total = ... 那个指令来指定加总,而后续则以 printf 来格式化输出!
o 逻辑运算当中,如果是『等于』的情况,则务必使用两个等号『==』!
o 格式化输出时,在 printf 的格式设定当中,务必加上 \n ,才能进行分行!
o 与 bash shell 的变量不同,在 awk 当中,变量可以直接使用,不需加上 $ 符号。
利用 awk 这个玩意儿,就可以帮我们处理很多日常工作了呢!真是好用的很~ 此外, awk 的输出格式
当中,常常会以printf 来辅助,所以, 最好您对 printf 也稍微熟悉一下比较好啦!另外, awk 的动作内{} 也是支持 if (条件) 的喔! 举例来说,上面的指令可以修订成为这样:
[root@linux ~]# cat pay.txt | \
& awk '{if(NR==1) printf "%10s %10s %10s %10s %10s\n",$1,$2,$3,$4,"Total"}
NR&=2{total = $2 + $3 + $4
printf "%10s %10d %10d %10d %10.2f\n", $1, $2, $3, $4, total}'
我们知道 /etc/passwd 里面以 : 来分隔,第一栏为账号名称。请写一只程序,可以将 /etc/passwd 的第一栏取出,而且每一栏都以一行字符串『The 1 account is "root" 』来显示,那个 1 表示行数。
#!/bin/bash
accounts=`cat /etc/passwd | cut -d':' -f1`
for account in $accounts
declare -i i=$i+1
echo "The $i account is \"$account\" "
Loong:/home/yee/shell# cat passwd|awk 'BEGIN {FS=":"} {print "the " NR " account is " $1}'
居然用awk一句话就实现了,呵呵
the 1 account is root
the 2 account is daemon
the 3 account is bin
the 4 account is sys
the 5 account is sync
the 6 account is games
the 7 account is man
.............
5、档案比对
diff 就是用在比对两个档案之间的差异的,一般是用在 ASCII 纯文字文件的比对上。我们先预处理一下一个档案好了。假设我要将 /etc/passwd 的内容,将第四行删除, 第六行则取代成为『no six line』,新的档案放置到 /tmp/test 里面, 那么应该怎么做?
[root@linux ~]# mkdir -p /tmp/test
[root@linux ~]# cat /etc/passwd | \
& sed -e '4d' -e '6c no six line' & /tmp/test/passwd
# 注意一下, sed 后面如果要接超过两个以上的动作时,每个动作前面得加 -e 才行!
接下来讨论一下关于 diff 的用法吧!
[root@linux ~]# diff [-bBi] from-file to-file
from-file :一个档名,作为原始比对档案的档名;
to-file :一个档名,作为目的比对档案的档名;
注意,from-file 或 to-file 可以 - 取代,那个 - 代表『Standard input』之意。
-b :忽略一行当中,仅有多个空白的差异(例如 "about me" 与 "about me" 视为相同
-B :忽略空白行的差异。
-i :忽略大小写的不同。
范例一:比对 /tmp/test/passwd 与 /etc/passwd 的差异:
[root@linux ~]# diff /etc/passwd /tmp/test/passwd
4d3 &==这里是说,左边档案(/etc/passwd)第四行被删除 (d)
& adm:x:3:4:adm:/var/adm:/sbin/nologin
6c5 &==这里是说,左边档案的第六行被取代成右边档案(/tmp/test/passwd)的第五行
& sync:x:5:0:sync:/sbin:/bin/sync
& no six line
# 很聪明吧!用 diff 就把我们刚刚的处理给比对完毕了!
用 diff 比对档案真的是很简单喔!另外, diff 也可以比对整个目录下的差异
[root@linux ~]# diff /etc /tmp/test
还可以比对不同目录下的相同文件名的内容
相对于 diff 的广泛用途, cmp 似乎就用的没有这么多了~ cmp 主要也是在比对两个档案,他主要利用『位』单位去比对,因此, 当然也可以比对 binary file 啰~(还是要再提醒喔, diff 主要是以『行』为单位比对, cmp 则是以『位』为单位去比对,这并不相同!)
[root@linux ~]# cmp [-s] file1 file2
-s :将所有的不同点的位处都列出来。因为 cmp 预设仅会输出第一个发现的不同点。
范例一:用 cmp 比较一下 /etc/passwd 与 /tmp/test/passwd
[root@linux ~]# cmp /etc/passwd /tmp/test/passwd
/etc/passwd /tmp/test/passwd differ: byte 106, line 4
看到了吗?第一个发现的不同点在第四行,而且位数是在第 106 个位处!
&&&&推荐文章:
【上篇】【下篇】

我要回帖

更多关于 awk匹配特殊字符 的文章

 

随机推荐