Linux使用shell进行逐行文本求和

如果我们要计算一个文本文件中某一列数字的总和,给出一个文件如下:

touch test.txt

1 3
2 4
3 5
4 7

使用之前提到的awk指令,可以使用以下方式:

awk '{s+=$2} END {print s}' test.txt
19

使用这种方式可以得到我们想要的结果,但是我们还可以使用另外一种方式:即使用shell脚本进行逐行处理。

接下来我们来剖析使用shell 脚本逐行处理文本求和

touch test.sh

#!/bin/bash
sum=0
cat test.txt | while read line
do
		temp_num=$(echo "$line" | cut -d ' ' -f 2)
		sum=$(( $sum + $temp_num ))
done
echo "we get sum:$sum"                    
$ chmod +x test.sh
$ ./test.sh
$ we get sum:0

得到的结果是0,显然是错误的

从脚本中分析,在cat test.txt 之后将数据通过管道传递到while循环中,而while 循环的执行结果都是在一个子shell中,一旦这个子shell退出后,它里面的执行结果就会被释放。

我们在Linux中可以安装shellcheck 工具,用于检查shell 脚本的正确性,以Ubuntu为例:

sudo apt-get install shellcheck
$ shellcheck 2.sh

In 2.sh line 3:
cat test.txt | while read line
    ^------^ SC2002: Useless cat. Consider 'cmd < file | ..' or 'cmd file | ..' instead.
                     ^--^ SC2162: read without -r will mangle backslashes.


In 2.sh line 6:
    sum=$(( $sum + $temp_num ))
    ^-^ SC2030: Modification of sum is local (to subshell caused by pipeline).
            ^--^ SC2004: $/${} is unnecessary on arithmetic variables.
                   ^-------^ SC2004: $/${} is unnecessary on arithmetic variables.


In 2.sh line 9:
echo "we get sum:$sum"
                 ^--^ SC2031: sum was modified in a subshell. That change might be lost.

For more information:
https://www.shellcheck.net/wiki/SC2030 -- Modification of sum is local (to ...
https://www.shellcheck.net/wiki/SC2031 -- sum was modified in a subshell. T...
https://www.shellcheck.net/wiki/SC2162 -- read without -r will mangle backs...

不使用管道命令的情况下,继续进行尝试

!/bin/bash                                                                                     
sum=0
for line in $(cat test.txt)
do
    echo "we get line: $line"
    temp_num=$(echo "$line" | cut -d ' ' -f 2)
    sum=$(( $sum + $temp_num ))
done
echo "we get sum:$sum"

得到以下结果:

$ ./2.sh
we get line: 1
we get line: 3
we get line: 2
we get line: 4
we get line: 3
we get line: 5
we get line: 4
we get line: 7
we get sum:29!/bin/bash                                                                                     
IFS=$'\n'
sum=0
for line in $(cat test.txt)
do
    echo "we get line: $line"
    temp_num=$(echo "$line" | cut -d ' ' -f 2)
    sum=$(( $sum + $temp_num ))
done
echo "we get sum:$sum"

从结果中可以看出,如果文本中存在空格或者tab等,读取的时候遇到空格,tab,或者换行就会停止读取了。

预期的目的应该是遇到换行才停止读取,为了达到这个目的,可以通过IFS设置以下标记,在shell脚本的开头加上:

IFS=$'\n'
!/bin/bash                                                                                     
IFS=$'\n'
sum=0
for line in $(cat test.txt)
do
    echo "we get line: $line"
    temp_num=$(echo "$line" | cut -d ' ' -f 2)
    sum=$(( $sum + $temp_num ))
done
echo "we get sum:$sum"

得到的结果如下:

$ ./2.sh
we get line: 1 3
we get line: 2 4
we get line: 3 5
we get line: 4 7
we get sum:19

这样得到的结果就是正确的


让我们尝试再换一种方式:

!/bin/bash                                                                                     
sum=0
while read line
do
    echo "line $line"
    temp_num=$(echo "$line" | cut -d ' ' -f 2)
    sum=$(( $sum + $temp_num ))
done < test.txt
echo "we get sum: $sum"

这种方式也可以得到正确的结果

当然,我们也可以读取指定的某一个数列,使用以下这种方式:

!/bin/bash                                                                                     
sum=0
while read col1 col2
do
    echo "get num: $col2"
    sum=$(( $sum + $col2 ))
done < "test.txt"
echo "we get sum: $sum"

其中col1, col2就分别代表第一列,第二列,使用的时候,可以直接使用对应列的内容。


通过加上-r参数可以处理每一行中的转义字符

while read -r line

最后

在使用shell脚本进行逐行处理文本时,需要注意以下几种情况:

  • 行文本中有空格,tab
  • 行文本中有转义字符
  • 可以使用shellcheck 工具提前对shell脚本进行检查,纠正错误

内容出处:,

声明:本网站所收集的部分公开资料来源于互联网,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。文章链接:http://www.yixao.com/procedure/24796.html

发表评论

登录后才能评论