通用线程 -- sed 实例-白红宇

通用线程 -- sed 实例，第 1 部分

Daniel Robbins, President/CEO, Gentoo Technologies, Inc.

2001 年 10 月

在本文章系列中，Daniel Robbins 将为您演示如何使用功能十分强大（但常被遗忘）的 UNIX 流编辑器 sed。sed 是用批处理方式

编辑文件或以十分有效的方式创建 shell 脚本以修改现有文件的理想工具。

挑选编辑器

在 UNIX 世界中有很多文本编辑器可供我们选择。思考一下 -- vi、emacs 和 jed 以及很多其它工具都会浮现在脑海中。我们都有

自己已逐渐了解并且喜爱的编辑器（以及我们喜爱的组合键）。有了可信赖的编辑器，我们可以轻松处理任何数量与 UNIX 有关的管

理或编程任务。

虽然交互式编辑器很棒，但却有其限制。尽管其交互式特性可以成为强项，但也有其不足之处。考虑一下需要对一组文件执行类似更

改的情形。您可能会本能地运行自己所喜爱的编辑器，然后手工执行一组烦琐、重复和耗时的编辑任务。然而，有一种更好的方法。

进入 sed

如果可以使编辑文件的过程自动化，以便用“批处理”方式编辑文件，甚至编写可以对现有文件进行复杂更改的脚本，那将太好了。

幸运的是，对于这种情况，有一种更好的方法 -- 这种更好的方法称为 "sed"。

sed 是一种几乎包括在所有 UNIX 平台（包括 Linux）的轻量级流编辑器。sed 有许多很好的特性。首先，它相当小巧，通常要比您

所喜爱的脚本语言小很多倍。其次，因为 sed 是一种流编辑器，所以，它可以对从如管道这样的标准输入接收的数据进行编辑。因

此，无需将要编辑的数据存储在磁盘上的文件中。因为可以轻易将数据管道输出到 sed，所以，将 sed 用作强大的 shell 脚本中长

而复杂的管道很容易。试一下用您所喜爱的编辑器去那样做。

GNU sed

对 Linux 用户来说幸运的是，最好的 sed 版本之一恰好是 GNU sed，其当前版本是 3.02。每一个 Linux 发行版都有（或至少应该

有）GNU sed。GNU sed 之所以流行不仅因为可以自由分发其源代码，还因为它恰巧有许多对 POSIX sed 标准便利、省时的扩展。另

外，GNU 没有 sed 早期专门版本的很多限制，如行长度限制 -- GNU 可以轻松处理任意长度的行。

最新的 GNU sed

在研究这篇文章之时我注意到：几个在线 sed 爱好者提到 GNU sed 3.02a。奇怪的是，在 ftp.gnu.org（有关这些链接，请参阅参

考资料）上找不到 sed 3.02a，所以，我只得在别处寻找。我在 alpha.gnu.org的 /pub/sed 中找到了它。于是我高兴地将其下载、

编译然后安装，而几分钟后我发现最新的 sed 版本却是 3.02.80 -- 可在 alpha.gnu.org上 3.02a 源代码旁边找到其源代码。安装

完 GNU sed 3.02.80 之后，我就完全准备好了。

alpha.gnu.org

alpha.gnu.org（请参阅参考资料）是新的和实验性 GNU 源代码的所在地。然而，您还会在那里发现许多优秀、稳定的源代码。出

于某种原因，不是许多 GNU 开发人员忘记将稳定的源代码移至 ftp.gnu.org，就是它们的 "beta" 期间格外长（2 年！）。例如，

sed 3.02a 已有两年，甚至 3.02.80 也有一年，但它们仍不能（在 2000 年 8 月写本文章时）在 ftp.gnu.org 上获得。

正确的 sed

在本系列中，将使用 GNU sed 3.02.80。在即将出现的本系列后续文章中，某些（但非常少）最高级的示例将不能在 GNU sed 3.02

或 3.02a 中使用。如果您使用的不是 GNU sed，那么结果可能会不同。现在为什么不花些时间安装 GNU sed 3.02.80 呢？那样，不

仅可以为本系列的余下部分作好准备，而且还可以使用可能是目前最好的 sed。

sed 示例

sed 通过对输入数据执行任意数量用户指定的编辑操作（“命令”）来工作。sed 是基于行的，因此按顺序对每一行执行命令。然后

，sed 将其结果写入标准输出 (stdout)，它不修改任何输入文件。

让我们看一些示例。头几个会有些奇怪，因为我要用它们演示 sed 如何工作，而不是执行任何有用的任务。然而，如果您是 sed 新

手，那么理解它们是十分重要的。下面是第一个示例：

$ sed -e 'd' /etc/services

如果输入该命令，将得不到任何输出。那么，发生了什么？在该例中，用一个编辑命令 'd' 调用 sed。sed 打开 /etc/services 文

件，将一行读入其模式缓冲区，执行编辑命令（“删除行”），然后打印模式缓冲区（缓冲区已为空）。然后，它对后面的每一行重

复这些步骤。这不会产生输出，因为 "d" 命令除去了模式缓冲区中的每一行！

在该例中，还有几件事要注意。首先，根本没有修改 /etc/services。这还是因为 sed 只读取在命令行指定的文件，将其用作输入

-- 它不试图修改该文件。第二件要注意的事是 sed 是面向行的。'd' 命令不是简单地告诉 sed 一下子删除所有输入数据。相反，

sed 逐行将 /etc/services 的每一行读入其称为模式缓冲区的内部缓冲区。一旦将一行读入模式缓冲区，它就执行 'd' 命令，然后

打印模式缓冲区的内容（在本例中没有内容）。我将在后面为您演示如何使用地址范围来控制将命令应用到哪些行 -- 但是，如果不

使用地址，命令将应用到所有行。

第三件要注意的事是括起 'd' 命令的单引号的用法。养成使用单引号来括起 sed 命令的习惯是个好注意，这样可以禁用 shell 扩

展。

另一个 sed 示例

下面是使用 sed 从输出流除去 /etc/services 文件第一行的示例：

$ sed -e '1d' /etc/services | more

如您所见，除了前面有 '1' 之外，该命令与第一个 'd' 命令十分类似。如果您猜到 '1' 指的是第一行，那您就猜对了。与第一个

示例中只使用 'd' 不同的是，这一次使用的 'd' 前面有一个可选的数字地址。通过使用地址，可以告诉 sed 只对某一或某些特定

行进行编辑。

地址范围

现在，让我们看一下如何指定地址范围。在本例中，sed 将删除输出的第 1 到 10 行：

$ sed -e '1,10d' /etc/services | more

当用逗号将两个地址分开时，sed 将把后面的命令应用到从第一个地址开始、到第二个地址结束的范围。在本例中，将 'd' 命令应

用到第 1 到 10 行（包括这两行）。所有其它行都被忽略。

带规则表达式的地址

现在演示一个更有用的示例。假设要查看 /etc/services 文件的内容，但是对查看其中包括的注释部分不感兴趣。如您所知，可以

通过以 '#' 字符开头的行在 /etc/services 文件中放置注释。为了避免注释，我们希望 sed 删除以 '#' 开始的行。以下是具体做

法：

$ sed -e '/^#/d' /etc/services | more

试一下该例，看看发生了什么。您将注意到，sed 成功完成了预期任务。现在，让我们分析发生的情况。

要理解 '/^#/d' 命令，首先需要对其剖析。首先，让我们除去 'd' -- 这是我们前面所使用的同一个删除行命令。新增加的是

'/^#/' 部分，它是一种新的规则表达式地址。规则表达式地址总是由斜杠括起。它们指定一种模式，紧跟在规则表达式地址之后

的命令将仅适用于正好与该特定模式匹配的行。

因此，'/^#/' 是一个规则表达式。但是，它做些什么呢？很明显，现在该复习规则表达式了。

规则表达式复习

可以使用规则表达式来表示可能会在文本中发现的模式。您在 shell 命令行中用过 '*' 字符吗？这种用法与规则表达式类似，但并

不相同。下面是可以在规则表达式中使用的特殊字符：

字符描述

^ 与行首匹配

$ 与行末尾匹配

. 与任一个字符匹配

* 将与前一个字符的零或多个出现匹配

[ ] 与 [ ] 之内的所有字符匹配

感受规则表达式的最好方法可能是看几个示例。所有这些示例都将被 sed 作为合法地址接受，这些地址出现在命令的左边。下面是

几个示例：

规则表达式描述

/./ 将与包含至少一个字符的任何行匹配

/../ 将与包含至少两个字符的任何行匹配

/^#/ 将与以 '#' 开始的任何行匹配

/^$/ 将与所有空行匹配

/}$/ 将与以 '}'（无空格）结束的任何行匹配

/} *$/ 将与以 '}' 后面跟有零或多个空格结束的任何行匹配

/[abc]/ 将与包含小写 'a'、'b' 或 'c' 的任何行匹配

/^[abc]/ 将与以 'a'、'b' 或 'c' 开始的任何行匹配

在这些示例中，鼓励您尝试几个。花一些时间熟悉规则表达式，然后尝试几个自己创建的规则表达式。可以如下使用 regexp：

$ sed -e '/regexp/d' /path/to/my/test/file | more

这将导致 sed 删除任何匹配的行。然而，通过告诉 sed 打印regexp 匹配并删除不匹配的内容，而不是与之相反的方法，会更有利

于熟悉规则表达式。可以用以下命令这样做：

$ sed -n -e '/regexp/p' /path/to/my/test/file | more

请注意新的 '-n' 选项，该选项告诉 sed 除非明确要求打印模式空间，否则不这样做。您还会注意到，我们用 'p' 命令替换了 'd'

命令，如您所猜想的那样，这明确要求 sed 打印模式空间。就这样，将只打印匹配部分。

有关地址的更多内容

目前为止，我们已经看到了行地址、行范围地址和 regexp 地址。但是，还有更多的可能。我们可以指定两个用逗号分开的规则表达

式，sed 将与所有从匹配第一个规则表达式的第一行开始，到匹配第二个规则表达式的行结束（包括该行）的所有行匹配。例如，以

下命令将打印从包含 "BEGIN" 的行开始，并且以包含 "END" 的行结束的文本块：

$ sed -n -e '/BEGIN/,/END/p' /my/test/file | more

如果没发现 "BEGIN"，那么将不打印数据。如果发现了 "BEGIN"，但是在这之后的所有行中都没发现 "END"，那么将打印所有后续行

。发生这种情况是因为 sed 面向流的特性 -- 它不知道是否会出现 "END"。

C 源代码示例

如果只要打印 C 源文件中的 main() 函数，可输入：

$ sed -n -e '/main[[:space:]]*(/,/^}/p' sourcefile.c | more

该命令有两个规则表达式 '/main[[:space:]]*(/' 和 '/^}/'，以及一个命令 'p'。第一个规则表达式将与后面依次跟有任意数量的

空格或制表键以及开始圆括号的字符串 "main" 匹配。这应该与一般 ANSI C main() 声明的开始匹配。

在这个特别的规则表达式中，出现了 '[[:space:]]' 字符类。这只是一个特殊的关键字，它告诉 sed 与 TAB 或空格匹配。如果愿

意的话，可以不输入 '[[:space:]]'，而输入 '['，然后是空格字母，然后是 -V，然后再输入制表键字母和 ']' -- Control-V 告

诉 bash 要插入“真正”的制表键，而不是执行命令扩展。使用 '[[:space:]]' 命令类（特别是在脚本中）会更清楚。

好，现在看一下第二个 regexp。'/^}' 将与任何出现在新行行首的 '}' 字符匹配。如果代码的格式很好，那么这将与 main() 函数

的结束花括号匹配。如果格式不好，则不会正确匹配 -- 这是执行模式匹配任务的一件棘手之事。

因为是处于 '-n' 安静方式，所以 'p' 命令还是完成其惯有任务，即明确告诉 sed 打印该行。试着对 C 源文件运行该命令 -- 它

应该输出整个 main() { } 块，包括开始的 "main()" 和结束的 '}'。

本文转自sucre03 51CTO博客，原文链接：http://blog.51cto.com/sucre/394623，如需转载请自行联系原作者