Linux中通配符与正则表达式的区别与应用详解

在Linux系统管理和日常使用中，通配符和正则表达式是两种常用的模式匹配工具。虽然它们看起来有些相似，但实际上有着本质的区别，适用于不同的场景。本文将详细解析通配符和正则表达式的区别、各自的特点以及在Linux环境中的实际应用。

1. 基本概念对比

1.1 正则表达式(Regular Expression)

定义：正则表达式是一种用于匹配字符串模式的表达式语言，主要用于在文本内容中查找、替换符合特定模式的字符串。

核心特点：

用于匹配文件内容中的字符串
主要是包含匹配，即匹配文本中符合条件的部分
提供丰富的元字符和语法规则
支持复杂的模式匹配和文本处理

支持工具：grep、awk、sed、vim等文本处理工具

1.2 通配符(Shell Wildcards)

定义：通配符是Shell提供的一种简单的模式匹配机制，主要用于匹配文件名。

核心特点：

用于匹配文件名或路径
主要是完全匹配，即匹配整个文件名
语法简单，元字符数量少
直接由Shell解释处理

支持命令：ls、find、cp、mv、rm等文件操作命令

2. 语法规则对比

2.1 通配符语法

通配符语法相对简单，主要包含以下几个元字符：

通配符	含义	示例	匹配结果
`.`	匹配任意单个字符	`file.?`	`file.1`, `file.a`, `file.z`
`*`	匹配零个或多个任意字符	`file.*`	`file`, `file.txt`, `file.tar.gz`
`?`	匹配任意单个字符（与`.`类似，但在不同上下文中使用）	`file?.txt`	`file1.txt`, `fileA.txt`
`[ ]`	匹配方括号中列出的任意一个字符	`file[123].txt`	`file1.txt`, `file2.txt`, `file3.txt`
`[! ]` 或 `[^ ]`	匹配除方括号中字符外的任意字符	`file[!123].txt`	`file4.txt`, `filea.txt`
`[a-z]`	匹配指定范围内的任意字符	`file[a-z].txt`	`filea.txt`, `fileb.txt`…`filez.txt`
`{ }`	匹配大括号中列出的任意一个模式	`file{1,2,3}.txt`	`file1.txt`, `file2.txt`, `file3.txt`
`~`	匹配用户主目录	`~/documents`	`/home/username/documents`

2.2 正则表达式基本语法

正则表达式语法更为丰富，这里列出基本的元字符：

元字符	含义	示例	匹配结果
`.`	匹配除换行符外的任意单个字符	`a.c`	`abc`, `adc`, `a1c`
`*`	匹配前面的字符零次或多次	`ab*c`	`ac`, `abc`, `abbc`, `abbbc`
`+`	匹配前面的字符一次或多次（ERE中不需要转义）	`ab+c`	`abc`, `abbc`, `abbbc`
`?`	匹配前面的字符零次或一次（ERE中不需要转义）	`ab?c`	`ac`, `abc`
`^`	匹配字符串的开始位置	`^abc`	以abc开头的字符串
`$`	匹配字符串的结束位置	`abc$`	以abc结尾的字符串
`[ ]`	匹配方括号中列出的任意一个字符	`[abc]`	`a`, `b`, `c`
`[^ ]`	匹配除方括号中字符外的任意字符	`[^abc]`	除a、b、c外的任意字符
`\`	转义字符，用于匹配特殊字符本身	`\.`	点号字符
`()`	分组，将多个字符作为一个整体处理	`(ab)+`	`ab`, `abab`, `ababab`
`\|`	或操作符，匹配左边或右边的表达式	`a\|b`	`a`, `b`

3. 本质区别详解

3.1 匹配对象不同

通配符：

主要用于匹配文件名或路径
由Shell直接解析处理
匹配发生在命令执行之前（路径展开阶段）

正则表达式：

主要用于匹配文件内容中的文本模式
由具体的命令工具解析处理
匹配发生在命令执行过程中

3.2 匹配机制不同

通配符：

通常是完全匹配，匹配整个文件名
匹配过程相对简单直接
元字符含义相对固定，解释由Shell完成

正则表达式：

通常是包含匹配，匹配文本中的部分内容
支持复杂的模式组合和嵌套
有不同的实现（BRE、ERE、PCRE等）

3.3 处理阶段不同

通配符：

在Shell的路径展开阶段处理
命令执行前，Shell会将通配符展开为匹配的文件名列表
例如：执行ls *.txt时，Shell首先将*.txt展开为所有.txt文件的列表，然后将这个列表传递给ls命令

正则表达式：

在命令执行阶段由具体工具处理
工具接收到完整的正则表达式模式后，在文件内容中执行匹配
例如：执行grep "error.*" log.txt时，grep命令接收原始的正则表达式，然后在log.txt文件中搜索

3.4 转义处理不同

通配符：

转义通常使用反斜杠\
在双引号中，部分通配符可能仍然被解释
在单引号中，通配符被完全转义，作为普通字符处理

正则表达式：

转义规则更复杂，取决于使用的工具和正则表达式风格
BRE中许多元字符需要转义，ERE中部分元字符不需要转义
在Shell命令中使用正则表达式时，需要考虑Shell本身的转义

4. 实际应用示例

4.1 通配符应用示例

文件操作：

# 列出当前目录下所有.txt文件
ls *.txt

# 列出当前目录下以file开头，后跟一个数字，再以.txt结尾的文件
ls file[0-9].txt

# 复制所有.html和.css文件到backup目录
cp *.{html,css} backup/

# 删除所有临时文件（以~结尾）
rm *~

# 查找所有.log文件
find /var/log -name "*.log"

路径展开：

# 查看当前用户和root用户的家目录内容
ls ~ ~root

# 访问多级目录
ls /usr/{local,share}/bin

# 使用范围匹配
ls file{1..5}.txt  # 等同于 file1.txt file2.txt file3.txt file4.txt file5.txt

4.2 正则表达式应用示例

文本搜索：

# 在log.txt中查找包含error的行
grep "error" log.txt

# 在log.txt中查找以ERROR开头的行
grep "^ERROR" log.txt

# 在log.txt中查找以数字结尾的行
grep "[0-9]$" log.txt

# 使用扩展正则表达式查找IP地址
grep -E "([0-9]{1,3}\.){3}[0-9]{1,3}" log.txt

文本替换：

# 将所有的"error"替换为"ERROR"
sed 's/error/ERROR/g' log.txt

# 删除所有空行
sed '/^$/d' file.txt

# 提取日志中的日期部分
sed -E 's/.*([0-9]{4}-[0-9]{2}-[0-9]{2}).*/\1/' log.txt

数据处理：

# 使用awk提取包含特定模式的数据
awk '/^[0-9]+/ { print $1, $3 }' data.txt

# 统计文件中不同单词出现的次数
echo "hello world hello linux" | tr ' ' '\n' | sort | uniq -c

5. 常见混淆点解析

5.1 星号(*)的不同含义

通配符中的*：

匹配零个或多个任意字符
例如：*.txt匹配所有以.txt结尾的文件

正则表达式中的*：

匹配前面的字符零次或多次
例如：ab*c匹配ac、abc、abbc等

5.2 点号(.)的不同含义

通配符中的.：

匹配单个任意字符（在文件名匹配中）
例如：file.??匹配文件名长度为7且扩展名长度为2的文件

正则表达式中的.：

匹配除换行符外的任意单个字符
例如：a.c匹配abc、adc、a1c等

5.3 在不同命令中的行为差异

5.4 文件名中的点号(.)作为普通字符

在Linux文件系统中，点号(.)在文件名中有特殊的表现。当点号出现在文件名本身中时，它被视为一个普通字符，而不是通配符。这与正则表达式中的行为有明显区别。

5.5 grep中的问号(?)与通配符的区别

在文本处理工具如grep中，使用的是正则表达式而不是通配符。这一点常被混淆，导致使用通配符语法而得不到预期结果。以下是一个实际示例：

5.6 如何区分命令使用通配符还是正则表达式

在Linux系统中，命令使用通配符还是正则表达式主要取决于命令的类型和用途。以下是判断方法和原理：

判断方法

根据命令类型判断：
- 文件操作命令（如ls、cp、mv、rm、find -name）：使用通配符
- 文本处理命令（如grep、sed、awk、vim）：使用正则表达式
根据匹配对象判断：
- 匹配文件名或路径的命令：使用通配符
- 匹配文件内容的命令：使用正则表达式
根据参数名判断：
- 许多命令通过不同参数区分两种模式：
  - find -name：使用通配符
  - find -regex：使用正则表达式
  - grep：默认使用正则表达式
  - grep -F：使用固定字符串（不解释正则表达式）

为什么ls使用通配符

ls命令使用通配符的原因与Shell的工作机制密切相关：

Shell路径展开机制：
- 在执行ls *.txt时，不是ls命令本身在处理通配符
- 而是Shell在命令执行前先将*.txt展开为匹配的文件名列表
- 然后将展开后的文件名列表传递给ls命令
命令的设计目的：
- ls的主要目的是列出文件，不需要复杂的文本匹配功能
- 通配符语法简单直观，适合文件名匹配需求
历史原因：
- Shell的路径展开功能是Unix/Linux早期设计的一部分
- 这种设计让多个命令可以共享相同的文件名匹配机制

实例对比

# 1. ls命令使用通配符（由Shell展开）
ls *.txt  # Shell将*.txt展开为file1.txt file2.txt等

# 2. grep命令使用正则表达式（由grep处理）
grep "error" *.log  # Shell展开*.log，但grep处理正则表达式"error"

# 3. 同一个命令的不同参数
find . -name "*.txt"  # 使用通配符查找文件
find . -regex ".*\.txt"  # 使用正则表达式查找文件

如何确定使用哪种语法

查阅命令手册：最可靠的方法是查看命令的man页面
观察匹配行为：
- 如果?匹配单个字符，很可能是通配符
- 如果.匹配单个字符，很可能是正则表达式
注意命令参数：许多命令提供参数来切换匹配模式

记住：通配符主要用于文件名匹配，由Shell处理；正则表达式主要用于文本内容匹配，由具体命令处理。

# 假设文件内容包含：interface ens33 和 state MASTER

# 使用正则表达式中的点号(.)匹配任意单个字符（成功）
grep 'st..e' keepalived.conf
  state MASTER

# 使用正则表达式中的点号匹配（成功）
grep 'ens..' keepalived.conf
  interface ens33

# 尝试使用通配符风格的问号（失败）
grep 'ens??' keepalived.conf
# 无输出

# 尝试混合使用（失败）
grep 'ens.?' keepalived.conf
# 无输出

grep 'ens.*?' keepalived.conf
# 无输出

# 使用正则表达式中的星号（成功）
grep 'ens.*' keepalived.conf
  interface ens33

# 尝试使用单个问号（失败）
grep 'ens?' keepalived.conf
# 无输出

# 使用扩展正则表达式（-E）（成功）
grep -E 'ens??' keepalived.conf
  interface ens33

关键解释：

在基本正则表达式(BRE)中：
- 问号(?)不是特殊元字符，它只是匹配字面意义上的问号字符
- 这就是为什么grep 'ens??'和grep 'ens?'都失败的原因
在扩展正则表达式(ERE)中（使用-E参数）：
- 问号(?)是特殊元字符，表示匹配前面的字符零次或一次
- 但是??是一个非贪婪匹配的修饰符，行为可能不符合预期
与通配符的区别：
- 在Shell通配符中，?表示匹配任意单个字符
- 在grep等文本处理工具中，使用的是正则表达式，不是通配符
- 正则表达式中，.表示匹配任意单个字符，而不是?

实例分析

以下是一个具体示例，展示了点号在文件名中的行为：

# 创建一些测试文件
$ touch a. ab a.log b.log c.log d.log user-1.sh user-2.sh user-3.sh ac

# 列出目录内容
$ ll
总用量 0
-rw-r--r--. 1 soveran soveran 0 11月 11 14:45 a.
-rw-r--r--. 1 soveran soveran 0 11月 11 14:45 ab
-rw-r--r--. 1 soveran soveran 0 11月 11 14:31 a.log
-rw-r--r--. 1 soveran soveran 0 11月 11 14:31 b.log
-rw-r--r--. 1 soveran soveran 0 11月 11 14:31 c.log
-rw-r--r--. 1 soveran soveran 0 11月 11 14:31 d.log
-rw-r--r--. 1 soveran soveran 0 11月 11 14:31 user-1.sh
-rw-r--r--. 1 soveran soveran 0 11月 11 14:31 user-2.sh
-rw-r--r--. 1 soveran soveran 0 11月 11 14:31 user-3.sh
-rw-r--r--. 1 soveran soveran 0 11月 11 14:46 ac

# 尝试使用点号作为通配符模式
$ ls a.
a.

# 使用转义的点号
$ ls a\.
a.

# 使用问号通配符（匹配任意单个字符）
$ ls a?
a.  ab  ac

# 使用星号通配符
$ ls a*
a.  ab  ac  a.log

关键结论

文件名中的点号是普通字符：当文件名为a.时，其中的点号是文件名的一部分，不会被解释为通配符。
通配符模式中的点号：在通配符模式中（如ls a?），?确实匹配任意单个字符，包括点号。
转义行为：在模式中使用\.时，它匹配的是字面意义上的点号字符，而不是任意字符。
与正则表达式的区别：在正则表达式中，a.会匹配”a”后跟任意字符，但在文件名匹配中，a.只匹配字面意义上的”a.”文件。

这个现象的原因是：通配符模式只在用于模式匹配时才被解释，而文件名中的字符始终被视为普通字符。当您创建一个名为a.的文件时，点号就是文件名的一部分，不会被当作通配符。

find命令：

-name参数使用通配符
-regex参数使用正则表达式

# 使用通配符查找.txt文件
find . -name "*.txt"

# 使用正则表达式查找.txt或.log文件
find . -regex ".*\.(txt|log)"

grep命令：

默认使用基本正则表达式(BRE)
-E参数使用扩展正则表达式(ERE)
-F参数使用固定字符串（不解释正则表达式元字符）

# 使用基本正则表达式（.和*不需要转义）
grep "error.*code" log.txt

# 匹配+字符需要转义
grep "error\+" log.txt

# 使用扩展正则表达式，+不需要转义
grep -E "error+" log.txt

# 使用固定字符串，不解释正则表达式
grep -F "error+code" log.txt

6. 实用技巧与最佳实践

6.1 通配符使用技巧

使用大括号扩展：对于有规律的文件名，可以使用大括号进行简洁表示

# 创建多个文件
touch file{1..10}.txt
# 等同于 touch file1.txt file2.txt ... file10.txt

组合使用通配符：可以组合使用多种通配符以实现复杂匹配

# 匹配以a或b开头，后跟任意字符，再以.txt结尾的文件
ls [ab]*.txt

使用nullglob选项：当通配符没有匹配到任何文件时，不显示错误信息

shopt -s nullglob
ls *.nonexistent  # 不会显示错误
shopt -u nullglob  # 恢复默认设置

注意文件名中的特殊字符：当文件名包含通配符元字符（如.、*、?）时，它们被视为普通字符 ```bash
创建包含特殊字符的文件
touch “file*.txt” “report[1].pdf”
要删除这些文件，需要转义或使用引号
rm “file*.txt” # 使用引号 rm report[1].pdf # 使用转义

6.2 正则表达式使用技巧

使用锚点提高效率：使用^和$可以显著提高匹配效率

# 更高效的匹配
grep "^ERROR" log.txt  # 只检查行首

使用字符类代替点号：在已知字符范围的情况下，使用具体的字符类
```
# 更精确的匹配
grep "[0-9]\{1,3\}" file.txt  # 代替 ".\{1,3\}"
```
使用分组和反向引用：对于重复模式的匹配和替换特别有用
```
# 匹配重复的单词
grep -E '(\b\w+\b)\s+\1' text.txt
```

6.3 避免常见错误

混淆通配符和正则表达式：在错误的上下文中使用错误的模式语法

# 错误：在grep中使用通配符语法
grep "*.txt" file.txt  # 这不会按预期工作
   
# 正确：使用正则表达式
grep ".*\.txt" file.txt  # 匹配包含.txt的文本

忘记转义特殊字符：在需要匹配特殊字符时忘记转义

# 错误：直接匹配点号
grep "192.168.1.1" log.txt  # 点号会匹配任意字符
   
# 正确：转义点号
grep "192\.168\.1\.1" log.txt

过度使用正则表达式：对于简单的文件名匹配，使用通配符会更高效

# 对于简单的文件名匹配，使用通配符
ls *.txt
   
# 不要这样做
find . -regex ".*\.txt$"

7. 工具选择指南

7.1 何时使用通配符

当需要匹配文件名或路径时
当执行文件操作命令（如ls、cp、mv、rm）时
当需要简单的模式匹配时
当需要利用Shell的路径展开功能时

7.2 何时使用正则表达式

当需要匹配文件内容中的文本模式时
当需要复杂的模式匹配和处理时
当使用文本处理工具（如grep、sed、awk）时
当需要进行文本搜索、替换和提取操作时

8. 总结

通配符和正则表达式是Linux环境中两种强大的模式匹配工具，但它们有着本质的区别和适用场景：

通配符：

用于匹配文件名和路径
语法简单，主要由Shell解释
适用于文件操作命令
主要是完全匹配

正则表达式：

用于匹配文件内容中的文本模式
语法丰富，由具体工具解释
适用于文本处理命令
主要是包含匹配

理解这两种工具的区别和正确用法，可以帮助您在Linux系统管理和日常使用中更加高效地进行文件操作和文本处理。在实际应用中，根据具体需求选择合适的工具和语法，可以避免混淆并提高工作效率。

记住：通配符用于文件名，正则表达式用于文件内容。这个简单的原则可以帮助您在大多数情况下做出正确的选择。

«Sre Blog Writing Guide

Linux find命令详解：从基础到高级应用»

文档信息

本文作者：soveran zhong
本文链接：https://blog.clockwingsoar.cyou/2024/05/16/linux-wildcards-vs-regex/
版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）

Linux中通配符与正则表达式的区别与应用详解

Linux中通配符与正则表达式的区别与应用详解

1. 基本概念对比

1.1 正则表达式(Regular Expression)

1.2 通配符(Shell Wildcards)

2. 语法规则对比

2.1 通配符语法

2.2 正则表达式基本语法

3. 本质区别详解

3.1 匹配对象不同

3.2 匹配机制不同

3.3 处理阶段不同

3.4 转义处理不同

4. 实际应用示例

4.1 通配符应用示例

4.2 正则表达式应用示例

5. 常见混淆点解析

5.1 星号(*)的不同含义

5.2 点号(.)的不同含义

5.3 在不同命令中的行为差异

5.4 文件名中的点号(.)作为普通字符

5.5 grep中的问号(?)与通配符的区别

5.6 如何区分命令使用通配符还是正则表达式

判断方法

为什么ls使用通配符

实例对比

如何确定使用哪种语法

实例分析

关键结论

6. 实用技巧与最佳实践

6.1 通配符使用技巧

创建包含特殊字符的文件

要删除这些文件，需要转义或使用引号

6.2 正则表达式使用技巧

6.3 避免常见错误

7. 工具选择指南

7.1 何时使用通配符

7.2 何时使用正则表达式

8. 总结

文档信息

Search

Table of Contents