Linux cut命令完全指南：精确字段提取的艺术

一、cut命令概述

1.1 什么是cut命令

cut命令是Linux/Unix系统中一个专门用于从文本行中提取指定部分的强大工具。它能够根据位置、分隔符或字节偏移量来精确地提取文本内容，是数据处理和日志分析中的得力助手。

1.2 cut命令的基本语法

cut [选项]... [文件]...

cut命令的核心功能是从每个输入文件中提取指定部分，并将结果输出到标准输出。如果没有指定文件或文件为”-“，则从标准输入读取数据。

1.3 为什么cut命令重要

cut命令在以下场景特别有用：

从结构化数据中提取特定字段
日志文件分析和处理
配置文件解析
数据报表生成
脚本编程中的文本处理

掌握cut命令可以让您在处理表格数据、CSV文件或日志文件时，快速提取所需信息，提高工作效率。

一、准备测试数据

在开始学习cut命令之前，让我们创建一些测试数据文件，以便后续示例使用：

# 创建以空格分隔的测试文件
cat > space_data.txt << 'EOF'
John Doe 30 Engineer
Jane Smith 25 Designer
Bob Johnson 35 Manager
Alice Brown 28 Developer
EOF

# 创建CSV格式的测试文件
cat > data.csv << 'EOF'
id,name,age,department,salary
1,John Doe,30,Engineering,85000
2,Jane Smith,25,Design,75000
3,Bob Johnson,35,Management,95000
4,Alice Brown,28,Development,82000
EOF

# 创建以冒号分隔的配置文件样例
cat > config.txt << 'EOF'
host:localhost
port:8080
username:admin
password:secure123
timeout:30
EOF

# 创建模拟的网络连接日志
cat > netstat.txt << 'EOF'
tcp        0      0 localhost:8080        localhost:54321        ESTABLISHED
udp        0      0 192.168.1.100:53      192.168.1.1:5353       ESTABLISHED
tcp        0      0 10.0.0.5:22           203.0.113.42:12345     ESTABLISHED
EOF

# 创建Web访问日志样例
cat > access.log << 'EOF'
192.168.1.100 - - [20/Jan/2024:10:15:30 +0800] "GET /index.html HTTP/1.1" 200 1234
10.0.0.5 - - [20/Jan/2024:10:16:45 +0800] "POST /login HTTP/1.1" 401 567
172.16.0.25 - - [20/Jan/2024:10:18:20 +0800] "GET /about.html HTTP/1.1" 200 890
EOF

这些测试文件将帮助我们更好地理解和演示cut命令的各种功能。

二、cut命令选项详解

2.1 -b, –bytes=LIST：按字节位置提取

这个选项用于根据字节位置从每行中提取指定部分。

2.1.1 功能说明

使用-b选项时，cut命令会根据指定的字节位置列表从每行文本中提取相应的字节。适用于单字节字符集，对于多字节字符（如中文）需要谨慎使用。

2.1.2 使用案例

# 提取每行的第1-5个字节
echo "Hello World" | cut -b 1-5
# 输出: Hello

# 提取每行的第6个字节开始到行尾
echo "Hello World" | cut -b 6-
# 输出:  World

# 提取每行的第1个和第3个字节
echo "Hello" | cut -b 1,3
# 输出: Hl

# 提取每行的前3个字节
echo "Hello" | cut -b -3
# 输出: Hel

2.2 -c, –characters=LIST：按字符位置提取

这个选项用于根据字符位置从每行中提取指定部分。

2.2.1 功能说明

使用-c选项时，cut命令会根据指定的字符位置列表从每行文本中提取相应的字符。与-b不同，-c能够正确处理多字节字符（如中文），因为它是以字符为单位而不是以字节为单位。

2.2.2 使用案例

# 提取每行的第1-3个字符
echo "你好，世界" | cut -c 1-3
# 输出: 你好，

# 提取每行的第4个字符开始到行尾
echo "你好，世界" | cut -c 4-
# 输出: 世界

# 提取每行的第1个和第4个字符
echo "你好，世界" | cut -c 1,4
# 输出: 你世

2.3 -f, –fields=LIST：按字段提取

这个选项用于根据字段位置从每行中提取指定部分，默认以制表符作为字段分隔符。

2.3.1 功能说明

使用-f选项时，cut命令会根据指定的字段位置列表从每行文本中提取相应的字段。这是处理CSV文件、制表符分隔文件或其他结构化文本数据的理想选择。

2.3.2 使用案例

# 提取第1个和第3个字段（默认制表符分隔）
echo -e "field1\tfield2\tfield3" | cut -f 1,3
# 输出: field1	field3

# 提取第2个字段开始到行尾
echo -e "field1\tfield2\tfield3" | cut -f 2-
# 输出: field2	field3

# 提取前2个字段
echo -e "field1\tfield2\tfield3" | cut -f -2
# 输出: field1	field2

2.4 -d, –delimiter=DELIM：指定分隔符

这个选项用于指定字段分隔符，与-f选项结合使用。

2.4.1 功能说明

使用-d选项可以指定自定义的字段分隔符，而不使用默认的制表符。这在处理CSV文件或其他使用自定义分隔符的结构化数据时非常有用。

2.4.2 使用案例

# 使用逗号作为分隔符，提取第1个和第3个字段
echo "field1,field2,field3" | cut -d ',' -f 1,3
# 输出: field1,field3

# 使用冒号作为分隔符，提取/etc/passwd中的用户名和shell
echo "root:x:0:0:root:/root:/bin/bash" | cut -d ':' -f 1,7
# 输出: root:/bin/bash

# 使用空格作为分隔符，提取第1个和第5个字段
echo "1 2 3 4 5" | cut -d ' ' -f 1,5
# 输出: 1 5

2.5 -s, –only-delimited：仅显示包含分隔符的行

这个选项用于筛选出仅包含指定分隔符的行进行处理。

2.5.1 功能说明

默认情况下，cut命令会打印所有行，即使某行不包含分隔符。使用-s选项后，cut命令只会打印包含分隔符的行，忽略不包含分隔符的行。

2.5.2 使用案例

# 不使用-s选项，会打印所有行（包括不包含分隔符的行）
echo -e "line1\nfield1,field2\nline3" | cut -d ',' -f 1
# 输出:
# line1
# field1
# line3

# 使用-s选项，只打印包含分隔符的行
echo -e "line1\nfield1,field2\nline3" | cut -d ',' -f 1 -s
# 输出: field1

# 在日志分析中筛选出包含特定分隔符的行
echo -e "2024-01-22 info: message1\n2024-01-22:error:message2\njust a line" | cut -d ':' -f 1,2 -s
# 输出:
# 2024-01-22 info
# 2024-01-22:error

2.6 –complement：补全选择

这个选项用于选择未在指定列表中的字节、字符或字段。

2.6.1 功能说明

使用--complement选项时，cut命令会选择并输出未在指定列表中的部分。这在需要排除特定字段而保留其余字段时非常有用。

2.6.2 使用案例

# 排除第2个字段，输出其余字段
echo -e "field1\tfield2\tfield3" | cut -f 2 --complement
# 输出: field1	field3

# 排除前3个字符，输出其余字符
echo "Hello World" | cut -c 1-3 --complement
# 输出: lo World

# 排除第1个和第3个字段，输出其余字段
echo "a,b,c,d" | cut -d ',' -f 1,3 --complement
# 输出: b,d

2.7 –output-delimiter=STRING：指定输出分隔符

这个选项用于指定输出时使用的字段分隔符。

2.7.1 功能说明

默认情况下，cut命令使用与输入相同的分隔符作为输出分隔符。使用--output-delimiter选项可以指定自定义的输出分隔符，方便进一步的数据处理。

2.7.2 使用案例

# 将输入的制表符分隔数据转换为逗号分隔
echo -e "field1\tfield2\tfield3" | cut -f 1,3 --output-delimiter=','
# 输出: field1,field3

# 将/etc/passwd中的冒号分隔转换为空格分隔
echo "root:x:0:0:root:/root:/bin/bash" | cut -d ':' -f 1,6,7 --output-delimiter=' '
# 输出: root /root /bin/bash

# 使用换行符作为输出分隔符，将一行数据拆分为多行
echo "1,2,3,4,5" | cut -d ',' -f 1-3 --output-delimiter='\n'
# 输出:
# 1
# 2
# 3

2.8 -z, –zero-terminated：使用NUL作为行终止符

这个选项用于指定使用NUL字符（\0）而不是换行符作为行终止符。

2.8.1 功能说明

默认情况下，cut命令使用换行符作为行终止符。使用-z选项后，cut命令会使用NUL字符作为行终止符，这在处理包含换行符的数据或与其他使用NUL终止符的命令（如find -print0）配合使用时非常有用。

2.8.2 使用案例

# 与find命令配合使用，处理文件名中包含换行符的情况
find . -type f -name "*.txt" -print0 | cut -z -c 3-

# 处理包含换行符的数据
printf "line1\nline2\0line3\nline4\0" | cut -z -c 1-4

2.9 -n：不分割多字节字符

这个选项用于防止在使用-b选项时分割多字节字符。

2.9.1 功能说明

当与-b选项一起使用时，-n选项会确保不会在多字节字符的中间分割，这样可以避免生成无效的字符序列。

2.9.2 使用案例

# 对于包含多字节字符的文本，使用-b和-n选项安全提取字节
echo "你好" | cut -nb 1-3
# 输出可能是: 你（取决于字符编码）

三、cut命令的范围表示法

cut命令支持多种方式指定要提取的字节、字符或字段范围，这些表示法非常灵活。

3.1 基本范围表示

表示法	描述	示例
N	第N个字节、字符或字段（从1开始计数）	`-f 1` 提取第1个字段
N-	从第N个到行尾的所有字节、字符或字段	`-f 2-` 提取第2个字段到行尾
-M	从第1个到第M个（包括第M个）的所有字节、字符或字段	`-f -3` 提取前3个字段
N-M	从第N个到第M个（包括第M个）的所有字节、字符或字段	`-f 2-4` 提取第2到第4个字段
N,M,K	多个不连续的字节、字符或字段	`-f 1,3,5` 提取第1、3、5个字段

3.2 组合使用示例

# 提取第1个字段和第3-5个字段
echo "a,b,c,d,e,f" | cut -d ',' -f 1,3-5
# 输出: a,c,d,e

# 提取第1-2个字符和第5个字符开始到行尾
echo "Hello World" | cut -c 1-2,5-
# 输出: Helo World

# 提取前2个字段和第4个字段开始到行尾
echo "1:2:3:4:5:6" | cut -d ':' -f -2,4-
# 输出: 1:2:4:5:6

四、cut命令实际应用案例

4.1 系统管理和监控

4.1.1 分析/etc/passwd文件

# 提取所有用户名
cut -d ':' -f 1 /etc/passwd

# 提取用户名和对应的shell
cut -d ':' -f 1,7 /etc/passwd

# 提取UID大于1000的用户名和目录
awk -F':' '$3 > 1000' /etc/passwd | cut -d ':' -f 1,6

4.1.2 网络连接分析

# 提取所有连接的本地端口
netstat -tuln | grep LISTEN | cut -d ':' -f 2 | cut -d ' ' -f 1

# 提取所有已建立连接的远程IP
netstat -tn | grep ESTABLISHED | cut -d ' ' -f 20

# 统计每个远程IP的连接数
netstat -tn | grep ESTABLISHED | cut -d ' ' -f 20 | sort | uniq -c | sort -nr

4.2 日志文件分析

4.2.1 Web服务器日志分析

# 从Apache访问日志中提取IP地址和访问URL
cut -d ' ' -f 1,7 access.log

# 提取HTTP状态码并统计
cut -d ' ' -f 9 access.log | sort | uniq -c | sort -nr

# 提取响应时间超过1秒的请求（假设第10列是响应时间）
grep -E ' [0-9]+\.[0-9]+$' access.log | awk '$NF > 1.0' | cut -d ' ' -f 1,7,NF

4.2.2 系统日志分析

# 从系统日志中提取错误信息的时间和内容
grep ERROR /var/log/syslog | cut -d ' ' -f 1-3,5-

# 统计每个小时的日志条目数
grep -E '^[A-Za-z]+ [0-9]+ [0-9]+:' /var/log/syslog | cut -d ':' -f 1 | sort | uniq -c

# 提取登录失败的尝试
grep "Failed password" /var/log/auth.log | cut -d ' ' -f 1-3,9,11

4.3 数据处理和报表生成

4.3.1 CSV文件处理

# 从CSV文件中提取特定列
cut -d ',' -f 1,3,5 data.csv > processed.csv

# 将CSV文件中的某列转换为单独的文件
cut -d ',' -f 2 data.csv > column2.txt

# 移除CSV文件中的第一列（标题行之后）
tail -n +2 data.csv | cut -d ',' -f 2- > no_header_column1.csv

4.3.2 生成报表

# 生成用户活动报表（假设第1列是用户，第4列是活动类型）
cut -d ',' -f 1,4 user_activity.csv | sort | uniq -c > user_activity_report.txt

# 生成每日销售报表（假设第1列是日期，第5列是金额）
cut -d ',' -f 1,5 sales.csv | sort -t ',' -k 1 | uniq -c > daily_sales_report.txt

# 从监控数据中提取CPU使用率超过80%的记录
grep -E ',8[0-9]\.|,9[0-9]\.|,100\.' metrics.csv | cut -d ',' -f 1,2,5

4.4 生产环境实用脚本

4.4.1 批量用户管理

#!/bin/bash
# 批量创建用户并设置默认shell

# 从文件中读取用户名列表（每行一个用户名）
users_file="users.txt"

echo "开始创建用户..."
while read username; do
  # 检查用户是否已存在
  if ! id -u "$username" &>/dev/null; then
    # 创建用户，默认shell为bash
    useradd -m -s /bin/bash "$username"
    echo "用户 $username 创建成功"
    # 设置初始密码（实际使用时应更安全）
    echo "$username:initial123" | chpasswd
    echo "用户 $username 密码已设置"
  else
    echo "用户 $username 已存在，跳过"
  fi
done < "$users_file"

echo "用户创建完成，生成报告..."
# 提取新创建用户的信息生成报告
cut -d ':' -f 1,3,6,7 /etc/passwd | grep -f "$users_file" > user_creation_report.txt
echo "报告已保存到 user_creation_report.txt"

4.4.2 日志监控告警脚本

#!/bin/bash
# 监控日志文件中的错误并发送告警

log_file="/var/log/application.log"
threshold=10  # 错误阈值

# 提取最近10分钟内的错误数量
errors=$(grep -E 'ERROR|FATAL' "$log_file" | grep "$(date -d '10 minutes ago' +'%Y-%m-%d %H:%M')" | wc -l)

if [ "$errors" -gt "$threshold" ]; then
  # 提取最近的错误详情
  recent_errors=$(grep -E 'ERROR|FATAL' "$log_file" | tail -n 20 | cut -d ' ' -f 1-3,5-)
  
  # 发送告警邮件（实际使用时配置SMTP）
  echo "警告：应用程序错误数量超过阈值！\n\n错误数量: $errors\n阈值: $threshold\n\n最近的错误:\n$recent_errors" | 
  mail -s "[告警] 应用程序错误过多" admin@example.com
  
  echo "告警已发送，错误数量: $errors"
else
  echo "错误数量正常: $errors"
fi

4.4.3 系统资源使用监控

#!/bin/bash
# 监控系统资源使用情况并生成报表

report_file="system_resources_$(date +'%Y%m%d').csv"
echo "时间,CPU使用率,内存使用率,磁盘使用率,进程数" > "$report_file"

# 连续监控10次，每次间隔5秒
for i in {1..10}; do
  # 获取系统时间
  timestamp=$(date +'%Y-%m-%d %H:%M:%S')
  
  # 获取CPU使用率
  cpu_usage=$(top -bn1 | grep "Cpu(s)" | cut -d ',' -f 2 | cut -d ' ' -f 2)
  
  # 获取内存使用率
  mem_total=$(free -m | grep Mem | cut -d ' ' -f 7)
  mem_used=$(free -m | grep Mem | cut -d ' ' -f 3)
  mem_usage=$(echo "scale=2; $mem_used * 100 / $mem_total" | bc)
  
  # 获取磁盘使用率
  disk_usage=$(df -h / | grep / | cut -d ' ' -f 11)
  
  # 获取进程数
  process_count=$(ps aux | wc -l)
  
  # 写入报表
  echo "$timestamp,$cpu_usage%,$mem_usage%,$disk_usage,$process_count" >> "$report_file"
  
  echo "监控数据已记录，当前时间: $timestamp"
  sleep 5
done

echo "监控完成，报表已保存到 $report_file"

五、cut命令与其他工具结合使用

cut命令的真正强大之处在于与其他命令结合使用，形成强大的数据处理管道。

5.1 与管道结合

# 提取IP地址并进行地理位置查询
cut -d ' ' -f 1 access.log | sort | uniq -c | sort -nr | head -n 10 | xargs -I {} geoiplookup {}

# 分析日志中的请求URL并统计访问量
cut -d ' ' -f 7 access.log | sort | uniq -c | sort -nr | head -n 20

# 从配置文件中提取非注释行的关键配置
grep -v '^#' config.conf | grep -v '^$' | cut -d '=' -f 1,2

5.2 与grep、sort、uniq等命令组合

# 查找访问次数最多的前10个IP地址
grep -v '^#' access.log | cut -d ' ' -f 1 | sort | uniq -c | sort -nr | head -n 10

# 统计每个HTTP状态码的出现次数
grep -v '^#' access.log | cut -d ' ' -f 9 | sort | uniq -c | sort -nr

# 查找特定时间段内的错误日志
grep '2024-01-22 14:' error.log | cut -d ' ' -f 1-3,5-

5.3 高级组合技巧

# 提取和格式化系统负载数据
uptime | cut -d ':' -f 5- | cut -d ',' -f 1-3

# 分析网络流量（需要先安装sar命令）
sar -n DEV 1 5 | grep -v '^$' | grep -v '^Average:' | cut -d ' ' -f 1,2,5,6,10,11

# 批量查找和替换文件中的文本
find /path/to/files -name "*.txt" | xargs -I {} sh -c "cat {} | cut -d ',' -f 1" | sort | uniq

六、cut命令的常见陷阱和注意事项

6.1 常见错误

# 错误：使用-f选项但没有指定分隔符（默认是制表符）
echo "a,b,c" | cut -f 1  # 这将不会正确提取，因为分隔符是逗号而不是制表符
# 正确：指定分隔符
echo "a,b,c" | cut -d ',' -f 1

# 错误：对多字节字符使用-b选项（可能导致字符截断）
echo "你好" | cut -b 1-3  # 可能会产生乱码
# 正确：对多字节字符使用-c选项
echo "你好" | cut -c 1-1

# 错误：尝试同时使用-b, -c和-f选项
echo "text" | cut -b 1-3 -f 1  # 这将导致错误
# 正确：只使用其中一个选项
echo "text" | cut -c 1-3

6.2 性能考量

对于非常大的文件，cut命令通常比其他文本处理工具（如awk）更快，因为它是为简单的字段提取而优化的
当需要复杂的条件判断或字段转换时，考虑使用awk或sed
对于频繁使用的命令序列，考虑将其添加到shell脚本或别名中

6.3 跨平台兼容性

在Windows上通过Cygwin或WSL使用cut时，注意文件路径和行尾字符的差异
某些特殊字符在不同shell中的转义方式可能不同
确保在处理CSV文件时正确处理引号和转义字符

七、总结

cut命令是Linux文本处理工具箱中的一个重要工具，它能够精确地从文本行中提取指定部分。通过掌握cut命令的各种选项和范围表示方法，您可以快速解决许多数据提取问题，特别是在系统管理、日志分析和数据处理方面。

当与其他命令（如grep、sort、uniq等）结合使用时，cut命令的能力将进一步增强，可以处理更复杂的数据处理任务。在实际工作中，您应该根据具体需求选择合适的选项，并通过管道将cut与其他工具组合起来形成强大的处理流水线。

记住，最好的学习方法是实践。尝试将cut命令应用到您的日常工作中，解决实际问题，这样您就能真正掌握这个强大的工具。

八、进一步学习资源

GNU Coreutils cut文档：https://www.gnu.org/software/coreutils/cut
查看cut命令的详细手册：man cut
《Linux命令行与Shell脚本编程大全》
《UNIX Power Tools》

«Linux sort命令完全指南：灵活排序与数据处理的艺术

Linux tr命令完全指南：字符转换、压缩与删除的艺术»

文档信息

本文作者：soveran zhong
本文链接：https://blog.clockwingsoar.cyou/2024/01/22/linux-cut-command-guide/
版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）

Linux cut命令完全指南：精确字段提取的艺术

Linux cut命令完全指南：精确字段提取的艺术

一、cut命令概述

1.1 什么是cut命令

1.2 cut命令的基本语法

1.3 为什么cut命令重要

一、准备测试数据

二、cut命令选项详解

2.1 -b, –bytes=LIST：按字节位置提取

2.1.1 功能说明

2.1.2 使用案例

2.2 -c, –characters=LIST：按字符位置提取

2.2.1 功能说明

2.2.2 使用案例

2.3 -f, –fields=LIST：按字段提取

2.3.1 功能说明

2.3.2 使用案例

2.4 -d, –delimiter=DELIM：指定分隔符

2.4.1 功能说明

2.4.2 使用案例

2.5 -s, –only-delimited：仅显示包含分隔符的行

2.5.1 功能说明

2.5.2 使用案例

2.6 –complement：补全选择

2.6.1 功能说明

2.6.2 使用案例

2.7 –output-delimiter=STRING：指定输出分隔符

2.7.1 功能说明

2.7.2 使用案例

2.8 -z, –zero-terminated：使用NUL作为行终止符

2.8.1 功能说明

2.8.2 使用案例

2.9 -n：不分割多字节字符

2.9.1 功能说明

2.9.2 使用案例

三、cut命令的范围表示法

3.1 基本范围表示

3.2 组合使用示例

四、cut命令实际应用案例

4.1 系统管理和监控

4.1.1 分析/etc/passwd文件

4.1.2 网络连接分析

4.2 日志文件分析

4.2.1 Web服务器日志分析

4.2.2 系统日志分析

4.3 数据处理和报表生成

4.3.1 CSV文件处理

4.3.2 生成报表

4.4 生产环境实用脚本

4.4.1 批量用户管理

4.4.2 日志监控告警脚本

4.4.3 系统资源使用监控

五、cut命令与其他工具结合使用

5.1 与管道结合

5.2 与grep、sort、uniq等命令组合

5.3 高级组合技巧

六、cut命令的常见陷阱和注意事项

6.1 常见错误

6.2 性能考量

6.3 跨平台兼容性

七、总结

八、进一步学习资源

文档信息

Search

Table of Contents