@[TOC]
引言
GNU Parallel 是一个开源的命令行工具,能够将多个命令行作业并行执行。它能够用于在多个 CPU 或计算机上同时运行命令行作业,从而进步作业处理速度。Parallel 还能够帮忙您更好地利用系统资源,节省时间和精力。
在日常工作中,咱们常常须要解决大量的命令行作业,例如搜寻文件、解决数据、编译代码等等。这些作业通常须要破费大量的工夫和精力,而且可能会占用大量的系统资源。如果咱们可能将这些作业并行执行,那么就能够进步作业处理速度,节省时间和精力。
GNU Parallel 提供了一种简略、灵便和高效的形式来并行执行命令行作业。它能够在多个 CPU 或计算机上同时运行作业,从而利用系统资源,进步作业处理速度。Parallel 还能够帮忙您更好地管制并行度和资源利用率,从而防止零碎负载过高和资源节约。
在本博客中,咱们将介绍 GNU Parallel 的基本概念、用法和优缺点。咱们将演示如何应用 Parallel 来减速命令行作业、管制并行度和资源利用率,并提供一些应用 Parallel 的最佳实际和倡议。如果您须要在 Linux 零碎上解决大量的命令行作业,那么 GNU Parallel 是一个值得尝试的工具。
装置和配置 GNU Parallel
装置
GNU Parallel 能够在 Linux 和其余 Unix-like 操作系统上运行,能够通过软件包管理器或源代码进行装置。在 Debian/Ubuntu 零碎中,您能够应用以下命令来装置 GNU Parallel:
sudo apt-get update
sudo apt-get install parallel
在 Red Hat/CentOS 零碎中,您能够应用以下命令来装置 GNU Parallel:
sudo yum install parallel
如果您想要装置最新版本的 GNU Parallel,您能够从官方网站下载源代码,并依照以下步骤进行编译和装置:
wget https://ftpmirror.gnu.org/parallel/parallel-latest.tar.bz2
tar xjf parallel-latest.tar.bz2
cd parallel-*
./configure
make
sudo make install
配置
装置 GNU Parallel 后,您须要进行一些根本配置,以便应用 Parallel 来并行执行命令行作业。以下是一些常见的配置选项:
- –jobs:指定要并行执行的作业数量
- –load:指定要应用的零碎负载
- –memfree:指定要保留的零碎内存量
- –noswap:禁用替换空间
- –nice:指定要应用的过程优先级
- –timeout:指定作业的超时工夫
您能够在命令行中应用这些选项来配置 Parallel。例如,以下命令将应用 Parallel 并行执行 5 个作业,并应用零碎负载不超过 2:
parallel --jobs 5 --load 2 command1 ::: arg1 arg2 arg3
您还能够将这些选项增加到 Parallel 的配置文件中,以便每次应用 Parallel 时主动加载这些选项。Parallel 的配置文件通常位于用户主目录下的“~/.parallel/config”文件中。您能够编辑此文件,并增加您的配置选项,例如:
--jobs 5
--load 2
--timeout 60
在本博客中,咱们介绍了如何装置和配置 GNU Parallel。如果您想要应用 Parallel 来并行执行命令行作业,那么您须要进行一些根本配置,以便 Parallel 能够更好地适应您的环境和需要。
GNU Parallel 的根本用法
GNU Parallel 的根本用法非常简单,您只须要将要执行的命令和参数传递给 Parallel 即可。以下是一个根本的应用示例:
parallel command1 ::: arg1 arg2 arg3
在这个示例中,咱们应用 Parallel 并行执行 command1 命令,并应用::: 符号传递 arg1、arg2 和 arg3 参数。Parallel 会主动将这些参数分成多个块,并并行地解决它们。您能够应用其余选项来管制并行度和资源利用率,例如 –jobs 选项来指定要并行执行的作业数量,–load 选项来指定要应用的零碎负载等等。
Parallel 还反对应用 {} 符号来动静生成参数。例如,以下命令将应用 {} 符号生成参数,并将它们传递给 command1 命令:
parallel command1 {} ::: $(seq 1 10)
在这个示例中,咱们应用 seq 命令生成 1 到 10 的数字序列,并应用 {} 符号将它们传递给 command1 命令。Parallel 会主动将数字序列分成多个块,并并行地解决它们。
Parallel 还反对应用管道和输出文件来解决数据。例如,以下命令将应用管道将 data.txt 文件中的数据传递给 command1 命令:
cat data.txt | parallel command1
在这个示例中,咱们应用 cat 命令将 data.txt 文件中的数据传递给 Parallel,并将它们传递给 command1 命令。Parallel 会主动将数据分成多个块,并并行地解决它们。
在本博客中,咱们介绍了 GNU Parallel 的根本用法。如果您想要应用 Parallel 来并行执行命令行作业,那么您只须要将要执行的命令和参数传递给 Parallel 即可。Parallel 会主动将参数分成多个块,并并行地解决它们。
GNU Parallel 的高级用法
除了根本用法,GNU Parallel 还有很多高级用法,能够帮忙您更好地管制并行度和资源利用率,以及解决大量的数据和作业。以下是一些常见的高级用法:
1. 在多个计算机上并行执行作业
除了在单个计算机上并行执行作业外,GNU Parallel 还能够在多个计算机上并行执行作业。这须要您在每个计算机上安装 Parallel,并应用 ssh 命令将作业发送到近程计算机上。以下是一个应用 Parallel 在多个计算机上并行执行作业的示例:
parallel --sshloginfile hosts.txt command1 ::: arg1 arg2 arg3
在这个示例中,咱们应用 Parallel 将作业发送到 hosts.txt 文件中列出的多个计算机上。Parallel 会主动在近程计算机上启动作业,并将后果发送回本地计算机。您能够应用其余选项来管制近程计算机上的作业执行形式,例如 –sshuser 选项来指定近程计算机上的用户。
2. 从文件中读取命令行参数
除了应用::: 符号和 {} 符号传递参数外,GNU Parallel 还能够从文件中读取命令行参数。这能够帮忙您解决大量的参数,而无需在命令行中手动输出每个参数。以下是一个从文件中读取命令行参数的示例:
parallel -a args.txt command1
在这个示例中,咱们应用 Parallel 从 args.txt 文件中读取命令行参数,并将它们传递给 command1 命令。args.txt 文件中每行蕴含一个参数,例如:
arg1
arg2
arg3
3. 生成具体的日志和报告
GNU Parallel 能够生成具体的日志和报告,以便您更好地理解作业的执行状况和性能。以下是一些常见的日志和报告选项:
- –joblog:指定要生成的作业日志文件
- –resume:从上次中断的中央继续执行作业
- –tag:为每个作业增加标记,不便查看日志和报告
- –results:指定要生成的后果文件夹
您能够应用这些选项来生成具体的日志和报告,并对作业的执行状况进行剖析和优化。
在本博客中,咱们介绍了 GNU Parallel 的一些高级用法。如果您想要更好地管制并行度和资源利用率,以及解决大量的数据和作业,那么这些高级用法可能会对您有所帮忙。
GNU Parallel 的优缺点
GNU Parallel 是一个弱小的并行计算工具,能够帮忙您减速命令行作业的执行,进步系统资源利用率,以及解决大量的数据和作业。然而,它也有一些优缺点,须要您在应用时进行衡量。
长处
减速作业执行: GNU Parallel 能够将作业分成多个块,并并行地执行它们,从而减速作业的执行。这能够帮忙您节省时间和进步工作效率。
进步系统资源利用率: GNU Parallel 能够利用多个 CPU 外围和计算机节点来执行作业,从而进步系统资源利用率。这能够帮忙您更好地利用计算资源,进步零碎的吞吐量和效率。
解决大量的数据和作业: GNU Parallel 能够解决大量的数据和作业,而无需手动宰割和解决它们。这能够帮忙您更好地治理和解决数据,进步数据处理的效率和准确性。
灵便的参数传递形式: GNU Parallel 反对多种参数传递形式,包含::: 符号、{}符号、文件和管道等。这能够帮忙您更好地控制参数的传递形式,进步程序的灵活性和可扩展性。
毛病
学习曲线较陡: GNU Parallel 的应用须要肯定的学习曲线,特地是在应用高级性能时。这须要您破费一些工夫和精力来学习和把握。
可能存在并发问题: 因为 GNU Parallel 是一个并发计算工具,可能存在一些并发问题,例如竞争条件、死锁和资源争用等。这须要您在应用时进行留神和解决,以避免出现问题。
须要足够的系统资源: 因为 GNU Parallel 须要利用多个 CPU 外围和计算机节点来执行作业,因而须要足够的系统资源来反对。如果您的系统资源较为无限,可能会影响作业的执行效率和品质。
可能存在数据依赖性问题: 因为 GNU Parallel 是并行执行作业的,因而可能会存在数据依赖性问题,例如某些作业须要依赖于其余作业的输入。这须要您在应用时进行留神和解决,以避免出现问题。
总之,尽管 GNU Parallel 有一些毛病,但只有您在应用时进行留神和解决,就能够最大化地施展其劣势,进步工作效率和数据处理的准确性。
论断
GNU Parallel 是一个弱小的并行计算工具,能够帮忙您减速命令行作业的执行,进步系统资源利用率,以及解决大量的数据和作业。它具备许多长处,例如减速作业执行、进步系统资源利用率、解决大量的数据和作业、灵便的参数传递形式等。然而,它也有一些毛病,例如学习曲线较陡、并发问题、须要足够的系统资源、可能存在数据依赖性问题等。
总之,GNU Parallel 是一个十分有用的工具,能够帮忙您更好地治理和解决数据,进步工作效率和准确性。如果您须要解决大量的数据和作业,或者须要利用多个 CPU 外围和计算机节点来执行作业,那么 GNU Parallel 是一个十分好的抉择。然而,在应用时须要留神其毛病,并进行相应的解决和优化,以最大化地施展其劣势。
备注:本文应用 chatGPT 辅助制作