关于openmp:OpenMP-task-construct-实现原理以及源码分析

OpenMP task construct 实现原理以及源码剖析

前言

在本篇文章当中次要给大家介绍在 OpenMP 当中 task 的实现原理，以及他调用的相干的库函数的具体实现。在本篇文章当中最重要的就是了解整个 OpenMP 的运行机制。

从编译器角度看 task construct

在本大节当中次要给大家剖析一下编译器将 openmp 的 task construct 编译成什么样子，上面是一个 OpenMP 的 task 程序例子：

#include <stdio.h>
#include <omp.h>

int main()
{

#pragma omp parallel num_threads(4) default(none)
  {
#pragma omp task default(none)
    {
       printf("Hello World from tid = %d\n", omp_get_thread_num());
    }
  }
  return 0;
}

首先先捋一下整个程序被编译之后的执行流程，通过后面的文章的学习，咱们曾经晓得了并行域当中的代码会被编译器编译成一个函数，对于这一点咱们曾经在后面的很多文章当中曾经探讨过了，就不再进行复述。事实上 task construct 和 parallel construct 一样，task construct 也会被编译成一个函数，同样的这个函数也会被作为一个参数传递给 OpenMP 外部，被传递的这个函数可能被立刻执行，也可能在函数 GOMP_parallel_end 被调用后，在达到同步点之前执行被执行（线程在达到并行域的同步点之前须要保障所有的工作都被执行实现）。整个过程大抵如下图所示：

下面的 OpenMP task 程序对应的反汇编程序如下所示：

00000000004008ad <main>:
  4008ad:       55                      push   %rbp
  4008ae:       48 89 e5                mov    %rsp,%rbp
  4008b1:       ba 04 00 00 00          mov    $0x4,%edx
  4008b6:       be 00 00 00 00          mov    $0x0,%esi
  4008bb:       bf db 08 40 00          mov    $0x4008db,%edi
  4008c0:       e8 8b fe ff ff          callq  400750 <GOMP_parallel_start@plt>
  4008c5:       bf 00 00 00 00          mov    $0x0,%edi
  4008ca:       e8 0c 00 00 00          callq  4008db <main._omp_fn.0>
  4008cf:       e8 8c fe ff ff          callq  400760 <GOMP_parallel_end@plt>
  4008d4:       b8 00 00 00 00          mov    $0x0,%eax
  4008d9:       5d                      pop    %rbp
  4008da:       c3                      retq

00000000004008db <main._omp_fn.0>:
  4008db:       55                      push   %rbp
  4008dc:       48 89 e5                mov    %rsp,%rbp
  4008df:       48 83 ec 10             sub    $0x10,%rsp
  4008e3:       48 89 7d f8             mov    %rdi,-0x8(%rbp)
  4008e7:       c7 04 24 00 00 00 00    movl   $0x0,(%rsp)        # 参数 flags
  4008ee:       41 b9 01 00 00 00       mov    $0x1,%r9d            # 参数 if_clause
  4008f4:       41 b8 01 00 00 00       mov    $0x1,%r8d            # 参数 arg_align
  4008fa:       b9 00 00 00 00          mov    $0x0,%ecx            # 参数 arg_size
  4008ff:       ba 00 00 00 00          mov    $0x0,%edx            # 参数 cpyfn
  400904:       be 00 00 00 00          mov    $0x0,%esi            # 参数 data
  400909:       bf 15 09 40 00          mov    $0x400915,%edi # 这里就是调用函数 main._omp_fn.1
  40090e:       e8 9d fe ff ff          callq  4007b0 <GOMP_task@plt>
  400913:       c9                      leaveq
  400914:       c3                      retq

0000000000400915 <main._omp_fn.1>:
  400915:       55                      push   %rbp
  400916:       48 89 e5                mov    %rsp,%rbp
  400919:       48 83 ec 10             sub    $0x10,%rsp
  40091d:       48 89 7d f8             mov    %rdi,-0x8(%rbp)
  400921:       e8 4a fe ff ff          callq  400770 <omp_get_thread_num@plt>
  400926:       89 c6                   mov    %eax,%esi
  400928:       bf d0 09 40 00          mov    $0x4009d0,%edi
  40092d:       b8 00 00 00 00          mov    $0x0,%eax
  400932:       e8 49 fe ff ff          callq  400780 <printf@plt>
  400937:       c9                      leaveq
  400938:       c3                      retq
  400939:       0f 1f 80 00 00 00 00    nopl   0x0(%rax)

从下面程序反汇编的后果咱们能够晓得，在主函数当中依然和之前一样在并行域前后别离调用了 GOMP_parallel_start 和 GOMP_parallel_end，而后在两个函数之间调用并行域的代码 main.\_omp\_fn.0 ，并行域当中的代码被编译成函数 main.\_omp\_fn.0 ，从下面的汇编代码咱们能够看到在函数 main.\_omp\_fn.0 调用了函数 GOMP_task ，这个函数的函数申明如下所示：

void
GOMP_task (void (*fn) (void *), void *data, void (*cpyfn) (void *, void *),
       long arg_size, long arg_align, bool if_clause, unsigned flags);

在这里咱们重要解释一下局部参数，首先咱们须要理解的是在 x86 当中的函数调用规约，这一点咱们在后面的文章当中曾经探讨过了，这里只是阐明一下：

寄存器	含意
rdi	第一个参数
rsi	第二个参数
rdx	第三个参数
rcx	第四个参数
r8	第五个参数
r9	第六个参数

依据下面的寄存器和参数的对应关系，在下面的汇编代码当中曾经标注了对应的参数。在这些参数当中最重要的一个参数就是第一个函数指针，对应的汇编语句为 mov $0x400915,%edi，能够看到的是传入的函数的地址为 0x400915，依据下面的汇编程序能够晓得这个地址对应的函数就是 main.\_omp\_fn.1，这其实就是 task 区域之间被编译之后的对应的函数，从下面的 main.\_omp\_fn.1 汇编程序当中也能够看进去调用了函数 omp\_get\_thread\_num，这和后面的 task 区域当中代码是绝对应的。

当初咱们来解释一下其余的几个参数：

fn，task 区域被编译之后的函数地址。
data，函数 fn 的参数。
cpyfn，参数拷贝函数，个别是 NULL，有时候须要 task 当中的数据不能是共享的，须要时公有的，这个时候可能就须要数据拷贝函数，如果有数据须要及进行拷贝而且这个参数还为 NULL 的话，那么在 OpenMP 外部就会应用 memcpy 进行内存拷贝。
arg_size，参数的大小。
arg_align，参数多少字节对齐。
if_clause，if 子句当中的比拟后果，如果没有 if 字句的话就是 true 。
flags，用于示意 task construct 的特色或者属性，比方是否是最终工作。

咱们当初应用另外一个例子，来看看参数传递的变动。

#include <stdio.h>
#include <omp.h>

int main()
{

#pragma omp parallel num_threads(4) default(none)
  {
     int data = omp_get_thread_num();
#pragma omp task default(none) firstprivate(data) if(data > 100)
    {
       data = omp_get_thread_num();
       printf("data = %d Hello World from tid = %d\n", data, omp_get_thread_num());
    }
  }
  return 0;
}

下面的程序被编译之后对应的汇编程序如下所示：

00000000004008ad <main>:
  4008ad:       55                      push   %rbp
  4008ae:       48 89 e5                mov    %rsp,%rbp
  4008b1:       48 83 ec 10             sub    $0x10,%rsp
  4008b5:       ba 04 00 00 00          mov    $0x4,%edx
  4008ba:       be 00 00 00 00          mov    $0x0,%esi
  4008bf:       bf df 08 40 00          mov    $0x4008df,%edi
  4008c4:       e8 87 fe ff ff          callq  400750 <GOMP_parallel_start@plt>
  4008c9:       bf 00 00 00 00          mov    $0x0,%edi
  4008ce:       e8 0c 00 00 00          callq  4008df <main._omp_fn.0>
  4008d3:       e8 88 fe ff ff          callq  400760 <GOMP_parallel_end@plt>
  4008d8:       b8 00 00 00 00          mov    $0x0,%eax
  4008dd:       c9                      leaveq
  4008de:       c3                      retq
00000000004008df <main._omp_fn.0>:
  4008df:       55                      push   %rbp
  4008e0:       48 89 e5                mov    %rsp,%rbp
  4008e3:       48 83 ec 20             sub    $0x20,%rsp
  4008e7:       48 89 7d e8             mov    %rdi,-0x18(%rbp)
  4008eb:       e8 80 fe ff ff          callq  400770 <omp_get_thread_num@plt>
  4008f0:       89 45 fc                mov    %eax,-0x4(%rbp)
  4008f3:       83 7d fc 64             cmpl   $0x64,-0x4(%rbp)
  4008f7:       0f 9f c2                setg   %dl
  4008fa:       8b 45 fc                mov    -0x4(%rbp),%eax
  4008fd:       89 45 f0                mov    %eax,-0x10(%rbp)
  400900:       48 8d 45 f0             lea    -0x10(%rbp),%rax
  400904:       c7 04 24 00 00 00 00    movl   $0x0,(%rsp)    # 参数 flags
  40090b:       41 89 d1                mov    %edx,%r9d    # 参数 if_clause
  40090e:       41 b8 04 00 00 00       mov    $0x4,%r8d    # 参数 arg_align
  400914:       b9 04 00 00 00          mov    $0x4,%ecx    # 参数 arg_size
  400919:       ba 00 00 00 00          mov    $0x0,%edx    # 参数 cpyfn
  40091e:       48 89 c6                mov    %rax,%rsi    # 参数 data
  400921:       bf 2d 09 40 00          mov    $0x40092d,%edi    # 这里就是调用函数 main._omp_fn.1
  400926:       e8 85 fe ff ff          callq  4007b0 <GOMP_task@plt>
  40092b:       c9                      leaveq
  40092c:       c3                      retq
000000000040092d <main._omp_fn.1>:
  40092d:       55                      push   %rbp
  40092e:       48 89 e5                mov    %rsp,%rbp
  400931:       48 83 ec 20             sub    $0x20,%rsp
  400935:       48 89 7d e8             mov    %rdi,-0x18(%rbp)
  400939:       48 8b 45 e8             mov    -0x18(%rbp),%rax
  40093d:       8b 00                   mov    (%rax),%eax
  40093f:       89 45 fc                mov    %eax,-0x4(%rbp)
  400942:       e8 29 fe ff ff          callq  400770 <omp_get_thread_num@plt>
  400947:       89 c2                   mov    %eax,%edx
  400949:       8b 45 fc                mov    -0x4(%rbp),%eax
  40094c:       89 c6                   mov    %eax,%esi
  40094e:       bf f0 09 40 00          mov    $0x4009f0,%edi
  400953:       b8 00 00 00 00          mov    $0x0,%eax
  400958:       e8 23 fe ff ff          callq  400780 <printf@plt>
  40095d:       c9                      leaveq
  40095e:       c3                      retq
  40095f:       90                      nop

在下面的函数当中咱们将 data 一个 4 字节的数据作为线程公有数据，能够看到给函数 GOMP_task 传递的参数参数的大小以及参数的内存对齐大小都产生来变动，从原来的 0 变成了 4，这因为 int 类型数据占 4 个字节。

Task Construct 源码剖析

在本大节当中次要议论在 OpenMP 外部是如何实现 task 的，对于这一部分内容设计的内容还是比拟庞杂，首先须要理解的是在 OpenMP 当中应用 task construct 的被称作显示工作（explicit task），这种工作在 OpenMP 当中会有两个工作队列（双向循环队列），将所有的工作都保留在这样一张列表当中，整体构造如下图所示：

在上图当中由同一个线程创立的工作为 child_task，他们之间应用 next_child 和 prev_child 两个指针进行连贯，不同线程创立的工作之间能够应用 next_queue 和 prev_queue 两个指针进行连贯。

工作的构造体形容如下所示：

struct gomp_task
{
  struct gomp_task *parent;    // 工作的父亲工作
  struct gomp_task *children;    // 子工作
  struct gomp_task *next_child;    // 下一个子工作
  struct gomp_task *prev_child;    // 上一个子工作
  struct gomp_task *next_queue;    // 下一个工作 （不肯定是同一个线程创立的子工作）
  struct gomp_task *prev_queue;    // 上一个工作 （不肯定是同一个线程创立的子工作）
  struct gomp_task_icv icv; // openmp 当中外部全局设置应用变量的值（internal control variable）
  void (*fn) (void *);    // task construct 被编译之后的函数
  void *fn_data;    // 函数参数
  enum gomp_task_kind kind; // 工作类型 具体类型如上面的枚举类型
  bool in_taskwait;    // 是否处于 taskwait 状态
  bool in_tied_task; // 是不是在绑定工作当中
  bool final_task; // 是不是最终工作
  gomp_sem_t taskwait_sem; // 对象锁 用于保障线程操作这个数据的时候的线程平安
};

// openmp 当中的工作的状态
enum gomp_task_kind
{
  GOMP_TASK_IMPLICIT,
  GOMP_TASK_IFFALSE,
  GOMP_TASK_WAITING,
  GOMP_TASK_TIED
};

在理解完下面的数据结构之后咱们来看一下后面的给 OpenMP 外部提交工作的函数 GOMP_task，其源代码如下所示：

/* Called when encountering an explicit task directive.  If IF_CLAUSE is
   false, then we must not delay in executing the task.  If UNTIED is true,
   then the task may be executed by any member of the team.  */

void
GOMP_task (void (*fn) (void *), void *data, void (*cpyfn) (void *, void *),
       long arg_size, long arg_align, bool if_clause, unsigned flags)
{
  struct gomp_thread *thr = gomp_thread ();
  // team 是 OpenMP 一个线程组当中共享的数据
  struct gomp_team *team = thr->ts.team;

#ifdef HAVE_BROKEN_POSIX_SEMAPHORES
  /* If pthread_mutex_* is used for omp_*lock*, then each task must be
     tied to one thread all the time.  This means UNTIED tasks must be
     tied and if CPYFN is non-NULL IF(0) must be forced, as CPYFN
     might be running on different thread than FN.  */
  if (cpyfn)
    if_clause = false;
  if (flags & 1)
    flags &= ~1;
#endif

  // 这里示意如果是 if 子句的条件为真的时候或者是孤立工作(team == NULL )或者是最终工作的时候或者工作队列当中的工作曾经很多的时候
  // 提交的工作须要立刻执行而不可能放入工作队列当中而后在 GOMP_parallel_end 函数当中进行工作的取出
  // 再执行
  if (!if_clause || team == NULL
      || (thr->task && thr->task->final_task)
      || team->task_count > 64 * team->nthreads)
    {
      struct gomp_task task;

      gomp_init_task (&task, thr->task, gomp_icv (false));
      task.kind = GOMP_TASK_IFFALSE;
      task.final_task = (thr->task && thr->task->final_task) || (flags & 2);
      if (thr->task)
    task.in_tied_task = thr->task->in_tied_task;
      thr->task = &task;
      if (__builtin_expect (cpyfn != NULL, 0))
    {
        // 这里是进行数据的拷贝
      char buf[arg_size + arg_align - 1];
      char *arg = (char *) (((uintptr_t) buf + arg_align - 1)
                & ~(uintptr_t) (arg_align - 1));
      cpyfn (arg, data);
      fn (arg);
    }
      else
        // 如果不须要进行数据拷贝则间接执行这个函数
    fn (data);
      /* Access to "children" is normally done inside a task_lock
     mutex region, but the only way this particular task.children
     can be set is if this thread's task work function (fn)
     creates children.  So since the setter is *this* thread, we
     need no barriers here when testing for non-NULL.  We can have
     task.children set by the current thread then changed by a
     child thread, but seeing a stale non-NULL value is not a
     problem.  Once past the task_lock acquisition, this thread
     will see the real value of task.children.  */
      if (task.children != NULL)
    {
      gomp_mutex_lock (&team->task_lock);
      gomp_clear_parent (task.children);
      gomp_mutex_unlock (&team->task_lock);
    }
      gomp_end_task ();
    }
  else
    {
    // 上面就是将工作先提交到工作队列当中而后再取出执行
      struct gomp_task *task;
      struct gomp_task *parent = thr->task;
      char *arg;
      bool do_wake;

      task = gomp_malloc (sizeof (*task) + arg_size + arg_align - 1);
      arg = (char *) (((uintptr_t) (task + 1) + arg_align - 1)
              & ~(uintptr_t) (arg_align - 1));
      gomp_init_task (task, parent, gomp_icv (false));
      task->kind = GOMP_TASK_IFFALSE;
      task->in_tied_task = parent->in_tied_task;
      thr->task = task;
    // 这里就是参数拷贝逻辑 如果存在拷贝函数就通过拷贝函数进行参数赋值 否则应用 memcpy 进行
    // 参数的拷贝
      if (cpyfn)
    cpyfn (arg, data);
      else
    memcpy (arg, data, arg_size);
      thr->task = parent;
      task->kind = GOMP_TASK_WAITING;
      task->fn = fn;
      task->fn_data = arg;
      task->in_tied_task = true;
      task->final_task = (flags & 2) >> 1;
    // 在这里获取全局队列锁 保障上面的代码在多线程条件下的线程平安
    // 因为在上面的代码当中会对全局的队列进行批改操作 上面的操作就是队列的一些基本操作啦
      gomp_mutex_lock (&team->task_lock);
      if (parent->children)
    {
      task->next_child = parent->children;
      task->prev_child = parent->children->prev_child;
      task->next_child->prev_child = task;
      task->prev_child->next_child = task;
    }
      else
    {
      task->next_child = task;
      task->prev_child = task;
    }
      parent->children = task;
      if (team->task_queue)
    {
      task->next_queue = team->task_queue;
      task->prev_queue = team->task_queue->prev_queue;
      task->next_queue->prev_queue = task;
      task->prev_queue->next_queue = task;
    }
      else
    {
      task->next_queue = task;
      task->prev_queue = task;
      team->task_queue = task;
    }
      ++team->task_count;
      gomp_team_barrier_set_task_pending (&team->barrier);
      do_wake = team->task_running_count + !parent->in_tied_task
        < team->nthreads;
      gomp_mutex_unlock (&team->task_lock);
      if (do_wake)
    gomp_team_barrier_wake (&team->barrier, 1);
    }
}

对于上述所探讨的内容大家只须要理解相干的整体流程即可，细节除非你是 openmp 的开发人员，否则事实上没有多大用，大家只须要理解大抵过程即可，帮忙你进一步深刻了解 OpenMP 外部的运行机制。

然而须要理解的是下面的整个过程还只是将工作提交到 OpenMP 外部的工作队列当中，还没有执行，咱们在后面谈到过在线程执行完并行域的代码会执行函数 GOMP_parallel_end 在这个函数外部还会调用其余函数，最终会调用函数 gomp_barrier_handle_tasks 将外部的所有的工作执行实现。

void
gomp_barrier_handle_tasks (gomp_barrier_state_t state)
{
  struct gomp_thread *thr = gomp_thread ();
  struct gomp_team *team = thr->ts.team;
  struct gomp_task *task = thr->task;
  struct gomp_task *child_task = NULL;
  struct gomp_task *to_free = NULL;

  // 首先对全局的队列构造进行加锁操作
  gomp_mutex_lock (&team->task_lock);
  if (gomp_barrier_last_thread (state))
    {
      if (team->task_count == 0)
    {
      gomp_team_barrier_done (&team->barrier, state);
      gomp_mutex_unlock (&team->task_lock);
      gomp_team_barrier_wake (&team->barrier, 0);
      return;
    }
      gomp_team_barrier_set_waiting_for_tasks (&team->barrier);
    }

  while (1)
    {
      if (team->task_queue != NULL)
    {
      struct gomp_task *parent;
    // 从工作队列当中拿出一个工作
      child_task = team->task_queue;
      parent = child_task->parent;
      if (parent && parent->children == child_task)
        parent->children = child_task->next_child;
      child_task->prev_queue->next_queue = child_task->next_queue;
      child_task->next_queue->prev_queue = child_task->prev_queue;
      if (child_task->next_queue != child_task)
        team->task_queue = child_task->next_queue;
      else
        team->task_queue = NULL;
      child_task->kind = GOMP_TASK_TIED;
      team->task_running_count++;
      if (team->task_count == team->task_running_count)
        gomp_team_barrier_clear_task_pending (&team->barrier);
    }
      gomp_mutex_unlock (&team->task_lock);
      if (to_free) // 开释工作的内存空间 to_free 在前面会被赋值成 child_task
    {
      gomp_finish_task (to_free);
      free (to_free);
      to_free = NULL;
    }
      if (child_task) // 调用工作对应的函数
    {
      thr->task = child_task;
      child_task->fn (child_task->fn_data);
      thr->task = task;
    }
      else
    return; // 退出 while 循环
      gomp_mutex_lock (&team->task_lock);
      if (child_task)
    {
      struct gomp_task *parent = child_task->parent;
      if (parent)
        {
          child_task->prev_child->next_child = child_task->next_child;
          child_task->next_child->prev_child = child_task->prev_child;
          if (parent->children == child_task)
        {
          if (child_task->next_child != child_task)
            parent->children = child_task->next_child;
          else
            {
              /* We access task->children in GOMP_taskwait
             outside of the task lock mutex region, so
             need a release barrier here to ensure memory
             written by child_task->fn above is flushed
             before the NULL is written.  */
              __atomic_store_n (&parent->children, NULL,
                    MEMMODEL_RELEASE);
              if (parent->in_taskwait)
            gomp_sem_post (&parent->taskwait_sem);
            }
        }
        }
      gomp_clear_parent (child_task->children);
      to_free = child_task;
      child_task = NULL;
      team->task_running_count--;
      if (--team->task_count == 0
          && gomp_team_barrier_waiting_for_tasks (&team->barrier))
        {
          gomp_team_barrier_done (&team->barrier, state);
          gomp_mutex_unlock (&team->task_lock);
          gomp_team_barrier_wake (&team->barrier, 0);
          gomp_mutex_lock (&team->task_lock);
        }
    }
    }
}

总结

在本篇文章当中次要给大家介绍了，OpenMP 外部对于工作的解决流程，这其中的细节非常复杂，大家只须要理解它的整个工作流程即可，这曾经可能帮忙大家理分明整个 OpenMP 外部是如何对工作进行解决的，如果大家感兴趣能够自行研读源程序。

更多精彩内容合集可拜访我的项目：https://github.com/Chang-LeHung/CSCore

关注公众号：一无是处的钻研僧，理解更多计算机（Java、Python、计算机系统根底、算法与数据结构）常识。

关于openmp:OpenMP-task-construct-实现原理以及源码分析

OpenMP task construct 实现原理以及源码剖析

前言

从编译器角度看 task construct

Task Construct 源码剖析

总结

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于openmp:OpenMP-task-construct-实现原理以及源码分析

OpenMP task construct 实现原理以及源码剖析

前言

从编译器角度看 task construct

Task Construct 源码剖析

总结

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复