MPI 奇偶排序如何工作？

2024-02-11

只是在面试前查看了一些笔记，我很难理解如何奇偶排序 http://en.wikipedia.org/wiki/Odd%E2%80%93even_sort在并行架构中工作。

int MPI_OddEven_Sort(int n, double *a, int root, MPI_Comm comm)
{
    int rank, size, i, sorted_result;
    double *local_a;

// get rank and size of comm
    MPI_Comm_rank(comm, &rank); //&rank = address of rank
    MPI_Comm_size(comm, &size);

    local_a = (double *) calloc(n / size, sizeof(double));


// scatter the array a to local_a
    MPI_Scatter(a, n / size, MPI_DOUBLE, local_a, n / size, MPI_DOUBLE,
        root, comm);

// sort local_a
    merge_sort(n / size, local_a);

//odd-even part
    for (i = 0; i < size; i++) {

        if ((i + rank) % 2 == 0) {  // means i and rank have same nature
            if (rank < size - 1) {
                MPI_Compare(n / size, local_a, rank, rank + 1, comm);
            }
        } else if (rank > 0) {
            MPI_Compare(n / size, local_a, rank - 1, rank, comm);
        }

        MPI_Barrier(comm);
        // test if array is sorted
        MPI_Is_Sorted(n / size, local_a, root, comm, &sorted_result);

        // is sorted gives integer 0 or 1, if 0 => array is sorted
        if (sorted_result == 0) {
            break;
        }           // check for iterations
    }

// gather local_a to a
    MPI_Gather(local_a, n / size, MPI_DOUBLE, a, n / size, MPI_DOUBLE,
           root, comm)
    return MPI_SUCCESS;
}

是我为此函数编写的一些代码（不是今天也不是昨天！）。有人可以分解一下它是如何工作的吗？

我正在分散我的阵列a到每个处理器，它正在获取一个副本local_a（其大小为 n/size）

每个 local_a 上都调用合并排序。

这之后发生了什么？（假设到目前为止我是正确的！）

这么多年之后，看到这些 PRAM 类型的排序网络再次出现，真是太有趣了。这些事物的并行计算的原始心智模型是作为“比较器”的微型处理器的大规模并行阵列，例如连接机 http://en.wikipedia.org/wiki/Connection_Machine- 那时候网络比 CPU/RAM 便宜。当然，这最终看起来与 80 年代中后期及以后的超级计算机非常不同，甚至比 90 年代后期的 x86 集群更加不同；但现在它们又开始流行起来配备 GPU http://http.developer.nvidia.com/GPUGems2/gpugems2_chapter46.html以及其他加速器，如果你眯着眼睛看的话，它们实际上看起来有点像未来的过去。

看起来你上面的东西更像是，它已经开始朝着假设处理器将在本地存储多个项目的方向发展，并且您可以通过在通信步骤之间对这些本地列表进行排序来充分利用处理器。

充实你的代码并稍微简化一下，我们有这样的东西：

#include <stdio.h>
#include <stdlib.h>
#include <mpi.h>

int merge(double *ina, int lena, double *inb, int lenb, double *out) {
    int i,j;
    int outcount=0;

    for (i=0,j=0; i<lena; i++) {
        while ((inb[j] < ina[i]) && j < lenb) {
            out[outcount++] = inb[j++];
        }
        out[outcount++] = ina[i];
    }
    while (j<lenb)
        out[outcount++] = inb[j++];

    return 0;
}

int domerge_sort(double *a, int start, int end, double *b) {
    if ((end - start) <= 1) return 0;

    int mid = (end+start)/2;
    domerge_sort(a, start, mid, b);
    domerge_sort(a, mid,   end, b);
    merge(&(a[start]), mid-start, &(a[mid]), end-mid, &(b[start]));
    for (int i=start; i<end; i++)
        a[i] = b[i];

    return 0;
}

int merge_sort(int n, double *a) {
    double b[n];
    domerge_sort(a, 0, n, b);
    return 0;
}

void printstat(int rank, int iter, char *txt, double *la, int n) {
    printf("[%d] %s iter %d: <", rank, txt, iter);
    for (int j=0; j<n-1; j++)
        printf("%6.3lf,",la[j]);
    printf("%6.3lf>\n", la[n-1]);
}

void MPI_Pairwise_Exchange(int localn, double *locala, int sendrank, int recvrank,
                           MPI_Comm comm) {

    /*
     * the sending rank just sends the data and waits for the results;
     * the receiving rank receives it, sorts the combined data, and returns
     * the correct half of the data.
     */
    int rank;
    double remote[localn];
    double all[2*localn];
    const int mergetag = 1;
    const int sortedtag = 2;

    MPI_Comm_rank(comm, &rank);
    if (rank == sendrank) {
        MPI_Send(locala, localn, MPI_DOUBLE, recvrank, mergetag, MPI_COMM_WORLD);
        MPI_Recv(locala, localn, MPI_DOUBLE, recvrank, sortedtag, MPI_COMM_WORLD, MPI_STATUS_IGNORE);
    } else {
        MPI_Recv(remote, localn, MPI_DOUBLE, sendrank, mergetag, MPI_COMM_WORLD, MPI_STATUS_IGNORE);
        merge(locala, localn, remote, localn, all);

        int theirstart = 0, mystart = localn;
        if (sendrank > rank) {
            theirstart = localn;
            mystart = 0;
        }
        MPI_Send(&(all[theirstart]), localn, MPI_DOUBLE, sendrank, sortedtag, MPI_COMM_WORLD);
        for (int i=mystart; i<mystart+localn; i++)
            locala[i-mystart] = all[i];
    }
}

int MPI_OddEven_Sort(int n, double *a, int root, MPI_Comm comm)
{
    int rank, size, i;
    double *local_a;

// get rank and size of comm
    MPI_Comm_rank(comm, &rank); //&rank = address of rank
    MPI_Comm_size(comm, &size);

    local_a = (double *) calloc(n / size, sizeof(double));


// scatter the array a to local_a
    MPI_Scatter(a, n / size, MPI_DOUBLE, local_a, n / size, MPI_DOUBLE,
        root, comm);
// sort local_a
    merge_sort(n / size, local_a);

//odd-even part
    for (i = 1; i <= size; i++) {

        printstat(rank, i, "before", local_a, n/size);

        if ((i + rank) % 2 == 0) {  // means i and rank have same nature
            if (rank < size - 1) {
                MPI_Pairwise_Exchange(n / size, local_a, rank, rank + 1, comm);
            }
        } else if (rank > 0) {
            MPI_Pairwise_Exchange(n / size, local_a, rank - 1, rank, comm);
        }

    }

    printstat(rank, i-1, "after", local_a, n/size);

// gather local_a to a
    MPI_Gather(local_a, n / size, MPI_DOUBLE, a, n / size, MPI_DOUBLE,
           root, comm);

    if (rank == root)
        printstat(rank, i, " all done ", a, n);

    return MPI_SUCCESS;
}

int main(int argc, char **argv) {

    MPI_Init(&argc, &argv);

    int n = argc-1;
    double a[n];
    for (int i=0; i<n; i++)
        a[i] = atof(argv[i+1]);

    MPI_OddEven_Sort(n, a, 0, MPI_COMM_WORLD);

    MPI_Finalize();

    return 0;
}

因此，它的工作方式是，列表在处理器之间均匀分配（非均等分布也很容易处理，但需要大量额外的簿记工作，这对本次讨论没有多大帮助）。

我们首先对本地列表进行排序（O(n/P ln n/P)）。当然，没有理由它必须是合并排序，除了这里我们可以按照以下步骤重复使用该合并代码。然后我们进行 P 个邻居交换步骤，每个方向各一半。这里的模型是，有一个线性网络，我们可以在其中直接快速地与近邻进行通信，但也许根本无法与更远的邻居进行通信。

The 原始奇偶排序网络 http://en.wikipedia.org/wiki/Batcher_odd%E2%80%93even_mergesort是每个处理器都有一个密钥的情况，在这种情况下，通信很容易 - 您将您的项目与邻居进行比较，并在必要时进行交换（因此这基本上是并行冒泡排序）。在这种情况下，我们在进程对之间进行简单的并行排序 - 这里，每一对仅将所有数据发送到其中一个，该对合并已经本地排序的列表 O(N/P)，然后给出适当的一半的数据返回到另一个处理器。我把你的支票拿出来了；可以看出，它是在P个邻居交换中完成的。您当然可以将其添加回来，以防提前终止；然而，当一切完成时，所有处理器都必须达成一致，这需要类似全部减少 http://www.mpich.org/static/docs/v3.1/www3/MPI_Allreduce.html，这在一定程度上打破了原来的模型。

因此，每个链路的数据传输次数为 O(n)（每次发送和接收 n/P 项 P 次），并且每个处理器执行 (n/P ln n/P) + (2 n/P - 1)*P/ 2 = O(n/P ln n/P + N) 次比较；在这种情况下，还需要考虑分散和聚集，但一般来说，这种排序是在数据到位的情况下完成的。

运行上面的代码 - 为了清楚起见，使用相同的示例给出（输出重新排序以使其更易于阅读）：

$ mpirun -np 4 ./baudet-stevenson 43 54 63 28 79 81 32 47 84 17 25 49
[0] before iter 1: <43.000,54.000,63.000>
[1] before iter 1: <28.000,79.000,81.000>
[2] before iter 1: <32.000,47.000,84.000>
[3] before iter 1: <17.000,25.000,49.000>

[0] before iter 2: <43.000,54.000,63.000>
[1] before iter 2: <28.000,32.000,47.000>
[2] before iter 2: <79.000,81.000,84.000>
[3] before iter 2: <17.000,25.000,49.000>

[0] before iter 3: <28.000,32.000,43.000>
[1] before iter 3: <47.000,54.000,63.000>
[2] before iter 3: <17.000,25.000,49.000>
[3] before iter 3: <79.000,81.000,84.000>

[0] before iter 4: <28.000,32.000,43.000>
[1] before iter 4: <17.000,25.000,47.000>
[2] before iter 4: <49.000,54.000,63.000>
[3] before iter 4: <79.000,81.000,84.000>

[0] after iter 4: <17.000,25.000,28.000>
[1] after iter 4: <32.000,43.000,47.000>
[2] after iter 4: <49.000,54.000,63.000>
[3] after iter 4: <79.000,81.000,84.000>

[0]  all done  iter 5: <17.000,25.000,28.000,32.000,43.000,47.000,49.000,54.000,63.000,79.000,81.000,84.000>

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

MPI 奇偶排序如何工作？的相关文章

没有强命名的代码签名是否会让您的应用程序容易被滥用？

尝试了解authenticode代码签名和强命名我是否正确地认为如果我对引用一些 dll 非强命名的 exe 进行代码签名恶意用户就可以替换我的 DLL 并以看似由我签名但正在运行的方式分发应用程序他们的代码假设这是真的那么您似
为什么 C# Array.BinarySearch 这么快？

我已经实施了一个很简单用于在整数数组中查找整数的 C 中的 binarySearch 实现二分查找 static int binarySearch int arr int i int low 0 high arr Length 1 mid
不支持将数据直接绑定到存储查询（DbSet、DbQuery、DbSqlQuery）

正在编码视觉工作室2012并使用实体模型作为我的数据层但是当页面尝试加载时上面提到的标题我使用 Linq 语句的下拉控件往往会引发未处理的异常下面是我的代码 using AdventureWorksEntities dw new
从Web API同步调用外部api

我需要从我的 Web API 2 控制器调用外部 api 类似于此处的要求使用 HttpClient 从 Web API 操作调用外部 HTTP 服务 https stackoverflow com questions 13222998
用于登录 .NET 的堆栈跟踪

我编写了一个 logger exceptionfactory 模块它使用 System Diagnostics StackTrace 从调用方法及其声明类型中获取属性但我注意到如果我在 Visual Studio 之外以发布模式运行代
OleDbDataAdapter 未填充所有行

嘿我正在使用 DataAdapter 读取 Excel 文件并用该数据填充数据表这是我的查询和连接字符串 private string Query SELECT FROM Sheet1 private string ConnectStr
关于 C++ 转换：参数 1 从“[some_class]”到“[some_class]&”没有已知的转换

我正在研究 C 并且遇到了一个错误我不知道确切的原因我已经找到了解决方案但仍然想知道原因 class Base public void something Base b int main Base b b something Base
使用 WebClient 时出现 System.Net.WebException：无法创建 SSL/TLS 安全通道

当我执行以下代码时 System Net ServicePointManager ServerCertificateValidationCallback sender certificate chain errors gt return t
重载<<的返回值

include
SolrNet连接说明

为什么 SolrNet 连接的容器保持静态这是一个非常大的错误因为当我们在应用程序中向应用程序发送异步请求时 SolrNet 会表现异常在 SolrNet 中如何避免这个问题 class P static void M string
向现有 TCP 和 UDP 代码添加 SSL 支持？

这是我的问题现在我有一个 Linux 服务器应用程序使用 C gcc 编写它与 Windows C 客户端应用程序 Visual Studio 9 Qt 4 5 进行通信是什么very在不完全破坏现有协议的情况下向双方添加 SSL
使用日期 Swift 3 对字典数组进行排序

我有一个名为 myArray 的数组其中添加了字典我希望该字典按时间排序这是字典中的键那个时间是在 String 中时间的日期格式为 yyyy MM dd HH mm ss 我尝试使用下面的代码解决方案但给出了从字符串转换
为什么编译时浮点计算可能不会得到与运行时计算相同的结果？

In the speaker mentioned Compile time floating point calculations might not have the same results as runtime calculation
cmake 将标头包含到每个源文件中

其实我有一个简单的问题但找不到答案也许你可以给我指一个副本所以问题是是否可以告诉 cmake 指示编译器在每个源文件的开头自动包含一些头文件这样就不需要放置 include foo h 了谢谢 CMake 没有针对此特定用例的
如何将带有 IP 地址的连接字符串放入 web.config 文件中？

我们当前在 web config 文件中使用以下连接字符串 add name DBConnectionString connectionString Data Source ourServer Initial Catalog ourDB P
如何在Xamarin中删除ViewTreeObserver？

假设我需要获取并设置视图的高度在 Android 中众所周知只有在绘制视图之后才能获取视图高度如果您使用 Java 有很多答案最著名的方法之一如下取自这个答案 https stackoverflow com a 24035591
混合 ExecutionContext.SuppressFlow 和任务时 AsyncLocal.Value 出现意外值

在应用程序中由于 AsyncLocal 的错误意外值我遇到了奇怪的行为尽管我抑制了执行上下文的流程但 AsyncLocal Value 属性有时不会在新生成的任务的执行范围内重置下面我创建了一个最小的可重现示例来演示该问题 pr
测试用例执行完成后，无论是否通过，如何将测试用例结果保存在变量中？

我正在使用 NUNIT 在 Visual Studio 中使用 Selenium WebDriver 测试用例的代码是我想在执行测试用例后立即在变量中记录测试用例通过或失败的情况我怎样才能实现这一点 NUnit 假设您使用 NUnit
如何将服务器服务连接到 Dynamics Online

我正在修改内部管理应用程序以连接到我们的在线托管 Dynamics 2016 实例根据一些在线教程我一直在使用OrganizationServiceProxy out of Microsoft Xrm Sdk Client来自 SDK
如何在文本框中插入图像

有没有办法在文本框中插入图像我正在开发一个聊天应用程序我想用图标图像更改值等但我找不到如何在文本框中插入图像 Thanks 如果您使用 RichTextBox 进行聊天请查看Paste http msdn microsoft co

随机推荐

从 TortoiseGit 中删除保存的凭据

我的凭据保存在 TortoiseGit 中使用 Wincred 但我的密码已更改我现在从存储库中提取的唯一方法是删除凭据助手如何简单地更改密码或者我可以删除我的凭据并保存新的凭据吗通常无效凭据应自动清除在一次身份验证尝试失败
为什么Java的Double.compare(double, double)是这样实现的？

我正在研究实施比较双倍双倍 http java sun com javase 6 docs api java lang Double html compare double 20double Java 标准库 6 上面写着 public
MOP：访问任何插槽定义？（mito柱型）

我定义了一个使用 Mito ORM 的类插槽定义了一个 col type isbn accessor isbn initarg isbn col type or varchar 128 null 如何获得 col type定义由于这是我
raise RuntimeError('您需要使用 eventlet 服务器。'

在我的项目中我创建了一个app the website chat views py code async mode eventlet import os from django http import HttpResponse impor
使用javascript查找最上面的父窗口

如果您使用大量框架如何找到文档的最父级正文元素在一个也位于几个 iframe 中的 iframe 内我想为最上面的文档正文调用一个函数以下方法有效只不过每次都必须为父母数数 parent parent parent parent
减速器行为

据我了解当调用一个操作时所有减速器都会做出响应如果动作存在于switch case的reducer语句它执行如果没有那么case default执行保留现有状态当该操作存在于减速器中但它尝试更新的特定属性不存在时它似乎表现正
设置双精度值的格式以适应最大字符串大小

我需要格式化一个双精度值使其适合 13 个字符的字段有没有办法做到这一点String Format或者我是否坚持逐个字符的工作 Edits 希望他们这次能留下来对于超过一万亿的病例我要报告错误它基本上是一个计算器界面我自己的回答
std::marker::Sized 不满足

我正在尝试为我正在从事的 OpenGL 项目创建一种受 React 启发的组件系统该组件系统由包含一些属性和一些函数的结构体定义像这样 pub struct Component
实施时的完整日历问题

我在实施 FullCalendar 时遇到问题我想我做了基本用法主题中所说的所有事情http arshaw com fullcalendar docs usage http arshaw com fullcalendar docs
Span 是否可以在没有固定表达式的情况下指向固定大小的缓冲区？

我正在使用 NET Core 2 1 和语言标准 7 3 我希望引用一个固定缓冲区而不获取指向它的指针目前可以吗 public unsafe struct InteropStruct private fixed byte dataFiel
CakePHP：将多个复选框输入提交到数据库中

我在 Cakephp 表单中有一个复选框可以有多个值视图中
如何获取Marklogic数据库中的文档总数？

我在 Marklogic 数据库中有大约 20 个 lacs 文档我想要我的搜索应用程序中的文档总数进行分页为了获得我正在使用的总数 xdmp estimate cts search doc query 其中 query 是各种查询的组
Python pandas 有效地删除 UserWarning 和循环

可以说我有类似的代码 import pandas as pd df pd DataFrame Name Jay Leno JayLin Jay Jameson LinLeno Lin Jameson Python Leno Python L
为 AdvancedDataGrid 设置替代颜色 - 一种用于父节点，另一种用于子节点

似乎有多种方法可以设置数据网格的背景颜色 See 如何动态改变datagrid行的背景颜色 https stackoverflow com questions 2395915 how to dynamically change backgr
从 Linux 样式路径转换时，Docker 安装的卷将 ;C 添加到 Windows 路径的末尾

当我尝试在 Windows 上安装 docker 映像时我发现了一些有趣的奇怪现象我创建了一个 sh用于挂载项目文件夹以运行我们的开发人员环境映像的脚本我想要一个每个开发人员都可以运行的脚本无论他们的机器是什么它所做的只是使用当前
Rails 多对多嵌套形式：如何防止重复？

我在 Rails 3 2 3 应用程序中设置了一个嵌套表单它工作正常我的模型是 class Recipe lt ActiveRecord Base attr accessible title description excerpt da
角度主题

我希望在我的 Angular 5 web 应用程序中实现一个主题我没有将 Angular Material 用于所有内容即我只使用输入字段和某些组件我正在寻找一个可以在运行时使用控制更改的主题解决方案而不必重新编译我的应用程序
确定 IEnumerable 是否包含另一个 IEnumerable 的任何对象

我有2个IEnumerable
如何在Windows上使用git推送到github？

简单地说我不能 HTTPS推送 Eclipse git 插件不支持它 here http www vogella de blog 2010 08 09 git https msygit UI 消耗所有现有内存并挂起 tortoisegit
MPI 奇偶排序如何工作？

只是在面试前查看了一些笔记我很难理解如何奇偶排序 http en wikipedia org wiki Odd E2 80 93even sort在并行架构中工作 int MPI OddEven Sort int n double a i

MPI 奇偶排序如何工作？

MPI 奇偶排序如何工作？ 的相关文章

随机推荐

热门标签

MPI 奇偶排序如何工作？的相关文章