了解并解决多线程应用程序中的错误共享以及我遇到的实际问题

wufei123 2025-01-05 阅读:5 评论:0
最近,我正在研究一个计算泊松分布的函数的多线程实现(amath_pdist)。目标是将工作负载分配到多个线程以提高性能,特别是对于大型阵列。然而,我注意到随着数组大小的增加,速度明显减慢,而不是达到预期的加速。 经过一番调查,我发现了罪...

了解并解决多线程应用程序中的错误共享以及我遇到的实际问题

最近,我正在研究一个计算泊松分布的函数的多线程实现(amath_pdist)。目标是将工作负载分配到多个线程以提高性能,特别是对于大型阵列。然而,我注意到随着数组大小的增加,速度明显减慢,而不是达到预期的加速。

经过一番调查,我发现了罪魁祸首:虚假分享。在这篇文章中,我将解释什么是错误共享,展示导致问题的原始代码,并分享导致性能大幅提升的修复方法。

问题:多线程代码中的错误共享

错误共享当多个线程在共享数组的不同部分工作时发生,但它们的数据驻留在同一个缓存行中。高速缓存行是内存和 cpu 高速缓存之间传输的最小数据单元(通常为 64 字节)。如果一个线程写入缓存行的一部分,就会使其他线程的该行无效,即使它们正在处理逻辑上独立的数据。由于重复重新加载缓存行,这种不必要的失效会导致性能显着下降。

这是我的原始代码的简化版本:

void *calculate_pdist_segment(void *data) {
    struct pdist_segment *segment = (struct pdist_segment *)data;
    size_t interval_a = segment->interval_a, interval_b = segment->interval_b;
    double lambda = segment->lambda;
    int *d = segment->data;

    for (size_t i = interval_a; i < interval_b; i++) {
        segment->pdist[i] = pow(lambda, d[i]) * exp(-lambda) / tgamma(d[i] + 1);
    }
    return null;
}

double *amath_pdist(int *data, double lambda, size_t n_elements, size_t n_threads) {
    double *pdist = malloc(sizeof(double) * n_elements);
    pthread_t threads[n_threads];
    struct pdist_segment segments[n_threads];
    size_t step = n_elements / n_threads;

    for (size_t i = 0; i < n_threads; i++) {
        segments[i].data = data;
        segments[i].lambda = lambda;
        segments[i].pdist = pdist;
        segments[i].interval_a = step * i;
        segments[i].interval_b = (i == n_threads - 1) ? n_elements : (step * (i + 1));
        pthread_create(&threads[i], null, calculate_pdist_segment, &segments[i]);
    }

    for (size_t i = 0; i < n_threads; i++) {
        pthread_join(threads[i], null);
    }

    return pdist;
}
问题发生在哪里

上面的代码中:

  • 数组 pdist 在所有线程之间共享。
  • 每个线程写入特定范围的索引(interval_a 到interval_b)。
  • 在段边界,相邻索引可能驻留在同一缓存行中。例如,如果 pdist[249999] 和 pdist[250000] 共享一个缓存行,则线程 1(处理 pdist[249999])和线程 2(处理 pdist[250000])会使彼此的缓存行无效。

这个问题对于较大的数组来说扩展性很差。虽然边界问题看起来很小,但迭代的绝对数量放大了缓存失效的成本,导致数秒的不必要的开销。

解决方案:将内存与缓存行边界对齐

为了解决该问题,我使用 posix_memalign 来确保 pdist 数组与 64 字节边界 对齐。这保证了线程在完全独立的缓存行上运行,消除了错误共享。

这是更新后的代码:

double *amath_pdist(int *data, double lambda, size_t n_elements, size_t n_threads) {
    double *pdist;
    if (posix_memalign((void **)&pdist, 64, sizeof(double) * n_elements) != 0) {
        perror("Failed to allocate aligned memory");
        return NULL;
    }

    pthread_t threads[n_threads];
    struct pdist_segment segments[n_threads];
    size_t step = n_elements / n_threads;

    for (size_t i = 0; i < n_threads; i++) {
        segments[i].data = data;
        segments[i].lambda = lambda;
        segments[i].pdist = pdist;
        segments[i].interval_a = step * i;
        segments[i].interval_b = (i == n_threads - 1) ? n_elements : (step * (i + 1));
        pthread_create(&threads[i], NULL, calculate_pdist_segment, &segments[i]);
    }

    for (size_t i = 0; i < n_threads; i++) {
        pthread_join(threads[i], NULL);
    }

    return pdist;
}
为什么这有效?
  1. 对齐内存:

    • 使用 posix_memalign,数组从缓存行边界开始。
    • 每个线程分配的范围与缓存行整齐对齐,防止重叠。
  2. 无缓存线共享:

    • 线程在不同的缓存行上运行,消除了错误共享导致的失效。
  3. 提高缓存效率:

    • 顺序内存访问模式与 cpu 预取器很好地配合,进一步提高性能。
结果和要点

应用修复后,amath_pdist 函数的运行时间显着下降。对于我正在测试的数据集,挂钟时间从 10.92 秒下降到 0.06 秒。

主要经验教训:
  1. 错误共享是多线程应用程序中一个微妙但关键的问题。即使段边界处的微小重叠也会降低性能。
  2. 内存对齐使用posix_memalign是解决错误共享的简单有效的方法。将内存与缓存行边界对齐可确保线程独立运行。
  3. 在处理大型数组或并行处理时,始终分析代码是否存在与缓存相关的问题。 perf 或 valgrind 等工具可以帮助查明瓶颈。

感谢您的阅读!

对于任何对代码感兴趣的人,您可以在这里找到它

以上就是了解并解决多线程应用程序中的错误共享以及我遇到的实际问题的详细内容,更多请关注知识资源分享宝库其它相关文章!

版权声明

本站内容来源于互联网搬运,
仅限用于小范围内传播学习,请在下载后24小时内删除,
如果有侵权内容、不妥之处,请第一时间联系我们删除。敬请谅解!
E-mail:dpw1001@163.com

分享:

扫一扫在手机阅读、分享本文

发表评论
热门文章
  • 华为 Mate 70 性能重回第一梯队 iPhone 16 最后一块遮羞布被掀

    华为 Mate 70 性能重回第一梯队 iPhone 16 最后一块遮羞布被掀
    华为 mate 70 或将首发麒麟新款处理器,并将此前有博主爆料其性能跑分将突破110万,这意味着 mate 70 性能将重新夺回第一梯队。也因此,苹果 iphone 16 唯一能有一战之力的性能,也要被 mate 70 拉近不少了。 据悉,华为 Mate 70 性能会大幅提升,并且销量相比 Mate 60 预计增长40% - 50%,且备货充足。如果 iPhone 16 发售日期与 Mate 70 重合,销量很可能被瞬间抢购。 不过,iPhone 16 还有一个阵地暂时难...
  • 惠普新款战 99 笔记本 5 月 20 日开售:酷睿 Ultra / 锐龙 8040,4999 元起

    惠普新款战 99 笔记本 5 月 20 日开售:酷睿 Ultra / 锐龙 8040,4999 元起
    本站 5 月 14 日消息,继上线官网后,新款惠普战 99 商用笔记本现已上架,搭载酷睿 ultra / 锐龙 8040处理器,最高可选英伟达rtx 3000 ada 独立显卡,售价 4999 元起。 战 99 锐龙版 R7-8845HS / 16GB / 1TB:4999 元 R7-8845HS / 32GB / 1TB:5299 元 R7-8845HS / RTX 4050 / 32GB / 1TB:7299 元 R7 Pro-8845HS / RTX 2000 Ada...
  • 酷凛 ID-COOLING 推出霜界 240/360 一体水冷散热器,239/279 元

    酷凛 ID-COOLING 推出霜界 240/360 一体水冷散热器,239/279 元
    本站 5 月 16 日消息,酷凛 id-cooling 近日推出霜界 240/360 一体式水冷散热器,采用黑色无光低调设计,分别定价 239/279 元。 本站整理霜界 240/360 散热器规格如下: 酷凛宣称这两款水冷散热器搭载“自研新 V7 水泵”,采用三相六极马达和改进的铜底方案,缩短了水流路径,相较上代水泵进一步提升解热能力。 霜界 240/360 散热器的水泵为定速 2800 RPM 设计,噪声 28db (A)。 两款一体式水冷散热器采用 27mm 厚冷排,...
  • Nginx服务器的HTTP/2协议支持和性能提升技巧介绍

    Nginx服务器的HTTP/2协议支持和性能提升技巧介绍
    Nginx服务器的HTTP/2协议支持和性能提升技巧介绍 引言:随着互联网的快速发展,人们对网站速度的要求越来越高。为了提供更快的网站响应速度和更好的用户体验,Nginx服务器的HTTP/2协议支持和性能提升技巧变得至关重要。本文将介绍如何配置Nginx服务器以支持HTTP/2协议,并提供一些性能提升的技巧。 一、HTTP/2协议简介:HTTP/2协议是HTTP协议的下一代标准,它在传输层使用二进制格式进行数据传输,相比之前的HTTP1.x协议,HTTP/2协议具有更低的延...
  • 两个表格切换的快捷键是什么

    两个表格切换的快捷键是什么
    两个表格切换的快捷键是“ctrl+pageup”和“ctrl+pagedown”,按键盘上的“ctrl+pageup”键是向右切换表格,按“ctrl+pagedown”键是向左切换表格。 本教程操作环境:windows7系统、Microsoft Office Excel2010版、Dell G3电脑。 两个工作表之间切换是Ctrl+Tab,两个工作簿之间切换是Ctrl+PageUP和Ctrl+PageDown。 打开Excel表格,打开几个工作簿。 按键盘上的Ctrl+P...