文件浏览器

055 《Folly HardwareConcurrency.h 权威指南：系统级并发编程基石》

作者Lou Xiao, gemini创建时间2025-04-17 05:05:09更新时间2025-04-17 05:05:09

🌟🌟🌟本文案由Gemini 2.0 Flash Thinking Experimental 01-21创作，用来辅助学习知识。🌟🌟🌟

书籍大纲

▮▮▮▮ 1. chapter 1：硬件并发基础 (Fundamentals of Hardware Concurrency)
▮▮▮▮▮▮▮ 1.1 什么是硬件并发？(What is Hardware Concurrency?)
▮▮▮▮▮▮▮ 1.2 为什么硬件并发至关重要？(Why is Hardware Concurrency Important?)
▮▮▮▮▮▮▮ 1.3 现代CPU架构：核心、线程与超线程 (Modern CPU Architecture: Cores, Threads, and Hyperthreading)
▮▮▮▮▮▮▮ 1.4 操作系统与硬件并发管理 (Operating Systems and Hardware Concurrency Management)
▮▮▮▮▮▮▮ 1.5 硬件并发与软件并发的关系 (Relationship between Hardware and Software Concurrency)
▮▮▮▮ 2. chapter 2： Folly库与 HardwareConcurrency.h 概览 (Overview of Folly Library and HardwareConcurrency.h)
▮▮▮▮▮▮▮ 2.1 Folly库简介：Facebook开源基础设施 (Introduction to Folly Library: Facebook Open Source Infrastructure)
▮▮▮▮▮▮▮ 2.2 HardwareConcurrency.h 的诞生背景与设计目标 (Background and Design Goals of HardwareConcurrency.h)
▮▮▮▮▮▮▮ 2.3 HardwareConcurrency.h 的核心功能：获取硬件并发数 (Core Functionality of HardwareConcurrency.h: Getting Hardware Concurrency)
▮▮▮▮▮▮▮ 2.4 为什么选择 Folly 的 HardwareConcurrency.h？(Why Choose Folly's HardwareConcurrency.h?)
▮▮▮▮ 3. chapter 3： HardwareConcurrency.h API 全面解析 (Comprehensive API Analysis of HardwareConcurrency.h)
▮▮▮▮▮▮▮ 3.1 hardware_concurrency() 函数详解 (Detailed Explanation of hardware_concurrency() Function)
▮▮▮▮▮▮▮▮▮▮▮ 3.1.1 函数签名、参数与返回值 (Function Signature, Parameters, and Return Values)
▮▮▮▮▮▮▮▮▮▮▮ 3.1.2 异常处理与错误情况 (Exception Handling and Error Scenarios)
▮▮▮▮▮▮▮▮▮▮▮ 3.1.3 跨平台兼容性分析 (Cross-Platform Compatibility Analysis)
▮▮▮▮▮▮▮ 3.2 API 使用示例与最佳实践 (API Usage Examples and Best Practices)
▮▮▮▮▮▮▮ 3.3 与其他并发API的对比 (Comparison with Other Concurrency APIs)
▮▮▮▮ 4. chapter 4：实战应用：基于 HardwareConcurrency.h 的并发程序设计 (Practical Applications: Concurrent Programming with HardwareConcurrency.h)
▮▮▮▮▮▮▮ 4.1 利用硬件并发数优化多线程程序 (Optimizing Multithreaded Programs with Hardware Concurrency)
▮▮▮▮▮▮▮ 4.2 并行算法设计与实现 (Parallel Algorithm Design and Implementation)
▮▮▮▮▮▮▮ 4.3 案例分析：高性能服务器的并发模型 (Case Study: Concurrency Model of High-Performance Servers)
▮▮▮▮▮▮▮ 4.4 常见并发编程陷阱与规避 (Common Concurrency Programming Pitfalls and Avoidance)
▮▮▮▮ 5. chapter 5：高级主题：NUMA、CPU 亲和性与性能调优 (Advanced Topics: NUMA, CPU Affinity, and Performance Tuning)
▮▮▮▮▮▮▮ 5.1 NUMA 架构下的硬件并发 (Hardware Concurrency in NUMA Architectures)
▮▮▮▮▮▮▮ 5.2 CPU 亲和性设置与线程调度 (CPU Affinity Settings and Thread Scheduling)
▮▮▮▮▮▮▮ 5.3 基于 HardwareConcurrency.h 的性能基准测试与分析 (Performance Benchmarking and Analysis with HardwareConcurrency.h)
▮▮▮▮▮▮▮ 5.4 高级并发模式与最佳实践 (Advanced Concurrency Patterns and Best Practices)
▮▮▮▮ 6. chapter 6：总结与展望 (Summary and Future Outlook)
▮▮▮▮▮▮▮ 6.1 HardwareConcurrency.h 的价值与局限性 (Value and Limitations of HardwareConcurrency.h)
▮▮▮▮▮▮▮ 6.2 未来并发编程技术发展趋势 (Future Trends in Concurrency Programming)
▮▮▮▮▮▮▮ 6.3 持续学习与深入探索建议 (Recommendations for Continuous Learning and Further Exploration)

1. chapter 1：硬件并发基础 (Fundamentals of Hardware Concurrency)

1.1 什么是硬件并发？(What is Hardware Concurrency?)

在计算机科学领域，并发 (Concurrency) 是指系统能够同时处理多个任务或操作的能力。而硬件并发 (Hardware Concurrency)，顾名思义，是指计算机硬件层面提供的并发能力。它描述了硬件系统同时执行多个指令序列的物理能力，是实现软件并发的基础。

为了更好地理解硬件并发，我们可以从以下几个关键点入手：

① 指令执行的并行性：硬件并发的核心在于能够并行 (Parallelism) 执行多个指令流。这意味着在同一时间段内，多个独立的计算任务可以真正地同时进行，而不是像伪并发 (Pseudo-Concurrency) 那样通过快速切换时间片来模拟并发执行。

② 物理硬件资源：硬件并发的实现依赖于计算机系统中实际存在的物理硬件资源，例如：
⚝ 多核心处理器 (Multi-core Processor)：现代CPU通常包含多个物理核心，每个核心都可以独立执行指令。多核处理器是实现硬件并发最常见的形式。
⚝ 多处理器系统 (Multi-processor System)：一些高端服务器或工作站配备多个独立的物理处理器（CPU芯片），进一步提升硬件并发能力。
⚝ 硬件线程 (Hardware Threads)，例如 超线程 (Hyper-Threading) 技术：即使在单核心处理器上，超线程技术也能模拟出多个逻辑核心，从而提高指令吞吐量。
⚝ GPU (图形处理器)：GPU 拥有数千个小型核心，擅长并行处理大规模数据，尤其在图形渲染和高性能计算领域。
⚝ 专用硬件加速器 (Hardware Accelerators)：例如 FPGA、ASIC 等，针对特定任务进行硬件加速，实现高度并行化的计算。

③ 与软件并发的区别：硬件并发是物理层面的能力，而软件并发 (Software Concurrency) 是指在软件层面，通过编程技术（如多线程、多进程、协程等）来利用硬件并发能力，从而实现程序的同时执行。硬件并发是基础，软件并发是利用和管理硬件并发的手段。

④ 提升系统性能：硬件并发的主要目的是提升计算机系统的整体性能。通过并行执行任务，可以显著缩短程序的运行时间，提高系统的吞吐量和响应速度。尤其在处理计算密集型、I/O 密集型以及需要实时响应的应用场景中，硬件并发至关重要。

举例说明：

想象一下一个餐厅，硬件并发就像餐厅里有多个厨师（CPU核心），可以同时处理多份订单（线程或进程）。如果只有一个厨师，即使他再高效，也只能按顺序处理订单，效率会受到限制。而有了多个厨师，就可以同时烹饪不同的菜肴，大大提高出餐速度，提升餐厅的整体服务能力。

总结：

硬件并发是计算机系统在硬件层面提供的并行处理能力，它依赖于多核处理器、多处理器系统、超线程等硬件技术。理解硬件并发是深入学习并发编程、优化程序性能的基础。在后续章节中，我们将进一步探讨硬件并发的具体实现方式、应用场景以及如何通过 folly/system/HardwareConcurrency.h 库来有效地利用硬件并发能力。

1.2 为什么硬件并发至关重要？(Why is Hardware Concurrency Important?)

在当今的计算领域，硬件并发的重要性日益凸显，这并非偶然，而是由以下几个关键因素共同驱动的：

① 摩尔定律的放缓与多核时代的到来：

⚝ 曾经驱动计算机性能飞速发展的 摩尔定律 (Moore's Law)，即单芯片上晶体管数量大约每两年翻一番的趋势，已经逐渐放缓。继续通过单纯提升单核CPU的时钟频率来提高性能变得越来越困难，甚至会导致功耗和散热问题急剧增加。

⚝ 为了应对这一挑战，芯片制造商转向了多核架构 (Multi-core Architecture)。通过在一个处理器芯片上集成多个独立的CPU核心，可以在不显著提高时钟频率的情况下，大幅提升计算能力。这标志着我们进入了多核时代 (Multi-core Era)，硬件并发成为提升性能的主要途径。

② 日益增长的计算需求：

⚝ 现代应用程序，无论是服务器端的复杂服务，还是客户端的富媒体应用，都对计算能力提出了更高的要求。例如：
▮▮▮▮⚝ 大数据处理 (Big Data Processing)：需要处理海量数据，例如数据分析、机器学习、人工智能等领域，这些任务通常需要高度的并行计算能力。
▮▮▮▮⚝ 高性能计算 (High-Performance Computing, HPC)：科学计算、气象预测、物理模拟等领域，需要强大的计算能力来解决复杂的科学问题。
▮▮▮▮⚝ Web 服务和云计算 (Web Services and Cloud Computing)：需要处理大量的并发请求，保证服务的稳定性和响应速度。
▮▮▮▮⚝ 游戏和虚拟现实 (Games and Virtual Reality, VR)：需要实时渲染复杂的图形和场景，对计算和图形处理能力要求极高。

⚝ 硬件并发能够有效地满足这些日益增长的计算需求，通过并行处理任务，显著提升系统的吞吐量和响应速度。

③ 提升程序性能和效率：

⚝ 充分利用硬件并发能力，可以极大地提升程序的性能和效率。对于可以分解为多个独立子任务的应用场景，通过并行化 (Parallelization) 处理，可以将总的执行时间缩短到接近于最耗时子任务的执行时间，从而实现加速。

⚝ 例如，图像处理、视频编码、数据压缩等任务，都可以通过并行算法来充分利用多核处理器的硬件并发能力，显著提高处理速度。

④ 改善用户体验：

⚝ 对于用户而言，硬件并发的提升直接转化为更流畅、更快速的应用体验。例如：
▮▮▮▮⚝ 更快的应用启动速度
▮▮▮▮⚝ 更流畅的界面操作
▮▮▮▮⚝ 更快的网页加载速度
▮▮▮▮⚝ 更低的延迟

⚝ 特别是在需要实时响应的应用场景中，例如在线游戏、实时交易系统等，硬件并发能力直接影响用户体验的质量。

⑤ 能源效率的提升：

⚝ 虽然听起来可能有些反直觉，但在某些情况下，利用硬件并发实际上可以提高能源效率。相比于单核高频处理器，多核低频处理器在完成相同计算任务时，往往能够以更低的功耗实现更高的性能。

⚝ 这是因为降低时钟频率可以显著降低功耗，而通过增加核心数量来弥补频率降低带来的性能损失，总体上可以实现更高的能效比。

总结：

硬件并发在现代计算中扮演着至关重要的角色。它是应对摩尔定律放缓、满足日益增长的计算需求、提升程序性能和效率、改善用户体验以及提高能源效率的关键技术。理解和掌握硬件并发原理，并有效地利用硬件并发能力，是现代软件开发人员必备的技能。在接下来的章节中，我们将深入探讨现代CPU架构、操作系统如何管理硬件并发，以及如何使用 folly/system/HardwareConcurrency.h 来进行并发编程。

1.3 现代CPU架构：核心、线程与超线程 (Modern CPU Architecture: Cores, Threads, and Hyperthreading)

要深入理解硬件并发，必须先了解现代CPU的架构，特别是核心 (Core)、线程 (Thread) 和 超线程 (Hyper-Threading) 这三个关键概念。它们是构成硬件并发能力的基础单元。

① CPU核心 (CPU Core)：

⚝ 物理执行单元：CPU核心是CPU芯片上的一个物理执行单元，它包含了完成指令解码、执行、算术逻辑运算等所有计算任务所需的完整电路和功能部件，例如 ALU (算术逻辑单元)、控制单元 (Control Unit)、寄存器 (Registers)、高速缓存 (Cache) 等。

⚝ 独立的处理能力：每个CPU核心都可以独立地执行指令流。这意味着一个多核CPU可以同时执行多个不同的程序或同一个程序的多个线程，从而实现真正的并行计算。

⚝ 核心数量的演进：随着技术的发展，CPU的核心数量不断增加。从最初的单核CPU，到双核、四核、八核，甚至数十核、上百核的CPU已经成为现实。核心数量的增加直接提升了硬件并发能力。

② 线程 (Thread)：

⚝ 逻辑执行流：在硬件层面，线程通常指的是硬件线程 (Hardware Thread) 或 逻辑线程 (Logical Thread)。它是操作系统能够调度和执行的最小单位。

⚝ 与核心的关联：一个物理CPU核心可以支持一个或多个硬件线程。在没有超线程技术的情况下，通常一个物理核心对应一个硬件线程。

⚝ 软件线程与硬件线程：在软件编程中，我们创建的软件线程 (Software Thread) 最终需要映射到硬件线程上才能真正被CPU执行。操作系统负责将软件线程调度到可用的硬件线程上运行。

③ 超线程 (Hyper-Threading) 技术 (Intel® Hyper-Threading Technology)：

⚝ 单核多线程技术：超线程是一种由Intel® 开发的同步多线程 (Simultaneous Multithreading, SMT) 技术。它允许一个物理CPU核心模拟成两个或多个逻辑核心（硬件线程），从而使操作系统能够在一个物理核心上调度多个线程。

⚝ 资源共享与效率提升：超线程的核心思想是利用CPU核心内部的执行单元 (Execution Units) 在指令执行过程中的空闲时间。通过在同一个物理核心上维护多个线程的上下文信息，当一个线程在等待内存访问或其他操作时，可以让另一个线程利用核心的执行单元进行计算，从而提高CPU的整体利用率和吞吐量。

⚝ 并非真正的双倍性能：需要注意的是，超线程并非真正的将一个物理核心变成两个物理核心。它只是通过共享核心资源来提高效率。因此，超线程带来的性能提升通常远小于物理核心数量翻倍带来的提升。一般来说，超线程可以带来大约 20% - 30% 的性能提升，具体效果取决于具体的应用场景和工作负载。

⚝ 操作系统和软件的感知：对于操作系统和应用程序而言，开启超线程的CPU看起来就像拥有两倍于物理核心数量的逻辑处理器。例如，一个四核八线程的CPU，操作系统会识别为8个逻辑处理器。

现代CPU架构的层级关系：

可以用一个层级结构来概括现代CPU架构中核心、线程和超线程的关系：

1.双击鼠标左键复制此行；2.单击复制所有代码。

                                
                                    
                            1
                            CPU芯片 (CPU Chip)
                        

                            2
                              └── CPU核心 (CPU Core)
                        

                            3
                                  ├── 执行单元 (Execution Units) (ALU, FPU, etc.)
                        

                            4
                                  ├── 控制单元 (Control Unit)
                        

                            5
                                  ├── 寄存器 (Registers)
                        

                            6
                                  ├── 高速缓存 (Cache) (L1, L2, L3)
                        

                            7
                                  └── 硬件线程 (Hardware Thread) (逻辑核心，可能通过超线程技术实现多个)
                        

                            8
                                      └── 软件线程 (Software Thread) (由操作系统调度到硬件线程上执行)
                        

                            9
                                          └── 进程 (Process) (包含一个或多个软件线程)

总结：

现代CPU架构通过多核、超线程等技术实现了强大的硬件并发能力。理解CPU核心、线程和超线程的概念，以及它们之间的关系，对于编写高效的并发程序至关重要。程序员需要了解目标硬件的CPU架构，才能更好地利用硬件并发能力，优化程序性能。例如，在设计多线程程序时，需要考虑CPU的核心数量和是否支持超线程，以便合理地分配线程数量，避免过度或不足地利用硬件资源。在后续章节中，我们将学习如何通过 folly/system/HardwareConcurrency.h 获取系统的硬件并发信息，并据此进行并发程序设计。

1.4 操作系统与硬件并发管理 (Operating Systems and Hardware Concurrency Management)

操作系统 (Operating System, OS) 在硬件并发管理中扮演着至关重要的角色。它负责抽象硬件细节，为软件提供统一的并发编程接口，并有效地调度和管理硬件资源，以实现高效、公平、稳定的并发执行。

① 硬件抽象层 (Hardware Abstraction Layer, HAL)：

⚝ 操作系统作为硬件和软件之间的桥梁，首先需要对底层的硬件并发机制进行抽象。它通过HAL屏蔽了不同硬件架构的差异，为上层软件提供了一致的编程接口。

⚝ 例如，无论是单核、多核，还是是否支持超线程，操作系统都会向上层应用呈现统一的处理器 (Processor) 或 逻辑处理器 (Logical Processor) 的概念。应用程序可以通过操作系统提供的API来查询可用的硬件并发资源，而无需关心底层的硬件细节。

② 进程和线程管理 (Process and Thread Management)：

⚝ 操作系统是进程 (Process) 和 线程 (Thread) 的管理者。进程是资源分配的基本单位，线程是程序执行的基本单位。操作系统负责创建、销毁、调度和管理进程和线程。

⚝ 进程调度 (Process Scheduling) 和 线程调度 (Thread Scheduling) 是操作系统并发管理的核心机制。调度器 (Scheduler) 决定哪个进程或线程在哪个CPU核心上运行，以及运行多长时间。

⚝ 调度策略 (Scheduling Policies)：操作系统采用各种调度策略，例如 先来先服务 (First-Come, First-Served, FCFS)、短作业优先 (Shortest Job First, SJF)、优先级调度 (Priority Scheduling)、轮询调度 (Round Robin, RR)、多级反馈队列 (Multilevel Feedback Queue, MLFQ) 等，来平衡系统性能、公平性和响应速度。现代操作系统通常采用复杂的混合调度策略。

③ 资源管理与同步 (Resource Management and Synchronization)：

⚝ 在并发环境下，多个进程或线程可能需要共享系统资源，例如内存、文件、I/O 设备等。操作系统需要有效地管理这些资源，避免资源竞争和冲突。

⚝ 同步机制 (Synchronization Mechanisms)：操作系统提供了各种同步机制，例如 互斥锁 (Mutex)、信号量 (Semaphore)、条件变量 (Condition Variable)、读写锁 (Read-Write Lock)、自旋锁 (Spin Lock) 等，用于协调多个并发执行的线程或进程，保证数据的一致性和程序的正确性。

⚝ 死锁 (Deadlock) 和 活锁 (Livelock) 防范：操作系统需要采取措施来预防和检测死锁和活锁等并发问题，保证系统的稳定性和可靠性。

④ 虚拟内存管理 (Virtual Memory Management)：

⚝ 虚拟内存技术允许操作系统为每个进程提供独立的、连续的虚拟地址空间，隐藏了物理内存的复杂性。这使得多进程并发执行成为可能，并且提高了内存的利用率和安全性。

⚝ 操作系统负责虚拟地址到物理地址的映射、内存分页 (Paging)、内存交换 (Swapping) 等操作，为并发程序提供内存管理支持。

⑤ I/O 管理 (I/O Management)：

⚝ I/O 操作通常比CPU计算慢得多。操作系统需要有效地管理 I/O 操作，避免 I/O 阻塞导致CPU空闲。

⚝ 异步 I/O (Asynchronous I/O) 和 非阻塞 I/O (Non-blocking I/O) 技术允许程序在发起 I/O 操作后继续执行其他任务，当 I/O 操作完成时再通过中断或回调机制通知程序，从而提高系统的并发性和响应速度。

⑥ 跨平台兼容性 (Cross-Platform Compatibility)：

⚝ 不同的操作系统可能在硬件并发管理方面存在差异。例如，线程调度的实现方式、同步机制的API、对NUMA架构的支持等。

⚝ 操作系统需要尽可能地提供标准化的API和行为，以提高应用程序的跨平台兼容性。例如，POSIX 线程 (pthread) 标准在类Unix系统上提供了较为统一的线程编程接口。folly/system/HardwareConcurrency.h 库也致力于提供跨平台的硬件并发信息获取能力。

总结：

操作系统是硬件并发管理的核心组件。它通过硬件抽象、进程/线程管理、资源管理与同步、虚拟内存管理、I/O 管理等机制，为并发程序提供运行环境和支持。理解操作系统在硬件并发管理中的作用，有助于我们编写更高效、更可靠的并发程序。在后续章节中，我们将探讨如何利用操作系统提供的API和工具，以及 folly/system/HardwareConcurrency.h 库，来更好地进行并发编程。

1.5 硬件并发与软件并发的关系 (Relationship between Hardware and Software Concurrency)

硬件并发和软件并发是计算机系统中两个密切相关但又有所区别的概念。理解它们之间的关系，对于深入学习并发编程至关重要。

① 硬件并发是基础，软件并发是手段：

⚝ 硬件并发 (Hardware Concurrency) 是指计算机硬件系统提供的并行执行能力，例如多核处理器、超线程等。它是物理层面的能力。

⚝ 软件并发 (Software Concurrency) 是指在软件层面，通过编程技术和方法，利用硬件并发能力，实现程序的同时执行。它是逻辑层面的实现。

⚝ 硬件并发是软件并发的基础和前提。没有硬件并发的支持，软件并发只能是伪并发，即通过时间片轮转等技术模拟并发执行，但实际上在同一时刻只有一个任务在执行。

⚝ 软件并发是利用和管理硬件并发的手段。通过合理的软件设计和编程，才能充分发挥硬件并发的性能优势。

② 软件并发依赖于硬件并发：

⚝ 软件并发的实现方式，例如多线程、多进程、协程等，最终都需要依赖于底层的硬件并发能力来真正实现并行执行。

⚝ 例如，当我们编写一个多线程程序时，操作系统会将这些软件线程调度到可用的硬件线程上运行。如果硬件系统只有一个核心，那么这些软件线程只能通过时间片轮转的方式伪并发执行。只有在多核处理器上，这些软件线程才能真正地并行执行。

③ 软件并发的目标是充分利用硬件并发：

⚝ 软件并发编程的主要目标之一，就是充分利用硬件并发能力，提高程序的性能和效率。

⚝ 通过将程序分解为多个可以并行执行的任务，并使用多线程、多进程等技术来实现并发，可以有效地缩短程序的运行时间，提高系统的吞吐量。

⚝ 然而，并非所有的软件并发都能带来性能提升。不合理的并发设计，例如过多的线程创建、频繁的线程切换、不必要的同步开销等，反而可能降低程序性能。因此，需要根据具体的应用场景和硬件环境，合理地设计和实现软件并发。

④ 硬件并发能力决定了软件并发的上限：

⚝ 硬件并发能力是软件并发性能的上限。即使软件设计得再好，如果硬件并发能力不足，软件并发的性能也无法突破硬件的限制。

⚝ 例如，在一个单核处理器上运行多线程程序，即使软件设计得非常精巧，其性能提升也远不如在多核处理器上运行相同的程序。

⚝ 因此，在进行并发编程时，需要了解目标硬件的并发能力，例如CPU的核心数量、是否支持超线程等，以便合理地设计并发策略，避免过度或不足地利用硬件资源。

⑤ 硬件并发和软件并发协同工作：

⚝ 硬件并发和软件并发是协同工作的。硬件提供并行执行能力，操作系统负责调度和管理硬件资源，软件则通过编程技术来利用硬件并发能力。

⚝ 操作系统和软件需要共同优化，才能充分发挥硬件并发的性能优势。例如，操作系统需要提供高效的线程调度算法和同步机制，软件需要采用合适的并发模型和算法，才能实现高性能的并发程序。

举例说明：

假设我们有一个图像处理程序，需要处理大量的图像数据。

⚝ 硬件并发：我们的计算机配备了一个四核处理器，这意味着硬件系统可以同时执行四个独立的指令流。
⚝ 软件并发：我们可以将图像处理任务分解为四个独立的子任务，并创建四个软件线程来分别处理这些子任务。
⚝ 关系：操作系统会将这四个软件线程调度到四个CPU核心上并行执行，从而充分利用硬件并发能力，加速图像处理过程。

总结：

硬件并发是软件并发的基础，软件并发是利用硬件并发的手段。软件并发的性能受到硬件并发能力的限制，但合理的软件设计可以充分发挥硬件并发的优势。理解硬件并发和软件并发的关系，有助于我们更好地进行并发编程，设计出高性能、高效率的并发程序。在接下来的章节中，我们将深入探讨如何使用 folly/system/HardwareConcurrency.h 库来获取硬件并发信息，并据此进行并发程序设计，充分利用硬件并发能力。

END_OF_CHAPTER

2. chapter 2： Folly库与 HardwareConcurrency.h 概览 (Overview of Folly Library and HardwareConcurrency.h)

2.1 Folly库简介：Facebook开源基础设施 (Introduction to Folly Library: Facebook Open Source Infrastructure)

Folly，全称为 "Facebook Open Source Library"，是一个由 Facebook 开源的高性能 C++ 库集合。它旨在为构建和维护大型、高性能的应用程序提供基础组件。Folly 并非一个单一的库，而是一系列相互关联但又可以独立使用的模块的集合，涵盖了从基础数据结构、并发工具、网络编程到高性能算法等多个领域。

Folly 的起源与目标

Folly 库的诞生源于 Facebook 在构建其大规模分布式系统和高性能服务过程中遇到的实际挑战。为了应对这些挑战，Facebook 的工程师们开发了一系列内部库和工具，用于提高开发效率、增强系统性能和可靠性。随着时间的推移，这些内部工具逐渐成熟并被整合到 Folly 库中，最终以开源的形式发布，惠及更广泛的开发者社区。

Folly 的设计目标主要体现在以下几个方面：

① 高性能 (High Performance)：Folly 库的核心目标之一是提供高性能的组件。它在设计和实现上都非常注重效率，例如，使用了大量的模板元编程、内联函数、以及针对特定硬件架构的优化，以最大限度地提升代码的执行速度和资源利用率。这使得 Folly 库在处理高负载、低延迟的应用场景中表现出色。

② 现代 C++ 特性 (Modern C++ Features)：Folly 库积极拥抱现代 C++ 标准，例如 C++11、C++14、C++17 甚至更新的标准。它充分利用了现代 C++ 提供的各种特性，如 Lambda 表达式、右值引用、移动语义、constexpr 等，来简化代码、提高效率和安全性。这使得 Folly 库的代码既简洁又强大，同时也更易于维护和扩展。

③ 实用性与广泛性 (Practicality and Breadth)：Folly 库不仅仅关注理论上的性能优化，更注重解决实际问题。它提供的组件涵盖了广泛的应用场景，从基础的数据结构和算法，到复杂的并发和网络编程，再到特定领域的工具库，几乎覆盖了构建现代应用程序所需的各个方面。这种广泛性使得 Folly 库成为了一个非常实用的工具箱，开发者可以从中找到各种有用的组件来加速开发进程。

④ 模块化设计 (Modular Design)：Folly 库采用了模块化的设计理念，将不同的功能划分为独立的模块。这种模块化设计使得开发者可以根据自己的需求选择性地引入 Folly 库的组件，而无需引入整个库的所有内容。这降低了库的依赖性，减少了编译时间和二进制文件的大小，同时也提高了代码的可维护性和可重用性。

Folly 库的主要模块

Folly 库包含众多模块，以下列举一些核心且常用的模块，以便读者对 Folly 库有一个初步的了解：

⚝ FBString 和 FBVector: FBString 是 Folly 提供的字符串类，FBVector 是 Folly 提供的动态数组类。它们在性能上进行了优化，特别是在内存分配和拷贝方面，通常比标准库的 std::string 和 std::vector 更高效。例如，FBString 采用了写时复制 (Copy-on-Write, COW) 技术，可以减少不必要的字符串拷贝操作。

⚝ Futures 和 Promises: Folly 的 Futures 和 Promises 模块提供了强大的异步编程支持。它们允许开发者以更简洁、更易读的方式编写异步代码，避免了传统回调函数带来的 "回调地狱" 问题。Futures 和 Promises 可以方便地进行异步任务的组合、链式调用、错误处理等操作，极大地提高了异步编程的效率和可维护性。

⚝ Executor: Executor 模块提供了一组用于管理和调度任务执行的抽象接口和实现。它类似于 Java 中的 ExecutorService 或 Python 中的 concurrent.futures.Executor，可以方便地将任务提交到线程池、协程池或其他执行器中执行。Executor 模块提供了多种内置的执行器实现，例如线程池执行器、单线程执行器、以及用于 CPU 密集型任务和 IO 密集型任务的专用执行器。

⚝ IO 模块: Folly 的 IO 模块提供了高性能的网络编程支持。它基于 epoll (Linux)、kqueue (macOS/FreeBSD) 等高效的 I/O 多路复用机制，提供了非阻塞 I/O、事件驱动编程、以及高效的 Buffer 管理等功能。IO 模块是构建高性能网络服务器和客户端的理想选择。

⚝ Concurrency 模块: Concurrency 模块提供了一系列用于并发编程的工具和数据结构，例如原子操作、互斥锁、条件变量、信号量、以及各种并发容器。HardwareConcurrency.h 就位于 Concurrency 模块中。这些工具和数据结构可以帮助开发者编写高效、安全、可靠的并发程序。

⚝ Memory 模块: Memory 模块提供了一系列内存管理相关的工具，例如自定义内存分配器、内存池、以及用于诊断内存泄漏和内存错误的工具。这些工具可以帮助开发者更好地管理内存，提高程序的性能和稳定性。

⚝ JSON 模块: Folly 的 JSON 模块提供了高性能的 JSON 解析和生成功能。它在性能上进行了优化，通常比其他 JSON 库更快。JSON 模块支持 JSON 的各种特性，例如流式解析、延迟解析、以及 JSON Schema 验证。

Folly 的影响与应用

Folly 库自开源以来，受到了广泛的关注和应用。许多公司和组织都在其内部系统和产品中使用了 Folly 库，例如 Meta (Facebook)、Netflix、Uber、Dropbox 等。Folly 库不仅在工业界得到了广泛应用，也在学术界和开源社区中产生了重要的影响。许多开源项目都借鉴了 Folly 库的设计思想和实现方式。

总而言之，Folly 库是一个功能强大、性能卓越、实用性强的 C++ 库集合，是构建现代高性能应用程序的理想选择。HardwareConcurrency.h 作为 Folly 库 Concurrency 模块中的一个组件，继承了 Folly 库的优秀特性，为开发者提供了一种简单、可靠的方式来获取硬件并发信息，从而更好地进行并发程序设计和性能优化。

2.2 HardwareConcurrency.h 的诞生背景与设计目标 (Background and Design Goals of HardwareConcurrency.h)

在并发编程中，充分利用硬件资源是提升程序性能的关键。而要有效地利用硬件资源，首先需要了解硬件的并发能力，即系统中可同时执行的线程数量。这个数量通常由 CPU 的核心数、线程数以及超线程技术等因素决定。在早期，程序员往往需要手动探测 CPU 的信息，或者依赖于特定的操作系统 API 来获取这些信息，但这些方法通常比较繁琐、平台依赖性强，且容易出错。

诞生背景

随着多核处理器和超线程技术的普及，硬件并发能力变得越来越复杂。不同的操作系统和硬件平台对于硬件并发的表示和管理方式也存在差异。为了解决这些问题，并为开发者提供一个统一、便捷、跨平台的接口来获取硬件并发信息，Folly 库的开发者们创建了 HardwareConcurrency.h 头文件，并将其纳入 Concurrency 模块中。

HardwareConcurrency.h 的诞生背景可以归纳为以下几点：

① 跨平台需求 (Cross-Platform Needs)：在 Facebook 这样的大型互联网公司中，服务器通常运行在各种不同的操作系统和硬件平台上，例如 Linux、Windows、macOS 等。为了保证代码的可移植性和一致性，需要一个跨平台的解决方案来获取硬件并发信息，而避免针对不同平台编写不同的代码。

② 简化并发编程 (Simplifying Concurrent Programming)：并发编程本身就具有一定的复杂性，如果开发者还需要花费额外的精力去探测硬件并发信息，无疑会增加开发的难度和出错的概率。HardwareConcurrency.h 的目标之一就是简化并发编程，让开发者能够更专注于业务逻辑的实现，而将硬件并发信息的获取交给一个简单易用的 API 来处理。

③ 提高性能优化效率 (Improving Performance Optimization Efficiency)：了解硬件并发信息是进行性能优化的基础。例如，在多线程程序中，线程的数量通常应该与硬件并发数相匹配，才能充分利用 CPU 资源，避免过多的线程上下文切换带来的性能损耗。HardwareConcurrency.h 提供了一种快速、准确地获取硬件并发信息的方式，从而提高了性能优化的效率。

④ 统一接口 (Unified Interface)：不同的操作系统和编程语言可能提供不同的 API 来获取硬件并发信息，例如 std::thread::hardware_concurrency() (C++11 标准库)、sysconf(_SC_NPROCESSORS_ONLN) (POSIX 系统)、GetSystemInfo (Windows API) 等。这些 API 的接口和使用方式各不相同，给开发者带来了学习和使用的成本。HardwareConcurrency.h 的目标是提供一个统一的接口，屏蔽底层平台的差异，让开发者可以使用相同的 API 在不同的平台上获取硬件并发信息。

设计目标

HardwareConcurrency.h 的设计目标可以概括为以下几个方面：

① 准确性 (Accuracy)：HardwareConcurrency.h 的首要目标是准确地获取硬件并发信息。它需要能够正确地识别 CPU 的核心数、线程数、以及超线程技术等，并返回系统中可同时执行的硬件线程数量。为了保证准确性，HardwareConcurrency.h 在不同的平台上采用了不同的实现方式，并进行了充分的测试和验证。

② 跨平台性 (Cross-Platform Compatibility)：HardwareConcurrency.h 需要能够在各种主流的操作系统和硬件平台上正常工作，包括 Linux、Windows、macOS、iOS、Android 等。为了实现跨平台性，HardwareConcurrency.h 使用了条件编译、平台相关的 API 调用等技术，并针对不同的平台进行了适配和优化。

③ 易用性 (Ease of Use)：HardwareConcurrency.h 提供的 API 应该简单易用，开发者只需要调用一个函数即可获取硬件并发信息，而无需了解底层的实现细节。为了提高易用性，HardwareConcurrency.h 只提供了一个核心函数 hardware_concurrency()，其函数签名简洁明了，使用方式直观。

④ 高性能 (Performance)：HardwareConcurrency.h 的性能也是一个重要的设计目标。获取硬件并发信息的操作应该尽可能地快速，避免对程序的性能产生显著的影响。为了实现高性能，HardwareConcurrency.h 在实现上进行了优化，例如使用了缓存机制、避免了不必要的系统调用等。

⑤ 鲁棒性 (Robustness)：HardwareConcurrency.h 需要具有良好的鲁棒性，即使在某些异常情况下，例如无法获取硬件并发信息时，也应该能够优雅地处理，并返回一个合理的默认值，而不是导致程序崩溃或产生不可预测的行为。为了提高鲁棒性，HardwareConcurrency.h 考虑了各种可能的错误情况，并提供了相应的错误处理机制。

总而言之，HardwareConcurrency.h 的诞生是为了解决跨平台获取硬件并发信息的难题，其设计目标是提供一个准确、跨平台、易用、高性能、鲁棒的 API，从而简化并发编程，提高性能优化效率，并为开发者提供更好的并发编程体验。

2.3 HardwareConcurrency.h 的核心功能：获取硬件并发数 (Core Functionality of HardwareConcurrency.h: Getting Hardware Concurrency)

HardwareConcurrency.h 头文件的核心功能非常明确且单一，即提供一个函数 hardware_concurrency()，用于获取当前系统可用于并发执行的硬件线程数量，也就是通常所说的硬件并发数。这个函数是 HardwareConcurrency.h 提供的唯一公开接口，体现了 Folly 库一贯的简洁和专注的设计风格。

hardware_concurrency() 函数

hardware_concurrency() 函数的设计目标是尽可能准确地反映系统的硬件并发能力。它会考虑 CPU 的物理核心数、每个核心的线程数（例如，通过超线程技术实现），以及操作系统对并发的限制等因素，最终返回一个整数值，表示系统理论上可以同时运行的线程数量。

返回值含义

hardware_concurrency() 函数的返回值是一个 int 类型的值，其含义如下：

⚝ 正整数 (Positive Integer)：表示系统检测到的硬件并发数。例如，如果返回值为 8，则表示系统有 8 个硬件线程可以同时执行。这通常意味着系统拥有 8 个物理核心，或者拥有 4 个物理核心且每个核心支持 2 个超线程。
⚝ 0: 在极少数情况下，如果系统无法确定硬件并发数，或者硬件并发数为 0 (例如，在某些嵌入式系统或特殊配置下)，hardware_concurrency() 可能会返回 0。但这种情况非常罕见，在常见的桌面、服务器和移动设备上，通常都能返回一个正整数。
⚝ 负数: hardware_concurrency() 函数的设计目标是返回非负整数，正常情况下不会返回负数。如果遇到返回负数的情况，可能意味着 HardwareConcurrency.h 的实现存在 bug，或者系统环境存在异常。

获取硬件并发数的原理

hardware_concurrency() 函数在不同的操作系统平台上，会采用不同的方法来获取硬件并发数，以保证跨平台兼容性和准确性。其基本原理通常是查询操作系统提供的 API 或系统调用，以获取 CPU 的拓扑结构信息，并从中提取出硬件并发数。

以下是一些常见操作系统平台上 hardware_concurrency() 函数可能采用的实现方式：

① Linux: 在 Linux 系统上，hardware_concurrency() 函数可能会使用 sysconf(_SC_NPROCESSORS_ONLN) 系统调用来获取可用的处理器数量。_SC_NPROCESSORS_ONLN 返回的是当前系统中 "online" (在线) 的处理器数量，也就是可以用于执行线程的处理器数量。此外，hardware_concurrency() 也可能读取 /proc/cpuinfo 文件，解析其中的 CPU 信息，例如 "cpu cores" 和 "siblings" 字段，来更精确地计算硬件并发数，特别是对于支持超线程技术的 CPU。

② macOS/iOS: 在 macOS 和 iOS 系统上，hardware_concurrency() 函数可能会使用 sysctl 系统调用，并查询 hw.logicalcpu_max 或 hw.ncpu 等系统变量来获取逻辑 CPU 数量。hw.logicalcpu_max 通常反映了包括超线程在内的最大逻辑 CPU 数量，而 hw.ncpu 则可能反映物理核心数。hardware_concurrency() 需要根据具体的系统版本和硬件架构，选择合适的 sysctl 变量，并进行适当的计算，以得到准确的硬件并发数。

③ Windows: 在 Windows 系统上，hardware_concurrency() 函数可能会使用 GetSystemInfo 或 GetLogicalProcessorInformation 等 Windows API 函数来获取系统信息。GetSystemInfo 函数可以返回 SYSTEM_INFO 结构体，其中包含了 dwNumberOfProcessors 字段，表示系统中的处理器数量。GetLogicalProcessorInformation 函数可以返回更详细的逻辑处理器信息，包括处理器组、NUMA 节点、以及处理器核心和线程之间的关系。hardware_concurrency() 可以根据这些信息，计算出硬件并发数。

④ Android: 在 Android 系统上，hardware_concurrency() 的实现方式可能类似于 Linux，因为它也是基于 Linux 内核的。它可能会使用 sysconf(_SC_NPROCESSORS_ONLN) 系统调用，或者读取 /proc/cpuinfo 文件来获取硬件并发信息。此外，Android 系统也提供了一些 Java API (例如 Runtime.getRuntime().availableProcessors()) 可以获取处理器数量，hardware_concurrency() 可能会在 JNI 层调用这些 Java API。

使用场景

hardware_concurrency() 函数的主要用途是在并发程序中，根据硬件并发数来动态地调整线程池的大小、任务分解的粒度、以及其他并发策略，从而最大限度地利用硬件资源，提高程序的性能和效率。

以下是一些 hardware_concurrency() 函数的典型使用场景：

⚝ 线程池大小设置: 在创建线程池时，通常需要设置线程池的大小，也就是线程池中线程的数量。如果线程池大小设置得太小，可能无法充分利用 CPU 资源；如果设置得太大，可能会导致过多的线程上下文切换，反而降低性能。使用 hardware_concurrency() 函数可以根据硬件并发数来动态地设置线程池的大小，例如，可以将线程池大小设置为硬件并发数或者硬件并发数的两倍。

 1.双击鼠标左键复制此行；2.单击复制所有代码。 
                                
                            #include <folly/concurrency/HardwareConcurrency.h>
                        
                            #include <thread>
                        
                            #include <iostream>
                        
                            int main() {
                        
                              int hardware_threads = folly::hardware_concurrency();
                        
                              std::cout << "Hardware concurrency: " << hardware_threads << std::endl;
                        
                              // 创建一个线程池，线程数量为硬件并发数
                        
                              std::vector<std::thread> threads;
                        
                              for (int i = 0; i < hardware_threads; ++i) {
                        
                                threads.emplace_back([](){
                        
                                  // 执行任务
                        
                                  std::cout << "Thread " << std::this_thread::get_id() << " is running." << std::endl;
                        
                                  std::this_thread::sleep_for(std::chrono::seconds(1));
                        
                                });
                        
                              }
                        
                              for (auto& thread : threads) {
                        
                                thread.join();
                        
                              }
                        
                              return 0;
                        
                            }

⚝ 并行算法设计: 在设计并行算法时，需要将任务分解成多个子任务，并分配给多个线程并行执行。任务分解的粒度需要与硬件并发数相匹配，才能获得最佳的性能。使用 hardware_concurrency() 函数可以帮助开发者根据硬件并发数来合理地分解任务，例如，可以将数据分成与硬件并发数相等的分块，并为每个分块创建一个线程来处理。

⚝ 性能优化: 在进行性能优化时，了解硬件并发数可以帮助开发者更好地分析程序的性能瓶颈，并制定相应的优化策略。例如，如果程序的 CPU 利用率不高，可能是因为线程数量不足，无法充分利用硬件并发能力。此时，可以考虑增加线程数量，或者调整任务分解策略。

总而言之，hardware_concurrency() 函数是 HardwareConcurrency.h 提供的核心功能，它为开发者提供了一种简单、可靠的方式来获取硬件并发数，从而更好地进行并发程序设计和性能优化。理解 hardware_concurrency() 函数的返回值含义、获取原理和使用场景，对于编写高效的并发程序至关重要。

2.4 为什么选择 Folly 的 HardwareConcurrency.h？(Why Choose Folly's HardwareConcurrency.h?)

在 C++ 并发编程中，获取硬件并发数并非只有 Folly 的 HardwareConcurrency.h 这一个选择。C++11 标准库也提供了 std::thread::hardware_concurrency() 函数，用于获取硬件并发数。此外，不同的操作系统平台也提供了各自的 API 来实现相同的功能。那么，在众多的选择中，为什么还要选择 Folly 的 HardwareConcurrency.h 呢？Folly 的 HardwareConcurrency.h 相比于其他方案，又有哪些优势和特点呢？

与 std::thread::hardware_concurrency() 的对比

std::thread::hardware_concurrency() 是 C++11 标准库提供的获取硬件并发数的函数，它具有跨平台性，并且是标准库的一部分，无需额外引入第三方库。然而，std::thread::hardware_concurrency() 也存在一些局限性，使得在某些情况下，Folly 的 HardwareConcurrency.h 成为更优的选择。

① 更强的鲁棒性 (Robustness)：std::thread::hardware_concurrency() 的文档明确指出，如果无法确定硬件并发数，该函数可能会返回 0。这意味着在某些情况下，std::thread::hardware_concurrency() 可能无法提供有用的信息。相比之下，Folly 的 hardware_concurrency() 在鲁棒性方面做得更好。即使在无法精确获取硬件并发数的情况下，Folly 的 hardware_concurrency() 也会尽力返回一个合理的估计值，而不是简单地返回 0。例如，在某些旧的操作系统或者特殊的硬件平台上，Folly 的 hardware_concurrency() 可能会回退到读取 CPU 核心数的配置信息，或者返回一个默认值，以保证函数总是能返回一个有意义的结果。

② 更好的跨平台兼容性 (Cross-Platform Compatibility)：虽然 std::thread::hardware_concurrency() 理论上是跨平台的，但在实际应用中，其在不同平台上的实现质量和行为可能存在差异。特别是在一些非主流的操作系统或者嵌入式平台上，std::thread::hardware_concurrency() 的实现可能不够完善，甚至存在 bug。Folly 的 HardwareConcurrency.h 由于是 Facebook 这样的大型公司维护的开源库，经过了更广泛的测试和验证，在各种主流和非主流平台上都具有更好的兼容性和稳定性。

③ 更积极的维护和更新 (Active Maintenance and Updates)：Folly 库作为一个活跃的开源项目，一直在持续地进行维护和更新。这意味着 Folly 的 HardwareConcurrency.h 也会随着 Folly 库的更新而不断改进和完善。例如，如果发现了新的硬件架构或者操作系统平台，Folly 社区会及时地更新 HardwareConcurrency.h 的实现，以保证其能够正确地获取硬件并发数。相比之下，C++ 标准库的更新周期较长，std::thread::hardware_concurrency() 的改进可能不够及时。

④ 与 Folly 库的集成 (Integration with Folly Library)：如果你的项目已经使用了 Folly 库的其他组件，那么选择 Folly 的 HardwareConcurrency.h 是一个自然而然的选择。它可以与 Folly 库的其他模块无缝集成，例如 Executor、Futures 等，共同构建高性能的并发程序。此外，使用 Folly 的 HardwareConcurrency.h 也可以保持项目代码风格的一致性，减少对不同库的依赖。

与其他操作系统 API 的对比

除了 C++ 标准库，不同的操作系统平台也提供了各自的 API 来获取硬件并发数，例如 sysconf(_SC_NPROCESSORS_ONLN) (POSIX 系统)、GetSystemInfo (Windows API) 等。这些 API 通常是平台特定的，使用起来比较繁琐，且缺乏跨平台性。

① 跨平台性 (Cross-Platform Compatibility)：操作系统 API 是平台相关的，需要在不同的平台上使用不同的 API，增加了代码的复杂性和维护成本。Folly 的 HardwareConcurrency.h 封装了底层平台差异，提供了统一的跨平台接口，开发者可以使用相同的代码在不同的平台上获取硬件并发数，大大简化了跨平台开发。

② 易用性 (Ease of Use)：操作系统 API 通常比较底层，使用起来比较繁琐，需要了解 API 的具体参数、返回值、错误处理等细节。Folly 的 hardware_concurrency() 函数接口简洁明了，使用非常方便，只需要简单地调用即可获取硬件并发数，无需关心底层的实现细节。

③ 抽象层次 (Level of Abstraction)：操作系统 API 直接暴露了底层的系统调用接口，抽象层次较低。Folly 的 HardwareConcurrency.h 在操作系统 API 之上提供了一层抽象，隐藏了底层的平台差异和实现细节，提供了更高层次的抽象，使得开发者可以更专注于业务逻辑的实现，而无需关注底层的平台细节。

总结

综上所述，选择 Folly 的 HardwareConcurrency.h 的理由主要包括：

⚝ 更强的鲁棒性和可靠性：在各种情况下都能提供有意义的硬件并发数信息。
⚝ 更好的跨平台兼容性：在各种主流和非主流平台上都能正常工作。
⚝ 持续的维护和更新：随着 Folly 库的更新而不断改进和完善。
⚝ 与 Folly 库的良好集成：方便与 Folly 库的其他组件协同使用。
⚝ 更简洁易用的 API：相比于操作系统 API，使用更加方便快捷。
⚝ 更高层次的抽象：屏蔽底层平台差异，简化跨平台开发。

当然，std::thread::hardware_concurrency() 作为标准库的一部分，在简单的场景下也是一个可行的选择。但是，如果你的项目对鲁棒性、跨平台兼容性、以及易用性有更高的要求，或者你的项目已经使用了 Folly 库，那么 Folly 的 HardwareConcurrency.h 无疑是更值得推荐的选择。尤其是在构建大型、高性能、跨平台的并发应用程序时，Folly 的 HardwareConcurrency.h 能够提供更可靠、更便捷的硬件并发数获取方案。

END_OF_CHAPTER

3. chapter 3： HardwareConcurrency.h API 全面解析 (Comprehensive API Analysis of HardwareConcurrency.h)

3.1 `hardware_concurrency()` 函数详解 (Detailed Explanation of `hardware_concurrency()` Function)

HardwareConcurrency.h 最核心，也是最常用的 API 就是 hardware_concurrency() 函数。本节将对其进行深入、全面的解析，帮助读者彻底理解其功能、用法以及背后的原理。

3.1.1 函数签名、参数与返回值 (Function Signature, Parameters, and Return Values)

hardware_concurrency() 函数的设计简洁明了，易于使用。我们首先来看一下它的函数签名：

 1.双击鼠标左键复制此行；2.单击复制所有代码。 
                                
                            namespace folly {
                        
                              unsigned int hardware_concurrency();
                        
                            }

函数签名 (Function Signature):

unsigned int hardware_concurrency();

参数 (Parameters):

hardware_concurrency() 函数不接受任何参数。它是一个无参函数，直接通过系统调用或平台特定的 API 获取硬件并发信息。

返回值 (Return Values):

函数返回一个 unsigned int 类型的值，表示当前系统可用于并发执行的硬件线程数量。

⚝ 正常情况: 返回值是大于等于 1 的整数，代表系统检测到的硬件线程数。例如，在一个四核八线程的 CPU 上，hardware_concurrency() 通常会返回 8。
⚝ 无法确定硬件并发数的情况: 在极少数情况下，如果系统无法确定硬件并发数（例如，在某些非常特殊的嵌入式系统或资源受限的环境中），hardware_concurrency() 可能会返回 0。 但需要强调的是，返回 0 的情况非常罕见，在绝大多数常见的应用场景下，该函数都能正确返回硬件线程数。

总结:

hardware_concurrency() 函数是一个简单而强大的工具，它无需任何输入，就能直接告诉你当前硬件平台所能提供的并发能力。开发者可以利用这个信息，动态地调整程序的并发策略，充分利用硬件资源。

3.1.2 异常处理与错误情况 (Exception Handling and Error Scenarios)

folly::hardware_concurrency() 的设计哲学是简单、高效、可靠。因此，在异常处理和错误情况方面，它也体现了这种设计思想。

异常处理 (Exception Handling):

hardware_concurrency() 函数不会抛出任何异常。这是一个非常重要的特性。在并发编程中，异常处理往往比较复杂，尤其是在多线程环境下。hardware_concurrency() 避免抛出异常，降低了使用成本，简化了错误处理的逻辑。

错误情况 (Error Scenarios):

虽然 hardware_concurrency() 不会抛出异常，但正如前文所述，在极少数情况下，它可能会返回 0，表示无法确定硬件并发数。

可能导致返回 0 的情况包括 (Possible scenarios leading to a return value of 0):

① 资源极度受限的环境 (Extremely resource-constrained environments): 在某些嵌入式系统或非常老旧的硬件平台上，操作系统可能无法提供准确的硬件并发信息。
② 操作系统 API 限制 (Operating system API limitations): 某些非常古老的操作系统版本，可能没有提供获取硬件并发信息的 API。
③ 虚拟化或容器化环境的特殊配置 (Special configurations in virtualization or containerization environments): 在某些虚拟化或容器化环境中，资源隔离策略可能会导致无法正确检测到宿主机的硬件并发数。

处理返回值为 0 的情况 (Handling a return value of 0):

虽然返回 0 的情况非常罕见，但作为严谨的开发者，我们仍然需要考虑如何处理这种情况。当 hardware_concurrency() 返回 0 时，通常意味着我们无法准确得知硬件并发能力。在这种情况下，一个合理的策略是采用保守的并发策略，例如：

⚝ 假设硬件并发数为 1 (Assume hardware concurrency is 1): 这是最保守的做法，相当于退化为单线程程序。虽然可能无法充分利用硬件资源，但可以保证程序的正确性。
⚝ 使用一个默认的、较小的并发数 (Use a default, small concurrency number): 例如，可以假设硬件并发数为 2 或 4。这比假设为 1 更积极一些，但仍然相对保守，避免过度并发导致性能下降。

代码示例 (Code Example):

 1.双击鼠标左键复制此行；2.单击复制所有代码。 
                                
                            #include <folly/ Concurrency/HardwareConcurrency.h>
                        
                            #include <iostream>
                        
                            int main() {
                        
                              unsigned int concurrency = folly::hardware_concurrency();
                        
                              if (concurrency == 0) {
                        
                                std::cerr << "Warning: Unable to determine hardware concurrency. "
                        
                                          << "Using a conservative default value." << std::endl;
                        
                                concurrency = 2; // 使用默认值 2 (Use default value 2)
                        
                              }
                        
                              std::cout << "Detected hardware concurrency: " << concurrency << std::endl;
                        
                              // ... 后续可以使用 concurrency 值来配置并发程序 (Use concurrency value to configure concurrent programs later)
                        
                              return 0;
                        
                            }

总结:

hardware_concurrency() 在设计上力求简单可靠，不抛出异常。虽然极少数情况下可能返回 0，但开发者可以通过合理的默认值策略来应对这种情况，保证程序的健壮性。在绝大多数情况下，该函数都能提供准确的硬件并发信息，帮助开发者编写高效的并发程序。

3.1.3 跨平台兼容性分析 (Cross-Platform Compatibility Analysis)

folly::hardware_concurrency() 作为 Folly 库的一部分，非常注重跨平台兼容性。Folly 库本身就旨在提供一套高效、可靠、跨平台的 C++ 基础设施。hardware_concurrency() 的实现也充分考虑了不同操作系统的特性，力求在各种平台上都能提供一致且准确的结果。

跨平台支持 (Cross-Platform Support):

hardware_concurrency() 在主流的操作系统平台上都得到了良好的支持，包括：

⚝ Linux: 通过读取 /proc/cpuinfo 文件、调用 sysconf(_SC_NPROCESSORS_ONLN) 或 std::thread::hardware_concurrency() 等方式获取 CPU 信息。
⚝ macOS (macOS): 使用 sysctl 系统调用，查询 hw.logicalcpu_max 或 hw.ncpu 等系统变量来获取硬件线程数。
⚝ Windows: 调用 GetSystemInfo 或 GetLogicalProcessorInformation 等 Windows API 来获取处理器信息。
⚝ অন্যান্য POSIX-compliant 系统 (Other POSIX-compliant systems): 对于其他符合 POSIX 标准的系统，通常会采用 sysconf(_SC_NPROCESSORS_ONLN) 等 POSIX 标准 API。

兼容性实现细节 (Compatibility Implementation Details):

为了实现跨平台兼容性，folly::hardware_concurrency() 在内部会根据不同的操作系统平台，采用不同的实现策略。这些策略通常包括：

① 平台特定的 API 调用 (Platform-specific API calls): 针对不同的操作系统，调用其提供的专门用于获取 CPU 信息的 API。例如，Windows 上的 GetSystemInfo，macOS 上的 sysctl，以及 Linux 上的 sysconf 等。

② 读取系统文件 (Reading system files): 在某些平台上（例如 Linux），可以通过读取特定的系统文件（如 /proc/cpuinfo）来解析 CPU 信息。

③ C++ 标准库的 std::thread::hardware_concurrency() (C++ Standard Library's std::thread::hardware_concurrency()): 在 C++11 标准之后，C++ 标准库也提供了 std::thread::hardware_concurrency() 函数。folly::hardware_concurrency() 在某些平台上可能会选择直接使用标准库的实现，以提高代码的可移植性和维护性。

代码抽象与平台隔离 (Code Abstraction and Platform Isolation):

Folly 库通过良好的代码抽象和平台隔离机制，将平台相关的实现细节隐藏起来，为用户提供统一的 API 接口。开发者无需关心底层平台的差异，只需要简单地调用 folly::hardware_concurrency() 即可，Folly 库会自动处理平台兼容性问题。

潜在的兼容性问题与注意事项 (Potential Compatibility Issues and Considerations):

虽然 folly::hardware_concurrency() 在跨平台兼容性方面做得很好，但在某些特殊情况下，仍然可能存在一些潜在的兼容性问题或需要注意的地方：

⚝ 非常古老的操作系统 (Very old operating systems): 对于一些非常古老的操作系统版本，可能缺乏必要的 API 或系统文件来获取硬件并发信息。在这种情况下，hardware_concurrency() 可能无法正常工作，或者只能返回 0。
⚝ 不符合 POSIX 标准的系统 (Non-POSIX compliant systems): 对于一些不符合 POSIX 标准的操作系统，sysconf 等 POSIX API 可能不可用。Folly 库可能需要针对这些平台进行特殊的适配。
⚝ 编译环境与链接库 (Compilation environment and linking libraries): 在某些平台上，可能需要确保编译环境配置正确，并且链接了必要的系统库，才能使 hardware_concurrency() 正常工作。

总结:

总而言之，folly::hardware_concurrency() 在跨平台兼容性方面表现出色，支持主流的操作系统平台。Folly 库通过平台特定的实现策略和代码抽象，为开发者屏蔽了平台差异，提供了统一的 API 接口。开发者可以放心地在跨平台项目中使用 hardware_concurrency()，而无需过多担心兼容性问题。当然，在面对非常特殊或古老的平台时，仍然需要进行适当的测试和验证，以确保其正常工作。

3.2 API 使用示例与最佳实践 (API Usage Examples and Best Practices)

理解了 hardware_concurrency() API 的基本原理和特性之后，本节将通过具体的代码示例，展示如何在实际项目中使用 hardware_concurrency()，并总结一些最佳实践，帮助读者更好地应用这个 API。

使用示例 1：动态调整线程池大小 (Example 1: Dynamically Adjusting Thread Pool Size)

线程池是并发编程中常用的技术，它可以有效地管理和复用线程，提高程序的性能和资源利用率。线程池的大小（即线程数量）通常需要根据硬件并发数进行调整，以达到最佳的性能。hardware_concurrency() 可以用来动态地获取硬件并发数，并据此设置线程池的大小。

 1.双击鼠标左键复制此行；2.单击复制所有代码。 
                                
                            #include <folly/ Concurrency/HardwareConcurrency.h>
                        
                            #include <folly/ Executor/ThreadPoolExecutor.h>
                        
                            #include <iostream>
                        
                            int main() {
                        
                              unsigned int hardwareThreads = folly::hardware_concurrency();
                        
                              unsigned int threadPoolSize = std::max(2U, hardwareThreads); // 至少 2 个线程，或硬件线程数 (At least 2 threads, or hardware threads)
                        
                              std::cout << "Creating thread pool with size: " << threadPoolSize << std::endl;
                        
                              folly::ThreadPoolExecutor executor{threadPoolSize};
                        
                              // ... 提交任务到线程池 (Submit tasks to the thread pool)
                        
                              for (int i = 0; i < 10; ++i) {
                        
                                executor.add([i]() {
                        
                                  std::cout << "Task " << i << " running on thread "
                        
                                            << std::this_thread::get_id() << std::endl;
                        
                                  std::this_thread::sleep_for(std::chrono::milliseconds(100));
                        
                                });
                        
                              }
                        
                              executor.join(); // 等待所有任务完成 (Wait for all tasks to complete)
                        
                              return 0;
                        
                            }

代码解释 (Code Explanation):

⚝ 首先，我们使用 folly::hardware_concurrency() 获取硬件线程数。
⚝ 然后，我们计算线程池的大小 threadPoolSize，这里使用了 std::max(2U, hardwareThreads)，保证线程池大小至少为 2，或者等于硬件线程数（取较大值）。 设置最小线程数 2 是一个常见的实践，即使在单核 CPU 上，也可以利用线程切换来提高某些 I/O 密集型任务的并发性。
⚝ 接下来，我们创建了一个 folly::ThreadPoolExecutor 线程池，并将大小设置为 threadPoolSize。
⚝ 最后，我们向线程池提交了一些简单的任务，并等待所有任务完成。

使用示例 2：并行算法中的任务分解 (Example 2: Task Decomposition in Parallel Algorithms)

在设计并行算法时，通常需要将任务分解成多个子任务，并分配到不同的线程上并行执行。hardware_concurrency() 可以帮助我们确定合适的子任务数量，以便充分利用硬件资源，提高算法的执行效率。

 1.双击鼠标左键复制此行；2.单击复制所有代码。 
                                
                            #include <folly/ Concurrency/HardwareConcurrency.h>
                        
                            #include <vector>
                        
                            #include <numeric>
                        
                            #include <future>
                        
                            #include <iostream>
                        
                            long long parallelSum(const std::vector<int>& data) {
                        
                              unsigned int numThreads = folly::hardware_concurrency();
                        
                              unsigned int chunkSize = (data.size() + numThreads - 1) / numThreads; // 计算每个线程处理的数据块大小 (Calculate chunk size per thread)
                        
                              std::vector<std::future<long long>> futures;
                        
                              for (unsigned int i = 0; i < numThreads; ++i) {
                        
                                size_t start = i * chunkSize;
                        
                                size_t end = std::min(start + chunkSize, data.size());
                        
                                futures.push_back(std::async(std::launch::async,
                        
                                  [&](size_t start_index, size_t end_index) {
                        
                                    long long localSum = 0;
                        
                                    for (size_t j = start_index; j < end_index; ++j) {
                        
                                      localSum += data[j];
                        
                                    }
                        
                                    return localSum;
                        
                                  }, start, end));
                        
                              }
                        
                              long long totalSum = 0;
                        
                              for (auto& future : futures) {
                        
                                totalSum += future.get();
                        
                              }
                        
                              return totalSum;
                        
                            }
                        
                            int main() {
                        
                              std::vector<int> data(1000000);
                        
                              std::iota(data.begin(), data.end(), 1); // 初始化数据 (Initialize data)
                        
                              long long sum = parallelSum(data);
                        
                              std::cout << "Parallel sum: " << sum << std::endl;
                        
                              return 0;
                        
                            }

代码解释 (Code Explanation):

⚝ parallelSum 函数实现了并行求和算法。
⚝ 首先，我们使用 folly::hardware_concurrency() 获取硬件线程数 numThreads。
⚝ 然后，我们计算每个线程需要处理的数据块大小 chunkSize，将数据均匀地分配到 numThreads 个线程上。
⚝ 我们使用 std::async 启动多个异步任务，每个任务负责计算一部分数据的局部和。
⚝ 最后，我们等待所有异步任务完成，并将局部和累加起来得到最终的总和。

最佳实践 (Best Practices):

① 动态调整并发度 (Dynamically adjust concurrency level): 使用 hardware_concurrency() 动态获取硬件并发数，并根据这个信息调整程序的并发度，例如线程池大小、并行任务数量等。避免硬编码固定的并发数，提高程序的适应性和可移植性。

② 考虑任务类型 (Consider task type): hardware_concurrency() 返回的是硬件线程数，但这并不意味着并发度越高越好。对于 CPU 密集型任务，并发度通常不应超过硬件线程数。对于 I/O 密集型任务，适当增加并发度可能会提高性能，因为线程在等待 I/O 时可以切换到其他任务。

③ 结合性能测试 (Combine with performance testing): hardware_concurrency() 提供了一个有用的参考值，但实际的最佳并发度还需要通过性能测试来确定。在不同的硬件平台和工作负载下，最佳并发度可能会有所不同。建议在实际部署环境中进行性能测试，找到最佳的并发配置。

④ 处理返回值 0 的情况 (Handle return value 0): 虽然 hardware_concurrency() 返回 0 的情况很少见，但仍然需要考虑这种情况，并采取合理的默认策略，例如假设硬件并发数为 1 或一个较小的默认值。

⑤ 理解超线程 (Understand Hyperthreading): hardware_concurrency() 返回的是逻辑 CPU 核心数，包括超线程技术提供的虚拟核心。超线程技术可以在一定程度上提高 CPU 的利用率，但其性能提升通常不如真正的物理核心。在某些对性能要求极高的场景下，可能需要更细致地考虑超线程的影响，例如通过 CPU 亲和性设置，将关键线程绑定到不同的物理核心上。关于 CPU 亲和性，我们将在后续章节进行更深入的探讨。

总结:

hardware_concurrency() 是一个非常实用的 API，可以帮助开发者编写更加智能、高效的并发程序。通过动态地获取硬件并发数，并结合最佳实践，我们可以更好地利用硬件资源，提升程序的性能和可移植性。

3.3 与其他并发API的对比 (Comparison with Other Concurrency APIs)

folly::hardware_concurrency() 并非获取硬件并发数的唯一方法。C++ 标准库以及其他一些库也提供了类似的 API。本节将 folly::hardware_concurrency() 与其他常见的并发 API 进行对比，帮助读者了解它们的异同，以及在不同场景下如何选择合适的 API。

1. std::thread::hardware_concurrency() (C++ 标准库)

C++11 标准引入了 <thread> 头文件，其中也包含了一个 std::thread::hardware_concurrency() 静态成员函数，用于获取硬件并发数。

相似之处 (Similarities):

⚝ 功能相同 (Same functionality): std::thread::hardware_concurrency() 和 folly::hardware_concurrency() 的功能都是获取硬件并发数。
⚝ 返回值类型相似 (Similar return type): 两者都返回 unsigned int 类型的值，表示硬件线程数。
⚝ 跨平台性 (Cross-platform): C++ 标准库的 std::thread::hardware_concurrency() 也具有良好的跨平台性，在主流操作系统上都能正常工作。

不同之处 (Differences):

⚝ 库的来源 (Library origin): std::thread::hardware_concurrency() 是 C++ 标准库的一部分，属于语言标准的一部分，具有更广泛的通用性和标准化。 folly::hardware_concurrency() 是 Folly 库提供的，属于 Facebook 开源基础设施的一部分。
⚝ 错误处理 (Error handling): std::thread::hardware_concurrency() 在无法确定硬件并发数时，标准规定返回 0。 folly::hardware_concurrency() 的行为与之相同，也可能返回 0。
⚝ 依赖性 (Dependencies): 使用 std::thread::hardware_concurrency() 只需要 C++ 标准库，没有额外的依赖。使用 folly::hardware_concurrency() 需要依赖 Folly 库。

选择建议 (Recommendation):

⚝ 优先选择 std::thread::hardware_concurrency() (Prefer std::thread::hardware_concurrency()): 如果你的项目已经使用了 C++11 或更高版本的标准，并且没有特殊的需求，优先推荐使用 std::thread::hardware_concurrency()。它是标准库的一部分，具有更好的通用性和可移植性，并且没有额外的依赖。
⚝ 在已使用 Folly 库的项目中使用 folly::hardware_concurrency() (Use folly::hardware_concurrency() in projects already using Folly): 如果你的项目已经使用了 Folly 库的其他组件，那么使用 folly::hardware_concurrency() 也是一个自然的选择，可以保持代码风格的一致性，并减少额外的依赖。

2. 平台特定的 API (Platform-Specific APIs)

不同的操作系统平台也提供了各自的 API 来获取硬件并发信息。例如：

⚝ Windows: GetSystemInfo 函数，可以获取系统信息，包括处理器数量。
⚝ macOS/iOS: sysctl 系统调用，可以查询 hw.logicalcpu_max 或 hw.ncpu 等系统变量。
⚝ Linux/POSIX: sysconf(_SC_NPROCESSORS_ONLN) 函数，可以获取当前可用的处理器数量。

相似之处 (Similarities):

⚝ 直接获取平台信息 (Directly access platform information): 平台特定的 API 通常直接调用操作系统内核接口，获取的信息可能更加底层和精确。

不同之处 (Differences):

⚝ 平台依赖性 (Platform dependency): 平台特定的 API 只能在特定的操作系统上使用，跨平台性差。
⚝ API 复杂性 (API complexity): 平台特定的 API 使用起来可能比较复杂，需要处理不同的数据结构和错误码。
⚝ 代码可移植性 (Code portability): 使用平台特定的 API 会降低代码的可移植性，需要在不同平台上编写不同的代码。

选择建议 (Recommendation):

⚝ 避免直接使用平台特定的 API (Avoid using platform-specific APIs directly): 除非有非常特殊的需求，否则不建议直接使用平台特定的 API 来获取硬件并发数。 这会大大降低代码的可移植性和维护性。
⚝ 优先使用跨平台的 API (Prefer cross-platform APIs): std::thread::hardware_concurrency() 和 folly::hardware_concurrency() 等跨平台 API 已经封装了平台差异，提供了统一的接口，是更好的选择。

3. 其他第三方库 (Other Third-Party Libraries)

除了 Folly 库，还有一些其他的第三方库也可能提供获取硬件并发数的 API。例如，Boost.Thread 库也提供了 boost::thread::hardware_concurrency() 函数。

选择建议 (Recommendation):

⚝ 根据项目依赖选择 (Choose based on project dependencies): 如果你的项目已经使用了某个第三方库，并且该库提供了获取硬件并发数的 API，可以考虑使用该库的 API，以减少额外的依赖。
⚝ 优先考虑成熟、广泛使用的库 (Prefer mature and widely used libraries): 在选择第三方库时，优先考虑成熟、广泛使用的库，例如 Boost、Folly 等。这些库通常经过了充分的测试和验证，具有较高的可靠性和稳定性。

总结:

folly::hardware_concurrency() 与 std::thread::hardware_concurrency() 功能相似，都是获取硬件并发数的跨平台 API。 std::thread::hardware_concurrency() 作为 C++ 标准库的一部分，具有更广泛的通用性，是通常情况下的首选。 folly::hardware_concurrency() 则适用于已经使用 Folly 库的项目。平台特定的 API 和其他第三方库的 API 在跨平台性和易用性方面通常不如前两者，除非有特殊需求，否则不建议直接使用。在实际项目中，应根据具体情况和项目依赖，选择最合适的 API 来获取硬件并发数。

END_OF_CHAPTER

4. chapter 4：实战应用：基于 HardwareConcurrency.h 的并发程序设计 (Practical Applications: Concurrent Programming with HardwareConcurrency.h)

4.1 利用硬件并发数优化多线程程序 (Optimizing Multithreaded Programs with Hardware Concurrency)

在并发编程中，充分利用硬件资源是提升程序性能的关键。HardwareConcurrency.h 提供的 hardware_concurrency() 函数，为我们获取系统的硬件并发能力提供了便捷的途径。本节将深入探讨如何利用硬件并发数来优化多线程程序，从而提升程序的执行效率和资源利用率。

理解硬件并发数的重要性

硬件并发数，通常指的是系统中可以同时并行执行的线程数量。这个数值受到 CPU 核心数、超线程技术 (Hyper-Threading) 以及操作系统调度策略等多种因素的影响。了解系统的硬件并发数，有助于我们合理地设计和配置多线程程序，避免资源过度竞争和浪费。

线程池大小的优化

线程池 (Thread Pool) 是一种常用的多线程技术，它预先创建一组线程，用于执行提交的任务，从而避免了频繁创建和销毁线程的开销。线程池的大小直接影响程序的并发性能。如果线程池过小，则无法充分利用硬件资源；如果线程池过大，则可能导致过多的上下文切换，反而降低性能。

hardware_concurrency() 函数返回的硬件并发数，可以作为设置线程池大小的重要参考。通常情况下，将线程池的大小设置为硬件并发数或者略大于硬件并发数，可以获得较好的性能。

 1.双击鼠标左键复制此行；2.单击复制所有代码。 
                                
                            #include <iostream>
                        
                            #include <vector>
                        
                            #include <thread>
                        
                            #include <future>
                        
                            #include <numeric>
                        
                            #include <folly/system/HardwareConcurrency.h>
                        
                            using namespace folly::system;
                        
                            long long accumulate_range(std::vector<int>& data, size_t start, size_t end) {
                        
                                long long sum = 0;
                        
                                for (size_t i = start; i < end; ++i) {
                        
                                    sum += data[i];
                        
                                }
                        
                                return sum;
                        
                            }
                        
                            int main() {
                        
                                std::vector<int> data(100000000, 1); // 创建一个大的数据向量
                        
                                size_t num_threads = hardware_concurrency(); // 获取硬件并发数
                        
                                std::cout << "Hardware concurrency: " << num_threads << std::endl;
                        
                                std::vector<std::future<long long>> futures;
                        
                                size_t segment_size = data.size() / num_threads;
                        
                                auto start_time = std::chrono::high_resolution_clock::now();
                        
                                for (size_t i = 0; i < num_threads; ++i) {
                        
                                    size_t start = i * segment_size;
                        
                                    size_t end = (i == num_threads - 1) ? data.size() : (i + 1) * segment_size;
                        
                                    futures.push_back(std::async(std::launch::async, accumulate_range, std::ref(data), start, end));
                        
                                }
                        
                                long long total_sum = 0;
                        
                                for (auto& future : futures) {
                        
                                    total_sum += future.get();
                        
                                }
                        
                                auto end_time = std::chrono::high_resolution_clock::now();
                        
                                auto duration = std::chrono::duration_cast<std::chrono::milliseconds>(end_time - start_time);
                        
                                std::cout << "Total sum: " << total_sum << std::endl;
                        
                                std::cout << "Time taken: " << duration.count() << " milliseconds" << std::endl;
                        
                                return 0;
                        
                            }

上述代码示例展示了如何使用 hardware_concurrency() 获取硬件并发数，并将其用于决定并行计算数据向量总和的线程数量。程序将数据向量划分为若干段，每段由一个线程负责累加，线程数量等于硬件并发数。通过这种方式，可以充分利用多核处理器的并行计算能力，加速计算过程。

避免过度订阅 (Oversubscription)

过度订阅指的是运行的线程数量超过了系统的硬件并发能力。当发生过度订阅时，操作系统需要频繁地进行上下文切换，将 CPU 时间片分配给不同的线程。频繁的上下文切换会带来额外的开销，降低程序的整体性能。

使用 hardware_concurrency() 可以帮助我们避免过度订阅。通过限制线程数量不超过硬件并发数，可以减少上下文切换的频率，提高程序的效率。当然，在某些 I/O 密集型应用中，适当的超线程 (即线程数略大于硬件并发数) 也可能带来性能提升，但这需要根据具体情况进行权衡和测试。

总结

利用 hardware_concurrency() 获取硬件并发数，是优化多线程程序的重要步骤。合理地设置线程池大小，避免过度订阅，可以充分发挥硬件的并行计算能力，提升程序的性能和资源利用率。在实际应用中，还需要结合具体的应用场景和负载特点，进行性能测试和调优，以找到最佳的线程配置方案。

4.2 并行算法设计与实现 (Parallel Algorithm Design and Implementation)

并行算法 (Parallel Algorithm) 是指可以分解成多个子任务，并在多个处理器或核心上同时执行的算法。设计和实现高效的并行算法，是充分利用硬件并发能力的关键。HardwareConcurrency.h 提供的硬件并发数信息，可以指导我们设计合适的并行策略，并有效地实现并行算法。

并行算法的设计原则

设计并行算法时，需要考虑以下几个关键原则：

① 任务分解 (Task Decomposition)：将原问题分解成多个可以并行执行的子任务。任务分解的粒度 (Granularity) 会影响并行性能。过小的粒度会导致过多的任务管理开销，过大的粒度则可能限制并行度。
② 数据划分 (Data Partitioning)：将数据划分为多个部分，每个子任务处理一部分数据。数据划分需要考虑数据依赖关系，避免数据竞争和同步开销。
③ 负载均衡 (Load Balancing)：将计算任务均匀地分配给各个处理器或核心，避免某些处理器空闲而另一些处理器过载的情况。
④ 通信与同步 (Communication and Synchronization)：并行任务之间可能需要通信和同步。减少通信和同步的开销，是提高并行效率的重要因素。

基于硬件并发数的并行策略

hardware_concurrency() 返回的硬件并发数，可以作为设计并行算法的重要依据。例如，在设计并行循环 (Parallel For Loop) 时，可以将循环迭代空间划分为与硬件并发数相近的份数，每个线程处理一份迭代。

并行算法示例：并行归并排序 (Parallel Merge Sort)

归并排序 (Merge Sort) 是一种常用的排序算法，具有良好的平均和最坏情况时间复杂度 \(O(n \log n)\)。归并排序可以并行化，以提高排序速度。并行归并排序的基本思想是将待排序数组递归地划分为两半，分别并行排序，然后将排序后的两半归并起来。

 1.双击鼠标左键复制此行；2.单击复制所有代码。 
                                
                            #include <iostream>
                        
                            #include <vector>
                        
                            #include <thread>
                        
                            #include <algorithm>
                        
                            #include <future>
                        
                            #include <folly/system/HardwareConcurrency.h>
                        
                            using namespace std;
                        
                            using namespace folly::system;
                        
                            void merge_sorted_ranges(vector<int>& arr, int start, int mid, int end) {
                        
                                int len_left = mid - start + 1;
                        
                                int len_right = end - mid;
                        
                                vector<int> left_arr(len_left);
                        
                                vector<int> right_arr(len_right);
                        
                                for (int i = 0; i < len_left; i++)
                        
                                    left_arr[i] = arr[start + i];
                        
                                for (int j = 0; j < len_right; j++)
                        
                                    right_arr[j] = arr[mid + 1 + j];
                        
                                int index_left = 0, index_right = 0, index_merged = start;
                        
                                while (index_left < len_left && index_right < len_right) {
                        
                                    if (left_arr[index_left] <= right_arr[index_right]) {
                        
                                        arr[index_merged++] = left_arr[index_left++];
                        
                                    } else {
                        
                                        arr[index_merged++] = right_arr[index_right++];
                        
                                    }
                        
                                }
                        
                                while (index_left < len_left) {
                        
                                    arr[index_merged++] = left_arr[index_left++];
                        
                                }
                        
                                while (index_right < len_right) {
                        
                                    arr[index_merged++] = right_arr[index_right++];
                        
                                }
                        
                            }
                        
                            void parallel_merge_sort(vector<int>& arr, int start, int end, int depth) {
                        
                                if (start >= end) return;
                        
                                if (depth > 0) { // 控制并行深度，避免过度并行
                        
                                    int mid = start + (end - start) / 2;
                        
                                    future<void> left_sort = async(launch::async, parallel_merge_sort, ref(arr), start, mid, depth - 1);
                        
                                    parallel_merge_sort(arr, mid + 1, end, depth - 1);
                        
                                    left_sort.get(); // 等待左半部分排序完成
                        
                                    merge_sorted_ranges(arr, start, mid, end);
                        
                                } else {
                        
                                    sort(arr.begin() + start, arr.begin() + end + 1); // 串行排序
                        
                                }
                        
                            }
                        
                            int main() {
                        
                                vector<int> data = {5, 2, 8, 1, 9, 4, 7, 3, 6, 0};
                        
                                int n = data.size();
                        
                                int max_depth = 3; // 可以根据硬件并发数调整并行深度
                        
                                cout << "Original array: ";
                        
                                for (int x : data) cout << x << " ";
                        
                                cout << endl;
                        
                                auto start_time = chrono::high_resolution_clock::now();
                        
                                parallel_merge_sort(data, 0, n - 1, max_depth);
                        
                                auto end_time = chrono::high_resolution_clock::now();
                        
                                auto duration = chrono::duration_cast<chrono::milliseconds>(end_time - start_time);
                        
                                cout << "Sorted array: ";
                        
                                for (int x : data) cout << x << " ";
                        
                                cout << endl;
                        
                                cout << "Time taken: " << duration.count() << " milliseconds" << endl;
                        
                                return 0;
                        
                            }

在这个并行归并排序的示例中，我们使用递归的方式将数组划分为更小的子数组，并使用 std::async 异步执行左半部分的排序。depth 参数控制并行深度，可以根据硬件并发数进行调整。当递归深度达到一定程度时，切换到串行排序，以避免过度并行带来的开销。

并行算法库

现代编程语言和库通常提供了丰富的并行算法支持，例如 C++ 的 <algorithm> 库中的并行算法 (需要支持并行执行策略)，以及 OpenMP、TBB (Threading Building Blocks) 等并行编程库。这些库提供了高效的并行算法实现，可以简化并行程序开发。

总结

设计和实现高效的并行算法，需要深入理解并行计算的原理和方法。hardware_concurrency() 提供的硬件并发数信息，可以指导我们选择合适的并行策略，并有效地利用硬件资源。在实际应用中，需要根据具体问题和硬件环境，选择合适的并行算法和并行编程工具，并进行性能优化。

4.3 案例分析：高性能服务器的并发模型 (Case Study: Concurrency Model of High-Performance Servers)

高性能服务器 (High-Performance Server) 是现代互联网基础设施的核心组成部分，例如 Web 服务器、数据库服务器、缓存服务器等。这些服务器需要处理大量的并发请求，并保持低延迟和高吞吐量。并发模型 (Concurrency Model) 是高性能服务器设计的关键要素之一。本节将通过案例分析，探讨高性能服务器中常用的并发模型，以及 HardwareConcurrency.h 在其中的应用。

常见的服务器并发模型

① 多进程模型 (Multi-Process Model)：为每个客户端请求创建一个新的进程。进程之间相互隔离，具有较高的可靠性，但进程创建和切换开销较大，资源消耗也较高。
② 多线程模型 (Multi-Thread Model)：使用多个线程来处理并发请求。线程创建和切换开销比进程小，资源共享方便，但线程之间需要同步和互斥，容易出现竞争条件和死锁等问题。
③ 事件驱动模型 (Event-Driven Model)：基于事件循环 (Event Loop) 和非阻塞 I/O (Non-blocking I/O) 的模型。单线程或少量线程处理大量的并发连接，通过事件通知机制来处理 I/O 事件和业务逻辑。事件驱动模型具有较高的并发性和资源利用率，但编程模型相对复杂。
④ 混合模型 (Hybrid Model)：结合多种并发模型的优点，例如多进程 + 多线程模型、多线程 + 事件驱动模型等。

案例分析：基于线程池的 Web 服务器

以一个基于线程池的 Web 服务器为例，分析其并发模型和 HardwareConcurrency.h 的应用。

并发模型：该 Web 服务器采用多线程模型，使用线程池来管理工作线程。主线程负责监听客户端连接请求，并将请求提交给线程池中的工作线程处理。

线程池大小的确定：线程池的大小直接影响服务器的并发性能。如果线程池过小，则无法充分利用硬件资源，导致请求处理延迟增加；如果线程池过大，则可能导致过多的上下文切换，降低性能。

使用 hardware_concurrency() 可以帮助我们合理地设置线程池的大小。通常情况下，可以将线程池的大小设置为硬件并发数或者略大于硬件并发数。

 1.双击鼠标左键复制此行；2.单击复制所有代码。 
                                
                            #include <iostream>
                        
                            #include <thread>
                        
                            #include <vector>
                        
                            #include <queue>
                        
                            #include <mutex>
                        
                            #include <condition_variable>
                        
                            #include <folly/system/HardwareConcurrency.h>
                        
                            using namespace std;
                        
                            using namespace folly::system;
                        
                            class ThreadPool {
                        
                            public:
                        
                                ThreadPool(size_t num_threads) : num_threads_(num_threads), stop_(false) {
                        
                                    threads_.reserve(num_threads_);
                        
                                    for (size_t i = 0; i < num_threads_; ++i) {
                        
                                        threads_.emplace_back([this] {
                        
                                            while (true) {
                        
                                                function<void()> task;
                        
                                                {
                        
                                                    unique_lock<mutex> lock(queue_mutex_);
                        
                                                    condition_.wait(lock, [this] { return stop_ || !tasks_.empty(); });
                        
                                                    if (stop_ && tasks_.empty()) return;
                        
                                                    task = move(tasks_.front());
                        
                                                    tasks_.pop();
                        
                                                }
                        
                                                task();
                        
                                            }
                        
                                        });
                        
                                    }
                        
                                }
                        
                                template<class F, class... Args>
                        
                                auto enqueue(F&& f, Args&&... args) -> future<typename result_of<F(Args...)>::type> {
                        
                                    using return_type = typename result_of<F(Args...)>::type;
                        
                                    auto task = make_shared<packaged_task<return_type()>>(
                        
                                        bind(forward<F>(f), forward<Args>(args)...)
                        
                                    );
                        
                                    future<return_type> res = task->get_future();
                        
                                    {
                        
                                        unique_lock<mutex> lock(queue_mutex_);
                        
                                        if (stop_) throw runtime_error("enqueue on stopped ThreadPool");
                        
                                        tasks_.emplace([task](){ (*task)(); });
                        
                                    }
                        
                                    condition_.notify_one();
                        
                                    return res;
                        
                                }
                        
                                ~ThreadPool() {
                        
                                    {
                        
                                        unique_lock<mutex> lock(queue_mutex_);
                        
                                        stop_ = true;
                        
                                    }
                        
                                    condition_.notify_all();
                        
                                    for (thread &worker_thread : threads_) {
                        
                                        worker_thread.join();
                        
                                    }
                        
                                }
                        
                            private:
                        
                                size_t num_threads_;
                        
                                vector<thread> threads_;
                        
                                queue<function<void()>> tasks_;
                        
                                mutex queue_mutex_;
                        
                                condition_variable condition_;
                        
                                bool stop_;
                        
                            };
                        
                            void handle_request(int request_id) {
                        
                                cout << "处理请求 " << request_id << "，线程 ID: " << this_thread::get_id() << endl;
                        
                                this_thread::sleep_for(chrono::milliseconds(100)); // 模拟请求处理时间
                        
                            }
                        
                            int main() {
                        
                                size_t num_threads = hardware_concurrency();
                        
                                cout << "硬件并发数: " << num_threads << endl;
                        
                                ThreadPool pool(num_threads);
                        
                                for (int i = 0; i < 2 * num_threads; ++i) { // 提交比线程数更多的请求
                        
                                    pool.enqueue(handle_request, i);
                        
                                }
                        
                                this_thread::sleep_for(chrono::seconds(1)); // 等待任务完成
                        
                                return 0;
                        
                            }

上述代码示例展示了一个简单的线程池实现，并使用 hardware_concurrency() 获取硬件并发数来初始化线程池的大小。在 main 函数中，我们提交了比线程数更多的请求给线程池处理。线程池会根据硬件并发能力，合理地调度和执行这些请求，从而提高服务器的并发处理能力。

其他并发模型与 HardwareConcurrency.h

HardwareConcurrency.h 提供的硬件并发数信息，不仅适用于线程池模型，也适用于其他并发模型。例如：

⚝ 事件驱动模型：虽然事件驱动模型通常使用少量线程，但仍然可以利用硬件并发数来决定事件循环的数量，或者在某些计算密集型的事件处理中使用多线程。
⚝ 混合模型：在混合模型中，可以根据硬件并发数来配置不同组件的线程或进程数量，以达到最佳的性能和资源利用率。

总结

高性能服务器的并发模型设计需要综合考虑多种因素，包括并发量、请求类型、硬件资源等。HardwareConcurrency.h 提供的硬件并发数信息，是服务器并发模型设计的重要参考依据。合理地利用硬件并发能力，选择合适的并发模型，并进行性能优化，是构建高性能服务器的关键。

4.4 常见并发编程陷阱与规避 (Common Concurrency Programming Pitfalls and Avoidance)

并发编程 (Concurrent Programming) 能够提升程序性能和响应速度，但也引入了新的挑战和陷阱。不当的并发编程实践可能导致程序出现各种难以调试和复现的错误。本节将介绍常见的并发编程陷阱，并探讨如何使用 HardwareConcurrency.h 以及其他技术手段来规避这些陷阱。

常见的并发编程陷阱

① 数据竞争 (Race Condition)：当多个线程同时访问共享数据，并且至少有一个线程修改数据时，如果没有适当的同步机制，就可能发生数据竞争。数据竞争会导致数据不一致性和程序行为不可预测。
② 死锁 (Deadlock)：当两个或多个线程互相等待对方释放资源时，就会发生死锁。死锁会导致程序永久阻塞，无法继续执行。
③ 活锁 (Livelock)：类似于死锁，但线程不是永久阻塞，而是不断地重试操作，但始终无法成功。活锁通常发生在多个线程为了避免冲突而不断退让的情况下。
④ 饥饿 (Starvation)：当一个或多个线程长时间无法获得所需的资源，导致无法执行或执行效率极低时，就会发生饥饿。饥饿可能发生在优先级调度不当或资源分配不公平的情况下。
⑤ 伪共享 (False Sharing)：在多核处理器中，当多个线程访问位于同一缓存行 (Cache Line) 的不同数据时，即使这些数据本身没有共享关系，也可能因为缓存一致性协议而导致性能下降。

利用 HardwareConcurrency.h 规避陷阱

HardwareConcurrency.h 本身并不能直接避免所有并发编程陷阱，但它可以帮助我们更好地理解和利用硬件资源，从而间接地减少某些陷阱的发生概率。例如：

⚝ 合理设置线程池大小：使用 hardware_concurrency() 获取硬件并发数，并据此设置线程池大小，可以避免创建过多的线程，减少上下文切换和资源竞争，从而降低死锁和活锁的风险。
⚝ 任务分解与负载均衡：在并行算法设计中，根据硬件并发数进行任务分解和负载均衡，可以提高并行效率，并减少饥饿现象的发生。

其他规避并发陷阱的技术手段

① 互斥锁 (Mutex)：用于保护共享资源，确保同一时刻只有一个线程可以访问共享资源，从而避免数据竞争。但互斥锁使用不当可能导致死锁和性能瓶颈。
② 条件变量 (Condition Variable)：与互斥锁配合使用，用于线程间的同步和通信。条件变量可以使线程在满足特定条件时才被唤醒，避免忙等待 (Busy Waiting)。
③ 原子操作 (Atomic Operations)：提供对基本数据类型的原子读写操作，可以避免简单的数据竞争，且开销比互斥锁小。但原子操作只能解决部分数据竞争问题，对于复杂的数据结构和操作，仍需使用互斥锁或其他同步机制。
④ 无锁数据结构 (Lock-Free Data Structures)：使用原子操作等技术实现的并发数据结构，避免了锁的使用，可以提高并发性能，但实现复杂，容易出错。
⑤ 避免共享可变状态 (Avoid Shared Mutable State)：函数式编程 (Functional Programming) 提倡避免共享可变状态，通过纯函数 (Pure Function) 和不可变数据 (Immutable Data) 来减少并发编程的复杂性。

最佳实践

① 最小化共享状态：尽可能减少线程间共享的可变状态，将数据限制在线程内部，或者使用不可变数据。
② 使用合适的同步机制：根据具体场景选择合适的同步机制，例如互斥锁、条件变量、原子操作、读写锁 (Read-Write Lock) 等。避免过度同步和同步不足。
③ 注意锁的粒度：锁的粒度 (Granularity) 会影响并发性能。粗粒度锁 (Coarse-grained Lock) 简单易用，但并发度低；细粒度锁 (Fine-grained Lock) 并发度高，但实现复杂，容易出错。
④ 避免死锁：遵循死锁避免原则，例如资源有序分配、超时等待等。
⑤ 进行充分的测试：并发程序容易出现隐藏的错误，需要进行充分的单元测试、集成测试和压力测试，以确保程序的正确性和稳定性。

总结

并发编程陷阱是真实存在的，需要开发者高度重视。HardwareConcurrency.h 可以辅助我们更好地利用硬件资源，但更重要的是掌握并发编程的基本原理和技术，选择合适的并发模型和同步机制，遵循最佳实践，并进行充分的测试，才能编写出高效、可靠的并发程序。

END_OF_CHAPTER

5. chapter 5：高级主题：NUMA、CPU 亲和性与性能调优 (Advanced Topics: NUMA, CPU Affinity, and Performance Tuning)

5.1 NUMA 架构下的硬件并发 (Hardware Concurrency in NUMA Architectures)

随着多核处理器技术的飞速发展， Non-Uniform Memory Access (NUMA) 架构已成为现代高性能计算系统中的主流架构。理解 NUMA 架构对于充分利用硬件并发能力，构建高效的并发程序至关重要。本节将深入探讨 NUMA 架构的基本概念，以及在这种架构下硬件并发的特性和挑战。

什么是 NUMA 架构？

传统的 Symmetric Multiprocessing (SMP) 架构中，所有处理器核心共享同一块物理内存，并通过总线或交叉开关互连。这种架构在核心数量较少时表现良好，但随着核心数量的增加，内存访问的竞争日益激烈，成为性能瓶颈。

NUMA 架构旨在解决 SMP 架构的内存瓶颈问题。在 NUMA 系统中，物理内存被划分为多个 节点 (node)，每个节点关联着一组处理器核心和本地内存。节点之间通过互连网络连接，处理器访问本地内存的速度远快于访问其他节点的 远程内存 (remote memory)。

⚝ NUMA 架构的关键特征：
▮▮▮▮⚝ 非均匀内存访问 (Non-Uniform Memory Access)：访问本地内存速度快，访问远程内存速度慢。
▮▮▮▮⚝ 节点 (Node)：包含一组处理器核心和本地内存的独立单元。
▮▮▮▮⚝ 互连网络 (Interconnect Network)：连接各个节点的通信通道。

NUMA 架构的优势：

① 提高内存带宽：每个节点拥有独立的内存控制器和内存通道，提高了整体内存带宽。
② 降低内存延迟：处理器访问本地内存时，延迟大大降低，提高了程序执行效率。
③ 扩展性：NUMA 架构更容易扩展到更多的处理器核心和更大的内存容量。

NUMA 架构下的硬件并发

在 NUMA 架构下，HardwareConcurrency.h 提供的 hardware_concurrency() 函数仍然能够准确地返回系统可用的硬件并发数，即逻辑处理器的数量。然而，NUMA 架构的引入，使得硬件并发的管理和优化变得更加复杂。

NUMA 感知编程

在 NUMA 系统上进行并发编程时，需要考虑 NUMA 感知 (NUMA-aware)，即程序需要了解 NUMA 架构的特性，并进行相应的优化，以充分利用本地内存访问的优势，减少远程内存访问的开销。

NUMA 感知编程的关键策略：

① 数据本地化 (Data Locality)：尽量将线程需要访问的数据分配到线程运行的处理器核心所在的 NUMA 节点本地内存上。
② 线程亲和性 (Thread Affinity)：将线程绑定到特定的处理器核心或 NUMA 节点上，减少线程在不同节点之间的迁移。
③ 内存分配策略 (Memory Allocation Policy)：使用 NUMA 感知的内存分配 API，例如 numa_alloc()，将内存分配到指定的 NUMA 节点上。

hardware_concurrency() 与 NUMA

hardware_concurrency() 函数在 NUMA 系统中返回的是系统整体的逻辑处理器数量，它并不会区分 NUMA 节点。因此，开发者需要结合其他 NUMA 相关的 API 和技术，才能实现 NUMA 感知的并发程序。

示例：NUMA 感知的线程绑定

以下代码示例展示了如何使用 Linux 系统提供的 sched_setaffinity API 将线程绑定到指定的 CPU 核心上，从而实现 NUMA 感知的线程调度。

 1.双击鼠标左键复制此行；2.单击复制所有代码。 
                                
                            #include <iostream>
                        
                            #include <thread>
                        
                            #include <vector>
                        
                            #include <sched.h>
                        
                            #include <unistd.h>
                        
                            void worker_thread(int cpu_id) {
                        
                              cpu_set_t cpuset;
                        
                              CPU_ZERO(&cpuset);
                        
                              CPU_SET(cpu_id, &cpuset);
                        
                              if (sched_setaffinity(0, sizeof(cpu_set_t), &cpuset) != 0) {
                        
                                perror("sched_setaffinity");
                        
                                return;
                        
                              }
                        
                              std::cout << "Thread running on CPU " << cpu_id << std::endl;
                        
                              // ... 线程具体工作 ...
                        
                              sleep(5); // 模拟工作负载
                        
                            }
                        
                            int main() {
                        
                              int num_threads = std::thread::hardware_concurrency();
                        
                              std::vector<std::thread> threads;
                        
                              for (int i = 0; i < num_threads; ++i) {
                        
                                threads.emplace_back(worker_thread, i % num_threads); // 简单地将线程绑定到 CPU 0, 1, 2, ...
                        
                              }
                        
                              for (auto& thread : threads) {
                        
                                thread.join();
                        
                              }
                        
                              return 0;
                        
                            }

代码解释：

⚝ sched_setaffinity(0, sizeof(cpu_set_t), &cpuset) 函数用于设置当前线程的 CPU 亲和性。
▮▮▮▮⚝ 第一个参数 0 表示当前线程。
▮▮▮▮⚝ 第二个参数 sizeof(cpu_set_t) 表示 cpuset 的大小。
▮▮▮▮⚝ 第三个参数 &cpuset 指向包含 CPU 亲和性掩码的 cpu_set_t 结构。
⚝ CPU_ZERO(&cpuset) 初始化 CPU 集合为空。
⚝ CPU_SET(cpu_id, &cpuset) 将指定的 CPU ID 添加到 CPU 集合中。

总结

NUMA 架构是现代高性能计算系统的基础，理解 NUMA 架构对于编写高效的并发程序至关重要。HardwareConcurrency.h 提供的 hardware_concurrency() 函数可以帮助我们获取系统的硬件并发数，但在 NUMA 系统中，还需要结合 NUMA 感知编程技术，例如数据本地化、线程亲和性和 NUMA 感知的内存分配策略，才能充分发挥硬件并发的性能优势。在后续章节中，我们将进一步探讨 CPU 亲和性设置和性能调优等高级主题。

5.2 CPU 亲和性设置与线程调度 (CPU Affinity Settings and Thread Scheduling)

CPU 亲和性 (CPU Affinity) 是一种操作系统调度特性，允许将进程或线程绑定到特定的 CPU 核心或核心集合上运行。合理地设置 CPU 亲和性，可以提高程序的性能，尤其是在 NUMA 架构和高负载并发场景下。本节将深入探讨 CPU 亲和性的概念、作用、设置方法以及与线程调度的关系。

什么是 CPU 亲和性？

CPU 亲和性，简单来说，就是进程或线程与 CPU 核心之间的绑定关系。通过设置 CPU 亲和性，我们可以控制进程或线程在哪些 CPU 核心上运行。

CPU 亲和性的作用：

① 提高缓存命中率 (Cache Hit Rate)：将线程绑定到固定的 CPU 核心，可以提高 CPU 缓存的命中率。线程在同一个核心上反复执行，可以更好地利用 CPU 缓存中已有的数据和指令，减少缓存未命中 (Cache Miss) 的开销，从而提高性能。
② 减少线程迁移 (Thread Migration)：线程在不同的 CPU 核心之间迁移会带来额外的开销，例如需要将线程的上下文 (Context) 从一个核心的缓存转移到另一个核心的缓存。CPU 亲和性可以减少线程迁移的次数，降低开销。
③ NUMA 架构优化：在 NUMA 架构下，将线程绑定到本地内存节点对应的 CPU 核心上，可以最大程度地利用本地内存访问的低延迟和高带宽优势，避免远程内存访问的性能损失。
④ 资源隔离 (Resource Isolation)：在某些场景下，我们可能需要将不同的进程或线程隔离到不同的 CPU 核心上运行，避免相互干扰，保证关键任务的性能。

CPU 亲和性的设置方法

不同的操作系统提供了不同的 API 来设置 CPU 亲和性。常见的 API 包括：

① Linux:
▮▮▮▮⚝ sched_setaffinity() 和 sched_getaffinity() 系统调用：用于设置和获取线程的 CPU 亲和性。
▮▮▮▮⚝ taskset 命令：用于在命令行设置进程的 CPU 亲和性。
▮▮▮▮⚝ pthread_setaffinity_np() 和 pthread_getaffinity_np() 函数：POSIX 线程库提供的设置和获取线程 CPU 亲和性的函数。

② Windows:
▮▮▮▮⚝ SetProcessAffinityMask() 和 GetProcessAffinityMask() 函数：用于设置和获取进程的处理器亲和性掩码。
▮▮▮▮⚝ SetThreadAffinityMask() 和 GetThreadAffinityMask() 函数：用于设置和获取线程的处理器亲和性掩码。

示例：使用 pthread_setaffinity_np() 设置线程亲和性 (Linux)

 1.双击鼠标左键复制此行；2.单击复制所有代码。 
                                
                            #include <iostream>
                        
                            #include <thread>
                        
                            #include <pthread.h>
                        
                            #include <unistd.h>
                        
                            #include <vector>
                        
                            void worker_thread(int cpu_id) {
                        
                              cpu_set_t cpuset;
                        
                              CPU_ZERO(&cpuset);
                        
                              CPU_SET(cpu_id, &cpuset);
                        
                              pthread_t thread = pthread_self();
                        
                              if (pthread_setaffinity_np(thread, sizeof(cpu_set_t), &cpuset) != 0) {
                        
                                perror("pthread_setaffinity_np");
                        
                                return;
                        
                              }
                        
                              std::cout << "Thread " << pthread_self() << " running on CPU " << cpu_id << std::endl;
                        
                              sleep(5); // 模拟工作负载
                        
                            }
                        
                            int main() {
                        
                              int num_threads = std::thread::hardware_concurrency();
                        
                              std::vector<std::thread> threads;
                        
                              for (int i = 0; i < num_threads; ++i) {
                        
                                threads.emplace_back(worker_thread, i % num_threads);
                        
                              }
                        
                              for (auto& thread : threads) {
                        
                                thread.join();
                        
                              }
                        
                              return 0;
                        
                            }

代码解释：

⚝ pthread_setaffinity_np(thread, sizeof(cpu_set_t), &cpuset) 函数用于设置指定线程 thread 的 CPU 亲和性。
⚝ pthread_self() 函数获取当前线程的线程 ID。

CPU 亲和性与线程调度

操作系统内核的 调度器 (scheduler) 负责将线程分配到 CPU 核心上执行。当设置了 CPU 亲和性后，调度器在调度线程时会受到亲和性设置的约束。

线程调度的基本原则：

① 公平性 (Fairness)：调度器尽量保证每个线程都有机会获得 CPU 时间，避免某些线程长时间饥饿。
② 效率 (Efficiency)：调度器尽量提高 CPU 的利用率，减少上下文切换的开销。
③ 响应性 (Responsiveness)：对于交互式应用，调度器需要保证及时响应用户的操作。

CPU 亲和性对线程调度的影响：

⚝ 强制性约束：当线程被绑定到特定的 CPU 核心后，调度器只能将该线程调度到指定的核心上运行，即使其他核心处于空闲状态。
⚝ 优先级：CPU 亲和性设置通常具有较高的优先级，调度器会优先满足亲和性约束，然后再考虑公平性和效率等其他因素。
⚝ 负载均衡：过度使用 CPU 亲和性可能会导致负载不均衡，某些核心负载过高，而其他核心空闲。因此，需要谨慎使用 CPU 亲和性，避免影响系统的整体性能。

何时使用 CPU 亲和性？

⚝ 性能敏感型应用：对于性能要求较高的应用，例如高性能服务器、科学计算程序等，可以考虑使用 CPU 亲和性来提高缓存命中率和降低线程迁移开销。
⚝ NUMA 架构系统：在 NUMA 架构下，CPU 亲和性是实现 NUMA 感知编程的关键技术，可以将线程绑定到本地内存节点对应的 CPU 核心上，提高内存访问效率。
⚝ 资源隔离场景：在需要资源隔离的场景下，可以使用 CPU 亲和性将不同的任务分配到不同的 CPU 核心上，避免相互干扰。

何时避免使用 CPU 亲和性？

⚝ 通用应用：对于大多数通用应用，操作系统调度器通常能够自动进行合理的线程调度，无需手动设置 CPU 亲和性。
⚝ 负载均衡需求：如果应用对负载均衡有较高要求，过度使用 CPU 亲和性可能会导致负载不均衡，降低系统整体性能。
⚝ 不了解系统架构：如果不了解系统的 CPU 架构和 NUMA 拓扑结构，盲目设置 CPU 亲和性可能会适得其反，降低性能。

总结

CPU 亲和性是一种强大的性能优化工具，可以提高缓存命中率、减少线程迁移开销，尤其在 NUMA 架构和高负载并发场景下效果显著。然而，CPU 亲和性也可能导致负载不均衡，需要谨慎使用。开发者需要根据具体的应用场景和系统架构，权衡利弊，合理地设置 CPU 亲和性，以达到最佳的性能优化效果。在下一节中，我们将探讨如何基于 HardwareConcurrency.h 进行性能基准测试和分析。

5.3 基于 HardwareConcurrency.h 的性能基准测试与分析 (Performance Benchmarking and Analysis with HardwareConcurrency.h)

性能基准测试 (Performance Benchmarking) 是评估程序性能的重要手段。在并发编程中，基准测试尤为重要，因为并发程序的性能受到多种因素的影响，例如硬件并发数、线程调度、锁竞争、内存访问模式等。HardwareConcurrency.h 提供的 hardware_concurrency() 函数可以帮助我们了解系统的硬件并发能力，从而更好地设计和分析并发程序的性能。本节将介绍如何基于 HardwareConcurrency.h 进行性能基准测试与分析。

性能基准测试的重要性

① 性能评估：基准测试可以量化程序的性能指标，例如吞吐量 (Throughput)、延迟 (Latency)、响应时间 (Response Time) 等，帮助我们了解程序的性能水平。
② 性能优化：通过基准测试，我们可以发现程序的性能瓶颈，例如 CPU 密集型、内存密集型、I/O 密集型等，从而有针对性地进行性能优化。
③ 性能对比：基准测试可以用于比较不同算法、不同实现方式、不同配置参数下的程序性能，帮助我们选择最优方案。
④ 回归测试：在程序开发过程中，每次修改代码后，都可以通过基准测试来验证性能是否下降，防止性能退化。

hardware_concurrency() 在基准测试中的作用

hardware_concurrency() 函数返回系统的硬件并发数，这个数值对于设计和分析并发程序的基准测试至关重要。

① 确定测试规模：hardware_concurrency() 返回的硬件并发数可以作为基准测试中线程数量或进程数量的参考。例如，在 CPU 密集型任务的基准测试中，线程数量通常设置为硬件并发数或略多于硬件并发数。
② 分析性能瓶颈：通过比较不同线程数量下的基准测试结果，可以分析程序的性能瓶颈是否与硬件并发能力有关。例如，如果程序性能随着线程数量的增加而线性提升，直到达到硬件并发数后趋于平缓，则说明程序的性能受限于 CPU 核心数量。
③ 评估并发效率：基准测试可以帮助我们评估并发程序的效率，即实际性能提升与理想性能提升之间的差距。理想情况下，如果将线程数量增加一倍，程序的性能也应该提升一倍。但实际上，由于锁竞争、线程调度开销等因素，实际性能提升往往小于理想值。

基准测试方法

① 选择合适的基准测试工具：
▮▮▮▮⚝ Google Benchmark: C++ benchmark 框架，易于使用，功能强大，可以生成详细的性能报告。
▮▮▮▮⚝ Criterion: 另一个 C++ benchmark 框架，专注于统计分析和可重复性。
▮▮▮▮⚝ Linux perf: Linux 性能分析工具，可以收集 CPU 周期、缓存未命中、指令数等底层硬件性能指标。
▮▮▮▮⚝ 火焰图 (Flame Graph): 可视化性能分析工具，可以直观地展示程序的热点函数和调用路径。

② 设计合理的基准测试场景：
▮▮▮▮⚝ 代表性工作负载：基准测试的工作负载应该尽可能接近实际应用场景，例如模拟真实的用户请求、数据处理流程等。
▮▮▮▮⚝ 可控的测试参数：基准测试应该能够控制关键的测试参数，例如线程数量、数据规模、请求速率等，以便进行不同条件下的性能对比。
▮▮▮▮⚝ 可重复性：基准测试应该具有可重复性，即在相同的测试环境下，多次运行基准测试应该得到相似的结果。

③ 收集和分析性能数据：
▮▮▮▮⚝ 性能指标：选择合适的性能指标来衡量程序性能，例如吞吐量、延迟、CPU 利用率、内存带宽等。
▮▮▮▮⚝ 统计分析：对基准测试数据进行统计分析，例如计算平均值、标准差、百分位数等，评估性能的稳定性和波动性。
▮▮▮▮⚝ 可视化：使用图表和可视化工具，例如折线图、柱状图、火焰图等，直观地展示性能数据和分析结果。

示例：使用 Google Benchmark 进行并发排序基准测试

以下代码示例展示了如何使用 Google Benchmark 框架对并发排序算法进行基准测试，并使用 hardware_concurrency() 函数确定测试线程数量。

 1.双击鼠标左键复制此行；2.单击复制所有代码。 
                                
                            #include <benchmark/benchmark.h>
                        
                            #include <vector>
                        
                            #include <algorithm>
                        
                            #include <thread>
                        
                            #include <future>
                        
                            #include <numeric>
                        
                            // 串行排序
                        
                            void serial_sort(std::vector<int>& data) {
                        
                              std::sort(data.begin(), data.end());
                        
                            }
                        
                            // 并发排序
                        
                            void parallel_sort(std::vector<int>& data, int num_threads) {
                        
                              if (num_threads <= 1) {
                        
                                serial_sort(data);
                        
                                return;
                        
                              }
                        
                              std::vector<std::future<void>> futures;
                        
                              int segment_size = data.size() / num_threads;
                        
                              for (int i = 0; i < num_threads; ++i) {
                        
                                int start = i * segment_size;
                        
                                int end = (i == num_threads - 1) ? data.size() : (i + 1) * segment_size;
                        
                                futures.emplace_back(std::async(std::launch::async, [&data, start, end]() {
                        
                                  std::sort(data.begin() + start, data.begin() + end);
                        
                                }));
                        
                              }
                        
                              for (auto& future : futures) {
                        
                                future.wait();
                        
                              }
                        
                              // 合并排序后的段 (这里为了简化，省略了合并步骤，实际应用中需要合并)
                        
                            }
                        
                            static void BM_SerialSort(benchmark::State& state) {
                        
                              int data_size = state.range(0);
                        
                              std::vector<int> data(data_size);
                        
                              std::iota(data.begin(), data.end(), 0); // 初始化数据
                        
                              for (auto _ : state) {
                        
                                std::vector<int> data_copy = data; // 每次迭代复制数据，避免排序影响后续迭代
                        
                                serial_sort(data_copy);
                        
                              }
                        
                            }
                        
                            BENCHMARK(BM_SerialSort)->RangeMultiplier(2)->Range(1<<10, 1<<20);
                        
                            static void BM_ParallelSort(benchmark::State& state) {
                        
                              int data_size = state.range(0);
                        
                              int num_threads = std::thread::hardware_concurrency(); // 使用 hardware_concurrency() 获取线程数
                        
                              std::vector<int> data(data_size);
                        
                              std::iota(data.begin(), data.end(), 0);
                        
                              for (auto _ : state) {
                        
                                std::vector<int> data_copy = data;
                        
                                parallel_sort(data_copy, num_threads);
                        
                              }
                        
                            }
                        
                            BENCHMARK(BM_ParallelSort)->RangeMultiplier(2)->Range(1<<10, 1<<20);
                        
                            BENCHMARK_MAIN();

代码解释：

⚝ BM_SerialSort 和 BM_ParallelSort 是两个基准测试函数，分别测试串行排序和并发排序的性能。
⚝ benchmark::State 对象用于管理基准测试的状态，例如迭代次数、运行时间等。
⚝ state.range(0) 获取基准测试的参数，这里是数据规模。
⚝ std::thread::hardware_concurrency() 获取硬件并发数，用于设置并发排序的线程数量。
⚝ BENCHMARK_MAIN() 宏定义了 main 函数，用于运行基准测试。

性能分析

运行上述基准测试代码，可以得到串行排序和并发排序在不同数据规模下的性能数据。通过分析这些数据，可以得出以下结论：

⚝ 对于小规模数据，串行排序可能比并发排序更快，因为并发排序的线程创建和同步开销可能超过并行加速带来的收益。
⚝ 随着数据规模的增加，并发排序的性能优势逐渐显现，可以显著缩短排序时间。
⚝ 并发排序的性能提升受到硬件并发数的限制，当线程数量超过硬件并发数时，性能提升可能不再明显，甚至可能下降。

总结

性能基准测试是并发编程中不可或缺的环节。HardwareConcurrency.h 提供的 hardware_concurrency() 函数可以帮助我们更好地设计和分析并发程序的基准测试。通过合理的基准测试方法和性能分析工具，我们可以深入了解并发程序的性能瓶颈，并进行有针对性的性能优化，最终构建高效、可扩展的并发系统。在最后一节中，我们将探讨高级并发模式与最佳实践。

5.4 高级并发模式与最佳实践 (Advanced Concurrency Patterns and Best Practices)

掌握高级并发模式和最佳实践是成为并发编程专家的关键。本节将介绍一些常用的高级并发模式，并总结并发编程的最佳实践，帮助读者构建更健壮、更高效、更易维护的并发程序。

高级并发模式

① 线程池 (Thread Pool)

线程池是一种管理和复用线程的模式。预先创建一组线程，放入线程池中，当有任务到达时，从线程池中取出一个空闲线程来执行任务，任务执行完毕后，线程返回线程池等待下一个任务。

⚝ 线程池的优势：
▮▮▮▮⚝ 降低线程创建和销毁开销：线程池中的线程可以复用，避免了频繁创建和销毁线程的开销。
▮▮▮▮⚝ 提高响应速度：任务到达时，可以立即从线程池中获取线程执行，提高了响应速度。
▮▮▮▮⚝ 控制并发度：线程池可以限制并发执行的线程数量，防止系统资源耗尽。

② 工作窃取 (Work Stealing)

工作窃取是一种动态负载均衡的模式。多个工作线程各自维护一个任务队列，当某个工作线程完成自己的任务队列中的任务后，可以从其他工作线程的任务队列中 "窃取" 任务来执行。

⚝ 工作窃取的优势：
▮▮▮▮⚝ 动态负载均衡：能够有效地平衡各个工作线程的负载，提高资源利用率。
▮▮▮▮⚝ 减少线程空闲时间：当某些线程的任务较少时，可以通过窃取任务来保持忙碌状态。
▮▮▮▮⚝ 适用于不规则任务：对于任务大小不均匀的场景，工作窃取能够更好地适应。

③ Actor 模型 (Actor Model)

Actor 模型是一种基于消息传递的并发模型。Actor 是并发执行的基本单元，每个 Actor 都有自己的状态和行为，Actor 之间通过异步消息进行通信。

⚝ Actor 模型的优势：
▮▮▮▮⚝ 简化并发编程：Actor 模型将并发编程抽象为消息传递，降低了并发编程的复杂性。
▮▮▮▮⚝ 提高程序健壮性：Actor 之间的隔离性提高了程序的健壮性，一个 Actor 的错误不会影响其他 Actor。
▮▮▮▮⚝ 易于扩展：Actor 模型易于扩展到分布式系统，可以构建大规模并发应用。

④ Lock-Free 数据结构 (Lock-Free Data Structures)

Lock-Free 数据结构是指在并发访问时不需要使用锁的数据结构。Lock-Free 数据结构通常使用原子操作 (Atomic Operations) 来实现并发控制，避免了锁竞争和死锁等问题。

⚝ Lock-Free 数据结构的优势：
▮▮▮▮⚝ 提高并发性能：Lock-Free 数据结构避免了锁竞争，可以提高并发性能。
▮▮▮▮⚝ 避免死锁：Lock-Free 数据结构不会发生死锁。
▮▮▮▮⚝ 增强程序健壮性：Lock-Free 数据结构在某些情况下可以提高程序的健壮性。

并发编程最佳实践

① 使用 hardware_concurrency() 获取硬件并发数：在设计并发程序时，应该充分考虑系统的硬件并发能力。使用 hardware_concurrency() 函数可以获取系统的逻辑处理器数量，作为并发度设置的参考。

② 避免共享可变状态 (Shared Mutable State)：共享可变状态是并发编程中bug的根源。尽量避免在多个线程之间共享可变状态。如果必须共享状态，应该使用合适的同步机制来保护共享状态的访问。

③ 选择合适的同步机制：根据不同的并发场景，选择合适的同步机制，例如互斥锁 (Mutex)、条件变量 (Condition Variable)、信号量 (Semaphore)、原子操作 (Atomic Operations) 等。避免过度使用锁，减少锁竞争。

④ 注意死锁和活锁 (Deadlock and Livelock)：死锁和活锁是并发编程中常见的错误。在设计并发程序时，应该注意避免死锁和活锁的发生。可以使用死锁检测工具和避免活锁的设计模式来提高程序的健壮性。

⑤ 进行充分的测试和性能分析：并发程序容易出现隐藏的bug，并且性能调优也比较复杂。应该进行充分的单元测试、集成测试和性能基准测试，确保程序的正确性和性能。使用性能分析工具，例如 perf、火焰图等，分析程序的性能瓶颈，进行有针对性的优化。

⑥ 保持代码简洁和可读性：并发程序通常比串行程序更复杂，更难理解和维护。应该尽量保持代码简洁和可读性，使用清晰的命名、注释和代码结构，降低并发编程的复杂性。

⑦ 学习和借鉴成熟的并发库和框架：现代编程语言和框架通常提供了丰富的并发库和框架，例如 C++ 的 std::thread、std::future、std::async、boost::asio、Java 的 java.util.concurrent 包、Go 的 Goroutine 和 Channel 等。学习和借鉴这些成熟的并发库和框架，可以提高开发效率和程序质量。

hardware_concurrency() 在高级并发模式中的应用

hardware_concurrency() 函数在高级并发模式中仍然发挥着重要的作用。例如：

⚝ 线程池：可以使用 hardware_concurrency() 返回的硬件并发数作为线程池大小的参考值，通常将线程池大小设置为硬件并发数或略多于硬件并发数。
⚝ 工作窃取：可以使用 hardware_concurrency() 返回的硬件并发数作为工作线程的数量，每个工作线程负责一部分任务队列。
⚝ 并行算法：可以使用 hardware_concurrency() 返回的硬件并发数来决定并行算法的并行度，例如将数据划分为多少个段进行并行处理。

总结

高级并发模式和最佳实践是构建高性能、高可靠性并发程序的基石。HardwareConcurrency.h 提供的 hardware_concurrency() 函数可以帮助我们了解系统的硬件并发能力，从而更好地应用这些高级并发模式和最佳实践。通过不断学习和实践，我们可以掌握并发编程的精髓，构建出更加优秀的并发系统。

END_OF_CHAPTER

6. chapter 6：总结与展望 (Summary and Future Outlook)

6.1 HardwareConcurrency.h 的价值与局限性 (Value and Limitations of HardwareConcurrency.h)

在本书的结尾，我们对 folly/system/HardwareConcurrency.h 进行了全面的探讨。现在，让我们回顾一下 HardwareConcurrency.h 的核心价值，并审视其存在的局限性，以便更清晰地理解它在并发编程中的定位和适用场景。

价值 (Value)

① 简化硬件并发数获取：HardwareConcurrency.h 最核心的价值在于它提供了一个简单、跨平台的接口 hardware_concurrency()，用于获取系统硬件支持的并发线程数。这极大地简化了开发者获取硬件并发信息的流程，无需深入了解底层操作系统和硬件细节。

② 提高代码可移植性：由于 HardwareConcurrency.h 屏蔽了不同操作系统和编译器之间的差异，使用它编写的代码在不同平台上能够保持一致的行为，提高了代码的可移植性。开发者无需为不同的平台编写不同的获取硬件并发数的代码，降低了维护成本。

③ 增强程序性能优化：通过准确获取硬件并发数，开发者可以根据实际硬件资源调整程序的并发度，例如线程池大小、并行算法的任务分解等。这有助于充分利用硬件资源，避免过度或不足的并发，从而优化程序性能。

④ 促进最佳实践：HardwareConcurrency.h 鼓励开发者在并发编程中考虑硬件资源限制，并根据硬件能力进行合理的并发设计。这是一种良好的编程实践，有助于编写出更高效、更健壮的并发程序。

⑤ 易于使用和集成：HardwareConcurrency.h 是 Folly 库的一部分，但其接口设计非常简洁，易于理解和使用。它可以轻松集成到现有的 C++ 项目中，无需复杂的配置和依赖。

局限性 (Limitations)

① 仅提供硬件并发数：HardwareConcurrency.h 的功能相对单一，只提供获取硬件并发线程数的功能。它不提供更细粒度的硬件信息，例如 CPU 拓扑结构、缓存大小、NUMA 节点信息等。对于需要进行更精细硬件感知的性能优化场景，HardwareConcurrency.h 的信息可能不足。

② 逻辑核心数而非物理核心数：hardware_concurrency() 函数通常返回的是逻辑核心数（例如，包括超线程技术提供的逻辑线程），而不是物理核心数。在某些情况下，过度依赖逻辑核心数进行并发优化可能会导致性能瓶颈，因为逻辑核心之间的资源竞争依然存在。理解逻辑核心和物理核心的区别对于高级性能优化至关重要。

③ 可能受操作系统报告的限制：hardware_concurrency() 函数的返回值依赖于操作系统提供的硬件信息。在极少数情况下，操作系统可能无法准确报告硬件并发数，或者报告的信息不符合预期。虽然这种情况比较罕见，但在某些特殊环境下，开发者需要注意这种潜在的风险。

④ 不涉及动态硬件变化：HardwareConcurrency.h 获取的硬件并发数通常是在程序启动时确定的。在某些动态硬件环境中（例如，CPU 热插拔、资源动态分配等），硬件并发数可能会发生变化。HardwareConcurrency.h 无法感知这种动态变化，因此在这些场景下可能需要结合其他机制来动态调整并发策略。

⑤ C++ 依赖：HardwareConcurrency.h 是 Folly 库的一部分，因此使用它需要 C++ 环境和 Folly 库的依赖。对于非 C++ 项目或者不希望引入 Folly 依赖的项目，HardwareConcurrency.h 可能不是最佳选择。

总结

总而言之，HardwareConcurrency.h 是一个非常有价值的工具，它以简洁、跨平台的方式解决了获取硬件并发数的难题，为并发编程提供了便利。然而，开发者也需要认识到其局限性，并根据具体的应用场景和性能需求，选择合适的并发编程策略和工具。在很多情况下，HardwareConcurrency.h 可以作为并发优化的起点，但对于更高级的性能调优，可能需要结合其他技术和方法。 🚀

6.2 未来并发编程技术发展趋势 (Future Trends in Concurrency Programming)

随着硬件技术的不断演进和应用场景的日益复杂，并发编程领域也在持续发展和变革。展望未来，我们可以预见以下几个关键的技术发展趋势，这些趋势将深刻影响我们如何设计和实现并发程序。

① 硬件异构性增强 (Increased Hardware Heterogeneity)：未来的计算平台将越来越异构化，不再是单一类型的 CPU 核心，而是 CPU、GPU、FPGA、专用加速器等多种计算单元的混合。这种异构性为并发编程带来了新的挑战和机遇。我们需要开发能够充分利用不同类型硬件资源的并发编程模型和工具，例如，将计算密集型任务卸载到 GPU 或加速器上，而将控制逻辑和任务调度放在 CPU 上。

② 新型编程语言和模型 (New Programming Languages and Models)：为了应对日益复杂的并发编程挑战，新的编程语言和模型不断涌现。例如，Rust 和 Go 等语言在语言层面提供了更好的并发支持和内存安全保证。Actor 模型、CSP (Communicating Sequential Processes) 等并发模型也在得到更广泛的应用。未来，我们可以期待更多针对并发编程优化的语言和模型出现，以简化并发程序的开发和维护。

③ 异步编程范式普及 (Popularization of Asynchronous Programming Paradigm)：异步编程已经成为现代并发编程的重要范式。它通过非阻塞的方式处理 I/O 操作和长时间运行的任务，提高了程序的响应性和资源利用率。随着 Node.js、async/await 等技术的流行，异步编程的概念和技术正在被更广泛地接受和应用。未来，异步编程将继续普及，并成为构建高性能、高并发系统的关键技术。

④ 反应式编程 (Reactive Programming)：反应式编程是一种面向数据流和变化传播的编程范式。它特别适合处理事件驱动、异步和并发的系统。反应式编程能够有效地管理复杂的数据依赖关系和事件流，简化并发程序的逻辑。RxJava、Reactor 等反应式编程库的成熟和应用，预示着反应式编程将在未来并发编程中扮演更重要的角色。

⑤ 形式化验证与并发安全 (Formal Verification and Concurrency Safety)：并发程序的正确性验证一直是难题。随着形式化验证技术的进步，以及对并发安全性的日益重视，我们可以预见形式化验证将在并发编程中发挥更大的作用。例如，利用模型检查、定理证明等技术，可以在程序开发早期发现和消除并发错误，提高程序的可靠性和安全性。

⑥ AI 辅助并发编程 (AI-Assisted Concurrent Programming)：人工智能技术正在渗透到软件开发的各个领域，并发编程也不例外。未来，AI 有望在并发程序的自动优化、错误检测、性能分析等方面发挥作用。例如，AI 可以帮助开发者自动调整线程池大小、优化任务调度策略、检测潜在的死锁和竞争条件等。AI 辅助并发编程将降低并发编程的门槛，提高开发效率和程序质量。

⑦ Serverless 与 FaaS (Serverless and Function-as-a-Service)：Serverless 计算和函数即服务 (FaaS) 正在改变应用程序的部署和运行方式。Serverless 架构天然具有高并发和弹性伸缩的特性，能够自动处理并发请求。FaaS 平台也提供了轻量级的并发执行环境。随着 Serverless 和 FaaS 的普及，我们将看到更多基于函数和事件驱动的并发编程模式出现。

总而言之，未来并发编程技术将朝着更加异构、异步、反应式、安全和智能的方向发展。开发者需要不断学习和掌握新的并发编程技术和工具，才能应对日益复杂的并发挑战，构建出高性能、高可靠、易维护的并发系统。 💡

6.3 持续学习与深入探索建议 (Recommendations for Continuous Learning and Further Exploration)

并发编程是一个既深奥又实用的领域，需要持续学习和实践才能不断进步。为了帮助读者更好地深入探索并发编程的世界，并充分利用 HardwareConcurrency.h 以及其他相关技术，我们提出以下建议：

① 系统学习并发编程基础理论：扎实的理论基础是掌握并发编程技术的基石。建议读者系统学习操作系统、计算机体系结构、并发算法等基础知识。深入理解进程、线程、同步、互斥、死锁、活锁、饥饿等核心概念，掌握常见的并发模型和设计模式。

② 精读经典并发编程书籍：阅读经典书籍是深入学习并发编程的有效途径。《Java Concurrency in Practice》、《Effective C++》、《深入理解计算机系统 (CSAPP)》、《Operating System Concepts》等书籍都包含了丰富的并发编程知识和实践经验。精读这些书籍，并结合实际代码进行练习，可以快速提升并发编程水平。

③ 深入研究 Folly 库和 HardwareConcurrency.h 源码：通过阅读 Folly 库和 HardwareConcurrency.h 的源码，可以更深入地理解其实现原理和设计思想。这有助于更好地使用 HardwareConcurrency.h，并从中学习优秀的 C++ 编程技巧和库设计方法。同时，也可以关注 Folly 库的更新和发展，了解 Facebook 在并发编程领域的最新实践。

④ 实践并发编程项目：理论学习固然重要，但实践才是检验真理的唯一标准。建议读者积极参与并发编程项目，例如，开发多线程服务器、并行计算程序、高并发网络应用等。在实践中应用所学的并发编程知识，解决实际问题，才能真正掌握并发编程技能。

⑤ 关注并发编程技术社区和论坛：积极参与并发编程技术社区和论坛，例如 Stack Overflow、Reddit 的 r/cpp、GitHub 等，可以及时了解最新的技术动态、学习他人的经验、解决自己遇到的问题。与同行交流和分享，可以拓宽视野，加速成长。

⑥ 学习其他并发编程语言和工具：除了 C++ 和 Folly 库，还可以学习其他并发编程语言和工具，例如，Go、Rust、Java、Erlang、Python 的 asyncio 库、OpenMP、MPI 等。了解不同语言和工具的并发编程特性和适用场景，可以扩展技术栈，为解决不同类型的并发问题提供更多选择。

⑦ 持续关注硬件技术发展趋势：硬件技术的发展是并发编程技术进步的重要驱动力。建议读者持续关注 CPU、GPU、内存、网络等硬件技术的最新发展趋势，例如，多核处理器、异构计算、NUMA 架构、高速互连网络等。了解硬件发展趋势，可以更好地把握并发编程技术的未来方向。

⑧ 参与开源并发编程项目：参与开源并发编程项目是提升并发编程能力的绝佳途径。通过参与开源项目，可以学习大型项目的代码组织、协作开发流程、性能优化技巧等。同时，也可以为开源社区贡献自己的力量，与其他开发者共同推动并发编程技术的发展。

⑨ 关注前沿研究和学术论文：并发编程是一个活跃的研究领域。关注并发编程领域的前沿研究和学术论文，可以了解最新的理论进展和技术创新。例如，关注并发数据结构、并发算法、形式化验证、新型并发模型等方面的研究成果，可以为未来的技术发展做好准备。

⑩ 保持好奇心和探索精神：并发编程是一个充满挑战和乐趣的领域。保持好奇心和探索精神，不断学习新知识、尝试新技术、解决新问题，才能在这个领域不断进步，并取得更大的成就。 🚀

END_OF_CHAPTER

1	CPU芯片 (CPU Chip)
2	└── CPU核心 (CPU Core)
3	├── 执行单元 (Execution Units) (ALU, FPU, etc.)
4	├── 控制单元 (Control Unit)
5	├── 寄存器 (Registers)
6	├── 高速缓存 (Cache) (L1, L2, L3)
7	└── 硬件线程 (Hardware Thread) (逻辑核心，可能通过超线程技术实现多个)
8	└── 软件线程 (Software Thread) (由操作系统调度到硬件线程上执行)
9	└── 进程 (Process) (包含一个或多个软件线程)

1	#include <folly/concurrency/HardwareConcurrency.h>
2	#include <thread>
3	#include <iostream>
4
5	int main() {
6	int hardware_threads = folly::hardware_concurrency();
7	std::cout << "Hardware concurrency: " << hardware_threads << std::endl;
8
9	// 创建一个线程池，线程数量为硬件并发数
10	std::vector<std::thread> threads;
11	for (int i = 0; i < hardware_threads; ++i) {
12	threads.emplace_back([](){
13	// 执行任务
14	std::cout << "Thread " << std::this_thread::get_id() << " is running." << std::endl;
15	std::this_thread::sleep_for(std::chrono::seconds(1));
16	});
17	}
18
19	for (auto& thread : threads) {
20	thread.join();
21	}
22
23	return 0;
24	}

1	#include <folly/ Concurrency/HardwareConcurrency.h>
2	#include <iostream>
3
4	int main() {
5	unsigned int concurrency = folly::hardware_concurrency();
6
7	if (concurrency == 0) {
8	std::cerr << "Warning: Unable to determine hardware concurrency. "
9	<< "Using a conservative default value." << std::endl;
10	concurrency = 2; // 使用默认值 2 (Use default value 2)
11	}
12
13	std::cout << "Detected hardware concurrency: " << concurrency << std::endl;
14
15	// ... 后续可以使用 concurrency 值来配置并发程序 (Use concurrency value to configure concurrent programs later)
16
17	return 0;
18	}

1	#include <folly/ Concurrency/HardwareConcurrency.h>
2	#include <folly/ Executor/ThreadPoolExecutor.h>
3	#include <iostream>
4
5	int main() {
6	unsigned int hardwareThreads = folly::hardware_concurrency();
7	unsigned int threadPoolSize = std::max(2U, hardwareThreads); // 至少 2 个线程，或硬件线程数 (At least 2 threads, or hardware threads)
8
9	std::cout << "Creating thread pool with size: " << threadPoolSize << std::endl;
10
11	folly::ThreadPoolExecutor executor{threadPoolSize};
12
13	// ... 提交任务到线程池 (Submit tasks to the thread pool)
14	for (int i = 0; i < 10; ++i) {
15	executor.add([i]() {
16	std::cout << "Task " << i << " running on thread "
17	<< std::this_thread::get_id() << std::endl;
18	std::this_thread::sleep_for(std::chrono::milliseconds(100));
19	});
20	}
21
22	executor.join(); // 等待所有任务完成 (Wait for all tasks to complete)
23
24	return 0;
25	}

1	#include <folly/ Concurrency/HardwareConcurrency.h>
2	#include <vector>
3	#include <numeric>
4	#include <future>
5	#include <iostream>
6
7	long long parallelSum(const std::vector<int>& data) {
8	unsigned int numThreads = folly::hardware_concurrency();
9	unsigned int chunkSize = (data.size() + numThreads - 1) / numThreads; // 计算每个线程处理的数据块大小 (Calculate chunk size per thread)
10	std::vector<std::future<long long>> futures;
11
12	for (unsigned int i = 0; i < numThreads; ++i) {
13	size_t start = i * chunkSize;
14	size_t end = std::min(start + chunkSize, data.size());
15	futures.push_back(std::async(std::launch::async,
16	[&](size_t start_index, size_t end_index) {
17	long long localSum = 0;
18	for (size_t j = start_index; j < end_index; ++j) {
19	localSum += data[j];
20	}
21	return localSum;
22	}, start, end));
23	}
24
25	long long totalSum = 0;
26	for (auto& future : futures) {
27	totalSum += future.get();
28	}
29	return totalSum;
30	}
31
32	int main() {
33	std::vector<int> data(1000000);
34	std::iota(data.begin(), data.end(), 1); // 初始化数据 (Initialize data)
35
36	long long sum = parallelSum(data);
37	std::cout << "Parallel sum: " << sum << std::endl;
38
39	return 0;
40	}

1	#include <iostream>
2	#include <thread>
3	#include <pthread.h>
4	#include <unistd.h>
5	#include <vector>
6
7	void worker_thread(int cpu_id) {
8	cpu_set_t cpuset;
9	CPU_ZERO(&cpuset);
10	CPU_SET(cpu_id, &cpuset);
11	pthread_t thread = pthread_self();
12	if (pthread_setaffinity_np(thread, sizeof(cpu_set_t), &cpuset) != 0) {
13	perror("pthread_setaffinity_np");
14	return;
15	}
16
17	std::cout << "Thread " << pthread_self() << " running on CPU " << cpu_id << std::endl;
18	sleep(5); // 模拟工作负载
19	}
20
21	int main() {
22	int num_threads = std::thread::hardware_concurrency();
23	std::vector<std::thread> threads;
24
25	for (int i = 0; i < num_threads; ++i) {
26	threads.emplace_back(worker_thread, i % num_threads);
27	}
28
29	for (auto& thread : threads) {
30	thread.join();
31	}
32
33	return 0;
34	}

1	#include <benchmark/benchmark.h>
2	#include <vector>
3	#include <algorithm>
4	#include <thread>
5	#include <future>
6	#include <numeric>
7
8	// 串行排序
9	void serial_sort(std::vector<int>& data) {
10	std::sort(data.begin(), data.end());
11	}
12
13	// 并发排序
14	void parallel_sort(std::vector<int>& data, int num_threads) {
15	if (num_threads <= 1) {
16	serial_sort(data);
17	return;
18	}
19
20	std::vector<std::future<void>> futures;
21	int segment_size = data.size() / num_threads;
22	for (int i = 0; i < num_threads; ++i) {
23	int start = i * segment_size;
24	int end = (i == num_threads - 1) ? data.size() : (i + 1) * segment_size;
25	futures.emplace_back(std::async(std::launch::async, [&data, start, end]() {
26	std::sort(data.begin() + start, data.begin() + end);
27	}));
28	}
29
30	for (auto& future : futures) {
31	future.wait();
32	}
33
34	// 合并排序后的段 (这里为了简化，省略了合并步骤，实际应用中需要合并)
35	}
36
37	static void BM_SerialSort(benchmark::State& state) {
38	int data_size = state.range(0);
39	std::vector<int> data(data_size);
40	std::iota(data.begin(), data.end(), 0); // 初始化数据
41
42	for (auto _ : state) {
43	std::vector<int> data_copy = data; // 每次迭代复制数据，避免排序影响后续迭代
44	serial_sort(data_copy);
45	}
46	}
47	BENCHMARK(BM_SerialSort)->RangeMultiplier(2)->Range(1<<10, 1<<20);
48
49	static void BM_ParallelSort(benchmark::State& state) {
50	int data_size = state.range(0);
51	int num_threads = std::thread::hardware_concurrency(); // 使用 hardware_concurrency() 获取线程数
52	std::vector<int> data(data_size);
53	std::iota(data.begin(), data.end(), 0);
54
55	for (auto _ : state) {
56	std::vector<int> data_copy = data;
57	parallel_sort(data_copy, num_threads);
58	}
59	}
60	BENCHMARK(BM_ParallelSort)->RangeMultiplier(2)->Range(1<<10, 1<<20);
61
62	BENCHMARK_MAIN();

055 《Folly HardwareConcurrency.h 权威指南：系统级并发编程基石》

书籍大纲

1. chapter 1： 硬件并发基础 (Fundamentals of Hardware Concurrency)

1.1 什么是硬件并发？(What is Hardware Concurrency?)

1.2 为什么硬件并发至关重要？(Why is Hardware Concurrency Important?)

1.3 现代CPU架构：核心、线程与超线程 (Modern CPU Architecture: Cores, Threads, and Hyperthreading)

1.4 操作系统与硬件并发管理 (Operating Systems and Hardware Concurrency Management)

1.5 硬件并发与软件并发的关系 (Relationship between Hardware and Software Concurrency)

2. chapter 2： Folly库与 HardwareConcurrency.h 概览 (Overview of Folly Library and HardwareConcurrency.h)

2.1 Folly库简介：Facebook开源基础设施 (Introduction to Folly Library: Facebook Open Source Infrastructure)

2.2 HardwareConcurrency.h 的诞生背景与设计目标 (Background and Design Goals of HardwareConcurrency.h)

2.3 HardwareConcurrency.h 的核心功能：获取硬件并发数 (Core Functionality of HardwareConcurrency.h: Getting Hardware Concurrency)

2.4 为什么选择 Folly 的 HardwareConcurrency.h？(Why Choose Folly's HardwareConcurrency.h?)

3. chapter 3： HardwareConcurrency.h API 全面解析 (Comprehensive API Analysis of HardwareConcurrency.h)

3.1 hardware_concurrency() 函数详解 (Detailed Explanation of hardware_concurrency() Function)

3.1.1 函数签名、参数与返回值 (Function Signature, Parameters, and Return Values)

3.1.2 异常处理与错误情况 (Exception Handling and Error Scenarios)

3.1.3 跨平台兼容性分析 (Cross-Platform Compatibility Analysis)

3.2 API 使用示例与最佳实践 (API Usage Examples and Best Practices)

3.3 与其他并发API的对比 (Comparison with Other Concurrency APIs)

4. chapter 4： 实战应用：基于 HardwareConcurrency.h 的并发程序设计 (Practical Applications: Concurrent Programming with HardwareConcurrency.h)

4.1 利用硬件并发数优化多线程程序 (Optimizing Multithreaded Programs with Hardware Concurrency)

4.2 并行算法设计与实现 (Parallel Algorithm Design and Implementation)

4.3 案例分析：高性能服务器的并发模型 (Case Study: Concurrency Model of High-Performance Servers)

4.4 常见并发编程陷阱与规避 (Common Concurrency Programming Pitfalls and Avoidance)

5. chapter 5： 高级主题：NUMA、CPU 亲和性与性能调优 (Advanced Topics: NUMA, CPU Affinity, and Performance Tuning)

5.1 NUMA 架构下的硬件并发 (Hardware Concurrency in NUMA Architectures)

5.2 CPU 亲和性设置与线程调度 (CPU Affinity Settings and Thread Scheduling)

5.3 基于 HardwareConcurrency.h 的性能基准测试与分析 (Performance Benchmarking and Analysis with HardwareConcurrency.h)

5.4 高级并发模式与最佳实践 (Advanced Concurrency Patterns and Best Practices)

6. chapter 6： 总结与展望 (Summary and Future Outlook)

6.1 HardwareConcurrency.h 的价值与局限性 (Value and Limitations of HardwareConcurrency.h)

6.2 未来并发编程技术发展趋势 (Future Trends in Concurrency Programming)

6.3 持续学习与深入探索建议 (Recommendations for Continuous Learning and Further Exploration)

1. chapter 1：硬件并发基础 (Fundamentals of Hardware Concurrency)

3.1 `hardware_concurrency()` 函数详解 (Detailed Explanation of `hardware_concurrency()` Function)

4. chapter 4：实战应用：基于 HardwareConcurrency.h 的并发程序设计 (Practical Applications: Concurrent Programming with HardwareConcurrency.h)

5. chapter 5：高级主题：NUMA、CPU 亲和性与性能调优 (Advanced Topics: NUMA, CPU Affinity, and Performance Tuning)

6. chapter 6：总结与展望 (Summary and Future Outlook)