NUMA与英特尔下一代Xeon处理器学�?f��n)�?j��)�?lt;�?gt;

chatler — Mon, 02 Feb 2009 14:18:00 GMT

作�ؓ(f��)一名工�E�师�Q�一名做技术的工程师，NUMA也是我的�q�期工作重点之一。在工作旉��Q�在茶余饭后�Q�也看了(ji��n)些NUMA的资料，学习(f��n)�?ji��n)英特尔下一代Xeon处理器。这里就是我的一点小�l�，一点心(j��)得，和感兴趣的朋友分享分享�?/p>

因时间有限，每次��ȝ��一部分�Q�慢慢道来，�Ʋ知详情�Q�下回分晓！

一、概�q?/span>

从系�l�架构来��_(d��)��目前的主��企业服务器基本可以分�ؓ(f��)三类�Q?/span>SMP (Symmetric Multi Processing�Q�对�U�多处理架构)�Q?/span>NUMA (Non-Uniform Memory Access�Q�非一致存储访问架�?/span>)�Q�和MPP (Massive Parallel Processing�Q��v量�ƈ行处理架�?/span>)。三�U�架构各有特点，本文��重点聊�?/span>NUMA�?/span>

��Z��(ji��n)�?ji��n)�?/span>NUMA�Q�我�q�里��׃��l�一�?/span>NUMA与其他两�U?/span>Non-NUMA的主要区别�?/span>

1�Q?/span>SMP�Q?/span>Symmetric Multi Processing�Q?/span>

SMP是非常常见的一�U�架构。在SMP模式下，多个处理器均对称的连接在�pȝ��内存上，所有处理器都以�q�等的代仯��问系�l�内存。它的优�Ҏ(gu��)��对内存的讉K��是��^�{�、一致的�Q�缺�Ҏ(gu��)��因�ؓ(f��)大家都是一致的�Q�在传统�?/span> SMP �pȝ��中，所有处理器都共享系�l��ȝ��Q�因此当处理器的数目增多�Ӟ��pȝ��ȝ��的竞争冲�H�迅速加大，�pȝ��ȝ��成�ؓ(f��)�?ji��n)性能瓉��Q�所以目�?/span> SMP �pȝ��的处理器数目一般只有数十个�Q�可扩展性受到很大限制�?/span>

2�Q?/span>MPP (Massive Parallel Processing)

MPP则是逻辑上将整个�pȝ��划分为多个节点，每个节点的处理器只可以访问本�w�的本地资源�Q�是完全无共享的架构。节点之间的数据交换需要��Y件实施。它的优�Ҏ(gu��)��可扩展性非常好�Q�缺�Ҏ(gu��)��彼此数据交换困难�Q�需要控制��Y件的大量工作来实现通讯以及(qi��ng)��d��的分配、调度，对于一般的企业应用而言�q�于复杂�Q�效率不高�?/span>

3�Q?/span>NUMA�Q?/span>Non-Uniform Memory Access�Q?/span>

NUMA架构则在某种意义上是�l�合�?/span>SMP�?/span>MPP的特点：(x��)逻辑上整个系�l�也是分为多个节点，每个节点可以讉K��本地内存资源�Q�也可以讉K��q�程内存资源�Q�但讉K��本地内存资源�q�远快于�q�程内存资源。它的优�Ҏ(gu��)��兼顾�?/span>SMP�?/span>MPP的特�?/span>, 易于��理�Q�可扩充性好�Q�缺�Ҏ(gu��)��讉K��q�程内存资源的所需旉��非常的大�?/span>

在实际系�l�中使用比较�q�的�?/span>SMP�?/span>NUMA架构。像传统的英特尔IA架构��是SMP�Q�而很多大型机采用�?/span>NUMA架构�?/span>

现在已经�q�入�?ji��n)多核时代，随着核数的越来越多，对于内存吞吐量和延迟有了(ji��n)更高的要求。正是考虑到这�U�需求，NUMA架构出现在了(ji��n)最新的��q��?/span>下一代Xeon处理�?/span>中�?br>
做�ؓ(f��)��q��?d��ng)下一代的45nm Xeon处理器，它会(x��)成�ؓ(f��)未来��q��?d��ng)从台式机、笔记本到服务器全线产品的主��处理器�?比较前一代酷睿处理器�q�_��Q�它的��^台在对以前的�pȝ��架构和内存层�ơ体�p�进行了(ji��n)重大改变的同�Ӟ��对微架构也进行了(ji��n)全方位的�l�化�Q?主要改进表现在以下的�Ҏ(gu��)��：(x��)
�?> 新的核心(j��)架构�Q�最大可扩展到每个接�?个核�?br>�?> 同步多线�E?SMT) 技术最大允许每个处理器可以�q�行8个线�E?br>�?> 最新的点到点直�q�架构：(x��)Intel® QuickPath Interconnect (Intel® QPI)技�?br>�?> Intel® QuickPath 集成内存控制器（IMC�Q�，DDR3接口
�?> 微架构功能的改进�Q�包括增强的SSE4.2指��o(h��)集，改进的锁定支持，循环��和分支预测�{�特�?br>�?> 更好的节能特�?/p>

下面详细介绍一下下一代Xeon处理器四大主要技�?

�?> Intel® QuickPath Interconnect (Intel® QPI)技�?br>使用QPI架构代替�?ji��n)原来的FSB架构�Q�QPI是基于数据包传输�Q�高带宽低�g�q�的点到点传输技术，速度可以辑ֈ�6.4GT/s�Q�对双向传输的QPI�ȝ��q�接来说理论最大值可以达�?5.6GB/s的数据传输，�q�远高于原来��Z��FSB架构的数据带宽�?/p>

�?> Intel® QuickPath 集成内存控制器（IMC�Q?br>在每一个socket上集成了(ji��n)独立的DDR3内存控制器（IMC�Q�供接口讉K��内存�Q�较之非IMC的��^収ͼ�大大提高�?ji��n)带宽（使用DDR3�Q?333可以辑ֈ�32GB/s的峰值带宽，较之以前的��^台具有四到六倍的带宽提升�Q�，显著地降低了(ji��n)内存延迟�Q�从而提升了(ji��n)性能�Q��ؓ(f��)每个CPU提供�?ji��n)访问本地内存资源的快速通道。与前一代��^��C��同的是，内存讉K��采用NUMA架构�Q�对于NUMA-aware的应用来说可以得到更大的性能提升。DDR3的IMC最大支持到每个CPU接口96GB的DDR3内存定w��Q�将来最大容量可以达�?44GB�Q��ؓ(f��)高端的企业运��提供了(ji��n)强有力的内存支持�?/p>

同志们，NUMA在这��闪亮登��Z��(ji��n)�Q?

�?> 改进的电(sh��)源管�?br>集成在芯片上的电(sh��)源管理��得能耗的控制更加高效�?/p>

�?> 同步多线�E�技术（SMT�Q?br>同步多线�E�技术��得每个核�?j��)可以同时执�?个线�E�，所以对�?核的CPU来说�Q�就可以在每个处理器芯片上达到最�?个逻辑处理器�?/p>

前面介绍�?ji��n)NUMA的很牛的架构�Q�那目前�pȝ��层面上，软�g对NUMA的支持怎么样呢�Q�请见本文：(x��)NUMA架构软�g支持�?/span>

对于NUMA架构而言�Q�经�q�了(ji��n)几十�q�的发展�Q�目前的软�g支持栈已�l�非常完备，从底层的操作�pȝ��Q�到之上的数据库、应用服务器�Q�基本所有主��的产品均以�?/span>NUMA提供�?ji��n)充分的支持�?/span>

操作�pȝ��Q?/span>Operating System�Q?/span>

目前�Q?/span>Windows Server 2003 �?/span>Windows XP 64-bit Edition, Windows XP�{�都�?/span>NUMA aware的，�?/span>Windows Vista则有�?ji��n)�?/span>Numa调度的支持。所有��?/span>2.6版本以上kernel�?/span>Linux操作�pȝ��都能够支�?/span>NUMA。�?/span>Solaris�Q?/span>HP-Unix�{?/span>UNIX操作�pȝ��也是充分支持NUMA架构的�?/span>

数据库（Database�Q?/span>

对于数据库��品来��_(d��)��Oracle�?/span>8i开始支�?/span>NUMA,而之后的Oracle9i�Q?/span>Oracle10g�Q?/span>Oracle11g都能够支�?/span>NUMA�?/span>SQL Server 2005 �?/span>SQL Server 2008均有效的提供�?ji��n)�?/span>NUMA的支持�?/span>

中间件服务器�Q?/span>Middleware�Q?/span>

目前业界典型的受控程序主要是Java应用�?/span>.Net应用。由于内存分配，�U�程调度对于应用而言是透明的，完全是由虚拟机来处理。因此它们在NUMA环境下的性能表现主要取决于虚拟机的实现是否能充分利用到底层操作系�l�对NUMA的支持�?/span>

�l�g��所�q�ͼ�目前的��Y件栈�?/span>NUMA架构均已�l�作�?ji��n)充分的支持。那么应用��Y件如何支�?/span>NUMA架构呢？误��下面章节的论�q��?/span>

在传�l?/span>SMP�pȝ��上，所�?/span>CPU都以同样的方式通过一个共享内存控制器来访问内存，�?/span>CPU之间也是通过它来�q�行交流�Q�所以很�Ҏ(gu��)��造成拥堵。而一个内存控制器所能够��理的内存数量也是非常有限的。此外，通过唯一�?/span>hub讉K��内存造成的�g�q�也是非帔R��的�?/span>

�?/span>NUMA�l�构下，每个计算��Z��再只有唯一的内存控制器�Q�而是把整个系�l�分成多个节炏V��每个节点分别有自己的处理器和内存。系�l�中所有的节点都通过全互联的方式�q�接。所以，每当在系�l�中增加新的节点�Q�系�l�所能够支持的内存和带宽都会(x��)增加�Q�具有非常好的扩展性�?/span>

下面��p��?strong>NUMA的内存组�l?/strong>

�?/span>NUMA�pȝ��中，每个CPU可以讉K��两种内存�Q�本地内存（Local Memory�Q�和�q�端内存�Q?/span>Remote Memory�Q�。和CPU在同一个节点的内存�U�Cؓ(f��)本地内存�Q�访问�g�q�非�怽�。和CPU在不同节点上的内存叫做远端内存，CPU需要通过节点互联方式讉K��Q�所以访问�g�q�要比访问本地内存长�?/span>

从��Y件的角度来看�Q�远端内存和本地内存是以同样的方式访问的。理��Z��Ԍ��NUMA�pȝ��可以被��Y件视��Z��SMP同样的系�l�，不区分本地和�q�端内存。但是如果追求更好的性能�Q�这个区别还是需要被考虑的�?/span>

�l�实验，对于常规的内存操作，如清�I�（Memset�Q�，块复�Ӟ��Memcpy�Q�，��读写（Stream�Q�，指针�q�溯�Q?/span>Pointer Chase�Q�等操作来说�Q�本地内存的讉K��速度要远�q�优于远端内存�?/span>

�׃�� NUMA 同时使用本地内存和远端内存，因此�Q�访问某些内存区域的旉��?x��)比讉K��其他内存区域的要�ѝ��本地内存和�q�端内存通常用于引用当前正在�q�行的线�E�。本地内存是指与当前正在�q�行�U�程�?/span> CPU 位于同一节点上的内存。�Q何不属于当前正在�q�行的线�E�所在的节点的内存均��端内存。访问远端内存的开销与访问本地内存的开销比率�U�Cؓ(f��) NUMA 比率。如�?/span> NUMA 比率�?/span> 1�Q�则它是对称多处�?/span> (SMP)。比率越高，讉K��其他节点内存的开销��p��大。不支持 NUMA �?/span> 应用�E�序有时�?/span> NUMA ��g上的执行效果非常差�?/span>

�׃��讉K��本地内存和远端内存的开销是有区别的，所以在NUMA模式下，如果每个�U�程更多的是讉K��本地内存�Q�那么性能相比而言�?x��)有一定提升�?/span>

多谢各位的参与和支持�Q�让我更有动力去把这个系列写好。前面有同学问�v�?ji��n)QPI�Q�我�q�里��p��l�解释一下，而QPI也是下一代Xeon处理器的�Ҏ(gu��)��之一�?/p>

QPI全称Intel® QuickPath Interconnect�Q�是直接�q�接同一台机器的不同CPU之间的传输通道�Q��得各个核�Q�CORE�Q�之间的数据传输更快�Q�如果数据在cache里，��可以直接用QPI来传输，而不用再讉K��内存�?ji��n)�?/span>

下一代Xeon处理器��用QPI架构代替�?ji��n)原来的FSB架构�Q�QPI是基于数据包传输�Q�高带宽低�g�q�的点到点传输技术，速度可以辑ֈ�6.4GT/s,�q�远高于原来��Z��FSB架构的数据带宽。当�?具体�q�_��的实��C��QPI�q�接数目可以�Ҏ(gu��)��目标�?j��ng)场和系�l�复杂性而有所不同�Q�表现出极大的灵�z�L��和扩展性�?nbsp;

又有同学可能要问�Q�那同一个CPU内的不同的核怎么交换数据呢？�q�就更简单了(ji��n)。下一代Xeon处理器的不同核是存在cache�׃�n的，�q�样如果数据在cache里，那就直接�׃�n�?ji��n)，不用再到内存里找�Q�简单吧�Q�呵�?/span>

接下来讲�?span>NUMA�{�略�Q�也��是��Z��(ji��n)更好的利用NUMA来给�׃��q�活�Q?/span>

为描�q�在NUMA架构下针对内存访问的优化�Q�我们可以引�?/span>NUMA�{�略的概��c(di��n)�?/span>NUMA�{�略(NUMA Policy)��x��指在多个节点上合理的�q�行内存分配的机制。对于不同��Y件设计要求，�{�略的目标可能会(x��)不同�Q�有一些设计可能强调低延迟讉K��Q�另一些则可能更加看重内存的访问带宽�?/span>

对于��低�g�q�访问的设计�Q�基本的分配方式��是��量在线�E�的本地内存上�ؓ(f��)其进行分配， �q�尽量让�U�程保持在该节点上。这被称为线�E�的节点亲和�?/span>(Node affinity)。这��h��充分利用�?ji��n)本地内存的低�g�q�，同时也能有效降低节点间的通信负担�?/span>

NUMA架构的一个优势是�Q�即便是在拥有大�?/span>CPU的大规模�pȝ��中，我们也可以保证局部内存访问的低�g�q�。通常来讲�Q?/span>CPU的处理速度是远大于内存的存取速度的。在��d��内存�Ӟ��CPU常常需要花大量的时钟周期来�{�待。降低内存访问的延迟因而能够有效的提升软�g性能�?/span>

另外�Q��ؓ(f��)SMP设计的操作系�l�通常�?x��)有�~�存亲和�?/span>(Cache Affinity) 的优化措施。缓存亲和性机制可以让数据��量长时间的保留在某一�?/span>CPU的缓存中�Q�而不是来回在多个CPU的缓存里换来换去。操作系�l�通常是通过优化�q�行�U�程/�q�程调度来保证这一点：(x��)在线�E�被重新调入�Ӟ��调度器会(x��)��量让线�E�在之前�q�行的同一�?/span>CPU上运行，从而保证缓存利用率。这一机制昄��是和NUMA�pȝ��量利用本地内存的策略是一致的�Q�有利于面向SMP�pȝ��的程序向NUMA架构�U�L��?/span>

但缓存亲和性机制同NUMA�pȝ��的节点亲和性又是有区别的：(x��)首先�Q�同一个节炚w��多个CPU或者核的线�E�迁�U�dƈ不媄(ji��ng)响该�U�程的节点亲和性；其次�Q�当�U�程被迫�q�移到其他节�Ҏ(gu��)��Q�他所拥有的内存是不会(x��)跟着�q�移的，仍然保留在原来位�|�。这个时候，本地内存��变成了(ji��n)�q�端内存�Q�对它的讉K��既慢又占用节炚w��信带宽。相对的�Q�线�E�在�q�移之后能够以较?y��u)��的代�h(hu��n)�q�速徏立�v新的�~�存�Q��ƈ�l�箋在新CPU上体现缓存的亲和优势�?/span> 因此�Q?/span>NUMA�pȝ��对于节点亲和性的依赖更大�?/span>

操作�pȝ��的调度器同时也不能仅仅�ؓ(f��)保证节点亲和性做优化。因为通常相对于频�J�访问远端内存来��_(d��)��?/span>CPU�I�闲带来的性能损失更大。如果特定应用系�l�的性能受内存访问的影响�q�大�?/span>CPU的利用率�Q�这个时候程序员或者管理员则可采用特别�?/span>NUMA�{�略来强调节点的亲和性，从而提升性能�?/span>

另外, ��管大部分应用会(x��)因�ؓ(f��)优化响应旉��而收益，�q�有一部分应用则对内存带宽比较敏感。�ؓ(f��)�?ji��n)提升内存带宽�?/span>NUMA架构下的多个内存控制器可以�ƈ行��用。这�c�M��?/span>RAID阵列通过�q�行处理��盘IO来提升读写性能。通过适当的��Y件或者硬件机�Ӟ��NUMA架构可以使内存控制单元在各个内存控制器上交替的分配内存。这意味着分配得到的连�l�内存页面会(x��)水��^地分布到各个节点上。当应用�E�序对内存进行流式读写时�Q�各个内存控制器的带宽就相当于篏加了(ji��n)。此机制获得性能提升军_��?/span>NUMA架构的实现。对于远端内存访问�g�q�严重的架构�Q�该提升往往�?x��)比较明显。在一�?/span>NUMA�pȝ��中，�pȝ��g本��n提供�?ji��n)节点交�l�分配机�Ӟ��而在没有��g提供节点交织的系�l�中�Q�可由操作系�l�来实现该机制�?/span>

下面是一�?strong>NUMA�{�略控制工具

NUMACTL 是设定进�E?/span>NUMA�{�略的命令行工具。对于那些无法修改和重新�~�译的程序，它可以进行非常有效的�{�略讑֮��?/span>Numactl使管理员可以通过��单的命��o(h��)行调用来讑֮��q�程的策略， �q�可以集成到��理脚本中�?/span>

Numactl的主要功能包括：(x��)

1. 讑֮��q�程的内存分配基本策�?/span>

2. 限定内存分配范围�Q�如某一特定节点或部分节炚w��?/span>

3. 对进�E�进行节�Ҏ(gu��)��节点集合的绑�?/span>

4. 修改命名�׃�n内存�Q?/span>tmpfs�?/span>hugetblfs�{�的内存�{�略

5. 获取当前�{�略信息�?qi��ng)状�?/span>

6. 获取NUMA��g拓扑

下面是��?/span>numactl讑֮��q�程�{�略的实例：(x��)

numactl --cpubind=0 --membind=0,1 program

其意义�ؓ(f��)�Q�在节点0上的CPU�q�行名�ؓ(f��)program的程序，�q�且只在节点0�Q?/span>1上分配内存�?/span>Cpubind的参数是节点�~�号�Q�而不�?/span>cpu�~�号。在每个节点上有多个CPU的系�l�上�Q�编��L(f��ng)��定义��序可能�?x��)不同�?/span>

下面是��?/span>numactl更改�׃�n内存�D늚�分配�{�略的实例：(x��)

numactl --length=1G --file=/dev/shm/interleaved --interleave=all

其意义�ؓ(f��)�Q?/span> 对命名共享内�?/span>interleaved�q�行讄��Q�其�{�略为全节点交织分配�Q�大��ؓ(f��)1G�?/span>

NUMASTAT 是获�?/span>NUMA内存讉K��l�计信息的命令行工具。对于系�l�中的每个节点，内核�l�护�?ji��n)一些有�?/span>NUMA分配状态的�l�计数据�?/span>numastat命��o(h��)�?x��)基于节点对内存的申��P��分配�Q��{�U�，��p�|�{�等做出�l�计�Q�也�?x��)报�?/span>NUMA�{�略的执行状��c(di��n)��这些信息对于测�?/span>NUMA�{�略的有效性是非常有用的�?/span>

下面介绍NUMA�{�略的实现方式和�{�略

在最新的通用操作�pȝ��Q?/span> �?/span>Windows�?/span>linux上，都不同程度的提供�?ji��n)面�?/span>NUMA架构的系�l�控制和API支持。下面以linux��Z��Q�对该类接口�q�行说明�?/span>

Linux下的NUMA API

版本�?/span>2.5之后�?/span>linux内核在进�E�调度，内存��理�{�方面对NUMA�pȝ��做了(ji��n)大量优化。同�Ӟ��Z��2.6内核版本的各主要linux发行版，�?/span>Redhat�Q?/span>SUSE�{�均包括�?ji��n)面向用��L(f��ng)��间的numautils工具包，提供�?/span>NUMA�pȝ��内存�{�略的监控功能，�q�开��N��向用��L(f��ng)��间程序的API接口。该接口�?f��n)惯上称�?/span>NUMA API�?/span>

NUMA API主要��d��是管�?/span>NUMA的内存策略�?/span>NUMA�{�略通过几个子系�l�的协同工作来实现。内核管理进�E�的内存分配机制以及(qi��ng)�Ҏ(gu��)��的内存映��?/span>NUMA API通过新引入的3个内核系�l�调用来实现�q�一炏V��在用户�I�间中，NUMA API通过libnuma库提供了(ji��n)�l�一的接口供用户�I�间�E�序使用。相对于�pȝ��调用�Q?/span>libnuma接口更加清晰易用。同�?/span>NUMA API�q�提供了(ji��n)命��o(h��)行工�?/span>numactl�?/span>numastat来帮助系�l�管理员实现�q�程�U�别的策略管理�?/span>

�?/span>Linux�?/span>NUMA API支持四种内存分配�{�略�Q?/span>

�~�省(default) - ��L��在本地节点分配（分配在当前线�E�运行的节点上）(j��)
�l�定(bind) - 分配到指定节点上
交织(interleave) - 在所有节�Ҏ(gu��)��者指定的节点上交�l�分�?/span>
优先(preferred) - 在指定节点上分配�Q�失败则在其他节点上分配

�l�定和优先的区别是，在指定节点上分配��p�|�Ӟ��如无��_��内存�Q�，�l�定�{�略�?x��)报告分配失败，而优先策略会(x��)��试在其他节点上�q�行分配。强制��用绑定有可能�?x��)导致前期的内存短缺�Q��ƈ引�v大量换页。在libnuma库中�Q�优先和�l�定是组合在一��L(f��ng)��。通过对线�E�调�?/span>uma_set_strict函数�Q�可以在两种�{�略间切换。缺省的�{�略是更加普适的优先�{�略�?/span>

�{�略可以��Z��q�程或内存区域设定。进�E�策略对整个�q�程内的内存分配都有效，而内存区域策略作用于指定的内存区域，其优先��比进�E�策略要高�?/span>

�q�程�{�略 作用于所有由内核分配的内存页�Q�包�?/span>malloc, �pȝ��调用中��用的内核�U�的分配以及(qi��ng)文�g�~�冲区等。唯一的例外是�Q�中断中分配的内存��L��在当前节点中。当子进�E?/span>Fork�Ӟ��?x��)��承父�q�程的进�E�策略�?/span>

内存区域�{�略 又称�?/span>VMA�{�略�Q�它允许一个进�E��ؓ(f��)自己地址�I�间里的一块内存设�|�策略�?/span>内存区域�{�略比进�E�策略具有更高的优先�U�。它的主要优点在于能够在分配发生前进行设�|�。目前，内存区策略只支持一部分内存机制�Q�如�Q?/span>SYSV�׃�n内存�Q?/span>shmem�?/span>tmpfs文�g映射�Q�以�?/span>hugetlbfs文�g�pȝ��。在�׃�n内存�D�|��文�g映射被删除前�Q�共享内存的区域�{�略�?x��)一直有效�?/span>

Linux�pȝ��提供命��o(h��)行及(qi��ng)�~�程API两��用户�I�间工具来对�{�略�q�行控制�?/span>

libnuma -- NUMA�{�略的应用程序编�E�接�?/span>

��管numactl能够用作�q�程�U�别的内存控�Ӟ��但其�~�点也很明显�Q�分配策略作用于整个�q�程�Q�无法指定到�U�程或者特定内存区域�?/span>Libnuma为更加精�l�的控制提供�?/span>API接口�?/span>

应用�E�序只需在代码中引用numa.h头文�?/span>, �q�在�q�接时如下连�?/span>libnuma的共享库卛_��方便使用libnuma�Q?/span>

#include

….

cc ... -lnuma

在开始��?/span>NUMA API更改�{�略或分配内存之�?/span>�Q?/span> 首先需要调�?/span>numa_available()函数�?/span> 之后, 则可以��?/span>libnuma的接口对�q�程�{�略�q�行更改�Q?/span>或分配内存�?/span>Libnuma库的函数包括以下几组:

1. 环境信息 – 包括一�l�用于获取系�l�内存和CPU拓扑信息的函敎ͼ�如系�l�节�Ҏ(gu��)��目，特定节点的内存大��等�{��?/span>

2. �q�程�{�略 – 包括一�l�用于获取，讑֮�和更改进�E��{�略的函敎ͼ�

3. 内存区域�{�略 – 包括一�l�用于设定特定内存区域策略的函数�Q?/span>

4. 节点�l�定 - ��线�E�绑定到指定节点或节点组的函敎ͼ�

5. 分配函数 - 忽略当前�q�程�{�略�Q�直接��用特定的�{�略�q�行分配的一�l�函敎ͼ�

6. 其他辅助函数

通过使用�q�些接口�Q�程序员可以非常灉|��的配�|�程序内存分配的方式和策略，以达��C��化性能的目的。通常的基�?/span>NUMA的内存分配流�E��ؓ(f��):

1. 使用numa_available()判定�pȝ��是否支持NUMA

2. 使用�q�程�{�略函数定义�q�程的整体策�?/span>

3. 使用节点�l�定函数合理�l�定�U�程

4. 使用普通的分配函数(�?/span>malloc)�q�行普通分�?/span>

5. 对于特定性能需求的代码, 使用NUMA分配函数做指定分�?/span>

6. 对于内存区域�Q��用内存区域策略函数设定其分配�{�略

前面说了(ji��n)NUMA的��L�ȝ��点，有朋友问�?ji��n)这么一个问题：(x��)要是我的�E�序��是乱序的访问内存，也不太可能改�?ji��n)，那怎么办呢�Q�是不是��注定被NUMA��?ji��n)？也不是�?/p>

在英特尔下一代Xeon处理器��^��C��Q�BIOS里有一�?span lang=EN-US>NUMA 选项�Q�可以指定怎么映射内存。以两颗CPU��Z��。如果指定NUMA mode�Q�那么前一半内存空间被指定到直接连接CPU0�Q?后一半内存空间被指定到直接连接CPU1�Q�换句话说就是我们说的NUMA方式�Q�如果指定Non NUMA�Q�那么就是奇数页面被指定到直接连接CPU0�Q�偶数页面被指定到直接连接CPU1�Q�也��是��面奇偶交错分布�Q�用户体验上��p��传统方式�c�M��Q�虽然没有了(ji��n)NUMA的好处，但也没被NUMA伤了(ji��n)�?/p>

chatler 2009-02-02 22:18 发表评论

久久久久久久久久久久久久一区,免费视频一区二区三区在线观看,在线欧美影院

NUMA与英特尔下一代Xeon处理器学�?f��n)�?j��)�?lt;�?gt;