優(yōu)化屏障
編譯器編譯源代碼時,會將源代碼進行優(yōu)化,將源代碼的指令進行重排序,以適合于CPU的并行執(zhí)行。然而,內(nèi)核同步必須避免指令重新排序,優(yōu)化屏障(Optimization barrier)避免編譯器的重排序優(yōu)化操作,保證編譯程序時在優(yōu)化屏障之前的指令不會在優(yōu)化屏障之后執(zhí)行。
Linux用宏barrier實現(xiàn)優(yōu)化屏障,gcc編譯器的優(yōu)化屏障宏定義列出如下(在include/linux/compiler-gcc.h中):
#define barrier() __asm__ __volatile__("": : :"memory")
上述定義中,“__asm__”表示插入了匯編語言程序,“__volatile__”表示阻止編譯器對該值進行優(yōu)化,確保變量使用了用戶定義的精確地址,而不是裝有同一信息的一些別名。“memory”表示指令修改了內(nèi)存單元。
內(nèi)存屏障
軟件可通過讀寫屏障強制內(nèi)存訪問次序。讀寫屏障像一堵墻,所有在設(shè)置讀寫屏障之前發(fā)起的內(nèi)存訪問,必須先于在設(shè)置屏障之后發(fā)起的內(nèi)存訪問之前完成,確保內(nèi)存訪問按程序的順序完成。
讀寫屏障通過處理器構(gòu)架的特殊指令mfence(內(nèi)存屏障)、lfence(讀屏障)和sfence(寫屏障)完成,見《x86-64構(gòu)架規(guī)范》一章。另外,在x86-64處理器中,對硬件進行操作的匯編語言指令是“串行的”,也具有內(nèi)存屏障的作用,如:對I/O端口進行操作的所有指令、帶lock前綴的指令以及寫控制寄存器、系統(tǒng)寄存器或調(diào)試寄存器的所有指令(如:cli和sti)。
Linux內(nèi)核提供的內(nèi)存屏障API函數(shù)說明如表2。內(nèi)存屏障可用于多處理器和單處理器系統(tǒng),如果僅用于多處理器系統(tǒng),就使用smp_xxx函數(shù),在單處理器系統(tǒng)上,它們什么都不要。
表2 內(nèi)存屏障API函數(shù)說明
內(nèi)存屏障的宏定義 |
功能說明 |
mb() |
適用于多處理器和單處理器的內(nèi)存屏障。 |
rmb() |
適用于多處理器和單處理器的讀內(nèi)存屏障。 |
wmb() |
適用于多處理器和單處理器的寫內(nèi)存屏障。 |
smp_mb() |
適用于多處理器的內(nèi)存屏障。 |
smp_rmb() |
適用于多處理器的讀內(nèi)存屏障。 |
smp_wmb() |
適用于多處理器的寫內(nèi)存屏障。 |
適合于多處理器和單處理器的內(nèi)存屏障宏定義列出如下(在include/asm-x86/system.h中):
#ifdef CONFIG_X86_32

/**//*指令“lock; addl $0,0(%%esp)”表示加鎖,把0加到棧頂?shù)膬?nèi)存單元,該指令操作本身無意義,但這些指令起到內(nèi)存屏障的作用,讓前面的指令執(zhí)行完成。具有XMM2特征的CPU已有內(nèi)存屏障指令,就直接使用該指令*/
#define mb() alternative("lock; addl $0,0(%%esp)", "mfence", X86_FEATURE_XMM2)
#define rmb() alternative("lock; addl $0,0(%%esp)", "lfence", X86_FEATURE_XMM2)
#define wmb() alternative("lock; addl $0,0(%%esp)", "sfence", X86_FEATURE_XMM)
#else
#define mb() asm volatile("mfence":::"memory")
#define rmb() asm volatile("lfence":::"memory")
#define wmb() asm volatile("sfence" ::: "memory")
#endif


/**//*刷新后面的讀所依賴的所有掛起讀操作,在x86-64構(gòu)架上不需要*/
#define read_barrier_depends() do { } while (0)
宏定義ead_barrier_depends()刷新后面的讀所依賴的所有掛起讀操作,后面的讀操作依賴于正處理的讀操作返回的數(shù)據(jù)。在x86-64構(gòu)架上不需要此宏。它表明:在此屏障之前,沒有來自內(nèi)存區(qū)域數(shù)據(jù)所依賴的讀曾經(jīng)重排序。所有的讀操作處理此原語,保證在跟隨此原語的任何讀操作此原語之前訪問內(nèi)存(但不需要其他CPU的cache)。此原語在大多數(shù)CPU上有比rmb()更輕的份量。
本地CPU和編譯器遵循內(nèi)存屏障的排序限制,僅內(nèi)存屏障原語保證排序,即使數(shù)據(jù)有依賴關(guān)系,也不能保證排序。例如:下面代碼將強迫排序,因為*q的讀操作依賴于p的讀操作,并且這兩個讀操作被read_barrier_depends()分開。在CPU 0和CPU 1上執(zhí)行的程序語句分別列出如下:
CPU 0 CPU 1
b = 2;
memory_barrier();
p = &b; q = p;
read_barrier_depends();
d = *q;
下面的代碼沒有強制排序,因為在a和b的讀操作之間沒有依賴關(guān)系,因此,在一些CPU上,如:Alpha,y將設(shè)置為3,x設(shè)置為0。類似這種沒有數(shù)據(jù)依賴關(guān)系的讀操作,需要排序應(yīng)使用rmb()。
CPU 0 CPU 1

a = 2;
memory_barrier();
b = 3; y = b;
read_barrier_depends();
x = a;
適合于多處理器的內(nèi)存屏障宏定義列出如下(在include/asm-x86/system.h中):
#ifdef CONFIG_SMP
#define smp_mb() mb()


#ifdef CONFIG_X86_PPRO_FENCE
# define smp_rmb() rmb()
#else
# define smp_rmb() barrier()
#endif


#ifdef CONFIG_X86_OOSTORE
# define smp_wmb() wmb()
#else
# define smp_wmb() barrier()
#endif


#define smp_read_barrier_depends() read_barrier_depends()
#define set_mb(var, value) do { (void)xchg(&var, value); } while (0)
#else
#define smp_mb() barrier()
#define smp_rmb() barrier()
#define smp_wmb() barrier()
#define smp_read_barrier_depends() do { } while (0)
#define set_mb(var, value) do { var = value; barrier(); } while (0)
#endif
函數(shù)rdtsc_barrier用于加內(nèi)存屏障阻止RDTSC猜測,當在一個定義的代碼區(qū)域使用讀取時間戳計數(shù)器(Read Time-Stamp Counter,RDTSC)函數(shù)(或者函數(shù)get_cycles或vread)時,必須加內(nèi)存屏障阻止RDTSC猜測。其列出如下:
static inline void rdtsc_barrier(void)


{
alternative(ASM_NOP3, "mfence", X86_FEATURE_MFENCE_RDTSC);
alternative(ASM_NOP3, "lfence", X86_FEATURE_LFENCE_RDTSC);
}