C語言能實現匯編語言的大部分功能,能進行位運算,可以直接對硬件進行操作,例如可以允許直接訪問內存或端口的物理地址。因此,學習C語言的人掌握一定的匯編語言基礎是必要的。
一、80x86系列CPU的編程結構
寄存器在匯編語言中的地位類似于變量。寄存器變量的訪問時間遠小于內存變量的訪問時間。在匯編語言中大量的使用寄存器而不是直接訪問內存。
1 寄存器堆
8086CPU是Intel系列的16位微處理器,有16根數據線和20根地址線,直接尋址空間為2^20即1MB。8088CPU的對外數據總線為8位,稱為準16位微處理器。
8086/8088的內部寄存器(register)共有14個,如下:
(1)通用寄存器:8個,包括數據寄存器、地址指針寄存器、變址寄存器。
數據寄存器4個:AX BX CX DX,它們又可作為8個8位的寄存器使用,即AH BH CH DH AL BL CL DL
AX稱為累加器,I/O指令均使用該寄存器,訪問外部硬件和接口。
BX稱為基址寄存器,在訪問內存時用于存放基地址。
CX稱為計數寄存器,用于循環、字符串的循環控制。
DX稱為數據寄存器,在寄存器間接尋址的i/o指令中存放i/o地址,在作雙字運算時[DX][AX]構成一個雙字。
地址指針寄存器2個:SP BP
SP稱為堆棧指針寄存器,BP稱為基址指針寄存器,在作數組和字符串運算時,用于存放內存的偏移地址。
變址寄存器2個:SI DI
SI稱為源變址寄存器,DI稱為目的變址寄存器,用于數據塊操作的內存尋址。
(2)段寄存器4個:CS DS ES SS
CS代碼段寄存器,DS數據段寄存器,ES附加段寄存器,SS堆棧段寄存器
用于存放段地址(段基址)
(3)指令指針IP:始終指向將要執行的指令。用戶不能直接訪問和編程。
(4)標志寄存器FLAGS:16位寄存器,8086/8088僅使用了九個標志位。
2 標志寄存器
CF:進位標志位
PF:奇偶標志位
AF:輔助進位位
ZF:零標志位
SF:符號標志位
OF:溢出標志位
TF:跟蹤標志位:單步標志
IF:中斷標志位
DF:方向標志位
其中前六個為狀態標志位,也叫條件碼,用作條件轉移指令中的判斷條件。
后三個為控制標志位,對相關的操作起控制作用。
14個寄存器的內容,將要執行的指令,將要處理的數據,被稱作CPU的“現場”,用debug的r命令可以清楚地看到“現場”。
二、內存的分段組織
計算機的基本存儲單位是字節,由8個二進制位組成,8個位捆綁使用。可用一個兩位16進制數表示其內容。16位CPU一次可以處理兩個字節。
為了正確訪問內存,每一個存儲器單位即字節必須給出一個地址。地址編號從0開始,依次加1,被稱為線性編址。
8086的地址線有20根,(詳述)能夠直接訪問的地址空間為2^20即1MB。即內存的地址編號可以從0編到1M。用16進制數表示內存的物理地址,其地址范圍為00000H~FFFFFH,為5位16進制數。每一個內存單元都有一個確定的20位物理地址。
但是,16位CPU的字長為16位,一次只能訪問2^16=64k內存,如何訪問1M的內存空間呢,在8086CPU中采用了地址分段的辦法。即每一個存儲單元的物理地址都有段地址和偏移地址兩部分構成。
規定:(詳述)只有地址為16的整數倍的物理地址可以作為段地址。這樣,1MB的內存空間被分為了1M/16=64K個段。段地址的特征為xxxx0H。
我們知道了段地址和相對于段地址的段內偏移量(偏移地址)后就可以確定一個內存單元的物理地址了。所謂的偏移地址等于內存單元的物理地址減去段地址,不得超過一段(即64k)。
段地址可以不用20位表示,而用16位表示,即xxxx0H=xxxxH*10H表示為xxxxH,用4位16進制數表示。
物理地址的計算公式為:
物理地址=段地址*16+偏移地址
或者,物理地址=段地址*10H+偏移地址
乘以16相當于左移4位。即段地址左移4位和偏移地址相加。按十六進制數描述為,段地址左移一位和偏移地址相加。通常表示為
物理地址=段地址:偏移地址
例如:02002=0200:0002
可以看出,實際上偏移地址也是16位的,每一段的最大空間為2^16=64K,這樣,不同的段之間有重疊。也即意味著物理地址可以有不同的表示方法。或者說不同的表示方法可以表示同一個物理地址。
例如:02020=0200:0020=0100:1020=0000:2020=0202:0000=......
舉例說明:摩天大樓。
注意:實際上每個段并不一定占用64k的最大空間。
總結:如此麻煩的做法帶來的好處是擴大了內存的表示空間,更重要的是,原本很麻煩的程序的再定位工作變得異常簡單,實際上一般的程序員以及高級語言并不關心段地址,段地址的分配工作交給操作系統了。
在高級語言中,變量有兩個含義:首先表示的是內存的偏移地址,對于占用兩個以上存儲單元的變量,其地址是低地址,一般為偶數。其次,表示存儲的內容,對于字數據(兩個字節),其高位存入高地址,低位存入低地址,如
xxxx:0200 2b ...var
xxxx:0201 01
xxxx:0202 00
xxxx:0203 01
對于整型變量 var,地址為0200,內容為01H*256+2BH=01H*100H+2BH=256+32+11
若為雙字長整型變量var,則地址一般為4的整數倍。var的地址為0200,其內容為01H*1000000H+01H*100H+2BH=4096+256+32+11。
640K~1M 的內存稱為 UMB (upper memory block)
它分為a000H,b000H,c000H,d000H,e000H,f000H六個段,f000H段為ROM。存放的是ROM-BIOS(加電自檢程序、固化子程序庫、硬件參數等)。
加電時,盡管主機板廠家可以不同,計算機總是從 ffff:0000開始運行,其中存放的總是jmp指令,指向加電自檢程序(post)真正的起始處。
ffff段除了前16個內存單元(物理地址<1M)外,還可以訪問地址超過1M的部分內存,這部分內存稱為HMA。
三、尋址方式(略)
取得操作數地址的方式稱為尋址方式。
(1)數據尋址
立即尋址:mov al,5
寄存器尋址:mov ax,bx
直接尋址:mov ax,[2000H]
寄存器間接尋址:mov ax,[bx]
寄存器相對尋址:mov ax,offset[si]
基址變址尋址:mov ax,[bx][di]
相對基址變址尋址:mov offset[bx][si]
(2)指令尋址
段內直接尋址:jmp near ptr label1 //near ptr|short
段內間接尋址:jmp word ptr [offset][bp]
段間直接尋址:jmp far ptr label2
段間間接尋址:jmp dword ptr [offset][bx]
(3)端口尋址:
四、指令系統(略)
(一) 指令的執行時間
若時鐘周期為T,則指令的基本執行時間如下(最佳尋址方式):
傳送mov, 2T
加法add, 3T
整數乘法imul, 128T~154T
整數除法idiv, 165T~184T
移位(即乘以2或除以2), 2T
無條件轉移, 15T
條件轉移, 不轉移 4T 轉移 16T
采用不同方式尋址的加法指令執行時間如下:
寄存器到寄存器3T
存儲器到寄存器9T+EA
寄存器到存儲器16T+EA(訪問兩次存儲器)
立即數到寄存器4T
立即數到存儲器17T+EA(訪問兩次存儲器)
不同尋址方式計算有效地址EA所需時間:
直接尋址 6T
寄存器間接尋址 5T
寄存器相對尋址 9T
基址尋址 7T~8T
相對基址變址尋址 11T~12T
總結:從指令執行時間上看,應盡量采用加法,避免乘法,盡量用移位不用乘法
盡量使用寄存器,少用存儲器。盡量用簡單的尋址方式,少用復雜的尋址方式。
(二) 指令系統
1.1 mov push pop xchg
1.2 in out xlat
1.3 lea lds les
1.4 lahf sahf pushf popf
注意:mov 等傳送指令相當于賦值語句。in/out為基本的端口輸入和輸出
2.1 add adc inc
2.2 sub sbb dec neg cmp
2.3 mul imul
2.4 div idiv cbw cwd
2.5a daa das
2.5b aaa aas aam aad
3.1 and or not xor test
3.2 shl sal shr sal rol
ror rcl rcr
4 movs cmps scas lods stos... ...rep repe|repz
repne|repnz
5.1 jmp
5.2 jz|je jnz|jne js jns jo jno jp|jpe jnp|jpo
jb|jnae|jc jnb|jae|jnc
... ...jb|jnae|jc jnb|jae|jnc jbe|jna jnbe|ja
jl|jnge jnl|jge jle|jng jnle|jg
... ...jcxz
5.3 loop loopz|loope loopnz|loopne
5.4 call ret
5.5 int into iret
6.1 clc cmc stc cld std cli sti
6.2 nop hlt wait esc lock
五、匯編程序的格式
(1)匯編語言的語句種類與格式
1 指令語句
標號:指令助記符 操作數1,操作數2;注釋
2 偽指令語句
名字 偽指令 參數1,參數2,...;注釋
符號定義語句:equ =
數據塊定義語句:db dw dd dq dt dup(?)
標號及其屬性:
分析符type length size offset seg
標號類型label byte word dword near far
合成符ptr this
3 宏指令
4 段定義
segment ends
定位類型:para bye word page
組合類型:public common stack memory at
類別:code data stack
5 過程定義
proc endp
6 其他偽定義
assume org end
name title
even
radix
short high low
+ - * / mod
and or xor not
eq ne lt gt le ge
(2) com 文件格式(略)
code segment public 'code'
org 100H
assume cs:code,ds:data,es:data
main proc near
jmp start
message db 'How are u?$'
start:mov ah,9
mov dx,offse message
int 21H
int 20H
main endp
code ends
end main
(3) exe 文件格式(略)
stack segment stack 'stack'
db 256dup(?)
stack ends
data segment public 'data'
......
data ends
code segment public 'code'
assume cs:code,ds:data,es:data,ss:stack
main proc far
push ds ;保護psp前綴
xor ax,ax
push ax ;保護偏移0地址
mov ax,data
mov ds,ax
mov es,ax
......
ret
main endp
code ends
end main
六、BIOS中斷和DOS功能調用(略)
相當于高級語言中的庫函數或者系統子程序。
七、debug和匯編語言上機(略)