介绍

在学习完Dos系统的16位8086汇编语言之后，继续学习在Linux系统上的32位汇编语言。

32位汇编和16位汇编的一些区别

寄存器名称的区别

所有通用寄存器名称前面都需要有e，也就是说寄存器名称现在变为：

eax,ebx,ecx,edx,edi,esi,esp,ebp

特用寄存器名称没有变，也就是:ss,cs,ds

需要注意的是，32位寄存器没办法像16位寄存器那样分成两个：

32位寄存器

但是16位的规则仍然适用。

指令种类

汇编语言中的指令有两种：

AT&T指令：由AT&T下的Bell实验室开发，我们用的就是这种指令
intel指令：由intel公司开发，在8086汇编语言中用的就是这种指令

AT&T指令和intel的区别

首先是移动指令：

#AT&T  Intel
movl    mov lword ptr	#移动32位数据/寄存器
movw	mov word ptr	#移动16位数据/寄存器
movb	mov byte ptr	#移动8位数据/寄存器
movq	mov qword ptr	#在64位系统中移动64位数据/寄存器

可以看出AT&T的指令比较精简。

然后是移动的方向，在Intel中，我们是将后面的参数移动到前面去，但是在AT&T中是将前面的参数移动到后面去，而且如果是立即数的话必须加上$，如果是寄存器的话必须加上%:

movl $0x32, %eax	#将0x32放入eax寄存器中
movl %eax, %ebx		#将eax寄存器的值放入ebx中

还有很多的指令都是在后面加l,b,w来指定传输数据的字节数，比如：

pushl

movx指令详细解释

对于movx指令（x可以使l,w,b,q），先看看下面几个例子：

movl $12, %eax	#将12送入eax
movl %eax, %ebx	#将eax值送入ebx
movl $output, %eax	#将标号处地址送给eax
movl %eax, (%ebx)	#将eax的值送到ebx存储的地址所指的内存上
movl (%eax), %ebx	#将eax所指内存的值送给ebx

这里标号后面会说道，最主要的是最后两个指令。其实用一个图就可以解释了：

寄存器指针

也就是说，在你不加上括号的时候，其使用的是寄存器内的值。加上括号的话，会将寄存器视为指针，从而使用寄存器指向的地址的值。

Linux汇编的Hello World

Linux汇编的Hello World和Dos的Hello World也不一样，先来看看代码:

.section .data
text:
    .ascii "hello world!\n"
.section .text
.globl _start
_start:
    #调用中断服务直接输出
    movl $4, %eax	#中断子程序号eax需要存放4
    movl $1, %ebx	#中断子程序号ebx需要存放1
    movl $text, %ecx	#将字符串的开头地址放入ecx
    movl $13, %edx	#将字符串长度放入edx
    int $0x80	#执行0x80号中断来输出字符串到控制台

    movl $1, %eax
    movl $0, %ebx
    int $0x80

首先，在Linux下写汇编的框架如下：

.section .data	#数据存放的地方，这里的数据会放到程序里面
#...
.section .bss	#数据存放的地方，这里的数据是程序在运行的时候动态分配的，所以不会放到程序里面，因而也就不能有初始值
#...
.section .text	#代码存储的地方
.globl _start	#指定汇编程序的入口，相当于C语言的main
_start:	#开始编写代码
#...代码
    movl $1, %eax
    movl $0, %ebx
    int $0x80

最后的三句话相当于8086里面的

mov ah, 4cH
int 21H

也就是程序返回。只不过在Linux下程序返回的中断服务编号不是21H，子程序的编号也不是4C而已。

可以看出来，Linux汇编是使用.section来定义段的，而且不需要使用assume来将寄存器和段绑定（因为段的名称固定就是.data .bss .text，所以会默认绑定）。

而且这里还有一个入口标签_start，一般默认的就是_start，如果在编译的时候不是_start会报错（也有办法在编译指令中指定入口标签，见编译）

.data段

在.data中我们的代码如下:

text:
    .ascii "hello world!\n"

这里使用了伪指令.ascii来定义一个字符串。在Linux汇编中有很多这样方便的伪指令，比如.asciz会在定义字符串的最后加上\0，.int定义多个整数，.float定义多个小数等，主要用法和.ascii差不多：

value:
	.int 9
pi:
	.float 3.14159

这里的text，value，pi都是标号，用于指向定义的数据的开头地址：

段内内存分配.png

同理，对于movl指令也有不同的作用:

movl $value, %eax	#将9的内存地址放入eax中
movl value, %eax	#将9放入eax中

.bss段

bss段里面可以使用.comm .lcomm来定义内存空间（会在程序运行的时候加载）：

.section .bss
.lcomm buffer 100

这里定义了标号为buffer的内存空间，有100字节。

.lcomm声明的内存空间只属于这个程序，在全局范围内不能使用。

.comm声明的空间在全局范围内可以使用。

.text段

也就是代码段，一般会先使用.globl来定义此程序入口点，然后编写代码，最后返回。

Unix汇编介绍