一文读懂计算机内核态、用户态和零拷贝技术

发表于 4/27/2023 3:36:49 PM 阅读（1283）

存储介质的性能

话不多说，先看一张图，下图左边是磁盘到内存的不同介质，右边形象地描述了每种介质的读写速率。一句话总结就是越靠近cpu，读写性能越快。了解了不同硬件介质的读写速率后，你会发现零拷贝技术是多么的香，对于追求极致性能的读写系统而言，掌握这个技术是多么的优秀~

上图是当前主流存储介质的读写性能，从磁盘到内存、内存到缓存、缓存到寄存器，每上一个台阶，性能就提升10倍。如果我们打开一个文件去读里面的内容，你会发现时间读取的时间是远大于磁盘提供的这个时延的，这是为什么呢？问题就在内核态和用户态这2个概念后面深藏的I/O逻辑作怪。

内核态和用户态

内核态：也称为内核空间。cpu可以访问内存的所有数据，还控制着外围设备的访问，例如硬盘、网卡、鼠标、键盘等。cpu也可以将自己从一个程序切换到另一个程序。

用户态：也称为用户空间。只能受限的访问内存地址，cpu资源可以被其他程序获取。

坦白地说内核态就是一个高级管理员，它可以控制整个资源的权限，用户态就是一个业务，每个人都可以使用它。那计算机为啥要这么分呢？且看下文......

由于需要限制不同的程序之间的访问能力, 防止他们获取别的程序的内存数据, 或者获取外围设备的数据, 并发送到网络。CPU划分出两个权限等级：用户态和内核态。

32 位操作系统和 64 位操作系统的虚拟地址空间大小是不同的，在 Linux 操作系统中，虚拟地址空间的内部又被分为内核空间和用户空间两部分，如下所示：

通过这里可以看出：

32 位系统的内核空间占用 1G，位于最高处，剩下的 3G 是用户空间；

64 位系统的内核空间和用户空间都是 128T，分别占据整个内存空间的最高和最低处，剩下的中间部分是未定义的。

内核态控制的是内核空间的资源管理，用户态访问的是用户空间内的资源。

从用户态到内核态切换可以通过三种方式：

系统调用，其实系统调用本身就是中断，但是软件中断，跟硬中断不同。

异常：如果当前进程运行在用户态，如果这个时候发生了异常事件，就会触发切换。例如：缺页异常。

外设中断：当外设完成用户的请求时，会向CPU发送中断信号。

内核态和用户态是怎么控制数据传输的？

举个例子：当计算机A上a进程要把一个文件传送到计算机B上的b进程空间里面去，它是怎么做的呢？在当前的计算机系统架构下，它的I/O路径如下图所示：

计算机A的进程a先要通过系统调用Read（内核态）打开一个磁盘上的文件，这个时候就要把数据copy一次到内核态的PageCache中，进入了内核态；

进程a负责将数据从内核空间的 Page Cache 搬运到用户空间的缓冲区，进入用户态；

进程a负责将数据从用户空间的缓冲区搬运到内核空间的 Socket(资源由内核管控) 缓冲区中，进入内核态。

进程a负责将数据从内核空间的 Socket 缓冲区搬运到的网络中，进入用户态；

从以上4个步骤我们可以发现，正是因为用户态没法控制磁盘和网络资源，所以需要来回的在内核态切换。这样一个发送文件的过程就产生了4 次上下文切换：

read 系统调用读磁盘上的文件时：用户态切换到内核态；
read 系统调用完毕：内核态切换回用户态；
write 系统调用写到socket时：用户态切换到内核态；
write 系统调用完毕：内核态切换回用户态。

如此笨拙的设计，我们觉得计算机是不是太幼稚了，为啥要来回切换不能直接在用户态做数据传输吗？

CPU 全程负责内存内的数据拷贝，参考磁盘介质的读写性能，这个操作是可以接受的，但是如果要让内存的数据和磁盘来回拷贝，这个时间消耗就非常的难看，因为磁盘、网卡的速度远小于内存，内存又远远小于 CPU；
4 次 copy + 4 次上下文切换，代价太高。

所以计算机体系结构的大佬们就想到了能不能单独地做一个模块来专职负责这个数据的传输，不因为占用cpu而降低系统的吞吐呢？方案就是引入了DMA（Direct memory access)

什么是 DMA ?

没有 DMA ，计算机程序访问磁盘上的数据I/O 的过程是这样的：

CPU 先发出读指令给磁盘控制器（发出一个系统调用），然后返回；

磁盘控制器接受到指令，开始准备数据，把数据拷贝到磁盘控制器的内部缓冲区中，然后产生一个中断；

CPU 收到中断信号后，让出CPU资源，把磁盘控制器的缓冲区的数据一次一个字节地拷贝进自己的寄存器，然后再把寄存器里的数据拷贝到内存，而在数据传输的期间 CPU 是无法执行其他任务的。

可以看到，整个数据的传输有几个问题：一是数据在不同的介质之间被拷贝了多次；二是每个过程都要需要 CPU 亲自参与（搬运数据的过程），在这个过程，在数据拷贝没有完成前，CPU 是不能做额外事情的，被IO独占。

如果I/O操作能比较快的完成，比如简单的字符数据，那没问题。如果我们用万兆网卡或者硬盘传输大量数据，CPU就会一直被占用，其他服务无法使用，对单核系统是致命的。

为了解决上面的CPU被持续占用的问题，大佬们就提出了 DMA 技术，即直接内存访问（Direct Memory Access）技术。

那到底什么是 DMA 技术？

所谓的 DMA（Direct Memory Access，即直接存储器访问）其实是一个硬件技术，其主要目的是减少大数据量传输时的 CPU 消耗，从而提高 CPU 利用效率。其本质上是一个主板和 IO 设备上的 DMAC 芯片。CPU 通过调度 DMAC 可以不参与磁盘缓冲区到内核缓冲区的数据传输消耗，从而提高效率。

那有了DMA，数据读取过程是怎么样的呢？下面我们来具体看看。

详细过程：

用户进程a调用系统调用read 方法，向OS内核（资源总管）发出 I/O 请求，请求读取数据到自己的内存缓冲区中，进程进入阻塞状态；
OS内核收到请求后，进一步将 I/O 请求发送 DMA，然后让 CPU 执行其他任务；
DMA 再将 I/O 请求发送给磁盘控制器；
磁盘控制器收到 DMA 的 I/O 请求，把数据从磁盘拷贝到磁盘控制器的缓冲区中，当磁盘控制器的缓冲区被写满后，它向 DMA 发起中断信号，告知自己缓冲区已满；
DMA 收到磁盘的中断信号后，将磁盘控制器缓冲区中的数据拷贝到内核缓冲区中，此时不占用 CPU，CPU 可以执行其他任务；
当 DMA 读取了一个固定buffer的数据，就会发送中断信号给 CPU；
CPU 收到 DMA 的信号，知道数据已经Ready，于是将数据从内核拷贝到用户空间，结束系统调用；