用户态进程如何得到虚拟地址对应的物理地址?
用户态进程如何得到虚拟地址对应的物理地址?
原文:https://mp.weixin.qq.com/s/wqYyi2Yj2QFKgR8w8p3bjg
一般我们不需要从用户态得到进程虚拟地址对应的物理地址,因为一般来说用户进程是完全不关心物理地址的。
少数应用场景下,用户可能会关心,比如在用户态做DMA的场景(如DPDK之类的)。还有一些场景,比如想调试剖析每一页的内存占用情况,是否swap出去了等。
从用户态得到虚拟地址对应的物理地址,我们不可能去walk进程的page table,也没有权限。不过还好内核给我们提供了一个接口,叫pagemap,而且,这个接口与硬件的体系架构无关。在/proc/pid/下面有个文件叫pagemap,它会每个page,生成了一个64bit的描述符,来描述虚拟地址这一页对应的物理页帧号或者SWAP里面的便宜,详见文档:
linux/Documentation/admin-guide/mm/pagemap.rst
这64bit的描述如下:
...
不同的体系架构的MMU不同,页表格式也不同,但是pagemap这个接口与具体页表的格式无关,可以说都被抽象化了。
下面我们忽略swap的影响(假设关闭了swap或者page一直是pin的状态),从DPDK抄一段虚拟地址转换为物理地址的代码:
#define phys_addr_t uint64_t
#define PFN_MASK_SIZE 8
phys_addr_t
rte_mem_virt2phy(const void *virtaddr)
{
int fd, retval;
uint64_t page, physaddr;
unsigned long virt_pfn;
int page_size;
off_t offset;
/* standard page size */
page_size = getpagesize();
fd = open("/proc/self/pagemap", O_RDONLY);
if (fd < 0) {
...
}
virt_pfn = (unsigned long)virtaddr / page_size;
offset = sizeof(uint64_t) * virt_pfn;
if (lseek(fd, offset, SEEK_SET) == (off_t) -1) {
...
return -1;
}
retval = read(fd, &page, PFN_MASK_SIZE);
close(fd);
...
/*
* the pfn (page frame number) are bits 0-54 (see
* pagemap.txt in linux Documentation)
*/
if ((page & 0x7fffffffffffffULL) == 0)
return -1;
physaddr = ((page & 0x7fffffffffffffULL) * page_size)
+ ((unsigned long)virtaddr % page_size);
return physaddr;
}
最后的一步是关键的计算过程:
physaddr = ((page & 0x7fffffffffffffULL) * page_size)+ ((unsigned long)virtaddr % page_size);
page & 0x7fffffffffffffULL取得了页帧号(PFN),乘以页的size得到这页起始的物理地址,之后加上virtaddr % page_size的页内偏移,得到最终的物理地址。
我们来实操一下调用上面的函数完成地址转化:
int main(int argc, char *argv[])
{
uint8_t *p = malloc(1024 * 1024);
*(p + 4096) = 10;
printf("virt:%p phys:%p\n", p + 4096, rte_mem_virt2phy(p + 4096));
*(p + 2 * 4096) = 10;
printf("virt:%p phys:%p\n", p + 2 * 4096, rte_mem_virt2phy(p + 2 * 4096));
}
运行结果如下:
~$ sudo ./a.out
virt:0x7f81e402a010 phys:0x2b601010
virt:0x7f81e402b010 phys:0x3ceec010
内核态实现pagemap proc接口的代码位于:
fs/proc/task_mmu.c
其中比较核心的函数是把PTE转换为pagemap_entry的过程,有兴趣的童鞋可以仔细阅读下: ... 特别留意画红线的位置,可以知道pagemap里面的那些flag是怎么被置上的。
完整代码:
#include <stdio.h>
#include <string.h>
#include <stdlib.h>
#include <stdint.h>
#include <unistd.h>
#include <sys/types.h>
#include <sys/stat.h>
#include <fcntl.h>
#define phys_addr_t uint64_t
#define PFN_MASK_SIZE 8
phys_addr_t rte_mem_virt2phy(const void *virtaddr)
{
int fd, retval;
uint64_t page, physaddr;
unsigned long virt_pfn;
int page_size;
off_t offset;
/* standard page size */
page_size = getpagesize();
fd = open("/proc/self/pagemap", O_RDONLY);
if (fd < 0) {
printf("open file /proc/self/pagemap failed!\n");
}
virt_pfn = (unsigned long)virtaddr / page_size;
offset = sizeof(uint64_t) * virt_pfn;
if (lseek(fd, offset, SEEK_SET) == (off_t) -1) {
printf("lseek failed!\n");
return -1;
}
retval = read(fd, &page, PFN_MASK_SIZE);
close(fd);
/*
* the pfn (page frame number) are bits 0-54 (see
* pagemap.txt in linux Documentation)
*/
if ((page & 0x7fffffffffffffULL) == 0)
return -1;
physaddr = ((page & 0x7fffffffffffffULL) * page_size)
+ ((unsigned long)virtaddr % page_size);
return physaddr;
}
int main(int argc, char *argv[])
{
uint8_t *p = (uint8_t *)malloc(1024 * 1024);
printf("old data is %d\n", *(p+4096));
*(p + 4096) = 10;
printf("virt:%p phys:%p\n", p + 4096, rte_mem_virt2phy(p + 4096));
printf("new data is %d\n", *(p+4096));
*(p + 2 * 4096) = 10;
printf("virt:%p phys:%p\n", p + 2 * 4096, rte_mem_virt2phy(p + 2 * 4096));
}