大佬教程收集整理的这篇文章主要介绍了Linux中mmap的物理内存在用户空间中的memcpy性能不佳,大佬教程大佬觉得挺不错的,现在分享给大家,也给大家做个参考。
使用memcpy从mmap的区域复制这些16MB块不会像我预期的那样执行.看起来性能取决于启动时保留的内存大小(以及后来mmap进入用户空间). http://www.wurmsdobler.org/files/resmem.zip包含实现mmap文件操作的内核模块的源代码:
@H_730_18@module_param(resmem_hwaddr,ulong,S_IRUSR); module_param(resmem_length,S_IRUSR); //... static int resmem_mmap(struct file *filp,struct vm_area_struct *vma) { remap_pfn_range(vma,vma->vm_start,resmem_hwaddr >> PAGE_SHIFT,resmem_length,vma->vm_page_prot); return 0; }和测试应用程序,实质上(删除检查):
#define BLOCKSIZE ((size_t)16*1024*1024) int resMemFd = ::open(RESMEM_DEV,O_RDWR | O_SYNC); unsigned long resMemLength = 0; ::ioctl(resMemFd,RESMEM_IOC_LENGTH,&resMemLength); void* res@R_234_5675@ = ::mmap(0,resMemLength,PROT_READ | PROT_WRITE,MAP_SHARED,resMemFd,4096); char* source = ((char*)res@R_234_5675@) + RESMEM_HEADER_SIZE; char* desTination = new char[BLOCKSIZE]; struct timeval start,end; gettimeofday(&start,null); memcpy(desTination,source,BLOCKSIZE); gettimeofday(&end,null); float time = (end.tv_sec - start.tv_seC)*1000.0f + (end.tv_usec - start.tv_useC)/1000.0f; std::cout << "memcpy from mmap'ed to malloc'ed: " << time << "ms (" << BLOCKSIZE/1000.0f/time << "MB/s)" << std::endl;
我在SuperMicro 1026GT-TF-FM109上的Ubuntu 10.04.4,Linux 2.6.32上对不同大小的保留RAM(resmem_length)进行了16MB数据块的memcpy测试:
| | 1GB | 4GB | 16GB | 64GB | 128GB | 188GB |run 1 | 9.274ms (1809.06MB/s) | 11.503ms (1458.51MB/s) | 11.333ms (1480.39MB/s) | 9.326ms (1798.97MB/s) | 213.892ms ( 78.43MB/s) | 206.476ms ( 81.25MB/s) |run 2 | 4.255ms (3942.94MB/s) | 4.249ms (3948.51MB/s) | 4.257ms (3941.09MB/s) | 4.298ms (3903.49MB/s) | 208.269ms ( 80.55MB/s) | 200.627ms ( 83.62MB/s)
我的观察是:
>从第一次到第二次运行,从mmap到malloc’ed的memcpy似乎有益于内容可能已经被缓存到某个地方.
>从64GB开始,性能显着下降,使用memcpy时都会注意到这一点.
我想明白为什么会这样.也许Linux内核开发人员小组中的某个人认为:对于任何人来说64GB都应该足够了(这会响铃吗?)
亲切的问候,
彼得
如果我将我的应用程序锁定到cpu0,我可以观察不同的memcpy速度,具体取决于保留的内存区域,从而mmap’ed.如果保留的内存区域是非cpu的,那么mmap会在一段时间内完成其工作,并且任何进出“远程”区域的后续memcpy都会消耗更多时间(数据块大小= 16MB):
resmem=64G$4G (inside cpu0 realm): 3949MB/s resmem=64G$96G (outside cpu0 realm): 82MB/s resmem=64G$128G (outside cpu0 realm): 3948MB/s resmem=92G$4G (inside cpu0 realm): 3966MB/s resmem=92G$100G (outside cpu0 realm): 57MB/s
这几乎是有道理的.仅第三种情况,64G $128,这意味着最高64GB也能产生良好的效果.这在某种程度上与理论相矛盾.
问候,彼得
以上是大佬教程为你收集整理的Linux中mmap的物理内存在用户空间中的memcpy性能不佳全部内容,希望文章能够帮你解决Linux中mmap的物理内存在用户空间中的memcpy性能不佳所遇到的程序开发问题。
如果觉得大佬教程网站内容还不错,欢迎将大佬教程推荐给程序员好友。
本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。