大佬教程收集整理的这篇文章主要介绍了c – 如何改进编译器对SSE内在函数的处理?,大佬教程大佬觉得挺不错的,现在分享给大家,也给大家做个参考。
int _tmain(int argc,_TCHAR* argv[]) { __m128 foo = _mm_set_ps(1.0f,2.0f,3.0f,4.0f); __m128 bar = _mm_set_ps(5.0f,6.0f,7.0f,8.0f); __m128 ret = _mm_add_ps(foo,bar); // need to do something so vars won't be optimized out in Release float *f = (float *)(&ret); for (int i = 0; i < 4; i++) { cout << "f[" << i << "] = " << f[i] << endl; } }
接下来,我在调试器中编译并运行它,查看反汇编:
调试:
完全糊涂;为什么将xmmword放入__m128需要四个MOVAPS?首先,它将数据放入xmm0(我假设它是存储在某处的四个浮点值的文字,不知道如何查看它),然后复制xmm0指向ebp和偏移量的某处,只是将其从那里是xmm0(?),最后到了应该存储它的变量的位置.为什么这么多工作?
发布:
这次我期望编译器完全避免将xmmword存储在内存中,只需将其中一个放入xmm0,将其他放入xmm1,执行ADDPS,将结果放入内存并完成.相反,我得到了:
显然,不需要ADDPs.我猜测编译器注意到两个xmmwords是编译时常量所以它只是添加它们,将结果作为文字放在代码中?奇怪的推动可能与后面的for循环有关,因为就我所知,esi被用作循环计数器.仍然,为什么不将数据段中的预先计算的文字放入xmm0然后放入局部变量(特别是10h),为什么不直接使用文字?
总而言之,debug版本比我预期的更愚蠢(或者我可能没有得到什么),而Release版本出乎意料地聪明.任何解释此行为的评论将不胜感激.谢谢.
编辑:答案是非常有启发性的,但我仍然想知道我是否可以做任何事情来改善编译器输出,这就是为什么我要求将此问题解释为当前形式的问题.
例如,是否有可能以某种方式引导编译器不将foo和bar存储在内存中(因为我在添加后不需要它们),只需将它们加载到xmmN寄存器并保存在那里?可能也会退回?引用@L_772_2@的作者说,MSVC只是“完全按照它所说的去做”.有没有明确写出__asm块的任何方法可以更好(读取:避免内存传输)代码?谢谢.
float x = 1.0f; __m128 foo = _mm_set_ps(x,4.0f);
具有完全不同的codegen:
00C513DD movss xmm0,dword ptr ds:[0C5585Ch] 00C513E5 movss xmm1,dword ptr [x] 00C513EA movaps xmm2,xmmword ptr ds:[0C55860h] 00C513F1 unpcklps xmm0,xmm1 00C513F4 unpcklps xmm2,xmm0 00C513F7 movaps xmmword ptr [ebp-100h],xmm2
然后第二个工作是将它移动到__m128变量中,这很容易
00C513FE movaps xmm0,xmmword ptr [ebp-100h] 00C51405 movaps xmmword ptr [foo],xmm0
这还没有优化,只是因为在debug版本中关闭了优化器.代码生成器不会进行任何优化尝试,这不是它的工作.
当然,优化器能够在编译时计算结果.这甚至适用于复杂的例子,你已经看到了这个:
00EE1284 movaps xmm0,xmmword ptr ds:[0EE3260h]
以上是大佬教程为你收集整理的c – 如何改进编译器对SSE内在函数的处理?全部内容,希望文章能够帮你解决c – 如何改进编译器对SSE内在函数的处理?所遇到的程序开发问题。
如果觉得大佬教程网站内容还不错,欢迎将大佬教程推荐给程序员好友。
本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。