SSE指令介绍及其C、C++应用

来源：网络收集责任编辑：admin 发表时间:2013-07-02 05:31　点击:次

SSE是英特尔提出的即MMX之后新一代（当然是几年前了）CPU指令集，最早应用在PIII系列CPU上。现在已经得到了Intel PIII、P4、Celeon、Xeon、AMD Athlon、duron等系列CPU的支持。而更新的SSE2指令集仅得到了P4系列CPU的支持，这也是为什么这篇文章是讲SSE而不是SSE2的原因之一。另一个原因就是SSE和SSE2的指令系统是非常相似的，SSE2比SSE多的仅是少量的额外浮点处理功能、64位浮点数运算支持和64位整数运算支持。

SSE为什么会比传统的浮点运算更快呢？因为它使用了128位的存储单元，这对于32位的浮点数来讲，是可以存下4个的，也就是说，SSE中的所有计算都是一次性针对4个浮点数来完成的，这种批处理当然就会带来效率的提升。我们再来回顾一下SSE的全称：Stream SIMD Extentions（流SIMD扩展）。SIMD就是single instruction multiple data，连起来就是“数据流单指令多数据扩展”，从名字我们就可以更好的理解SSE是如何工作的了。

虽然SSE从理论上来讲要比传统的浮点运算会快，但是他所受的限制也很多，首先，虽然他执行一次相当于四次，会比传统的浮点运算执行4次的速度要快，但是他执行一次的速度却并没有想象中的那么快，所以要体现SSE的速度，必须有Stream做前提，就是大量的流数据，这样才能发挥SIMD的强大作用。其次，SSE支持的数据类型是4个32位（共计128位）浮点数集合，就是C、C++语言中的float[4]，并且必须是以16位字节边界对齐的（稍后会以代码来进行阐释，关于边界对齐的概念，读者可以参考论坛上的其它文章，都会有很详细的解答，我这里就恕不赘述了）。因此这也给输入和输出带来了不少的麻烦，实际上主要影响SSE发挥性能的就是不停的对数据进行复制以适用应它的数据格式。

我是一个C++程序员，对汇编并不很熟，但我又想用SSE来优化我的程序，我该怎么做呢？幸好VC++.net为我们提供了很方便的指令C函数级的封装和C格式数据类型，我们只需像平时写C++代码一样定义变量、调用函数就可以很好的应用SSE指令了。

当然了，我们需要包含一个头文件，这里面包括了我们需要的数据类型和函数的声明：

#include <xmmintrin.h>

SSE运算的标准数据类型只有一个，就是：

__m128，它是这样定义的：

typedef struct __declspec(intrin_type) __declspec(align(16)) __m128 {

float m128_f32[4];

} __m128;

简化一下，就是：

struct __m128

{

float m128_f32[4];