在利用profiler测1024x1024矩阵乘法时,我观测了四个测量值分别是”Flops(Double FMA)(Double- precision floating point multiply accumulate operations executed)“:1074790400,
"Flops(Double)(Double-precision floating point operations executed":2149580800,
"Flops(Double Add)(Double-precision floating point add operations )":0,
"Flops(Double Mul)(Double-precision floating point multiply operations":0;
理论计算1024x1024矩阵乘法乘加运算:2x1024x1024x1024=2.147484e9;
这里的Flops指的是统计指令次数。
由以上知道GPU计算的时候这里的乘法和加法应该没有完全组合成乘加,那么它又是怎样完成没有组合成乘加的计算操作呢(这里的乘法操作为0,加法操作为0)?
还有这里的Flops(Double)包括哪些双精度浮点操作呢(它多于FMA,而FAdd,FMul为0)?
|