用户
 找回密码
 立即注册
wch8802 该用户已被删除
发表于 2013-11-18 17:10:14
73786
在利用profiler测1024x1024矩阵乘法时,我观测了四个测量值分别是”Flops(Double FMA)(Double- precision floating point multiply  accumulate operations executed)“:1074790400,
"Flops(Double)(Double-precision floating point operations executed":2149580800,
"Flops(Double Add)(Double-precision floating point add operations )":0,
"Flops(Double Mul)(Double-precision floating point multiply operations":0;
理论计算1024x1024矩阵乘法乘加运算:2x1024x1024x1024=2.147484e9;
这里的Flops指的是统计指令次数。
由以上知道GPU计算的时候这里的乘法和加法应该没有完全组合成乘加,那么它又是怎样完成没有组合成乘加的计算操作呢(这里的乘法操作为0,加法操作为0)?
还有这里的Flops(Double)包括哪些双精度浮点操作呢(它多于FMA,而FAdd,FMul为0)?







使用道具 举报 回复
发表于 2013-11-18 17:14:29
楼主您好,

无公开此方面的信息。

但是一般的,DP的FLOAT指令应该算上FMA + FADD + FMUL + 比较大小 + 绝对值 + 其他操作等等。还是有很多的。

你说呢。

感谢来访。
使用道具 举报 回复 支持 反对
发表于 2013-11-18 17:16:09
横扫千军 发表于 2013-11-18 17:14
楼主您好,

无公开此方面的信息。

嗯嗯,谢谢版主。
使用道具 举报 回复 支持 反对
发表于 2013-11-18 17:17:39
横扫千军 发表于 2013-11-18 17:14
楼主您好,

无公开此方面的信息。

GPU计算的时候这里的乘法和加法应该没有完全组合成乘加,那么它又是怎样完成没有组合成乘加的计算操作呢(这里的乘法操作为0,加法操作为0)?这个官方也没有公开吗?
使用道具 举报 回复 支持 反对
发表于 2013-11-18 17:18:20
LZ您好:

您这里的统计结果表明:

1:这里的双精度乘法和加法都组合成了乘加(FMA)
2:一次FMA算两个floating point operation
3:您的统计的floating point operation数量和您的理论估算数量基本一致

我之前在某帖中说“矩阵乘法中的乘法好加法可能不能完全组合成FMA”当时是基于个人的判断,但是实际上cublas做的更好,全部组合了,请以实际情况为准。

祝您好运~
使用道具 举报 回复 支持 反对
发表于 2013-11-18 17:22:10
ice 发表于 2013-11-18 17:18
LZ您好:

您这里的统计结果表明:

谢谢ice
使用道具 举报 回复 支持 反对
发表于 2013-11-18 17:23:23
wch8802 发表于 2013-11-18 17:22
谢谢ice

不客气的,欢迎您常来~
使用道具 举报 回复 支持 反对
发新帖
您需要登录后才可以回帖 登录 | 立即注册