用户
 找回密码
 立即注册
发表于 2013-5-3 10:17:18
ice 发表于 2013-5-2 23:32
LZ您好,您不妨用NVVP跑一下,看看有什么提示没有。再根据NVVP的结果,调整您的代码,或者能有所启示。

...

谢谢
之前用NVPP跑过
基本都是no issues,除了几个kernel concurrency的warning(显然跟这个没关系)
然后details里该是100%的都是100%,该是0%的都是0%,看起来一切正常。
有点搞不明白了。
程序编译设置是参考CUDA SDK里的项目。
使用道具 举报 回复 支持 反对
发表于 2013-5-3 10:21:50
iHakka 发表于 2013-5-3 00:46
我用GTX 650 下指令nvcc *.cu -arch=sm_30
float跑出來是
18.876352/542.477690

我在TESLA C2070上试了threadPerBlock = {32, 64, 128, 192, 256, 320, 384, 512},blocks= {1, 2, 4, 16, 32, 64, 128, 256}这64组参数,跑出来的最高GFLOPS也只有63,理论峰值是1.03TFLOPS
使用道具 举报 回复 支持 反对
发表于 2013-5-3 12:20:53
横扫千军 发表于 2013-5-3 03:57
无法理解了。好奇怪的。

以及,建议第二个kernel进行#pragma unroll下。循环体太小。

您好,
刚才我又试了一下,没有用visual studio 2010
自己在命令行里编译 nvcc kernel.cu -arch=sm_21
运行结果最高达到103GFLOPS(不过又有点高了,cuda-z实测nvs4200m的峰值性能也就103GFLOPS)

难道visual studio的编译设置有问题吗?我的CUDA C/C++编译设置参照CUDA5.0 SDK里的项目。
使用道具 举报 回复 支持 反对
发表于 2013-5-3 12:25:24
dyanwithu 发表于 2013-5-3 12:20
您好,
刚才我又试了一下,没有用visual studio 2010
自己在命令行里编译 nvcc kernel.cu -arch=sm_21

根据您的回复,个人猜测您之前在VS2010中可能用debug模式编译运行的。
故建议您尝试下在VS2010中用release模式编译(不要用debug),然后测试下结果。
使用道具 举报 回复 支持 反对
发表于 2013-5-3 12:26:55
yixi 发表于 2013-5-3 12:25
根据您的回复,个人猜测您之前在VS2010中可能用debug模式编译运行的。
故建议您尝试下在VS2010中用releas ...

谢谢,是用debug模式运行的,会有很大的区别吗?why?

点评

额,debug一般都会比release的慢很多的,不论是不是在GPU上,在cpu上跑的程序也是一样的,这是常识,OK?  发表于 2013-5-4 00:12
使用道具 举报 回复 支持 反对
发表于 2013-5-3 12:28:42
dyanwithu 发表于 2013-5-3 12:26
谢谢,是用debug模式运行的,会有很大的区别吗?why?

debug是调试模式,为了调试,必然会加入一些“额外”的代码(更具体的我也不清楚,期待横扫版主更详细的回答)。大体是这个意思。
使用道具 举报 回复 支持 反对
发表于 2013-5-3 12:30:53
yixi 发表于 2013-5-3 12:25
根据您的回复,个人猜测您之前在VS2010中可能用debug模式编译运行的。
故建议您尝试下在VS2010中用releas ...

根据您的建议,切换到release模式下运行,果然速度有了很大的提升。
请教一下您,debug/release为什么会造成如此大的区别?还是因为debug中的一些编译设置不正确?
使用道具 举报 回复 支持 反对
发表于 2013-5-3 12:32:59
yixi 发表于 2013-5-3 12:28
debug是调试模式,为了调试,必然会加入一些“额外”的代码(更具体的我也不清楚,期待横扫版主更详细的回 ...

嗯,那我一直理解的有点问题,我以为debug和release无非就是编译选项的区别,没有想过debug"会添加额外代码",真捉急啊,总是碰到这种问题
使用道具 举报 回复 支持 反对
发表于 2013-5-3 12:33:45
dyanwithu 发表于 2013-5-3 12:30
根据您的建议,切换到release模式下运行,果然速度有了很大的提升。
请教一下您,debug/release为什么会 ...

我知道的已经再16#说清楚了。我VS用的也不是很多。更多的内容。可以等横扫或者ICE版主回答。(我属实不清楚,不敢乱说)
使用道具 举报 回复 支持 反对
发表于 2013-5-3 12:37:35
yixi 发表于 2013-5-3 12:33
我知道的已经再16#说清楚了。我VS用的也不是很多。更多的内容。可以等横扫或者ICE版主回答。(我属实不清 ...

谢谢您的回复
使用道具 举报 回复 支持 反对
发新帖
您需要登录后才可以回帖 登录 | 立即注册