用户
 找回密码
 立即注册
发表于 2013-12-3 12:28:23
ice 发表于 2013-12-3 00:35
另外,您的shared memory copy的带宽似乎偏低。您没有误用带有bankconflict的转置kernel吧?或者您是debug ...

以及补充下,楼主应当仔细看下7#的详细说法,

我们是直接读取到寄存器,然后同步,然后写入的。

并无直接读写shared memory的过程,实际上根据实践,直接同步一次就能取得速度提高。

请您详细看下。
使用道具 举报 回复 支持 反对
发表于 2013-12-3 19:06:26
ice 发表于 2013-12-3 00:35
另外,您的shared memory copy的带宽似乎偏低。您没有误用带有bankconflict的转置kernel吧?或者您是debug ...

ice 不好意思,我不仔细,我是在debug下跑的,在release版本下,确实稍有提高。谢谢哈
使用道具 举报 回复 支持 反对
发表于 2013-12-3 19:35:03
quanzhang100 发表于 2013-12-3 19:06
ice 不好意思,我不仔细,我是在debug下跑的,在release版本下,确实稍有提高。谢谢哈 ...

嗯嗯,不客气的,之前见过有人反映说使用shared memory的矩阵乘法要比不使用还慢,后来发现是在debug模式下,所以此次也如此猜测了。

以及,实际上这个提高是__syncthreads()造成的,目前原因不明。

祝您好运~
使用道具 举报 回复 支持 反对
12
发新帖
您需要登录后才可以回帖 登录 | 立即注册