用户
 找回密码
 立即注册
yeah01 该用户已被删除
发表于 2019-3-4 16:57:09
132780
求助。。。

我对程序里6个没有相关的函数分别使用不同的cuda stream,但是其结果只有20%左右的加速,而这6个函数占总的执行时间的一半以上(使用默认流的情况下)。
我用nvvp查看运行情况,发现在数据量较大的情况下(百万级)并没有达到理想的并发6个流并发,而是各个流执行的重叠时间特别少。当我减少数据量(万级),发现虽然6个流能同时执行,但其每个流执行的时间是只使用默认流的两倍左右。是因为在流并发时切换消耗过多导致单个流的执行时间增加吗?
使用的GPU是 1080ti 和 v100

(因为研究关系,代码不能上传。。。)
使用道具 举报 回复
发新帖
您需要登录后才可以回帖 登录 | 立即注册