楼主你好:
(1)我不懂FFT,因此无法为你提供建议。不过如果你是初学者的话,用写好的库一般会比你自己写的要快。你可以进一步咨询ICE版主是否知道cufft的更多信息,他是电磁专家。
(2)是否使用warp shuffle能更快则要看原本的瓶颈在哪里。warp shuffle对于需要在以warp(32个线程)或者小于32个线程为单位的原本需要通过shared memory进行数据交换的代码,能够起到一定的加速作用。如果原本的瓶颈在shared memory读写上,同时是warp或更小范围内的交换,则可以加速,反之则不能。而FFT变换是否瓶颈在shared memory上,这个我不清楚,因为无法给出确切的答案。
感谢来访。 |