列出帖子

该操作将允许你查看该会员所有的帖子,注意你只能看到你有权限看到的板块的帖子。


显示所有帖子 - 1091976732

页: [1]
1
对不起我表述的不是很清楚,就是这个意思QAQ

2
前辈您好!我的第一个问题是想问我的event的使用是否会和数据传输起到冲突,因为cudamemcpy也存在着隐式同步,我担心它与cudaEventSynchronize()起了冲突。我对event的使用:创建event,指定cudaEventBlockingSync,然后record,最后cudaEventSynchronize(),这个流程应该没有问题吧QAQ,感谢您的回复!

3
所谓的线程busy polling是线程一旦调用设备(GPU)就会busy polling吗,亦或者是GPU触发同步语句包括不限于cudamecpy,才会busy polling?QAQ

4
您好!设定cudaEventBlockingSync标志,这个阻塞host方法粒度更小,应该是更好的选择。但是我尝试过:pytorch封装了Event和Stream对象,但是我尝试了调用,并不能解决,我已在pytorch官网提了issue(详情见:https://github.com/pytorch/pytorch/issues/60541),并没有得到回复。关于ctypes调用cudart64.dll里面的函数,我认为他应该是调用失败了,cudaSetDeviceFlags之后调用cudaGetDeviceFlags返回的结果并不正确。我现在尝试先用C++调用cudaSetDeviceFlags然后重新封装为dll,再到python中调用。然后我还有一个疑问万望解答,pytorch中CPU()方法用于将GPU数据复制回CPU,我不确定他是异步还是同步。如果使用cudaEventSynchronize()应该在CPU()之前还是之后呢。代码可以在issue中看到。感谢您的回复!

5
https://bbs.gpuworld.cn/index.php?topic=58836.0,如这篇文章所说,我想设定BlockingSync的设备标志,来阻塞host线程以获取更高的性能,否则CPU总是处于100%的自旋轮询。但是Pytorch没有这个选项,所以我考虑通过用ctypes调用cudaSetDeviceFlags,但是应该是失败,总之没有效果。pyqt的线程依然是busy polling的状态。这个问题困扰了我很久,有什么解决办法吗?不胜感激!盼回复。

页: [1]