列出帖子

该操作将允许你查看该会员所有的帖子,注意你只能看到你有权限看到的板块的帖子。


显示所有帖子 - silence6689@163.com

页: [1]
1
CUDA / CUDA kernel里面调用kernel
« 于: 八月 26, 2019, 02:39:11 pm »
CUDA里面有没有opencl 2.0里面的那种 设备端入队的操作,可以kernel里面调用kernel。

2
OpenCL / OpenCL 有没有类似blas这种库
« 于: 八月 01, 2019, 04:06:44 pm »
如题,小弟之前一直都在研究CUDA,由于业务需求,需要玩一下OpenCL, 想问问现在OpenCL都有哪些支持的库,类似blas的库 优先级比较高,求[名词2]指点!!!!!

3
CUDA / GPU解决非线性最小二乘法,队友征集令!
« 于: 七月 31, 2019, 02:01:32 pm »
在网上查了很多关于CUDA解决非线性最小二乘法的资料,发现全都是论文,有没有由兴趣的道友,一起来填坑的。写一套CUDA非线性最小二乘法的框架,代码在这里持续更新~还可互相交流心得呀 8) 8) 8)

4
一般的,你的kernel执行时间越长(或者异步传输之类的任务时间越长),则同步时候需要等待的就越久。

但我不清楚你说的这种情况(Kernel或者传输很早就完成了,同步在莫名其妙的后续占用了却很久不结束),具体的是指什么,但不妨发图看一下。
我已经发现问题了,有一个memcpy HostToHost操作在默认流里面,我实验的时候是从新申请了2个流,实际上是3个流同步。

5
你如果之前设备上有kernel之类的能计算上10秒钟,你看看cudaDeviceSynchronize()卡上10秒你能不能接受。

人家就这样设计的,本身就用来同步的,此时不等上一段时间还能干啥?请原谅我说的直接。
通过nvprof显示,kernel只跑了20ms,两个Buff的传输也是20ms。但是多流同步150ms。所以这种多流只能用于Kernel运行时间特别长的吗。

6
创建了2个stream,用来做异步测试实验:一个流传数据,kernel计算;另一个流传数据;做了一下cudaDeviceSynchronize同步,用nvprof 查看了一下,这个函数耗时150ms , 这个性能明显不能接受,是我用的时候没有注意什么细节 还是 本身就是这么耗时;PS:我用的显卡是Tesla V100-SXM2-32GB.

7
CUDA / Re: 求解:NVCC 编译支持C++14,CMAKE应该怎么写
« 于: 七月 24, 2019, 11:27:24 am »
我已经解决了,之前网上用enable_language(CUDA)这个是貌似CMAKE 3.8的特性,一直出问题;
set(CUDA_NVCC_FLAGS -O3; -G; -g;-std=c++14)
加这一句话就可以支持C++14的特性了

8
CUDA / 求解:NVCC 编译支持C++14,CMAKE应该怎么写
« 于: 七月 24, 2019, 10:40:43 am »
新手上路,想写一个CUDA的调用框架,在集成C++14一些特性的时候发现不支持,后来发现C++11也不支持,在网上找了很多,写的都很模糊,没有什么效果,求[名词2]帮忙!
程序代码: [选择]
find_package(CUDA)

set(CUDA_NVCC_FLAGS -O3; -G; -g)
#enable_language(CUDA)
#set(CMAKE_CXX_FLAGS "--std=c++14")
#set(CUDA_PROPAGATE_HOST_FLAGS ON)
#set(CMAKE_CUDA_STANDARD 14)
set(CUDA_STANDARD 14)

file(GLOB_RECURSE CUDA_SRC ${CMAKE_CURRENT_SOURCE_DIR}/src/*.cpp *.cu)
file(GLOB_RECURSE CUDA_HEAD ${CMAKE_CURRENT_SOURCE_DIR}/include/*.h *.hpp *.cuh)

message(status "CUDA_SRC = ${CUDA_SRC}")
message(status "CUDA_HEAD = ${CUDA_HEAD}")

cuda_add_library(BlockCUDA SHARED ${CUDA_SRC} ${CUDA_HEAD})

9
CUDA / GPU解决非线性问题
« 于: 七月 17, 2019, 02:52:49 pm »
各位[名词2]好,我想问一下GPU在解决非线性问题上,有没有已经成熟的函数库可以调用。

页: [1]