列出帖子

该操作将允许你查看该会员所有的帖子,注意你只能看到你有权限看到的板块的帖子。


显示所有帖子 - sisiy

页: [1] 2 3 ... 157
1
自己去看文档+自己分析去。 profiler文档里有描述(基本上是一句话)。
 
但是自己分析几次大致就知道了。
 
注意从计算能力7.5开始,这些指标都改名了
 
但是基本上都能找到原始的1:1对应的。

2
问个问题:kernel通常有theoretical occupancy和achieved occupancy之分,theoretical occupancy代表理论上SM能够容纳的warp数目(SM资源受限)与SM能容纳的warp数目的最大值的比值,而achieved occupancy代表实际运行时每个时刻各SM常驻warp数目与SM能容纳的warp数目的最大值的比值的平均值。但是实际上achieved occupancy要小于theoretical occupancy,有哪些因素导致了achieved occupancy小于theoretical occupancy?是block级别的调度或warp级别的调度产生的调度开销导致的吗?

3
比如gpu里一段连续的1到100的数据  但我只想N*10处的数据搬到cpu端,
这个怎么做比较好

4
TensoRT最新版本可不可以,我还得查一下然后回复你,之前版本是肯定不行。

TRT能不能转换一个网络,要按op为单位去看能不能,经常有人问:”我的xx网络就在xx网络上改了一点点,能不能用?”这种根本不知道

他可以固定batchsize黑上,能就能,不能就不能,或者万能办法,自己写plugin,啥都能做

5
CUDA / Re: FAILED pgf90_man_memset4:77
« 于: 十一月 05, 2019, 10:23:26 am »
PGI编译器的问题请到PGI官网论坛提问:www.pgroup.com

6
CUDA / incorrect inclusion of a cudart header file
« 于: 十月 30, 2019, 03:36:43 pm »
incorrect inclusion of a cudart header file ,
这个是什么问题造成的

7
我现在想把普通的CPU内存拷贝到GPU内存上,调用cudaMemcpyAsync函数,发现执行的时间跟调用同步拷贝的时间差不多,大概几百微妙到几毫秒,按说不是异步拷贝调用完就退出了吗?为什么会耗时这么长呢?

8
CUDA / Re: pgi 的debug 打开无法加载源文件
« 于: 十月 29, 2019, 04:58:23 pm »
你去PGI官网论坛发帖:www.pgroup.com

9
CUDA / Re: 如何才能下载pgi visual fortran
« 于: 十月 17, 2019, 04:28:10 pm »
您好!
请注意在关于PVF的软件说明里:https://www.pgroup.com/resources/docs/19.7/x86/pvf-release-notes/index.htm

一开头黑体字部分: Note: PGI command-level compilers for Windows will continue to be enhanced and supported, but PGI Visual Fortran (PVF) is being deprecated. Existing PVF licensees can continue to use it indefinitely, but no new licenses will be issued. PVF technical support and new features will be discontinued at the end of the 2019 calendar year.

注意:(我们)依然会对Windows版本的PGI命令行编译器。提供支持和(功能)增强。而PGI Visual Fortran (PVF)则将被废弃。当前持有PVF授权的用户可以无限期的使用它,但(我们)不再颁发新的授权。

也就是说你就算买正版,也没有PVF了,目前PGI只支持Windows版本命令行编译器。如果你以前购买过PVF授权的,可以无限使用那个时候的版本,但PGI不会再维护这个产品了。

10
关于你提出问题,我们分解一下:
1.你需要自己去找所谓能“并行解码”的算法描述去....
(得先有这种算法,还需要分析问题的确是需要这样的实现,然后再对这种算法进行实现。)


2. 你需要有这样一个概念:大部分的CUDA都是每个线程内部单独处理自己的(也就是线程内部是串行的),然后通过上很多线程来解决问题。而不是还要设想每个线程的内部都在并行

3.回到你的代码。将一个数转换成10进制的各个数字位,然后再用* 2^i的方式给串起来,请原谅我不知道能叫“二进制转10进制”。你似乎纯粹自己发明了一个东西(而且看起来还不行),现在在求这个东西的“每个CUDA线程的内部并行版本”。这个需要你自己解决去。
 我举个例子:如果有一个二进制数0xff,
 (这个值是255)
 
你知道他的kernel会产生什么么?

 他的kernel会拆分成2、5、5,然后用2 * 2^2 + 5 * 2^1 + 5 * 2^0给串起来

最终他得到了2 * 4 + 5 * 2 + 5 * 1 = 23






11
CUDA / Re: 请问这个是内存分配的错误吗?
« 于: 十月 15, 2019, 01:10:59 pm »
新问题,请另起一贴,我帮你发到这里了:https://bbs.gpuworld.cn/index.php?topic=73257.new#new

12
我还有一个问题,虽然现在2进制转10进制在核函数级别是并行执行的,但是核函数内部的算法仍然是有串行的,怎么才能使用cuda达到解码算法内部也是并行的呢?
__global__ void convertBinaryToDecimalKernel(int* a)
{
   long n = a[0];
   int decimalNumber = 0, i = 0, remainder;
   while (n != 0)
   {
      remainder = n % 10;
      n /= 10;
      decimalNumber += remainder * powf(2, i);
      ++i;
   }
   a[0] = decimalNumber;
}

这里while循环是否能并行呢?cuda是否有类似的库可以使用,或者有更高效的算法吗?
谢谢

13
CUDA / 请问这个是内存分配的错误吗?
« 于: 十月 13, 2019, 02:17:43 pm »
请问这个是内存分配的错误吗?我是按照例子程序copy的,为什么会分配失败。。我的核函数是把2进制数转为10进制数

14
CUDA / 這是怎麽回事
« 于: 十月 13, 2019, 02:14:51 pm »
如題

15
Deestream开发 / Re: NVIDIA DeepStream 问题汇总
« 于: 九月 16, 2019, 02:06:22 pm »
问题:当deepstream-app运行的流数量大于100时,会发生错误。例如:
程序代码: [选择]
(deepstream-app:15751): GStreamer-CRITICAL **: 19:25:29.810:
gst_poll_write_control: assertion 'set != NULL' failed.

解决方案:在控制台运行此命令:
程序代码: [选择]
ulimit -Sn 4096
然后再次运行deepstream-app。

页: [1] 2 3 ... 157