列出帖子

该操作将允许你查看该会员所有的帖子,注意你只能看到你有权限看到的板块的帖子。


显示所有帖子 - sisiy

页: [1] 2 3 ... 161
1
答复:(1)效率的理论评估没有。但是TRT有个使用随机数据进行评估的“模拟时间”,可以用这个来看看;
也可以直接TRT部署后,实际的运行一下,看看到底速度如何。而不仅仅是根据理论的,网络的结构,参数量/运算量这些来“理论”推算。直接看实际的比较方便。(也就是前提是你得买一块AGX。。。。)

(2)关于指定多个网络,每个网络分配分别哪个“处理器核心”。这个没有听说过。因为考虑到实际上GPU你没法指定“核心”的。这个似乎真心做不到。同时CPU倒是可以指定执行核心,但是Xavier的CPU是没有TensorCore之类的加速的,有TensorCore的GPU又不能按照核心指定,所以似乎并不存在一种按照核心手工指定的调度方式。

2
问:我想向您请教几个关于Jetson AGX Xavier平台的问题,非常感谢! 1、Jetson AGX Xavier平台的部署工具链有么有提供效率评估工具?例如,我有一套算法网络,可以知道网络的结构、运算量、参数量,要求能在硬件平台上100ms内推理完成。我怎么衡量Jetson AGX Xavier平台的算力能否满足需求?Jetson AGX Xavier平台有提供相应的工具吗? 2、Jetson AGX Xavier平台的软件栈或者TensorRT有没有运行时调度工具? TensorRT可以调用API指定网络在哪个处理核上跑,那是否可以运行时自动调度呢(针对多个网络场景)?

3
CUDA / Re: CUDA涉及的相关调度问题
« 于: 九月 23, 2021, 04:34:57 pm »
 
问题1:看MPS的手册和NV官方的CUDA手册,
问题2:看MPS手册和NV的官方手册(特别是driver api手册) 。
问题3:看NV官方手册。
问题4:看历代GTC和其他的分析文章。
问题5:看NV的CUDA手册,和profiler手册。
问题6:看NV的CUDA手册和PTX手册,
问题7: 看历代具体卡上的profiler的各种指标,和相应文档,

 


建议你买本CUDA编程的书籍:https://item.jd.com/13024122.html?cu=true&utm_source=c.duomai.com&utm_medium=tuiguang&utm_campaign=t_16282_176304306&utm_term=3c7011d14b494bb8963c7f72b643336c

这本是目前我们推荐CUDA学习用书,作者是比较靠谱的

4
答复: 这等于说,要测试: (1)视频源编码延迟 + (2)移动/联动/电信等家的公网的传输延迟 + (3)接收端的解码延迟;
其中(2)和各地的网络情况有关,可能是这里面最大的一个延迟。而只有(1)和(3)是和我们的Jetson系列产品有关的。其中(1)进一步的分为视频源自身的延迟(USB摄像头/CSI摄像头/IP摄像头(RTSP的)),和硬件的nvenc的编码引入的延迟。而(3)基本只涉及NVDEC的硬件解码器自身的延迟。所以想回答这个问题,需要逐个测试这些。然后相加(在某种典型的硬件配置和运营商网络的案例下)才能得到。

根据其他客户之前的测试,RTSP的摄像头,也就是我们常说的IP摄像头,延迟非常严重,肉眼可见,挥动手就能看出来,估计几百ms。其他的两款摄像头应该都非常低,最低的应该是CSI的,但具体数值没有。所以问题就剩下了运营商网络的传输延迟,和NVENC/NVDEC的编码/解码延迟。

注意:RTSP的延迟高基本上是国产摄像头的问题。以及,考虑到RTSP内部已经编码过一次了(264或者265),如果不是为了减少传输量的话,也可以不经过NVENC的第一步,直接开始第2步的传输。所以如果是这种情况,可以考虑再减掉这个编码的时间,从第一步里。
(但是国产的摄像头很多用的海思芯片,编码真心渣渣,也许转码一次降低的传输量对应的时间,反而更加合算,但是具体如何,得测试,现在只是猜测)


5
你们测评过jetson系列“硬件编码推流-公网传输-解码”这个loop的时延么?

6
NV边缘计算 / Re: 关于 agx Xavier 的SSD和SD卡
« 于: 九月 02, 2021, 11:13:58 am »
Xavier开发套件是需要用SDK Manager刷机,系统是刷到他32G eMMC上的
SSD和SD卡主要是用来存储数据。

7
NV边缘计算 / Re: Nvidia AGX xavier 3D 点云显示问题
« 于: 六月 07, 2021, 03:39:08 pm »
没有人知道怎么弄嘛?

看一下这个视频介绍:https://info.nvidia.com/544781-reg.html
(需要注册才能看)

8
CUDA / 算力与功耗在GPU应用上的关系是?
« 于: 四月 16, 2021, 04:07:19 pm »
答复:一般来说, 随着制程的进步, 和GPU架构的发展. 往往单位算力下, 所需要的功率, 在随着年份的增加而下降,例如从40nm到7nm的制程, 代表了前者; 而从GPU的SP自身运算FP16, 到引入TensorCore进行计算, 则代表了后者,无论是前者还是后者, 都代表了随着时间和GPU代数的增加, 单位功耗下的算力性能的增加, 即能效在增加,此外, 软件方面的进步, 例如CUDNN的版本增加, 则在除了前面说过的两个硬件的方面, 提供了另外的在单位功耗下, 提升算力的渠道。

9
问:问个CUDA并行上的小白问题,既然SM只能同时处理一个WARP,那是不是有的SP处于闲置?GPU的SM每次只能运行一个warp(32个线程),比如1080Ti有28个SM,每个SM里有128个SP,但是resident thread只有28*32 = 896个,那么1080Ti总共128*28=3584个SP(CUDA核心)不就没有同时并行起来。那SM中这么多SP的意义是提供WARP的切换吗?

10
CUDA / Re: CUDA编程中从主机传递一个数组给设备
« 于: 二月 18, 2021, 04:58:01 pm »
答复:报非法内存访问是在Host上, 还是在Device上?前者如果是CPU端的缓冲区不够, 也会报Access Violation的(0xc0000005)
如果是在device上,那是后续的kernel挂了。他在cudaMemcpy*()前后分别加上cudaError_t r = cudaDeviceSynchronize(); 然后看看,这样可以确定一点。(不看也行, cudaMemcpy*()给错设备指针/大小方面的参数会直接报告参数有问题之类的, 不会中途挂在device上), cuda-memcheck 他的程序 回车, 这种方式检测一下。
   需要强调的是:你执行cudaMemcpy*(), 和你的"GPU设备线程块数量", 这有毛关系? 你确定报错是在传输该数组的时候吗?

11
CUDA / CUDA编程中从主机传递一个数组给设备
« 于: 二月 18, 2021, 04:55:16 pm »
CUDA编程中从主机传递一个数组给设备,当数组长度较小时结果正确,当数组长度较大时报非法内存访问。已经排除了GPU设备线程块不够和开辟数组的问题,还能是什么问题?

12
1. 那个信息是”警告“不是错误
2. 完整的指令请修改为 sudo -H pip3 install Jetson.GPIO

13
CUDA / Re: 调用双GPU如何做到GPU0与GPU1之间是并行计算的?
« 于: 一月 26, 2021, 02:58:39 pm »
使用openMP做并行调度,和正常cpu程序并行一样,来做双卡并行

14
CUDA / Re: 我是做cuda实时信号处理...
« 于: 一月 08, 2021, 02:16:48 pm »
答复:这个问题比较有意思, 涉及到了GPU的吞吐率和延迟的问题. 楼主说的40Mhz采样, 得到40MB/s, 等于说这个是8-bit采样, 每1ms内采样40K次. 同时, 楼主说了需要1ms就完成一个反馈或者控制, 等于说, GPU需要每批次只处理40KB数据, 还需要在1ms内处理完. 这是问题的前提.

那么我们就需要从吞吐率和延迟两个角度, 来分析楼主的"GPU很难做到实时"的问题. 如果楼主的GPU实现, 每次kernel调用需要较大的延迟, 例如25ms, 但是吞吐率足够(例如等效每秒能完成几个GB的数据的运算), 那么移动"CPU上的控制逻辑到GPU"是没用的. 因为你的延迟在那里. 此时不如考虑损失一定的GPU的吞吐率来换取处理的延迟了, 这个需要具体问题具体分析.

而如果楼主本身的GPU一次kernel调用的延迟足够, 则他并不需要将"CPU上的逻辑移动到GPU". 哪怕一次处理KB级别的数据降低了GPU的有效利用率, 但是满足任务要求就好.最坑爹的是kernel的延迟满足不了要求, 吞吐率性能也不能满足要求, 那样我估计楼主得好好重新设计, 整体改写贵kernel了....

15
CUDA / 我是做cuda实时信号处理...
« 于: 一月 07, 2021, 09:19:14 pm »
我是做cuda实时信号处理。信号采样率40 mhz,对应40m byte/s,送入GPU,但是控制逻辑是1ms一个更新。所以每用GPU处理1ms的数据,都要传回CPU做控制。回传数据只有几k字节。这样目前很难实时跑起来。您觉得是有什么优化方向,是需要把控制逻辑也移植到cuda下么?

页: [1] 2 3 ... 161