最新帖子

页: [1] 2 3 ... 10
1
CUDA / cusparseDcsrsv_solve在tesla p100上很慢
« 最后发表 作者 ctn406 昨天 03:31:24 pm »
我按照以下说明尝试了incomplete cholesky conjugate gradient法:
https://docs.nvidia.com/cuda/incomplete-lu-cholesky/index.html

计算结果是正确的,但是速度很慢
查到是因为在这个API上花了太多时间:cusparseDcsrsv_solve
而且分别在两台电脑上做了测试,
结果在Tesla P100上的时间比在GTX 1050上花的还多。
大约5000*5000的矩阵,Tesla P100 一次迭代 0.13秒左右,GTX 1050一次迭代0.085秒左右。

请问是什么原因?
怎么优化才能提高在Tesla P100上的性能?
2
CUDA / Re: 提问cublas库与kernel函数的问题
« 最后发表 作者 孙辉 七月 02, 2020, 11:15:58 am »
cublas库里面的接口都是CPU端的,其内部有invoke kernel的操作。
cublasHandle,cublasStatus,cublasSgemm等都放到cpu端调。
3
NV边缘计算 / 为什么电源冷启动后nano不能工作,在插拔一次就行了。。
« 最后发表 作者 sisiy 七月 01, 2020, 05:01:40 pm »
答:这个现象可能是电源第一次上电的时候, 上升时间太慢,而直接就地热拔插nano的DC插头/USB口之类的后,供电电源内容的大电容之类的还没有放电干净, 下次启动就容易点了.
建议的解决方案:不要拔插Nano的插头, 而是直接将电源拔掉(例如是插在插座上的电源, 则直接从插座上拔掉)等几秒后, 再插入电源看看.
4
NV边缘计算 / 请问如何将jetson不以图形化界面启动?能节省内存消耗吗?
« 最后发表 作者 sisiy 七月 01, 2020, 05:00:07 pm »
答:文字模式:sudo systemctl set-default multi-user.target
然后 reboot
图形模式:sudo systemctl set-default graphical.target

注意:需要root权限,(请sudo或者su切换到root)
5
你在 Jetson 上面装一个 gparted
sudo apt install gparted
然后执行 sudo gparted
这个工具有 resize 的功能
6
CUDA / Re: 提问cublas库与kernel函数的问题
« 最后发表 作者 zhangdeze 六月 30, 2020, 10:34:26 am »
这是cuda sample 里的一段示例代码:
__global__ void invokeDeviceCublasSgemm(cublasStatus_t* returnValue,
    int n,
    const float* d_alpha,
    const float* d_A,
    const float* d_B,
    const float* d_beta,
    float* d_C)
{
    cublasHandle_t cnpHandle;
    cublasStatus_t status = cublasCreate(&cnpHandle);

    if (status != CUBLAS_STATUS_SUCCESS)
    {
        *returnValue = status;
        return;
    }

    /* Perform operation using cublas */
    status =
        cublasSgemm(cnpHandle,
            CUBLAS_OP_N, CUBLAS_OP_N,
            n, n, n,
            d_alpha,
            d_A, n,
            d_B, n,
            d_beta,
            d_C, n);

    cublasDestroy(cnpHandle);

    *returnValue = status;
}

但我在编译这段代码时总是出现Undefined reference to 'cublasCreate_v2' in 'x64/Debug/kernels.cu.obj' (target: sm_50)   这个错误,不知道如何解决   
7
CUDA / 提问cublas库与kernel函数的问题
« 最后发表 作者 zhangdeze 六月 29, 2020, 05:36:56 pm »
新人请问各位,能否在kernel函数内调用cublas库函数或者其他库函数呢,我按照查到的资料编写,程序编译通过但是运行时卡死。如果可以请问应该怎样配置和调用。我的环境是win10+vs2013+cuda9.2,谢谢
8
答:lsusb只是列出设备,但不代表你的L4T系统一定有该设备的驱动.这就像你在Windows的设备管理器看到插入了一个USB设备,但是没有对应的驱动一样不能用一个道理.根据你的描述, 插入了USB摄像头, 能列出USB设备, 但是没有对应的/dev下的video1之类的特殊文件,
很可能是该摄像头不能被支持.

建议重新刷机试试,因为USB摄像头大部分都是支持的
9
 问一下喔,你们遇到过这样的情况嘛,就是给TX2添加usb摄像头,使用命令lsusb可以检测到usb摄像头,但是用ls /dev/vid*的时候就只有video0不能检测到usb摄像头,这是什么原因呀
我这边还没有运行代码呀,我就是检测摄像头呀,就是在终端输入ls /dev/vid* 以后,输出不显示我自己的usb摄像头呀,只有/dev/video0就是板载摄像头呀
10
CUDA / Re: cuda原子操作的疑问?
« 最后发表 作者 xuanyz 六月 20, 2020, 10:37:23 am »
感谢感谢,我试试先
页: [1] 2 3 ... 10