CULA Dense R14 and Sparse S2 Now Supporting CUDA 4.1

  • 0 replies
  • 1648 views
CULA Dense R14 and Sparse S2 Now Supporting CUDA 4.1
« 于: 二月 22, 2012, 04:28:13 pm »
 CULA Dense和Sparse 版本最近发布, 完全兼容CUDA 4.1. 在Dense R14 中一大亮点是包括了multi-GPU LAPACK支持,这里称作  CULA Dense的pCULA 包 .新的multi-GPU例程:

pculaGetrf (LU decomposition)
pculaGetrs (LU solve)
pculaGesv (general system solve via LU)
pculaPotrf (Cholesky decomposition)
pculaPotrs (Cholesky solve)
pculaPosv (hermitian/symmetric postive-definite system solve)
pculaTrsm (BLAS triangular system solve)
pculaGemm (BLAS general matrix multiply)


culaInitialize();pculaConfig config;
pculaConfigInit(&config);
// some users may wish to tweak the default options here
// the default is to use all CUDA devices and to allow the routine
// to select the parameters it feels is best
culaStatus status = pculaPotrf(&config, m, n, A, lda);


 CULA Dense library 的pCULA 包是为提高单系统multiple GPUs and CPUs的性能处理问题能力开发,这是通过采用不同的算法来分发整个系统的CPU和GPU的线性代数问题。

IMPORTANT! 请注意,pcula目前还处在一个刚开始的alpha状态,它仅仅是一个预览,证明了多GPU的例程的子集,将在未来的版本改善,pCULA仍处于alpha状态,基本功能不会有太大变化之间现在和最终版本。我们的目标是提供一个简单易用的界面,将很容易使用,但为用户需要细粒度控制结构
1
2
3
4
5
6
#include "cula_scalapack.h"
// ...
pculaConfiguration config;
culaStatus status;
status = pculaConfigInit( &config );
status = pculaDgetrf( &config, m, n, data, ld, IPIV );



pCULA性能扩展以及多GPU系统。下面的图表显示了一个双精度Cholesky分解( pPOTRF )的性能,当使用另外的GPU 。
[img=451,286]http://www.culatools.com/wp-content/uploads/2012/02/pcula1.png[/img]