如题,在做深度学习时,发现2080ti即使使用nvlink也无法显存叠加,单张卡11G显存已经要爆掉了。不过查到了Titan、Tesla和Quadro支持显存叠加。
Tesla V100、A100或者RTX8000这类显卡,支持的Nvlink的显存叠加如何?是否真能当做一个整体使用了?
https://www.nvidia.cn/data-center/nvlink/
Titan的描述是:https://www.nvidia.cn/deep-learning-ai/products/titan-rtx/
![](static/image/common/none.gif)
1.JPG (77.62 KB, 下载次数: 0)
N卡官方描述RTX8000是https://www.nvidia.cn/design-visualization/quadro/rtx-8000/
![](static/image/common/none.gif)
2.JPG (102.35 KB, 下载次数: 0)
如果用来做深度学习,这96G的效果,真的能等同于2个48G吗?就像内存扩展一样?
评论
不能,100g对比显卡的带宽啥都不算,哪怕是nvlink3.0那400g的带宽跟显存还差着一半带宽呢
评论
https://www.cnblogs.com/ASAP/p/10761753.html
http://news.mydrivers.com/1/597/597091.htm
我这里查了一下pcie 3.0带宽,貌似就16GB/s,nvlink的2.0版本100GB/s应该绰绰有余吧?
评论
显存叠加对比的不应该是
原生显存带宽 VS NVlink 调用另外卡的带宽么
700+G VS 100G
评论
还有个问题:https://www.nvidia.cn/data-center/nvlink/这里写的是3代600GB/s啊:
![](static/image/common/none.gif)
7.JPG (88.9 KB, 下载次数: 0)
评论
哦对,那是我理解错了,应该是GPU和显存之间的带宽,
https://www.nvidia.cn/content/da ... a-946977-r1-web.pdf
RTX8000是672GB/s,那得等到3.0时候的600GB/s才勉强够用啊!
为什么图灵架构比Volta架构新,但是只能用1代的NVLink呢?才100GB/s
评论
turing和volta都是nvlink2.0,但是tesla v100是完整6通道300GB/s,quadro v100是4通道200GB/s,turing的通道数被砍到只剩2通道
p100用的才是nvlink1.0,完整4通道160GB/s
评论
这里说的是memory pooling,在windows下应该是不支持的(根据pugetsystem的结论,我没用过windows跑这个),因为windows下的2080/2080ti是在wddm模式下,mp可能需要tcc mode才能用。而能够在windows下开tcc mode只有专业计算卡和titan系列显卡(rtx titan不清楚,但其他titan是可以的)
如果在linux下就没有问题啦。
另外其实卡不开启nvlink,都可以使用nccl(nv的跨显卡api),个大深度学习框架都支持跨显卡训练,而且这是无缝的,但要求显卡是对称的,如果不是对称的有可能是用不了的。
nvlink提升的效率实在有限,而且20系是p2p的nvlink,意味着你如果插两张以上的显卡的话,编程模型会变得复杂,需要你在代码里面显式的指定显卡。我们这种情况都是把nvlink桥取了的。
评论
目前没有把多个物理显卡暴露为一个逻辑显卡的原教旨统一寻址的技术,跨gpu都是由nccl api实现的,好在深度学习框架都支持nccl。如果你要在cuda层面自己写框架的话,就要去研究一下nccl的api。
评论
非常感谢,
我还有一点不明不白,GDDR6是如何做到600GB/s以上的带宽的?
按说GDDR6和DDR4的性能差不多,4通道DDR4的内存也就100GB/s-150GB/s,岂不是GDDR6要达到16通道才能超过600GB/s了?
评论
是Linux系统,在CUDA层面编译,确实需要指定显卡,但是我现在做的2张显卡对应2个独立的任务,8张卡就是8个独立任务。这本来是没有任何问题的。
但是,现在每个任务所需要的显存,已经超过2080ti那个11GB了,看现在的样子,无法让多张2080ti显存合二为一,那么任务就跑不了了。。。。
NCCL我看了一下https://developer.nvidia.com/nccl
貌似还是没办法把显存给合并起来。。。。
评论
这几块卡都是4颗HBM,带宽很高的,比如Tesla V100显存带宽是900GB/s。
另外GDDR6频率蛮高的啊,TITAN RTX是384bit 14Gbps,672GB/s也不算低了。
评论
双卡的问题还是有的 有个同事 双2080ti来给 Arnold做渲染 结果也是 渲染器 不知道该找谁渲染,。。。
评论
参考
https://www.micron.com/-/media/c ... cs_memory.pdf?la=en
评论
真希望老黄把游戏卡双卡能叠加显存就爽了,这是不是可以推一波销量?
评论
大锅,那成本玩不起的……nvlink的成本……
评论
首先位宽不一样,一根ddr3/4内存条(或者说一个通道)位宽才64bit,而gddr5/5x/6一个颗粒位宽就是32bit,中高端显卡都有256-384bit甚至512bit,用hbm更是有2048-4096bit甚至6144bit
其次,ddr4到现在能xmp上5000MHz的还是屈指可数,gddr6等效频率已经越过16GHz向20GHz去了
带宽=频率x位宽/8,显存在这两项参数上都有优势,而内存为了追求更低的延迟等因素不得不有所取舍
评论
原来如此,这么算就对了,内存按照4000MHz算,64bit*4GHz/8=32GB/s,4通道也就上100GB/s
我不明白为什么显存的频率能高那么多,按说显存和内存的制程都是同一代。延迟的话,DDR4的内存延迟也够高了,显存的要高成什么样啊?有没有显存的延迟或者说时序分析?
评论
LTT做的这期视频里有介绍Quadro RTX开启Nvlink后会禁用显示功能。。。
评论
显卡是many-core processor,是以batch的方式进行计算,内存是random access为主。所以显存可以牺牲延迟。延迟和位宽其实就是电气性能与数据一致性之间的tradeoff。
评论
开了nvlink就进入tcc mode了,自然没有显示功能,tcc下所有显示专用单元全部关闭了。wddm下面的nvlink sli(基于nvlink数据链实现的sli功能)估计只有老黄的私有驱动能实现。 电路 电子 维修 求创维42c08RD电路图 评论 电视的图纸很少见 评论 电视的图纸很少见 评论 创维的图纸你要说 版号,不然无能为力 评论 板号5800-p42ALM-0050 168P-P42CLM-01 电路 电子 维修 我现在把定影部分拆出来了。想换下滚,因为卡纸。但是我发现灯管挡住了。拆不了。不会拆。论坛里的高手拆解过吗? 评论 认真看,认真瞧。果然有收
·日本中文新闻 唐田绘里香为新剧《极恶女王》剃光头 展现演员决心
·日本中文新闻 真子小室夫妇新居引发隐私担忧
·日本中文新闻 前AKB48成员柏木由纪与搞笑艺人交往曝光
·日本学校 {日本国际学校}梅田インターナショナルスクール
·日本学校 LINE:sm287 陳雨菲、20歳、台湾からの留学生、東京に来たばかり
·日本留学生活 出售平成22年走行48000km 代步小车
·日本华人网络交流 円相場 一時1ドル=140円台まで上昇?
·日本华人网络交流 问日本华人一个问题
·日本旅游代购 富山接机
·生活百科 英国转澳大利亚转换插头
·汽车 【求助】修车遇到困难怎么办?