日本电子维修技术 显卡Titan、Tesla或者Quadro RTX的Nvlink支持显存叠加效




如题,在做深度学习时,发现2080ti即使使用nvlink也无法显存叠加,单张卡11G显存已经要爆掉了。不过查到了Titan、Tesla和Quadro支持显存叠加。

Tesla V100、A100或者RTX8000这类显卡,支持的Nvlink的显存叠加如何?是否真能当做一个整体使用了?
https://www.nvidia.cn/data-center/nvlink/

Titan的描述是:https://www.nvidia.cn/deep-learning-ai/products/titan-rtx/

1.JPG (77.62 KB, 下载次数: 0)

2020-6-30 15:56 上传


N卡官方描述RTX8000是https://www.nvidia.cn/design-visualization/quadro/rtx-8000/

2.JPG (102.35 KB, 下载次数: 0)

2020-6-30 15:56 上传



如果用来做深度学习,这96G的效果,真的能等同于2个48G吗?就像内存扩展一样?




评论
不能,100g对比显卡的带宽啥都不算,哪怕是nvlink3.0那400g的带宽跟显存还差着一半带宽呢

评论

https://www.cnblogs.com/ASAP/p/10761753.html
http://news.mydrivers.com/1/597/597091.htm

我这里查了一下pcie 3.0带宽,貌似就16GB/s,nvlink的2.0版本100GB/s应该绰绰有余吧?

评论

显存叠加对比的不应该是
原生显存带宽 VS NVlink 调用另外卡的带宽么
700+G  VS  100G



评论

还有个问题:https://www.nvidia.cn/data-center/nvlink/这里写的是3代600GB/s啊:

7.JPG (88.9 KB, 下载次数: 0)

2020-6-30 16:16 上传




评论

哦对,那是我理解错了,应该是GPU和显存之间的带宽,
https://www.nvidia.cn/content/da ... a-946977-r1-web.pdf

RTX8000是672GB/s,那得等到3.0时候的600GB/s才勉强够用啊!
为什么图灵架构比Volta架构新,但是只能用1代的NVLink呢?才100GB/s


评论

turing和volta都是nvlink2.0,但是tesla v100是完整6通道300GB/s,quadro v100是4通道200GB/s,turing的通道数被砍到只剩2通道
p100用的才是nvlink1.0,完整4通道160GB/s


评论
这里说的是memory pooling,在windows下应该是不支持的(根据pugetsystem的结论,我没用过windows跑这个),因为windows下的2080/2080ti是在wddm模式下,mp可能需要tcc mode才能用。而能够在windows下开tcc mode只有专业计算卡和titan系列显卡(rtx titan不清楚,但其他titan是可以的)

如果在linux下就没有问题啦。

另外其实卡不开启nvlink,都可以使用nccl(nv的跨显卡api),个大深度学习框架都支持跨显卡训练,而且这是无缝的,但要求显卡是对称的,如果不是对称的有可能是用不了的。

nvlink提升的效率实在有限,而且20系是p2p的nvlink,意味着你如果插两张以上的显卡的话,编程模型会变得复杂,需要你在代码里面显式的指定显卡。我们这种情况都是把nvlink桥取了的。

评论
目前没有把多个物理显卡暴露为一个逻辑显卡的原教旨统一寻址的技术,跨gpu都是由nccl api实现的,好在深度学习框架都支持nccl。如果你要在cuda层面自己写框架的话,就要去研究一下nccl的api。

评论

非常感谢,

我还有一点不明不白,GDDR6是如何做到600GB/s以上的带宽的?

按说GDDR6和DDR4的性能差不多,4通道DDR4的内存也就100GB/s-150GB/s,岂不是GDDR6要达到16通道才能超过600GB/s了?

评论

是Linux系统,在CUDA层面编译,确实需要指定显卡,但是我现在做的2张显卡对应2个独立的任务,8张卡就是8个独立任务。这本来是没有任何问题的。

但是,现在每个任务所需要的显存,已经超过2080ti那个11GB了,看现在的样子,无法让多张2080ti显存合二为一,那么任务就跑不了了。。。。
NCCL我看了一下https://developer.nvidia.com/nccl
貌似还是没办法把显存给合并起来。。。。


评论

这几块卡都是4颗HBM,带宽很高的,比如Tesla V100显存带宽是900GB/s。
另外GDDR6频率蛮高的啊,TITAN RTX是384bit 14Gbps,672GB/s也不算低了。

评论
双卡的问题还是有的   有个同事  双2080ti来给 Arnold做渲染 结果也是 渲染器 不知道该找谁渲染,。。。

评论

参考
https://www.micron.com/-/media/c ... cs_memory.pdf?la=en

评论
真希望老黄把游戏卡双卡能叠加显存就爽了,这是不是可以推一波销量?

评论

大锅,那成本玩不起的……nvlink的成本……

评论

首先位宽不一样,一根ddr3/4内存条(或者说一个通道)位宽才64bit,而gddr5/5x/6一个颗粒位宽就是32bit,中高端显卡都有256-384bit甚至512bit,用hbm更是有2048-4096bit甚至6144bit

其次,ddr4到现在能xmp上5000MHz的还是屈指可数,gddr6等效频率已经越过16GHz向20GHz去了

带宽=频率x位宽/8,显存在这两项参数上都有优势,而内存为了追求更低的延迟等因素不得不有所取舍

评论

原来如此,这么算就对了,内存按照4000MHz算,64bit*4GHz/8=32GB/s,4通道也就上100GB/s

我不明白为什么显存的频率能高那么多,按说显存和内存的制程都是同一代。延迟的话,DDR4的内存延迟也够高了,显存的要高成什么样啊?有没有显存的延迟或者说时序分析?


评论


LTT做的这期视频里有介绍Quadro RTX开启Nvlink后会禁用显示功能。。。


评论

显卡是many-core processor,是以batch的方式进行计算,内存是random access为主。所以显存可以牺牲延迟。延迟和位宽其实就是电气性能与数据一致性之间的tradeoff。

评论

开了nvlink就进入tcc mode了,自然没有显示功能,tcc下所有显示专用单元全部关闭了。wddm下面的nvlink sli(基于nvlink数据链实现的sli功能)估计只有老黄的私有驱动能实现。 电路 电子 维修 求创维42c08RD电路图 评论 电视的图纸很少见 评论 电视的图纸很少见 评论 创维的图纸你要说 版号,不然无能为力 评论 板号5800-p42ALM-0050 168P-P42CLM-01 电路 电子 维修 我现在把定影部分拆出来了。想换下滚,因为卡纸。但是我发现灯管挡住了。拆不了。不会拆。论坛里的高手拆解过吗? 评论 认真看,认真瞧。果然有收
 ·日本中文新闻 唐田绘里香为新剧《极恶女王》剃光头 展现演员决心
·日本中文新闻 真子小室夫妇新居引发隐私担忧
·日本中文新闻 前AKB48成员柏木由纪与搞笑艺人交往曝光
·日本学校 {日本国际学校}梅田インターナショナルスクール
·日本学校 LINE:sm287 陳雨菲、20歳、台湾からの留学生、東京に来たばかり
·日本留学生活 出售平成22年走行48000km 代步小车
·日本华人网络交流 円相場 一時1ドル=140円台まで上昇?
·日本华人网络交流 问日本华人一个问题
·日本旅游代购 富山接机
 ·生活百科 英国转澳大利亚转换插头
·汽车 【求助】修车遇到困难怎么办?

维修经验

CPUcpu-z 1.77版低调发布

日本维修技术更新: New benchmark “submit and compare” feature New clocks dialog reporting all system’s clock speeds in real-time Preliminary support for Intel Kaby Lake AMD Bristol Ridge processors 主要是增加了支持I、A两个新架构的 ...

维修经验

CPU这几天经常开机黑屏,热重启后又正常

日本维修技术这几天经常开机黑屏,热重启后又正常,今天热重启也不管用了。折腾半天总算点亮,显示超频失败,以前出这个画面我是不理它的,直接重启就能正常进系统了,今天不敢托大,因为 ...

维修经验

CPU超频求助!关于华擎H170和6700K

日本维修技术问题见楼主的show贴 https://www.chiphell.com/thread-1634895-1-1.html 这次华擎的H170 Hyper最大的特色应该是自带时钟发生器可以自由超外频 可是楼主好久没有折腾超频了。。。 两图中除了CPU外频 以 ...

维修经验

CPU液态金属会侵蚀cpu核心吗?

日本维修技术前阵子看到有人说,液态金属时间长了会侵蚀cpu铜盖,那么问题来了,这货会不会侵蚀核心呢? 评论 这玩意儿好像只对铝起反应 评论 不是说,cpu的盖子是铜的吗。。。 评论 不会,核 ...

维修经验

CPUm6i究竟支不支持e3 1231v3

日本维修技术官网上看支持列表没写有e3 1231v3,装机帖又有人晒,百度也没个明确答案,那究竟能不能点亮?有在用的chher说一下么 评论 升级最新bios肯定可以支持 评论 我的p67evo官网上也没说支持12 ...

维修经验

CPU华擎 HYPER 妖板 正确玩法

日本维修技术600元的 B150,10相供电,释放洪荒之力 注意必须官网 Beta 区的 BIOS 有 AVX 的 CPU 可能会掉缓存 启动时按 X 键激活 SKY OC,重启后进入 BIOS 160924164727.jpg (95.63 KB, 下载次数: 1) 2016-9-24 17:47 上传 ...

维修经验

CPUE5 2686 V3和i7 6800K如何选择

日本维修技术默认用,不超频,两者功耗是一模一样的 E5 2686 V3:2.0主频,3.5睿频, 18核心36线程 ,45M L3 咸鱼大约2500~3000元 i7 6800K : 3.5主频,3.8睿频 ,6核心12线程 ,盒装3000元 评论 性能应该是26 ...

维修经验

CPUHD530硬解4K能力还是有点弱呀!

日本维修技术播放器用PotPlay 64bit,各种优化后,跑4K @120Hz视频只能到70帧左右的速度,勉强能用! 显示器用的4K的优派VP2780 未标题-1.jpg (211.97 KB, 下载次数: 0) 2016-9-26 21:29 上传 评论 这个估计你没优化 ...

维修经验

CPU6900k 1.25V到4.2体质怎么样

日本维修技术如图,体质怎么样,ring是35,没敢试了,都说ring高了毁硬件 评论 不错的U,但不算雕,上4.4就大雕了,这电压上4.5的目前没见有人发图 评论 谢谢前辈告知 评论 我这个用1.2V超的4.2,R ...

维修经验

CPUI3 6100 华擎B150M pro4超4.5g测试。

日本维修技术看看论坛没多少i3 6100的帖子,就转下自己发的show贴里面的数据,给大家参考下。家里还有当年的神U i3 540 oc 4.5G在给老妈用。 不知道数据上正常吗?有6100的朋友可以告诉下,另外是不有 ...

维修经验

CPU7系u会兼容100系主板吗?

日本维修技术RT,听说要推200系板,100系还能用吗以后。。 评论 兼容的 评论 感谢!以后换u就行了,目前消息200系板会有新的特性吗? 评论 24条PCI-E 3.0通道、支持Intel Optane混合存储技术、十个USB 3 ...

维修经验

CPU有心入5820k了,求教下温度问题

日本维修技术一直徘徊在6700k和5820k之间,6700k现在这德行直接把我推向了5820k啊,从2600k升级上来,三大件都要换,现在唯一疑惑的是IB-E ex这种顶级风冷能不能压住4.5g的5820呢?毕竟刚刚买一个多月。 ...

维修经验

CPU6600&6600K才100的差价

日本维修技术太少了吧。。。 6600.JPG (106.91 KB, 下载次数: 0) 2016-10-1 10:30 上传 评论 毕竟只是i5而已…… 评论 上z170 6600也能超,等于没区别,差价能有100已经不错了 评论 然后又见不超频人士推荐超频 ...