来源:http://www.moepc.net/?post=1885
今天在GTC大会上,NVIDIA CEO黄仁勋发布了首款Volta架构的GPU - GV100以及产品 - Tesla V100加速卡。NVIDIA这次用Tesla V100瞄准超高端计算市场,同时准备用非常激进的策略带来GPU深度学习性能的一次飞跃。
img005.jpg (45.99 KB, 下载次数: 2)
NVIDIA首次提到Volta架构是在2013年。结果到后来路线图改动,Maxwell→Volta变成了Maxwell→Pascal→Volta —— 且Volta是目前NVIDIA公开的路线图中的最后一款架构。
作为Volta架构的首款产品,NV采取了和去年Pascal相似的策略:用HPC和深度学习等商业领域的产品打头阵,而不是消费级GPU。Volta是面向计算和显示两方面的架构,但今天的发布都针对的是前者。因此今天揭晓的各种功能以及首款Volta GPU的重心都在计算上。
NVIDIA的首款Volta GPU代号为GV100。作为Pascal GP100的继任者,GV100是NV在计算方面的旗舰GPU,负责驱动下代Tesla加速卡。
QQ截图20170511215749.png
在开始之前,在这里要先明确一点:在各个方面上,Volta都是一款全新的架构。虽然内部看起来差不多,但它绝对不是Pascal换12nm工艺加上新核心(Tensor Core),而是完全不同的架构,比如线程执行、线程调度、核心设计、内存控制器、指令集架构等方面。这些只是NV公开的部分,还有很多没有揭晓的秘密。所以今天只能做到浅谈。
从规格上来讲,说实话GV100是一款非常大胆的GPU,我没用过这个词形容过去10年的任何一款GPU。在核心面积和晶体管数量方面,NV已经做到了极限:211亿晶体管,815平方毫米,基于台积电尚未成熟的12nm FFN制程("N"代表NVIDIA,12FFN是专为NVIDIA定制的高性能版本12nm工艺)。
NV的前代巨无霸是610平方毫米的GP100,GV100虽然用了新制程,依然要比它大33%。实际上NV这次直接向着台积电12FFN制程光罩的大小;GV100是台积电所能制造的最大GPU。NV对光罩大小并不陌生,GM200就是台积电28nm制程下所能制造的最大GPU,虽然只有601平方毫米。
为什么要首先谈核心大小?总的来说,核心大小和性能有很大关系。但更重要的是,核心大小标志着NV是如何挑战极限的。这次NV没有提到良率,但都知道这么大的芯片良率肯定会非常差,还是在新的12FFN制程上。这次NV要牺牲很多良率,才能给饥渴的客户以15000刀一颗的价格提供少量的成品。NV的客户就是这么地渴望更强大的GPU,NV把制程用到极限正是如此地艰难。
img001.jpg (79.99 KB, 下载次数: 3)
GV100非常强大,包含84个SM,由于GV100是计算用的核心,所以每个SM有64个CUDA核心 - 总共5376个FP32 CUDA核心。同时还有2688个FP64 CUDA核心,以及新的Tensor Core。
Tensor Core是Volta上的新核心,灵活性较差(依然可编程),专为Tensor深度学习操作所设计。基本来说,Tensor Core就是一堆专为处理4x4矩阵操作的ALU;特别是融合乘加,也就是将两个4x4 FP16矩阵相乘,然后把结果加到一个FP16/FP32 4x4矩阵上,生成最终的4x4 FP32矩阵。
img008.jpg (251.85 KB, 下载次数: 3)
有了这些Tensor Cores,NV可以用一次操作达成超高的FLOPS数。一个Tensor Core每周期可以执行相当于64 FMA操作(共128FLOPS),1个SM有8个Tensor Core,也就是每个SM 1024FLOPS。作为对比,即便是纯FP16,1个SM里的所有标准CUDA核心也只有256FLOPS。所有如果这些核心能够用上,NV可以达到Pascal的四倍性能。
img006.jpg (42.57 KB, 下载次数: 1)
现在还有一些未知因素,包括Tensor Cores到底灵活度如何,核心面积占了多少等。总的来说Tensor Cores会比较死板,面积利用效率会比较高。NV把这么多核心打包成一个核心,不需要增加控制逻辑和其他的辅助硬件, 每个核心分到的晶体管数就会比标准CUDA核心要多。代价是灵活性,因为越灵活需要的芯片面积就越大。这是NV在灵活度和总输出之间有意做出的权衡。
每个SM包含4个材质单元,与GP100相同。一起的还有新的L1缓存/共享内存架构。GP100的1个SM有24KB L1/材质缓存 + 64KB共享内存,而GV100上变成统一的128KB L1数据缓存/共享内存(增加了40KB),可以精确配置L1和共享内存的容量。而寄存器依然还是256KB(4x16K 32bit)
84个SM,和GP100一样,2个SM组成1个TPC;共42个TPC。7个TPC组成1个GPC,一共6个GPC。显存还是用的HBM2,与GP100相同的4 stack。虽然内存频率只提升了25%,Volta还有内存效率的改善,NV称等效带宽提升了50%。在GPC和显存之间的L2缓存也被加强,每个ROP现在有768KB L2,GP100上是512KB。这意味着GV100共有6MB L2。
Volta还带来了新版本的NVLink,之前发布时称为NVLink 2,单向带宽提升5GB/s,来到25GB/s。GV100有6条NVLink,比GP100多2条。至关重要的是,NVLink 2引入了缓存一致性,允许GPU和CPU缓存一致,这在Power 9 + Volta系统上会很重要。
NV也揭晓了Volta上SIMT工作方式的巨大改变。在一个32-thread warp内的CUDA核心现在有了一定的自由度;可以在细粒度级别同步线程,同时保持良好SIMT范式,这意味着更高的总体效率。重要的是,单独的线程现在可以yield,然后再重新调度到一起。这也意味着NV GPU上回归了一部分的硬件调度。
img004.jpg (54.18 KB, 下载次数: 1)
作为30亿刀R&D砸出来的项目,GV100是NV目前为止最大的项目所打造的最大的GPU。NV估计首批GV100将在今年Q3出货,而且不便宜 - DGX系统上18000刀一颗 - 但对于那些肯掏钱帮助NV消化风险的客户来说,这是目前为止最强大的GPU。
Tesla V100
首款搭载GV100的产品是Tesla V100。与前辈P100一样,依然不是完整版。基于良率上的考虑,只开了84个SM中的80个。
img003.jpg (131.81 KB, 下载次数: 2)
Tesla V100能提供15TFLOP的FP32单精度性能,30TFLOPS的FP16半精度性能,7.5FLOPS的FP64双精度性能,以及惊人的120TLOPS独立Tensor操作量。频率为1455MHz的V100带来了42%的理论FLOPS提升(CUDA核心)。而Tensor操作方面提升会达到6-12倍,取决于操作精度。
V100采用16GB HBM2显存。目前还没有厂商生产8层堆叠,所以4stack的显存就只能这么多。显存频率从P100的1.4Gbps提升到了1.75Gbps。
与P100一样,这次V100也用的是SXM2,针脚应该会更多,体积上相近。
功耗方面,V100 TDP为300W,与前代一致。NV说V100的能效高于P100。
搭载V100的首个出货产品会是NVIDIA DGX-1V,Volta版的DGX,内含8颗V100,价格149000刀,Q3出货,OEM则Q4之前都不会到来。
img007.jpg (77.83 KB, 下载次数: 1)
NV也发布了两款PCIe版的V100,一个是250W的完整尺寸卡,一个是更小的全高半长卡,称为"Tesla V100 for Hyperscale Inference",这张150W,专为数据中心推理服务器的高密度配置,估计频率和规格都会有所降低。
评论
哪位大神告诉我大概是那时候能买到啊
评论
明年卖个小核心,后年在卖个大一点的,就这套路,只不过牙膏挤的多点,你想买个显卡用10年不在花钱了,不可能,硬软件互托关系进阶进步
评论
在挤还是牙膏,牙膏也不能当饭吃,在说~一顿饭也不能吃太多啊,什么甜点啊,一般家长都会控制孩子食量的
评论
Titan Xv啥时候出?
评论
7850至今没换
7850之前 基本是15个月就必须换
因为性能基本翻倍
等Vega了
老黄的卡
咱消费能力不够
评论
hbm的卡便宜过吗?
评论
老黄太TM牛了,但这专业卡至少得1W美元以上了
评论
好暴力的规格。。。。AMD最近显卡真的不争气哦。。。这个老黄的尾气都要吃不上了。
评论
别把泰坦不当大核心好不......阉割版泰坦明年会在GV104后面三个月左右出来的。
评论
笑死了,这都挤牙膏,完全不同了好吗
评论
老黄是对极致性能的追求和牙膏厂完全不同!!!
评论
只是视角不同,大众只是一直在买低端牙膏,有大管好牙膏,只是他产品线划分明确不能谁便打价格战
评论
不能把他说的太高尚了,牙膏厂也卖计算卡的
评论
NV一代2年挤40%不算牙膏了,总比牙膏厂1年平均提升不到5%的单核性能强多了
评论
在我看来,他们只是圈钱的手法不同而已
评论
领先必然就能圈钱,NV用300多MM2和200mm2的低功耗核心圈了好几年钱了,中小核心足够和对手刚了,功耗低,对PCB要求也低,整体成本也低。
评论
小核心也能保持每年30~40%的性能增幅,确实没啥脾气
评论
蝴蝶效应的问题,要不是AMD的地幔,就没有DX12,更不会有后来的软硬升级各种刺激消费,这是一盘很大的圈钱棋,都有各自算盘促成的结果,和几年的硬件比反正我也没体会到啥子多大的进步,都在玩跑分,掏钱买跑分是不是?
评论
Tensor单元本质就是经过优化int8整数计算单元,按照NV的架构设计,每个SM里以前主要是FP32计算单元,GP10x里增加FP16和FP64单元,GV10x里增加的int8计算单元。对于AI这种逻辑计算,浮点是大材小用,只需要整数计算单元即可,而整数计算所需的晶体管要比浮点少得多
评论
Tensor单元本质就是经过优化int8整数计算单元,按照NV的架构设计,每个SM里以前主要是FP32计算单元,GP10x里增加FP16和FP64单元,GV10x里增加的int8计算单元。对于AI这种逻辑计算,浮点是大材小用,只需要整数计算单元即可,而整数计算所需的晶体管要比浮点少得多
评论
这应该就是谷歌新一代TPU的设计思路,主要支持少位数的整数运算,这样硬件开销就小,其实也没有太多的黑科技,只是目标不一样。
评论
咱只关心“伏达”游戏显卡的旗舰型号能到个啥程度
评论
年底或者明年,一次性出大核心。把1080 降低到中低端显卡。是不是有点赶尽杀绝了。
评论
不玩游戏当然没啥感觉啊。13-17这几年游戏画质进步很明显啊 电路 电子 维修 我现在把定影部分拆出来了。想换下滚,因为卡纸。但是我发现灯管挡住了。拆不了。不会拆。论坛里的高手拆解过吗? 评论 认真看,认真瞧。果然有收 电路 电子 维修 求创维42c08RD电路图 评论 电视的图纸很少见 评论 电视的图纸很少见 评论 创维的图纸你要说 版号,不然无能为力 评论 板号5800-p42ALM-0050 168P-P42CLM-01
·日本中文新闻 唐田绘里香为新剧《极恶女王》剃光头 展现演员决心
·日本中文新闻 真子小室夫妇新居引发隐私担忧
·日本中文新闻 前AKB48成员柏木由纪与搞笑艺人交往曝光
·日本学校 {日本国际学校}梅田インターナショナルスクール
·日本学校 LINE:sm287 陳雨菲、20歳、台湾からの留学生、東京に来たばかり
·日本留学生活 出售平成22年走行48000km 代步小车
·日本华人网络交流 円相場 一時1ドル=140円台まで上昇?
·日本华人网络交流 问日本华人一个问题
·日本旅游代购 富山接机
·生活百科 英国转澳大利亚转换插头
·汽车 【求助】修车遇到困难怎么办?