老黄家大核弹又放出来了,不过不是游戏核心。
IMG_4793.JPG (159.22 KB, 下载次数: 0)
新上马 7nm DUV 工艺,发布会发出来的 GA100 并不是完整核心。
这年头连信仰产品都阉大刀了。上一次 GV100 从 5376sp 阉到 5120sp 幅度很小。这次直接砍掉接近 1/6 的单元。
DGX 和别家服务器里的 GA100 是 108SM,40GB HBM,6912sp,19.5TFLOPS FP32,1/2 FP64,432 Tensor Core,19.5 TFLOPS Tensor Core FP64,540 亿晶体管。
功耗高达 400W,纯 FP32 性能相对 2080Ti 提升很小。先前爆料 Ampere 的 IPC 提升 20%,频率提升到 2.4GHz 左右,GA100 的 FP32 完全没有表现出这两处爆料应有的性能。
当然这样的超大核心处于低频状态运行很正常。
不过很明显,那些些参数一看就能看出来都不是整数,很奇怪。
完整 GA100 是 128SM,48GB 6stack HBM,8192sp,512 Tensor Core。
和上一年晚些时候舅舅党爆料的,Geekbench 跑过分的几个 Ampere 大核心差不多。
事实上 GA100 的 48MB L2 缓存比 GV100 大了 8 倍,L1 从 128KB 升到 192KB。Tensor Core 和 CUDA core 可以同时计算 FP64,新支持了 TF32/BF16 等专门为 AI 优化的数值计算,以及 PCIe 4.0 界面。
但这些对于游戏玩家来说就是多了一大堆电炉丝。
所以 Ampere 的游戏版本,也就是 GA102 和以下,要日后再看了。
(黄老板说这一代不玩 Volta Turing 双线了。但 Ampere 的 RT Core 性能完全不明,因为 GA100 根本就没有 RT Core)
架构图在下面,看起来是软胶水两块 64SM 的集群。
赌五毛那堆无用的电炉丝要拿掉的,双集群也要拿掉的。
IMG_479.jpg (306.66 KB, 下载次数: 0)
普通玩家最常接触到的超大晶片应该是全画幅 CMOS 的 864sqmm,这货 826sqmm 已经非常接近了。GV100 是 815sqmm 210 亿晶体管,TU102 则是 754sqmm,189 亿晶体管。
评论
老黄梦想用TS的dlss对抗对面的FP32单元
评论
老黄在储备和部分应用mcm的思路了
评论
他还没提 Ampere 的 RT Core 有什么改进呢,难道 AI RT?
评论
看错,RT core的内容慢慢等吧
传统cuda core部分就是个volta 3.0,只变了L1/L2容量,花样就看tensor core/rt core这些了
评论
你说的那些爆料是假的
评论
现在完全不知道的频率性能其实也很重要,跨过 2.5GHz 的话能有很大提升。
之前 AMD 那些异步计算之类的东西在 Turing 都加上之后也让 A 优游戏没什么优势了。
评论
所以看起来差距大
评论
去年的时候有一些 8192sp 和 7000 多 sp 不等,阉割程度各不相同的核心跑过分。至于真假现在看可能不是假的。
至于现在 GA102 的爆料,还是等年底再回头看吧。
评论
如果有超高速nvlink能把两张2060虚拟成一张2080Ti的话,那游戏卡其实出到2060就可以了
评论
实时渲染的调度很重要。应用场景和离线渲染或者 HPC 有非常大差距。MCM 应该不是一个好的解决方案。
评论
A100用N7工艺倒是没想到,至于棒子工艺能拉多少频率也还是先别把期望拉满
评论
还是略放宽密度,换稳定性和可靠性占先的思路吧。如果不能提升频率,直接扩大规模,7nm 也基本能留出非常充足的空间了。不论 DUV 还是 EUV,密度都至少是 16/12nm 两倍。当然 Samsung 8nm 密度会差点。
评论
看到a100这表现我都开始担心老黄要晚节不保被外甥女的新卡给完爆了
评论
那你想假如有一半的电炉丝都换成 CUDA core 呢?
评论
a100里面应该是没有光追加速单元的而且为了加速rtx还得保留足够的tensorcore进行最后的降噪还有dlss计算呢。
评论
可以拆掉的有多余的 INT32 整数,多余的 L2,多余的 FP64,用于合并输出 FP64 的 Tensor Core 和其他多余的 AI Tensor Core,NVLink 控制器,HBM 控制器换成 GDDR6。
那样至少省出来一个 TU104 的晶体管数量。相当于 2080Ti/2080 直接叠加了。
651C6302-7C77-4532-B750-990E0D616907.jpeg (89.88 KB, 下载次数: 0)
当然有个问题是,老黄还愿意把消费核心做到 TU102 那么大吗?
评论
Ampere和游戏卡有啥关系……Pascal开始GP100和GP102就分道扬镳了,Volta/Turing彻底分开
评论
这代又合回来了,不过是要等 GA102 再说游戏卡的事。
评论
不知道是不是A100上面屏蔽了RT core,不然老黄说的计算游戏合并论无从谈起啊。
另外Volta就是过渡。
可惜这次没有Volta发布会现场抽奖送titan的好事了(我上次一起去参加活动的哥们抽到了星战)
评论
GP100 和 GP102 也几乎不一样,所以可能也就少起一个名的事。不可能像 Fermi 和 Vega,硬着头皮弄一模一样。
评论
没有任何可靠的证据显示要合并
评论
那GP102未来可期!不过GP102放在三星的8ff或者5euv,感觉也是不清楚到底怎么样。
评论
就算不合并,Turing 不也是 Volta 改的。名字而已。
评论
实际上真就取决于老黄打算卖多大面积芯片。多装 CUDA core 少装电炉丝,晶体管数量翻一番,规模都够冲抵频率了。GA100 的 TSMC N7 在最近几种高密度新工艺里密度算低的,大约 75MTr/sqmm 左右。Intel 10nm 100MTr/sqmm,N7+ 也有 95 左右。
评论
上一代volta同样初期发布的是阉割版本的v100,这纯粹是提升良率的做法。当然在去年9月份volta生命周期末才纸面/大客户专供发布了完整版本的v100s,据熟识的方案商说v100s的调货周期很长,达到4个月之久,才能拿到几块。
其实从p100开始,老黄的显卡构架就明显开始分开两条路线,而所谓分构架只是codename上的区别而已。这个后面说。
为什么要分主要是计算和图形的需求区分越来越大,设计一个大而全的显卡没人买单。计算向需要通用,否则无法上hpc,图像向需要专用(包含quadro),否则加速性能堪忧。所以即使是同一个codename,计算向卡和图像向卡都是不同的configuation。
那么分codename的意义是什么呢?第一个我认为是组建的团队不一样,可以同样的技术并行开发。第二个是技术冻结的timing不一样,发布的时间不同。
如果是共享一个codename,说白了就是一个团队开发的,无论计算卡还是图像卡,只要一者发布了,其主要规格就冻结了(比如sp),只需要再开发并加上不同configuation的单元即可,通常两者发布的时间不会差距很大。
如果是并行的codename,在第一个codename发布后,技术还是不会冻结,因为独立的codename有自己的开发管理。这就导致了比如volta和turing不仅仅是configuration的区别,它们的sp能力以及编解码器也有所不同,比如turing的sp就具备volta没有的concurrent交替发射int单元的能力,编解码器也进化了一个版本,cuda兼容版本也升级了。因为volta发布后,turing并没有技术冻结。
如果构架合并是真的,那么可以预见ampere的计算卡与图像卡在共享技术上是一样的。
评论
老黄就是那个创造出天网的人
评论
完全不提RT CODE,那么这些光追怎么搞呢?
评论
到底游戏卡何时发布?
评论
Mellanox 的高速传输芯片都做上去了,注定和游戏无关。
游戏卡还要等一段时间才会发布。
RTX要各家游戏厂买单,而各家游戏厂要先观望新Console~~~PS5/XSX的情况......so,现在的RTX很可能就是一波前浪,重演Gsync和Fsync的结果
评论
年底。计划是这样。
评论
里菊福
评论
发 Quadro 和游戏卡的时候再说吧,这两个应该完全共享架构。
评论
那ITX用户怎么办?
评论
再外挂一个显卡机箱。 电路 电子 维修 求创维42c08RD电路图 评论 电视的图纸很少见 评论 电视的图纸很少见 评论 创维的图纸你要说 版号,不然无能为力 评论 板号5800-p42ALM-0050 168P-P42CLM-01 电路 电子 维修 我现在把定影部分拆出来了。想换下滚,因为卡纸。但是我发现灯管挡住了。拆不了。不会拆。论坛里的高手拆解过吗? 评论 认真看,认真瞧。果然有收
·日本中文新闻 唐田绘里香为新剧《极恶女王》剃光头 展现演员决心
·日本中文新闻 真子小室夫妇新居引发隐私担忧
·日本中文新闻 前AKB48成员柏木由纪与搞笑艺人交往曝光
·日本学校 {日本国际学校}梅田インターナショナルスクール
·日本学校 LINE:sm287 陳雨菲、20歳、台湾からの留学生、東京に来たばかり
·日本留学生活 出售平成22年走行48000km 代步小车
·日本华人网络交流 円相場 一時1ドル=140円台まで上昇?
·日本华人网络交流 问日本华人一个问题
·日本旅游代购 富山接机
·生活百科 英国转澳大利亚转换插头
·汽车 【求助】修车遇到困难怎么办?