日本电子维修技术显卡Vega 20 确认添加了 Deep Learning 指令集

日期：2021-09-29 栏目：维修经验

如无意外Vega 20将是首个PCIE4.0接口的显卡和首个7nm显卡

https://www.phoronix.com/scan.php?page=news_item&px=Vega-12-20-AMDGPU-LLVM

Vega 20 meanwhile is a product AMD has teased and mentioned is a 7nm GPU with 32GB of HBM2 memory. The Vega 20 is aimed for machine learning / artificial intelligence workloads albeit not yet launched. So it's not too surprising these patches do confirm new deep learning GPU instructions being present for Vega 20. The deep learning intrinsics added are fdot2, sdot2, udot2, sdot4, udot4, sdot8, and udot8.

ee148fdccc42457bb8db26e7fdb5a78a.jpg (105.42 KB, 下载次数: 0)

2018-5-1 22:19 上传

评论
嗯，AMD显卡今天也是元气满满的哟。

评论
转总，支持PCIE4.0的主板，多久出来？2019年？

评论
性能相当于nv的什么卡？

评论
可惜这7nm是用的tsmc的，至少目前是这样，按摩店还得交罚款

评论

据说一次性给了女友几亿美刀，把专属协议关了

评论

什么时候的事
那GF的7nm是不是凉了，还有Zen2要上呢

评论
按摩店：
我不知道我性能行不行，反正我规格领先啊

评论

16年底就付清了

评论
4.0还行关键是性能能不能提上去啊
这两年游戏商对多卡支持差的淘汰掉多卡我倒是觉得挺好省得一堆麻烦事但是单卡性能得先上去要是能拖好4k我还是比较满足的

评论

性能？

参考1GHZ的Vega不就好了

没错，也就是Fiji

评论

只是不专属而已，不是不用gf了

评论
所以这指令集的软件支持如何？老黄的软件生态……

评论
支持光线跟踪不

评论

行不行这个
看看torch/PyTorch Coffee Tensorflow/Tensorflow.js还有其他乱七八糟的啥里面能跑起来几个不就知道了嘛

评论
那么问题来了，哪个平台支持pcie4呢

评论
我不管反正FP32不行的卡都是垃圾
反正老黄联合酥麻一起坑我

评论
女友果然是坑农企一辈子的.....用不用都要坑.....

评论

交过了同学谁叫gf不给力

评论
对了转总据说zen2是请ibm工艺团队来优化频率请问是这样嘛？

评论

没有。。。

评论

唔...看来外网讲的 10个里9个是假的

评论

dot系列指令集，基于名字猜测可能是加速点积（dot product）性能的。第一个字母是数据类型，f单精度/半精度浮点，u无符号整型，s=short？/single，带符号整形/单精度浮点，后面的数字代表向量的长度，毕竟是instruction level的，这个长度就类似avx[]后面的数字，不过一个是ops，一个是位宽，等于目前alu的并行性能 * 2/4/8，当然仅限于点积运算。
点积在dl中大量存在，是矩阵乘法的重要组成部分，如果能加速，特别是能半精度或整型加速，那么是很有意义的，甚至比tensor core更好使用，tensor core的使用有诸多限制，且没法和通用alu一起运行，这个直接改良通用alu的方法，如果sp自身足够强，那么也未必需要tensor core这种架构，而且提升性能，只要增强alu性能就行了。
这个ppt非常好，如果能实现的话，顺便把rocm修一修。

评论
两倍半精度，1/2双精度，xGMI没有自己的桥，仍然是基于pcie的，意味着latecy不如nvlink，bandwidth可能受益于pcie 4.0，没什么瓶颈。

评论

仔细看了看：“fdot2, sdot2, udot2, sdot4, udot4, sdot8, and udot8”

只有f=float=我猜测是半精度fp16能够在点积运算中x2，其他都是（u/s有无符号）整型x2/x4/x8，前者老黄已经做到了，后者还没有，但整型在training过程还不是主流，在inference是主流，但这一般不是由工作站显卡做的，这是一个战未来的特性，或者自动驾驶领域。

其实提升一般般把。

评论

妮怎么知道转总讲的不是假的

评论

唔信仰？

评论

vega20才是真正的vega。。。
vega10那是被三哥塞了私货的

评论

急什么，vega20说不定也是ppt救国。而且还有软件这块呢，这个才是最烧钱的。

评论
会是新架构吗？
我的意思是vega20再烂也是按正常思维开发的东西跟vega10那个塞了私货的没得比

评论

IBM先出power9，今年下半年，intel跟上，AMD要等ZEN2平台一起来

评论

可以看成ZEN+相对于ZEN的提升，VEGA20还是一个7NM PIPECLEANER，主要服务几个大客户，渠道什么的根本不是重点。

评论

那gf的7nm到底怎么样了，是产能跟不上还是有其他的状况

评论

没搞定
通常是密度能实现，但是密度提高导致频率过低
要么良率极低以至于几乎切不出好的DIE

评论

依然是64CU，7nm可能可以提升频率，游戏性能会接近GTX1080TI，重显存压力下可能会高于1080TI
理论浮点性能大概等效于Titan V
(个人认为泄露的测试频率1GHZ是识别错误）

评论

请教一下为啥很少有人用A卡做训练
按理说Vega10 16GB也就比Titan Xp贵一点，理论浮点也不低还有更大的显存还有FP32:FP16=1:2

评论

双精度呢？

评论

付过钱了，现在自由了。。。

评论

软件软件还是软件，ROCM比CUDA还是差很多，这方面需要时间和大厂商的支持，比如百度什么的

评论

1/2单精度，PPT上写的很清楚了

评论

相当不错了

评论

gf做cpu没问题的，其实是苏妈认为未来光靠gf满足不了amd的单子，所以才花了几亿分手费
RTG那边倒是强烈反对用gf的，你们也看到vega和polaris用gf是什么情况
至于为什么给分手费估计是之前谈了gf要是能跟上竞争对手就必须用gf的协议吧（这个具体不清楚我猜的）

评论

谢回复，下半年牙膏哪款芯片组支持pcie4.0？感觉没这么快啊，至少得明年吧？

评论

因为软件支持不行。想看看rocm是干什么的就明白了。

只有两种人用的起amd，国家实验室和大型ai企业。反正他们要自己魔改软件，而且他们的代码高度定制化，绝不会开源。但他们反倒没有nv情节。

绝大部分中小团体，个人，做paas的大企业走的其实都是厂商软件包 => 第一/三方框架的路线，这是在软件投入上最便宜的，上手就有性能不错的 + 易用的第一/三方，简直不要太爽了。现在nv阵营的人工智能简单到什么程度，tflearn可以让一个大一学生，刚学玩c++的，1周上手目标检测实验。

评论

逗号用错地方了，牙膏可能要明年。肯定是XEON

评论

双精度应该没变化还是很低
不过好像大部分用户不在意

评论

多谢解答

评论

没变化还是很低???

评论

Cascade Lake-X/E基本没戏了，最早也要到2020年
另外PCI-E5.0正式版已经不远，可能会跳过4.0

评论

vega的架构上本身就没有怎么考虑FP64呀，1TFLOPS左右当然很低了

评论

也就是说跟随10NM的进度一起延期了？如果19年都出不来那就真的牙膏了

评论

1TFLOPS是在哪里看见的？？？？？

评论

这个要是10nm继续拖延Intel就会考虑用14nm生产新的架构
目前只知道新的架构换了更大的接口，并且支持8通道内存（E-ATX要放不下了）
服务器/数据中心市场上Intel不会懈怠，因为用户换新的意愿很强烈利润又很高，实在不行进一步增加功耗，出240TDP的。

评论

额，转贴机这么认真地问……
https://www.amd.com/en/products/ ... ition-liquid-cooled
https://instinct.radeon.com/en/product/mi/radeon-instinct-mi25/
这两条可以得知Vega10的两个完整版的FP64是768GFLOPS/819GFLOPS
目前所有的消息都显示Vega20没有大改架构设计或者大量增加FP64
那么可见的改进范围内，还是在1TFLOPS

评论

你看不见这图么。。。写着双精度是单精度的1/2

评论

看了下rocm的github，tensorflow和caffe 2都可以用了，有没有人去测试下性能。这官网根本没更新。。caffe2的链接还失效了，repo重命名了都不知道，amd到底想不想做啊。。

评论

不认为这是真的
包括PCI-E Gen4也存疑

评论

gpueater有一个tf的测试，不过现在ROCM只支持TF1.3.

评论

都是真的，这两个没疑问
那没什么好说了。。。等时间证明吧

评论

1.3已经很好了，1.0后没有什么大变化。

评论

不要在意细节

性能测试gpueater做了

Benchmark CIFAR10 on TensorFlow with ROCm on AMD GPUs vs CUDA9 and cuDNN7 on NVIDIA GPUs

http://blog.gpueater.com/en/2018/04/23/00011_tech_cifar10_bench_on_tf13/

评论

vega64能秒1080ti了，单纯考虑sp算力vega是一点不落下风。不过tf版本有差距，对新模型的支持不足，并不一定有cifar10这种传统模型这么好的效率。
tensorflow已经不是转译版本了，是原生实现的，看来跟google谈好了。所以1.0.1 hip 到 1.3的性能有飞跃。

评论

感觉此帖里正确率最高的评论都是你的。。膜拜业界大神。。。

评论

我哪里正确了，还不都是推测。

评论

从某些角度看AMD的产品对不是很专业的更有优势，大显存能避免显存不够模型跑不起来，还有FP16可以用，Quadro GV100对个人来说太贵了……
但还是担心软件支持上出问题，就怕要跑别人的模型得从头到尾报错的地方一个个改过去或者还得自己找错误

评论

你该问功耗相当于NV什么卡

评论

显存不够不会跑不起来，只是效率低一点，代码上麻烦一些。不是很专业的，恐怕只能用nv了，amd是高段位的才能用。

评论
我就想问问，什么时候千元之内的卡可以秒了我的290，功耗能120W，还可以插帧

评论

VG10的DPFP是1/16
VG20是1/2，所以应该896GFLOPS * 8至少吧。。。。

评论

估计都能跑，不过要等gayhub的大佬们安排。指不定5年后就能跑你说的这些。

评论

下面两个拿个VEGA10直接跑，当然你愿意的话可以等五年再跑：
https://github.com/ROCmSoftwarePlatform/hipCaffe
https://github.com/ROCmSoftwarePlatform/tensorflow

评论
毕竟老黄CUDA生态圈搞了那么多年要插进去感觉和EPYC一样难电路电子维修我现在把定影部分拆出来了。想换下滚，因为卡纸。但是我发现灯管挡住了。拆不了。不会拆。论坛里的高手拆解过吗？评论认真看，认真瞧。果然有收电路电子维修求创维42c08RD电路图评论电视的图纸很少见评论电视的图纸很少见评论创维的图纸你要说版号，不然无能为力评论板号5800-p42ALM-0050 168P-P42CLM-01
·日本中文新闻唐田绘里香为新剧《极恶女王》剃光头展现演员决心
·日本中文新闻真子小室夫妇新居引发隐私担忧
·日本中文新闻前AKB48成员柏木由纪与搞笑艺人交往曝光
·日本学校｛日本国际学校｝梅田インターナショナルスクール
·日本学校 LINE：sm287 陳雨菲、20歳、台湾からの留学生、東京に来たばかり
·日本留学生活出售平成22年走行48000km 代步小车
·日本华人网络交流円相場　一時1ドル＝140円台まで上昇？
·日本华人网络交流问日本华人一个问题
·日本旅游代购富山接机
·生活百科英国转澳大利亚转换插头
·汽车【求助】修车遇到困难怎么办？

维修经验

日本电子维修技术显卡Vega 20 确认添加了 Deep Learning 指令集

CPUcpu-z 1.77版低调发布

CPU这几天经常开机黑屏，热重启后又正常

CPU超频求助！关于华擎H170和6700K

CPU液态金属会侵蚀cpu核心吗？

CPUAMD Zen处理器、AM4接口实物曝光：1331个针脚

CPUm6i究竟支不支持e3 1231v3

CPU华擎 HYPER 妖板正确玩法

CPUE5 2686 V3和i7 6800K如何选择

CPUHD530硬解4K能力还是有点弱呀！

CPU在组一个小机箱，关于i5 6600和i7 6700的选择

CPUwin10超频稳定，但是睡眠唤醒不了，pll电压di

CPU6900k 1.25V到4.2体质怎么样

CPUI3 6100 华擎B150M pro4超4.5g测试。

CPU系统稳定性测试，我发现prime95半个小时内问题

CPU7系u会兼容100系主板吗？

CPU请教各位：J3710和G1840，哪个性能稍好些？

CPU昨日遇到土豪朋友，又被吓到了，有朋友比这

CPU有心入5820k了，求教下温度问题

CPU6600&6600K才100的差价

CPU打算组双路E5 2670，大家有什么好的建议吗？

日本电子维修技术 显卡Vega 20 确认添加了 Deep Learning 指令集

相关推荐

日本电子维修技术显卡Vega 20 确认添加了 Deep Learning 指令集