日本电子维修技术 显卡Vega 20 确认添加了 Deep Learning 指令集



如无意外Vega 20将是首个PCIE4.0接口的显卡和首个7nm显卡

https://www.phoronix.com/scan.php?page=news_item&px=Vega-12-20-AMDGPU-LLVM

Vega 20 meanwhile is a product AMD has teased and mentioned is a 7nm GPU with 32GB of HBM2 memory. The Vega 20 is aimed for machine learning / artificial intelligence workloads albeit not yet launched. So it's not too surprising these patches do confirm new deep learning GPU instructions being present for Vega 20. The deep learning intrinsics added are fdot2, sdot2, udot2, sdot4, udot4, sdot8, and udot8.

ee148fdccc42457bb8db26e7fdb5a78a.jpg (105.42 KB, 下载次数: 0)

2018-5-1 22:19 上传




评论
嗯,AMD显卡今天也是元气满满的哟。

评论
转总,支持PCIE4.0的主板,多久出来?2019年?

评论
性能相当于nv的什么卡?

评论
可惜这7nm是用的tsmc的,至少目前是这样,按摩店还得交罚款

评论

据说一次性给了女友几亿美刀,把专属协议关了

评论

什么时候的事
那GF的7nm是不是凉了,还有Zen2要上呢

评论
按摩店:
我不知道我性能行不行,反正我规格领先啊


评论

16年底就付清了

评论
4.0还行 关键是性能能不能提上去啊
这两年游戏商对多卡支持差的 淘汰掉多卡我倒是觉得挺好 省得一堆麻烦事 但是单卡性能得先上去 要是能拖好4k我还是比较满足的

评论

性能?

参考1GHZ的Vega不就好了


没错,也就是Fiji

评论

只是不专属而已,不是不用gf了

评论
所以这指令集的软件支持如何?老黄的软件生态……

评论
支持光线跟踪不

评论

行不行这个
看看torch/PyTorch Coffee Tensorflow/Tensorflow.js还有其他乱七八糟的啥里面能跑起来几个不就知道了嘛


评论
那么问题来了,哪个平台支持pcie4呢

评论
我不管 反正FP32不行的卡 都是垃圾
反正老黄联合酥麻 一起坑我


评论
   女友果然是坑农企一辈子的.....用不用都要坑.....

评论

交过了同学 谁叫gf不给力

评论
对了 转总 据说zen2是请ibm工艺团队来优化频率 请问是这样嘛?

评论

没有。。。

评论

唔...看来外网讲的 10个里9个是假的

评论

dot系列指令集,基于名字猜测可能是加速点积(dot product)性能的。第一个字母是数据类型,f单精度/半精度浮点,u无符号整型,s=short?/single,带符号整形/单精度浮点,后面的数字代表向量的长度,毕竟是instruction level的,这个长度就类似avx[]后面的数字,不过一个是ops,一个是位宽,等于目前alu的并行性能 * 2/4/8,当然仅限于点积运算。
点积在dl中大量存在,是矩阵乘法的重要组成部分,如果能加速,特别是能半精度或整型加速,那么是很有意义的,甚至比tensor core更好使用,tensor core的使用有诸多限制,且没法和通用alu一起运行,这个直接改良通用alu的方法,如果sp自身足够强,那么也未必需要tensor core这种架构,而且提升性能,只要增强alu性能就行了。
这个ppt非常好,如果能实现的话,顺便把rocm修一修。


评论
两倍半精度,1/2双精度,xGMI没有自己的桥,仍然是基于pcie的,意味着latecy不如nvlink,bandwidth可能受益于pcie 4.0,没什么瓶颈。

评论

仔细看了看:“fdot2, sdot2, udot2, sdot4, udot4, sdot8, and udot8”

只有f=float=我猜测是半精度fp16能够在点积运算中x2,其他都是(u/s有无符号)整型x2/x4/x8,前者老黄已经做到了,后者还没有,但整型在training过程还不是主流,在inference是主流,但这一般不是由工作站显卡做的,这是一个战未来的特性,或者自动驾驶领域。

其实提升一般般把。

评论


妮怎么知道转总讲的不是假的

评论

唔 信仰?

评论

vega20才是真正的vega。。。
vega10那是被三哥塞了私货的

评论

急什么,vega20说不定也是ppt救国。而且还有软件这块呢,这个才是最烧钱的。

评论
会是新架构吗?
我的意思是vega20再烂也是按正常思维开发的东西 跟vega10那个塞了私货的没得比

评论

IBM先出power9,今年下半年,intel跟上,AMD要等ZEN2平台一起来

评论

可以看成ZEN+相对于ZEN的提升,VEGA20还是一个7NM PIPECLEANER,主要服务几个大客户,渠道什么的根本不是重点。

评论

那gf的7nm到底怎么样了,是产能跟不上还是有其他的状况

评论

没搞定
通常是密度能实现,但是密度提高导致频率过低
要么良率极低以至于几乎切不出好的DIE



评论

依然是64CU,7nm可能可以提升频率,游戏性能会接近GTX1080TI,重显存压力下可能会高于1080TI
理论浮点性能大概等效于Titan V
(个人认为泄露的测试频率1GHZ是识别错误)



评论

请教一下为啥很少有人用A卡做训练
按理说Vega10 16GB也就比Titan Xp贵一点,理论浮点也不低还有更大的显存还有FP32:FP16=1:2



评论

双精度呢?

评论

付过钱了,现在自由了。。。

评论

软件软件还是软件,ROCM比CUDA还是差很多,这方面需要时间和大厂商的支持,比如百度什么的

评论

1/2单精度,PPT上写的很清楚了

评论

相当不错了

评论

gf做cpu没问题的,其实是苏妈认为未来光靠gf满足不了amd的单子,所以才花了几亿分手费
RTG那边倒是强烈反对用gf的,你们也看到vega和polaris用gf是什么情况
至于为什么给分手费估计是之前谈了gf要是能跟上竞争对手就必须用gf的协议吧(这个具体不清楚我猜的)

评论

谢回复,下半年牙膏哪款芯片组支持pcie4.0?感觉没这么快啊,至少得明年吧?

评论

因为软件支持不行。想看看rocm是干什么的就明白了。

只有两种人用的起amd,国家实验室和大型ai企业。反正他们要自己魔改软件,而且他们的代码高度定制化,绝不会开源。但他们反倒没有nv情节。

绝大部分中小团体,个人,做paas的大企业走的其实都是厂商软件包 => 第一/三方框架的路线,这是在软件投入上最便宜的,上手就有性能不错的 + 易用的第一/三方,简直不要太爽了。现在nv阵营的人工智能简单到什么程度,tflearn可以让一个大一学生,刚学玩c++的,1周上手目标检测实验。

评论

逗号用错地方了,牙膏可能要明年。肯定是XEON

评论

双精度应该没变化还是很低
不过好像大部分用户不在意

评论

多谢解答

评论


没变化还是很低???




评论

Cascade Lake-X/E基本没戏了,最早也要到2020年
另外PCI-E5.0正式版已经不远,可能会跳过4.0

评论

vega的架构上本身就没有怎么考虑FP64呀,1TFLOPS左右当然很低了

评论

也就是说跟随10NM的进度一起延期了?如果19年都出不来那就真的牙膏了

评论

1TFLOPS是在哪里看见的?????

评论

这个要是10nm继续拖延Intel就会考虑用14nm生产新的架构
目前只知道新的架构换了更大的接口,并且支持8通道内存(E-ATX要放不下了)
服务器/数据中心市场上Intel不会懈怠,因为用户换新的意愿很强烈利润又很高,实在不行进一步增加功耗,出240TDP的。


评论

额,转贴机这么认真地问……
https://www.amd.com/en/products/ ... ition-liquid-cooled
https://instinct.radeon.com/en/product/mi/radeon-instinct-mi25/
这两条可以得知Vega10的两个完整版的FP64是768GFLOPS/819GFLOPS
目前所有的消息都显示Vega20没有大改架构设计或者大量增加FP64
那么可见的改进范围内,还是在1TFLOPS


评论


你看不见这图么。。。写着双精度是单精度的1/2




评论

看了下rocm的github,tensorflow和caffe 2都可以用了,有没有人去测试下性能。这官网根本没更新。。caffe2的链接还失效了,repo重命名了都不知道,amd到底想不想做啊。。

评论

不认为这是真的
包括PCI-E Gen4也存疑


评论

gpueater有一个tf的测试,不过现在ROCM只支持TF1.3.

评论

都是真的,这两个没疑问
那没什么好说了。。。等时间证明吧

评论

1.3已经很好了,1.0后没有什么大变化。

评论

不要在意细节

性能测试gpueater做了

Benchmark CIFAR10 on TensorFlow with ROCm on AMD GPUs vs CUDA9 and cuDNN7 on NVIDIA GPUs

http://blog.gpueater.com/en/2018/04/23/00011_tech_cifar10_bench_on_tf13/



评论

vega64能秒1080ti了,单纯考虑sp算力vega是一点不落下风。不过tf版本有差距,对新模型的支持不足,并不一定有cifar10这种传统模型这么好的效率。
tensorflow已经不是转译版本了,是原生实现的,看来跟google谈好了。所以1.0.1 hip 到 1.3的性能有飞跃。


评论

感觉此帖里正确率最高的评论都是你的。。膜拜业界大神。。。

评论

我哪里正确了,还不都是推测。

评论

从某些角度看AMD的产品对不是很专业的更有优势,大显存能避免显存不够模型跑不起来,还有FP16可以用,Quadro GV100对个人来说太贵了……
但还是担心软件支持上出问题,就怕要跑别人的模型得从头到尾报错的地方一个个改过去或者还得自己找错误


评论

你该问功耗相当于NV什么卡

评论

显存不够不会跑不起来,只是效率低一点,代码上麻烦一些。不是很专业的,恐怕只能用nv了,amd是高段位的才能用。

评论
我就想问问,什么时候千元之内的卡可以秒了我的290,功耗能120W,还可以插帧

评论

VG10的DPFP是1/16
VG20是1/2,所以应该896GFLOPS * 8至少吧。。。。

评论

估计都能跑,不过要等gayhub的大佬们安排。指不定5年后就能跑你说的这些。

评论

下面两个拿个VEGA10直接跑,当然你愿意的话可以等五年再跑:
https://github.com/ROCmSoftwarePlatform/hipCaffe
https://github.com/ROCmSoftwarePlatform/tensorflow



评论
毕竟老黄CUDA生态圈搞了那么多年 要插进去感觉和EPYC一样难 电路 电子 维修 我现在把定影部分拆出来了。想换下滚,因为卡纸。但是我发现灯管挡住了。拆不了。不会拆。论坛里的高手拆解过吗? 评论 认真看,认真瞧。果然有收 电路 电子 维修 求创维42c08RD电路图 评论 电视的图纸很少见 评论 电视的图纸很少见 评论 创维的图纸你要说 版号,不然无能为力 评论 板号5800-p42ALM-0050 168P-P42CLM-01
 ·日本中文新闻 唐田绘里香为新剧《极恶女王》剃光头 展现演员决心
·日本中文新闻 真子小室夫妇新居引发隐私担忧
·日本中文新闻 前AKB48成员柏木由纪与搞笑艺人交往曝光
·日本学校 {日本国际学校}梅田インターナショナルスクール
·日本学校 LINE:sm287 陳雨菲、20歳、台湾からの留学生、東京に来たばかり
·日本留学生活 出售平成22年走行48000km 代步小车
·日本华人网络交流 円相場 一時1ドル=140円台まで上昇?
·日本华人网络交流 问日本华人一个问题
·日本旅游代购 富山接机
 ·生活百科 英国转澳大利亚转换插头
·汽车 【求助】修车遇到困难怎么办?

维修经验

CPUcpu-z 1.77版低调发布

日本维修技术更新: New benchmark “submit and compare” feature New clocks dialog reporting all system’s clock speeds in real-time Preliminary support for Intel Kaby Lake AMD Bristol Ridge processors 主要是增加了支持I、A两个新架构的 ...

维修经验

CPU这几天经常开机黑屏,热重启后又正常

日本维修技术这几天经常开机黑屏,热重启后又正常,今天热重启也不管用了。折腾半天总算点亮,显示超频失败,以前出这个画面我是不理它的,直接重启就能正常进系统了,今天不敢托大,因为 ...

维修经验

CPU超频求助!关于华擎H170和6700K

日本维修技术问题见楼主的show贴 https://www.chiphell.com/thread-1634895-1-1.html 这次华擎的H170 Hyper最大的特色应该是自带时钟发生器可以自由超外频 可是楼主好久没有折腾超频了。。。 两图中除了CPU外频 以 ...

维修经验

CPU液态金属会侵蚀cpu核心吗?

日本维修技术前阵子看到有人说,液态金属时间长了会侵蚀cpu铜盖,那么问题来了,这货会不会侵蚀核心呢? 评论 这玩意儿好像只对铝起反应 评论 不是说,cpu的盖子是铜的吗。。。 评论 不会,核 ...

维修经验

CPUm6i究竟支不支持e3 1231v3

日本维修技术官网上看支持列表没写有e3 1231v3,装机帖又有人晒,百度也没个明确答案,那究竟能不能点亮?有在用的chher说一下么 评论 升级最新bios肯定可以支持 评论 我的p67evo官网上也没说支持12 ...

维修经验

CPU华擎 HYPER 妖板 正确玩法

日本维修技术600元的 B150,10相供电,释放洪荒之力 注意必须官网 Beta 区的 BIOS 有 AVX 的 CPU 可能会掉缓存 启动时按 X 键激活 SKY OC,重启后进入 BIOS 160924164727.jpg (95.63 KB, 下载次数: 1) 2016-9-24 17:47 上传 ...

维修经验

CPUE5 2686 V3和i7 6800K如何选择

日本维修技术默认用,不超频,两者功耗是一模一样的 E5 2686 V3:2.0主频,3.5睿频, 18核心36线程 ,45M L3 咸鱼大约2500~3000元 i7 6800K : 3.5主频,3.8睿频 ,6核心12线程 ,盒装3000元 评论 性能应该是26 ...

维修经验

CPUHD530硬解4K能力还是有点弱呀!

日本维修技术播放器用PotPlay 64bit,各种优化后,跑4K @120Hz视频只能到70帧左右的速度,勉强能用! 显示器用的4K的优派VP2780 未标题-1.jpg (211.97 KB, 下载次数: 0) 2016-9-26 21:29 上传 评论 这个估计你没优化 ...

维修经验

CPU6900k 1.25V到4.2体质怎么样

日本维修技术如图,体质怎么样,ring是35,没敢试了,都说ring高了毁硬件 评论 不错的U,但不算雕,上4.4就大雕了,这电压上4.5的目前没见有人发图 评论 谢谢前辈告知 评论 我这个用1.2V超的4.2,R ...

维修经验

CPUI3 6100 华擎B150M pro4超4.5g测试。

日本维修技术看看论坛没多少i3 6100的帖子,就转下自己发的show贴里面的数据,给大家参考下。家里还有当年的神U i3 540 oc 4.5G在给老妈用。 不知道数据上正常吗?有6100的朋友可以告诉下,另外是不有 ...

维修经验

CPU7系u会兼容100系主板吗?

日本维修技术RT,听说要推200系板,100系还能用吗以后。。 评论 兼容的 评论 感谢!以后换u就行了,目前消息200系板会有新的特性吗? 评论 24条PCI-E 3.0通道、支持Intel Optane混合存储技术、十个USB 3 ...

维修经验

CPU有心入5820k了,求教下温度问题

日本维修技术一直徘徊在6700k和5820k之间,6700k现在这德行直接把我推向了5820k啊,从2600k升级上来,三大件都要换,现在唯一疑惑的是IB-E ex这种顶级风冷能不能压住4.5g的5820呢?毕竟刚刚买一个多月。 ...

维修经验

CPU6600&6600K才100的差价

日本维修技术太少了吧。。。 6600.JPG (106.91 KB, 下载次数: 0) 2016-10-1 10:30 上传 评论 毕竟只是i5而已…… 评论 上z170 6600也能超,等于没区别,差价能有100已经不错了 评论 然后又见不超频人士推荐超频 ...