日本电子维修技术 显卡nvidia关于安培的美国贴吧的官方问答翻译




原文:
https://www.reddit.com/r/nvidia/ ... _asked_we_answered/

https://ngabbs.com/read.php?tid=23213326

贴原文要授权,就贴链接了。里面有关于fp32性能翻倍的解释(双数据链路(双倍alu,双倍缓存)并发的fp32单元 / av1解码器全30系都有)。


评论
期待评测

评论
av1解码器...之前T大转发的AV1测试视频,不论我怎么换解码器让CPU硬解都不能满帧播放,看来现在终于能流畅播放了。

评论


ROP终于跟MC解绑了,GA102应该有8*2*7=112ROP

评论
所以翻倍是真的吗?

评论
酥妈会掏出一台热水器来吗?

评论

理论性能翻倍看样子是没什么问题。gpc/tpc配置不变,光栅化单元配置没有大变化。不含光追和升采样的纯图像性能不会简单x2。

但如果把ssr/反锯齿这些需要光栅化负载的东西放到rt core和dlss上,光栅化单元的负担将不会太高了。

这一系列升级都是配合光追和dlss(光追和tensor core性能基本都翻倍了,而且可以和sp并行执行)。

评论
看完后更期待了。。希望能顺利买到3090

评论

新加的FP32跟INT32不能同时运行,还是1+1

一万个SP,50%是动态的



评论

turing是concurrent,现在的1+1是parallel。当然可能性能没什么区别。

评论

石村气得一批,没有翻倍

评论

ampere同比Turing是所有性能x2。
因为turing比pascal在传统性能上没提升,只有在开光追的时候,turing有专用单元rt core,而pascal没有。pascal用传统shader干活,效率极低,会和turing有极大差距。
至于dlss,那是老黄的tensor core在游戏领域的应用,本来是给深度学习用的。而深度学习中最常见的就是图像的特征向量识别,政府搞大数据监控用的。黄卡上配合rt core让光追表现不至于卡成ppt。
老黄发布会的意思无非就是我turning就是pascal加了rt core和tensor core。我ampere做了性能提升,直接x2,并且配合新工艺,功耗降低,pascal用户可以安全升级了。
就技术层面,rt core是GPU的。tensor core不是GPU专有的,200元的树莓派都有npu,一样机器学习,而且这一块发展很快,门槛低,联发科,aws,google都自己搞custom npu,学习自己需要的业务,不像CPU/GPU是泛用的,包括苹果soc也集成的。

评论
其实还有点没说的,决定一个周期里2*fp32还是1fp32+1int32的最小单元是什么?是每个cuda core都能独立执行,还是以SM partition/SM/TPC/GPC甚至整个芯片统一执行

评论

编辑下,不确定。


评论

安倍还是1+1,看到int32经常不满载,fp32不足,Ray tracing denoising shader对FP32需求越来越高,就做成了动态分配
等琥珀换5nm,增加warp发射端,实现1+1+1并行,才是真正的翻倍,又能挤一代牙膏

评论

不满载才是正常的。没有那么多巧合刚好有多少多数据列压进缓存的。之前我做kernel function研究的时候发现这个核心有点像在自我枚举,枚举到核心的时候没有数据它会继续枚举下一个核心,而不会等待数据,那么上个被跳过的核心就空载了,这也符合warp scheduler管理cuda core的方式。不知道现在有没有变化。

评论

是因为一个warp每个周期只能并发32个线程的指令所以才不能同时运行吗?

评论

warp scheduler的能力只是结果,原因是没有独立的数据链路,数据的move和计算指令只能交替进行,所以指令执行周期有延迟,gpu这些指令都是宏指令,里面包含多个op,特别是fma这种乘积与累加指令,包含多条定点浮点运算,在加上数据的mov指令,要延迟好几个周期。

cuda手册里面的。

Each Turing SM includes 4 warp-scheduler units. Each scheduler handles a static set of warps and issues to a dedicated set of arithmetic instruction units. Instructions are performed over two cycles, and the schedulers can issue independent instructions every cycle. Dependent instruction issue latency for core FMA math operations is four clock cycles, like Volta, compared to six cycles on Pascal. As a result, execution latencies of core math operations can be hidden by as few as 4 warps per SM, assuming 4-way instruction-level parallelism ILP per warp, or by 16 warps per SM without any instuction-level parallelism.

Similar to Volta, the Turing SM includes dedicated FP32 and INT32 cores. This enables simultaneous execution of FP32 and INT32 operations. Applications can interleave pointer arithmetic with floating-point computations. For example, each iteration of a pipelined loop could update addresses and load data for the next iteration while simultaneously processing the current iteration at full FP32 throughput.

评论
不给3080 20G,我要去投诉老黄! 电路 电子 维修 我现在把定影部分拆出来了。想换下滚,因为卡纸。但是我发现灯管挡住了。拆不了。不会拆。论坛里的高手拆解过吗? 评论 认真看,认真瞧。果然有收 电路 电子 维修 求创维42c08RD电路图 评论 电视的图纸很少见 评论 电视的图纸很少见 评论 创维的图纸你要说 版号,不然无能为力 评论 板号5800-p42ALM-0050 168P-P42CLM-01
 ·日本中文新闻 唐田绘里香为新剧《极恶女王》剃光头 展现演员决心
·日本中文新闻 真子小室夫妇新居引发隐私担忧
·日本中文新闻 前AKB48成员柏木由纪与搞笑艺人交往曝光
·日本学校 {日本国际学校}梅田インターナショナルスクール
·日本学校 LINE:sm287 陳雨菲、20歳、台湾からの留学生、東京に来たばかり
·日本留学生活 出售平成22年走行48000km 代步小车
·日本华人网络交流 円相場 一時1ドル=140円台まで上昇?
·日本华人网络交流 问日本华人一个问题
·日本旅游代购 富山接机
 ·生活百科 英国转澳大利亚转换插头
·汽车 【求助】修车遇到困难怎么办?

维修经验

CPUcpu-z 1.77版低调发布

日本维修技术更新: New benchmark “submit and compare” feature New clocks dialog reporting all system’s clock speeds in real-time Preliminary support for Intel Kaby Lake AMD Bristol Ridge processors 主要是增加了支持I、A两个新架构的 ...

维修经验

CPU这几天经常开机黑屏,热重启后又正常

日本维修技术这几天经常开机黑屏,热重启后又正常,今天热重启也不管用了。折腾半天总算点亮,显示超频失败,以前出这个画面我是不理它的,直接重启就能正常进系统了,今天不敢托大,因为 ...

维修经验

CPU超频求助!关于华擎H170和6700K

日本维修技术问题见楼主的show贴 https://www.chiphell.com/thread-1634895-1-1.html 这次华擎的H170 Hyper最大的特色应该是自带时钟发生器可以自由超外频 可是楼主好久没有折腾超频了。。。 两图中除了CPU外频 以 ...

维修经验

CPU液态金属会侵蚀cpu核心吗?

日本维修技术前阵子看到有人说,液态金属时间长了会侵蚀cpu铜盖,那么问题来了,这货会不会侵蚀核心呢? 评论 这玩意儿好像只对铝起反应 评论 不是说,cpu的盖子是铜的吗。。。 评论 不会,核 ...

维修经验

CPUm6i究竟支不支持e3 1231v3

日本维修技术官网上看支持列表没写有e3 1231v3,装机帖又有人晒,百度也没个明确答案,那究竟能不能点亮?有在用的chher说一下么 评论 升级最新bios肯定可以支持 评论 我的p67evo官网上也没说支持12 ...

维修经验

CPU华擎 HYPER 妖板 正确玩法

日本维修技术600元的 B150,10相供电,释放洪荒之力 注意必须官网 Beta 区的 BIOS 有 AVX 的 CPU 可能会掉缓存 启动时按 X 键激活 SKY OC,重启后进入 BIOS 160924164727.jpg (95.63 KB, 下载次数: 1) 2016-9-24 17:47 上传 ...

维修经验

CPUE5 2686 V3和i7 6800K如何选择

日本维修技术默认用,不超频,两者功耗是一模一样的 E5 2686 V3:2.0主频,3.5睿频, 18核心36线程 ,45M L3 咸鱼大约2500~3000元 i7 6800K : 3.5主频,3.8睿频 ,6核心12线程 ,盒装3000元 评论 性能应该是26 ...

维修经验

CPUHD530硬解4K能力还是有点弱呀!

日本维修技术播放器用PotPlay 64bit,各种优化后,跑4K @120Hz视频只能到70帧左右的速度,勉强能用! 显示器用的4K的优派VP2780 未标题-1.jpg (211.97 KB, 下载次数: 0) 2016-9-26 21:29 上传 评论 这个估计你没优化 ...

维修经验

CPU6900k 1.25V到4.2体质怎么样

日本维修技术如图,体质怎么样,ring是35,没敢试了,都说ring高了毁硬件 评论 不错的U,但不算雕,上4.4就大雕了,这电压上4.5的目前没见有人发图 评论 谢谢前辈告知 评论 我这个用1.2V超的4.2,R ...

维修经验

CPUI3 6100 华擎B150M pro4超4.5g测试。

日本维修技术看看论坛没多少i3 6100的帖子,就转下自己发的show贴里面的数据,给大家参考下。家里还有当年的神U i3 540 oc 4.5G在给老妈用。 不知道数据上正常吗?有6100的朋友可以告诉下,另外是不有 ...

维修经验

CPU7系u会兼容100系主板吗?

日本维修技术RT,听说要推200系板,100系还能用吗以后。。 评论 兼容的 评论 感谢!以后换u就行了,目前消息200系板会有新的特性吗? 评论 24条PCI-E 3.0通道、支持Intel Optane混合存储技术、十个USB 3 ...

维修经验

CPU有心入5820k了,求教下温度问题

日本维修技术一直徘徊在6700k和5820k之间,6700k现在这德行直接把我推向了5820k啊,从2600k升级上来,三大件都要换,现在唯一疑惑的是IB-E ex这种顶级风冷能不能压住4.5g的5820呢?毕竟刚刚买一个多月。 ...

维修经验

CPU6600&6600K才100的差价

日本维修技术太少了吧。。。 6600.JPG (106.91 KB, 下载次数: 0) 2016-10-1 10:30 上传 评论 毕竟只是i5而已…… 评论 上z170 6600也能超,等于没区别,差价能有100已经不错了 评论 然后又见不超频人士推荐超频 ...