日本电子维修技术 显卡nvidia关于安培的美国贴吧的官方问答翻译
原文:
https://www.reddit.com/r/nvidia/ ... _asked_we_answered/
https://ngabbs.com/read.php?tid=23213326
贴原文要授权,就贴链接了。里面有关于fp32性能翻倍的解释(双数据链路(双倍alu,双倍缓存)并发的fp32单元 / av1解码器全30系都有)。
评论
期待评测
评论
av1解码器...之前T大转发的AV1测试视频,不论我怎么换解码器让CPU硬解都不能满帧播放,看来现在终于能流畅播放了。
评论
ROP终于跟MC解绑了,GA102应该有8*2*7=112ROP
评论
所以翻倍是真的吗?
评论
酥妈会掏出一台热水器来吗?
评论
理论性能翻倍看样子是没什么问题。gpc/tpc配置不变,光栅化单元配置没有大变化。不含光追和升采样的纯图像性能不会简单x2。
但如果把ssr/反锯齿这些需要光栅化负载的东西放到rt core和dlss上,光栅化单元的负担将不会太高了。
这一系列升级都是配合光追和dlss(光追和tensor core性能基本都翻倍了,而且可以和sp并行执行)。
评论
看完后更期待了。。希望能顺利买到3090
评论
新加的FP32跟INT32不能同时运行,还是1+1
一万个SP,50%是动态的
评论
turing是concurrent,现在的1+1是parallel。当然可能性能没什么区别。
评论
石村气得一批,没有翻倍
评论
ampere同比Turing是所有性能x2。
因为turing比pascal在传统性能上没提升,只有在开光追的时候,turing有专用单元rt core,而pascal没有。pascal用传统shader干活,效率极低,会和turing有极大差距。
至于dlss,那是老黄的tensor core在游戏领域的应用,本来是给深度学习用的。而深度学习中最常见的就是图像的特征向量识别,政府搞大数据监控用的。黄卡上配合rt core让光追表现不至于卡成ppt。
老黄发布会的意思无非就是我turning就是pascal加了rt core和tensor core。我ampere做了性能提升,直接x2,并且配合新工艺,功耗降低,pascal用户可以安全升级了。
就技术层面,rt core是GPU的。tensor core不是GPU专有的,200元的树莓派都有npu,一样机器学习,而且这一块发展很快,门槛低,联发科,aws,google都自己搞custom npu,学习自己需要的业务,不像CPU/GPU是泛用的,包括苹果soc也集成的。
评论
其实还有点没说的,决定一个周期里2*fp32还是1fp32+1int32的最小单元是什么?是每个cuda core都能独立执行,还是以SM partition/SM/TPC/GPC甚至整个芯片统一执行
评论
编辑下,不确定。
评论
安倍还是1+1,看到int32经常不满载,fp32不足,Ray tracing denoising shader对FP32需求越来越高,就做成了动态分配
等琥珀换5nm,增加warp发射端,实现1+1+1并行,才是真正的翻倍,又能挤一代牙膏
评论
不满载才是正常的。没有那么多巧合刚好有多少多数据列压进缓存的。之前我做kernel function研究的时候发现这个核心有点像在自我枚举,枚举到核心的时候没有数据它会继续枚举下一个核心,而不会等待数据,那么上个被跳过的核心就空载了,这也符合warp scheduler管理cuda core的方式。不知道现在有没有变化。
评论
是因为一个warp每个周期只能并发32个线程的指令所以才不能同时运行吗?
评论
warp scheduler的能力只是结果,原因是没有独立的数据链路,数据的move和计算指令只能交替进行,所以指令执行周期有延迟,gpu这些指令都是宏指令,里面包含多个op,特别是fma这种乘积与累加指令,包含多条定点浮点运算,在加上数据的mov指令,要延迟好几个周期。
cuda手册里面的。
Each Turing SM includes 4 warp-scheduler units. Each scheduler handles a static set of warps and issues to a dedicated set of arithmetic instruction units. Instructions are performed over two cycles, and the schedulers can issue independent instructions every cycle. Dependent instruction issue latency for core FMA math operations is four clock cycles, like Volta, compared to six cycles on Pascal. As a result, execution latencies of core math operations can be hidden by as few as 4 warps per SM, assuming 4-way instruction-level parallelism ILP per warp, or by 16 warps per SM without any instuction-level parallelism.
Similar to Volta, the Turing SM includes dedicated FP32 and INT32 cores. This enables simultaneous execution of FP32 and INT32 operations. Applications can interleave pointer arithmetic with floating-point computations. For example, each iteration of a pipelined loop could update addresses and load data for the next iteration while simultaneously processing the current iteration at full FP32 throughput.
评论
不给3080 20G,我要去投诉老黄! 电路 电子 维修 我现在把定影部分拆出来了。想换下滚,因为卡纸。但是我发现灯管挡住了。拆不了。不会拆。论坛里的高手拆解过吗? 评论 认真看,认真瞧。果然有收 电路 电子 维修 求创维42c08RD电路图 评论 电视的图纸很少见 评论 电视的图纸很少见 评论 创维的图纸你要说 版号,不然无能为力 评论 板号5800-p42ALM-0050 168P-P42CLM-01
·日本中文新闻 唐田绘里香为新剧《极恶女王》剃光头 展现演员决心
·日本中文新闻 真子小室夫妇新居引发隐私担忧
·日本中文新闻 前AKB48成员柏木由纪与搞笑艺人交往曝光
·日本学校 {日本国际学校}梅田インターナショナルスクール
·日本学校 LINE:sm287 陳雨菲、20歳、台湾からの留学生、東京に来たばかり
·日本留学生活 出售平成22年走行48000km 代步小车
·日本华人网络交流 円相場 一時1ドル=140円台まで上昇?
·日本华人网络交流 问日本华人一个问题
·日本旅游代购 富山接机
·生活百科 英国转澳大利亚转换插头
·汽车 【求助】修车遇到困难怎么办?