日本电子维修技术 显卡【黄氏刀法】震惊!NVIDIA主流显卡竟然采用




贵圈有几大邪教,例如ringbus邪教,rop邪教等等,Zen2发布后再说这个ringbus邪教,今天嘛,就来说说这个rop邪教,给大家介绍一下黄总的新式刀法。先立论:像素填充率不能光看ROP一、ROP党的由来?一般来说,没有对比就没有伤害。我记得FuryX发布前时候捧杀党吹天吹地,128ROP轰杀全场。结果出来后性能不如预期,吃瓜群众找不到背锅的,咋办捏?一看,FuryX的64ROP对比980Ti的96ROP差了50%!rua,ROP你背锅。Pro-N一想,乖乖,我怎么没想到N卡在这方面优势很大啊。后来发生了几件事情,差点把这事儿给锤上了。480发布的时候,老苏家驱动没准备好,对比1060和980无优势,那么如何黑得有技术含量呢?一看480的32ROP对比1060的48ROP,又少了50%,矮马RAJA你怎么设计的。由此等到VEGA发布的时候,一看怎么又是64ROP。织女星菜,RAJA OUT!去年图灵发布前,ROP党达到了高峰,某村小吧为了圆自己性能1.8X的“料”,宣布图灵ROP翻倍,当场宣布胜利,台下旌旗飘扬,好不威风。尔后图灵发布,ROP比例不变。只得删帖跑路,然后帖子被恢复后保护性加精。最爱苏妈的永远是老黄啊。二、何为饥饿ROP?我记得进入统一渲染架构时代后,ROP和像素填充率产生争议的有Fermi一代。当时明明GTX480的ROP更多,但是像素填充率老是跑不过5870,GPU-Z也因此更改过错误的算法。https://www.techpowerup.com/forums/threads/pixel-fillrate-and-fermi.155459/那为何今日又要提起ROP呢?也是很偶然,测1660Ti的时候,我发现1660Ti(48ROPs)和2070(64ROPs),在显存带宽成比例(336GB/sVS448GB/s),核心频率相同的情况下,竟然跑出了相同的像素填充率。WTF?我要怎么解释这个情况。三、不要惊讶其实有媒体早就发现了这个问题,例如Anandtech在其最近的显卡测试中就有测试,ROP有明细差异的RTX2070(64ROP)和RTX2060(48ROP)的像素填充率没有明显差别,ROP没有明显差异的GTX1070 RTX2070(64ROP)和GTX1080 RTX2080(64ROP)却出现了非常大的差别。

105062.png (59.89 KB, 下载次数: 2)

2019-2-20 21:09 上传

四、验证饥饿ROP?1、晚上我更新几个小工具,就不需要下载几百兆的3DMark了,不过因为负载不够效果可能不是很好其实求秒大爷写了个小工具不过还在测试fillratebenchmark092下载链接:https://pan.baidu.com/s/1K7w9cEL8Bc9T-3qMzcegJg2、如果用3DMark06,我们没有Beyond3D Suite,只有用单纹理填充率来近似测试使用3DMark06(Feature Tests - Fill Rate – Single-Texturing)

3D06-1.JPG (75.78 KB, 下载次数: 0)

2019-2-20 21:07 上传

Fill Rate.JPG (66.81 KB, 下载次数: 0)

2019-2-20 21:03 上传

下载地址:https://benchmarks.ul.com/downloads/3dmark06.exe序列号:3DM06-YKL9-C7R6-73WW-AAPA-VHKW设置:分辨率调成1920*1080(方便大家统一设置对比)设置重复测试3次取平均值,不要使用默认的1280*1024来来来,这是我2010MHz/14000MHz下48ROPs的单纹理填充率(用于近似得出像素填充率),同学们可以用1070,2070这类“64ROP”的显卡,在频率相近的情况下,测试一个数据出来对比,你会发现惊人的类似。

Fill Rate.JPG (57.6 KB, 下载次数: 0)

2019-2-20 21:17 上传


五、结语求秒曾经曰过:每个GPC有一个光栅器每周期最多输出16个像素。同学们,你家N卡的ROP是喂不饱的吗?测一测吧(附上频率哦)。1、不要认为1060的48ROP对比480的32ROP有什么明显优势,不要认为2070的ROP和RADEON VII一样了ROP多了也没用,GPC会限制他的发挥。这也就是说,1060(48ROP)、1070(64ROP)、2070(64ROP)、Quadro GV100(128ROP)用户,ROP比同级卡多是吧?别得意,你的ROP跑不满,只能等效32、48、48、96ROP。另外经过坛友实测,GP107(1050,1050Ti)还被TPC限制了
像素填充率相同的例证2070:3GPC/18TPC/64ROP 2060:3GPC/15TPC/48ROP 1660Ti:3GPC/12TPC/48ROP 1070:3GPC/15TPC/64ROP
1080:4GPC/20TPC/64ROP 1070Ti:4GPC/19TPC/64ROP像素填充率不同的例证1080:4GPC/20TPC/64ROP 1070:3GPC/15TPC/64ROP
1060:2GPC/10TPC/48ROP 1050Ti:2GPC/6TPC/32ROP 1050:2GPC/5TPC/32ROP
所以下个经验主义的结论:对于麦斯威尔,帕斯卡和图灵,pixel fillrate=min(ROP, GPC*16, TPC*4)*frequency/1000
2、A卡用户别自卑,ROP不是明显瓶颈A卡几何能力提升才是关键,何时突破4SE,看见ROP党,无视就行了。3、强烈要求GPU-Z更改算法!

1060.jpg (114.81 KB, 下载次数: 0)

2019-2-20 23:08 上传

2070.JPG (119.16 KB, 下载次数: 0)

2019-2-21 00:01 上传



评论
光栅纹理不重要了?

评论
970的rop不是还虚标了嘛

评论
你这个N柯基 为什么跑过来黑N了!

评论
很正常啊。。。一个GPC对应16个ROPS,64个ROPS需要4组GPC才能完整输出像素填充率。比如1080和1070,实际1070虽然有64个ROPS,但因为阉割掉了一组GPC,所以实际等效也就相当于48ROPS。
2070的TU106和1660TI的TU116核心都是3组GPC,ROPS效率相同并不奇怪。但是老黄为什么要给一个1536SP的1660TI设计3组GPC呢,估计是为了能打平1070吧。

评论
柯基,小心村村来踢馆了

评论

他可不会来我烘的

评论
lz,我买不起你这些设备,所以你说这么多我也不懂哎

评论
V100究竟有没有阉割ROP?

评论

Quadro GV100
TITAN V JHH Special Edition应该没有阉割吧

评论
抱歉2070刚才写错了

评论
CHH那个柯基头像的就是个资深级别的A黑。他发的文章看上去是在声讨NV,实际上却狠狠抹黑AMD一把。

评论
别的我不懂
我就是来盖个戳

评论
580这数据居然还不如1060·····悲催·····不知道vega64会不会有日常马甲出现······

评论

很正常啦,频率差距导致的

评论
快快献出1660ti

评论

老黄的刀法还不够精细。

居然没法单砍rop,导致TITAN V JHH Special Edition里面还有32个Dummy ROP,电热丝,差评!!!


评论
老黄骚操作。

评论
想提前看ringbus神教

评论

条件不成熟,Zen/Zen+的IPC对比Skylake系还有10%的差距,无法控制变量,对比不出来。

而且最重要的不是这个,最重要的是AMD的CPU和内存频率上不去,从根本上就没法对比。

评论
填充率等48ROP的64ROP的卡,和48ROP的卡,打开AA再跑跑试试?

评论

所以需要大家提供素材啊

评论

可以降频比对嘛,比如都设置4.2g 3200,我记得国外那个zen zen+ slk的ipc对此测试也是基于3.8g做的

评论

以前用480SLI的时候就关注过这个问题

当时Fermi整个流水线像素填充率的瓶颈在SM数量上,但喂不饱的ROP可以在AA的时候减少性能下降程度...
这次估计差不多...?

评论

是这个说法啊,费米那个时候就是这样解释的,不过这和NV的像素填充率虚标,也不冲突。

TPU网友是这样说的:"cheaper" Anti Aliasing

加AA跑填充率没意义的,至少是跑这个3dmark的填充率不会有变化,这个最终还是一个理论值测试

我本来也是讨论的理论值测试,没有讨论实际游戏帧数


评论
会不会再次出口转内销

评论

我可以给大家跑一个GTX1050的。跑的时候,实际大概频率在1900-1950MHz。
2GPC 5SM 640SP 32ROP 128bit 112GB/s
按楼主结论,2 GPC的1060应该和1050差不多的像素填充率

无AA

pfr_1050.png (268.72 KB, 下载次数: 0)

2019-2-21 11:50 上传



有8AA

pfr_1050_withAA.png (273.04 KB, 下载次数: 0)

2019-2-21 12:06 上传



评论

就是按1.9G,理论上也有60.8

你试试跑默认的分辨率呢,我感觉显存瓶颈了

我有默认1280*1024分辨率下1060的数据

评论

这点填充率根本用不完112GB/s的带宽...
而且06的这个测试已经尽可能降低带宽依赖了

另外我看了下,这个测试的白皮书... 我在想是不是单纹理下,现在这些构架上TMU瓶颈了,喂不饱ROP。你看多纹理,有60.8G,理论32*1925=61.6G



评论

我有1060在1280*1024分辨率下的数据

你也试试这个分辨率吧,减少显存瓶颈

刚才我说得不准确,我要的不是绝对值,是要一个比例
按这个假设的话就和TPC(SM)相关了,又绕回到费米那个问题了

评论

呃...
这是填充率,不是fps
和分辨率没啥关系的...

就给你跑一个1280下的,跑的时候后台有些东西可能有些影响。

pfr_1050_1280x1024.png (258.5 KB, 下载次数: 0)

2019-2-21 12:22 上传





评论

从成绩来说感觉还是有那么点影响的,你如果方便的话,可以跑跑3dmark vantage的feature test 2,那个我也有1060的数据

或者跑这个吧

https://pan.baidu.com/s/1K7w9cEL8Bc9T-3qMzcegJg

fillratebenchmark092



评论

要验证这个问题,找一个1050Ti来跑一下就知道了。
如果有差异,那瓶颈就在SM或TPC上。

评论

不过我还是要补充一句,这个Beyond3D Suite,我们拿不到···

只能用其他的测试软件来近似测试模拟结果,比如用这个单纹理填充率来近似得出像素填充率

绝对值都不是太有意义了,主要看比例了,但是这个实验条件又很难完全符合

评论

Benchmark Result
-----------------------------------------------------------
           FrameBuffer Clear : 91609.6 FPS
                  Color Fill : 31648.54 M-Pixel/s
                      Z Fill : 63032.84 M-Pixel/s
              Color + Z Fill : 29252.76 M-Pixel/s
              Single Texture : 24516.55 M-Pixel/s
  Single Texture Alpha Blend : 20698.89 M-Pixel/s
               Dual Textures : 20384.32 M-Pixel/s
             Triple Textures : 16387.99 M-Pixel/s
               Quad Textures : 13461.2 M-Pixel/s
    1 Floating Poing Texture : 22377.45 M-Pixel/s
              Render to Self : 11593.27 M-Pixel/s
               PS 1.1 Simple : 24360.52 M-Pixel/s
               PS 1.4 Simple : 24325.28 M-Pixel/s
               PS 2.0 Simple : 24566.88 M-Pixel/s
            PS 2.0 PP Simple : 24554.29 M-Pixel/s
     Customized Pixel Shader : 31578.08 M-Pixel/s
              PS 2.0 Complex : (Unsupported)
           PS 2.0 PP Complex : (Unsupported)
     PS 2.0 Massive Register : (Unsupported)
  PS 2.0 PP Massive Register : (Unsupported)
PS 2.0 Sincos Procedure Tex : (Unsupported)
   PS 2.0 Per-Pixel Lighting : (Unsupported)

评论
更新3个小工具

评论
我不懂,我就是来捧柯基的场

评论
Anandtech好像没有给出2080ti的测试结果

评论

有的,你点右上角

https://www.anandtech.com/bench/GPU18/2347

评论
所以结论就是,ROP是无辜的,因为有部分ROP其实没利用到?还是相同的ROP其实有不同的效率.
不懂...

评论
很有意思的分析,好久没看到精彩帖子了,赞!
不过,ROP不仅仅是为了填充率吧。你自己举的Fermi的例子,完整版GF110只有64个TMU,512SP(两倍频率相当于1024个),48个ROP和TMU等周边都是低频,只有SP高频。你跑填充率测试的时候,Fermi不能与Kepler后面出的GPU直接对比数量,因为Fermi这48个ROP跑在低频上,SP跑在两倍的高频上;另外还要考虑那个年代,Fermi确实在高画质高压下性能衰减不算太大。
所以我觉得设计ROP,并不能仅仅按理论像素\纹理填充率来确定数量。再比如,Maxwell开始的色彩压缩技术,也影响ROP的数量。有没有这个技术的ROP完全不可同日而语呀。此ROP非彼ROP。

评论
另外,Maxwell开始用的TBR,也影响像素\纹理填充吧,后端的ROP数量够不够还真要看架构,也不能只看GPC。
A卡这里只说Fiji和Vega,ROP一直是64,跟A嘉GCN1.1以来并行度始终只有4是一个道理。不是A不想动,是因为绑死了,要动就是大动,而且结果可能并不好(我相信实验室肯定做过实验)。你可以看看从Tonga开始到Hawaii再到Fiji再到Vega一直是4GPC(借用N的名字吧)。Hawaii和Fiji、Vega都是64ROP,跑填充差距还是挺大,这时候不能单纯说ROP没跑满或者ROP不够。
A家的问题现在在前端,几何性能、指令发射都要重新设计,Core部分不是传闻说大胃王要用新的VLIW 2的SIMD么?

评论

感谢大佬回复。
嗯,确实,这个对比只适合同代架构对比
这个理论值到实际值之间,影响的东西太多了,而且为了测试这实际值,还得排除各种干扰


我直线思维,求秒让我直接想到了Raster Engine,就变成了简单粗暴的乘法

希望有更好更现代的测试软件,之前DIY黄金时代的测试软件的负载都太低了

才疏学浅了→

柯基1.jpg (72.89 KB, 下载次数: 0)

2019-2-21 21:52 上传







评论

唉,惭愧,坛子里大佬很多,我就是略知皮毛,兴趣比较广泛,博学而无才。。。。
相互学习,多交流。[握手]

评论
“A卡几何能力提升才是关键,何时突破4SE”
那MCM和2D神马的就是农企强行突破4096SP的一种妥协方案咯

0023.png (5.5 KB, 下载次数: 0)

2019-2-22 16:02 上传




评论

嗯,理论上的像素填充率确实是只看ROP*频率/1000,除了费米

我们在这里讨论的是N卡前端不够的情况下,ROP跑不满的问题

评论

我觉得是这样的
pixel fillrate=min(ROP, GPC*16, TPC*4)*frequency/1000
这个能完美拟合你的1050成绩

几乎一模一样,1050只能跑到1060的62.5%


评论

navi这次主要就是改前端,不然吃不饱的情况只会越演越烈啊,这次vega20小修了一下前端没加sp效率就提升了

评论

你这个成绩太有参考意义了

真的,我都震惊了

评论
艹,安培上面居然解决了塑料rop的设计问题

评论

笑死,看到白皮书上面的那段话。

“and eliminating throughput mismatches between the scan conversion frontend and raster operations backend. ”

哈哈,老黄居然把本贴这个瓶颈解决了

评论

已经能下了?

评论

还没,等着吧。有些人提前拿到了。
你会觉得索然无味的,就硬扩规模。


评论
https://www.nvidia.com/content/dam/en-zz/Solutions/geforce/ampere/pdf/NVIDIA-ampere-GA102-GPU-Architecture-Whitepaper-V1.pdf

rops.jpg (162.25 KB, 下载次数: 0)

2020-9-17 17:20 上传





塑料ROP和塑料光栅器的问题在老六的监督下得到解决。

评论

恶意挖坟,已经举报 电路 电子 维修 我现在把定影部分拆出来了。想换下滚,因为卡纸。但是我发现灯管挡住了。拆不了。不会拆。论坛里的高手拆解过吗? 评论 认真看,认真瞧。果然有收 电路 电子 维修 求创维42c08RD电路图 评论 电视的图纸很少见 评论 电视的图纸很少见 评论 创维的图纸你要说 版号,不然无能为力 评论 板号5800-p42ALM-0050 168P-P42CLM-01
 ·日本中文新闻 唐田绘里香为新剧《极恶女王》剃光头 展现演员决心
·日本中文新闻 真子小室夫妇新居引发隐私担忧
·日本中文新闻 前AKB48成员柏木由纪与搞笑艺人交往曝光
·日本学校 {日本国际学校}梅田インターナショナルスクール
·日本学校 LINE:sm287 陳雨菲、20歳、台湾からの留学生、東京に来たばかり
·日本留学生活 出售平成22年走行48000km 代步小车
·日本华人网络交流 円相場 一時1ドル=140円台まで上昇?
·日本华人网络交流 问日本华人一个问题
·日本旅游代购 富山接机
 ·生活百科 英国转澳大利亚转换插头
·汽车 【求助】修车遇到困难怎么办?

维修经验

CPUcpu-z 1.77版低调发布

日本维修技术更新: New benchmark “submit and compare” feature New clocks dialog reporting all system’s clock speeds in real-time Preliminary support for Intel Kaby Lake AMD Bristol Ridge processors 主要是增加了支持I、A两个新架构的 ...

维修经验

CPU这几天经常开机黑屏,热重启后又正常

日本维修技术这几天经常开机黑屏,热重启后又正常,今天热重启也不管用了。折腾半天总算点亮,显示超频失败,以前出这个画面我是不理它的,直接重启就能正常进系统了,今天不敢托大,因为 ...

维修经验

CPU超频求助!关于华擎H170和6700K

日本维修技术问题见楼主的show贴 https://www.chiphell.com/thread-1634895-1-1.html 这次华擎的H170 Hyper最大的特色应该是自带时钟发生器可以自由超外频 可是楼主好久没有折腾超频了。。。 两图中除了CPU外频 以 ...

维修经验

CPU液态金属会侵蚀cpu核心吗?

日本维修技术前阵子看到有人说,液态金属时间长了会侵蚀cpu铜盖,那么问题来了,这货会不会侵蚀核心呢? 评论 这玩意儿好像只对铝起反应 评论 不是说,cpu的盖子是铜的吗。。。 评论 不会,核 ...

维修经验

CPUm6i究竟支不支持e3 1231v3

日本维修技术官网上看支持列表没写有e3 1231v3,装机帖又有人晒,百度也没个明确答案,那究竟能不能点亮?有在用的chher说一下么 评论 升级最新bios肯定可以支持 评论 我的p67evo官网上也没说支持12 ...

维修经验

CPU华擎 HYPER 妖板 正确玩法

日本维修技术600元的 B150,10相供电,释放洪荒之力 注意必须官网 Beta 区的 BIOS 有 AVX 的 CPU 可能会掉缓存 启动时按 X 键激活 SKY OC,重启后进入 BIOS 160924164727.jpg (95.63 KB, 下载次数: 1) 2016-9-24 17:47 上传 ...

维修经验

CPUE5 2686 V3和i7 6800K如何选择

日本维修技术默认用,不超频,两者功耗是一模一样的 E5 2686 V3:2.0主频,3.5睿频, 18核心36线程 ,45M L3 咸鱼大约2500~3000元 i7 6800K : 3.5主频,3.8睿频 ,6核心12线程 ,盒装3000元 评论 性能应该是26 ...

维修经验

CPUHD530硬解4K能力还是有点弱呀!

日本维修技术播放器用PotPlay 64bit,各种优化后,跑4K @120Hz视频只能到70帧左右的速度,勉强能用! 显示器用的4K的优派VP2780 未标题-1.jpg (211.97 KB, 下载次数: 0) 2016-9-26 21:29 上传 评论 这个估计你没优化 ...

维修经验

CPU6900k 1.25V到4.2体质怎么样

日本维修技术如图,体质怎么样,ring是35,没敢试了,都说ring高了毁硬件 评论 不错的U,但不算雕,上4.4就大雕了,这电压上4.5的目前没见有人发图 评论 谢谢前辈告知 评论 我这个用1.2V超的4.2,R ...

维修经验

CPUI3 6100 华擎B150M pro4超4.5g测试。

日本维修技术看看论坛没多少i3 6100的帖子,就转下自己发的show贴里面的数据,给大家参考下。家里还有当年的神U i3 540 oc 4.5G在给老妈用。 不知道数据上正常吗?有6100的朋友可以告诉下,另外是不有 ...

维修经验

CPU7系u会兼容100系主板吗?

日本维修技术RT,听说要推200系板,100系还能用吗以后。。 评论 兼容的 评论 感谢!以后换u就行了,目前消息200系板会有新的特性吗? 评论 24条PCI-E 3.0通道、支持Intel Optane混合存储技术、十个USB 3 ...

维修经验

CPU有心入5820k了,求教下温度问题

日本维修技术一直徘徊在6700k和5820k之间,6700k现在这德行直接把我推向了5820k啊,从2600k升级上来,三大件都要换,现在唯一疑惑的是IB-E ex这种顶级风冷能不能压住4.5g的5820呢?毕竟刚刚买一个多月。 ...

维修经验

CPU6600&6600K才100的差价

日本维修技术太少了吧。。。 6600.JPG (106.91 KB, 下载次数: 0) 2016-10-1 10:30 上传 评论 毕竟只是i5而已…… 评论 上z170 6600也能超,等于没区别,差价能有100已经不错了 评论 然后又见不超频人士推荐超频 ...