贵圈有几大邪教,例如ringbus邪教,rop邪教等等,Zen2发布后再说这个ringbus邪教,今天嘛,就来说说这个rop邪教,给大家介绍一下黄总的新式刀法。先立论:像素填充率不能光看ROP一、ROP党的由来?一般来说,没有对比就没有伤害。我记得FuryX发布前时候捧杀党吹天吹地,128ROP轰杀全场。结果出来后性能不如预期,吃瓜群众找不到背锅的,咋办捏?一看,FuryX的64ROP对比980Ti的96ROP差了50%!rua,ROP你背锅。Pro-N一想,乖乖,我怎么没想到N卡在这方面优势很大啊。后来发生了几件事情,差点把这事儿给锤上了。480发布的时候,老苏家驱动没准备好,对比1060和980无优势,那么如何黑得有技术含量呢?一看480的32ROP对比1060的48ROP,又少了50%,矮马RAJA你怎么设计的。由此等到VEGA发布的时候,一看怎么又是64ROP。织女星菜,RAJA OUT!去年图灵发布前,ROP党达到了高峰,某村小吧为了圆自己性能1.8X的“料”,宣布图灵ROP翻倍,当场宣布胜利,台下旌旗飘扬,好不威风。尔后图灵发布,ROP比例不变。只得删帖跑路,然后帖子被恢复后保护性加精。最爱苏妈的永远是老黄啊。二、何为饥饿ROP?我记得进入统一渲染架构时代后,ROP和像素填充率产生争议的有Fermi一代。当时明明GTX480的ROP更多,但是像素填充率老是跑不过5870,GPU-Z也因此更改过错误的算法。https://www.techpowerup.com/forums/threads/pixel-fillrate-and-fermi.155459/那为何今日又要提起ROP呢?也是很偶然,测1660Ti的时候,我发现1660Ti(48ROPs)和2070(64ROPs),在显存带宽成比例(336GB/sVS448GB/s),核心频率相同的情况下,竟然跑出了相同的像素填充率。WTF?我要怎么解释这个情况。三、不要惊讶其实有媒体早就发现了这个问题,例如Anandtech在其最近的显卡测试中就有测试,ROP有明细差异的RTX2070(64ROP)和RTX2060(48ROP)的像素填充率没有明显差别,ROP没有明显差异的GTX1070 RTX2070(64ROP)和GTX1080 RTX2080(64ROP)却出现了非常大的差别。
105062.png (59.89 KB, 下载次数: 2)
四、验证饥饿ROP?1、晚上我更新几个小工具,就不需要下载几百兆的3DMark了,不过因为负载不够效果可能不是很好其实求秒大爷写了个小工具不过还在测试fillratebenchmark092下载链接:https://pan.baidu.com/s/1K7w9cEL8Bc9T-3qMzcegJg2、如果用3DMark06,我们没有Beyond3D Suite,只有用单纹理填充率来近似测试使用3DMark06(Feature Tests - Fill Rate – Single-Texturing)
3D06-1.JPG (75.78 KB, 下载次数: 0)
Fill Rate.JPG (66.81 KB, 下载次数: 0)
下载地址:https://benchmarks.ul.com/downloads/3dmark06.exe序列号:3DM06-YKL9-C7R6-73WW-AAPA-VHKW设置:分辨率调成1920*1080(方便大家统一设置对比)设置重复测试3次取平均值,不要使用默认的1280*1024来来来,这是我2010MHz/14000MHz下48ROPs的单纹理填充率(用于近似得出像素填充率),同学们可以用1070,2070这类“64ROP”的显卡,在频率相近的情况下,测试一个数据出来对比,你会发现惊人的类似。
Fill Rate.JPG (57.6 KB, 下载次数: 0)
五、结语求秒曾经曰过:每个GPC有一个光栅器每周期最多输出16个像素。同学们,你家N卡的ROP是喂不饱的吗?测一测吧(附上频率哦)。1、不要认为1060的48ROP对比480的32ROP有什么明显优势,不要认为2070的ROP和RADEON VII一样了ROP多了也没用,GPC会限制他的发挥。这也就是说,1060(48ROP)、1070(64ROP)、2070(64ROP)、Quadro GV100(128ROP)用户,ROP比同级卡多是吧?别得意,你的ROP跑不满,只能等效32、48、48、96ROP。另外经过坛友实测,GP107(1050,1050Ti)还被TPC限制了
像素填充率相同的例证2070:3GPC/18TPC/64ROP 2060:3GPC/15TPC/48ROP 1660Ti:3GPC/12TPC/48ROP 1070:3GPC/15TPC/64ROP
1080:4GPC/20TPC/64ROP 1070Ti:4GPC/19TPC/64ROP像素填充率不同的例证1080:4GPC/20TPC/64ROP 1070:3GPC/15TPC/64ROP
1060:2GPC/10TPC/48ROP 1050Ti:2GPC/6TPC/32ROP 1050:2GPC/5TPC/32ROP
所以下个经验主义的结论:对于麦斯威尔,帕斯卡和图灵,pixel fillrate=min(ROP, GPC*16, TPC*4)*frequency/1000
2、A卡用户别自卑,ROP不是明显瓶颈A卡几何能力提升才是关键,何时突破4SE,看见ROP党,无视就行了。3、强烈要求GPU-Z更改算法!
1060.jpg (114.81 KB, 下载次数: 0)
2070.JPG (119.16 KB, 下载次数: 0)
评论
光栅纹理不重要了?
评论
970的rop不是还虚标了嘛
评论
你这个N柯基 为什么跑过来黑N了!
评论
很正常啊。。。一个GPC对应16个ROPS,64个ROPS需要4组GPC才能完整输出像素填充率。比如1080和1070,实际1070虽然有64个ROPS,但因为阉割掉了一组GPC,所以实际等效也就相当于48ROPS。
2070的TU106和1660TI的TU116核心都是3组GPC,ROPS效率相同并不奇怪。但是老黄为什么要给一个1536SP的1660TI设计3组GPC呢,估计是为了能打平1070吧。
评论
柯基,小心村村来踢馆了
评论
他可不会来我烘的
评论
lz,我买不起你这些设备,所以你说这么多我也不懂哎
评论
V100究竟有没有阉割ROP?
评论
Quadro GV100
TITAN V JHH Special Edition应该没有阉割吧
评论
抱歉2070刚才写错了
评论
CHH那个柯基头像的就是个资深级别的A黑。他发的文章看上去是在声讨NV,实际上却狠狠抹黑AMD一把。
评论
别的我不懂
我就是来盖个戳
评论
580这数据居然还不如1060·····悲催·····不知道vega64会不会有日常马甲出现······
评论
很正常啦,频率差距导致的
评论
快快献出1660ti
评论
老黄的刀法还不够精细。
居然没法单砍rop,导致TITAN V JHH Special Edition里面还有32个Dummy ROP,电热丝,差评!!!
评论
老黄骚操作。
评论
想提前看ringbus神教
评论
条件不成熟,Zen/Zen+的IPC对比Skylake系还有10%的差距,无法控制变量,对比不出来。
而且最重要的不是这个,最重要的是AMD的CPU和内存频率上不去,从根本上就没法对比。
评论
填充率等48ROP的64ROP的卡,和48ROP的卡,打开AA再跑跑试试?
评论
所以需要大家提供素材啊
评论
可以降频比对嘛,比如都设置4.2g 3200,我记得国外那个zen zen+ slk的ipc对此测试也是基于3.8g做的
评论
以前用480SLI的时候就关注过这个问题
当时Fermi整个流水线像素填充率的瓶颈在SM数量上,但喂不饱的ROP可以在AA的时候减少性能下降程度...
这次估计差不多...?
评论
是这个说法啊,费米那个时候就是这样解释的,不过这和NV的像素填充率虚标,也不冲突。
TPU网友是这样说的:"cheaper" Anti Aliasing
加AA跑填充率没意义的,至少是跑这个3dmark的填充率不会有变化,这个最终还是一个理论值测试
我本来也是讨论的理论值测试,没有讨论实际游戏帧数
评论
会不会再次出口转内销
评论
我可以给大家跑一个GTX1050的。跑的时候,实际大概频率在1900-1950MHz。
2GPC 5SM 640SP 32ROP 128bit 112GB/s
按楼主结论,2 GPC的1060应该和1050差不多的像素填充率
无AA
pfr_1050.png (268.72 KB, 下载次数: 0)
有8AA
pfr_1050_withAA.png (273.04 KB, 下载次数: 0)
评论
就是按1.9G,理论上也有60.8
你试试跑默认的分辨率呢,我感觉显存瓶颈了
我有默认1280*1024分辨率下1060的数据
评论
这点填充率根本用不完112GB/s的带宽...
而且06的这个测试已经尽可能降低带宽依赖了
另外我看了下,这个测试的白皮书... 我在想是不是单纹理下,现在这些构架上TMU瓶颈了,喂不饱ROP。你看多纹理,有60.8G,理论32*1925=61.6G
评论
我有1060在1280*1024分辨率下的数据
你也试试这个分辨率吧,减少显存瓶颈
刚才我说得不准确,我要的不是绝对值,是要一个比例
按这个假设的话就和TPC(SM)相关了,又绕回到费米那个问题了
评论
呃...
这是填充率,不是fps
和分辨率没啥关系的...
就给你跑一个1280下的,跑的时候后台有些东西可能有些影响。
pfr_1050_1280x1024.png (258.5 KB, 下载次数: 0)
评论
从成绩来说感觉还是有那么点影响的,你如果方便的话,可以跑跑3dmark vantage的feature test 2,那个我也有1060的数据
或者跑这个吧
https://pan.baidu.com/s/1K7w9cEL8Bc9T-3qMzcegJg
fillratebenchmark092
评论
要验证这个问题,找一个1050Ti来跑一下就知道了。
如果有差异,那瓶颈就在SM或TPC上。
评论
不过我还是要补充一句,这个Beyond3D Suite,我们拿不到···
只能用其他的测试软件来近似测试模拟结果,比如用这个单纹理填充率来近似得出像素填充率
绝对值都不是太有意义了,主要看比例了,但是这个实验条件又很难完全符合
评论
Benchmark Result
-----------------------------------------------------------
FrameBuffer Clear : 91609.6 FPS
Color Fill : 31648.54 M-Pixel/s
Z Fill : 63032.84 M-Pixel/s
Color + Z Fill : 29252.76 M-Pixel/s
Single Texture : 24516.55 M-Pixel/s
Single Texture Alpha Blend : 20698.89 M-Pixel/s
Dual Textures : 20384.32 M-Pixel/s
Triple Textures : 16387.99 M-Pixel/s
Quad Textures : 13461.2 M-Pixel/s
1 Floating Poing Texture : 22377.45 M-Pixel/s
Render to Self : 11593.27 M-Pixel/s
PS 1.1 Simple : 24360.52 M-Pixel/s
PS 1.4 Simple : 24325.28 M-Pixel/s
PS 2.0 Simple : 24566.88 M-Pixel/s
PS 2.0 PP Simple : 24554.29 M-Pixel/s
Customized Pixel Shader : 31578.08 M-Pixel/s
PS 2.0 Complex : (Unsupported)
PS 2.0 PP Complex : (Unsupported)
PS 2.0 Massive Register : (Unsupported)
PS 2.0 PP Massive Register : (Unsupported)
PS 2.0 Sincos Procedure Tex : (Unsupported)
PS 2.0 Per-Pixel Lighting : (Unsupported)
评论
更新3个小工具
评论
我不懂,我就是来捧柯基的场
评论
Anandtech好像没有给出2080ti的测试结果
评论
有的,你点右上角
https://www.anandtech.com/bench/GPU18/2347
评论
所以结论就是,ROP是无辜的,因为有部分ROP其实没利用到?还是相同的ROP其实有不同的效率.
不懂...
评论
很有意思的分析,好久没看到精彩帖子了,赞!
不过,ROP不仅仅是为了填充率吧。你自己举的Fermi的例子,完整版GF110只有64个TMU,512SP(两倍频率相当于1024个),48个ROP和TMU等周边都是低频,只有SP高频。你跑填充率测试的时候,Fermi不能与Kepler后面出的GPU直接对比数量,因为Fermi这48个ROP跑在低频上,SP跑在两倍的高频上;另外还要考虑那个年代,Fermi确实在高画质高压下性能衰减不算太大。
所以我觉得设计ROP,并不能仅仅按理论像素\纹理填充率来确定数量。再比如,Maxwell开始的色彩压缩技术,也影响ROP的数量。有没有这个技术的ROP完全不可同日而语呀。此ROP非彼ROP。
评论
另外,Maxwell开始用的TBR,也影响像素\纹理填充吧,后端的ROP数量够不够还真要看架构,也不能只看GPC。
A卡这里只说Fiji和Vega,ROP一直是64,跟A嘉GCN1.1以来并行度始终只有4是一个道理。不是A不想动,是因为绑死了,要动就是大动,而且结果可能并不好(我相信实验室肯定做过实验)。你可以看看从Tonga开始到Hawaii再到Fiji再到Vega一直是4GPC(借用N的名字吧)。Hawaii和Fiji、Vega都是64ROP,跑填充差距还是挺大,这时候不能单纯说ROP没跑满或者ROP不够。
A家的问题现在在前端,几何性能、指令发射都要重新设计,Core部分不是传闻说大胃王要用新的VLIW 2的SIMD么?
评论
感谢大佬回复。
嗯,确实,这个对比只适合同代架构对比
这个理论值到实际值之间,影响的东西太多了,而且为了测试这实际值,还得排除各种干扰
我直线思维,求秒让我直接想到了Raster Engine,就变成了简单粗暴的乘法
希望有更好更现代的测试软件,之前DIY黄金时代的测试软件的负载都太低了
才疏学浅了→
柯基1.jpg (72.89 KB, 下载次数: 0)
评论
唉,惭愧,坛子里大佬很多,我就是略知皮毛,兴趣比较广泛,博学而无才。。。。
相互学习,多交流。[握手]
评论
“A卡几何能力提升才是关键,何时突破4SE”
那MCM和2D神马的就是农企强行突破4096SP的一种妥协方案咯
0023.png (5.5 KB, 下载次数: 0)
评论
嗯,理论上的像素填充率确实是只看ROP*频率/1000,除了费米
我们在这里讨论的是N卡前端不够的情况下,ROP跑不满的问题
评论
我觉得是这样的
pixel fillrate=min(ROP, GPC*16, TPC*4)*frequency/1000
这个能完美拟合你的1050成绩
几乎一模一样,1050只能跑到1060的62.5%
评论
navi这次主要就是改前端,不然吃不饱的情况只会越演越烈啊,这次vega20小修了一下前端没加sp效率就提升了
评论
你这个成绩太有参考意义了
真的,我都震惊了
评论
艹,安培上面居然解决了塑料rop的设计问题
评论
笑死,看到白皮书上面的那段话。
“and eliminating throughput mismatches between the scan conversion frontend and raster operations backend. ”
哈哈,老黄居然把本贴这个瓶颈解决了
评论
已经能下了?
评论
还没,等着吧。有些人提前拿到了。
你会觉得索然无味的,就硬扩规模。
评论
https://www.nvidia.com/content/dam/en-zz/Solutions/geforce/ampere/pdf/NVIDIA-ampere-GA102-GPU-Architecture-Whitepaper-V1.pdf
rops.jpg (162.25 KB, 下载次数: 0)
塑料ROP和塑料光栅器的问题在老六的监督下得到解决。
评论
恶意挖坟,已经举报 电路 电子 维修 我现在把定影部分拆出来了。想换下滚,因为卡纸。但是我发现灯管挡住了。拆不了。不会拆。论坛里的高手拆解过吗? 评论 认真看,认真瞧。果然有收 电路 电子 维修 求创维42c08RD电路图 评论 电视的图纸很少见 评论 电视的图纸很少见 评论 创维的图纸你要说 版号,不然无能为力 评论 板号5800-p42ALM-0050 168P-P42CLM-01
·日本中文新闻 唐田绘里香为新剧《极恶女王》剃光头 展现演员决心
·日本中文新闻 真子小室夫妇新居引发隐私担忧
·日本中文新闻 前AKB48成员柏木由纪与搞笑艺人交往曝光
·日本学校 {日本国际学校}梅田インターナショナルスクール
·日本学校 LINE:sm287 陳雨菲、20歳、台湾からの留学生、東京に来たばかり
·日本留学生活 出售平成22年走行48000km 代步小车
·日本华人网络交流 円相場 一時1ドル=140円台まで上昇?
·日本华人网络交流 问日本华人一个问题
·日本旅游代购 富山接机
·生活百科 英国转澳大利亚转换插头
·汽车 【求助】修车遇到困难怎么办?