https://www.gamersnexus.net/guides/3446-nvidia-gtx-780-ti-revisit-in-2019-benchmarks
f1-2018-4k_780-ti-benchmark.png (160.3 KB, 下载次数: 0)
f1-2018-1080p_780-ti-benchmark-2019.png (162.09 KB, 下载次数: 0)
f1-2018-1440p_780-ti-benchmark.png (140.05 KB, 下载次数: 0)
far-cry-5-4k_780-ti-benchmark-2019.png (131.52 KB, 下载次数: 0)
far-cry-5-1080p_780-ti-benchmark-2019.png (150.17 KB, 下载次数: 0)
far-cry-5-1440p_780-ti-benchmark-2019.png (148.75 KB, 下载次数: 0)
gta-v-4k-780-ti-benchmark-2019.png (132.91 KB, 下载次数: 0)
gta-v-1080p_780-ti-benchmark-2019.png (154.99 KB, 下载次数: 0)
gta-v-1440p_780-ti-benchmark-2019.png (149.78 KB, 下载次数: 0)
sniper-elite-1080p-780-ti-benchmark-2019.png (107.68 KB, 下载次数: 0)
评论
就它一个3G显存的,岁月不饶人。曾经的大佬瑟瑟发抖
snipaste_20190226_021540.jpg (66.75 KB, 下载次数: 0)
评论
还行啊,起码没被970甩很多……
评论
最讨厌你们这些有权力用签名图的!坏蛋!坏蛋!坏蛋!
评论
可以了,1080p能跑60fps
评论
说好了a卡战未来的,怎么290x和五年前没啥变化,都oc,还是败给780ti
评论
好像除了gta以外,没有败的吧?难道是我看得不仔细?
评论
吴良材眼镜在打折
评论
N卡真正甩开A卡就是maxwell那一代,同工艺同面积达到了30%能耗比提升。谁能给我科普一下maxwell究竟引进了什么?amd怎么还没学来?
评论
这标题好厉害。
评论
290秒开普勒全家
评论
7970连榜都没上,上了960这个史上最弱x60
评论
290拉低电压,温度低很多,不撞功耗墙降频情况下性能和574差不多。
评论
这么看390X还能再用两年呢...
评论
答案在这里:http://www.moepc.net/?post=1589
评论
ctrl+f maxwell, 什么也没有。怎么解释kepler到maxwell的巨变和pascal到turing的小改?
评论
这个帖子写的好,在DX11游戏横行的时候,N卡DX11强,DX12渣,现在DX12普及了,图灵架构DX11渣了些,但是DX12又强的可怕
评论
这篇牛头不对马嘴的东西还是算了吧
评论
不要再鞭尸开普勒这个辣鸡架构了
评论
Fermi是HWS,Kepler变SWS。Turing比文章要晚。
评论
ok多谢指出,但感觉仍然无法解释。因为假如maxwell节能部分吃了cpu,那么在dx12下就会 1)吃回去?2)GCN A卡能耗大幅改进?然而两个都没有达到30%的幅度。
评论
来源:https://youtu.be/nIoZB-cnjc0
请你指出文章的错误之处,你也可以写一篇更好的给我们科普一下。
评论
看来1080ti还能继续用
评论
IMG0044011_1.jpg (389.62 KB, 下载次数: 0)
IMG0045595_1.jpg (532.51 KB, 下载次数: 0)
真正的原因在于随着游戏的shader:texture比例的上升,kepler过多的纹理已经没有勇武之地了,所以nvidia选择砍掉了一半,这个变化不是maxwell开始才有的,在gk20x就有了
IMG0044012_1.jpg (572.99 KB, 下载次数: 0)
。这是个开始,然后是砍掉每两组发射端之间那块共享的simd,这块simd依赖于类vliw的dual issue特性才能工作,加上寄存器bank conflict基本常年电热丝状态,虽然nv有LRF可以稍微拯救一下,但基本上因为这块的存在,kepler的shader效率都上不了80%,所以maxwell上来就直接砍掉了。另外图形方面,nv在gm20x引入tbr特性,使得缓存利用率更好,降低了访存的功耗。
再说下调度问题,task调度也是常说的dx12调度和能耗比没啥关系,常见的谬误就是拿出nv的这张图:
8d7b1491211432.png (132.13 KB, 下载次数: 0)
来说nv这里是软件调度。这张图虽然说的确实是软件调度,但这个不是与dx12相关的task调度,这是sm内的warp调度。
gf10x和gf11x开始nv实现了sm内的指令双发射,nv依赖于硬件计分牌技术来实现,虽然这个对于cpu来说算是个非常简单而且low的东西,但对于gpu来说还是太复杂了。
一般来讲如果不依赖于硬件的话,能想到的就是vliw了,但nvidia没有使用这种做法。kepler这一代开始,nv的编译器将多条指令打包成一个bundle:
TIM截图20190226100441.jpg (45 KB, 下载次数: 0)
像这样,在第一个64bit中存放编译器生成与bundle里面几条指令相关的控制信息,后面的则存放实际指令。控制信息内包含了一些对于硬件的控制和提示,在调度方面可以让硬件知道什么时候可以使用双发射特性,什么时候切换到另一个warp,相对vliw需要固定slot而言很灵活,充分利用了gpu本身的cgmt/fgmt特性来掩盖了传统软件调度的一些劣势。
另外对于寄存器的控制也是节约电力的点,控制信息里面包含了对于lrf(last result file)的控制位,可以指示硬件将计算结果直接保存到这里,而不是写回主寄存器,以便马上重用,节约电力的同时,减少了bank conflict。
我只懂点皮毛,别的可以看下面的pdf。
http://www.cs.virginia.edu/~skadron/Papers/gebhart_tocs.pdf
https://arxiv.org/pdf/1804.06826.pdf
https://research.nvidia.com/site ... 12_NVIDIA_MICRO.pdf
评论
笔误啦。
评论
这篇文章前半部分没啥问题,后半部分搞错了基本对象,导致整个文章的价值都没了。
因为他把gpu的task调度和sm内的warp调度搞混了。 科普已经发了。
评论
谢谢,拜读了。但我觉得Fermi的HWS变成Kepler的SWS才是架构功耗降低(工艺改进另说)的主要原因。
评论
你说的没错,我会补充一点。
评论
这个完全解释不了
评论
还是由LambdaDelta给你解释吧……20楼编辑过了。
那就解释不了吧……
评论
多谢指出,这些细节我这外行就不太懂了。很古怪的是AMD这么多年竟然一点反应也没有也许是没资源吧。还希望navi翻身打压一下老黄负优化的嚣张气焰
不说图形性能,maxwell在计算上能耗比也大幅强于基于kepler的K40c。我感觉除了TBR,sp利用率,图形驱动这些,别的地方也是下了功夫的。我之前好像还听说过和供电,布线扯上关系的理论。
评论
提升从来不是靠某一项改进,发射执行单元均衡配置、执行能力、缓存体系效率提升*规格提升的集合,
只能说kepler是暴力堆彻的架构,从smx到smm只是瘦个身,剔除冗余,发射执行单元对齐,性能不变
pascal硬拉频率,turing才是硬核,改进比pascal不知多多少也只提升25%,但横向比较已经很大了
评论
Tesla
Fermi
Kepler Maxwell Pascal(除了GP100)
GP100 Volta Turing Ampere
NV的路线还是很清晰的
评论
从Titan V之后就没怎么看阿难科技了,这回Ryan Smith又亲自写文章分析架构了啊(咦,TPU的图)
评论
volta这些改进是否真的提升了效率,还要等日后另外看喃。
只说目前的话1660ti,280平方,用上gddr6节约了面积的情况下,也就干了个1070而已,加倍的LDS,寄存器可能成了累赘。
评论
1660Ti那个11Tflops的fp16很有意思。看来nvidia和amd都看好fp16在pc游戏中的应用,负优化不支持fp16的卡,勿谓言之不预也
另外Titan V跑int挖矿效率莫名的高,大部分算法跑满速度只吃150W。手上没有20系卡没有对比测试
评论
1660ti那个独立的fp16单元,我其实很怀疑只是nv的障眼法。因为fp32本身可以实现双倍速的packed fp16了,专门改一个这玩意儿来模拟tensor特性,各方面来看,都是不合算的,架构改动也会比较大。我还是倾向于nv只是砍了7/8的tensor core而已。
评论
我记得好像还有1.3/ghz水冷黑泰坦用户
评论
gp100明确fp32单元可以packed 2 fp16,gp102以下是一倍fp32,v100支不支持没找到,你测试volta turing的情况是怎样的
媒体的说法是turing基本的双倍速fp16是tensor执行的,tensor同时支持矩阵fma操作和常规的fma操作,阉割了tensor只能拿基本的fp16单元凑,支持哪个什么降精度渲染
each Tensor Core performs 64 FMA fp16 operations per clock
v100 each Tensor Core 内部正好64个小格子
评论
话说GTX1660Ti的TU116是不是完整核心?是不是256bit阉割成192bit?
评论
完整的,哪儿来256bit
NV至少从GM206开始就这样玩pin to board了
空焊就空焊
评论
我没看错的话,这图里A卡是不是漏了fury x,这卡当初不是被当成战未来的代表吗
评论
换了核心架构师 走了另外一条路 走核心大面积 N卡加入提高了A卡引以为傲的单浮点运算 削弱了coda什么的那个废物运算 高端卡再加大位宽 这让A卡怎么活 再加制程工艺提高 65-55-45-35-28-22-14-10-7 算算性能翻几倍
评论
从外行看 我感觉maxwell这代设计改变非常大 sp变多 频率也一下子就上去了
其它几代只能说虽然架构变化比A卡多 但也没那么显著吧 看一些解说 似乎主要是针对性做一些优化调整
评论
这么一本正经胡说八道的文章可以的
评论
文章翻译自歪果仁的视频。
评论
在我看来,pascal其实是比较成功的一代,虽然木dlss,但是至少目前大部分还是可以得,又木有现在的各种问题,性价比而言过得去~~
评论
么么
评论
文章本身没问题,只是答非所问罢了
评论
我还记得当年的GK104当年无敌的能耗比,打得按摩店全家灰头土脸,那时的780ti简直神一样,一转眼就只能垫底了
评论
显存也是很大原因..
所以1160 6g...
评论
前面好多专家,完全看不懂
评论
砍了某些和游戏无关的计算单元
功耗骤降 砍得貌似是双精度?
评论
当时的游戏能和现在的比么,只能说开普勒架构已经被游戏发展趋势抛弃了
评论
GP106的核心有完整256bit的,只是用在自动驾驶平台上...
评论
并不是,你怕是把最开始那个渲染图当真了
DrivePX2-1.jpg (103.96 KB, 下载次数: 0)
这个图上实际上是两个GM204
仔细看,这才是真正的DrivePX2
f2fa07f9d479b71de8685812e48ac480.jpg (59.65 KB, 下载次数: 0)
DrivePX2.jpg (217.51 KB, 下载次数: 0)
DrivePX2那个卡,咸鱼之前就有,阉割到了128bit,4GB显存
要还不信,那就只能看die shot了(摊手
左边GP104,右边GP106
蜂蜜浏览器_GP104-GP106.jpg (436.1 KB, 下载次数: 0)
评论
和几年前的驱动相比,性能有没有较大变化?是变强了还是变弱了?
评论
好的,了解,看来可以考虑来一块...话说DIE Shot在哪里可以找到?
评论
https://www.flickr.com/photos/13 ... h/72157650403404920
这里290x的4gb显存和512位宽还是战了未来的,虽然不知道有多少290x用到后面缩缸降频。。。
评论
妳是不是被龙龙赋予了什么特权啊……同一个帖子的回复提醒,就妳单独列出来,其他人都被合并了。
Capture.JPG (55.27 KB, 下载次数: 0)
电路 电子 维修 求创维42c08RD电路图 评论 电视的图纸很少见 评论 电视的图纸很少见 评论 创维的图纸你要说 版号,不然无能为力 评论 板号5800-p42ALM-0050 168P-P42CLM-01 电路 电子 维修 我现在把定影部分拆出来了。想换下滚,因为卡纸。但是我发现灯管挡住了。拆不了。不会拆。论坛里的高手拆解过吗? 评论 认真看,认真瞧。果然有收
·日本中文新闻 唐田绘里香为新剧《极恶女王》剃光头 展现演员决心
·日本中文新闻 真子小室夫妇新居引发隐私担忧
·日本中文新闻 前AKB48成员柏木由纪与搞笑艺人交往曝光
·日本学校 {日本国际学校}梅田インターナショナルスクール
·日本学校 LINE:sm287 陳雨菲、20歳、台湾からの留学生、東京に来たばかり
·日本留学生活 出售平成22年走行48000km 代步小车
·日本华人网络交流 円相場 一時1ドル=140円台まで上昇?
·日本华人网络交流 问日本华人一个问题
·日本旅游代购 富山接机
·生活百科 英国转澳大利亚转换插头
·汽车 【求助】修车遇到困难怎么办?