SIGGRAPH 2018 - NVIDIA CEO Jensen Huang - Reinventing Computer Graphics 视频
光线追踪技术提出非常早,在很久以前的电影特效和渲染中就以得到广泛的使用。但由于其复杂的特性和运算量,无法实时渲染。在DX10 中,微软就添加了相应的接口,在性能的逐步增加之后,部分游戏开始使用,但依旧不是整个画面全局使用,而是一小部分。实时光线追踪核心的引入,能让整个游戏画面看起来更真实。
花了10年打造的图灵,被老黄称为DX10统一渲染架构G80之后,改变最大的架构硬件光线追踪,tensor辅助加速将绑入传统GPU渲染流水线,主要目的还是在有限的晶体管资源下实现光线追踪画质,或者是减少硬件投入。黄仁勋播放了 5 个月前的演示视频:两个背地里说黑武士坏话的帝国风暴兵被罚到雪地里站岗(老黄是星球迷)。
并公布了答案:一台搭载4块Tesla V100显卡的DGX-Station超级计算机才能完成光线追踪所需要的计算力,但是现在,只用了一块 GPU 完成视觉渲染。图灵在更小的规模上,达到了Volta级别的性能。
一块RTX Titan抵 四块 Titan V
the more you buy,the more you save
邪教,果真是邪教!
再一个例子,rtx服务器仅占CPU渲染农场成本的四分之一!
好吧,我入还不行么?
图灵买来,除了晒开箱,唯一能炫耀的就是
“你要电影原画壁纸么?五毛一张”
rtxplatform1.png (295.79 KB, 下载次数: 0)
图灵除了sm结构和cuda计算特性继承volta,还带来了Ray Tracing、AI-Accelerated Features (NGX)、Rasterization (Advanced Shaders)、Simulation (CUDA 10, PhysX, Flex、Asset Interchange Formats (USD, MDL)等特性,详见 NVIDIA RTX™ platform,RTX平台指定就是turing GPU
【Volta继承部分】
通过使用单独的并行整数和浮点数据路径,Volta SM在处理包含计算和寻址计算的混合工作负载时也更为高效;
新式独立线程调度功能,Volta 可在并行线程之间实现更精细的同步与合作;
L1数据缓存和共享内存单元的全新组合,在大幅提升性能之余更简化了编程。
TIM截图20180815111801.png (245.67 KB, 下载次数: 0)
Rasterization 和 Simulation 等游戏卡发布再说,重点是Tensor Cores、RT Cores和NVLink
===============================
NVIDIA在发布会上就提出了2个 Tensor Cores在游戏的适用领域,即DLAA和光线追踪辅助。这两个技术的目的都是一致,通过AI的辅助,提升整卡的运行效率。
22.jpg (96.29 KB, 下载次数: 0)
通过DLAA深度学习抗锯齿,和适度AI学习及模型的配合下,其效果相比原有基于算法的FXAA、MSAA效果会更好,处理时间也更少。深度学习也能辅助光线追踪算法,剔除在某些场景和画面中不需要追踪的光线,以腾出性能来追踪那些决定画面关键的光线以提高表现力。这些改变让Turing在光线追踪并附加DLAA之后,图像处理速度依然笔Pascal快6倍。
RT core的主要用途是加速对于光线追踪的计算,它加速了一些主流的光线追踪算法(ray-triangle intersection checks and bounding volume hierarchy),最快每秒可以投射100亿条光线,和前代未加速的Pascal相比,性能提高25%。
21.jpg (71.4 KB, 下载次数: 0)
==========================
NVIDIA计划将这些AI辅助图像的功能打包为一个SDK,叫NGX并进行整合,以方便开发者的调用。
现阶段NGX只能DLAA&提升图片分辨率&视频调速&ai p图,在未来,深度学习AI和游戏实时渲染整合是大势所趋。
4K像素和特效全开,很多游戏都不能达到60Fps,但如果你使用1080P或720P,甚至可以轻松达到CG级甚至电影级画质,在经过实时AI后处理之后,依然可以在少量损失下达到”假4K“级别的分辨率。到底是追求像素还是画面的冲击力,成为了每个厂商需要思考的问题。目前的单芯片已经达到了瓶颈,多芯片互联的高成本和优化问题下,减少渲染部分总体积,加大AI面积,已经成为大势所趋。
双立方差值 vs AI up res
Tensor Cores、RT Cores相当耗费晶体管,以至于70和80用了两款核心,砍25% RT+Tensor+CUDA可能就有30亿晶体管了
AI和光线追踪核心并不会普及到所有产品线,仅在70和80系以上作为试水,待一轮更新之后,再加入其中低端游戏显卡。
Tensor Cores、RT Cores和NVLink在TU10x RTX系上会装备,在TU11x核心 GTX上不一定能看见
==============================NVLINK的速度更快,带宽100Gb/s,双卡之间的显存可以互相访问,基本可以认为两张卡可以算作为一张卡。传统的双卡技术则很难同步,在需要显示游戏时是以AB帧交替来渲染,如果一张卡渲染延迟稍高,那么性能就会有损失。
在新架构中,NVIDIA使用了统一内存,新的架构能直接访问CPU内存,提高了整体的能效,减少了数据传输带来的延迟。依靠NVlink,能实现CPU和GPU的缓存一致性。
NVlink的研发借由OpenPOWER Foundation,NVIDIA只是其中一员,NVlink的技术也非常开放,可以用于很多大规模高性能平台的互相桥接和连接,减少中间带来的损耗。
在大核心单芯片,目前工艺的瓶颈下,NVIDIA选择重回双卡是不得以而为止。据传NVIDIA已经将其下放到Geforce系列,以将性能提高为4K 60Fps的准4k水平。未来,NVlink很有可能替代GPU到CPU的连接。
TIM截图20180815132957.png (71.74 KB, 下载次数: 0)
TIM截图20180815172544.png (159.36 KB, 下载次数: 0)
Turing的架构常规升级,还有8K HEVC解码、VirualLink和Type C输出的支持。其中Type C不仅支持DP 1.4标准的图像传输,还支持10Gbps的数据传输,让一些一线通显示设备不再尴尬。
11443a87e950352a4a748c3a5e43fbf2b2118b26 (1).jpg (196.1 KB, 下载次数: 0)
5BED9F1365070ADC4CDC316BE67B9EAB.jpg (84.25 KB, 下载次数: 1)
TU102 nvlink通道更多
卡吧看的,真假未知,先存着
RTX 2080TI 4352sp 352bit 88rop 11GB 14Gbps
RTX Titan 预计完整版
图灵挤牙膏?不存在的
Jensen Huang:瞧瞧这闪瞎狗眼的光追效果
评论
这卡的性能还是没达到预期,持币观望等下一代了
评论
这代能耗比大概提升20-25%吧,看最终频率
评论
上一代40%
评论
980ti超到10400也有330w了吧,1080 180w解决
评论
部分参数比VOLTA退步了,ROP SHADER Tensor 都少了,如果VOLTA也做到这个频率,只会更强
评论
一起出2080,2080Ti?
评论
volta 815平方毫米,又不是the king塞电热丝
评论
volta做不到那么高频率,volta是非常通用的核心,有双精度单元,这个turing是比较专用的核心。
volta和turing的定位差大概就是这里,通用型的超算还是只能选着volta,turing看起来就是为渲染农场准备的。
评论
终于可以买TITAN XP了
评论
那就买星战吧?
其实可以考虑一下ttv了,明天就涨价2000元了
评论
现在规格基本明了 ,现在唯一的看点就是图灵核心的频率潜力
评论
阉割货TTV没兴趣,只买完整核心的
评论
TTV的cuda core一点没有阉割啊
加上瘦死的骆驼比马大
评论
5120不是完整的,完整的是5376(84组SM)
评论
TTV也是阉割了一点CUDA的,而不哪怕不算砍掉的ROPS以及显存等还缺失了RT加速单元。
评论
请问你见过完整的了吗?从gv100这个大核心出来的一年多,tesla到quadro都是这个cuda数,就证明不会再有所谓的完整版,既然没有完整,何来阉割?如果你非要说这是阉割,那GP102也可以是从GP100方案里阉割掉了1920个dp的cuda core
评论
是这样啊,所以不知道为什么很多人“不喜欢阉割的核心”,但又不买Quadro那些带双精度的完整版本
评论
GV100还是性能一哥咯?
评论
gv100没有rt单元。。。只能作tensor 辅助加速
评论
gv100和turing对位的指标都是落后的(16 vs 15,110 vs 125,主要是默认频率低)。但它有双精度单元,是唯一指定通用型计算核心。
评论
游戏卡能不能把tensor和双精度都阉掉,只保留RT?
评论
『RT core的主要用途是加速对于光线追踪的计算,它加速了一些主流的光线追踪算法(ray-triangle intersection checks and bounding volume hierarchy),最快每秒可以投射100亿条光线,和前代未加速的Pascal相比,性能提高25%。』
原文里应该是25倍... - -
评论
没什么问题,这就是事实了。
评论
tensorcore用于降噪
评论
音质好的不应该是A卡?
评论
强迫症罢了
但是追求这个“完整”代价越来越大
黄老板在没有竞争的环境下完全有理由有可能逼死强迫症
最简单的,主流消费产品首发都阉割一下,看势头差不多,产品生命周期差不多完结了再补完
消费者们纷纷怀念过去GTX680, 980, 1080这种“完整”代价相对并不大的良心产品
评论
但是看起来50+ms一帧 光线追踪还是 有些慢
评论
再贴下去年nvidia在siggraph的这两篇文章,奠定了目前rtx技术基础的。
有空我可以给大家解读下。
http://research.nvidia.com/publi ... recurrent-denoising
http://research.nvidia.com/publi ... ing-Light-Transport
评论
半强迫症吧,只考虑物理上有没有阉割/屏蔽,不管在谱系上是不是阉割的
期待大作
评论
频率潜力让大家失望了。。。TU这个core频率比pascal要低很多很多
评论
其实现在主要是开始开展tensor core的应用了
评论
要想想,也许这次发布的是挨过刀的非完整版呢?
评论
我是看网上对于GP102的完整核心报告, 写得是84组SM
评论
咋地没写2080Ti,只写2080比1080Ti强了8%?
评论
15%也有可能
评论
15%也有可能
评论
没有开启所有的SM,GV100有84组SM,TITAN V屏蔽了4组SM
评论
架构图官方给了,所以说不是阉割的怕是杠精
评论
嗯,没错,但不是titan V屏蔽了4组SM,是所有volta都屏蔽了
评论
是啊,但你看看Pascal的白皮书的图,完整吗?阉割了没?
pascal.jpg (293.28 KB, 下载次数: 0)
评论
这是GP100的图哦,成品也都是少开4组SM的
评论
没错啊,他们非说GP100和GV100都是阉割的,问题是本来就没有完整的,何来阉割?
评论
反正不是完整芯片,本来就没有完整的那叫不阉割???
评论
你喜欢怎么理解就怎么理解吧,都无所谓的
我的观点就是tesla这类GX100大核心就是一个架构的原始版,102 104都是从GX100阉割下去的,但就是因为大核心的良率问题,导致到淘汰都没有所谓的完整版
评论
GV100默认也不高,超频还是可以的。
应该说功耗限制了默认频率。
评论
rtx6000 270w
评论
有看到。
挺好啊,反正这次公版的2080ti(?)是8+8实锤的,2080都有8+6
末代1xnm节点,NV玩得挺嗨的,功耗给足了
评论
跑一般的游戏,tensor rt不工作,可能还是250w
评论
核心面积太大了吧
感觉TU有些地方稍有遗憾,没有用上7nm以实习更高的密度
SkHynix和Micron没能提供2Gb GDDR6
另外比较蛋疼的是这代卡的销售周期……无论如何2020上半年AMD该拿出用7nm的新一代硬件了,大概和GM20X一样
评论
感觉游戏卡被越抛越远了
评论
现在能显存叠加了,下一代都不一定会给你2Gb
48+48GB的quadro都能把整个游戏放进去
评论
可能不止这个,16相ttv目前看到能跑分的频率极限也就2.25,7相的公版1080ti都可以2.4,10相的kp能上2.5-2.6
评论
是不是电脑特效成本降低
主流电视剧以后还会有5毛特效?
评论
能省一点是一点 电路 电子 维修 求创维42c08RD电路图 评论 电视的图纸很少见 评论 电视的图纸很少见 评论 创维的图纸你要说 版号,不然无能为力 评论 板号5800-p42ALM-0050 168P-P42CLM-01 电路 电子 维修 我现在把定影部分拆出来了。想换下滚,因为卡纸。但是我发现灯管挡住了。拆不了。不会拆。论坛里的高手拆解过吗? 评论 认真看,认真瞧。果然有收
·日本中文新闻 唐田绘里香为新剧《极恶女王》剃光头 展现演员决心
·日本中文新闻 真子小室夫妇新居引发隐私担忧
·日本中文新闻 前AKB48成员柏木由纪与搞笑艺人交往曝光
·日本学校 {日本国际学校}梅田インターナショナルスクール
·日本学校 LINE:sm287 陳雨菲、20歳、台湾からの留学生、東京に来たばかり
·日本留学生活 出售平成22年走行48000km 代步小车
·日本华人网络交流 円相場 一時1ドル=140円台まで上昇?
·日本华人网络交流 问日本华人一个问题
·日本旅游代购 富山接机
·生活百科 英国转澳大利亚转换插头
·汽车 【求助】修车遇到困难怎么办?