日本电子维修技术 显卡NVIDIA解释了fp32翻倍的细节
[Tony Tamasi] u / redsunstar Ampere 30系列SM的主要設計目標之一是,與Turing SM相比,使FP32操作的吞吐量提高一倍。為了實現此目標,Ampere SM包括針對FP32和INT32操作的新數據路徑設計。每個分區中的一個數據路徑由16個FP32 CUDA內核組成,每個時鐘能夠執行16個FP32操作。另一個數據路徑包括16個FP32 CUDA內核和16個INT32內核。作為這種新設計的結果,每個Ampere SM分區每個時鐘能夠執行32個FP32操作,或者每個時鐘能夠執行16個FP32和16 INT32操作。所有四個SM分區組合在一起,每個時鐘可執行128 FP32操作,這是Turing SM FP32速率的兩倍,或者每個時鐘執行64 FP32和64 INT32操作。
將FP32的處理速度提高一倍,可以提高許多常見圖形以及計算操作和算法的性能。現代著色器工作負載通常混合使用FP32算術指令(例如FFMA),浮點加法(FADD)或浮點乘法(FMUL),並結合更簡單的指令(例如用於地址和獲取數據的整數加法,浮點比較或最小) / max用於處理結果等。根據指令的混合,在著色器和應用程序級別上的性能提升將有所不同。光線跟踪降噪著色器是很好的示例,可以通過使FP32吞吐量增加一倍而大大受益。
要使數學吞吐量增加一倍,就需要將支持它的數據路徑增加一倍,這就是為什麼Ampere SM還將SM的共享內存和L1緩存性能提高一倍的原因。 (每個Ampere SM為128字節/時鐘,而在Turing中為64字節/時鐘)。 GeForce RTX 3080的總L1帶寬為219 GB /秒,而GeForce RTX 2080 Super則為116 GB /秒。
像以前的NVIDIA GPU一樣,Ampere由圖形處理群集(GPC),紋理處理群集(TPC),流式多處理器(SM),光柵運算符(ROPS)和內存控制器組成。
GPC是主要的高級硬件模塊,所有關鍵圖形處理單元都位於GPC內部。每個GPC都包含一個專用的Raster Engine,現在還包括兩個ROP分區(每個分區包含八個ROP單元),這是NVIDIA Ampere Architecture GA10x GPU的新功能。有關NVIDIA Ampere架構的更多詳細信息,請參見NVIDIA的Ampere架構白皮書,該白皮書將在未來幾天內發布。
评论
圖形處理群集(GPC)与后面的光柵運算符(ROPS)重复了?
还是说ROP里面的rop并不一样?
评论
昨天看了 这就是说fp32数量有1/3的水分
评论
这里的寓意是和内存控制器解除绑定。
评论
这么一想 浮点和整数又是3比1了
评论
所以说实际传统游戏,同频单元性能也就原来2系的2/3?10000单元等效7000?那倒是挺容易换算的。。。 电路 电子 维修 求创维42c08RD电路图 评论 电视的图纸很少见 评论 电视的图纸很少见 评论 创维的图纸你要说 版号,不然无能为力 评论 板号5800-p42ALM-0050 168P-P42CLM-01 电路 电子 维修 我现在把定影部分拆出来了。想换下滚,因为卡纸。但是我发现灯管挡住了。拆不了。不会拆。论坛里的高手拆解过吗? 评论 认真看,认真瞧。果然有收
·日本中文新闻 唐田绘里香为新剧《极恶女王》剃光头 展现演员决心
·日本中文新闻 真子小室夫妇新居引发隐私担忧
·日本中文新闻 前AKB48成员柏木由纪与搞笑艺人交往曝光
·日本学校 {日本国际学校}梅田インターナショナルスクール
·日本学校 LINE:sm287 陳雨菲、20歳、台湾からの留学生、東京に来たばかり
·日本留学生活 出售平成22年走行48000km 代步小车
·日本华人网络交流 円相場 一時1ドル=140円台まで上昇?
·日本华人网络交流 问日本华人一个问题
·日本旅游代购 富山接机
·生活百科 英国转澳大利亚转换插头
·汽车 【求助】修车遇到困难怎么办?