日本电子维修技术 显卡NVIDIA解释了翻倍fp32单元的来源
[Tony Tamasi] u / redsunstar Ampere 30系列SM的主要設計目標之一是,與Turing SM相比,使FP32操作的吞吐量提高一倍。為了實現此目標,Ampere SM包括針對FP32和INT32操作的新數據路徑設計。每個分區中的一個數據路徑由16個FP32 CUDA內核組成,每個時鐘能夠執行16個FP32操作。另一個數據路徑包括16個FP32 CUDA內核和16個INT32內核。作為這種新設計的結果,每個Ampere SM分區每個時鐘能夠執行32個FP32操作,或者每個時鐘能夠執行16個FP32和16 INT32操作。所有四個SM分區組合在一起,每個時鐘可執行128 FP32操作,這是Turing SM FP32速率的兩倍,或者每個時鐘執行64 FP32和64 INT32操作。
將FP32的處理速度提高一倍,可以提高許多常見圖形以及計算操作和算法的性能。現代著色器工作負載通常混合使用FP32算術指令(例如FFMA),浮點加法(FADD)或浮點乘法(FMUL),並結合更簡單的指令(例如用於地址和獲取數據的整數加法,浮點比較或最小) / max用於處理結果等。根據指令的混合,在著色器和應用程序級別上的性能提升將有所不同。光線跟踪降噪著色器是很好的示例,可以通過使FP32吞吐量增加一倍而大大受益。
要使數學吞吐量增加一倍,就需要將支持它的數據路徑增加一倍,這就是為什麼Ampere SM還將SM的共享內存和L1緩存性能提高一倍的原因。 (每個Ampere SM為128字節/時鐘,而在Turing中為64字節/時鐘)。 GeForce RTX 3080的總L1帶寬為219 GB /秒,而GeForce RTX 2080 Super則為116 GB /秒。
像以前的NVIDIA GPU一樣,Ampere由圖形處理群集(GPC),紋理處理群集(TPC),流式多處理器(SM),光柵運算符(ROPS)和內存控制器組成。
GPC是主要的高級硬件模塊,所有關鍵圖形處理單元都位於GPC內部。每個GPC都包含一個專用的Raster Engine,現在還包括兩個ROP分區(每個分區包含八個ROP單元),這是NVIDIA Ampere Architecture GA10x GPU的新功能。有關NVIDIA Ampere架構的更多詳細信息,請參見NVIDIA的Ampere架構白皮書,該白皮書將在未來幾天內發布。
评论
这也解释了,为什么浮点性能翻倍,实际性能只提升六七成的原因,这个新增的fp32单元是跟int32单元打包在一块的,和int32单元不能并发执行 电路 电子 维修 我现在把定影部分拆出来了。想换下滚,因为卡纸。但是我发现灯管挡住了。拆不了。不会拆。论坛里的高手拆解过吗? 评论 认真看,认真瞧。果然有收 电路 电子 维修 求创维42c08RD电路图 评论 电视的图纸很少见 评论 电视的图纸很少见 评论 创维的图纸你要说 版号,不然无能为力 评论 板号5800-p42ALM-0050 168P-P42CLM-01
·日本中文新闻 唐田绘里香为新剧《极恶女王》剃光头 展现演员决心
·日本中文新闻 真子小室夫妇新居引发隐私担忧
·日本中文新闻 前AKB48成员柏木由纪与搞笑艺人交往曝光
·日本学校 {日本国际学校}梅田インターナショナルスクール
·日本学校 LINE:sm287 陳雨菲、20歳、台湾からの留学生、東京に来たばかり
·日本留学生活 出售平成22年走行48000km 代步小车
·日本华人网络交流 円相場 一時1ドル=140円台まで上昇?
·日本华人网络交流 问日本华人一个问题
·日本旅游代购 富山接机
·生活百科 英国转澳大利亚转换插头
·汽车 【求助】修车遇到困难怎么办?