日本电子维修技术 显卡助力Nvidia Volta GV100的台积电“12nm”工艺制程
助力Nvidia Volta GV100的台积电“12nm”工艺制程介绍
https://pc.watch.impress.co.jp/docs/column/kaigai/1092110.html
作为目前最强晶圆代工厂的台积电在10月24日到26日于美国苹果市举办的ARM 技术峰会2017(ARM Techcon 2017)中展示了自己极具前瞻性的工艺制程路线图。其中展示了台积电的一种特殊战略,即在传统的工艺节点之间插入中间节点作为过度。台积电的实际情况就是,在16nm和12nm之间插入10nm节点,在28nm和20/16nm之间插入22nm。虽然12nm和22nm来自不同类型,但都来派生于主要节点,比如12nm来自于16nm,22nm来自于28nm。
各家晶圆厂的路线图
今年台积电的工艺制成技术展示,特意加上了12nm和22nm
台积电的12nm目前所知有三种规格:现在已经开始处于design in状态的12FFC,Nvidia定制版12FFN,以及低功率版的12ULP。采用12nm的12FFC相对于16nm的16FFC在核心面积上减少了20%。但在相同功耗条件下,性能却只有10%的提升,可以看作是能耗降低同时提高了频率此消彼长的结果。
台积电的12nm 12FFN制程用于Nvidia最新的GPU Volta的核心构架GV100上。GV100拥有210亿个晶体管,半精度浮点(FP16)的深度学习性能达到了210TFLOPS。而Volta的高性能源泉就是来自于台积电聚天地之精华的12nm工艺制程。
过去微型化的趋势变化
过去的工艺制程微缩化,是通过减少晶体管门电路之间的间隔(Gate Pitch,或称Contacted Poly Pitch)和减少最小金属布线间距(Minimum Metal Pitch),从而降低晶体管面积、或逻辑电路面积、或SRAM格栅面积(取决于用途)。但如今仅仅微缩CPP和MMP的规模逐渐难以获取足够的布线密度或SRAM密度。随着规模细微化的进步,虽然feature size进一步缩小,但实际上集成度并没有按照同等比例缩小。
所以,作为半导体必须寻找除了CPP或MMP这些所谓feature size以外的要素,进行优化从而提高集成度。其中的王牌就是被称为标准单元(standard cell)设计的革新,即Design-Technology Co-Optimization(DTCO)。
各厂工艺制程的feature size
标准单元于feature size的对照
在去年的ARM Techcon中在介绍DTCO的时候,也说了一些过去是笑话,如今也变成了选项之一的发想。比如,不能从激活的门电路上接触(contact)一个单元,所以必须配置没有有源器件(active device)的死区(dead space)。不过如今已经有了通过激活中的晶体管接触的方法,比如Intel采用了被称为“Contact Over Active Gate”的技术。通过该技术,减少了晶圆上的死区配置,虽说单元的尺寸进一步减少了,但制造的时候出现问题的可能性也高出了不少。
此外,通过缩小两个组件之间的间隔从而达到减少单元尺寸的技术也出现了,这是一种被称为Single Diffusion Break的技术,也是目前的焦点之一。所谓的Diffusion Break就是在相邻的源级(source gate)和漏级(drain gate)之间划出一道渠道用以分割晶体管。以往的技术是在两个dummy gate之间切出一条渠道,即“Double Diffusion Break”,而在三星更新的14nm工艺制程中,导入了一种叫做SDB(Single Diffusion Break)的技术,即在一个dummy gate中间切分分割渠道的技术。
以前在两个相邻的晶体管之间必须空出两个dummy gate的空间来,在应用了SDB的工艺制程中,只需要一个dummy gate就可以做到分离。SDB是在DRAM中广泛应用的掘渠技术,由这方面经验丰富的三星率先引入,其他厂商也很快就跟进了。
还有一些,比如以往只在标准单元的上下方配置电源布线(power lane),如今也出现了和标准单元重叠布线(overlap)的构架,如今也逐渐变成了主流。
SDB技术示意图
标准单元规格缩小到6T(track)的12nm工艺制程
随着工艺制程技术的成熟,各晶圆厂也逐渐加大了更小单元高度库的开发,同时应用了更先进的电路设计,进一步微缩单元。单元库从9 track或7.5 track开始向6 track缩小,同时导入上文提到过的SDB技术,进一步缩小尺寸。
标准单元设计的单元高度变化
尺寸的变化
从这里开始因为市场战略等无聊的因素,接下来工艺节点的命名开始变成了数字游戏。结果就是本来只是以16nm工艺制程技术为基础,通过导入了较小的标准单元,就这样“完成”了自称12nm的工艺制程技术。当然这个“12nm”本身也对自身技术有所改进,多少提高了集成度,是一种可以容纳更多晶体管单元的构架。
具体的如上文已经阐述过的,台积电提供的16FF/16FF+采用的是9T和7.5T的标准单元库设计(晶圆厂提供技术指标,然后由芯片设计厂自己来设计),而16FFC采用的是7.5T标准单元库设计,在12FFC中,进化到了6T库设计。另外在16FF+中仅在GPU中采用的SDB,在12FFC中也成为了标准配置。
这种采用更低高度的标准单元之所以变成后来工艺制程技术的主流主要是随着工艺制程技术的改良单位鳍片(fin)的电流驱动强度。随着单位fin的电流驱动能力提升,相同fin数之下性能就会提升,这样可以在保持性能的前提下减少fin的数量。这样才能降低单元的高度,采用低高度标准单元的构架。
目前16nm/14nm之下标准单元track于fin数量的关系
另一个方面SDB这样的技术也和工艺制程成熟度有关系。总的来,类似DTCO这种的技术说对于代工厂的宗旨“设计服务于制造”的理念相悖。等待工艺的成熟和安定,那么新的设计也更容易实现。
除了采用了微缩标准单元设计架构外,基本没什么长进的“12nm”技术
如上文所述,通过改良标准单元设计集的单元高度和采用新架构的方式,台积电缩小了标准单元设计集的平均高度,实质上提升了集成度。12FFC对比起16FFC还是有10%的面积缩小,同时当然还有能耗降低,性能上升这些老生常谈的废话了。不过这些提升基本上都是优化单元高度设计和构架的效果。
换句话说除了标准单元的设计变化外,16FFC和12FFC基本上没什么区别。“到底用什么基准来比较合适呢,我觉得如果以标准设计库中的单位track性能来比较的话,可以说两者基本没区别”Arm的Kelvin Low评论道。
台积电可能是觉得单纯在16nm中采用6T的标准单元库设计就可以提高集成度,换算成工艺制程节点差不多就12nm左右吧就你了,基于这种考虑,就直接冠名了12nm。顺着这种神奇的逻辑,16FFC换成14FFC也不错。那个时候,各厂的市场部门还未想到工艺节点的数字游戏玩法。
随着台积电这种采用6T库设计就直接宣称为12nm的行为,其他晶圆厂纷纷不甘示弱。GF:14nm=>12nm,三星:14nm=>11nm,10nm=>8nm,各厂市场部最强大的数字游戏战士在战场上呼风唤雨。不过台积电仍然是其中的佼佼者,直接将28nm的物联网向工艺制程明明为22nm拿出来卖。事到如今,工艺制程节点命名的混乱已经无法收拾了。
对GPU好处很多的6T “12nm”
当然,小型化标准单元是一种折中方案。单元高度较低,同时也代表性能没那么好。基于这一点,6T设计通常难以用于频率很高的CPU工艺制程,同时SDB技术也不能说对性能没影响。
晶圆厂的6T库设计听起来好像是又小又好,实际上有很多需要慎重考虑的地方。首当其初的自然是性能会降低,单元高度越低性能越差,这是理所当然的。Kelvin Low。
不过对于GPU这种并不追求频率,而追求ALU的密度来说,越小的标准单元越好。将单元体积压缩到极限,安装尽可能多的alu,可以获得巨大的并行性能。这也是为什么Nvidia Volta构架的GV100要采用台积电的12nm 12FFN制程了。顺便说下12FFN是Nvidia的专属定制制程,Nvidia以外的叫12FFC。
NV的Volta构架中继承了巨大数量的FP16运算单元Tensor core。其结果就是在深度学习常用的FP16性能达到了惊人的120TFLOPS。GV100的核心面积有惊人的815mm2。这个性能这个面积,采用以前的库设计是很难达到的。
这么看来之所以Volta拥有如此惊人的深度学习性能,基本上就是受益于台积电的所谓“12nm”工艺制程的成果。能想到的不仅仅是nvidia,其相爱相杀的友商AMD也有同样的想法。这样一来AMD的好基友GF这么积极的推出12nm也是情理之中的事情。具体情况尚不明良,不过GF的12nm和台积电的12nm据推测也是差不多的东西。
AMD的情况有点复杂,因为它有CPU和GPU统合在一起的APU处理器,这个6T设计是否也能用于CPU上呢,我们持目以待,如果不适合CPU,可能在APU中同时应用两种制程也不是不可能,CPU接着用7.5T,GPU用6T。实际在以往的APU中,GPU的面积一直都比CPU大一些,那么采用6T单元获得的好处要多一些。
本来台积电 是准备为移动设备或物联网设备的市场准备的,但是因为Nvidia GV100开发的要求,使用10nm风险太大,16nm性能核心比又难以平衡,也就强行开发了这个所谓12nm。结果这个12nm在GPU领域大放异彩,甚至引领了整个业界的流向。
评论
这几代老黄新产品推进速度已经全面领先苏妈了
评论
也就intel一直 14nm 14nm+ 14nm++
评论
所以6T密度高了却不适合传统意义上的高性能,但是Volta无脑堆核心所以无所谓。我理解的对么
评论
粗一点的说,应该是符合高并行性能,不符合高单核性能。
评论
可以对比下牙膏14++和其他家12nm的参数对比
评论
12nm 支持 9T/7.5T/6T 6T用于mobile 我相信GV100大部分还是9T/7.5T的 所以GV100的晶体管密度是基本没有提升的
12FFC跟16FFC的差别还是有的 16FFC Mxa minimum pitch 是 64 12FFC Mxa minimum pitch 是 48 这也是可以实现 6T standard cell 的关键 另外还有工艺流程的优化 才有了功耗的降低
22nm是在28nmhpc+的基础上再做了90%的optical shrink 从官方benchmark来看跟GF22FDX有得一比
评论
我感觉越来越热了
评论
tsmc 7nm 的集成度还是比 Intel 10nm 好上一点点的
评论
其他家7nm 的Vmin挺好
评论
AMD这边明年底如果上GF 7nm和这个12nm比如何呢
评论
TSMC的7nm参数还不如GF亮眼。 电路 电子 维修 求创维42c08RD电路图 评论 电视的图纸很少见 评论 电视的图纸很少见 评论 创维的图纸你要说 版号,不然无能为力 评论 板号5800-p42ALM-0050 168P-P42CLM-01 电路 电子 维修 我现在把定影部分拆出来了。想换下滚,因为卡纸。但是我发现灯管挡住了。拆不了。不会拆。论坛里的高手拆解过吗? 评论 认真看,认真瞧。果然有收
·日本中文新闻 唐田绘里香为新剧《极恶女王》剃光头 展现演员决心
·日本中文新闻 真子小室夫妇新居引发隐私担忧
·日本中文新闻 前AKB48成员柏木由纪与搞笑艺人交往曝光
·日本学校 {日本国际学校}梅田インターナショナルスクール
·日本学校 LINE:sm287 陳雨菲、20歳、台湾からの留学生、東京に来たばかり
·日本留学生活 出售平成22年走行48000km 代步小车
·日本华人网络交流 円相場 一時1ドル=140円台まで上昇?
·日本华人网络交流 问日本华人一个问题
·日本旅游代购 富山接机
·生活百科 英国转澳大利亚转换插头
·汽车 【求助】修车遇到困难怎么办?