RTX2080TI评测解禁了,大家都在关注游戏性能提升、DLSS之类的(RTX?暂时没有游戏……)
不过这一代卡的相当多的变化能让机器学习受益:
1.更大的显存容量(Geforce系列无缘)
2.支持FP16运算
3.带有TensorCore
4.更高的基础浮点性能
5.NV LINK
tu102_table.jpg (267.1 KB, 下载次数: 0)
第一点只有Quadro系列能享受到(Quadro RTX8000最为受益)暂且不谈,第二点对于混合精度训练有帮助,但似乎大部分情况下用FP32训练更流行。不过至少可以拿来实践一下。Tensor Core之前使用的限制条件非常多,不过NV观望上最新的cuDNN7.2的介绍写着“TensorCore acceleration with FP32 inputs and outputs”,暂时不知道详细情况(cudnn-release-notes里写着有7.2.1但是点进去没反应,PDF版里面仅更新到7.1.4,如果有NV的人看到或许可以帮忙反映一下?)。
cudnn72.jpg (120.07 KB, 下载次数: 0)
个人认为用TensorCore加速训练还是一个未来的趋势吧,只是当前的软件框架/模型限制了其应用。
基础浮点性能有一定提升(不过代价太大),显存带宽提高但是访问延迟变化情况暂时未知。缩水版的NV-LINK带宽略高于PCI-E,而且可以直连,暂时不知道实际效果如何。
评论
哦这东西终于粗线了啊老黄也是能憋
话说,对比卡里为什么不放TTV?
TensorCore其实是个好东西
如果,老黄能卖的便宜点的话<---这是超级老黄历
据说这一发TensorCore比Tesla V100上的有不少提升? <---可以认定是我猜的
emm…等树导师测评
评论
让利卡,1w能买到以前2w多才能用的tensor core。
评论
NVIDIA Turing GPU Architecture White Paper里没有写,估计不想强调这方面的性能吧
Turing上的TensorCore多加了INT8和INT4,暂时不知道DL里怎么用
评论
软件框架/模型限制了其应用这个似乎不大对啊
TTV出来之前和刚出来那会确实是软件框架/模型限制了其应用,嘛这个信息就和我上面写的如果老黄能卖的便宜点一样是个超级老黄历了
评论
推理用的。对训练帮助不大。dlss就是靠这个。
评论
老黄不把那1GB显存补齐有点难受
1080TI经常跑起来没问题,过6个小时去看OOM了,继续又能跑(过一段时间依然OOM),发生的时间点完全随机
评论
如果真的按照NV说的“TensorCore acceleration with FP32 inputs and outputs (previously restricted to FP16 input)”训练的时候应该还是有用的吧
评论
可以nvlink,实际你有22g。。
评论
发生的时间点完全随机?
楼主这真的不是你的Batch size调崩了,或者训练数据里有啥有毒的东西混进去了吗
评论
不知道导师能批几张卡……
评论
int8和int4是推理用的,当然是一般情况下。极端的nn还有二值化的(binary)。
fp32和fp16是训练用的。这没问题。
它说输入可以是fp32了,但实际计算应该还是fp16,只是不用自己在输入前手动量化到fp16。
评论
全部预算就压着卡上了,不过还是等进一步的实机测试。
评论
batch size调到显存允许的最大值了
数据里有问题发生频率应该是固定的
然后和当前已经用掉的显存有关系,如果做点别的什么事情用掉一些会立刻发生
评论
呃,其实我的意思是你调的太大了
还有跑这种计算的GPU不要做其他的事情,桌面环境用副卡或者核显跑
评论
fp32矩阵加被阉割了
评论
啊,老黄如此邪恶
评论
可能只是tensor board上的图刷新了一下就GG了……OOM发生在无人操作的情况下
暂时没副卡,AMD也没核显
评论
等妮测评!
评论
看了下,原来是cudnn 7.2增加了自动量化功能。titan v估计也能受益。
评论
有细节么,cuDNN release notes里7.2那一章没内容
评论
进去吧user guide下下来,里面有。
评论
捕获.JPG (204.25 KB, 下载次数: 0)
math_type_t添加了一个枚举,允许自动将fp32降到fp16。
CUDNN_TENSOR_OP_MATH_ALLOW_CONVERSION
Enables the use of FP32 tensors for both input and output.
评论
sm72应该就是turing。
评论
下载需要注册,我上传了。
https://pan.baidu.com/s/1WmQu2b6YnjdIeHnik9Du0g
评论
多谢。。。
评论
fp16矩阵乘写代码时候难用的一*。赶紧出个自动降精度的cudnn layer出来
评论
是计算速率只有Quadro一半,你看下表格
评论
这真是盲点,看来turing的混合精度运算是阉割过的。。。累加必须是fp32,因为是两个fp16乘积的结果。
评论
别洗了,对普通玩家没用,对有用的玩家,卡基本都是公司提供的
未标题-4.jpg (43.03 KB, 下载次数: 0)
莫名其妙在这限制一刀,有点难受啊。
整体flops不会受到影响么
评论
不给你砍光就很好了,毕竟2080ti也有1w
评论
不错!我们这些机器学习码农可以愉快的玩上了
评论
咦你们跑这些玩意的时候中间过程的图片和数据难道不是用CPU存到磁盘上然后用远程的什么东西过去读的嘛?
难道你们都是直接在跑的那个机器上搞一个GUI显示这些的嘛?
评论
我记得我以前的用法也是手动FP32累加的?
是我用歪了?
评论
并不是turing砍了啊,只是消费卡砍了而已... RTX6000累加FP32速度没问题。
摆明了不想让你用消费卡全速training。
评论
手动累加这是多底层的api啊。
说的不是这个意思,turing的混合精度运算中把累加性能砍了一半。这是逼你用fp16累加。
评论
没有多底层啊最多也就到纯酷哒那一层也没法往下了
FP16累加…emmm…为啥我觉得有点危险
评论
穷,没有服务器,挂在本机上的
评论
太邪恶了,这里手动砍一刀,之前还没注意到……
评论
一般都用cudnn或cublas编程,里面的mac(Multiply-And-Accumulate ops)都是直接集成在conv里面的。 电路 电子 维修 我现在把定影部分拆出来了。想换下滚,因为卡纸。但是我发现灯管挡住了。拆不了。不会拆。论坛里的高手拆解过吗? 评论 认真看,认真瞧。果然有收 电路 电子 维修 求创维42c08RD电路图 评论 电视的图纸很少见 评论 电视的图纸很少见 评论 创维的图纸你要说 版号,不然无能为力 评论 板号5800-p42ALM-0050 168P-P42CLM-01
·日本中文新闻 唐田绘里香为新剧《极恶女王》剃光头 展现演员决心
·日本中文新闻 真子小室夫妇新居引发隐私担忧
·日本中文新闻 前AKB48成员柏木由纪与搞笑艺人交往曝光
·日本学校 {日本国际学校}梅田インターナショナルスクール
·日本学校 LINE:sm287 陳雨菲、20歳、台湾からの留学生、東京に来たばかり
·日本留学生活 出售平成22年走行48000km 代步小车
·日本华人网络交流 円相場 一時1ドル=140円台まで上昇?
·日本华人网络交流 问日本华人一个问题
·日本旅游代购 富山接机
·生活百科 英国转澳大利亚转换插头
·汽车 【求助】修车遇到困难怎么办?