帮实验室老板买卡,普通服务器用,用不到NVLINK这种。
感觉两者算力是差不多的,RTX8000虽然设计不是用于深度学习,但是不是双精度需求,应该也没问题,显存还多一些(48G),V100目前是32G。
就是不知道有没有什么坑,比如在哪里阉割了一下。
另外好像RTX6000和8000就只有显存区别?
艾特下树导, @我輩樹である 也请懂行的人帮我参谋参谋 谢谢~~
评论
搞错了编辑掉
评论
你要确定你的服务器以后不会用来跑gpu的双精度算法,这个和你老板讲清楚。免得以后服务器被征召产生矛盾。
然后在pcie插槽够的前提下我推荐买rtx titan或rtx2080ti涵道版的显卡。pcie就一条,钱管够就买rtx8000。turing的tensor core和volta的tensorcore稍微不一样的地方就是:
https://www.chiphell.com/thread-1936662-1-1.html
当然现在不推荐买volta,但下一代深度学习专用卡还没出。
评论
更庞大的alu群肯定是有优势的。
评论
目前我们这边主要就是跑跑图像或者NLP的深度学习(还是Python为主)
RTX titan和RTX 2080TI主要是显存比较小嘛,需要比较大的batch_size的时候就是不能算的问题(毕竟是单卡的,不是NVLINK系统),特别是搞图像的。
我找认识的有卡的实验室的人简单跑了下自带的CUDA MatrixMul和MatrixMulCUBLAS,好像RTX8000是不如V100的
[CUDA Bandwidth Test] - Starting...
Running on...
Device 0: Quadro RTX 8000
Quick Mode
Host to Device Bandwidth, 1 Device(s)
PINNED Memory Transfers
Transfer Size (Bytes) Bandwidth(MB/s)
33554432 11869.5
Device to Host Bandwidth, 1 Device(s)
PINNED Memory Transfers
Transfer Size (Bytes) Bandwidth(MB/s)
33554432 12795.5
Device to Device Bandwidth, 1 Device(s)
PINNED Memory Transfers
Transfer Size (Bytes) Bandwidth(MB/s)
33554432 540098.6
Result = PASS
[Matrix Multiply Using CUDA] - Starting...
GPU Device 0: "Quadro RTX 8000" with compute capability 7.5
MatrixA(320,320), MatrixB(640,320)
Computing result using CUDA Kernel...
done
Performance= 1568.38 GFlop/s, Time= 0.084 msec, Size= 131072000 Ops, WorkgroupSize= 1024 threads/block
Checking computed result for correctness: Result = PASS
GPU Device 0: "Quadro RTX 8000" with compute capability 7.5
MatrixA(640,480), MatrixB(480,320), MatrixC(640,320)
Computing result using CUBLAS...done.
Performance= 5188.90 GFlop/s, Time= 0.038 msec, Size= 196608000 Ops
Computing result using host CPU...done.
Comparing CUBLAS Matrix Multiply with CPU results: PASS
----------------------------------------
Device 0: Tesla V100-PCIE-32GB
Quick Mode
Host to Device Bandwidth, 1 Device(s)
PINNED Memory Transfers
Transfer Size (Bytes) Bandwidth(MB/s)
33554432 11830.2
Device to Host Bandwidth, 1 Device(s)
PINNED Memory Transfers
Transfer Size (Bytes) Bandwidth(MB/s)
33554432 12092.7
Device to Device Bandwidth, 1 Device(s)
PINNED Memory Transfers
Transfer Size (Bytes) Bandwidth(MB/s)
33554432 302622.8
[Matrix Multiply Using CUDA] - Starting...
GPU Device 0: "Tesla V100-PCIE-32GB" with compute capability 7.0
MatrixA(320,320), MatrixB(640,320)
Computing result using CUDA Kernel...
done
Performance= 2623.85 GFlop/s, Time= 0.050 msec, Size= 131072000 Ops, WorkgroupSize= 1024 threads/block
Checking computed result for correctness: Result = PASS
[Matrix Multiply CUBLAS] - Starting...
GPU Device 0: "Tesla V100-PCIE-32GB" with compute capability 7.0
MatrixA(640,480), MatrixB(480,320), MatrixC(640,320)
Computing result using CUBLAS...done.
Performance= 7689.93 GFlop/s, Time= 0.026 msec, Size= 196608000 Ops
Computing result using host CPU...done.
Comparing CUBLAS Matrix Multiply with CPU results: PASS
评论
这个差的也太远了,总觉得有问题。。。建议多看几个指标。官方的fp32性能rtx8000是大于tesla v100的。
评论
查了下果然还是v100强一些。还是买v100吧。毕竟hbm2。卡太高端了,触及了我知识的盲区。
timg.jpg (33.65 KB, 下载次数: 0)
图里面是rtx titan,但rtx titan和rtx 8000 fp性能是一样的。
或者等一等新的深度学习卡。总觉得现在买发布2年多的卡,就怕下个月老黄掏出新卡。
评论
你只买一张计算卡???还是不NVLink的多卡???
评论
V100肯定强一点,要不老黄卖这么贵没人买的
下一代安培我估计还得半年,不知道后面还有没有展会了,总不能台北电脑展发布吧
评论
年底有一堆的ai会议,或者明年3月的gtc。
评论
安培要是九月之前发表估计最近该有消息了,因此我估计SIGKDD之后的会议才有可能,然而老黄有NIPS/ICCV发布显卡的历史?
明年三月GTC就不说了,再加上出货延迟之类的,现在剁手到能买到新卡,起码能用一年
评论
有大佬回答我就不回答 按照机密哥脾气 加预算搞2台美滋滋 当然很多公司抠门
评论
不NVLINK的多卡
评论
NIPS发显卡。。。
评论
好 主要可能是项目经费快到期了吧。。。能拖就等新卡 否则就v100 谢谢
评论
谢各位大佬
评论
所以 树导 霸王龙 和 rtx 6000 都入了?
评论
眼一闭一睁,半年一年的就过去了。
不过老黄如果还像今年再拖一拖,挤点牙膏,割点韭菜,那就不清楚了。
评论
请问 涵道版 是哪种?
评论
评论
今年年底老黄很大机会公布新一代TESLA芯片的技术信息 至于产品 最快都要明年Q2
评论
嗯 产品估计晚一些
评论
哈哈~~~~~~~~~~~~~
评论
如果记得没错的话,Quadro RTX8000和Geforce RTX Tensor Core的性能是不一样样的,
图灵架构白皮书上Geforce阉割了某些部分(具体是哪忘记掉了)
另外Tensorflow(1.13,还没有试过1.14里面那个计算图重写)用master copy实现混合精度训练的话2080TI的显存有点紧张,甚至出现显存不够导致速度反而下降的情况
另外感觉那些OTES版的2080TI会压不住……
评论
小机子只有2080ti的瑟瑟发抖
评论
server 在用 4 x NVidia V100SXM2 ,单卡显存16g,感觉还行
评论
计算的话别问了,问就上tesla
评论
深度学习和科学计算还是不一样的 主要显存有时候也是尽量选大的
因为不大代表无法运行大模型。。不过够用的话 肯定是tesla好 但v100毕竟是上一代
所以我想知道到底v100上一代目前还能领先多少 或者quadro阉割了啥才来问的。。
评论
看具体用什么软件,需不需要双精度
评论
我很奇怪的一点是,pytorch跑VGG16,用集群的单张32G V100,并没有感觉比本地单张2080Ti块,不知道发生了什么
IMG_6752.png (555.13 KB, 下载次数: 0)
请教下为啥Pascal的WORD RNN性能爆表?
评论
会不会是服务器上的硬盘瓶颈了,看看加载1个batch所需要的时间和forward+backward的时间哪个长? 电路 电子 维修 求创维42c08RD电路图 评论 电视的图纸很少见 评论 电视的图纸很少见 评论 创维的图纸你要说 版号,不然无能为力 评论 板号5800-p42ALM-0050 168P-P42CLM-01 电路 电子 维修 我现在把定影部分拆出来了。想换下滚,因为卡纸。但是我发现灯管挡住了。拆不了。不会拆。论坛里的高手拆解过吗? 评论 认真看,认真瞧。果然有收
·日本中文新闻 唐田绘里香为新剧《极恶女王》剃光头 展现演员决心
·日本中文新闻 真子小室夫妇新居引发隐私担忧
·日本中文新闻 前AKB48成员柏木由纪与搞笑艺人交往曝光
·日本学校 {日本国际学校}梅田インターナショナルスクール
·日本学校 LINE:sm287 陳雨菲、20歳、台湾からの留学生、東京に来たばかり
·日本留学生活 出售平成22年走行48000km 代步小车
·日本华人网络交流 円相場 一時1ドル=140円台まで上昇?
·日本华人网络交流 问日本华人一个问题
·日本旅游代购 富山接机
·生活百科 英国转澳大利亚转换插头
·汽车 【求助】修车遇到困难怎么办?