有大神搞过吗?公司用,是买超微成品还是自己装比较好,放办公室机房有必要搞水冷吗?显卡选RTXTitan,Titan V还是2080Ti呢?是两个4路好还是直接买8路呢?多谢大家推荐一下,有靠谱的店也推荐下
评论
有大神能帮忙吗?
评论
找树导,这论坛只有他懂
评论
不推荐自己去买整机,自己装那更是不要了,除非真的没什么预算,水冷也不要装。最稳妥的办法是从下面网站按照地域找一家nv的精英elite代理商,和代理商谈。
https://www.nvidia.cn/about-nvidia/partners/partner-locator/
显卡也不推荐你去买你列举的显卡,要么你去购买使用a100显卡的机器,要么可以等到9月2号后会有新的安培based显卡发售。假设tensor core功能能够完整的继承(目前尚不确定),最为推荐的就是rtx3090这款显卡了。
如果你是纯粹的深度学习服务器,那么买rtx3090就行了。如果你的运算是不特定的,也许会用上双精度的话,那么买a100甚至v100/titan v比较好(后两者不推荐)。
如果你要购买a100显卡,那么基本上价格是8w每块(不一定有零售,目前的货应该都在代理商手上)。贴个思腾合力的50w的方案(其他方案可以和代理商联系让他们做给你):
名称
评论
8张卡或12张a100
评论
先说说预算?不差钱肯定上品牌服务器啊,dell就有
评论
果然是专业的!顺便请问一下,初入坑深度学习,买卡有必要考虑双精度吗?大概到什么地步才用考虑这个呀?
评论
完全不需要,整个深度学习体现都不是建立在双精度的基础上的,因为拟合的过程本身就是一个纠错器(所以说ecc也不是必要的)。
需要双精度的一般跟物理和化学仿真算法相关。
评论
太感谢了,主要是测试训练服务器,不需要稳定运行,凑合能用就行
评论
主要是图像识别,视频行为训练
评论
原来如此,之前只听说做计算需要ECC,原来也不是必要啊!不过,出错对数据没影响,那显存中的指令出错呢?
评论
这个还真不清楚,但指令只是一段电路吧,编译的时候没出错就行了。
评论
显卡运算是内存里的指令直接拷贝到cuda处理器缓存吗?还是说先拷贝到显存,运算的时候再从显存考进缓存?(缓存我估计和cpu一样,不管型号高低都自带ecc)
评论
ecc本身也是指令,ecc指令又有谁来保证呢。所以现代计算机也不能防范所有的错误。
首先是指令执行本身,让一段电路出错的难度(外界环境干扰)明显是很高的,如果出错了,最大的可能就是缴械投降,non-zero exit。
此外是在指令调用过程中,在指令发射端的cache里面发生了错误,倒是可能性要大得多。但这样的话其实是可以被系统捕捉到的,既然可以捕捉到那么就可以进行fallback处理。我觉得现代cpu/gpu有机制防止指令发射时出错。
数据错误的问题是即使出了错,如果没有ecc过程,你也是不知道是错误的,更不可能纠错,错误的数据就这么流下去了,数据一致性没有得到保证。
评论
reg ecc貌似就是有半价内存,纠错功能本身没啥用
评论
定制的多如牛毛。。。精英,研华这类大厂也能谈定制的
评论
预算决定一切!自己装肯定没品牌的给力,但是价格嘛,差距不小
评论
如果你们是做CV的,最好找整机商,一台机器上面V100*8, 跟着AWS的p3.16xlarge配是比较稳妥的选择。加上NVLINK。
当然现在A100出来了应该用A100,TF32应该很香(不过我都还没用上)。
如果公司想省钱的话,可以等3090。但估计没有完整NVLINK,8卡一起train的时候会有点慢。
2080TI内存太小了,不太适合。
评论
有A100就不推荐其他的了,A100还支持拆分,做资源隔离很方便
评论
树导,完整版的A100 PCIE版有消息么?我在想Ice Lake SP发布后厂商会不会更新一波搭载icl以及完整A100核心的WS...
评论
我们公司用来自己玩玩的,当时弄了台4块1080TI的机器,做深度学习的哥们说还行.
如果只是测试玩玩建议上云,会便宜一些.
评论
8gpc 8192个cuda核心的那个?感觉难吧,要看工艺制程能不能稳定的产出。一般都是产品生命周期末才有这个良品率。
但说不定会把显存先补齐了。目前缺一组hbm堆叠 + 2个控制器。
评论
自己玩玩无所谓的,要是正规,就是超微8卡 GPU Server,8张涡轮的1080TI就行,只能放机房,训练起来就跟直升机是的。ECC的问题是需要的,我们都有冗余计算的 k8s + nvidia_docker +自己的调度算法环境,一个集群几百台 GPU Server nodes,初级建模训练无所谓的。但部署到一些场景,不会用1080TI的,都是带ECC效验的卡。很多场景我们用的都是推理的T4卡,后期都更新8卡T4了。 我们也测试过泰坦V 2080TI那些,那些都不太稳定。
评论
我看TPU的database里就有叫GRID A100A/B的产品,后端是补齐的.
https://www.techpowerup.com/gpu-specs/grid-a100a.c3579
评论
这个我没听说过。按照白皮书里面说的完整版是8192cu的。
1598003759062.jpg (260.73 KB, 下载次数: 0)
按照volta的规律,v100s是2019年11月发布的。
评论
现在用2080Ti双路,跑一次训练需要3天,上A100有多大提升啊?
评论
有双精度买专业卡,没双精度买游戏卡。买新不买旧。公司的不要自己组装。公司有钱直接上最好的。
评论
能用TF32取代FP32的话可能有成倍提升。不能的话就GG。
评论
老板给了多少钱呢?
评论
现在哪还能买到1080/2080ti哦,等着30系列吧。预算说了再提配置吧
tpu的数据库也就那样了,有时还会在页面上标注“This product is not released yet.”,有时又堂而皇之的“替厂家”发布,比如下面这个
https://www.techpowerup.com/gpu-specs/quadro-rtx-8200.c3504
评论
楼主如果只是采购建议选有NVIDIA认证的代理商,如果是自己组装建议选超微的准系统,国内很多的都是用的超微的准系统,比如楼上说的思腾合力,还有宝德烽火等品牌。4卡平台可以选7049GP-TRT,8卡平台4029GP-TRT。显卡建议选择TITAN RTX,显存比2080TI大一倍多,价格没贵多少。预算足够可以选择RTX8000。专业计算卡没有必要,深度学习用不到双精度。千万别买散件自己组装,稳定性和散热都要差很多,特别是散热。
评论
思腾合力GPU服务器,一台机器要48万?
评论
量子化学、密度泛函需要双精度。
分子动力学也不需要双精度,单精度足以。
评论
5张a100就40多万了。 电路 电子 维修 求创维42c08RD电路图 评论 电视的图纸很少见 评论 电视的图纸很少见 评论 创维的图纸你要说 版号,不然无能为力 评论 板号5800-p42ALM-0050 168P-P42CLM-01 电路 电子 维修 我现在把定影部分拆出来了。想换下滚,因为卡纸。但是我发现灯管挡住了。拆不了。不会拆。论坛里的高手拆解过吗? 评论 认真看,认真瞧。果然有收
·日本中文新闻 唐田绘里香为新剧《极恶女王》剃光头 展现演员决心
·日本中文新闻 真子小室夫妇新居引发隐私担忧
·日本中文新闻 前AKB48成员柏木由纪与搞笑艺人交往曝光
·日本学校 {日本国际学校}梅田インターナショナルスクール
·日本学校 LINE:sm287 陳雨菲、20歳、台湾からの留学生、東京に来たばかり
·日本留学生活 出售平成22年走行48000km 代步小车
·日本华人网络交流 円相場 一時1ドル=140円台まで上昇?
·日本华人网络交流 问日本华人一个问题
·日本旅游代购 富山接机
·生活百科 英国转澳大利亚转换插头
·汽车 【求助】修车遇到困难怎么办?