日本电子维修技术装机/软件深度学习服务器选购讨论

日期：2021-10-06 栏目：维修经验

有大神搞过吗？公司用，是买超微成品还是自己装比较好，放办公室机房有必要搞水冷吗？显卡选RTXTitan，Titan V还是2080Ti呢？是两个4路好还是直接买8路呢？多谢大家推荐一下，有靠谱的店也推荐下

评论
有大神能帮忙吗？

评论
找树导，这论坛只有他懂

评论

不推荐自己去买整机，自己装那更是不要了，除非真的没什么预算，水冷也不要装。最稳妥的办法是从下面网站按照地域找一家nv的精英elite代理商，和代理商谈。
https://www.nvidia.cn/about-nvidia/partners/partner-locator/

显卡也不推荐你去买你列举的显卡，要么你去购买使用a100显卡的机器，要么可以等到9月2号后会有新的安培based显卡发售。假设tensor core功能能够完整的继承（目前尚不确定），最为推荐的就是rtx3090这款显卡了。

如果你是纯粹的深度学习服务器，那么买rtx3090就行了。如果你的运算是不特定的，也许会用上双精度的话，那么买a100甚至v100/titan v比较好（后两者不推荐）。

如果你要购买a100显卡，那么基本上价格是8w每块（不一定有零售，目前的货应该都在代理商手上）。贴个思腾合力的50w的方案（其他方案可以和代理商联系让他们做给你）：

名称

评论
8张卡或12张a100

评论
先说说预算？不差钱肯定上品牌服务器啊，dell就有

评论

果然是专业的！顺便请问一下，初入坑深度学习，买卡有必要考虑双精度吗？大概到什么地步才用考虑这个呀？

评论

完全不需要，整个深度学习体现都不是建立在双精度的基础上的，因为拟合的过程本身就是一个纠错器（所以说ecc也不是必要的）。

需要双精度的一般跟物理和化学仿真算法相关。

评论
太感谢了，主要是测试训练服务器，不需要稳定运行，凑合能用就行

评论
主要是图像识别，视频行为训练

评论

原来如此，之前只听说做计算需要ECC，原来也不是必要啊！不过，出错对数据没影响，那显存中的指令出错呢？

评论

这个还真不清楚，但指令只是一段电路吧，编译的时候没出错就行了。

评论

显卡运算是内存里的指令直接拷贝到cuda处理器缓存吗？还是说先拷贝到显存，运算的时候再从显存考进缓存？（缓存我估计和cpu一样，不管型号高低都自带ecc）

评论

ecc本身也是指令，ecc指令又有谁来保证呢。所以现代计算机也不能防范所有的错误。

首先是指令执行本身，让一段电路出错的难度（外界环境干扰）明显是很高的，如果出错了，最大的可能就是缴械投降，non-zero exit。

此外是在指令调用过程中，在指令发射端的cache里面发生了错误，倒是可能性要大得多。但这样的话其实是可以被系统捕捉到的，既然可以捕捉到那么就可以进行fallback处理。我觉得现代cpu/gpu有机制防止指令发射时出错。

数据错误的问题是即使出了错，如果没有ecc过程，你也是不知道是错误的，更不可能纠错，错误的数据就这么流下去了，数据一致性没有得到保证。

评论

reg ecc貌似就是有半价内存，纠错功能本身没啥用

评论
定制的多如牛毛。。。精英，研华这类大厂也能谈定制的

评论
预算决定一切！自己装肯定没品牌的给力，但是价格嘛，差距不小

评论
如果你们是做CV的，最好找整机商，一台机器上面V100*8, 跟着AWS的p3.16xlarge配是比较稳妥的选择。加上NVLINK。
当然现在A100出来了应该用A100，TF32应该很香（不过我都还没用上）。

如果公司想省钱的话，可以等3090。但估计没有完整NVLINK，8卡一起train的时候会有点慢。

2080TI内存太小了，不太适合。

评论
有A100就不推荐其他的了，A100还支持拆分，做资源隔离很方便

评论

树导，完整版的A100 PCIE版有消息么？我在想Ice Lake SP发布后厂商会不会更新一波搭载icl以及完整A100核心的WS...

评论
我们公司用来自己玩玩的,当时弄了台4块1080TI的机器,做深度学习的哥们说还行.
如果只是测试玩玩建议上云,会便宜一些.

评论

8gpc 8192个cuda核心的那个？感觉难吧，要看工艺制程能不能稳定的产出。一般都是产品生命周期末才有这个良品率。

但说不定会把显存先补齐了。目前缺一组hbm堆叠 + 2个控制器。

评论
自己玩玩无所谓的，要是正规，就是超微8卡 GPU Server，8张涡轮的1080TI就行，只能放机房，训练起来就跟直升机是的。ECC的问题是需要的，我们都有冗余计算的 k8s + nvidia_docker +自己的调度算法环境，一个集群几百台 GPU Server nodes，初级建模训练无所谓的。但部署到一些场景，不会用1080TI的，都是带ECC效验的卡。很多场景我们用的都是推理的T4卡，后期都更新8卡T4了。我们也测试过泰坦V 2080TI那些，那些都不太稳定。

评论

我看TPU的database里就有叫GRID A100A/B的产品，后端是补齐的.
https://www.techpowerup.com/gpu-specs/grid-a100a.c3579

评论

这个我没听说过。按照白皮书里面说的完整版是8192cu的。

1598003759062.jpg (260.73 KB, 下载次数: 0)

2020-8-21 17:58 上传

按照volta的规律，v100s是2019年11月发布的。

评论
现在用2080Ti双路，跑一次训练需要3天，上A100有多大提升啊？

评论
有双精度买专业卡，没双精度买游戏卡。买新不买旧。公司的不要自己组装。公司有钱直接上最好的。

评论

能用TF32取代FP32的话可能有成倍提升。不能的话就GG。

评论
老板给了多少钱呢？

评论
现在哪还能买到1080/2080ti哦，等着30系列吧。预算说了再提配置吧
tpu的数据库也就那样了，有时还会在页面上标注“This product is not released yet.”，有时又堂而皇之的“替厂家”发布，比如下面这个

https://www.techpowerup.com/gpu-specs/quadro-rtx-8200.c3504

评论
楼主如果只是采购建议选有NVIDIA认证的代理商，如果是自己组装建议选超微的准系统，国内很多的都是用的超微的准系统，比如楼上说的思腾合力，还有宝德烽火等品牌。4卡平台可以选7049GP-TRT，8卡平台4029GP-TRT。显卡建议选择TITAN RTX，显存比2080TI大一倍多，价格没贵多少。预算足够可以选择RTX8000。专业计算卡没有必要，深度学习用不到双精度。千万别买散件自己组装，稳定性和散热都要差很多，特别是散热。

评论

思腾合力GPU服务器，一台机器要48万？

评论

量子化学、密度泛函需要双精度。

分子动力学也不需要双精度，单精度足以。

评论

5张a100就40多万了。电路电子维修求创维42c08RD电路图评论电视的图纸很少见评论电视的图纸很少见评论创维的图纸你要说版号，不然无能为力评论板号5800-p42ALM-0050 168P-P42CLM-01 电路电子维修我现在把定影部分拆出来了。想换下滚，因为卡纸。但是我发现灯管挡住了。拆不了。不会拆。论坛里的高手拆解过吗？评论认真看，认真瞧。果然有收
·日本中文新闻唐田绘里香为新剧《极恶女王》剃光头展现演员决心
·日本中文新闻真子小室夫妇新居引发隐私担忧
·日本中文新闻前AKB48成员柏木由纪与搞笑艺人交往曝光
·日本学校｛日本国际学校｝梅田インターナショナルスクール
·日本学校 LINE：sm287 陳雨菲、20歳、台湾からの留学生、東京に来たばかり
·日本留学生活出售平成22年走行48000km 代步小车
·日本华人网络交流円相場　一時1ドル＝140円台まで上昇？
·日本华人网络交流问日本华人一个问题
·日本旅游代购富山接机
·生活百科英国转澳大利亚转换插头
·汽车【求助】修车遇到困难怎么办？

维修经验

日本电子维修技术装机/软件深度学习服务器选购讨论

CPUcpu-z 1.77版低调发布

CPU这几天经常开机黑屏，热重启后又正常

CPU超频求助！关于华擎H170和6700K

CPU液态金属会侵蚀cpu核心吗？

CPUAMD Zen处理器、AM4接口实物曝光：1331个针脚

CPUm6i究竟支不支持e3 1231v3

CPU华擎 HYPER 妖板正确玩法

CPUE5 2686 V3和i7 6800K如何选择

CPUHD530硬解4K能力还是有点弱呀！

CPU在组一个小机箱，关于i5 6600和i7 6700的选择

CPUwin10超频稳定，但是睡眠唤醒不了，pll电压di

CPU6900k 1.25V到4.2体质怎么样

CPUI3 6100 华擎B150M pro4超4.5g测试。

CPU系统稳定性测试，我发现prime95半个小时内问题

CPU7系u会兼容100系主板吗？

CPU请教各位：J3710和G1840，哪个性能稍好些？

CPU昨日遇到土豪朋友，又被吓到了，有朋友比这

CPU有心入5820k了，求教下温度问题

CPU6600&6600K才100的差价

CPU打算组双路E5 2670，大家有什么好的建议吗？

日本电子维修技术 装机/软件深度学习服务器选购讨论

相关推荐

日本电子维修技术装机/软件深度学习服务器选购讨论