日本电子维修技术 装机/软件深度学习服务器选购讨论



有大神搞过吗?公司用,是买超微成品还是自己装比较好,放办公室机房有必要搞水冷吗?显卡选RTXTitan,Titan V还是2080Ti呢?是两个4路好还是直接买8路呢?多谢大家推荐一下,有靠谱的店也推荐下

评论
有大神能帮忙吗?

评论
找树导,这论坛只有他懂

评论

不推荐自己去买整机,自己装那更是不要了,除非真的没什么预算,水冷也不要装。最稳妥的办法是从下面网站按照地域找一家nv的精英elite代理商,和代理商谈。
https://www.nvidia.cn/about-nvidia/partners/partner-locator/

显卡也不推荐你去买你列举的显卡,要么你去购买使用a100显卡的机器,要么可以等到9月2号后会有新的安培based显卡发售。假设tensor core功能能够完整的继承(目前尚不确定),最为推荐的就是rtx3090这款显卡了。

如果你是纯粹的深度学习服务器,那么买rtx3090就行了。如果你的运算是不特定的,也许会用上双精度的话,那么买a100甚至v100/titan v比较好(后两者不推荐)。

如果你要购买a100显卡,那么基本上价格是8w每块(不一定有零售,目前的货应该都在代理商手上)。贴个思腾合力的50w的方案(其他方案可以和代理商联系让他们做给你):

名称

评论
8张卡或12张a100

评论
先说说预算?不差钱肯定上品牌服务器啊,dell就有

评论

果然是专业的!顺便请问一下,初入坑深度学习,买卡有必要考虑双精度吗?大概到什么地步才用考虑这个呀?

评论

完全不需要,整个深度学习体现都不是建立在双精度的基础上的,因为拟合的过程本身就是一个纠错器(所以说ecc也不是必要的)。

需要双精度的一般跟物理和化学仿真算法相关。

评论
太感谢了,主要是测试训练服务器,不需要稳定运行,凑合能用就行

评论
主要是图像识别,视频行为训练

评论

原来如此,之前只听说做计算需要ECC,原来也不是必要啊!不过,出错对数据没影响,那显存中的指令出错呢?

评论

这个还真不清楚,但指令只是一段电路吧,编译的时候没出错就行了。

评论

显卡运算是内存里的指令直接拷贝到cuda处理器缓存吗?还是说先拷贝到显存,运算的时候再从显存考进缓存?(缓存我估计和cpu一样,不管型号高低都自带ecc)

评论

ecc本身也是指令,ecc指令又有谁来保证呢。所以现代计算机也不能防范所有的错误。

首先是指令执行本身,让一段电路出错的难度(外界环境干扰)明显是很高的,如果出错了,最大的可能就是缴械投降,non-zero exit。

此外是在指令调用过程中,在指令发射端的cache里面发生了错误,倒是可能性要大得多。但这样的话其实是可以被系统捕捉到的,既然可以捕捉到那么就可以进行fallback处理。我觉得现代cpu/gpu有机制防止指令发射时出错。

数据错误的问题是即使出了错,如果没有ecc过程,你也是不知道是错误的,更不可能纠错,错误的数据就这么流下去了,数据一致性没有得到保证。

评论

reg ecc貌似就是有半价内存,纠错功能本身没啥用

评论
定制的多如牛毛。。。精英,研华这类大厂也能谈定制的

评论
预算决定一切!自己装肯定没品牌的给力,但是价格嘛,差距不小

评论
如果你们是做CV的,最好找整机商,一台机器上面V100*8, 跟着AWS的p3.16xlarge配是比较稳妥的选择。加上NVLINK。
当然现在A100出来了应该用A100,TF32应该很香(不过我都还没用上)。

如果公司想省钱的话,可以等3090。但估计没有完整NVLINK,8卡一起train的时候会有点慢。

2080TI内存太小了,不太适合。



评论
有A100就不推荐其他的了,A100还支持拆分,做资源隔离很方便

评论

树导,完整版的A100 PCIE版有消息么?我在想Ice Lake SP发布后厂商会不会更新一波搭载icl以及完整A100核心的WS...

评论
我们公司用来自己玩玩的,当时弄了台4块1080TI的机器,做深度学习的哥们说还行.
如果只是测试玩玩建议上云,会便宜一些.

评论

8gpc 8192个cuda核心的那个?感觉难吧,要看工艺制程能不能稳定的产出。一般都是产品生命周期末才有这个良品率。

但说不定会把显存先补齐了。目前缺一组hbm堆叠 + 2个控制器。

评论
自己玩玩无所谓的,要是正规,就是超微8卡 GPU Server,8张涡轮的1080TI就行,只能放机房,训练起来就跟直升机是的。ECC的问题是需要的,我们都有冗余计算的 k8s + nvidia_docker +自己的调度算法环境,一个集群几百台 GPU Server nodes,初级建模训练无所谓的。但部署到一些场景,不会用1080TI的,都是带ECC效验的卡。很多场景我们用的都是推理的T4卡,后期都更新8卡T4了。  我们也测试过泰坦V 2080TI那些,那些都不太稳定。

评论

我看TPU的database里就有叫GRID A100A/B的产品,后端是补齐的.
https://www.techpowerup.com/gpu-specs/grid-a100a.c3579

评论

这个我没听说过。按照白皮书里面说的完整版是8192cu的。

1598003759062.jpg (260.73 KB, 下载次数: 0)

2020-8-21 17:58 上传


按照volta的规律,v100s是2019年11月发布的。


评论
现在用2080Ti双路,跑一次训练需要3天,上A100有多大提升啊?

评论
有双精度买专业卡,没双精度买游戏卡。买新不买旧。公司的不要自己组装。公司有钱直接上最好的。

评论

能用TF32取代FP32的话可能有成倍提升。不能的话就GG。

评论
老板给了多少钱呢?

评论
现在哪还能买到1080/2080ti哦,等着30系列吧。预算说了再提配置吧
tpu的数据库也就那样了,有时还会在页面上标注“This product is not released yet.”,有时又堂而皇之的“替厂家”发布,比如下面这个

https://www.techpowerup.com/gpu-specs/quadro-rtx-8200.c3504

评论
楼主如果只是采购建议选有NVIDIA认证的代理商,如果是自己组装建议选超微的准系统,国内很多的都是用的超微的准系统,比如楼上说的思腾合力,还有宝德烽火等品牌。4卡平台可以选7049GP-TRT,8卡平台4029GP-TRT。显卡建议选择TITAN RTX,显存比2080TI大一倍多,价格没贵多少。预算足够可以选择RTX8000。专业计算卡没有必要,深度学习用不到双精度。千万别买散件自己组装,稳定性和散热都要差很多,特别是散热。

评论

思腾合力GPU服务器,一台机器要48万?

评论

量子化学、密度泛函需要双精度。

分子动力学也不需要双精度,单精度足以。

评论

5张a100就40多万了。 电路 电子 维修 求创维42c08RD电路图 评论 电视的图纸很少见 评论 电视的图纸很少见 评论 创维的图纸你要说 版号,不然无能为力 评论 板号5800-p42ALM-0050 168P-P42CLM-01 电路 电子 维修 我现在把定影部分拆出来了。想换下滚,因为卡纸。但是我发现灯管挡住了。拆不了。不会拆。论坛里的高手拆解过吗? 评论 认真看,认真瞧。果然有收
 ·日本中文新闻 唐田绘里香为新剧《极恶女王》剃光头 展现演员决心
·日本中文新闻 真子小室夫妇新居引发隐私担忧
·日本中文新闻 前AKB48成员柏木由纪与搞笑艺人交往曝光
·日本学校 {日本国际学校}梅田インターナショナルスクール
·日本学校 LINE:sm287 陳雨菲、20歳、台湾からの留学生、東京に来たばかり
·日本留学生活 出售平成22年走行48000km 代步小车
·日本华人网络交流 円相場 一時1ドル=140円台まで上昇?
·日本华人网络交流 问日本华人一个问题
·日本旅游代购 富山接机
 ·生活百科 英国转澳大利亚转换插头
·汽车 【求助】修车遇到困难怎么办?

维修经验

CPUcpu-z 1.77版低调发布

日本维修技术更新: New benchmark “submit and compare” feature New clocks dialog reporting all system’s clock speeds in real-time Preliminary support for Intel Kaby Lake AMD Bristol Ridge processors 主要是增加了支持I、A两个新架构的 ...

维修经验

CPU这几天经常开机黑屏,热重启后又正常

日本维修技术这几天经常开机黑屏,热重启后又正常,今天热重启也不管用了。折腾半天总算点亮,显示超频失败,以前出这个画面我是不理它的,直接重启就能正常进系统了,今天不敢托大,因为 ...

维修经验

CPU超频求助!关于华擎H170和6700K

日本维修技术问题见楼主的show贴 https://www.chiphell.com/thread-1634895-1-1.html 这次华擎的H170 Hyper最大的特色应该是自带时钟发生器可以自由超外频 可是楼主好久没有折腾超频了。。。 两图中除了CPU外频 以 ...

维修经验

CPU液态金属会侵蚀cpu核心吗?

日本维修技术前阵子看到有人说,液态金属时间长了会侵蚀cpu铜盖,那么问题来了,这货会不会侵蚀核心呢? 评论 这玩意儿好像只对铝起反应 评论 不是说,cpu的盖子是铜的吗。。。 评论 不会,核 ...

维修经验

CPUm6i究竟支不支持e3 1231v3

日本维修技术官网上看支持列表没写有e3 1231v3,装机帖又有人晒,百度也没个明确答案,那究竟能不能点亮?有在用的chher说一下么 评论 升级最新bios肯定可以支持 评论 我的p67evo官网上也没说支持12 ...

维修经验

CPU华擎 HYPER 妖板 正确玩法

日本维修技术600元的 B150,10相供电,释放洪荒之力 注意必须官网 Beta 区的 BIOS 有 AVX 的 CPU 可能会掉缓存 启动时按 X 键激活 SKY OC,重启后进入 BIOS 160924164727.jpg (95.63 KB, 下载次数: 1) 2016-9-24 17:47 上传 ...

维修经验

CPUE5 2686 V3和i7 6800K如何选择

日本维修技术默认用,不超频,两者功耗是一模一样的 E5 2686 V3:2.0主频,3.5睿频, 18核心36线程 ,45M L3 咸鱼大约2500~3000元 i7 6800K : 3.5主频,3.8睿频 ,6核心12线程 ,盒装3000元 评论 性能应该是26 ...

维修经验

CPUHD530硬解4K能力还是有点弱呀!

日本维修技术播放器用PotPlay 64bit,各种优化后,跑4K @120Hz视频只能到70帧左右的速度,勉强能用! 显示器用的4K的优派VP2780 未标题-1.jpg (211.97 KB, 下载次数: 0) 2016-9-26 21:29 上传 评论 这个估计你没优化 ...

维修经验

CPU6900k 1.25V到4.2体质怎么样

日本维修技术如图,体质怎么样,ring是35,没敢试了,都说ring高了毁硬件 评论 不错的U,但不算雕,上4.4就大雕了,这电压上4.5的目前没见有人发图 评论 谢谢前辈告知 评论 我这个用1.2V超的4.2,R ...

维修经验

CPUI3 6100 华擎B150M pro4超4.5g测试。

日本维修技术看看论坛没多少i3 6100的帖子,就转下自己发的show贴里面的数据,给大家参考下。家里还有当年的神U i3 540 oc 4.5G在给老妈用。 不知道数据上正常吗?有6100的朋友可以告诉下,另外是不有 ...

维修经验

CPU7系u会兼容100系主板吗?

日本维修技术RT,听说要推200系板,100系还能用吗以后。。 评论 兼容的 评论 感谢!以后换u就行了,目前消息200系板会有新的特性吗? 评论 24条PCI-E 3.0通道、支持Intel Optane混合存储技术、十个USB 3 ...

维修经验

CPU有心入5820k了,求教下温度问题

日本维修技术一直徘徊在6700k和5820k之间,6700k现在这德行直接把我推向了5820k啊,从2600k升级上来,三大件都要换,现在唯一疑惑的是IB-E ex这种顶级风冷能不能压住4.5g的5820呢?毕竟刚刚买一个多月。 ...

维修经验

CPU6600&6600K才100的差价

日本维修技术太少了吧。。。 6600.JPG (106.91 KB, 下载次数: 0) 2016-10-1 10:30 上传 评论 毕竟只是i5而已…… 评论 上z170 6600也能超,等于没区别,差价能有100已经不错了 评论 然后又见不超频人士推荐超频 ...