现在算力不够了,之前有4块RTX3090,觉得性价比很好,但现在RTX3090价格贵,还不一定买得到。
RTX2080 Ti估计也买不到,自己也看不上。
不知道同行们现在买什么卡?
有使用华为Atlas的训练卡朋友吗?期待介绍一下,网上几乎看不到完整的测评。
评论
3090 有钱一定买的到 你要几块?
评论
除了老黄的卡,Jim Keller说他当CTO的那个公司,tenstorrent下半年可能出产品了,原生支持pytorch,可能值得期待一下。AMD那头连新卡ROCm都没整明白,pytorch最近加了支持但只能用Radeon VII
评论
华为的那张卡,上次招投标的时候流标了,还是买了3090。。。
评论
不知道现在买Titan Xp划算么?价格在6000元以上,比1080ti贵很多。
评论
已经搞定了。
评论
一般用途的话3090是唯一选择了, 至于atlas...且不谈纯fp16训练到处都是坑, 光生态就谈不上能用了
评论
https://lambdalabs.com/blog/nvidia-rtx-a6000-benchmarks/
nlp.png (58.4 KB, 下载次数: 0)
先是追求性能,然后才是性价比。(这句话有点矛盾)
优先用最新一代架构的。20系的只要有就行(复现一些用老框架的模型用)
评论
兄台用过atlas?可以多介绍一些信息吗?
看纸面性能atlas一张能顶2张3090,价格约等于涨价前的3090
正准备用torch.cuda.amp,利用混合精度加速,不知道有没有什么经验传授给我。
评论
V100 SXM4 x4
还有 PyTorch 对混合精度加速应该比较完善了,如果只是使用框架不需要关注混合精度的具体实现。
评论
谢谢。不知道为什么Titan Xp一手和二手还是那么贵,想买一块,却又没什么性价比。
评论
用不了torch.cuda下的任何东西, 需要自己改成torch.npu下的对应实现
loss scale很多地方得自己修才能用
需要fp32计算的算子会引入贼大的开销, 但这部分显然无法避免(bn之类)
实际res101训练还没双卡t4快
能选择3090的情况下选这玩意是纯粹和自己过不去
评论
多谢!看来还是老老实实的用3090
评论
而且不知道你从哪看来的价钱和涨价前的3090差不多 用于训练的300T比A6000贵
评论
我偶尔在一个页面上看到价格1.5w。如果300T比A6000还贵,谁还愿意花高价格买不太成熟的东西。
评论
我也是4张3090,跑seq2seq模型用fp16跑(没有做什么优化,只是把tensor转为fp16,然后开policy = mixed_precision.Policy('mixed_float16')),在tensorflow 2.5 nightly上性能还有点下降。
评论
1.5w你看到的十有八九是300I或者300C, 300T贵在有大规模互联能力, 比较接近老黄sxm卡的定位
评论
专业!
四块间都有nvlink吗?一次可以用四块卡吗?
评论
tensorflow不太熟悉。输入不需要转为半精度吧?先前的时候框架自动帮你转吧。
评论
要显式的转换,否则会报错
TypeError: Input 'b' of 'MatMul' Op has type float16 that does not match type float32 of argument 'a'.
评论
tf2用mixed_float16 policy的时候不需要显式转换
比如
```
import tensorflow as tf
import numpy as np
tf.keras.mixed_precision.experimental.set_policy('mixed_float16')
i = tf.keras.layers.Input((32, 32, 4))
o = tf.keras.layers.Conv2D(16, 3, padding='same')(i)
o = tf.keras.layers.Conv2D(16, 3, padding='same')(o)
o = tf.keras.layers.Conv2D(16, 3, padding='same')(o)
m = tf.keras.Model(i, o)
m.compile(loss='mse', optimizer='adam')
m.fit(np.random.random((1, 32, 32, 4)), np.zeros((1, 32, 32, 16)))
for layer in m.layers:
print(layer.name, layer.input.dtype, layer.output.dtype)
```
```
INFO:tensorflow:Mixed precision compatibility check (mixed_float16): OK1/1 [==============================] - 3s 3s/step - loss: 0.0878
input_1 <dtype: 'float32'> <dtype: 'float32'>
conv2d <dtype: 'float32'> <dtype: 'float16'>
conv2d_1 <dtype: 'float16'> <dtype: 'float16'>
conv2d_2 <dtype: 'float16'> <dtype: 'float16'>
```
评论
3090现在跑fp16没有加速好像,并且旧的混合精度加速的东西应该不能跑了,还有就是tf这边稳定版依旧不能很好的支持。
其他家的训练加速器厂商的对标的应该是农企而不是老黄,R7在矿潮涨价之前只卖3千多。
据传涡轮3090停产也不知道到底啥情况。某为在忽悠我们试试他们的部署卡,我们日常用的2060涨疯了
评论
这个函数不支持,tf.matmul,你可以试一下。 我的代码里面没用到这个函数,但是tf自身应该用到了。
评论
这个早就支持了
```
...
i = tf.keras.layers.Input((4, 4))
o = tf.keras.layers.Lambda(lambda x: tf.matmul(x, x))(i)
o = tf.keras.layers.Lambda(lambda x: tf.matmul(x, x))(o)
m = tf.keras.Model(i, o)
...
```
INFO:tensorflow:Mixed precision compatibility check (mixed_float16): OK
1/1 [==============================] - 1s 707ms/step - loss: 60.6875
input_1 <dtype: 'float32'> <dtype: 'float32'>
lambda <dtype: 'float32'> <dtype: 'float16'>
lambda_1 <dtype: 'float16'> <dtype: 'float16'>
评论
我这里就是报错。你的tf是什么版本的?
评论
手上最老的版本是2.1.0 是没问题的
评论
有,但是暂时用不上。
评论
最新的呢?这个版本不支持安培吧。好像2.4一下都不支持。我的版本是2.5 nightly,1月3号的。主要是cuda 11,你是自己编译的版本么?
评论
2.4.1(自己编译的, cuda11.1)和ngc的20.10-tf2-py3(2.3.1+nv), 21.02-tf2-py3(2.4.0+nv)都是没问题的
评论
1 tZs_GDIky6ex5YuyVQ0gUA.png (179.97 KB, 下载次数: 0)
30系大幅提升了fp32算力, fp16侧没有同步提升, 所以纸面上fp16峰值算力在30系上相比fp32没有加速, 不像20系那样通常加速明显, 但省显存以及降低显存带宽压力的提升还是在的
不过话要说回来, 混合精度数据类型转换开销也是存在的, 所以取决于具体框架以及模型, 用混合精度反而更慢是挺常见的情况
评论
他们家的推理加速卡据说某些算子的有性能问题,存在工具转好后还要微调的情况。我道听途说。
评论
纯粹科研的话没必要追求fp16吧,毕竟强调复现
评论
amd的mi100 可以试试 tensorflow 和 pytorch能跑 电路 电子 维修 我现在把定影部分拆出来了。想换下滚,因为卡纸。但是我发现灯管挡住了。拆不了。不会拆。论坛里的高手拆解过吗? 评论 认真看,认真瞧。果然有收 电路 电子 维修 求创维42c08RD电路图 评论 电视的图纸很少见 评论 电视的图纸很少见 评论 创维的图纸你要说 版号,不然无能为力 评论 板号5800-p42ALM-0050 168P-P42CLM-01
·日本中文新闻 唐田绘里香为新剧《极恶女王》剃光头 展现演员决心
·日本中文新闻 真子小室夫妇新居引发隐私担忧
·日本中文新闻 前AKB48成员柏木由纪与搞笑艺人交往曝光
·日本学校 {日本国际学校}梅田インターナショナルスクール
·日本学校 LINE:sm287 陳雨菲、20歳、台湾からの留学生、東京に来たばかり
·日本留学生活 出售平成22年走行48000km 代步小车
·日本华人网络交流 円相場 一時1ドル=140円台まで上昇?
·日本华人网络交流 问日本华人一个问题
·日本旅游代购 富山接机
·生活百科 英国转澳大利亚转换插头
·汽车 【求助】修车遇到困难怎么办?