都是hipCaffe自带的,所以很快就能出结果。
MNIST Training:
output:
I0821 22:10:56.745488 5070 solver.cpp:228] Iteration 0, loss = 2.35452
I0821 22:10:56.745551 5070 solver.cpp:244] Train net output #0: loss = 2.35452 (* 1 = 2.35452 loss)
I0821 22:10:56.745575 5070 sgd_solver.cpp:106] Iteration 0, lr = 0.01
I0821 22:10:57.164610 5070 solver.cpp:228] Iteration 100, loss = 0.225856
...
I0821 22:11:41.101171 5070 solver.cpp:317] Iteration 10000, loss = 0.00296479
I0821 22:11:41.101207 5070 solver.cpp:337] Iteration 10000, Testing net (#0)
I0821 22:11:41.296481 5070 solver.cpp:404] Test net output #0: accuracy = 0.9908
I0821 22:11:41.296531 5070 solver.cpp:404] Test net output #1: loss = 0.028097 (* 1 = 0.028097 loss)
I0821 22:11:41.296545 5070 solver.cpp:322] Optimization Done.
I0821 22:11:41.296555 5070 caffe.cpp:254] Optimization Done.
time spantotal costcost / 100 iteration22:10:56.74548845.50.45522:11:41.296555
评论
看不懂,结论是?
评论
印象中,不管是960还是ttx,跑caffe的mnist 10000iter都是30s,都跑不出GPU本身的性能。
不过Vega44s的话,hipcaffe的优化还是有待提高。不过这种低负载的测试看不出什么。
评论
http://blog.csdn.net/shiorioxy/article/details/52652831
cifar10差异很大?不太正常。。。
评论
这个是7万iteration,顶楼是4000。今天在外面办事回去跑1080ti的。
评论
这个batch size能改不,我记得默认batch size吃不满GPU
评论
我那960试了下
mnist 10000iters是33.2s,cifar10 5000iters是45.4s。这俩都跑不满性能,我感觉ttx也就比这速度快那么一点。
感觉真要测,还是得拿resnet101这种级别的负载才有意义。
评论
cifar10这网络还是太简单了,堆batch size也跑不出性能。
5000 iters on gtx960
batch-size=100: 45.4s
batch-size=1024: 421.4s (显存终于占用了981m)
评论
楼主,好歹也要跑Alexnet这种级别的大网络啊,mnist一般都是用LeNet把,这货IO是瓶颈,连1080都喂不饱。
评论
你们别急啊,马上就弄。
rocm也有类似nvsmi的东西,叫rocm-smi,可惜目前还太简陋,没有看payload,只能看功耗,可惜功耗也没做好, 永远都是5w。。。
评论
学习的啥啊
评论
搭好了混合深度学习平台。
方法更新在顶楼。
评论
虽然看不懂,但支持你的干货
评论
一种实验平台,本身没什么用,但可以用来比较a卡和n卡的compute unit在深度学习上的效率。
评论
感觉hipcaffe和miopen的优化如何啊
评论
hipcaffe绝对不可能有源生caffe效率高,因为它本来就是fork了一整个caffe,在此基础上改的,还不是改的c++代码,而是在二进制上link。编译过程也是先编译了一整个caffe,然后再编译自己的代码。
评论
imagenet200多G我实在下不动了,还是cifar吧。caffe版本变得太快了,以前的都跑不了。我调一个resnet cifar出来,再多我调不动了,毕竟还要做正事。
评论
原来hipcaffe是这样兼容的。那这样看来确实如此了,轻量网络下确实可以看出优化的空间,caffe性能影响很大。不过感觉大网络就看miopen了本身了。
希望tensorflow能做的好一些。。。
评论
caffe还是当年学dl的时候用过,这些年早就转到tensorflow和实验室自有框架上了。这框架学术味道太重了,默认能做的少,动不动就要去c++定制layer。
rocm版的torch也出了状态是开发中,如果完备,我还准备试试resnet 1k layers这个paper的自带代码就是torch,移植应该很方便。
评论
级别不够,没法给楼主加分
评论
看来AMD在DL上也翻车了。
评论
查了下的确是rocm特有的bug。可以手动修正,但是比较麻烦。
评论
caffe上跑resnet太为难它了,源生没有highway的实现,一般需要定制layer,包括后面的cuda kernel function,但我目前还不知道如何给hipCaffe定制layer,hipCaffe的layer都是layer + hip封装的形式,按照caffe的方式,只能写个custom layer的cpp和h,但hip封装怎么写不明白,还是可以自动生成的,不可知。
捕获.PNG (97.16 KB, 下载次数: 1)
昨天研究了一会,hip在cpp里面也封装了核函数,比较原始啊。cuda一般写在cu文件里。
两者都有调用自己的深度学习库,这点倒是很一致。
捕获2.PNG (24.84 KB, 下载次数: 1)
评论
一个月过去了,群主感觉hipCaffe咋样,是不是Bug多成马
评论
你的id好牛啊
评论
好忙的,早就没测了,目前就一个hipCaffe(还有bug),生产性堪忧。
评论
树导现在还有用ROCM?
评论
没用在正式环境,偶尔捡起来玩玩的程度。
评论
第二图右下角绿色台标,显示显卡信息的是什么软件?
评论
驱动面板,x setting现在更流行tensorflow 不知道amd这个有没有对应的支持
评论
这个是runtime,你用什么框架也要装这个。
amd的tf版本是1.8,和nv的支持是一样的current release,转贴机发过贴。
评论
哦 那还是可以的。 不过我没有自己去适用过。。 反正平时学校都服务器跑 电路 电子 维修 求创维42c08RD电路图 评论 电视的图纸很少见 评论 电视的图纸很少见 评论 创维的图纸你要说 版号,不然无能为力 评论 板号5800-p42ALM-0050 168P-P42CLM-01 电路 电子 维修 我现在把定影部分拆出来了。想换下滚,因为卡纸。但是我发现灯管挡住了。拆不了。不会拆。论坛里的高手拆解过吗? 评论 认真看,认真瞧。果然有收
·日本中文新闻 唐田绘里香为新剧《极恶女王》剃光头 展现演员决心
·日本中文新闻 真子小室夫妇新居引发隐私担忧
·日本中文新闻 前AKB48成员柏木由纪与搞笑艺人交往曝光
·日本学校 {日本国际学校}梅田インターナショナルスクール
·日本学校 LINE:sm287 陳雨菲、20歳、台湾からの留学生、東京に来たばかり
·日本留学生活 出售平成22年走行48000km 代步小车
·日本华人网络交流 円相場 一時1ドル=140円台まで上昇?
·日本华人网络交流 问日本华人一个问题
·日本旅游代购 富山接机
·生活百科 英国转澳大利亚转换插头
·汽车 【求助】修车遇到困难怎么办?