语义分割模型转化为ncnn后在pc和arm上都很慢

p4tfgftt  于 2022-12-31  发布在  其他
关注(0)|答案(6)|浏览(132)

语义分割模型icnet转为ncnn后,和caffe用cpu推理时间作比较,在pc上慢了一倍多,嵌入式arm平台上慢了好几倍。

dnph8jn4

dnph8jn41#

可能是用了比较多的 deconvolution?建议改为 upsampling + conv

lmyy7pcs

lmyy7pcs2#

可能是用了比较多的 deconvolution?建议改为 upsampling + conv

没有使用deconvolution层,用的时interp层

sxissh06

sxissh063#

编译时没有开启 neon 吗?
观察下编译过程中,是不是 src/layer/arm/xxxx_arm.cpp

oknwwptz

oknwwptz4#

原模型的耗时时长多少,在cpu下还是gpu下什么框架跑得呢

7fyelxc5

7fyelxc55#

原模型的耗时时长多少,在cpu下还是gpu下什么框架跑得呢

在cpu下跑,arm下,转ncnn速度慢到1500ms,后面尝试mnn速度120ms

ar7v8xwq

ar7v8xwq6#

编译时没有开启 neon 吗?
观察下编译过程中,是不是 src/layer/arm/xxxx_arm.cpp

我的编译的时候开启了neon,也加载了 layer/arm/XXX_arm.cpp:
[ 13%] Building CXX object src/CMakeFiles/ncnn.dir/layer/arm/batchnorm_arm.cpp.o
[ 19%] Building CXX object src/CMakeFiles/ncnn.dir/layer/arm/convolution_arm.cpp.o

85%] Building CXX object src/CMakeFiles/ncnn.dir/layer/arm/hardsigmoid_arm.cpp.o
[ 89%] Building CXX object src/CMakeFiles/ncnn.dir/layer/arm/hardswish_arm.cpp.o

但是移植后速度也还是很慢,800X800的单张要1.5s,227X227的大概500ms内。

相关问题