CUDA基础 [4]:多流测试
BackGround
测试验证cuda多流的并行调度逻辑
测试环境:GTX1650+VS2019+Nsight
单流循环
按序执行
双流循环(方式1)
目前最优的并行方式
双流循环(方式2)
并行程度不如方式1
双流循环(方式3)
双流循环(方式4)
TX2 deviceQuery
总结
-
- Nsight能可视化cuda的时间线,可以在设计初期帮助规避一些不合理的设计逻辑,但PC和TX2上设备支持情况不同,在PC上的表现不完全等同于TX2上表现,TX2上需另做测试,看是否满足预期;
-
- 从上述对比结果看,在确保上下文依赖关系正确的情况下,同一流的操作放在一起调用能获得更好的并行效果;
-
- TX2只有一个copy engine, 所以拷贝操作间不能并行。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 旭穹の陋室!
评论