BackGround

测试验证cuda多流的并行调度逻辑
测试环境:GTX1650+VS2019+Nsight

单流循环

按序执行

1

双流循环(方式1)

目前最优的并行方式

2

双流循环(方式2)

并行程度不如方式1

3

双流循环(方式3)

4

双流循环(方式4)

5

TX2 deviceQuery

6

总结

    1. Nsight能可视化cuda的时间线,可以在设计初期帮助规避一些不合理的设计逻辑,但PC和TX2上设备支持情况不同,在PC上的表现不完全等同于TX2上表现,TX2上需另做测试,看是否满足预期;
    1. 从上述对比结果看,在确保上下文依赖关系正确的情况下,同一流的操作放在一起调用能获得更好的并行效果;
    1. TX2只有一个copy engine, 所以拷贝操作间不能并行。