1. 17 5月, 2021 1 次提交
  2. 20 4月, 2021 1 次提交
  3. 17 4月, 2021 3 次提交
  4. 16 4月, 2021 1 次提交
  5. 15 4月, 2021 3 次提交
  6. 24 3月, 2021 2 次提交
  7. 23 2月, 2021 1 次提交
  8. 10 2月, 2021 1 次提交
  9. 20 1月, 2021 1 次提交
  10. 18 12月, 2020 2 次提交
  11. 04 12月, 2020 3 次提交
  12. 02 12月, 2020 1 次提交
  13. 01 12月, 2020 1 次提交
  14. 20 10月, 2020 1 次提交
    • L
      Optimize the sync batchnorm by batching the communication (#980) · 8a1ed9e8
      lly-zero-one 提交于
      In this PR, we mainly tried to optimize the performance of Syncatchnorm and also fixed one potential issue in the welford_parallel kernel implementation.
      
      For performance improvement, we batched the mean/var/count all_gather communication together and sent it once in the forward path
      We also batch the all_reduce in backward path
      We add the contiguous call on the input of welford_parallel kernel.
      If there is any standard perf benchmark, I would be happy to run it.
      8a1ed9e8
  15. 29 9月, 2020 1 次提交
  16. 16 9月, 2020 1 次提交
  17. 15 9月, 2020 2 次提交
  18. 15 8月, 2020 1 次提交
  19. 11 8月, 2020 1 次提交
  20. 07 8月, 2020 1 次提交
  21. 06 8月, 2020 1 次提交
  22. 01 8月, 2020 1 次提交
  23. 31 7月, 2020 1 次提交
  24. 24 7月, 2020 1 次提交
  25. 23 7月, 2020 3 次提交
  26. 21 7月, 2020 4 次提交