但我了解到的是,华为基本有解决的办法,昇腾AI计算集群Atlas,是用算力冗余的办法解决的。也就是即使英伟达的集群训练时,也会经常出错,然后重新开始训练,这样比较浪费时间,而华为服务器价格相对更便宜,可以提供更多的冗余算力,这样在出错时,及时用冗余算力替补上,避免了重新开始,节省了时间,整体训练效果也很好。
个人理解,仅供参考。