此次演讲将分享我们面向阿里巴巴计算资源管理和调度方面所开发的基于数据驱动的算法以及针对大规模AI训练任务的分布式优化算法。我们将讨论如何通过机器学习和最优化算法的结合加强资源管理和调度的智能决策,实现在保证稳定性的前提下压缩成本,以及在多个场景如分配率提升,碎片整理,打散容灾的具体实践。大规模AI训练任务如图像分类,识别,翻译等需要大量的计算资源。 我们也会讨论针对大规模AI训练任务所开发的网络高效分布式优化算法,和传统的随机梯度下降算法相比有效降低网络的传输,帮助提高分布式系统训练效率,从而缩短计算训练时间。