木叶吟
木叶吟
文章
简历
浅色
深色
自动
中文 (简体)
English
LLM Training
GPU 集群调度:深度学习任务该如何排队、放置与共享
基于我们的 ACM Computing Surveys 论文,梳理 GPU 数据中心里的训练、推理、HPO、混合负载以及未来调度器设计。
Zhisheng YE
May 17, 2026
7 分钟阅读时长
ResiHP:大模型训练故障下的动态混合并行
一篇关于 ResiHP 的技术报告:它在变长序列带来的噪声中识别 fail-slow 设备,并动态调整 3D 并行来提升大模型训练韧性。
Zhisheng YE
May 17, 2026
5 分钟阅读时长
Hydro:把超参数搜索放进流水线空泡
一篇关于 Hydro Bubble Squeezer 的技术文章:它把轻量级超参数搜索任务放进大模型流水线并行训练的空泡里运行。
Zhisheng YE
May 17, 2026
6 分钟阅读时长
引用
×