搜索

木叶吟
木叶吟
  • 文章
  • 简历
  • 浅色 深色 自动
  • 中文 (简体)
    English

最新文章

GPU 任务的暂停、恢复与迁移:调度器一直缺的那块拼图
一篇关于 GPU checkpoint/restore 的技术笔记:以 FlowGPU 为主线,介绍 cudaw prototype 如何探索透明的暂停、恢复与迁移。
Zhisheng YE
May 17, 2026 8 分钟阅读时长
GPU 集群调度:深度学习任务该如何排队、放置与共享
基于我们的 ACM Computing Surveys 论文,梳理 GPU 数据中心里的训练、推理、HPO、混合负载以及未来调度器设计。
Zhisheng YE
May 17, 2026 7 分钟阅读时长
GPU 集群调度:深度学习任务该如何排队、放置与共享
ResiHP:大模型训练故障下的动态混合并行
一篇关于 ResiHP 的技术报告:它在变长序列带来的噪声中识别 fail-slow 设备,并动态调整 3D 并行来提升大模型训练韧性。
Zhisheng YE
May 17, 2026 5 分钟阅读时长
CONCUR:让 Agent 批量推理避开中期拥塞
一篇关于 CONCUR 的技术笔记:它在 agent 层做准入控制,避免长时间运行的 LLM agent 推理把 KV cache 推入失控区间。
Zhisheng YE
May 17, 2026 4 分钟阅读时长
CONCUR:让 Agent 批量推理避开中期拥塞
ASTRAEA:GPU 集群里的公平,不只是分到几张卡
一篇关于 ASTRAEA 的技术笔记:它面向多租户 GPU 集群,用长期 GPU-time 衡量公平性,避免只看瞬时分配或任务完成时间。
Zhisheng YE
May 17, 2026 4 分钟阅读时长
ASTRAEA:GPU 集群里的公平,不只是分到几张卡
查看全部文章

upyun 又拍云提供CDN服务
京ICP备16021535号-1

引用
复制 下载