Publications | 木叶吟

Tenghui Ma, Jihu Guo, Wei Gao, Sitian Lu, Zhisheng YE, Dahua Lin, Hanjing Wang (2026). ResiHP: Taming LLM Training Failures with Dynamic Hybrid Parallelism. Preprint.

Cite

Lei Zhang, Zhisheng YE (2026). ASYRA: Automating Graph Scheduling for Communication-Computation Overlap in Efficient Model Parallelism. Preprint.

Cite

Qiaoling Chen, Zhisheng YE, Tian Tang, Peng Sun, Boyu Tian, Guoteng Wang, Shenggui Li, Yonggang Wen, Zhenhua Han, Tianwei Zhang (2026). CONCUR: High-Throughput Agentic Batch Inference of LLM via Congestion-Based Concurrency Control. In arXiv.

Preprint PDF Cite DOI

Xintian Han, Honggang Chen, Quan Lin, Jingyue Gao, Xiangyuan Ren, Lifei Zhu, Zhisheng YE, Shikang Wu, XiongHang Xie, Xiaochu Gan, Bingzheng Wei, Peng Xu, Zhe Wang, Yuchao Zheng, Jingjian Lin, Di Wu, Junfeng Ge (2025). LEMUR: Large Scale End-to-End Multimodal Recommendation. arXiv.

Preprint Cite

Chenxiang Ma, Zhisheng YE, Hanyu Zhao, Zehua Yang, Tianhao Fu, Jiaxun Han, Jie Zhang, Yingwei Luo, Xiaolin Wang, Zhenlin Wang, Yong Li, Diyu Zhou (2025). Memory Offloading for Large Language Model Inference with Latency SLO Guarantees. arXiv.

Preprint Cite

Qinghao Hu, Zhisheng YE, Zerui Wang, Guoteng Wang, Meng Zhang, Qiaoling Chen, Peng Sun, Dahua Lin, Xiaolin Wang, Yingwei Luo, Yonggang Wen, Tianwei Zhang (2024). Characterization of Large Language Model Development in the Datacenter. In NSDI.

Preprint Cite

Wei Gao, Zhisheng YE, Peng Sun, Tianwei Zhang, Yonggang Wen (2024). UniSched: A Unified Scheduler for Deep Learning Training Jobs with Different User Demands. In ToC.

Preprint PDF Cite DOI

Zhisheng YE, Wei Gao, Qinghao Hu, Peng Sun, Xiaolin Wang, Yingwei Luo, Tianwei Zhang, Yonggang Wen (2023). Deep Learning Workload Scheduling in GPU Datacenters: A Survey. In CSUR.

Preprint PDF Cite Project DOI

Qiaoling Chen, Qinghao Hu, Zhisheng YE, Guoteng Wang, Peng Sun, Yonggang Wen, Tianwei Zhang (2023). AMSP: Super-Scaling LLM Training via Advanced Model States Partitioning. arXiv.

Preprint Cite

Qinghao Hu, Zhisheng YE, Meng Zhang, Qiaoling Chen, Peng Sun, Yonggang Wen, Tianwei Zhang (2023). Hydro: Surrogate-Based Hyperparameter Tuning Service in Datacenters. In OSDI.

PDF Cite Code Slides Video

Zehua Yang, Zhisheng YE, Tianhao Fu, Jing Luo, Xiong Wei, Yingwei Luo, Xiaolin Wang, Zhenlin Wang, Tianwei Zhang (2022). Tear Up the Bubble Boom: Lessons Learned From a Deep Learning Research and Development Cluster. In ICCD.

PDF Cite Dataset DOI

Zhisheng YE, Peng Sun, Wei Gao, Tianwei Zhang, Xiaolin Wang, Shengen Yan, Yingwei Luo (2021). ASTRAEA: A Fair Deep Learning Scheduler for Multi-tenant GPU Clusters. In TPDS.

Preprint Cite Code DOI

Wei Gao, Zhisheng YE, Peng Sun, Yonggang Wen, Tianwei Zhang (2021). Chronus: A Novel Deadline-aware Scheduler for Deep Learning Training Jobs. In SoCC.

Preprint PDF Cite Code Video DOI