Publications

Qinghao Hu, Zhisheng YE, Zerui Wang, Guoteng Wang, Meng Zhang, Qiaoling Chen, Peng Sun, Dahua Lin, Xiaolin Wang, Yingwei Luo, Yonggang Wen, Tianwei Zhang (2024). Characterization of Large Language Model Development in the Datacenter. In NSDI.

Wei Gao, Zhisheng YE, Peng Sun, Tianwei Zhang, Yonggang Wen (2024). UniSched: A Unified Scheduler for Deep Learning Training Jobs with Different User Demands. In ToC.

Preprint PDF Cite DOI

Zhisheng YE, Wei Gao, Qinghao Hu, Peng Sun, Xiaolin Wang, Yingwei Luo, Tianwei Zhang, Yonggang Wen (2023). Deep Learning Workload Scheduling in GPU Datacenters: A Survey. In CSUR.

Preprint PDF Cite Project DOI

Qinghao Hu, Zhisheng YE, Meng Zhang, Qiaoling Chen, Peng Sun, Yonggang Wen, Tianwei Zhang (2023). Hydro: Surrogate-Based Hyperparameter Tuning Service in Datacenters. In OSDI.

PDF Cite Code Slides Video

Zehua Yang, Zhisheng YE, Tianhao Fu, Jing Luo, Xiong Wei, Yingwei Luo, Xiaolin Wang, Zhenlin Wang, Tianwei Zhang (2022). Tear Up the Bubble Boom: Lessons Learned From a Deep Learning Research and Development Cluster. In ICCD.

PDF Cite Dataset DOI

Zhisheng YE, Peng Sun, Wei Gao, Tianwei Zhang, Xiaolin Wang, Shengen Yan, Yingwei Luo (2021). ASTRAEA: A Fair Deep Learning Scheduler for Multi-tenant GPU Clusters. In TPDS.

Preprint Cite Code DOI

Wei Gao, Zhisheng YE, Peng Sun, Yonggang Wen, Tianwei Zhang (2021). Chronus: A Novel Deadline-aware Scheduler for Deep Learning Training Jobs. In SoCC.

Preprint PDF Cite Code Video DOI