CV

Education

B.Eng. student in Software Engineering, Fudan University, 2023–Present

Research Interests

Trustworthy evaluation of large language models
Medical NLP and real-world clinical benchmarks
Open-ended novelty assessment and scientific intelligence

Selected Publications

SciAgentGym: Benchmarking Multi-Step Scientific Tool-use in LLM Agents

Yujiong Shen ^* , Yajie Yang ^* , Zhiheng Xi ^* , Binze Hu , Huayu Sha , Jiazheng Zhang , Qiyuan Peng , Junlin Shang , Jixuan Huang , Yutao Fan , Jingqi Tong , Shihan Dou , Ming Zhang , Lei Bai , Zhenfei Yin ^† , Tao Gui ^† , Xingjun Ma , Qi Zhang , Xuanjing Huang ^† , Yu-Gang Jiang

* Equal contribution; † Corresponding author

arXiv preprint · ICML 2026 submission (under review), 2026

OpenNovelty: An LLM-powered Agentic System for Verifiable Scholarly Novelty Assessment

Ming Zhang ^* ^† , Kexin Tan ^* , Yueyuan Huang ^* , Yujiong Shen , Chunchun Ma , Li Ju , Xinran Zhang , Yuhui Wang , Wenqing Jing , Jingyi Deng , Huayu Sha , Binze Hu , Jingqi Tong , Changhao Jiang , Yage Geng , Yuankai Ying , Yue Zhang , Zhangyue Yin , Zhiheng Xi , Shihan Dou , Tao Gui , Qi Zhang ^† , Xuanjing Huang

* Equal contribution; † Corresponding author

arXiv preprint, 2026

LLMEval-Fair: A Large-Scale Longitudinal Study on Robust and Fair Evaluation of Large Language Models

Ming Zhang ^* ^† , Yujiong Shen ^* , Jingyi Deng ^* , Yuhui Wang ^* , Huayu Sha , Kexin Tan , Qiyuan Peng , Yue Zhang , Junzhe Wang , Shichun Liu , Yueyuan Huang , Changhao Jiang , Jingqi Tong , Yilong Wu , Zhihao Zhang , Mingqi Wu , Mingxu Chai , Zhiheng Xi , Shihan Dou , Tao Gui , Qi Zhang ^† , Xuanjing Huang

* Equal contribution; † Corresponding author

ACL 2026 Submission (Under Review), 2025

LLMEval-Med: A Real-world Clinical Benchmark for Medical LLMs with Physician Validation

Ming Zhang ^* , Yujiong Shen ^* , Zelin Li ^* , Huayu Sha , Binze Hu , Yuhui Wang , Chenhao Huang , Shichun Liu , Jingqi Tong , Changhao Jiang , Mingxu Chai , Zhiheng Xi , Shihan Dou , Tao Gui , Qi Zhang ^† , Xuanjing Huang ^†

* Equal contribution; † Corresponding author

Findings of EMNLP 2025, 2025

Education

Research Interests

Links

Selected Publications

SciAgentGym: Benchmarking Multi-Step Scientific Tool-use in LLM Agents

OpenNovelty: An LLM-powered Agentic System for Verifiable Scholarly Novelty Assessment

LLMEval-Fair: A Large-Scale Longitudinal Study on Robust and Fair Evaluation of Large Language Models

LLMEval-Med: A Real-world Clinical Benchmark for Medical LLMs with Physician Validation