Kexin Huang's Homepage

Beyond Where to Look: Trajectory-Guided Reinforcement Learning for Multimodal RLVR

Jinda Lu, Junkang Wu, Jinghan Li, Kexin Huang, Shuo Yang, Mingzhu Chen, Jiancan Wu, Kuien Liu, Xiang Wang

ECCV 2026 [PDF]

Experience Augmented Policy Optimization for LLM Reasoning

Jinda Lu, Kexin Huang, Junkang Wu, Shuo Yang, Jinghan Li, Chiyu Ma, Shaohang Wei, Xiang Wang, Guoyin Wang, Jingren Zhou

ICML 2026 [Page]

One-Way Policy Optimization for Self-Evolving LLMs

Shuo Yang, Jinda Lu, Kexin Huang, Chiyu Ma, Shaohang Wei, Yuyang Liu, Guoyin Wang, Jingren Zhou, Li Yuan

ICML 2026 [Page] [PDF]

Clipping Bottleneck: Stabilizing RLVR via Stochastic Recovery of Near-Boundary Signals

Shuo Yang, Jinda Lu, Chiyu Ma, Kexin Huang, Haoming Meng, Qihui Zhang, Yuyang Liu, Bolin Ding, Guoyin Wang, Li Yuan, Jingren Zhou

ICML 2026 [Page] [PDF]

Mitigating Reward Hacking in LLM-based Recommendation: A Preference Optimization Approach

Heyu Chen, Junkang Wu, Guoqing Hu, Kexin Huang, Xiang Wang, Jiancan Wu

ICML 2026 [Page]

Beyond Magnitude: Leveraging Direction of RLVR Updates for LLM Reasoning

Kexin Huang, Haoming Meng, Junkang Wu, Jinda Lu, Chiyu Ma, Ziqian Chen, Xue Wang, Bolin Ding, Jiancan Wu, Xiang Wang, Xiangnan He, Guoyin Wang, Jingren Zhou

ICLR 2026 [PDF] [Code]

Quantile Advantage Estimation for Entropy-Safe Reasoning

Junkang Wu, Kexin Huang, Jiancan Wu, An Zhang, Xiang Wang, Xiangnan He

ICLR 2026 [PDF] [Code]

Sparse but Critical: A Token-Level Analysis of Distributional Shifts in RLVR Fine-Tuning of LLMs

Haoming Meng, Kexin Huang, Shaohang Wei, Chiyu Ma, Shuo Yang, Xue Wang, Guoyin Wang, Bolin Ding, Jingren Zhou

ICLR 2026 [PDF]

RePO: ReLU-based Preference Optimization

Junkang Wu, Kexin Huang, Xue Wang, Jinyang Gao, Bolin Ding, Jiancan Wu, Xiangnan He, Xiang Wang

NeurIPS 2025 [PDF] [Code]

LaMP-Val: Large Language Models Empower Personalized Valuation in Auction

Jie Sun, Tianyu Zhang, Houcheng Jiang, Kexin Huang, Xiang Shu, Zhibo Zhu, Lintao Ma, Xingyu Lu, Jun Zhou, Junkang Wu, Chi Luo, An Zhang, Jiancan Wu, Xiang Wang

EMNLP 2025 (Findings) [PDF] [Code]

Larger or Smaller Reward Margins to Select Preferences for Alignment?

Kexin Huang, Junkang Wu, Ziqian Chen, Xue Wang, Jinyang Gao, Bolin Ding, Jiancan Wu, Xiangnan He, Xiang Wang

ICML 2025 [PDF] [Code]

Learning Bayesian Nash Equilibrium in Auction Games via Approximate Best Response

Kexin Huang, Ziqian Chen, Xue Wang, Chongming Gao, Jinyang Gao, Bolin Ding, Xiang Wang

ICML 2025 [PDF] [Code]

SPRec: Leveraging Self-Play to Debias Preference Alignment for Large Language Model-based Recommendations

Chongming Gao, Ruijun Chen, Shuai Yuan, Kexin Huang, Yuanqing Yu, Xiangnan He

WWW 2025 (Oral) [PDF] [Code]

Auctionformer: A Unified Deep Learning Algorithm for Solving Equilibrium Strategies in Auction Games

Kexin Huang, Ziqian Chen, Xue Wang, Chongming Gao, Jinyang Gao, Bolin Ding, Xiang Wang

ICML 2024 [PDF] [Code]

Alleviating Matthew Effect of Offline Reinforcement Learning in Recommendation

Chongming Gao, Kexin Huang, Jiawei Chen, Yuan Zhang, Biao Li, Peng Jiang, Shiqi Wang, Zhong Zhang, Xiangnan He

SIGIR 2023 Best Paper Honorable Mention [PDF] [Code]

Learn to Explore: on Bootstrapping Interactive Data Exploration with Meta-learning

Yukun Cao, Xike Xie, Kexin Huang

ICDE 2023 [PDF]

ARMOR: Stabilizing On-Policy LLM RL with Off-Policy Anchor Samples

Kexin Huang, Junkang Wu, Jinda Lu, Shuo Yang, Chiyu Ma, Jiancan Wu, Xiang Wang, Xiangnan He, Guoyin Wang, Jingren Zhou

arXiv 2026 [PDF] [Code]

Kexin Huang

News

Education

Publications

Experiences & Services

Grants & Honors