Seed1.5-Thinking: Advancing Superb Reasoning Models with Reinforcement Learning

Item request has been placed!

Item request cannot be made.

Processing Request

Read More Add to Saved list

Author(s): Seed, ByteDance; Chen, Jiaze; Fan, Tiantian; Liu, Xin; Liu, Lingjun; Lin, Zhiqi; Wang, Mingxuan; Wang, Chengyi; Wei, Xiangpeng; Xu, Wenyuan; Yuan, Yufeng; Yue, Yu; Yan, Lin; Yu, Qiying; Zuo, Xiaochen; Zhang, Chi; Zhu, Ruofei; An, Zhecheng; Bai, Zhihao; Bao, Yu; Bin, Xingyan; Chen, Jiangjie; Chen, Feng; Chen, Hongmin; Chen, Riwei; Chen, Liangqiang; Chen, Zixin; Chen, Jinsong; Chen, Siyan; Chen, Kaiyuan; Chen, Zhi; Chen, Jin; Chen, Jiecao; Chi, Jinxin; Dai, Weinan; Dai, Ning; Dai, Jiahui; Dou, Shihan; Du, Yantao; Du, Zhengyin; Duan, Jianhui; Dun, Chen; Fan, Ting-Han; Feng, Jiazhan; Feng, Junda; Feng, Ziyuan; Fu, Yuwei; Fu, Wenqi; Fu, Hanjie; Ge, Hao; Guo, Hongyi; Han, Mingji; Han, Li; Hao, Wenhao; Hao, Xintong; He, Qianyu; He, Jerry; He, Feng; Heng, Wen; Hong, Zehua; Hou, Qi; Hu, Liang; Hu, Shengding; Hu, Nan; Hua, Kai; Huang, Qi; Huang, Ziyue; Huang, Hongzhi; Huang, Zihao; Huang, Ting; Huang, Wenhao; Jia, Wei; Jia, Bin; Jia, Xiaoying; Jiang, Yuhua; Jiang, Haobin; Jiang, Ziheng; Jiang, Kaihua; Jiang, Chengquan; Jiao, Jianpeng; Jin, Xiaoran; Jin, Xing; Lai, Xunhao; Li, Zheng; Li, Xiang; Li, Liyi; Li, Hongkai; Wan, Shengxian; Wang, Ya; Li, Yunshui; Li, Chenggang; Li, Niuniu; Li, Siyu; Li, Xi; Li, Xiao; Li, Aoyan; Li, Yuntao; Liang, Nianning; Liang, Xinnian; Lin, Haibin; Lin, Weijian; Lin, Ye; Liu, Zhicheng; Liu, Guanlin; Liu, Chenxiao; Liu, Yan; Liu, Gaohong; Liu, Juncai; Liu, Chundian; Liu, Deyi; Liu, Kaibo; Liu, Siyao; Liu, Qi; Liu, Yongfei; Liu, Kang; Liu, Gan; Liu, Boyi; Long, Rui; Lou, Weiqiang; Lou, Chenwei; Luo, Xiang; Luo, Yao; Lv, Caiping; Lv, Heyang; Ma, Bole; Ma, Qianli; Ma, Hongzhi; Ma, Yiyuan; Ma, Jin; Ma, Wenchang; Ma, Tingting; Mao, Chen; Min, Qiyang; Nan, Zhe; Ning, Guanghan; Ou, Jinxiang; Pan, Haojie; Pang, Renming; Peng, Yanghua; Peng, Tao; Qian, Lihua; Qiao, Mu; Qu, Meng; Ren, Cheng; Ren, Hongbin; Shan, Yong; Shen, Wei; Shen, Ke; Shen, Kai; Sheng, Guangming; Shi, Jinlong; Shi, Wenlei; Shi, Guang; Cao, Shuai Shuai; Song, Yuxin; Song, Zuquan; Su, Jing; Sun, Yifan; Sun, Tao; Sun, Zewei; Wan, Borui; Wang, Zihan; Wang, Xiaohui; Wang, Xi; Wang, Shuguang; Wang, Jun; Wang, Qinlong; Wang, Chenyuan; Wang, Shuai; Wang, Changbao; Wang, Jiaqiang; Wang, Shihang; Wang, Xuwu; Wang, Zaiyuan; Wang, Yuxuan; Wang, Wenqi; Wang, Taiqing; Wei, Chengzhi; Wei, Houmin; Wei, Ziyun; Wei, Shufa; Wu, Zheng; Wu, Yonghui; Wu, Yangjun; Wu, Bohong; Wu, Shuang; Wu, Jingqiao; Wu, Ning; Wu, Shuangzhi; Wu, Jianmin; Xi, Chenguang; Xia, Fan; Xian, Yuqiao; Xiang, Liang; Xiang, Boren; Xiao, Bowen; Xiao, Zhen; Xiao, Xia; Xiao, Yongsheng; Xin, Chao; Xin, Shulin; Xiong, Yuwen; Xu, Jingjing; Xu, Ziwen; Xu, Chenyin; Xu, Jiayi; Xu, Yifan; Xu, Wei; Xu, Yufei; Xu, Shikun; Yan, Shipeng; Yan, Shen; Yang, Qingping; Yang, Xi; Yang, Tianhao; Yang, Yuehang; Yang, Yuan; Yang, Ximing; Yang, Zeyu; Yang, Guang; Yang, Yifan; Yao, Xuesong; Yi, Bairen; Yin, Fan; Yin, Jianian; Ying, Ziqiang; Yu, Xiangyu; Yu, Hongli; Yu, Song; Yu, Menghan; Yu, Huan; Yuan, Siyu; Yuan, Jun; Zeng, Yutao; Zhan, Tianyang; Zhang, Zheng; Zhang, Yun; Zhang, Mofan; Zhang, Wang; Zhang, Ru; Zhang, Zhi; Zhang, Tianqi; Zhang, Xinyi; Zhang, Zhexi; Zhang, Sijun; Zhang, Wenqiang; Zhang, Xiangxiang; Zhang, Yongtao; Zhang, Yuyu; Zhang, Ge; Zhang, He; Zhang, Yue; Zheng, Renjie; Zheng, Ningxin; Zheng, Zhuolin; Zheng, Yaowei; Zheng, Chen; Zhi, Xiaoyun; Zhong, Wanjun; Zhong, Cheng; Zhong, Zheng; Zhong, Baoquan; Zhou, Xun; Zhou, Na; Zhou, Huan; Zhu, Hang; Zhu, Defa; Zhu, Wenjia; Zuo, Lei
Subject Terms:
Computer Science - Computation and Language
Document Type:
Working Paper
Online Access:
http://arxiv.org/abs/2504.13914

Additional Information
- Publication Date:
  2025
- Collection:
  Computer Science
- Abstract:
  We introduce Seed1.5-Thinking, capable of reasoning through thinking before responding, resulting in improved performance on a wide range of benchmarks. Seed1.5-Thinking achieves 86.7 on AIME 2024, 55.0 on Codeforces and 77.3 on GPQA, demonstrating excellent reasoning abilities in STEM and coding. Beyond reasoning tasks, the method demonstrates notable generalization across diverse domains. For instance, it surpasses DeepSeek R1 by 8% in win rate on non-reasoning tasks, indicating its broader applicability. Compared to other state-of-the-art reasoning models, Seed1.5-Thinking is a Mixture-of-Experts (MoE) model with a relatively small size, featuring 20B activated and 200B total parameters. As part of our effort to assess generalized reasoning, we develop two internal benchmarks, BeyondAIME and Codeforces, both of which will be publicly released to support future research. Model trial link: https://www.volcengine.com/experience/ark.
- Accession Number:
  edsarx.2504.13914

Comments

No Comments.

Seed1.5-Thinking: Advancing Superb Reasoning Models with Reinforcement Learning

Contact

Follow us