专注互联网科技,赋能企业数字化发展
实习一面 拷打项目论文 介绍大模型训练流程,预训练,微调,强化学习 奖励模型的损失函数 介绍DPO,DPO和PPO哪个效果好,为什么 介绍数据合成最新工作 openai o1 复现相关工作 反问 无算法题 #实习 #面试 #大模型