文章详情

专注互联网科技,赋能企业数字化发展

文心一言面经

作者:文心一言面经

一面 主要是问简历上的项目,实践过程中的遇到的问题以及如何解决的 无手撕 二面 除了 reward 改动外,训练数据量和形式上有什么变动? 规则奖励和生成式奖励具体是怎么融合到一起的? 训练的是哪个模型?训练数据具体怎么来、怎么筛选? bad case 优化具体怎么做?举一些典型案例说明。 生成难例数据时有参考案例吗,还是纯手动设计? 调整 reward 权重是手动设置还是有实验依据? 做蒸馏的过程中遇到了什么困难,怎么解决的 kl 散度计算方式 训练 RL 用的是 GRPO 吗?讲一下 GRPO 计算方式,以及和 PPO 的区别。 PPO 里 critic 和 reward 函数怎么协作?critic 模型和 reward 模型怎么训练? 训练 reward 模型的数据怎么构造?loss 函数是什么? critic 模型怎么训练?loss 是什么? 为什么 SFT 之后还要做 RL? SFT 达到什么程度才需要上 RL? 讲一下 Transformer 架构是什么。 Attention、FFN、残差连接是怎么结合在一起的? Transformer 里一般用哪种归一化?属于 LN 还是 BN? LayerNorm 和 BatchNorm 区别是什么?为什么 CV 常用 BN,NLP 常用 LN LayerNorm 具体怎么做?作用对象是什么? 讲一下 MoE 机制 MoE 的路由怎么实现?专家基于哪个模块实现? 为什么 MoE 一般作用在 FFN 上,而不是其他模块? LoRA 训练和全参数微调区别是什么?对效果影响大吗? LoRA 调试超参数是怎么调的? LoRA 一般用在模型哪里?为什么多用在 Attention 层? 手撕 手写 Transformer模型架构,包括自注意力 FFN 残差 Norm #大模型 #强化学习 #找实习

返回新闻列表