中文聊天模型Llama3-8B-Chinese-Chat发布减少中英混答的问题

心灵探险家 04-23 55

默认

摘要： 直播吧月日讯沙特联第轮利雅得胜利客场挑战吉达国民上半场伊巴涅斯染黄德米拉尔头球击中横梁罗破门被吹越位半场战罢利雅得胜利暂吉达国民下半场菲尔米诺破门被吹伊巴涅斯送点罗点射破门打破僵局...

直播吧3月16日讯沙特联第24轮，利雅得胜利客场挑战吉达国民。上半场，伊巴涅斯染黄，德米拉尔头球击中横梁，C罗破门被吹越位。半场战罢，利雅得胜利暂0-0吉达国民；下半场，菲尔米诺破门被吹，伊巴涅斯送点，C罗点射破门打破僵局，目前C罗23球领跑沙特联射手榜！

4月23日消息:Llama3-8B-Chinese-Chat 是一个基于 Meta-Llama-3-8B-Instruct 模型，通过 ORPO（无参照整体优选优化）方法进行微调的。该模型在处理中文问题时，相较于原始模型，减少了使用英文回答和混合中英文回答的情况，同时减少了表情符号的使用，使得回答更加正式和专业。

ORPO 是一种优化模型偏好和性能的方法，它利用赔率比（Odds Ratio）的概念来调整模型的偏好设置，无需明确正确答案即可优化模型在特定任务中的表现。在 Llama3-8B-Chinese-Chat 模型中，ORPO 被用来优化模型对中文和英文的生成偏好，减少生成英文答案的倾向，以更好地适应中文对话环境。

模型的训练细节包括使用 DPO-En-Zh-20k 英汉数据集，经过3个周期的训练，学习率设置为5e-6，并采用余弦调度器调整。模型的上下文长度限制为8192字符，全局批次大小为64，使用的优化器为 paged_adamw_32bit，ORPO 参数（β）设置为0.05。

在实际应用中，Llama3-8B-Chinese-Chat 模型能够更准确地理解中文问题的意图，并以更恰当的方式响应。例如，它能够避免在回答中文问题时错误地使用英文或不必要的表情符号，提供更正式和专业的回答。