Z6·尊龙凯时「中国」官方网站 AI 家具司理手记: badcase如何回流(下)

发布日期：2026-05-28 06:07 来源：未知作者：admin 浏览次数：

模子评测后的badcase处理是一门紧密活，不是所有这个词问题皆该丢给模子磨砺。本文将拆解badcase五大分类法例，揭见告识库造作、行为模式、立场偏好等不同问题的处理战略，并共享如何构建金标集终了可追想的模子迭代闭环。从业务视角动身，带你看懂如何让模子实在越变越好。

评测产出的badcase怎样实在喂回模子？哪些该训、哪些不该训、训了反而更糟的有哪些。

上一篇写了我怎样重作念单轮和多轮的评测框架——L1致命造作一票否决、L2/L3分层扣分、多轮M1~M5五个专属维度。

但评测自己不创造价值，评测的产出必须能校正模子。不然即是每周开会打一遍分，模子迭代了一版又一版，业务侧如故以为不行——群众皆很忙，但家具莫得变好。

这一篇讲的即是后半段：标完一堆badcase之后，怎样把它实在造成下一版模子的卓越。这部分是我跟大数据团队磨合最久的——不是因为他们不合作，是因为一运转群众对“什么badcase该训模子”的领会就不同样。

一、闭环长什么样

这张图的中枢信息唯唯一条：badcase不是一个桶，是五个桶，每个桶的处理步地完全不同。

二、不是所有这个词badcase皆该训模子

2.1学问库问题——统统不成训进模子

包括：事实造作、长入不可用、信息过期

我专门拿了10条标了”事实造作”的case复盘，发现7条是RAG调回错了对应文档，2条是学问库里那条数据自己就过期了，唯独1条算是模子”开脱进展”。

若是把这些case奏凯SFT进模子，等于让模子学会了一份自信但造作的学问。后果有两个

学问库后续就算改对了，模子如故会按训进去的错版块回答

模子对我方学过的内容置信度更高，反而更不肯意触发RAG调回

正确作念法：

调回错→优化embedding/加省份过滤/改chunk切分

学问库错→走数据处治历程，业务侧阐发后修正源数据

模子开脱进展→少许，但确乎不错SFT，让它学“概略情就承认不知谈”

2.2行为模式问题——该SFT训

包括：暴力拒答、任务未闭环、无效反问、绪言不搭后语

这些是模子”行为民俗”层面的问题——它知谈学问，但不知谈该怎样用。这是SFT的经典题材。举个最典型的例子：

原回答（被打0分）：

“我是XX的销售助手，很对不起暂时未能找到与您的需求关系的信息。”

改写后规画回答：

“您说的这个咱们莫得奏凯对应的家具，不外访佛需求不错望望XX/也不错转东谈主工策动，您要不要试试？”

网罗50~100对这样的（原回答/改写后回答），作念一轮针对性SFT，恶果会有昭彰改善。要道点：改写不是模子团队拍脑袋写，是业务侧来写。唯独业务侧知谈”在咱们的业务体系里，这个场景的最优回答长什么样”。

2.3立场偏好问题——该DPO训，不该SFT

包括：冗余啰嗦、话术僵硬、排版衰退

直观是”啰嗦了那就给它一个直快版块去学”，但骨子上SFT一个”直快版”通常会带来模子举座抒发材干的退化——它会矫枉过正地造成”惜墨若金”，丢失正本好的率领性抒发。

正确的作念法是DPO（奏凯偏好优化）：给模子同期看（啰嗦版/精粹版），让它学的是两个版块之间的偏好关系，而不是只学其中一个。这样模子保留了抒发各样性，仅仅在”啰嗦vs精粹”这个维度上向你盼愿的标的歪斜。

咱们刻下积存了约莫200对立场偏好对，Z6尊龙凯时中国官方网站分三类：

长度偏好（啰嗦版/精粹版）

口吻偏好（公式化版/当然版）

结构偏好（活水账版/结构化版）

2.4一张总结表

先对着这张表分类，然后才接洽怎样改。分类对了，处理步地当然就通晓了。

三、评测集必须固定一份”金标集”

每次新版模子出来，必须跑一遍200~500条的金标集，对比上一版各维度分数变化。

我的金标集是这样构造的：

30%高频精真金不怕火问（FAQ类，地板线）

40%中等业务场景（套餐/流量包/终局/升值业务，主战场）

20%多轮复杂场景（指代+意图切换羼杂，天花板）

10%特意刁难（错别字、超长、夹杂方言、坏心绕过）

金标集要依期更新，但统统不成频繁更新。咱们的节律是每季度补充10%新case、淘汰5%逾期case。若是每个月皆换一批，记忆测试就失去比较基准了——你永恒不知谈是模子变好了，如故题变精真金不怕火了。

四、记忆测试要看分项变化，不单看总分

新版上线前，不要看”总分教训了3分”，要看：

4.1L1致命造作是不是清零了

没清零不让上。这是死线。

一个版块若是总分教训了5分但L1造作还有3条，业务侧应该拒绝它。因为坐褥环境下，1条L1造作（比如说错价钱、伪造长入）的龙套力庞杂于100条L2造作。

4.2L2严重项的扣分漫衍有莫得变化

比如”任务未闭环”从38%降到20%——这是实在有料想的卓越。

若是漫衍确切没动，仅仅总分升高了，那很可能是金标集里精真金不怕火题答得更好了、坚苦没动——这种“分数教训”是虚的。

4.3有莫得出现新的扣分类型

新造作比老造作更危急。

最常见的即是：为了治”暴力拒答”，模子学会了”什么皆给你推选两款家具”，截止”绪言不搭后语”的占比上来了。这种”按下葫芦浮起瓢”必须警悟。

4.4多轮M1~M5五个维度不成backward

许多模子微调单轮变好了，多轮反而崩了——必须分开看。

我见过一次很惨烈的：模子团队为了治单轮的”绪言不搭后语”，加强了模子的”主动话题率领”材干，截止多轮的”险阻文接受”分数掉了15个百分点。因为模子变得太”主动”了，不再老素养实地围绕用户的上一循环答。单轮和多轮的记忆讲授必须分开出。

五、回流节律：不要每周训，要按版块节律走

频繁微调会让模子不褂讪——每周一个版块，业务侧根底来不足作念记忆

小批量磨砺样本噪声大——30条样本里若是有5条标注有偏差，影响会被放大

没法定位是哪批数据起的作用

刻下的节律：

AG国际APP2026世界杯中国官方下载

这个节律走下来，每次新版块上线，业务侧能通晓地说出来”这版比拟上版，在哪些维度教训了若干、有莫得新引入的问题”。而不是模子团队说”咱们又训了一版，你望望”，业务侧凭嗅觉点头或摇头。

六、回到阿谁原始问题

写这两篇著作之前，我问过我方一个问题：当作业务侧，我到底想要什么？

谜底是：我想要一套不错让模子迭代实在变好的机制。不是评测漂亮的讲授，不是95%的准确率Z6·尊龙凯时「中国」官方网站，是一套能让”用户体验”这件事可被估计、可被校正、可被追想的工程闭环。

上一篇：上一篇：Z6·尊龙凯时「中国」官方网站华为"韬定律"刷屏第二天, 这些细节还没被看到

下一篇：下一篇：Z6·尊龙凯时「中国」官方网站 [新浪彩票]足彩26082期冷热指数：阿森纳低温不败

尊龙百家乐

Z6·尊龙凯时「中国」官方网站 AI 家具司理手记: badcase如何回流(下)