APP下载

关于ZAKER

Skills 合作

IT之家 9小时前

看穿大模型的“小心思”：阿里千问开源可解释性模块 Qwen-Scope

IT 之家 4 月 30 日消息，今日，阿里千问宣布推出 Qwen-Scope —— 基于 Qwen3 系列和 Qwen3.5 系列模型训练所得的可解释性模块。

据介绍，阿里千问在 Qwen 隐藏层插入稀疏自编码器（SAE）并加以训练，通过施加稀疏性约束，自动提取出高度解耦、低冗余且更具可解释性的隐藏空间特征。Qwen-Scope 不仅可以用于分析 Qwen 模型行为的内在机制，也在模型优化上有着巨大潜力，应用场景包括推理结果定向控制、数据分类与合成、模型训练与优化、评估样本分布分析与对比等。

IT 之家附官方详细介绍如下：

Qwen-Scope 核心亮点包括：

推理：无需显示给出自然语言指令，实现推理结果定向控制；

数据：仅需少量种子数据便可收集用于数据分类的特征，显著降低数据依赖；同时可以使用未激活特征信息定向构造数据，补足长尾能力；

训练：通过分析语言混用和重复生成等低错问题，定位异常激活特征，在监督微调和强化学习阶段辅助模型训练，降低此类回复出现频率；

评估：计算不同样本间或不同评测集间特征激活模式，联合判断评测冗余程度，指导挑选评测集、提升评测能力覆盖度、降低评测成本。

整体概览

本次 Qwen-Scope 开源的权重涉及 7 个大模型，覆盖 Qwen3 及 Qwen3.5 系列的稠密模型和混合专家模型，共有 14 组稀疏自编码器权重。为了使得稀疏自编码器特征分布广、语义含义强、训练过程稳定可靠，我们从对应模型的预训练数据采样了 0.5B 词元数据规模进行训练。

实践

大家可以借助 Qwen-Scope 对 Qwen 系列模型进行分析和开发，下面我们会在推理、评测、数据、训练四个角度分别展示 Qwen-Scope 的用途，详细内容可以参考技术报告。

推理：模型行为的分析与可控的结果

通过控制特征的激活，实现对推理结果的定向控制，如语言、实体、风格的定向修改，而无需显式的给出自然语言指令。

数据：分类与合成

Qwen-Scope 对模型表示做了各个方向的解析和归纳，所以它可以用来作为数据处理工具，在数据分类和数据合成上均可提供数据处理思路。在毒性数据分类场景下，我们可以基于少量种子数据，分析毒性样本在 SAE 特征上的激活模式，并筛选出与毒性高度相关的特征用于分类。整个过程无需额外训练分类器，显著降低了标注和训练成本；同时，即使只依赖少量启动数据，也能获得较高的分类准确率，大幅降低了对大规模标注数据的依赖。

在数据合成场景中，Qwen-Scope 还可以帮助识别已有数据中激活次数少甚至未激活的毒性文本特征，并定向合成补充样本。相比传统合成数据方案，这种方式具有更强的可控性和针对性，能够更高效地覆盖长尾能力，使训练数据能效比提升至约 15 倍。

训练：定向优化

Qwen-Scope 的特征也可以应用在训练阶段。例如，当我们发现模型存在语言混用现象（比如英文回复中异常出现中文词）时，我们可以定位到异常激活特征，并在监督微调阶段，针对异常激活特征设计损失函数，引导模型降低 badcase 出现的频率。

再比如重复生成问题，这是一种低频现象，很难在强化学习阶段被采样到。为此，我们可以通过控制相应特征从而提高采样出异常回复的频率，增加学习奖励密度，以方便模型在强化学习阶段充分优化这一问题。

评估：测试样本的缺失与冗余

评估是大模型开发的核心之一，如今待评估能力、维度越来越多，样本规模越来越大，哪些评测集存在冗余，哪些领域覆盖不足是一个关键问题。通过 Qwen-Scope，我们可以对测试集的特征覆盖度进行分析以判断不同评测集之间的评测冗余程度。如下图所示，我们发现部分常用评测集在所激活特征上存在互相覆盖关系，致使部分评测集会受重复评估影响导致实用意义相比而言会更小。我们希望此类分析方法，可以方便大家挑选出覆盖度更高的、评测成本更低的测试样本和评测集。

总结

Qwen-Scope 不仅可以用于分析模型行为，更可以深入模型内部，将复杂的参数运算转化为人类可理解的概念与规律。它不仅仅能 " 看懂 " 模型，更能 " 改进 " 模型。实践证明，它可以在推理、评估、数据、训练等阶段，向我们提供模型优化思路、指导优化方向。可解释性，不仅是事后分析的工具，也可以是驱动模型进化的核心引擎之一。我们欢迎社区反馈，同时更希望可以看到大家发挥创造力，展示更多的、有趣的用法！

试用

大家可以前往 Huggingface 或魔搭体验 Qwen-Scope。

链接地址

Hugging Face：

Modelscope：

https://modelscope.cn/studios/Qwen/QwenScope?spm=a2ty_o06.30285417.0.0.65e5c921FZvQi4ios/Qwen/QwenScope?spm=a2ty_o06.30285417.0.0.65e5c921FZvQi4

技术报告：

查看原文

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

ZAKER旗下免费视频剪辑工具

企业资讯

查看更多内容

Blockchain News

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

看穿大模型的“小心思”：阿里千问开源可解释性模块 Qwen-Scope

宙世代

一起剪

相关阅读

销量仅60万台且退货率爆表！苹果佛系放养Vision Pro ：不停产也不更新

阿里股价：跌完 20%，拐点还有多远

银河通用拉着英伟达，把人形机器人最大的谎言拆穿了

知乎六年：走在风口上，但没飞起来

平头哥发布首款智能网卡「磐脉 920」，补齐 AI 算力最后一块短板

电信柯瑞文谈Token经营：本质是提供AI服务

x86性能狂飙16倍！AMD、Intel联手制定统一标准

防不住民间大神！AI魔改出《任天堂明星大乱斗》首个非官方PC移植版

GPU神话松动，AI真正的战场变了

从员工变KOL 追觅开启全员营销模式！俞浩：1万粉丝奖励1万元

Wi-Fi 7 + 5G有线 九百元以下主板独一份！七彩虹战斧BATTLE-AX B860M-PLUS S WIFI7 V20超级黑刃评测

AI时代的汽车，我们可能低估了这件事

“AI”谷歌：没有鬼故事，只有大丰收

诺基亚：一部自救史，和一个行业的退潮

小米最新人形机器人的手，会「出汗」了

最新评论

IT之家

热门推荐

企业资讯

Wi-Fi 7 + 5G有线九百元以下主板独一份！七彩虹战斧BATTLE-AX B860M-PLUS S WIFI7 V20超级黑刃评测