简介
Abliteration技术是一种可以在不重新训练的情况下解除任何大语言模型(LLM)审查的方法。
什么是abliteration?
现代LLM经过安全性和指令跟随的微调,这意味着它们被训练为拒绝有害请求。abliteration技术通过识别并移除模型残差流中的“拒绝方向”,成功解除了模型的审查机制,使其能够响应所有类型的提示。
技术步骤: 数据收集、平均差异计算、推理时干预或权重正交化。
应用: 该技术可以提高模型的灵活性,但也可能导致性能下降。为此,DPO(Direct Preference Optimization)微调被引入,以修复性能损失,确保模型在解除审查机制的同时保持高质量表现。
相关模型
llama3.2-abliterate:huihui_ai/llama3.2-abliterate
deepseek-r1-abliterated:huihui_ai/deepseek-r1-abliterated
qwen3-abliterated:huihui_ai/qwen3-abliterated
参考文档
Uncensor any LLM with abliteration:Uncensor any LLM with abliteration ~| by Maxime Labonne ~| Medium
大模型解禁技术(abliteration):大模型的解禁技术 (abliteration) - 汇智网
本地部署 Deepseek R1 未经审查(无限制)模型:♪(^∇^*)欢迎肥来!本地部署 Deepseek R1 未经审查(无限制)模型 ~| lololowe的博客
转载请注明转自www.hylab.cn,原文地址:大模型解禁技术(abliteration)简介、模型及相关文档