午作者丹尼尔米亚金编辑和事实核查年月日上午来自该领域不同角落的多名研究人员共同努力催生了一个新兴领域表示工程。虽然这不是此类探索的第一次但作者提出了描述性见解并建立了关键基准。人工智能研究人员教大型语言模型少撒谎那么表征工程到底是什么它围绕着神经网络拥有隐藏状态的概念尽管它们的名字如此但它们并没有被隐藏起来。这些状态是可访问的可修改的和可观察的前提是可以访问模型的权重。与参数不同这些是网络对。
特定输入的反应特别是在文本输入的情况下。窗口这一特征与人脑明显不同。作者将其与认知科学进行了比较强调了类似探索的潜力。在神经激活领域一个类似于大脑神经元的领域存在着意义的 承诺。正如人脑中的某 美国电话号码表 些神经元与加拿大或诚实等概念相关一样这些激活可能蕴藏着洞察力。这里的中心思想是解释我们如何影响这些神经激活以引导模型朝所需的方向发展。例如精确定位代表诚实的向量然。
后从理论上讲通过朝这个方向推动模型可以降低其产生欺骗性输出的可能性。早期的实验推理时间干预从语言模型中得出真实答案证明了这一概念的实用性。在目前的工作中研究人员深入研究了几个领域包括道德情感无害和记忆。他们提出了低秩表示适应形式的解决方案该技术涉及对大约个示例的小型标记数据集进行训练。每个示例都带有注释指示诸如虚假之类的属性尽管存在使用提示的替代方法。结果令人信服。在基准测试中明显超越了准确率提高了近与约相比。 |