跳转至

1.2-术语

1.2 术语

术语对齐(alignment)、安全(safety)和保障(assurance)的含义因语境而异。我们使用"对齐"特制意图对齐,即当系统视图按照人类的意图运作时,即视为对齐(Christiano等, 2018)。值得注意的是,对齐并不能保证系统实际行为符合预期;例如,系统可能因为能力局限而失效(Ngo等, 2023)。为了简化讨论,我们将意图固定为LLM开发者的意图(Gabriel等, 2023; Ngo等, 2023),我们认为系统安全程度与其导致非预期有害结果的可能性成反比(Leveson, 2016)。该定义具有一定扩展性:既涵盖系统技术特性,也涉及其实际的部署和使用方式(Weidinger等, 2023),但安全性不涉及故意作恶,也不定义什么事危害。对齐可以提高安全性,但是两者并不等同,对齐的AI也可能被用于增强系统危险性(如果开发者有意为之)。最后,“保障”指任何能证明系统安全或对齐的证据提供方式(Ashmore等, 2021),包括但不限于:科学理解AI的工作原理、通过测试评估AI行为、解释AI的决策逻辑、开发过程是否符合伦理规范(Casper等, 2024)。