1 导言¶
大语言模型已经成为解决开放式问题的最强大方法之一,并标志着机器学习中的范式转变。然而,确保他们的安全性和对齐性仍然是一项公认的重大挑战,涉及多方利益相关者,包括私营人工智能实验室(Leike等; Anthropic等, 2023; Frontier Model Forum, 2023)、国家和国际政府组织(White House, 2023; Office, 2023; Board, 2023)以及研究学术界(Bengio等, 2023; FAccT, 2023; CAIS, 2023; CHAI, Far.ai and Ditchley Foundation, 2023)。事实上,确保任何基于深度学习的系统具有安全性和对齐性都极为困难(Ngo等, 2023)。但这一挑战对LLM而言尤为严峻,因其规模庞大(Sanh等, 2019),且能力日益广泛(Bubeck等, 2023; Morris等, 2023)。此外LLM能力的快速进步不仅拓展了其潜在应用的场景,也放大了其可能造成的社会危害(Weidinger等, 2021; Ganguli等, 2022; Brihane等, 2023; Chan等, 2023a)。