跳转至

1.3-结构

1.3 结构

我们将基本挑战分为三个不同的类别,第一类是对于LLM的科学理解(第二节),调查了最重要的开放性问题,这些问题可以帮助我们构建更完善的LLM运作“理论”,以指导开发和部署决策。我们讨论了如何系统化地定义、评估、理解和预测LLM的能力边界。我们指出LLM的上下文学习和推理能力对于确保所有上下文的对齐性和安全性尤为重要。我们强调,随着LLM智能体的引入,我们目前面临的风险可能会增加,我们需要未雨绸缪地了解这些风险,并努力在单智能体与多智能体中减轻这些风险。最后我们注意到,基于LLM的系统存在安全性与性能的取舍,必须明晰这一权衡的规律。

第二类是开发与部署方法(第三节),介绍了现有技术在确保LLM安全性和对齐性方面的技术局限性,我们首先分析如果通过改进预训练流程来培养更具对齐性的模型,此外我们还调查了微调在确保对齐和安全的几个不足,讨论了“评估危机”,回顾了在解释模型行为方面的挑战,并最终提供了一个评估的安全挑战,如越狱(jailbreaks),非法注入(prompt-injections)和数据中毒(data poisoning)。总的来说,本节涉及研究可能有助于提高LLM的对齐性,安全性。

第三类是社会技术挑战(第四节),本部分着眼于那些需要多维度、系统性解决方案的深层次挑战。例如,我们讨论了社会层面讨论LLM输出的价值观的重要性,以及我们如何防止价值强加,真正实现价值多元化的包容与平衡。许多LLM具有显著的“双刃剑”特性,有必要了解这些功能可能会导致什么恶意滥用,以及我们如何防范他们。还需要确保LLM系统的偏见和其他问题得到独立和持续的监控和透明的沟通,以建立可信度并减少对技术的盲目依赖。LLM在整个社会的扩散可能会产生不良的社会经济影响(例如失业,不平等加剧),我们不仅需要深入研究这些影响,调查和制定策略。最后我们讨论了治理和监管面临的挑战和机遇。

作为补充,在第五节中,我们回顾了这篇文档的一些局限性。值得注意的是,我们发现这一文档虽然全面, 但并非详尽无遗。随后我们详细概述了与本工作广泛相关的先前工作,包括但不限于AI安全性的先前研究和对于LLM各种相关研究。