本文提出 7 个主要关键维度来全面评估 LLM 可信度。
a.生成正确、真实且一致的输出,并具有适当的不确定性。
a.避免产生不安全和非法的输出,并避免泄露私人信息。
a.避免偏见并确保不同人群上性能差异不大。
a.禁止恶意攻击者滥用。
a.向用户解释输出并正确推理的能力。
a.反映普遍共享的人类价值观。
a.对抗性攻击和分布变化的抗性。
可靠性:语言模型幻觉 安全性与社会规范:安全相关话题(例如暴力、歧视、仇恨言论等) 公平性:(性别) 刻板印象 可靠性:校准失误 抵制滥用:宣传和网络攻击的滥用 抵制滥用:泄露版权 可解释性:因果推理 稳健性:对拼写错误攻击的稳健性