新方法避免AI一本正经“胡言乱语”

来源：通辽市科学技术协会发布日期：2024-10-08 点击量： 0

字体：[　大　中　小　]

分享到：

打印本页

目前，大语言模型逐渐成为文学、法律、医学、自然科学研究等领域中不可或缺的工具。然而，在应用过程中，大语言模型常会出现 “幻觉”现象——可能生成看似合理但实际并不准确或不真实的信息。比如，在新闻领域，大语言模型可能会编造出完全不存在的新闻事件；在法律领域，它可能引用虚构的法律条文和案例；在医学领域，它可能会提供错误的诊疗建议，甚至危及患者生命安全。鉴于此，用户在使用这些大语言模型输出的答案时不要盲目相信，而应对每次输出的答案进行仔细核实和验证。

英国牛津大学研究团队近日在国际学术期刊《自然》上发表论文，尝试解决大语言模型输出中的这种“幻觉”现象，从而提高输出的可信性。通过评估大语言模型在特定提示词下生成内容时的不确定性，可计算出该模型的困惑程度。作为一种警示，它提醒用户或模型自身采取额外的循证措施，以确保更准确地输出答案。

为了更准确衡量模型的困惑程度，该论文引入了“语义熵”概念来计算输出的不确定性。所谓语义熵，实际上是信息熵的一种，用于衡量一个物理系统中所包含的信息量。

为了简单理解“熵”所表示的意思，我们可以想象一个人在岔路口时作出判断的情形：如果这个人向左走或向右走的概率相同，那么这是“熵”的最大情况，代表信息不确定性的极大值，说明这个人对前方的路完全没有把握；而如果这个人总是选择向左走，从不选择向右走，则这是“熵”的最小情况，代表信息不确定性的极小值，说明这个人对前方的路完全有把握。

然而，当涉及语言时，情况会变得更加复杂。相同的意思可以通过不同的表达方式来传达。例如， “埃菲尔铁塔的位置在哪里”，答案可以是“巴黎”“在巴黎”或“在法国首都”。为了解决这种语言本身导致的不确定性，研究人员将意义相同的回答进行聚类，从而形成一个统一的输出答案，进而计算出聚类后模型输出答案的“熵”。如果模型输出的句子都是表达相同语义的句子，那么语义熵值就会较低，这意味着模型对于自己的输出答案非常确定；反之，语义熵则会很高，表明模型对自己输出的答案感到不确定。

利用语义熵概念，研究人员对包括GPT-4和LLaMA2在内的多个大语言模型进行深入研究。结果显示，语义熵在所有模型和数据集上的表现都非常出色，是目前用于评估模型困惑程度的最佳方法，能有效识别出大语言模型是否在“胡言乱语”。另外，通过对大语言模型进行反复提问，我们可以有效地定量计算出它对问题答案的不确定程度，并通过拒绝回答不确定的问题来提高输出答案的整体准确度。

来源：中国科普网

网址：http://www.kepu.gov.cn/news/2024-09/11/content_227807.html

上一篇：火星大气层去哪儿了

下一篇：月壤中发现天然石墨烯