目前,大语言模型逐渐成为文学、法律、医学、自然科学研究等领域中不可或缺的工具。然而,在应用过程中,大语言模型常会出现 “幻觉”现象——可能生成看似合理但实际并不准确或不真实的信息。比如,在新闻领域,大语言模型可能会编造出完全不存在的新闻事件;在法律领域,它可能引用虚构的法律条文和案例;在医学领域,它可能会提供错误的诊疗建议,甚至危及患者生命安全。鉴于此,用户在使用这些大语言模型输出的答案时不要盲目相信,而应对每次输出的答案进行仔细核实和验证。
英国牛津大学研究团队近日在国际学术期刊《自然》上发表论文,尝试解决大语言模型输出中的这种“幻觉”现象,从而提高输出的可信性。通过评估大语言模型在特定提示词下生成内容时的不确定性,可计算出该模型的困惑程度。作为一种警示,它提醒用户或模型自身采取额外的循证措施,以确保更准确地输出答案。
为了更准确衡量模型的困惑程度,该论文引入了“语义熵”概念来计算输出的不确定性。所谓语义熵,实际上是信息熵的一种,用于衡量一个物理系统中所包含的信息量。
为了简单理解“熵”所表示的意思,我们可以想象一个人在岔路口时作出判断的情形:如果这个人向左走或向右走的概率相同,那么这是“熵”的最大情况,代表信息不确定性的极大值,说明这个人对前方的路完全没有把握;而如果这个人总是选择向左走,从不选择向右走,则这是“熵”的最小情况,代表信息不确定性的极小值,说明这个人对前方的路完全有把握。
然而,当涉及语言时,情况会变得更加复杂。相同的意思可以通过不同的表达方式来传达。例如, “埃菲尔铁塔的位置在哪里”,答案可以是“巴黎”“在巴黎”或“在法国首都”。为了解决这种语言本身导致的不确定性,研究人员将意义相同的回答进行聚类,从而形成一个统一的输出答案,进而计算出聚类后模型输出答案的“熵”。如果模型输出的句子都是表达相同语义的句子,那么语义熵值就会较低,这意味着模型对于自己的输出答案非常确定;反之, 语义熵则会很高,表明模型对自己输出的答案感到不确定。
利用语义熵概念,研究人员对包括GPT-4和LLaMA2在内的多个大语言模型进行深入研究。结果显示,语义熵在所有模型和数据集上的表现都非常出色,是目前用于评估模型困惑程度的最佳方法,能有效识别出大语言模型是否在“胡言乱语”。另外,通过对大语言模型进行反复提问,我们可以有效地定量计算出它对问题答案的不确定程度,并通过拒绝回答不确定的问题来提高输出答案的整体准确度。
来源:中国科普网
网址:http://www.kepu.gov.cn/news/2024-09/11/content_227807.html
上一篇:火星大气层去哪儿了
下一篇:月壤中发现天然石墨烯