让RAG真正读懂“言外之意”!新框架引入词汇多样性,刷新多基准 热点评
- 来源:量子位
- 2025-09-27 13:32:10
-
收藏
RAG准确率提升10.6%,多项基准拿下新SOTA!
ACL 2025最新研究提出Lexical Diversity-aware RAG(DRAG)框架,首次系统性地将词汇多样性引入RAG的检索与生成过程,提供了一个轻量、通用且易扩展的解决方案。
(资料图)
在多项基准任务中,该方法带来了显著性能提升,尤其在HotpotQA上刷新了当前最优结果。
在大语言模型的浪潮下,Retrieval-Augmented Generation(RAG)已经成为提升模型事实性和时效性的重要手段。然而,现有方法普遍忽视了一个看似细微却极为关键的问题——词汇多样性(lexical diversity)。
同一个问题,不同的表达方式,往往让检索模型“晕头转向”,最终导致错误答案。
由此,来自北航、北大、中关村实验室的研究团队提出了这项最新工作,他们首次将“词汇多样性”引入检索增强生成的相关性评估过程,并通过新颖的风险稀疏校准机制解决了生成阶段被无关信息干扰的问题。
团队认为,该方法对信息检索、问答系统、专业领域大模型应用都具有重要价值。未来,他们计划进一步拓展该方法到更多专业场景,让大模型不仅能“读懂”,更能“理解”复杂的人类语言表达。
词汇多样性:RAG的隐形痛点
研究团队指出,现有RAG方法大多通过“单一标准”判断检索文档是否相关,但现实情况要复杂得多。如图所示,以问题“What is Hattie McDaniel’s occupation?”为例,其中的语义成分表现出不同程度“词汇多样性”:
- 不变词(Invariant):人名“Hattie McDaniel”一般不会变形;
- 可变词(Variant):词语“occupation”可以对应“profession”“actress”甚至“Academy Award”;
- 补充信息(Supplementary):答案可能依赖“American celebrity”等扩展语境。
这种词汇多样性往往导致模型错误地将部分相似但无关的文档判为相关,或者忽略了真正有用的信息。
两大关键创新
为解决“词汇多样性”带来的挑战,研究团队提出了该框架,核心在于两个互补模块:
1、Diversity-sensitive Relevance Analyzer(DRA)
传统检索相关性评估往往“一刀切”,把整体查询和检索文档进行比较。该方法则进一步拆解查询语义,针对不同成分采用差异化策略:
- 不变成分:如人名、地名等必须精确匹配的关键词,该方法强调其检索文档应与该成分严格匹配;
- 可变成分:如“occupation”—“profession”,DRA借助LLM的语义扩展和分析能力,在检索时允许一定语义灵活性;
- 补充成分:如“American celebrity”,该方法通过检索需求的明确程度来判断是否需要真正提供有用的补充证据。
在此基础上,该方法通过该模块对相似度检索结果进行重排序,输出一个更细粒度、多维度的相关性评分,避免检索时存在的“假阳性”和“假阴性”的常见问题。
2. Risk-guided Sparse Calibration
即使有了更精准的检索,生成阶段仍然可能“被干扰”。Risk-guided Sparse Calibration的设计灵感来自“风险控制”:它会实时监控每个生成token的“被误导风险”,并在必要时进行解码校准。
- 词汇风险(Lexical Risk):检测生成内容是否过度依赖低相关的词汇;
- 注意力风险(Attention Risk):评估模型注意力是否集中在无关段落;
- 预测风险(Prediction Risk):衡量当前预测是否与检索证据存在冲突。
RSC的独特之处在于它的稀疏性(sparse calibration):只对高风险token动态干预,而不会对全局输出强行重写,从而保证了生成质量与效率的平衡。
最终,DRA负责“挑选更靠谱的材料”,RSC负责“防止模型走偏”,形成了检索与生成环节的双保险,让RAG更稳健、更准确。
实验结果:显著超越现有方法
团队在多个开放域问答基准上验证了该方法:
其中,该方法在PopQA/TriviaQA(短文本问答):准确率分别提升4.9%和4.4%;HotpotQA/2WikiMultiHopQA(多跳问答):准确率均提升10.6%,展现出强泛化性;在ASQA(长答案生成):在str-em、QA-F1等指标上刷新SOTA。
不仅如此,该方法在不同类型、大小的模型上均表现出显著增益,如Llama2-7B, Llama2-13B, Qwen2-7B, Alpaca-7B和Mistral-7B等。
论文链接:
https://aclanthology.org/2025.acl-long.1346/代码(即将开源):
https://github.com/Zhange21/DRAG
关键词: 基准
相关推荐
时讯:烟台市120急救指挥中心一周救治多例气道异物梗阻患者
推荐 2025/09/27在购房过程中如何处理突发问题?
推荐 2025/09/27市场流动性对基金投资的影响如何? 独家焦点
推荐 2025/09/27国泰海通:连续3日融资净偿还累计1.2亿元(09-26)_焦点资讯
推荐 2025/09/27每日热文:申花中超8次面对梅州客家取得全胜,打进19球仅丢3球
推荐 2025/09/26热门资讯 日 周 总
2025服贸会“肿瘤治疗创新进展与药物研发新趋势论坛”举办
健康 2025/09/22北京健康文化促进会运动健康风险评估专业委员会成立
健康 2025/09/22世界特应性皮炎日丨刷新AD治疗新目标,MDA助力患者“达标”治疗
健康 2025/09/22“你,就是全世界”施维雅用行动诠释以患者为中心
健康 2025/09/22我国首例舌下神经刺激植入手术落地上海
健康 2025/09/22澳门将办“绿色公众日”活动 鼓励市民环保生活
节目 2019/03/26抖音多闪精准推荐多位“好友” 博士生起诉抖音、多闪侵犯隐私权
节目 2019/03/25香港科学园举办大型创科招聘会 60秒求职擂台现场面试
节目 2019/03/13中国原创赛事高山定点滑雪公开赛总决赛落幕
节目 2019/03/12首例斑狐猴三胞胎正式与游客见面
节目 2019/03/07- 让RAG真正读懂“言外之意”!新框架引入词2025-09-27
- 时讯:烟台市120急救指挥中心一周救治多例2025-09-27
- “小李子”莱昂纳多:我是梅西的粉丝,他是2025-09-27
- 宏亿精工取得角度可调汽车转向器管柱专利,2025-09-27
- 在购房过程中如何处理突发问题?2025-09-27
- 今晚10点 曼城虐菜之战:目标14连杀对手 2025-09-27
- 多地端出文旅大餐 释放双节消费活力 播报2025-09-27
- 市场流动性对基金投资的影响如何? 独家焦2025-09-27
- 今日热讯:青春华章|航程缩短1天半!宿连2025-09-27
- 国泰海通:连续3日融资净偿还累计1.2亿元(2025-09-27
- 快讯:【ETF动向】9月26日国泰上证科创板创2025-09-27
- 惠誉和穆迪双双上调西班牙信评2025-09-27
- 神舟二十号航天员乘组圆满完成第四次出舱活2025-09-27
- 焦点讯息:中科电气:公司及子公司无逾期对2025-09-26
- 焦点速读:中超疯狂一夜:3-0到3-3,补时读2025-09-26
- (砥砺奋进七十载 天山南北谱华章)新疆筑2025-09-26
- 天通股份:截至2025年6月30日,公司股东户2025-09-26
- 浙江vs蓉城:3外援PK4外援 费利佩先发韦世2025-09-26
- 每日热文:申花中超8次面对梅州客家取得全胜2025-09-26
- 纬德信息(688171.SH)股东拟询价转让2.08%公2025-09-26
- 吉利汽车(00175.HK)授出5839万份认股权_观速讯2025-09-26
- 今日播报!枪手近5次客战纽卡输4场且均遭零2025-09-26
- 【青春华章·向西而歌】“坚守爱情也坚守理2025-09-26
- 我国在北极冰区首次实现载人深潜2025-09-26
- “YU7扛住了!”雷军揭秘造车背后:我们拆2025-09-26
- 欧洲央行计划明年开展新一轮数字欧元实验_2025-09-26
- 每日热点:吉鲁:之前在法国队见到登贝莱时2025-09-26
- 龙虎榜 |芳源股份上涨20.04%,买入前五合2025-09-26
- “哎哟,不错哦!”武汉火车站宠粉列车已就2025-09-26
- 生意社:9月26日邢台市场炼焦煤价格上涨 2025-09-26