AkasicDB:用统一数据库技术将AI幻觉率大幅降低、准确率提升78%

richlovec 1500_400 (1)
 

AI“幻觉”难题与企业数据挑战

AI代理在读取和理解海量企业数据时,一个关键弱点是容易产生“幻觉”——生成听起来合理却与事实不符的内容。为解决这一问题,KAIST研究团队开发出一项能够同时理解文档、结构化数据以及实体关系的下一代数据库技术。

实验结果显示,该技术可将生成式AI的响应准确率最高提升78%,复杂查询处理速度最高提升20倍,被视为破解企业AI落地过程中“幻觉”难题的关键突破。

AkasicDB:统一向量、图与关系的下一代DBMS

在KAIST计算机学院金敏洙教授带领下,研究团队与教师创业公司 GraphAI Co., Ltd. 合作,研发出名为 AkasicDB 的新型数据库系统。这一系统将向量数据库、图数据库和关系数据库三类能力整合到同一个数据库管理系统(DBMS)中。

基于 AkasicDB,团队进一步提出了一种新的检索增强生成(RAG)方法——Omni RAG

相关研究以《AkasicDB:通过统一的向量-图-关系DBMS展示Omni RAG》为题,发表在《国际数据管理会议伴刊》上。

三种数据库能力的统一

AkasicDB 的目标,是在单一系统中统一并执行以下三类功能:

  • 向量数据库功能:将文档或图像的语义内容转化为数值向量,用于相似度搜索;
  • 图数据库功能:存储和分析人、公司、产品等实体之间的关联关系;
  • 关系数据库功能:以表格形式对结构化数据进行系统化管理和查询。

在此基础上,Omni RAG 能够同时利用文档的语义信息、实体间的关系网络以及表格数据中的结构化条件,从而显著提升生成式AI回答的准确性。

传统RAG的局限

近年来,基于 RAG 技术的 AI 代理在企业中快速普及。RAG 通过检索大量企业文档和专家知识,再将检索结果提供给大型语言模型(LLM)生成回答。

但在现实场景中,企业数据往往分散在多种形态中:

  • 文本文档
  • 表格和数据库
  • 实体及其关系网络

AI 很难在一个统一框架下全面理解并利用这些异构数据,导致在证据不足或理解不完整时,容易生成事实错误的回答,即“幻觉”,这被认为是企业大规模采用AI的主要障碍之一。

传统 RAG 的典型做法,是将用户查询和文档都转换为向量,通过向量相似度检索语义相关的文档,再交由 LLM 生成自然语言回答。这种方式在处理非结构化文本检索时效果较好,但在以下场景中存在明显不足:

  • 需要考虑文档中实体之间的复杂关系;
  • 需要结合时间、类型、范围等结构化条件进行过滤;
  • 需要跨文档、跨表格、跨知识图谱进行综合推理。

例如,查询:

“查找去年签署合同中与公司A相关的条款,并解释这些条款如何与产品供应问题相关。”

要准确回答这一问题,至少需要:

  • 向量搜索:理解合同条款的语义含义;
  • 图搜索:分析公司A与相关产品、合同、供应问题之间的关系;
  • 关系查询:按日期、合同类型等结构化条件进行过滤。

在现有系统中,通常需要分别构建多种数据库,再在应用层手动整合结果,既增加了系统复杂度,也带来了明显的响应延迟。

Omni RAG:在一个查询中整合三类检索

为解决上述问题,研究团队提出 Omni RAG,将向量相似度搜索、图遍历和关系过滤整合到单一查询与执行计划中。

Omni RAG 的核心思路是:

  • 在一次查询中,同时利用文档语义信息、知识图谱中的关系信息以及表格数据中的结构化条件;
  • 在数据库层面完成复杂检索与过滤,向 LLM 提供更精确、更有依据的证据;
  • 通过减少无关或噪声信息输入,显著降低 AI 产生幻觉的概率。

AkasicDB 的统一引擎与查询优化

为了支撑 Omni RAG,AkasicDB 采用了新的系统架构,将图数据库、向量数据库和关系数据库整合到同一个执行引擎中。

在这一架构下:

  • 用户可以使用单一的 SQL/GQL 查询,表达同时包含向量搜索、图遍历和关系过滤的复杂 RAG 请求;
  • AkasicDB 会对该查询进行统一优化,并以一个整体执行计划来处理,而非拆分为多个系统分别执行。

这种集成式架构带来的直接收益包括:

  • 最大限度减少中间结果的重复生成和跨系统数据移动;
  • 显著降低传给 LLM 的令牌数量,减少不必要的上下文;
  • 缩短端到端响应时间。

实验表明,在处理复杂搜索查询时,传统多系统方案最长需要 21.3 秒,而 AkasicDB 将时间压缩到不足 1 秒,性能提升超过 20 倍。

实验结果:准确率提升78%,幻觉显著缓解

在与传统 RAG 方法的对比实验中,基于 AkasicDB 的 Omni RAG 在响应准确率方面最高提升达到 78%。这一结果表明,通过统一处理语义、关系和结构化条件,可以显著提升 AI 回答的可靠性,明显缓解企业 AI 代理中普遍存在的“幻觉”问题。

应用前景与研究发布

金敏洙教授指出,要让 AI 代理真正准确理解并利用企业掌握的大规模数据,必须构建能够在单一系统中统一处理向量、图和关系数据的数据基础设施。AkasicDB 正是面向 AI 代理时代设计的下一代数据库技术,有望成为国防、制造、金融、法律、科技等高可靠性行业的核心数据基础设施。

本研究由 KAIST 计算机学院博士生李建浩担任第一作者,研究成果已于 2026 年 6 月 2 日在 ACM SIGMOD 会议上以演示论文形式发表。


分享:


发表评论

登录后才可评论。 去登录