9.0 KiB
Multi-source Retrieval Augmented Generation存在的问题(没有考虑到空间数据)
考虑火星的情况:
-
连续时空拓扑的离散表示失效与异构参考系的割裂 (The Discretization Failure of Continuous Topologies and the Fragmentation of Heterogeneous Reference Frames) 现有的多源知识聚合方法(如多源线图 Multi-source Line Graphs)高度依赖离散的文本实体与显式语义关联来构建图拓扑。然而,火星科学数据本质上嵌于连续的欧几里得物理空间中,且存在极其复杂的参考系割裂(例如:轨道器使用的全球绝对坐标系与火星车使用的局部相对坐标系、地球 UTC 时间与火星当地太阳日 Sol 的错位)。一方面,仅基于语义实体的离散图构建方法完全无法实现跨参考系的物理空间对齐;另一方面,若试图在传统的离散图结构中强制编码连续的空间邻近性(Spatial Proximity)和方向关系,将不可避免地引发“边爆炸(Edge Explosion)”问题,从而彻底摧毁现有图模型针对数据稀疏性所做的优化。因此,传统的离散逻辑图结构无法跨越物理连续性与语义离散性之间的鸿沟,成为了制约行星空间推理能力的结构性瓶颈。
-
科学认知冲突与传统 RAG “去伪”机制的底层逻辑矛盾 (The Contradiction Between Scientific Cognitive Conflict and Traditional "De-falsification" Mechanisms) 现有多源 RAG 框架的核心假设是:源间数据的不一致性(Inter-source Inconsistency)通常源于错误信息或模型的“幻觉”,因此依赖多级置信度计算来剔除冲突节点(Eliminate unreliable nodes)。然而,在深空探测场景中,由于缺乏绝对的“真实基准(Ground Truth)”,不同探测平台(如轨道器与火星车)因观测尺度、穿透深度及仪器原理的差异,对同一目标区域的观测结果往往存在显著冲突(例如:轨道器发现表面水合矿物,而原位钻探未见异常)。这种“冲突”并非数据错误,而是多维度科学观测的固有属性,蕴含着地质演化等重大科学发现的线索。若生搬硬套现有框架的冲突过滤机制,将导致严重的“过度平滑(Over-smoothing)”,无差别地抹杀高价值的科学异常特征,从根本上违背了深空探索中“保留争议、多源印证”的知识发现规律。
RAG for Spatial Data存在的问题(没有考虑到多源空间数据的可靠性问题)
当前RAG for Spatial Data往往针对单一来源[@zhang2025imagerag]:它只处理单一来源(一张大图)。它假设这张图就是真理,不存在“图里显示有房子,但文字报告说房子拆了”这种冲突。它解决的是 Scale (尺度) 问题,不是 Consistency (一致性) 问题。即便涉及了多源、多模态,它们的侧重点也在于"Capability (能力)" —— 即“如何把这些难处理的空间数据(超大图像、异构数据库)塞进 RAG 里让 LLM 读懂”。而并不关注 "Reliability (可靠性)" —— 即“当不同来源的数据打架时,如何防止 LLM 胡说八道”。[@yu2025spatialrag],[@amendola2025spatiallyenhanced]研究Hybrid Retrieval (混合检索)。把 Spatial Database 的过滤(如距离筛选)和 Semantic Search(文本语义)结合起来。但它们侧重于 Fusion (融合) —— 默认 Spatial Data 和 Text Data 是互补的。如果 Spatial DB 说“这里有路”,但 Text Description 说“路在施工已封闭”,这些框架大概率会产生幻觉或直接忽略冲突。它们没有 Conflict Resolution (冲突消解) 机制。[@wen2025rsrag],[@canada2025multimodal]构建数据集 (Dataset Construction) 和 向量空间对齐 (Alignment)。它们确实是 Multi-source (Image + Text),但主要关注 Representation (表征) —— 如何把图和文映射到同一个向量空间。而无法解决的“稀疏性导致逻辑断层”和“源间冲突”。
目前的空间RAG系统专注于对齐异构模式(矢量,光栅,文本)。然而,它们忽略了空间数据固有的不一致性和逻辑稀疏性(例如,过时的POI文本与新的卫星图像与不精确的OSM矢量)。这导致了'空间幻觉',其中LLM生成几何上不可能或事实上相互冲突的答案。
我的方法
一、 针对痛点 1:拓扑关系的缺失 (Solving Missing Topology)
原论文缺陷分析:MultiRAG 使用 Multi-source Line Graph (MLG),其核心是将“实体-关系-实体”的三元组转换为节点。这种结构只能捕捉逻辑连接 (Logical Connectivity),例如“A 是 B 的一部分”。它无法编码欧氏空间 (Euclidean Space) 中的距离、方位和包含关系。对于 LLM 来说,"Near" 和 "Far" 在这种图里只是两个普通的单词标签,失去了度量意义。
我们的解决方案:Topo-Semantic Dual Graph (拓扑-语义双层图)我们不使用单一的 Line Graph,而是构建一个双层耦合图结构:
- Layer 1: Semantic Line Graph (逻辑层)继承 MultiRAG 的设计,处理非空间的语义信息(如“祝融号-属于-CNSA”)。
- Layer 2: Spatial-Topology Graph (空间拓扑图) 定义: 这是一个显式的空间索引层。我们将空间离散化(例如使用 H3 六边形网格或 S2 单元),或者利用 Delaunay Triangulation 构建邻接图。创新算子:Spatial Edge Encoding (空间边编码)在 MultiRAG 中,两个节点连边是因为它们共享一个实体。在 Geo-MultiRAG 中,我们引入 "Spatial Proximity Edge" (空间邻近边)。如果实体
e_i和e_j在空间投影上的 IoU (Intersection over Union)> 0或者距离 $dist(e_i, e_j) < \delta$,我们在它们之间建立一条带权重的空间边。
数学形式化 (Formalization for Paper):Let \mathcal{G}_{sem} = (V, E_{sem}) be the semantic graph. We introduce a metric graph \mathcal{G}_{geo} = (V, E_{geo}), where an edge e_{ij} \in E_{geo} exists iff:
\text{SpatialRel}(v_i, v_j) \in \{\text{Contains, Overlaps, Meets, Near}\}
We define a Spatial Encoding Kernel K_{spa}(v_i, v_j) to replace the simple binary connection in MultiRAG:
K_{spa}(v_i, v_j) = \exp(-\frac{\|coord(v_i) - coord(v_j)\|^2}{2\sigma^2}) \cdot \mathbb{I}(\text{Visible})
解释: 这样一来,大模型在检索时,不仅通过语义关联游走,还可以通过“空间核函数”感知到物理上相邻但语义上没直接联系的实体(例如:虽然“沙丘”和“火星车”在语义图没连线,但因为空间距离近,它们的关联被激活)。
二、 针对痛点 2:多尺度悖论 (Solving Multi-Scale Paradox)(已改成Ground Truth问题)
原论文缺陷分析:MultiRAG 使用互信息熵 (Mutual Information Entropy) 来计算置信度 3。公式为:$I(v_i, v_j) = \sum \sum p(x,y) \log \frac{p(x,y)}{p(x)p(y)}$。它的假设是:如果两个源的数据“一致”,则置信度高;如果不一致,则置信度低 4。在火星场景下这是致命的: CTX (6m) 说 "Plain" (平原),HiRISE (0.3m) 说 "Rocky" (多石)。这两个描述在文本语义上是不一致的(互信息低),MultiRAG 会把它们当成冲突 (Hallucination) 从而杀掉其中一个。但实际上,这是多尺度互补 (Multi-scale Complementarity)。
我们的解决方案:Resolution-Aware Entailment (分辨率感知蕴含计算)我们提出一个新的置信度计算模块,不再计算“相似性(Similarity)”,而是计算“蕴含性(Entailment)”。引入分辨率因子 (Resolution Factor):为每个数据源 D_k 分配一个分辨率权重 \lambda_k (例如 HiRISE \lambda=1.0, CTX \lambda=0.2)。非对称置信度 (Asymmetric Confidence):传统的 MultiRAG 计算是对称的 $S(v_i, v_j) = S(v_j, v_i)$。我们要改为有向蕴含。定义 Scale-Consistent Scoring Function (尺度一致性评分):如果是同尺度对比,保持 MultiRAG 的做法(检查一致性)。如果是跨尺度对比(Source High vs Source Low),我们检查 "Semantic Encompassment" (语义包容)。
数学形式化 (Formalization for Paper):We redefine the confidence score C(v_{high}, v_{low}) not as similarity, but as a conditional probability based on resolution hierarchy:
$$Score(v_{high}, v_{low}) = \begin{cases} \text{Sim}(v_{high}, v_{low}), & \text{if } |\lambda_{high} - \lambda_{low}| < \epsilon \quad (\text{同尺度,查冲突}) \ \text{Entail}(v_{low} \to v_{high}), & \text{if } \lambda_{high} \gg \lambda_{low} \quad (\text{跨尺度,查蕴含}) \end{cases}$$
Where \text{Entail}(\cdot) is a Natural Language Inference (NLI) probability:Does the coarse description (e.g., "Plain") logically permit the existence of the fine description (e.g., "Small Rocks")?"Plain" entails "Small Rocks" ? \rightarrow Yes (High Confidence)."Lake" entails "Dune" ? \rightarrow No (Low Confidence, likely Hallucination).
Impact:通过这种改进,你的模型会说:"Source A says Plain, Source B says Rocks. Since Source B has higher resolution, and plains often contain small rocks, both are kept, and the final answer is enriched: 'A generally flat plain containing localized rocky fields'."