Files
Mars-RAG-paper/RAG for Spatial Data.md
2026-04-02 09:48:38 +08:00

55 lines
9.0 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

## Multi-source Retrieval Augmented Generation存在的问题没有考虑到空间数据
考虑火星的情况:
1. 连续时空拓扑的离散表示失效与异构参考系的割裂 (The Discretization Failure of Continuous Topologies and the Fragmentation of Heterogeneous Reference Frames)
现有的多源知识聚合方法(如多源线图 Multi-source Line Graphs高度依赖离散的文本实体与显式语义关联来构建图拓扑。然而火星科学数据本质上嵌于连续的欧几里得物理空间中且存在极其复杂的参考系割裂例如轨道器使用的全球绝对坐标系与火星车使用的局部相对坐标系、地球 UTC 时间与火星当地太阳日 Sol 的错位。一方面仅基于语义实体的离散图构建方法完全无法实现跨参考系的物理空间对齐另一方面若试图在传统的离散图结构中强制编码连续的空间邻近性Spatial Proximity和方向关系将不可避免地引发“边爆炸Edge Explosion”问题从而彻底摧毁现有图模型针对数据稀疏性所做的优化。因此传统的离散逻辑图结构无法跨越物理连续性与语义离散性之间的鸿沟成为了制约行星空间推理能力的结构性瓶颈。
2. 科学认知冲突与传统 RAG “去伪”机制的底层逻辑矛盾 (The Contradiction Between Scientific Cognitive Conflict and Traditional "De-falsification" Mechanisms)
现有多源 RAG 框架的核心假设是源间数据的不一致性Inter-source Inconsistency通常源于错误信息或模型的“幻觉”因此依赖多级置信度计算来剔除冲突节点Eliminate unreliable nodes。然而在深空探测场景中由于缺乏绝对的“真实基准Ground Truth不同探测平台如轨道器与火星车因观测尺度、穿透深度及仪器原理的差异对同一目标区域的观测结果往往存在显著冲突例如轨道器发现表面水合矿物而原位钻探未见异常。这种“冲突”并非数据错误而是多维度科学观测的固有属性蕴含着地质演化等重大科学发现的线索。若生搬硬套现有框架的冲突过滤机制将导致严重的“过度平滑Over-smoothing无差别地抹杀高价值的科学异常特征从根本上违背了深空探索中“保留争议、多源印证”的知识发现规律。
## RAG for Spatial Data存在的问题没有考虑到多源空间数据的可靠性问题
当前RAG for Spatial Data往往针对单一来源[@zhang2025imagerag]:它只处理单一来源(一张大图)。它假设这张图就是真理,不存在“图里显示有房子,但文字报告说房子拆了”这种冲突。它解决的是 Scale (尺度) 问题,不是 Consistency (一致性) 问题。即便涉及了多源、多模态,它们的侧重点也在于"Capability (能力)" —— 即“如何把这些难处理的空间数据(超大图像、异构数据库)塞进 RAG 里让 LLM 读懂”。而并不关注 "Reliability (可靠性)" —— 即“当不同来源的数据打架时,如何防止 LLM 胡说八道”。[@yu2025spatialrag],[@amendola2025spatiallyenhanced]研究Hybrid Retrieval (混合检索)。把 Spatial Database 的过滤(如距离筛选)和 Semantic Search文本语义结合起来。但它们侧重于 Fusion (融合) —— 默认 Spatial Data 和 Text Data 是互补的。如果 Spatial DB 说“这里有路”,但 Text Description 说“路在施工已封闭”,这些框架大概率会产生幻觉或直接忽略冲突。它们没有 Conflict Resolution (冲突消解) 机制。[@wen2025rsrag],[@canada2025multimodal]构建数据集 (Dataset Construction) 和 向量空间对齐 (Alignment)。它们确实是 Multi-source (Image + Text),但主要关注 Representation (表征) —— 如何把图和文映射到同一个向量空间。而无法解决的“稀疏性导致逻辑断层”和“源间冲突”。
目前的空间RAG系统专注于对齐异构模式矢量光栅文本。然而它们忽略了空间数据固有的不一致性和逻辑稀疏性例如过时的POI文本与新的卫星图像与不精确的OSM矢量。这导致了'空间幻觉'其中LLM生成几何上不可能或事实上相互冲突的答案。
## 我的方法
### 一、 针对痛点 1拓扑关系的缺失 (Solving Missing Topology)
原论文缺陷分析MultiRAG 使用 Multi-source Line Graph (MLG),其核心是将“实体-关系-实体”的三元组转换为节点。这种结构只能捕捉逻辑连接 (Logical Connectivity)例如“A 是 B 的一部分”。它无法编码欧氏空间 (Euclidean Space) 中的距离、方位和包含关系。对于 LLM 来说,"Near" 和 "Far" 在这种图里只是两个普通的单词标签,失去了度量意义。
我们的解决方案Topo-Semantic Dual Graph (拓扑-语义双层图)我们不使用单一的 Line Graph而是构建一个双层耦合图结构
1. Layer 1: Semantic Line Graph (逻辑层)继承 MultiRAG 的设计,处理非空间的语义信息(如“祝融号-属于-CNSA”
2. Layer 2: Spatial-Topology Graph (空间拓扑图) 定义: 这是一个显式的空间索引层。我们将空间离散化(例如使用 H3 六边形网格或 S2 单元),或者利用 Delaunay Triangulation 构建邻接图。创新算子Spatial Edge Encoding (空间边编码)在 MultiRAG 中,两个节点连边是因为它们共享一个实体。在 Geo-MultiRAG 中,我们引入 "Spatial Proximity Edge" (空间邻近边)。如果实体 $e_i$ 和 $e_j$ 在空间投影上的 IoU (Intersection over Union) $> 0$ 或者距离 $dist(e_i, e_j) < \delta$我们在它们之间建立一条带权重的空间边
数学形式化 (Formalization for Paper):Let $\mathcal{G}_{sem} = (V, E_{sem})$ be the semantic graph. We introduce a metric graph $\mathcal{G}_{geo} = (V, E_{geo})$, where an edge $e_{ij} \in E_{geo}$ exists iff:
$$\text{SpatialRel}(v_i, v_j) \in \{\text{Contains, Overlaps, Meets, Near}\}$$
We define a Spatial Encoding Kernel $K_{spa}(v_i, v_j)$ to replace the simple binary connection in MultiRAG:
$$K_{spa}(v_i, v_j) = \exp(-\frac{\|coord(v_i) - coord(v_j)\|^2}{2\sigma^2}) \cdot \mathbb{I}(\text{Visible})$$
解释 这样一来大模型在检索时不仅通过语义关联游走还可以通过空间核函数感知到物理上相邻但语义上没直接联系的实体例如虽然沙丘火星车在语义图没连线但因为空间距离近它们的关联被激活)。
### 二、 针对痛点 2多尺度悖论 (Solving Multi-Scale Paradox)已改成Ground Truth问题
原论文缺陷分析MultiRAG 使用互信息熵 (Mutual Information Entropy) 来计算置信度 3公式为$I(v_i, v_j) = \sum \sum p(x,y) \log \frac{p(x,y)}{p(x)p(y)}$。它的假设是如果两个源的数据一致”,则置信度高如果不一致则置信度低 4在火星场景下这是致命的 CTX (6m) "Plain" (平原)HiRISE (0.3m) "Rocky" (多石)。这两个描述在文本语义上是不一致的互信息低MultiRAG 会把它们当成冲突 (Hallucination) 从而杀掉其中一个但实际上这是多尺度互补 (Multi-scale Complementarity)。
我们的解决方案Resolution-Aware Entailment (分辨率感知蕴含计算)我们提出一个新的置信度计算模块不再计算相似性(Similarity)”,而是计算蕴含性(Entailment)”。引入分辨率因子 (Resolution Factor):为每个数据源 $D_k$ 分配一个分辨率权重 $\lambda_k$ (例如 HiRISE $\lambda=1.0$, CTX $\lambda=0.2$)。非对称置信度 (Asymmetric Confidence):传统的 MultiRAG 计算是对称的 $S(v_i, v_j) = S(v_j, v_i)$。我们要改为有向蕴含定义 Scale-Consistent Scoring Function (尺度一致性评分):如果是同尺度对比保持 MultiRAG 的做法检查一致性)。如果是跨尺度对比Source High vs Source Low我们检查 "Semantic Encompassment" (语义包容)。
数学形式化 (Formalization for Paper):We redefine the confidence score $C(v_{high}, v_{low})$ not as similarity, but as a conditional probability based on resolution hierarchy:
$$Score(v_{high}, v_{low}) =
\begin{cases}
\text{Sim}(v_{high}, v_{low}), & \text{if } |\lambda_{high} - \lambda_{low}| < \epsilon \quad (\text{同尺度查冲突}) \\
\text{Entail}(v_{low} \to v_{high}), & \text{if } \lambda_{high} \gg \lambda_{low} \quad (\text{跨尺度查蕴含})
\end{cases}$$
Where $\text{Entail}(\cdot)$ is a Natural Language Inference (NLI) probability:Does the coarse description (e.g., "Plain") logically permit the existence of the fine description (e.g., "Small Rocks")?"Plain" entails "Small Rocks" ? $\rightarrow$ Yes (High Confidence)."Lake" entails "Dune" ? $\rightarrow$ No (Low Confidence, likely Hallucination).
Impact:通过这种改进你的模型会说"Source A says Plain, Source B says Rocks. Since Source B has higher resolution, and plains often contain small rocks, both are kept, and the final answer is enriched: 'A generally flat plain containing localized rocky fields'."