2025数据库论文阅读笔记

This commit is contained in:
2026-01-26 14:48:09 +08:00
parent 870ab27f21
commit 77728a4c93
3 changed files with 152 additions and 1 deletions

View File

@@ -1,3 +1,3 @@
遥感数据的高效时空查询处理已经得到了广泛的研究早期的工作主要集中在关系数据库系统中的元数据组织和索引级修剪。传统的方法通常扩展基于树的空间索引如R-tree四叉树及其时空变体将图像足迹与时间属性组织在一起并且通常在关系后端例如MySQL和PostgreSQL上实现。这些方法为中等规模的数据集提供了有效的距离过滤但随着遥感元数据量的快速增长它们对平衡树结构的依赖往往导致较高的维护开销和有限的可扩展性。随着数据量和数据摄取速度的不断增加近年来的系统逐渐转向部署在分布式NoSQL存储上的基于网格的时空索引方案。通过使用GeoHash、GeoSOT或空间填充曲线[@mstgi],[@2024gridmesa]将空间足迹编码为统一的空间网格并将其与时间标识符结合这些方法可以实现轻量级索引构建并在HBase和Elasticsearch等后端具有更好的水平可扩展性。这种基于网格的索引可以通过粗粒度的剪枝有效地减少候选搜索空间更适合于大规模、持续增长的遥感档案。
然而对于遥感工作负载单靠索引修剪不足以保证端到端的查询效率因为遥感工作负载中的单个图像通常很大查询结果需要进一步的像素级处理。为了减少原始I/O的数量谷歌Earth系统[@gorelick2017google]依赖于平铺和多分辨率金字塔将图像物理地分成小块。而最近的解决方案则利用COG和基于窗口的I/O来实现对整体映像文件的部分读取。OpenDataCube[@lewis2017australiana]等框架利用这些特性只读取与查询窗口相交的图像区域,从而减少不必要的数据传输。然而,在确定候选图像之后,大多数系统仍然对每个图像执行细粒度的地理空间计算,包括坐标转换和精确的像素窗口推导,当涉及许多图像时,这可能会产生大量开销。
然而对于遥感工作负载单靠索引修剪不足以保证端到端的查询效率因为遥感工作负载中的单个图像通常很大查询结果需要进一步的像素级处理。为了减少原始I/O的数量谷歌Earth系统[@gorelick2017google]依赖于平铺和多分辨率金字塔将图像物理地分成小块。而最近的解决方案则利用COG和基于窗口的I/O来实现对整体映像文件的部分读取。OpenDataCube[@lewis2017australiana]等框架利用这些特性只读取与查询窗口相交的图像区域,从而减少不必要的数据传输。然而,在确定候选图像之后,大多数系统仍然对每个图像执行细粒度的地理空间计算,包括坐标转换和精确的像素窗口推导,当涉及许多图像时,这可能会产生大量开销。

View File

@@ -0,0 +1,23 @@
过往的空间数据库的主要研究方向包括:
1. 空间数据分区Shehab 等人最近的一项研究。 [3]涉及SpatialHadoop的增强分区算法。为了为空间数据选择合适的划分方法在强化学习的背景下进行了一项重要的分析[4]。
2. 空间索引Cong 等人。 [30]提出了一种利用倒排文件和 R 树进行 top-k 文本检索的位置感知索引框架。 2018 年Kraska 等人。 [31]首先引入了学习索引的概念并开发了递归模型索引。 LISA [32] 是一种空间数据的学习索引,它采用机器学习模型来生成数据布局,从而适应不同的数据集。
3. 空间关键词查询Ahmed 等人的定性研究。描述了如何查找给定关键字位于前 k 个最常见关键字中的空间区域 [10]。罗等人。通过解决关键字中的印刷错误,将即时空间关键字查询应用于道路网络[11]。
4. 空间众包:空间众包的核心问题是如何高效地将任务分配给工作人员[33][34]。建立了可视化分析系统来呈现实时任务分配并帮助用户分析任务分配的过程[12]。
2025年的论文
1. 空间关键字查询[@chancskqs] [@yin2025list]。
2. 空间索引[@zardbani2025updating]。
3. “Query as Visualization”[@liu2025hivq]:和时空范围查询优化的论文有点像。学习这篇论文的引用。
把旧概念应用于空间数据:
1. 基于数据联合的空间查询[@tong2025hufua], [@tong2022hufu]**数据联邦**本身也是多源数据,多源数据处理可以引用。
1. data isolation problem。
2. perform secure queries over a data federation举了两个例子。
3. Nevertheless, directly adapting the state-of-the-art data federation solutions to spatial data can be inefficient分析原因。
4. 目标、边界与方法。
2. 空间数据库的自然语言接口[@liu2025nalspatial]。
3. In-Storage Query Processing for Spatio-Temporal Data[@guo2025storagea]:计算卸载。
4. Joinable Search over Multi-source Spatial Datasets[@yang2025joinablea]:处理**多源数据集成**。