Files
paper-writing/绪论.md
2026-01-19 14:06:59 +08:00

2.9 KiB
Raw Permalink Blame History

智能火星平台关键技术研究

1.1 选题背景

1.2 核心科学问题

  1. 时空数据查询与读取效率低: 现有的遥感数据管理系统如OpenDataCube、GeoMesa通常将时空范围查询分解为解耦的两阶段执行模型。第一个阶段是元数据查询阶段它利用时空元数据例如足迹、时间戳来识别与查询谓词相交的候选图像文件。最近的进展已经从传统的基于树的索引转变为基于网格编码和空间填充曲线的可扩展分布式方案如GeoHash、GeoSOT和GeoMesa。通过利用这些高维索引结构第一阶段的搜索复杂度已经有效地降低到$O(\log N)$甚至$O(1)$,使得元数据发现即使对于十亿规模的数据集也非常高效。 第二阶段是数据提取阶段系统从存储在分布式文件系统或对象存储中的已识别的原始图像文件中读取实际像素数据。在现代高性能遥感数据分析中一个关键的观察是主要的系统瓶颈已经从根本上从第一阶段转移到第二阶段。虽然元数据搜索在几毫秒内完成但端到端查询延迟现在主要由获取、解压缩和处理大规模原始图像所需的大量I/O开销所主导。传统的系统试图通过预切片和构建金字塔来减少I/O开销例如谷歌Earth Engine中使用的方法它将元数据存储在HBase中并提供预平铺图像金字塔但是激进的平铺增加了管理的复杂性并产生了许多小文件。最近的云优化GeoTIFF COG格式和支持COG的框架利用内部概述和基于窗口的I/O只读取在空间上与查询相交的文件部分。基于windows的I/O有效地减少了原始数据传输。然而这些系统仍然需要细粒度的、逐图像的地理空间计算来映射查询坐标并确定精确的剪辑/马赛克边界。当处理大量的候选图像时这样的操作在计算上变得令人望而却步。此外并发工作负载下的I/O性能进一步降低其中多个重叠的数据检索请求争夺有限的I/O带宽和存储吞吐量使得传统的以索引为中心的优化不足以满足实时应用程序。

1.3 主要研究内容

  1. 大规模遥感影像数据并发时空范围查询的I/O高效方法 首先我们提出了一种具有I/O意识的索引方法以实现对大规模遥感图像的细粒度部分查询和读取避免昂贵的每次查询地理空间计算通过修改事务级混合并发方法[@hong2025hybrid]将Calvin确定性并发控制与乐观并发控制相结合提出了一种用于并发环境下时空范围查询的混合并发控制协议。此外为了提高遥感数据时空范围查询的I/O性能提出了一种自动I/O调优方法。该方法扩展了现有的基于代理辅助的遗传多臂老虎机算法[@preil2025genetic]的AI驱动I/O调优框架@rajesh2024tunio。

1.4 主要创新点和贡献