2.9 KiB
2.9 KiB
智能火星平台关键技术研究
1.1 选题背景
1.2 核心科学问题
- 时空数据查询与读取效率低: 现有的遥感数据管理系统,如OpenDataCube、GeoMesa,通常将时空范围查询分解为解耦的两阶段执行模型。第一个阶段是元数据查询阶段,它利用时空元数据(例如足迹、时间戳)来识别与查询谓词相交的候选图像文件。最近的进展已经从传统的基于树的索引转变为基于网格编码和空间填充曲线的可扩展分布式方案,如GeoHash、GeoSOT和GeoMesa。通过利用这些高维索引结构,第一阶段的搜索复杂度已经有效地降低到$O(\log N)$甚至$O(1)$,使得元数据发现即使对于十亿规模的数据集也非常高效。 第二阶段是数据提取阶段,系统从存储在分布式文件系统或对象存储中的已识别的原始图像文件中读取实际像素数据。在现代高性能遥感数据分析中,一个关键的观察是,主要的系统瓶颈已经从根本上从第一阶段转移到第二阶段。虽然元数据搜索在几毫秒内完成,但端到端查询延迟现在主要由获取、解压缩和处理大规模原始图像所需的大量I/O开销所主导。传统的系统试图通过预切片和构建金字塔来减少I/O开销(例如,谷歌Earth Engine中使用的方法,它将元数据存储在HBase中并提供预平铺图像金字塔),但是激进的平铺增加了管理的复杂性并产生了许多小文件。最近的云优化GeoTIFF (COG)格式和支持COG的框架利用内部概述和基于窗口的I/O,只读取在空间上与查询相交的文件部分。基于windows的I/O有效地减少了原始数据传输。然而,这些系统仍然需要细粒度的、逐图像的地理空间计算来映射查询坐标并确定精确的剪辑/马赛克边界。当处理大量的候选图像时,这样的操作在计算上变得令人望而却步。此外,并发工作负载下的I/O性能进一步降低,其中多个重叠的数据检索请求争夺有限的I/O带宽和存储吞吐量,使得传统的以索引为中心的优化不足以满足实时应用程序。
1.3 主要研究内容
- 大规模遥感影像数据并发时空范围查询的I/O高效方法: 首先,我们提出了一种具有I/O意识的索引方法,以实现对大规模遥感图像的细粒度部分查询和读取避免昂贵的每次查询地理空间计算;通过修改事务级混合并发方法[@hong2025hybrid],将Calvin确定性并发控制与乐观并发控制相结合,提出了一种用于并发环境下时空范围查询的混合并发控制协议。此外,为了提高遥感数据时空范围查询的I/O性能,提出了一种自动I/O调优方法。该方法扩展了现有的基于代理辅助的遗传多臂老虎机算法[@preil2025genetic]的AI驱动I/O调优框架@rajesh2024tunio。