Всероссийская конференция

Астрофизика высоких энергий сегодня и завтра




Александр Валерьевич Мещеряков

Институт космических исследования Российской академии наук

Распределенная обработка больших массивов изображений небесных обзоров при помощи Apache Spark
Иван Колосов (ВМиК МГУ), Сергей Герасимов ((ВМиК МГУ), Александр Мещеряков (ИКИ РАН)

Объемы данных цифровых небесных обзоров, которые уже сейчас достигли порядка нескольких петабайт, в будущем продолжат расти. Поэтому актуальна задача создания настраиваемых и масштабируемых конвейеров обработки данных небесных обзоров, позволяющих исследователям решать интересующие их задачи, используя большой объем накопленных данных. Данная работа посвящена экспериментальному исследованию применения технологий аналитики больших данных, в частности, Apache Spark, для обработки фотометрических данных небесных обзоров. Исследованы сценарии создания сборок (англ. coadds) больших областей неба путем совмещения большого числа архивных изображений (на примере данных SDSS Stripe 82) и сценарий создания каталога объектов из потока изображений с обзорного телескопа (на примере данных DECaLS). Проведенные эксперименты позволяют заключить, что на платформе Apache Spark можно создавать эффективные настраиваемые конвейеры обработки больших массивов астрономических данных, обладающие свойствами масштабируемости и отказоустойчивости. Работа поддержана Российским фондом фундаментальных исследований (грант РФФИ №15-29-07085 офи_м).

Архив докладов