29 июня 2017 года руководство информационного центра Европейской организации ядерных исследований CERN сообщило, что объем данных, хранимых на магнитных лентах и других носителях информации, перевалил за отметку в 200 петабайт. Так откуда же взялся столь огромный массив информации? Датчики Большого Адронного Коллайдера, самого большого и мощного ускорителя частиц на сегодняшний день, регистрируют порядка миллиарда столкновений частиц в секунду, производя за эту же секунду порядка одного петабайта данных. Никакая из существующих вычислительных систем не в состоянии просто сохранить такой поток данных, не говоря уж о его обработке в реальном времени. Поэтому все получаемые данные фильтруются на месте мощными компьютерами, подключенными к оборудованию каждого из экспериментов, и наиболее интересные данные отправляются в Информационный центр CERN.
Суперкомпьютеры CERN DC выполняют операции по предварительной обработке и индексации полученных данных, которые затем записываются на магнитную ленту для их длительного хранения. Несмотря на использование сверхэффективных алгоритмов сжатия информации, CERN DC сохраняет в среднем один петабайт за каждый лень работы коллайдера. Некоторая часть этих данных имеет временных характер и данные удаляются после завершения их обработки.
За 2016 год оборудование четырех основных экспериментов проработало в течение 5 миллионов секунд, собирая данные в непрерывном режиме. С учетом работы коллайдера за предыдущие периоды, суммарное время работы оборудования на конец 2016 года составило 7.5 миллионов секунд. И ученые прогнозируют, что время работы оборудования коллайдера в 2017 году также увеличится еще на 50 процентов по сравнению с предыдущими периодами.
Поскольку сейчас коллайдер работает в режиме повышенной яркости протонного луча, датчики регистрируют накладывающиеся друг на друга столкновения и более сложные процессы. Все это требует более сложной обработки и анализа данных, что влечет за собой необходимость в увеличении количества задействованных вычислительных мощностей. Поэтому, помимо своего рода рекорда по объему хранимой информации, в информационном центре CERN установлено еще несколько рекордов по скоростям передачи данных, по количеству использованных ресурсов вычислительных систем и систем хранения информации.
Для того, чтобы иметь возможность оперировать огромными объемами информации, оборудование центра CERN DC подвергалось постоянной модернизации параллельно с модернизацией оборудования коллайдера. В период первой двухлетней остановки (Long Shutdown 1), центр получил новое оборудование, которое позволило производить обработку 73 петабайт данных, 49 из которых были данными, собранными на коллайдере. Немного позже в центре была установлена система хранения CERN Advanced STORage system (CASTOR), которая и позволила накопить рекордный объем данных и которая еще не исчерпала свои ресурсы на сегодняшний день.
Еще одним аспектом оперирования огромными объемами информации являются повышенные требования к скоростям передачи информации. С начала февраля этого года треть от всех используемых в информационном центре CERN DC коммуникационных линий была переведена на стандарт 100 гигабит в секунду. А целая система оптоволоконных коммуникационных каналов связывает центр CERN DC с его отделами, находящимися в Венгрии и других странах.