Схема потоков данных на установке CMS/ LHC и средства их обработки
Краткое сожержание материала:
Размещено на
Министерство образования Республики Беларусь
Учреждение образования
«Гомельский государственный университет
имени Франциска Скорины»
Физический факультет
Кафедра теоретической физики
Курсовая работа
Схема потоков данных на установке CMS/ LHC и средства их обработки
Исполнитель: студентка группы Ф-46у
Е.С. Ковалева
Научный руководитель: к.ф.-м.н., доцент
С.Г. Шульга
Гомель 2011г.
РЕФЕРАТ
Объект исследования: потоки данных на CMS и средства их обработки.
Предмет исследования: изучение руководства пользователя CMSSW и составление общей картины потоков данных на CMS.
Методы исследования: сбор и систематизация информации с Интернет-сайта CMSSW, пакет ROOT.
Цель курсовой работы: изучение и подготовка документации для схемы потоков данных и средств их обработки на установке CMS/ LHC.
Задачами курсовой работы являются:
1. Изучить руководство пользователя для CMSSW;
2. Перевод и оформление русифицированной версии руководства по CMSSW;
3. Размещение русифицированного руководства пользователя на сайте группы CMS в ГГУ;
4. Изучить примеры анализа данных.
Список использованных обозначений:
ГГУ - Гомельский государственный университет;
ПК - персональный компьютер;
T0 - уровень 0;
T1 - уровень 1;
T2 - уровень 2.
Введение
CMS предоставляет немалые трудности не только с точки зрения производства открытий в физике, строительства и эксплуатации детектора, но и с точки зрения объема производимых данных и необходимых вычислительных ресурсов. Наборы данных и требования ресурсов, по крайней мере, на порядок больше, чем в экспериментах, выполнявшихся до запуска LHC.
Требования к хранению данных на CMS трудно выполнить в одном месте как по техническим, так и по финансовых причинам. Кроме того, большинство CMS-сотрудников не базируются в CERN, и не имеют значительного доступа к CERN-ресурсам, которые целесобразно использовать для CMS-анализа. Поэтому вычислительная среда CMS была построена как распределенная система компьютеров, сервисов, услуг и ресурсов, которые взаимодействуют друг с другом по системе GRID. Набор сервисов и их взаимодействие вместе составляют средства вычислений, хранения данных и подключения ресурсов, которые CMS использует для обработки данных, архивирования данных, формирования Монте-Карло-событий, и всех видов вычислительной деятельности.
Вычислительная инфраструктура доступна для сотрудников CMS, независимо от их физического расположения.
В курсовой работе впервые сделано исследование возможности удаленной работы для экспериментов LHC, находясь удаленно в Гомеле. При этом применялись средства, которые традиционно применяются для удаленной работы на LHC.
В курсовой работе написано начальное руководство по работе с CMSSW, которое может послужить отправной точкой для желающих быстро освоить соответствующие программы.
1. Уровневая архитектура компьютерных ресурсов CMS
Вычислительные центры CMS доступны по всему миру и построены в трехуровневой архитектуре, которая функционирует как единая согласованная система. Каждый из трех уровней предоставляет различные ресурсы и сервисы.
Рисунок 1 - Уровневая организация обработки данных на LHC
1.1 Уровень-0 (T0, Tier-0)
Первый уровень в модели CMS физически реализован в одном месте, в CERN. Это - уровень-0 (T0). В T0 выполняется несколько функций. Стандартный рабочий процесс в T0 выглядит следующим образом:
1. исходные данные принимаются из так называемой “CMS Online Data Acquisition (DAQ) and Triger system” (TriDAS);
2. сырые данные (raw data), полученные из DAQ, распаковываются в начальные наборы данных (“datasets”), используя триггерную информацию (“immutable bits”). Грубо говоря, ожидается 10 “datasets” в ране (run) при нынешней суммарной энергии пучков 7 ТэВ;
3. переупакованные сырые (raw) данные записываются на ленту;
4. сырые данные распространяются на следующий уровень (Tier-1) так, что две копии каждого элемента сырых данных сохраняются, одна в CERN, другая в Tier-1;
5. выполняется быстрая (“promt”) калибровка, чтобы получить калибровочные константы, необходимые для запуска реконструкции;
6. сырые данные пересылаются для реконструкции;
7. выполняется первую реконструкции и RECO-данные и объект для анализа данных (AOD) записываются в память;
8. распределяет RECO данные между Tier-1 центрами, так что сырые данные и RECO данные соответствуют на каждом Tier-1;
9. распределяет AOD во все Tier-1 центры.
T0 не предусматривает анализа ресурсов и работает только по запланированным мероприятия.
T0 сливает выходные файлы, если они слишком малы. Цель CMS - записать соответствующий объем данных на ленту роботов.
Существует система CAF, которая предлагает услуги, связанные с T1 и T2 центрами и выполняет задержку для критической, неавтоматизированной деятельности.
CAF не является необходимым для нормальной работы Т0, он предназначен для краткосрочной калибровки с человеческим управлением с высоким приоритетом и для физической проверки и физического анализа.
1.2 Уровень -1 (T1, Tier-1)
Существует набор из семи T1, которые являются крупными центрами в странах, сотрудничающих с CMS (крупные национальные лаборатории, например, FNAL, и RAL). Tier-1 в целом могут использоваться для крупномасштабных, централизованно организованных мероприятий и могут предоставлять данные в Tier-2 и получать данные со всех Tier-2. Каждый T1-центр:
1. получает подмножества данных из T0, связанных с размером предоставляемых ресурсов;
2. обеспечивает ленточное архивирование части данных RAW (второй экземпляр, для безопасности), которую он получает в качестве подмножества данных из T0;
3. обеспечивает значительные мощности процессора для следующих работ:
ь Re-реконструкция,
ь Скимминг,
ь Калибровки,
ь AOD.
4. хранит полную копию AOD;
5. распределяет RECO, скимминг и AOD для других T1 центров и CERN, а также связывает группы T2 центров;
6. обеспечивает безопасное хранение и перераспределение Монте-Карло-событий, произведнных на T2.
1.3 Уровень - 2 (Т2, Tier-2)
Более многочисленным является множество Т2-центров ("малые" центры в университетах), но с значительными процессорными ресурсами. Т2 обеспечивают потенциал для пользовательского анализа, исследований калибровки, генерирования Монте-Карло-данных. T2-центры предоставляют ограниченное дисковое пространство, а в них нет ленточного архивирования. T2-центры полагаются на T1 для доступа к большими наборами данных и для надежного хранения новых данных (как правило, Монте-Карло), изготовленных на Т2. МС-генерирование из Т2 может быть направлено в соответствующий Т1 для распределение среди CMS сообщества. Вся другая деятельность Т2 будет определяться потребностями пользователей, данными, размещенными на доступных ресурсах, и потребностями: ленты, диски, рабочая сила, потребности местных сообществ. В T2 организуется работа физических групп, региональных ассоциаций и местных сообществ.
Таким образом, уровни -2 обеспечивают:
1. услуги для местных сообществ;
2. анализ по сети на основе GRID, выполняемый для всего эксперимента;
3. Монте-Карло-данные для всего эксперимента.
По состоянию на октябрь '07 было около 36 T2-сайтов (рис. 1), каждый из которых связан с одним из семи T1-сайтов, или непосредственно в CERN.
2. Иерархия CMS данных
CMS данные организованы в иерархии данных уровней. Каждое физическое событие записывается в каждый уровень данных, где уровни содержат различные подуровни информации о событиях. Различные уровни имеют различные применения. Тремя основными уровнями данных, записанных в CMS являются:
1. RAW: полная информация о событии из Т0 (т. е. из ЦЕРН), содержащая "сырые" данные детекторной информации (от чувствительных элементов детектора, и т.д.). RAW-данные не используется непосредственно для анализа;
2. RECO ("RECOnstructed data"): выход из первого прохода обработки Т0. Этот слой содержит реконструированные физические объекты, но они по-прежнему очень подробны. RECO могут быть использованы для анализа;
3. AOD ("данные объектов анализа"): это "дистиллированная...
Введение в обработку данных. Среда хранения и средства обработки информационных массивов. Эволюция и характеристика концепций обработки данных. Обобщенная схема выборки данных в ОС и СУБД
Термины "логический" и "физический" как отражение различия аспектов представления данных. Методы доступа к записям в файлах. Структура систем управлен...
Автосигнализации TERMINATOR. Инструкции и руководства по эксплуатации и установке
В архиве инструкции по установке и эксплуатации автомобильных сигнализаций фирмы TERMINATOR:Terminator ABSOLUTE—инструкция по установке и эксплуатации...
Формирование базы данных транспортных потоков
Понятие баз данных, их место в сфере обработки информации. Разработка базы данных транспортных потоков для работы в геоинформационной системе ArcGis....
Микропроцессорная система обработки журнальных данных
Структура автомата для сбора данных. Программы, реализующие заданный пользователем алгоритм автоматизации процедуры обработки журнальных данных. Описа...
Подсистема автоматизированной тарификации биллинговой системы "Отик-интернет"
Основные типы тарифных планов российских Internet-провайдеров. Концепция баз данных. Схема информационных потоков. Структуры данных модуля учета тариф...