Схема потоков данных на установке CMS/ LHC и средства их обработки

Тип: курсовая работа
Категория: ПРОГРАММИРОВАНИЕ

Скачать

Купить

Уровневая архитектура компьютерных ресурсов CMS. Поток данных от детекторов для анализа. Сокращение размера событий: CMS форматы данных и форматы Тир-данных. Иерархия CMS данных. Средства удаленной работы на LINUX машинах в CERN: PUTTY, WinSCP и Xming.
Краткое сожержание материала:

Размещено на

Министерство образования Республики Беларусь

Учреждение образования

«Гомельский государственный университет

имени Франциска Скорины»

Физический факультет

Кафедра теоретической физики

Курсовая работа

Схема потоков данных на установке CMS/ LHC и средства их обработки

Исполнитель: студентка группы Ф-46у

Е.С. Ковалева

Научный руководитель: к.ф.-м.н., доцент

С.Г. Шульга

Гомель 2011г.

РЕФЕРАТ

Объект исследования: потоки данных на CMS и средства их обработки.

Предмет исследования: изучение руководства пользователя CMSSW и составление общей картины потоков данных на CMS.

Методы исследования: сбор и систематизация информации с Интернет-сайта CMSSW, пакет ROOT.

Цель курсовой работы: изучение и подготовка документации для схемы потоков данных и средств их обработки на установке CMS/ LHC.

Задачами курсовой работы являются:

1. Изучить руководство пользователя для CMSSW;

2. Перевод и оформление русифицированной версии руководства по CMSSW;

3. Размещение русифицированного руководства пользователя на сайте группы CMS в ГГУ;

4. Изучить примеры анализа данных.

Список использованных обозначений:

ГГУ - Гомельский государственный университет;

ПК - персональный компьютер;

T0 - уровень 0;

T1 - уровень 1;

T2 - уровень 2.

Введение

CMS предоставляет немалые трудности не только с точки зрения производства открытий в физике, строительства и эксплуатации детектора, но и с точки зрения объема производимых данных и необходимых вычислительных ресурсов. Наборы данных и требования ресурсов, по крайней мере, на порядок больше, чем в экспериментах, выполнявшихся до запуска LHC.

Требования к хранению данных на CMS трудно выполнить в одном месте как по техническим, так и по финансовых причинам. Кроме того, большинство CMS-сотрудников не базируются в CERN, и не имеют значительного доступа к CERN-ресурсам, которые целесобразно использовать для CMS-анализа. Поэтому вычислительная среда CMS была построена как распределенная система компьютеров, сервисов, услуг и ресурсов, которые взаимодействуют друг с другом по системе GRID. Набор сервисов и их взаимодействие вместе составляют средства вычислений, хранения данных и подключения ресурсов, которые CMS использует для обработки данных, архивирования данных, формирования Монте-Карло-событий, и всех видов вычислительной деятельности.

Вычислительная инфраструктура доступна для сотрудников CMS, независимо от их физического расположения.

В курсовой работе впервые сделано исследование возможности удаленной работы для экспериментов LHC, находясь удаленно в Гомеле. При этом применялись средства, которые традиционно применяются для удаленной работы на LHC.

В курсовой работе написано начальное руководство по работе с CMSSW, которое может послужить отправной точкой для желающих быстро освоить соответствующие программы.

1. Уровневая архитектура компьютерных ресурсов CMS

Вычислительные центры CMS доступны по всему миру и построены в трехуровневой архитектуре, которая функционирует как единая согласованная система. Каждый из трех уровней предоставляет различные ресурсы и сервисы.

Рисунок 1 - Уровневая организация обработки данных на LHC

1.1 Уровень-0 (T0, Tier-0)

Первый уровень в модели CMS физически реализован в одном месте, в CERN. Это - уровень-0 (T0). В T0 выполняется несколько функций. Стандартный рабочий процесс в T0 выглядит следующим образом:

1. исходные данные принимаются из так называемой “CMS Online Data Acquisition (DAQ) and Triger system” (TriDAS);

2. сырые данные (raw data), полученные из DAQ, распаковываются в начальные наборы данных (“datasets”), используя триггерную информацию (“immutable bits”). Грубо говоря, ожидается 10 “datasets” в ране (run) при нынешней суммарной энергии пучков 7 ТэВ;

3. переупакованные сырые (raw) данные записываются на ленту;

4. сырые данные распространяются на следующий уровень (Tier-1) так, что две копии каждого элемента сырых данных сохраняются, одна в CERN, другая в Tier-1;

5. выполняется быстрая (“promt”) калибровка, чтобы получить калибровочные константы, необходимые для запуска реконструкции;

6. сырые данные пересылаются для реконструкции;

7. выполняется первую реконструкции и RECO-данные и объект для анализа данных (AOD) записываются в память;

8. распределяет RECO данные между Tier-1 центрами, так что сырые данные и RECO данные соответствуют на каждом Tier-1;

9. распределяет AOD во все Tier-1 центры.

T0 не предусматривает анализа ресурсов и работает только по запланированным мероприятия.

T0 сливает выходные файлы, если они слишком малы. Цель CMS - записать соответствующий объем данных на ленту роботов.

Существует система CAF, которая предлагает услуги, связанные с T1 и T2 центрами и выполняет задержку для критической, неавтоматизированной деятельности.

CAF не является необходимым для нормальной работы Т0, он предназначен для краткосрочной калибровки с человеческим управлением с высоким приоритетом и для физической проверки и физического анализа.

1.2 Уровень -1 (T1, Tier-1)

Существует набор из семи T1, которые являются крупными центрами в странах, сотрудничающих с CMS (крупные национальные лаборатории, например, FNAL, и RAL). Tier-1 в целом могут использоваться для крупномасштабных, централизованно организованных мероприятий и могут предоставлять данные в Tier-2 и получать данные со всех Tier-2. Каждый T1-центр:

1. получает подмножества данных из T0, связанных с размером предоставляемых ресурсов;

2. обеспечивает ленточное архивирование части данных RAW (второй экземпляр, для безопасности), которую он получает в качестве подмножества данных из T0;

3. обеспечивает значительные мощности процессора для следующих работ:

ь Re-реконструкция,

ь Скимминг,

ь Калибровки,

ь AOD.

4. хранит полную копию AOD;

5. распределяет RECO, скимминг и AOD для других T1 центров и CERN, а также связывает группы T2 центров;

6. обеспечивает безопасное хранение и перераспределение Монте-Карло-событий, произведнных на T2.

1.3 Уровень - 2 (Т2, Tier-2)

Более многочисленным является множество Т2-центров ("малые" центры в университетах), но с значительными процессорными ресурсами. Т2 обеспечивают потенциал для пользовательского анализа, исследований калибровки, генерирования Монте-Карло-данных. T2-центры предоставляют ограниченное дисковое пространство, а в них нет ленточного архивирования. T2-центры полагаются на T1 для доступа к большими наборами данных и для надежного хранения новых данных (как правило, Монте-Карло), изготовленных на Т2. МС-генерирование из Т2 может быть направлено в соответствующий Т1 для распределение среди CMS сообщества. Вся другая деятельность Т2 будет определяться потребностями пользователей, данными, размещенными на доступных ресурсах, и потребностями: ленты, диски, рабочая сила, потребности местных сообществ. В T2 организуется работа физических групп, региональных ассоциаций и местных сообществ.

Таким образом, уровни -2 обеспечивают:

1. услуги для местных сообществ;

2. анализ по сети на основе GRID, выполняемый для всего эксперимента;

3. Монте-Карло-данные для всего эксперимента.

По состоянию на октябрь '07 было около 36 T2-сайтов (рис. 1), каждый из которых связан с одним из семи T1-сайтов, или непосредственно в CERN.

2. Иерархия CMS данных

CMS данные организованы в иерархии данных уровней. Каждое физическое событие записывается в каждый уровень данных, где уровни содержат различные подуровни информации о событиях. Различные уровни имеют различные применения. Тремя основными уровнями данных, записанных в CMS являются:

1. RAW: полная информация о событии из Т0 (т. е. из ЦЕРН), содержащая "сырые" данные детекторной информации (от чувствительных элементов детектора, и т.д.). RAW-данные не используется непосредственно для анализа;

2. RECO ("RECOnstructed data"): выход из первого прохода обработки Т0. Этот слой содержит реконструированные физические объекты, но они по-прежнему очень подробны. RECO могут быть использованы для анализа;

3. AOD ("данные объектов анализа"): это "дистиллированная...

Другие файлы:

Введение в обработку данных. Среда хранения и средства обработки информационных массивов. Эволюция и характеристика концепций обработки данных. Обобщенная схема выборки данных в ОС и СУБД
Термины "логический" и "физический" как отражение различия аспектов представления данных. Методы доступа к записям в файлах. Структура систем управлен...

Автосигнализации TERMINATOR. Инструкции и руководства по эксплуатации и установке
В архиве инструкции по установке и эксплуатации автомобильных сигнализаций фирмы TERMINATOR:Terminator ABSOLUTE—инструкция по установке и эксплуатации...

Формирование базы данных транспортных потоков
Понятие баз данных, их место в сфере обработки информации. Разработка базы данных транспортных потоков для работы в геоинформационной системе ArcGis....

Микропроцессорная система обработки журнальных данных
Структура автомата для сбора данных. Программы, реализующие заданный пользователем алгоритм автоматизации процедуры обработки журнальных данных. Описа...

Подсистема автоматизированной тарификации биллинговой системы "Отик-интернет"
Основные типы тарифных планов российских Internet-провайдеров. Концепция баз данных. Схема информационных потоков. Структуры данных модуля учета тариф...