Эффекты ГРИД-среды

01 ноября 2004 года, 00:00

Активно создаваемая сегодня вычислительная среда ГРИД призвана объединить компьютерные ресурсы всех для блага каждого. И похоже, инновационная технология действительно скоро потрясет мир, открыв небывалые возможности для любого рода исследований, требующих обработки большого объема данных и продолжительных вычислений.

Следуя родоначальникам концепции ГРИД, американским ученым Яну Фостеру и Карлу Кессельману, современный статус вычислительных инфраструктур можно сравнить с состоянием электрических систем в самом начале ХХ века. Тогда практически каждый пользователь электроэнергии применял свой собственный генератор. Революционным шагом было возникновение электросетей, создание технологий передачи и распределения электроэнергии, организация стандартизованной службы универсального и гарантированного доступа к электричеству.

Концепция ГРИД (от англ. — «сетка, решетка») подразумевает создание глобальной компьютерной инфраструктуры, обеспечивающей интеграцию географически распределенных информационных и вычислительных ресурсов. Концепция ГРИД базируется на следующих неоспоримых фактах:
— быстром и постоянном увеличении производительности микропроцессоров массового производства. Современный персональный компьютер на базе процессора Pentium 4 сравним по скорости вычислений с суперкомпьютерами 10-летней давности
— появлении быстрых оптоволоконных линий связи. Сегодня базовые линии связи в сети Интернет имеют пропускную способность 10 гигабит/с, а подключение к Сети многих научных организаций происходит на скорости в 1—2 гигабит/с
— феномене Интернета, глобализации процесса обмена информацией и интеграции мировой экономики
— развитии метакомпьютинга
— научной дисциплины по организации сложных вычислительных процессов
— совершенствовании технологий и средств информационной безопасности.

Задачи новой технологии

ГРИД предполагает высокий уровень обобществления компьютеров и линий связи, а это не так просто будет принять собственникам ресурсов. Они должны получить взамен нечто настолько ценное, что смогло бы компенсировать такую «экспроприацию».

Законен вопрос — что может дать ГРИД-технология?

Вычислительные задачи бывают разного уровня — от относительно простых, не требующих уникальных вычислительных ресурсов, до задач, решение которых возможно только на суперкомпьютерах.

Первый тип имеет массовый характер, и это основной тип нагрузки в большинстве прикладных областей. Эти задачи можно выполнять, используя вычислительные ресурсы и программное обеспечение массового производства. Заметим сразу, что в большинстве случаев именно на такие прикладные задачи и ориентирована ГРИД-технология.

Однако существуют задачи, которые невозможно решить на компьютерах массового производства с использованием общедоступного программного обеспечения. Это задачи аэро- и гидродинамики (расчет крыла самолета или корпуса быстроходного судна), моделирование сложных динамических систем (ядерного взрыва или образования нейтронной звезды), задачи предсказания погоды и создание модели климатических изменений. Здесь требуется специальная организация работы многих сотен и тысяч процессоров для решения одной задачи. С этой целью создаются многопроцессорные компьютеры специальной архитектуры и особое программное обеспечение. К таким вычислительным ресурсам обычно применяется термин «суперкомпьютер».

Фермерское хозяйство

Для рынка вычислительных задач характерно то, что в рамках какого-либо фундаментального исследования, прикладной проблемы или даже коммерческого проекта приходится решать множество задач, каждая из которых в отдельности не является сложной. Конечно, поток или набор относительно простых и однотипных задач легко распараллеливается, и использование суперкомпьютеров несомненно даст огромный эффект по производительности. Однако такой же эффект можно получить и используя простые наборы персональных компьютеров, объединенные локальной сетью, — кластеры, в которых один из компьютеров занимается распределением задач по принципу «одна задача — один процессор». В физике высоких энергий такие кластеры получили название компьютерных ферм. Практика последнего десятка лет показала, что использование ферм в несколько раз дешевле, чем применение суперкомпьютеров, и дает такой же эффект производительности для большинства прикладных задач. И в этом плане ГРИД как глобальное объединение процессоров, скорее, является фермой, нежели суперкомпьютером.

Хорошо известно, что степень использования процессорной мощности персональных компьютеров очень низка, в большинстве случаев процессор реально загружен в течение лишь нескольких процентов рабочего времени. Эта проблема существует и для суперкомпьютерных центров.

В мире уже сейчас работают сотни миллионов персональных компьютеров как на рабочих местах, так и в составе кластеров (ферм). ГРИД-технология позволит объединять эти мощности в глобальные географически распределенные фермы. В результате такого объединения пользователь получает возможность запуска своих задач на глобальной ферме, которая будет на много порядков мощнее, нежели доступные ему локальные ресурсы. При этом собственные компьютеры будут, в свою очередь, включены в состав этой глобальной фермы и на них будут выполняться задачи других пользователей.

Эффект увеличения скорости счета будет определяться прежде всего тем, что в каждый конкретный момент не так много заданий посылается на исполнение и поэтому задачи выполняются сразу и быстро на очень большом количестве процессоров.

Таким образом, «конфеткой», на которую должны клюнуть собственники компьютерных ресурсов, станет резкое увеличение производительности доступных им ресурсов. В идеале все это может происходить бесплатно, в форме взаимозачета. Однако понятно, что учет и контроль всегда необходимы. Поэтому соответствующие системы — своеобразный биллинг для пользователей ГРИД — уже разрабатываются и опробываются на действующих фрагментах сети.

Но кроме производительности (скорости счета в реальном времени) есть другая «изюминка», связанная с возможностью использования географически распределенных данных для решения поставленной задачи без их транспортировки в одно место. Действительно, программа может мигрировать от сайта к сайту, в соответствии с тем, где необходимые данные хранятся, а окончательный результат будет доставлен пользователю после завершения всех вычислений.

Технология ГРИД в принципе нацелена на утилизацию всех видов компьютерных ресурсов, вне зависимости от типов операционных систем и вида технических средств. Это означает, что приготовленная в этой технологии задача не должна быть привязана к конкретному виду техники, и, следовательно, должна быть переносима с одной платформы на другие.

Законы муравейника

ГРИД — это набор стандартизированных сервисов, выполняющих свои функции в фоновом режиме в соответствии с универсальными оптимизирующими алгоритмами через использование специальных протоколов и стандартных программных средств промежуточного уровня (middleware). В этом он напоминает саму Всемирную паутину, где запрос на информацию к удаленному сайту происходит по протоколу (HTTP) и с использованием программ — Web-браузеров, сама же информация должна быть записана с использованием определенного стандарта (HTML). В случае ГРИД набор таких протоколов, стандартов и служб оказывается значительно шире.

ГРИД — это прежде всего сервис для обеспечения совместимого доступа к географически распределенным гетерогенным компьютерным ресурсам. Другой задачей является обеспечение надежного доступа к вычислительным ресурсам. Также должна быть обеспечена безопасность как для выполняемой задачи (задачи и данные не должны теряться и обязаны быть защищены от несанкционированного доступа к ним), так и в отношении используемого компьютерного ресурса.

Большое внимание в функционировании новой технологии уделяется сервису по созданию и обслуживанию виртуальных вычислительных организаций или лабораторий (virtual organizations/laboratories). Именно на уровне виртуальной организации и происходит то самое обобществление ресурсов, а также решаются конкретные вопросы безопасности.

Этот далеко не полный перечень служб показывает, что реализация идеи «вычислений через Интернет» не может быть простым развитием Web-технологии. Здесь требуются много принципиально новых решений. Тем не менее вполне закономерно считать, что «ГРИД — это следующий революционный этап развития WWW в XXI веке», более того уже появился новый термин «World Wide Grid — WWG».

Реальные достижения

Понятие ГРИД в последние годы успешно используется учеными разных стран как эффективный «флаг» для выбивания финансирования своих работ по компьютерной поддержке международных и междисциплинарных проектов.

Если говорить о реальных достижениях, то прежде всего следует отметить, что ГРИД — не всеобщий земной суперкомпьютер, а ряд реальных сетей, работающих в рамках конкретных научных проблем. Ярким примером является проект MAMMOGRID (http://mammogrid.vitamib.com ), направленный на компьютерную поддержку медицинских исследований по проблеме рака молочной железы. В этом проекте планируется с помощью новой технологии организовать доступ ученых-медиков к данным, полученным в процессе ежегодных обследований миллионов женщин, и хранящимся в тысячах европейских медицинских центров. Если это удастся, то соответствующее направление медицинской науки выйдет на принципиально новый уровень. Ну а самое главное — за счет комплексной компьютерной обработки маммограмм существенно повысится достоверность обследований на самых ранних стадиях развития болезни.

В реальных ГРИД-проектах задача интеграции в глобальные фермы действительно персональных компьютеров, стоящих на рабочих столах пользователей или в их домах, пока не ставится, поскольку интеграция россыпи компьютеров, находящейся в персональном использовании, на сегодняшний день нереальна. Хотя не исключено, что в ближайшем будущем это и станет возможным.

Сейчас в ГРИД-инфраструктуры включаются ресурсы только компьютерных центров — научных или производственных. Хотя попытки задействовать такие ресурсы, как компьютеры интернет-кафе, все же предпринимаются. В этом плане интересен опыт объединения компьютерных ресурсов школ подмосковного города Дубны в ГРИД-сеть для решения прикладных задач Объединенного института ядерных исследований (ОИЯИ).

Анализируя существующие проекты, можно выделить два основных направления развития ГРИД-технологий — вычислительное (computational) и интенсивно работающее с данными (data intensive GRID).

В вычислительном направлении создаваемая инфраструктура нацелена на достижение максимальной скорости расчетов за счет глобального распределения вычислений. В таких случаях выгоднее доставлять требуемые данные к мощному компьютеру для выполнения задачи. Одним из таких проектов является европейский проект DEISA (deisa.org), в котором предпринимается попытка объединить суперкомпьютерные центры.

В случае же второго направления транспортировка данных представляет собой гораздо более сложную задачу, чем сами вычисления, — такие задачи подпадают под понятие ГРИД для интенсивных операций с данными. Здесь задаче выгоднее пройти по серверам, где хранятся обрабатываемые данные.

Важнейшим примером инфраструктур типа интенсивных операций с данными является европейский проект EGEE (http://www.cern.ch/egee), который сегодня в основном обслуживает пользователей Большого адронного коллайдера, создаваемого в Европейской лаборатории по физике частиц в Женеве (ЦЕРН).

По плану ускоритель должен начать свою работу в 2007 году, что и определяет жесточайший временной график для доведения технологии ГРИД «до ума». С самого начала работы EGEE в 2004 году в проекте участвовали не только европейские, но также и американские университеты, и 8 российских институтов, и лаборатории из Израиля. Всего же ныне в нем задействовано 70 лабораторий из 27 стран.

Еще в 1999 году физики ЦЕРНа, взяв идею ГРИД на вооружение, принялись за ее реализацию. Для этого год спустя был организован проект EU -DataGrid (http://www.eu-datagrid.org), который успешно завершился в начале 2004 года. В 2002 году там же, в ЦЕРНе, стартовал еще один проект – LHC Computing GRID (LCG, http://www. cern. ch/lcg), целью которого стало создание всемирной инфраструктуры региональных центров по хранению, обработке и анализу экспериментальных данных с детекторов Большого адронного коллайдера. LCG начал работать в сентябре 2003 года в составе 12 лабораторий мира, среди которых был и российский сайт (НИИЯФ МГУ). Следует особо отметить, что создаваемое в рамках ЕU-DataGRID и EGEE программное обеспечение и другие технологические решения (включая исходные коды) доступны и открыты для всех, и это характерно для большинства ГРИД-проектов.

ГРИД-технологии только входят в нашу жизнь, но, по всей видимости, в самое ближайшее время многие из нас убедятся в новаторской пользе распределенного метакомпьютинга и в самой идее ГРИД-концепции — объединения возможностей всех для решения задач каждого.

Вячеслав Ильин, д. ф.-м. н.,
Александр Крюков, к. ф.-м. н.,
Алексей Солдатов, д. ф.-м. н.

Рубрика: Ярмарка идей
Просмотров: 5783