Программа «Геном человека» дала нам код ДНК человека. Теперь в рамках ENCODE полученную «шифровку» изучают как можно тщательнее. Фото: CORBIS
В «мусорной» ДНК ученые нашли регуляторы и переключатели генов. Так, считает Надежда Маркина, сделан большой шаг к тому, чтобы получить «руководство пользователя» по человеческому геному.
В научных кругах несколько лет назад ходила байка, что Господь, создавая человека, действовал как самый настоящий программист. Программа, как правило, занимает гораздо меньше объема, чем комментарии к ней. В геноме оказалось буквально то же самое: только спустя десятилетие после прочтения человеческой ДНК «по буквам» ученые начали разбираться в «комментариях» к ней. Они нашли в геноме миллионы регуляторов работы генов и даже, судя по полученным результатам, выяснили, как они действуют. Таким образом, удалось получить массу информации о генетических заболеваниях.
В начале сентября в научном мире случилась сенсация. Практически одновременно были опубликованы 30 с лишним статей с результатами одного из проектов под названием ENCODE. Из них шесть статей появились в Nature, две — в Science и 24 — в журналах Genome Re search и Genome Biology.
Подобного всплеска молекулярно-генетических публикаций не случалось уже давно. Cуть проекта ENCODE состоит в том, что ученые исследовали ту часть ДНК, которую часто называют «мусорной» (junk DNA). Почему «мусорной»? Дело в том, что она не содержит генов, а значит, не кодирует белков. И было совершенно непонятно, для чего она нужна.
Но «мусор» оказался поистине золотым. Теперь, как говорит доктор Юан Бирни (Ewan Birney) из Европейского института биоинформатики в Хьюстоне (Великобритания), координатор анализа данных по проекту, термин «мусорная ДНК» пора выбросить в мусорную корзину.
Строение ДНК
ДНК (дезоксирибонуклеиновая кислота) — длинная полимерная молекула, состоящая из повторяющихся блоков, нуклеотидов. Каждый нуклеотид состоит из азотистого основания, сахара (дезоксирибозы) и фосфатной группы. Сама молекула имеет форму спирали из двух цепей, ориентированных азотистыми основаниями друг к другу. В ДНК четыре вида азотистых оснований (аденин, гуанин, тимин и цитозин), они соединяются попарно друг с другом водородными связями по принципу комплементарности (аденин соединяется с тимином, гуанин с цитозином).
Прочитан не значит расшифрован
В 2000 году мир узнал о том, что ученые прочитали геном человека. Точнее, в тот момент они всего лишь получили «черновик», а о полном прочтении объявили в 2003 году. В СМИ для этой работы использовали фразу «расшифровка генома», хотя она не совсем корректно описывает результат многолетней работы международного консорциума.
То, что получили, представляет собой не расшифровку, а самую настоящую шифровку. Исследователи секвенировали человеческую ДНК, то есть распознали последовательность из 3 млрд букв (А, С, T, G), обозначающих составные «кирпичики» ДНК — нуклеотиды. Двойная спираль молекулы, в которой закодирована наследственная информация человека, превратилась в длиннейшую телетайпную ленту с буквами, и некоторые из них складывались в «слова» — гены.
Но «слов-то» оказалось относительно немного! Общее количество генов в геноме человека ученые оценивают всего в 20–25 тыс. Эта цифра совсем не поражает воображение, если сравнивать, например, с мухой дрозофилой, у которой 14 тыс. генов. А у крошечного пресноводного рачка дафнии насчитали более 30 тыс. генов — на сегодня он остается чемпионом в этой номинации. Но мы-то посложнее устроены, чем дафния, один мозг человеческий чего стоит. Стало ясно, что особенность генетического устройства человека кроется вовсе не в количестве, а в качестве. Собака зарыта, таким образом, не в самом наборе генов, а в тонкой и сложной регуляции их работы.
Доктор биологических наук, биоинформатик Михаил Гельфанд заметил как-то в нашем с ним разговоре, что секвенированный геном — лишь найденный папирус, на котором виден непонятный текст. Но мы не знаем, что на нем написано, не можем перевести на свой язык. То есть мы не понимаем, как работает геном: почему в одних клетках включаются одни гены, в других клетках — иные (и благодаря этому клетки нашего организма разные), почему одни гены работают только в эмбрионе, а по мере развития человека вместо них начинают работать другие и т. д. Сами гены, как оказалось, занимают всего 1–2% длины молекулы ДНК. Напомним, что в гене содержится информация о строении белка (или нескольких белков), то есть гены кодируют белки. Но 98–99% ДНК белков не кодирует. Конечно, ученые догадывались, что не всё так просто, природа не может быть настолько расточительна и «мусорная» ДНК для чего-то очень нужна. Но, чтобы это показать, нужно было проделать много кропотливой работы, которая под силу только большому международному консорциуму. Такой масштабный замысел и стал в итоге целью проекта ENCODE (Encyclopedia of DNA Elements), в котором участвуют более 400 исследователей, члены 32 научных групп.
ДНК-энциклопедия
Работа стартовала в 2003 году. Финансировал ее Национальный институт исследований генома человека (National Human Genome Research Institute). Проект обошелся ему в 185 млн долларов США. На первом этапе, когда шла отработка методик, ученые проанализировали лишь 1% некодирующей части ДНК. С 2007 года начался второй этап, результаты которого и опубликованы одновременно в Nature, Science и других научных журналах. Но насколько велика получившаяся энциклопедия? Как пишет редактор Nature Брендан Мэйер (Brendan Maher), если распечатать все геномные данные, собранные по проекту за пять лет, при плотности 1000 пар оснований на квадратный сантиметр вышла бы распечатка 30 км в длину и 16 м в высоту. В ней содержатся 15 трлн байт информации.
По словам Мэйера, в ходе программы «Геном человека» получен «рабочий чертеж» генома. Но к этому чертежу не прилагается «руководства пользователя», и поэтому мы не знаем, как его читать. Чтобы понять это (то есть получить такой мануал), участники ENCODE стали интенсивно изучать пустые пространства между генами, предполагая, что инструкция к геному может быть записана именно там.
За пять лет они смогли перелопатить около 80% этой пустыни и нанесли на карту найденные в «мусоре» различные регуляторные участки. И чем тщательнее они исследовали ДНК, тем сложнее она оказывалась устроена — с каждым шагом вперед горы становились выше.
Д-р Уильям Нобл (William Noble) проводил компьютерный анализ данных для проекта ENCODE |
Транскрипционные факторы
Белки, контролирующие процесс синтеза РНК на матрице ДНК (транскрипцию) путем связывания со специфичными участками ДНК. Таким образом, они обеспечивают усиление или ослабление работы гена.
Геномная «темная материя»
Как генетики изучали ДНК, которая не делает белков? Во-первых, они убедились в том, что с некодирующих участков генома тоже образуется РНК. Основную роль в этой работе сыграла группа лаборатории КолдСпринг-Харбор, которой руководит профессор Томас Джинджерас (Thomas Gingeras).
Именно эта команда ученых доказала, что три четверти человеческой ДНК образует РНК, хотя большая часть этой РНК и не несет информации для синтеза белков клетки. Д-ру Джинджерасу и его коллегам удалось описать тысячи неизвестных ранее РНК, которые обеспечивают генную регуляцию.
Во-вторых, они пометили ДНК особым ферментом (DNaseI), который прикрепляется к определенным местам молекулы. Это и оказались регуляторные участки, которые связываются с белками — транскрипционными факторами — и через них влияют на работу генов. Одни из них расположены непосредственно рядом с генами, другие — совсем далеко от них. Доктор биологических наук Юрий Лебедев, заведующий лабораторией сравнительной функциональной геномики Института биоорганической химии им. Шемякина и Овчинникова РАН, объясняет, что задачу проекта ENCODE можно представить как «разбиение непрерывного ряда букв последовательности нуклеотидов ДНК на отдельные слова и осмысленные предложения». Для ее решения исследователи использовали не «виртуальные» биоинформатические, а прямые экспериментальные методы, например разного рода биологические чипы. «Чип можно представить как своеобразную “щетку”, каждая “ворсинка” которой представляет собой короткий кусочек ДНК с точно известным положением в геноме», — поясняет ученый. Этим методом идентифицируют положение участков ДНК, которые связываются с транскрипционным фактором. При нанесении раствора-зонда на чип на некоторых ворсинках возникает флуоресцентный сигнал.
«Если для приготовления зонда взять ДНК из разных типов клеток, можно увидеть разницу в наборе флуоресцентных сигналов, — продолжает Лебедев. — Например, в ДНК из лейкоцитов данный белок будет связываться с одними участками, а в ДНК из клеток печени или мозга спектр этих участков будет другим. Подобным же образом определяют профили метилирования геномной ДНК — одного из вездесущих клеточных механизмов, регулирующих активность генов. Чтобы найти метилированные участки ДНК, используют группу специальных метил-связывающих белков. Так получается подробная функциональная карта генома для разных типов клеток».
Процессор микроэлектромеханической системы (MEMS) называют «лабораторией на чипе». Обещает стать мощным диагностическим аппаратом, быстро определяющим массу разных заболеваний |
Метилирование ДНК
Химическая модификация молекулы ДНК без изменения состава нуклеотидной последовательности. Выражается в присоединении метильной группы (СН3--) к цитозину. От степени метилирования зависит уровень экспрессии гена. Это один из механизмов регуляции работы генов.
Дирижеры генного оркестра
Итак, на 25 тыс. генов в ДНК обнаружилось около 4 млн регуляторных участков. Каждый ген взаимодействует со множеством регуляторов. «Большинство людей представляют геном линейно — 3 млрд нуклеотидов, вытянутых в линию, — говорит Марк Герштейн (Mark Gerstein), профессор биоинформатики на отделении молекулярной биофизики и биохимии Йельского университета (США). — Но геном — трехмерный объект». По его словам, «мы будто открыли коммутационный отсек и увидели спутанный клубок проводов. И теперь пытаемся распутать этот клубок и разобраться, куда ведут провода». В статье в Nature Марк Герштейн и его коллеги пишут про сложную пространственную сеть, в которую объединены транскрипционные факторы, которые регулируют работу генов на разных уровнях: среди них есть топ-регуляторы, регуляторы среднего и низшего звена.
Ученые имели дело с большим разнообразием клеток — всего они изучили 147 типов клеток, взятых из многих тканей на разных стадиях их развития. Оказалось, что команда регуляторов, которые дирижируют генным оркестром, меняется с типом клетки и со временем. Для разных клеток исследователи создали карты активных регуляторных участков. В этом ключ к пониманию того, что клетки развиваются и проходят дифференцировку от стволовых к специализированным, и нервные клетки в итоге не похожи на мышечные. «Полученные карты генома разных клеток можно сравнить с картами, которые нам дает Google Maps, — объясняет Эрик Лэндер (Eric Lander), президент Broad Institute (объединенный институт, в состав которого входят Массачусетский технологический институт, Гарвардский университет и институт Уайтхеда). — По сравнению с ними результаты предшествующего проекта “Геном человека” давали нам взгляд на Землю из космоса. По этим снимкам невозможно определить, где проходят трассы, каков на них трафик в данное время дня, они не укажут вам на лучшие рестораны в округе или на больницы в этом городе на берегу реки». Теперь же, продолжаем сравнение, по геному стало возможно «ездить с навигатором».
Робот Staubli и оборудование Центра химической геномики в Национальном институте исследований генома человека США |
Дифференцировка
Процесс специализации клетки — развития от стадии стволовой клетки до специализированной клетки какой-либо ткани.
Однонуклеотидный полиморфизм (SNP)
Точечные мутации — замена одного нуклеотида на другой. Один из наиболее распространенных вариантов генетического разнообразия.
Болезни — чаще поломка не генов, а регуляторов
В последнее десятилетие ученые активно исследуют генетическую природу различных заболеваний. Этому помогает широкогеномное генотипирование — GWAS (genome wide association study). В группе больных и в группе здоровых людей сравнивают генетическую вариабельность, или однонуклеотидный полиморфизм (SNP), — точечные мутации, выражающиеся в замене одного нуклеотида другим. Таким образом выявляют ассоциации мутаций с болезнью. Иногда удается связать болезнь с определенными генами.
Трудность состоит в том, что только 15% этих вредных мутаций приходится на гены, и тогда можно понять, что именно ломается в организме. А 85% мутаций попадает вовсе не на гены, а на ту самую межгенную «темную материю», о которой ученые до недавнего времени практически ничего не знали. «Большинство изменений, которые связаны с болезнями, лежат не в самих генах, а в переключателях», — объясняет Майкл Снайдер (Michael Snyder), исследователь-микробиолог из Стэнфордского университета (США). Поэтому работы по расшифровке генома пока дают очень малый эффект для диагностики и лечения.
«Многие исследователи находили участки человеческого генома, мутации в которых вызывают определенные болезни, — объясняет Джоб Дэккер (Job Dekker), профессор отделения биохимии и молекулярной фармакологии Медицинской школы Массачусетского университета (США). — Во многих случаях, как удалось понять, эти участки совсем не содержат генов, и тогда объяснить причину патологии трудно. Данные ENCODE показывают, что многие из этих мутаций затрагивают регуляторные элементы генов, и в некоторых случаях мы можем найти, какие гены регулируются этими элементами. Таким образом, мы можем значительно лучше понять генетические основы болезни».
Разбираясь в том, какие регуляторы ломаются и работу каких генов они нарушают, генетикам удалось обнаружить неожиданные связи между, казалось бы, весьма далекими по природе заболеваниями, пишут авторы статьи в Nature. Например, одна мутация в регуляторном участке изменяет работу нескольких генов, что может в конечном итоге привести к рассеянному склерозу, волчанке, ревматоидному артриту, болезни Крона, глютеновой болезни.
В лаборатории Центра секвенирования (Intramural Sequencing Center) Национального института здоровья США |
«Самый главный выход проекта — в предоставлении громадного массива данных для сравнительного анализа функциональных карт, — считает Юрий Лебедев. — Проведение такого анализа крайне важно для развития медицины, поскольку его результаты могут ответить на вопрос, что изменится в геноме больных клеток по сравнению с геномом здоровых. Если мы возьмем, скажем, ДНК из клеток двух типов, например клеток раковой опухоли легкого и неповрежденных клеток легкого (поверхностный эпителий альвеол), у них можно сравнить профиль метилирования или связь с транскрипционными факторами, и профили будут разными. Если этот результат получен не на одном пациенте, а на многих, он может стать диагностическим признаком».
Таким образом уже удалось найти мутации, которые связаны с развитием рака, — подавляющее число мутаций в раковых клетках появляются опять-таки не в генах, а в зоне «темной материи». Об этом говорит д-р Марк Рубин (Mark Rubin), специалист по генетике рака простаты из Медицинского колледжа Вейл Корнелл в Нью-Йорке. Его группа обнаружила мутации в ключевых генах, связанные с раком простаты, которые, однако, было невозможно компенсировать лекарствами. Теперь ясно, какие участки «темной материи» нарушают работу этих генов, — появились новые мишени для лекарственной терапии.
Марк Герштейн считает, что результаты проекта ENCODE найдут когда-нибудь применение в области персональной геномики: «В будущем каждый человек будет располагать собственным секвенированным геномом и сможет использовать эту информацию для получения персональной медицинской помощи. Индивидуальные генетические карты будут применяться для оценки индивидуального риска развития тех или иных болезней и для разработки индивидуальной схемы лечения».