Сравнение биомедицинских проектов распределенных вычислений.

(Чем различаются проекты по исследованию белков?)

Электронная библиотека BOINC.RU                                                          Автор статьи - lusvladimir


В последнее время резко возросло количество проектов распределенных вычислений (РВ) в различных областях науки. В результате перед любителями РВ встает проблема выбора: какой проект считать?  И, если между физическими, медицинскими, математическими или климатологическими проектами выбор можно осуществить на основе своих научных предпочтений, то как быть тому, кого привлекает, например, биомедицина, ведь только основных проектов в этой области уже, по меньшей мере, пять. В надежде пролить немного "света" на данную проблему и описать чем похожи и чем различаются подобные проекты была написана эта статья. Надеемся, что она поможет Вам в выборе наиболее привлекательного проекта.


Все «биологические» проекты так или иначе посвящены «белковой» проблеме, поэтому перед тем как сравнивать проекты хотелось бы провести небольшой биологический "ликбез".

Одним из основных и наиболее загадочных свойств белков является присущая только им способность сворачивания.

Сворачивание белка - это процесс, в котором белковая структура принимает в пространстве свою функциональную форму. Все белковые молекулы представляют собой последовательность (цепь) аминокислот. Однако знание только этой последовательности мало говорит нам о том, что делает тот или иной белок и как он это делает. Чтобы выполнять свои функции (как например, ферменты или антитела в организме), они должны приобрести определенную форму.

Белки - это удивительные биологические машины: они собирают сами себя(!) перед тем как выполнять свою работу! Эта самосборка и называется "folding" или сворачивание. Каждый белок в организме уникален и существует для специальных целей, т.е. белки не являются взаимозаменяемыми. К чему приводит неправильное сворачивание белков? Возможно, что с нарушениями в сворачивании белков связаны такие заболевания как болезнь Альцгеймера, коровье бешенство, сибирская язва, многие формы рака и другие генетические и вирусные заболевания. Именно поэтому процесс изучения сворачивания белков так важен для современной науки. 

 


Описание "белковых" проектов и их целей:

 

 

 

 

В начале хочется сказать несколько слов о проекте, который построен не на платформе BOINC, но который также является «биологическим» проектом и очень популярен среди любителей распределенные вычисления.

 

Folding@Home - проект распределенных вычислений, который изучает сворачивание белков, неправильное сворачивание, объединение белковых структур  и связанные со всем  этим заболевания. Используются вычислительные методы и широкомасштабные распределенные вычисления для моделирования интервалов времени.

Впервые это позволило  моделировать сам процесс сворачивания, а также использовать этот подход для изучения заболеваний, связанных со сворачиванием белков.

Белки удивительны не только тем, что они самостоятельно сворачиваются, но и тем, насколько быстро они это делают: у некоторых белков этот процесс занимает миллионную долю секунды. В нашем понимании это очень быстро, однако компьютерам требуется очень много времени, чтобы смоделировать данный интервал времени.

Для решения данной проблемы используется метод распределенной молекулярной динамики. Фактически, в проекте моделируется во времени процесс свертки белка на основе информации об аминокислотах, входящих в его состав.

Результат моделирования сворачивания виллина


 

Далее рассмотрим два очень близких по целям и решаемым задачам проекта:

 

В ходе расчетов в этих проектах моделируется трехмерная структура белка из последовательностей аминокислот. Целью и того, и другого проекта является проверка и оценка новых алгоритмов и методов предсказания структуры белка, а также применение этих методов к реальным биологическим целям. Однако несмотря на то, что проекты решают одинаковую задачу, делают они это по-разному.

Чем же различаются проекты Predictor@Home и  Rosetta@Home:

 

Различие состоит в методах расчета структуры белка.

 

1-й метод: дискретного конформационного пространства (MFold – метод в проекте Predictor@Home)

 MFold  использует низкоуровневое представление белковой цепи, каждая аминокислота представлена как точка на 3-х мерной решетке, а различная возможная белковая геометрия - просто использует итеративные циклы перемещений по методу Монте-Карло. Эта цепь аминокислот («ряд точек в пространственной решетке») постепенно охлаждается от высокой температуры до температуры «физиологической», энергия цепи оценивается специальной интеллектуальной функцией.  При охлаждении и, соответственно, достижении низкой энергии, MFold генерируются белково-подобные структуры и преобразуются в «полноатомное» представление.

 2-й метод:  функция для оценки энергии (CHARMM - метод в проекте Predictor@Home, и группы методов в проекте Rosetta@Home)

В CHARMM низкие энергетические структуры, сгенерированные MFold обрабатываются с помощью методов, использующих молекулярную динамику. CHARMM использует также физические методы, которые подразумевают, что искомая модель определяется энергией взаимодействия между частицами.

В молекулярном динамическом моделировании, в проекте применяется закон Ньютона к  возможным белковым движениям, изменяющимся во времени.

CHARMM заканчивается отбором таких «низкоуровневых» цепочек  решений для более «высокоуровневых» цепочек, наподобие белковых структур, проще говоря происходит более точная оценка энергетической функции, чтобы выбирать наилучшие структуры, сгенерированные методом MFold.

Проект Rosetta@Home использует в своих расчетах то, что в пространстве белковая структура (связка аминокислот) стремится занять такое положение, чтобы энергия всей этой структуры была минимальна (метод термодинамического минимума).

Задача Rosetta@Home - посчитать наименьшую энергию белковой системы, если известны составляющие этой системы (аминокислоты) – при этой минимальной энергии это и будет искомый белок!

Итак, в MFold методе - дискретизация перемещений цепочек аминокислот основана во всей возможной геометрии.

В Rosetta@Home – движения цепочки в пространстве не моделируют полный возможный спектр перемещений, на данном этапе проекта используются варианты, которые согласуются с уже проведенными экспериментальными данными, а также используются фрагменты белков, уже содержащихся в базе данных прежде решенных экспериментальными методами структур. Соответственно, количество методов при вычислении энергетической функции – множество, и они постоянно изменяются и улучшаются.

 

Более полное описание методов, используемых при расчетах в проекте Rosetta@Home, вы можете посмотреть здесь.

 

Виды пространственной структуры белка Telokin-like в проекте Rosetta@Home


 

Проект SIMAP

SIMAP - база данных белкового сходства («похожести белков»). Она содержит сведения всех опубликованных к настоящему времени белковых последовательностях, база непрерывно корректируется и обновляется. Белковое сходство вычисляется, используя специальный алгоритм FASTA, который обеспечивает оптимальную скорость и чувствительность. SIMAP - единственный проект, который объединяет все известные белки.

Из-за огромного количества известных белковых последовательностей в общественных базах данных становится ясным, что большинство из них не будут экспериментально исследованы в ближайшем будущем. Тем не менее, белки, которые развились в процессе эволюции из общего предка (так называемые orthologs-белки), часто имеют те же функции.

Таким образом, представляется возможным найти функцию для неохарактеризованного белка из ortholog-белка с известной функцией.

Известным примером являются исследования о генах и белках мыши. Результаты этих исследований во многих случаях - применимы для ortholog - человеческих генов и белков.

Белковое сходство обеспечивается информацией об отношениях между белками и необходимо для прогноза orthologs. Есть множество методов биоинформатики, в которых используется белковое сходство. Наша белковая база данных сходства обеспечивает информацию о вычисленных данных сходства белковых структур и представляет собой все известное белковое пространство. Это открывает полностью новые перспективы по сравнению с обычно использующимися методами, где многократно пересчитываются такие типы данных. SIMAP постоянно обновляется.

Метод, использующийся для поиска белков, очень прост - матрица сходства просто осуществляет расширенный пошаговый перебор, если приходят новые известные последовательности.

 Вычислительные издержки, чтобы вычислять данные сходства зависят от квадрата количества содержащихся в базе  последовательностей. А так как число известных последовательностей постоянно возрастает, требуется все большая вычислительная мощность для хранения матрицы белков и осуществление полного последовательного перебора для сравнения со всеми известными белковыми структурами.

SIMAP, основываясь на  алгоритме FASTA, производит анализ существующих белковых баз данных, чтобы обнаруживать сходства  в белковых последовательностях (homologs).

Эти последовательности очень активно применяются в разных биологических проектах, таких например, как Folding@Home, Predictor@Home, Rosetta@Home, World Community Grid.

Таким образом SIMAP представляет собой не только самостоятельный научный проект для определения свойств и методов белковых структур, но и является очень важным инструментом помощи для других биологических проектов.


 

Проект World Community Grid (WCG)

В запущенном IBM проекте распределённых вычисления под названием World Community Grid планируется, как и в других проектах, задействовать неиспользуемые мощности компьютеров для решения сложных задач, требующих особо крупных объёмов вычислений. В данном случае речь идёт об исследованиях, связанных с генетикой человека, а также различными тяжёлыми заболеваниями: СПИДом, малярией, болезнью Альцгеймера, раком, и т.д.

Первым проектом WCG стал Human Proteome Folding Project - программа Института биологии организма по созданию каталога всех белков, наличествующих в человеческом организме, и изучению их функций. Планируется, что с помощью WCG будет рассчитываться процесс создания белков на основе информации, содержащейся в генах, а затем получившиеся образы будут сравниваться с трёхмерными изображениями уже известных белков, содержащимися в специализированной базе данных. С компьютерным методом моделирования Rosetta мы уже с вами ознакомились, поэтому пойдем дальше.

Второй задачей WCG стал занимающийся разработкой новых лекарств от СПИДа проект FightAIDS@Home. Ранее этот проект работал самостоятельно, но так и не снискал особой популярности, а также имел несколько заметных недочётов в клиентском программном обеспечении и оформлении сайта. Ради исправления существующих недостатков, повышения известности проекта, а также получения для научных сотрудников проекта возможности сосредоточиться на разработке исследовательской части ПО, проект в ноябре 2005 года был перенесён на уже, к тому времени, работающую и отлаженную платформу World Community Grid.

Поподробнее о научных методах в FightAIDS@Home:

Белки, как вы уже знаете, является строительным материалом для всех живых существ. Разнообразные формы белков принимают участие во всех процессах, происходящих в живых организмах. Белки являются длинными цепями меньших молекул - аминокислот.

Энзимы являются конкретными типами белков, которые ускоряют биохимические реакции.

Протеаза - энзим, который способен «вырезать» отдельный белок в некоторой точке  аминокислотной цепи. Например, когда Вы едите пищу, которая также содержит белок, белковые молекулы режутся на меньшие аминокислотные молекулы протеазой в вашем желудке.

Ваш организм может затем использовать получившиеся аминокислоты, чтобы формировать белки, которые ему нужны для продолжения жизнедеятельности. Стоит отметить также, что только небольшой процент из всех белков в организме является протеазами, поэтому эти белки очень важны в своем функционировании для обеспечения жизненных процессов.

 Ваш компьютер поможет нам имитировать процесс присоединения множества различных лиганд* к  HIV-протеазе  (HIV- Human Immunodeficiency Virus – вирус иммунодефицита человека), для этого используется компьютерная программы под названием AutoDock.

 *Лиганды - (от лат . ligo - связываю), в комплексных соединениях молекулы или ионы, связанные с центральным атомом (комплексообразователем), напр. в соединении [Co(NH3)6]Cl3 центральный атом - Со, а лиганды - молекулы NH3.

 Перспективные лиганды будут изучены более подробно учеными, и это должно привести нас к созданию лекарства для управления ВИЧ-инфекцией, и в конце концов, к предотвращению заболевания СПИДОМ.

 Естественно, моделирование таких процессов – сложная в вычислительном отношении задача из-за большого разнообразия белковых структур и выделению из них тех, которые могут эффективно повлиять на вирус, поэтому в данном проекте также используются методы распределенных вычислений.


 

Ну что же, мы с вами познакомились более подробно с несколькими «биологическими» проектами, которые  используют в своей работе различные научные методы, и объединены под флагом распределенных вычислений. Российская команда "Russia Team" надеется, что эта статья помогла Вам найти ответы на некоторые Ваши вопросы.

 

 

  Материал подготовил lusvladimir, верстка - AlexA

 

Назад на главную страницу BOINC.RU