Rosetta@home

Rosetta@Home Active WorkUnit(s) Log

Описание структур и методов моделирования белков

  UW Seal

                                                                        

Вместо предисловия.

Вряд ли кому-то интересно делать бесцельную работу. Однако в проектах распределенных вычислений часто случается, что из-за недостатка необходимой информации нам приходится верить организаторам проектов на слово: что-то считать, отправлять какие-то результаты (для большинства - бессмысленные наборы данных). С одной стороны это не очень приятно, с другой - всегда есть возможность услышать "обвинения" в том, что на самом деле считается что-то иное, может быть даже аморальное.

К счастью есть люди, которые пытаются докопаться до сути той проблемы, которой они увлечены. И есть возможность поделиться с общественностью, по крупицам собранной, информацией. Именно такую возможность Вы сейчас имеете, если Вам интересен проект Rosetta@Home.

Приведенный ниже материал собрал lusvladimir - наш постоянный автор, участник команды "Russia Team". Приведенная информация представляет собой как переводы со страниц проекта, так и собственные данные, собранные и сгруппированные за время участия в проекте.

[AlexA]


Описание белков, обрабатываемых в проекте.

На первоначальном этапе после запуска проекта "Rosetta@Home" в работу были запущены 11 белковых структур и была произведена, так сказать, "калибровка" энергетической функции Rosetta.  Ниже приведены коды этих белков:

1b72 1dcj 1di2 1dtj 1hz6 1mky 1n0u 1ogw 1r69 1tif 2reb

Возможно многие встречали эти обозначения в названии обсчитываемых заданий.

Затем, с января 2006 года, начато масштабное тестирование стратегии Rosetta@Home в разнообразном наборе из 62 белков, чьи кристаллические структуры хорошо известны. Эти белковые последовательности широко изучены в лабораториях доктора Бейкера в течение нескольких лет.

Полный перечень всех этих белковых структур с изображением и кратким описанием можно посмотреть в прилагаемой таблице (RAR-архив файла Protein.xls - 683 кБ). Структуру информации в этом файле можно проиллюстрировать на примере одного из последних белков, который просчитывается в настоящее время - 1tul:

# п/п Изображение Код протеина Описание
71

 

 

1tul

 

 

Telokin-like protein
Structure of tlp20
Tlp20. Chain: null
Autographa californica nuclear polyhedrosis virus, acmnpv. Baculovirus

 

Информация о всех белках извлечена из самой полезной базы данных PDBsum в Европейском институте биоинформатики.

 Изображение считаемого белка пользователи могут видеть структуру предсказываемого белка (на данном этапе расчетов она известна) в графическом экране приложения в окошке 'Native'. Причем варианты представления могут быть различными, в зависимости от уровня подробности характеристик представления структуры. В качестве иллюстрации используем тот же белок (прошу всех оценить красоту того, из чего мы все состоим):

 

Варианты визуального представления белка 1tul

Backbone

Molecular Surface

Sticks

Ball & stick

  • Backbone (можно перевести как 'суть') дает 'схематичное' представление белка (этот вид выбран разработчиками Rosetta@Home как основной вариант графического представления белка в программе, вероятно потому, что потребляет меньше всего графических ресурсов , в отличии от других видов).

  • Molecular Surface - молекулярное представление - наиболее полно отражает именно упаковку атомов в пространстве белковой структуры. Каждый атом наглядно представлен в виде сферы с радиусом Ван-дер-Ваальса. Но здесь не видны связи цепочек аминокислот.

  • Sticks - палки - дает представление именно о связях аминокислот в цепочке - здесь они четко видны (но не видны отдельные атомы.) Удобно смотреть белок именно как "цепь аминокислот".

  • Ball & stick - шарики и палки - такой же как и третий, но здесь в дополнении к связям видны еще и атомы.

Примечание: Кроме того, можно еще включить режим подписи каждой аминокислоты (которых всего известно 20), тогда все аминокислоты , которые есть на экране, становятся подписаны.


Перевод информации о структурах и методах исследования белков с форума проекта.

Надеемся, что эта информация будет добавляться.

Размещено 22 апреля 2006 г.

 Мы знаем, что некоторые WU, появляющиеся в вашем компьютере имеют «загадочные» имена -- все задания тестируются с интересными «научными хитростями», и мы хотели бы сообщать Вам что это!  Мы будем посылать информацию в этот форум о каждом типе WU, которую мы посылаем. Затем Вы услышите о результатах на нашей странице Top Prediction и  в журнале Дэвида Бейкера (David Bakers journal).

Вот описания некоторых WU, которые могут появится на ваших клиентских местах:

 

1.Тестируем «умную» стратегию

FARELAX_NOFILTERS_xxxx

FACONTACTS_RECENTER_NOFILTERS_xxxx

Есть ли лучший путь складывать белок, чем иметь 100000 клиентов, которые делают полностью независимые прогоны, ничего не говоря друг другу?

Эти WU тестируют новую стратегию, которая может быть более «умной».

Мы смотрим на распределение энергии полного атома первых 10000 моделей (это – первая группа WU). Для генерации второго круга из 10000 моделей мы затем регулируем начальные этапы поиска (используя функцию оценки минимального решения), на основании минимальной энергии в первом круге.

 

2. «Сложный» белок.

 В наших тестах есть один белок 1tul - с особенно сложным пространственным расположением цепочек аминокислот. (Такие белки называются telokin-подобными)

У него есть связи в очень отдаленных частях белковой цепи, - эти случаи  возникают редко в Rosetta. Мы пытаемся концентрировать ресурсы Rosetta@home, чтобы увидеть, сможем ли мы получить «правильный ответ», используя  при этом огромную дискретизацию: мы должны запустить около 10 миллионов моделей WU по сравнению с традиционными ~1000 WU.

 

PROD_ABINITIO_FAST_1tul_

PROD_ABINITIO_1tul_

 Эти рабочие места используют стандартный ab-initio протокол. Первый метод, в отличии от второго, использует лишь десятую часть от возможного общего количества пространственных перемещений - мы пытаемся увидеть, сможем ли мы уменьшить количество перемещений внутри одной модели, увеличивая взамен число моделей.

 

 PROD_ABINITIO_ALPHABETABAR_1tul_

 Здесь мы тестируем стратегию, разработанную Филом Бредли (Phil Bradley), где Rosetta избегает определенный «общих мотивов» при процессе моделирования  (так называемые бета-hairpins). Это нужно, чтобы изучить крайние части пространства, занимаемого белковой структурой.

 

PROD_ABINITIO_9FULLSTRANDBAR_1tul_

PROD_ABINITIO_9STRANDBAR_1tul_

PROD_ABINITIO_7STRANDBAR_1tul_

 Эти прогоны имеют различные "штрих-коды" (barcodes), которые определяют не-исконные белковые контакты, которые не должны быть сделаны в течение моделирования.

Вопрос: сколько нужно дать дополнительной информации (проще говоря, подсказки) Rosetta , чтобы найти исконную белковую конструкцию?

 

3. Более агрессивная дискретизация атома

 HBLR_1.0_xxxx_ROT_TRIALS_TRIE

 Конечный этап моделирования белка в Rosetta состоит из тонких перемещений, которые пытаются устанавливать белковые части структуры в атомную модель (этап "fullatom", часто кратко называемый FA). Эти моделирования используют самые последние энергетические условия, разработанные  Дэвидом Бэйкером ( "HBLR_1.0" имеет отношение к весу на водородном соединении), используя агрессивный протокол минимизации (ROTamer испытания); этот метод представляется эффективным с хорошим представлением графа в пределах RosettaTRIE»).

 

 4. Helical протеины из вирусов

VP_TEST_core_vp26_

VP_TEST_truncate_termini_vp26_

VP_TEST_vp26_

VP_TEST_truncate_termini_1qgtA

VP_TEST_1qgtA

 Мы всегда пытаемся найти новые пути соединения Rosetta с экспериментальными данными. Мы начинаем проект, чтобы использовать образы с низким разрешением сделанные крио-электронным микроскопом, чтобы ограничивать поиск Rosetta. Наши сотрудники в Wah Chiu's лаборатории изучают белки, которые формируют «virus coats» ("VP" - сокращение вирусных белков), и это - немного WU, чтобы начинать тестировать протокол. Вы увидите больше этих WU, после того, как мы проведем структурные испытания прогноза CASP.

 

 Размещено 27 апреля 2006 г.

 Мы начинаем серию новых WU. Как вы знаете, скоро состоится новый CASP.

CASP (Critical Assessment of Techniques for Protein Structure Prediction) - Критическая Оценка Методов для Белкового Структурного Прогноза – он проходит один раз в два года.

 По результатам тестов многих исследовательских групп, занимающихся прогнозированием белковых структур, некоторые экспериментальные кристаллические структуры удалось определить (иногда с большим усилием!). Результаты этих экспериментов, расчетов и сама структура белков останутся закрытыми до окончания экспериментов CASP7. Это будет настоящий «слепой» поиск.

 Как часть нашей подготовки, мы выполняем некоторые цели из предшествующих испытаний CASP6 (прошедший в 2004г.). Поищите WU с именами подобно следующему:

 AB_CASP6_t242_ AB_CASP6_t272_

 Нас возбуждает желание увидеть, какое преимущество даст огромная вычислительная мощность Rosetta@home  перед нашей методологией в 2004г. И мы делаем на это ставку!

 

 Размещено 30 апреля 2006 г.

 Я собираюсь посылать некоторые результаты на нашу страницу «Top Predictions», чтобы решать тот же трудный белок ("1tul_"), что я описал прежде.

Даже после того, как обработано значительно больше одного миллиона моделей, мы не совсем «закрыли» белковое пространство - даже если мы обманываем и отвергаем не-исконные спаривания цепочек! Это очень хорошо, что мы это знаем.

 Далее, мы пробуем новую идею, изобретенную Филом Брэдли (Phil Bradley) в нашей группе, под названием "прыжок". В этом методе, мы допускаем, что мы знаем две части белковой цепи - это может быть как догадка или это может быть, поскольку у нас есть внешний источник информации. Эти две части цепи соединяются вместе для целого моделирования. Чтобы допускать некоторую мобильность в цепи между контактными точками, мы вводим разрез в цепь. (Для всего моделирования, мы пытаемся не позволить этому разрезу расширятся слишком много, уменьшая оценку для больших цепочек.) Это позволит нам красивым эффективным путем искать низкие энергетические белковые устройства со сложной топологией.

 На основании вышеизложенного мы запускаем в производство два типа WU:

JUMPTEST_1tul_

JUMP_ALLBARCODEXX_1tul_

 Первый тип использует информацию о 7 известных способах спариваниях цепочек в 1tul_ - другими словами, это - подсказка. Во втором типе прогонов, есть исчерпывающий список всех возможных топологий спариваний цепочек (около 100000 для этого белка!), и каждый клиент выбирает одну топологию, чтобы тестировать ее в процессе моделирования. Итак, некоторые клиенты исследует топологию, которая выглядит похожим на "сэндвич", другие попытаются делать это с топологией "бочка", и так далее. Благодаря Rosetta@home, мы можем впервые исчерпывающе исследовать все образы этих топологий!

 

 Размещено 02 мая 2006 г.

 Я посылаю некоторые WU с именами:

 HOMO_xxxx_h0xx_1_LOOPRLX_

 Вы все хорошо были информированы о ab-initio методе, который используется, чтобы предсказывать белок из своей аминокислотной последовательности. Я работаю над  другой категорией проблемы предсказания белковых структур, а именно: метод "сравнительного моделирования". Вот как работает этот метод: когда мы хотим предсказать структуру белка, мы обычно сначала делаем поиск по базе данных по всем доступным белковым структурам.

Но очень часто, что белок который мы хотим предсказать, имеет брата/сестру (называемый homologous белок) со своей структурой, решенной одним из точных, но трудоемких экспериментальных методов. Это хорошо известно для пар homologous белков, они имеют более или менее аналогичные формы.

 Эта важная информация может помочь нам в решении нашей целевой белковой структуры, поскольку теперь, мы можем опираться в начале нашего  поиска на  homologous-белок, и искать только часть структуры, которая  или была потеряна или, что более вероятно, отличается от homologous белковой структуры.

 Это так называемый coarse-grained поиск следует за точным поиском, в котором мы пытаемся располагать точные позиции сотен тысяч атомов белка (так называемый  этап «fullatom relax»  или сокращенно FA). Это - тот же FA в качестве второго метода поиска.

 На графическом экране приложения  Вы вероятно увидите, что WU начинается с компактной белковой структуры (это - homologous структура), затем некоторые части белка начнут перемещаться. После того, как они устроятся, целый белок начнет шевелиться с меньшими масштабными движениями.

 

 Размещено 13 мая 2006 г.

 Добавлены два новых WU к очереди:

CASP_HOMOLOG_ABRELAX_hom001_t287_

HOMOLOG_ABRELAX_hom0xx_t283_

 Эти оба WU - для CASP. t278 и t283 – последовательности, для которых мы пробуем метод "ab initio", означающий, что эти белки не основаны на существующих структурах.

Тем не менее, мы используем homologs-последовательности (других белков с аналогичными аминокислотными последовательностями), чтобы помогать нам в нашем прогнозе!

 Вот как это происходит:

 Мы берем целевую последовательность (данную CASP) и делаем наилучший возможный прогноз, который мы можем сделать. Затем мы находим homologs-последовательность в базе данных и делаем наилучший возможный прогноз, который мы можем сделать также и для них .

Основа этого метода, - то, что последовательности, которые имеют высокую похожесть, могут предположительно иметь ту же структуру, так что если мы находим хороший прогноз среди любого из homologs-белка, то мы находим структуру для нашей целевой последовательности!

 Эти WU рассчитываются для всех homologs-белков, независимо друг от друга, мы пытаемся находить наилучшую структуру для каждого. Следующий шаг - отображаем (map) нашу целевую последовательность на все эти структуры, перестраиваем промежутки, где две последовательности могут иметь другие размеры, и затем делаем подстройку белковых цепочек, которые отличаются.

Это и даст наш конечный прогноз.

 

 


  Материал подготовил lusvladimir, верстка - AlexA

 

Назад на главную страницу BOINC.RU 

 Обсудить статью