|
Вместо предисловия.
Вряд ли кому-то интересно делать бесцельную работу. Однако в
проектах распределенных вычислений часто случается, что
из-за недостатка необходимой информации нам приходится верить
организаторам проектов на слово: что-то считать, отправлять
какие-то результаты (для большинства - бессмысленные наборы
данных). С одной стороны это не очень приятно, с другой - всегда
есть возможность услышать "обвинения" в том, что на самом деле
считается что-то иное, может быть даже аморальное.
К счастью есть люди, которые пытаются докопаться до сути той
проблемы, которой они увлечены. И есть возможность поделиться с
общественностью, по крупицам собранной, информацией. Именно
такую возможность Вы сейчас имеете, если Вам интересен проект
Rosetta@Home.
Приведенный ниже материал собрал
lusvladimir - наш постоянный
автор, участник команды
"Russia Team". Приведенная
информация представляет собой как переводы со страниц проекта,
так и собственные данные, собранные и сгруппированные за время
участия в проекте.
[AlexA]
Описание белков, обрабатываемых в проекте.
На первоначальном этапе после запуска проекта "Rosetta@Home"
в работу были запущены 11 белковых структур и была произведена,
так сказать, "калибровка" энергетической функции Rosetta.
Ниже приведены коды этих белков:
|
1b72 |
1dcj |
1di2 |
1dtj |
1hz6 |
1mky |
1n0u |
1ogw |
1r69 |
1tif |
2reb |
Возможно многие встречали эти обозначения в названии
обсчитываемых заданий.
Затем, с января 2006 года, начато масштабное тестирование
стратегии
Rosetta@Home в разнообразном наборе из 62 белков, чьи
кристаллические структуры хорошо известны. Эти белковые
последовательности широко изучены в лабораториях доктора Бейкера
в течение нескольких лет.
Полный перечень всех этих белковых структур с изображением и
кратким описанием можно посмотреть в прилагаемой таблице (RAR-архив
файла Protein.xls - 683 кБ).
Структуру информации в этом файле можно проиллюстрировать на
примере одного из последних белков, который просчитывается в
настоящее время - 1tul:
|
# п/п |
Изображение |
Код протеина |
Описание |
|
71
|
 |
1tul
|
Telokin-like protein
Structure of tlp20
Tlp20. Chain: null
Autographa californica nuclear polyhedrosis virus,
acmnpv. Baculovirus |
Информация о всех белках извлечена из самой полезной базы данных
PDBsum в Европейском
институте биоинформатики.
Изображение
считаемого белка пользователи могут видеть структуру
предсказываемого белка (на данном этапе расчетов она известна) в
графическом экране приложения в окошке 'Native'.
Причем варианты представления могут быть различными, в
зависимости от уровня подробности характеристик представления
структуры. В качестве иллюстрации используем тот же белок (прошу
всех оценить красоту того, из чего мы все состоим):
|
Варианты визуального представления белка
1tul |
|
Backbone |
Molecular Surface |
Sticks |
Ball & stick |
 |
 |
 |
 |
|
-
Backbone (можно перевести как
'суть') дает 'схематичное' представление белка (этот
вид выбран разработчиками
Rosetta@Home как основной вариант графического
представления белка в программе, вероятно потому, что
потребляет меньше всего графических ресурсов , в отличии от
других видов).
-
Molecular Surface -
молекулярное представление - наиболее полно отражает
именно упаковку атомов в пространстве белковой структуры.
Каждый атом наглядно представлен в виде сферы с радиусом
Ван-дер-Ваальса. Но здесь не видны связи цепочек
аминокислот.
-
Sticks - палки - дает
представление именно о связях аминокислот в цепочке - здесь
они четко видны (но не видны отдельные атомы.) Удобно
смотреть белок именно как "цепь аминокислот".
-
Ball & stick - шарики и палки
- такой же как и третий, но здесь в дополнении к связям
видны еще и атомы.
Примечание: Кроме того, можно еще включить режим
подписи каждой аминокислоты (которых всего известно 20), тогда
все аминокислоты , которые есть на экране, становятся подписаны.
Перевод информации о структурах и методах
исследования белков с форума проекта.
Надеемся, что эта информация будет
добавляться.
Размещено
22 апреля 2006 г.
Мы знаем,
что некоторые WU,
появляющиеся в вашем компьютере имеют «загадочные» имена -- все
задания тестируются с интересными «научными хитростями», и мы
хотели бы сообщать Вам что это! Мы будем посылать информацию в
этот форум о каждом типе
WU,
которую мы посылаем. Затем Вы услышите о результатах на нашей
странице
Top Prediction и
в журнале Дэвида Бейкера (David
Baker’s journal).
Вот описания некоторых
WU,
которые могут появится на ваших клиентских местах:
1.Тестируем «умную» стратегию
FARELAX_NOFILTERS_xxxx
FACONTACTS_RECENTER_NOFILTERS_xxxx
Есть ли лучший путь складывать белок,
чем иметь 100000 клиентов, которые делают полностью независимые
прогоны, ничего не говоря друг другу?
Эти
WU
тестируют новую стратегию, которая может быть более «умной».
Мы смотрим на распределение энергии
полного атома первых 10000 моделей (это – первая группа
WU).
Для генерации второго круга из 10000 моделей мы затем регулируем
начальные этапы поиска (используя функцию оценки минимального
решения), на основании минимальной энергии в первом круге.
2. «Сложный» белок.
В
наших тестах есть один белок 1tul - с особенно сложным
пространственным расположением цепочек аминокислот. (Такие белки
называются telokin-подобными)
У него есть связи в очень отдаленных
частях белковой цепи, - эти случаи возникают редко в Rosetta.
Мы пытаемся концентрировать ресурсы Rosetta@home, чтобы
увидеть, сможем ли мы получить «правильный ответ», используя
при этом огромную дискретизацию: мы должны запустить около 10
миллионов моделей WU по сравнению с
традиционными ~1000 WU.
PROD_ABINITIO_FAST_1tul_
PROD_ABINITIO_1tul_
Эти рабочие места используют
стандартный ab-initio протокол. Первый метод, в отличии
от второго, использует лишь десятую часть от возможного общего
количества пространственных перемещений - мы пытаемся увидеть,
сможем ли мы уменьшить количество перемещений внутри одной
модели, увеличивая
взамен число моделей.
PROD_ABINITIO_ALPHABETABAR_1tul_
Здесь мы тестируем стратегию,
разработанную Филом Бредли (Phil Bradley), где Rosetta избегает
определенный «общих мотивов» при процессе моделирования (так
называемые бета-hairpins).
Это нужно, чтобы изучить крайние части пространства, занимаемого
белковой структурой.
PROD_ABINITIO_9FULLSTRANDBAR_1tul_
PROD_ABINITIO_9STRANDBAR_1tul_
PROD_ABINITIO_7STRANDBAR_1tul_
Эти прогоны имеют различные "штрих-коды"
(barcodes),
которые определяют не-исконные белковые контакты, которые не
должны быть сделаны в течение моделирования.
Вопрос: сколько нужно дать
дополнительной информации (проще говоря, подсказки) Rosetta
, чтобы найти исконную белковую конструкцию?
3. Более агрессивная
дискретизация атома
HBLR_1.0_xxxx_ROT_TRIALS_TRIE
Конечный этап моделирования белка в
Rosetta состоит из тонких перемещений, которые пытаются
устанавливать белковые части структуры в атомную модель (этап "fullatom",
часто кратко называемый
FA).
Эти моделирования используют самые последние энергетические
условия, разработанные Дэвидом Бэйкером ( "HBLR_1.0" имеет
отношение к весу на водородном соединении), используя
агрессивный протокол минимизации (ROTamer
испытания); этот метод представляется эффективным с хорошим
представлением графа в пределах
Rosetta
(«TRIE»).
4. Helical протеины из вирусов
VP_TEST_core_vp26_
VP_TEST_truncate_termini_vp26_
VP_TEST_vp26_
VP_TEST_truncate_termini_1qgtA
VP_TEST_1qgtA
Мы всегда пытаемся найти новые пути
соединения Rosetta с экспериментальными данными. Мы
начинаем проект, чтобы использовать образы с низким разрешением
сделанные крио-электронным микроскопом, чтобы ограничивать поиск
Rosetta. Наши сотрудники в Wah Chiu's лаборатории изучают
белки, которые формируют «virus
coats»
("VP" - сокращение вирусных белков), и это - немного
WU,
чтобы начинать тестировать протокол. Вы увидите больше этих
WU,
после того, как мы проведем структурные испытания прогноза CASP.
Размещено
27 апреля 2006 г.
Мы начинаем серию новых
WU.
Как вы знаете, скоро состоится новый
CASP.
CASP
(Critical
Assessment
of
Techniques
for
Protein
Structure
Prediction)
- Критическая Оценка Методов для Белкового Структурного Прогноза
– он проходит один раз в два года.
По результатам тестов многих
исследовательских групп, занимающихся прогнозированием белковых
структур, некоторые экспериментальные кристаллические структуры
удалось определить (иногда с большим усилием!). Результаты этих
экспериментов, расчетов и сама структура белков останутся
закрытыми до окончания экспериментов CASP7. Это будет настоящий
«слепой» поиск.
Как часть нашей подготовки, мы
выполняем некоторые цели из предшествующих испытаний CASP6
(прошедший в 2004г.). Поищите
WU
с именами подобно следующему:
AB_CASP6_t242_
AB_CASP6_t272_
Нас возбуждает желание увидеть, какое
преимущество даст огромная вычислительная мощность Rosetta@home
перед нашей методологией в 2004г. И мы делаем на это ставку!
Размещено
30 апреля 2006 г.
Я собираюсь посылать некоторые
результаты на нашу страницу «Top
Predictions», чтобы решать
тот же трудный белок ("1tul_"), что
я описал прежде.
Даже после того, как обработано
значительно больше одного миллиона моделей, мы не совсем
«закрыли» белковое пространство - даже если мы обманываем и
отвергаем не-исконные спаривания цепочек! Это очень хорошо, что
мы это знаем.
Далее, мы пробуем новую идею,
изобретенную Филом Брэдли (Phil Bradley) в нашей группе, под
названием "прыжок". В этом методе, мы допускаем, что мы знаем
две части белковой цепи - это может быть как догадка или это
может быть, поскольку у нас есть внешний источник информации.
Эти две части цепи соединяются вместе для целого моделирования.
Чтобы допускать некоторую мобильность в цепи между контактными
точками, мы вводим разрез в цепь. (Для всего моделирования, мы
пытаемся не позволить этому разрезу расширятся слишком много,
уменьшая оценку для больших цепочек.) Это позволит нам красивым
эффективным путем искать низкие энергетические белковые
устройства со сложной топологией.
На основании вышеизложенного мы
запускаем в производство два типа
WU:
JUMPTEST_1tul_
JUMP_ALLBARCODEXX_1tul_
Первый тип
использует информацию о 7 известных способах спариваниях цепочек
в 1tul_ - другими словами, это - подсказка. Во втором
типе прогонов, есть исчерпывающий список всех возможных
топологий спариваний цепочек (около 100000 для этого белка!), и
каждый клиент выбирает одну топологию, чтобы тестировать ее в
процессе моделирования. Итак, некоторые клиенты исследует
топологию, которая выглядит похожим на "сэндвич", другие
попытаются делать это с топологией "бочка", и так далее.
Благодаря Rosetta@home, мы можем впервые исчерпывающе
исследовать все образы этих топологий!
Размещено
02 мая 2006 г.
Я посылаю некоторые WU с
именами:
HOMO_xxxx_h0xx_1_LOOPRLX_
Вы все
хорошо были информированы о ab-initio методе, который
используется, чтобы предсказывать белок из своей аминокислотной
последовательности. Я работаю над другой категорией проблемы
предсказания белковых структур, а именно: метод "сравнительного
моделирования". Вот как работает этот метод: когда мы хотим
предсказать структуру белка, мы обычно сначала делаем поиск по
базе данных по всем доступным белковым структурам.
Но очень часто, что белок который мы
хотим предсказать, имеет брата/сестру (называемый homologous
белок) со своей структурой, решенной одним из точных, но
трудоемких экспериментальных методов. Это хорошо известно для
пар homologous белков, они имеют более или менее аналогичные
формы.
Эта важная информация может помочь
нам в решении нашей целевой белковой структуры, поскольку
теперь, мы можем опираться в начале нашего поиска на
homologous-белок, и искать только часть структуры, которая или
была потеряна или, что более вероятно, отличается от homologous
белковой структуры.
Это так называемый coarse-grained
поиск следует за точным поиском, в котором мы пытаемся
располагать точные позиции сотен тысяч атомов белка (так
называемый этап «fullatom relax»
или сокращенно FA).
Это - тот же FA в качестве
второго метода поиска.
На графическом экране приложения Вы
вероятно увидите, что WU начинается с компактной белковой
структуры (это - homologous структура), затем некоторые части
белка начнут перемещаться. После того, как они устроятся, целый
белок начнет шевелиться с меньшими масштабными движениями.
Размещено 13 мая 2006
г.
Добавлены
два новых
WU к
очереди:
CASP_HOMOLOG_ABRELAX_hom001_t287_
HOMOLOG_ABRELAX_hom0xx_t283_
Эти оба
WU
- для
CASP.
t278
и
t283
– последовательности, для которых мы пробуем метод "ab initio",
означающий, что эти белки не основаны на существующих
структурах.
Тем не менее, мы используем
homologs-последовательности (других белков с аналогичными
аминокислотными последовательностями), чтобы помогать нам в
нашем прогнозе!
Вот как это происходит:
Мы берем целевую последовательность (данную CASP) и делаем
наилучший возможный прогноз, который мы можем сделать. Затем мы
находим homologs-последовательность в базе данных и делаем
наилучший возможный прогноз, который мы можем сделать также и
для них .
Основа этого метода, - то, что последовательности, которые имеют
высокую похожесть, могут предположительно иметь ту же структуру,
так что если мы находим хороший прогноз среди любого из
homologs-белка, то мы находим структуру для нашей целевой
последовательности!
Эти
WU
рассчитываются для всех homologs-белков, независимо друг от
друга, мы пытаемся находить наилучшую структуру для каждого.
Следующий шаг - отображаем (map)
нашу целевую последовательность на все эти структуры,
перестраиваем промежутки, где две последовательности могут иметь
другие размеры, и затем делаем подстройку белковых цепочек,
которые отличаются.
Это и даст наш конечный прогноз.
|