Данные внутри нас: Чем занимаются биоинформатики?

Рассказываем про людей будущего, которые расшифровывают органическую биг-дату. За последние два десятилетия количество биологических данных, которые можно проанализировать, выросло во много раз благодаря тому, что был расшифрован геном человека. До этого мы и представить не могли, что по информации, хранящейся буквально у нас в крови, можно будет определить наше происхождение, проверить, как организм будет реагировать на определенные лекарства, и даже изменить свою биологическую наследственность. Вот как это делается:

Атрибуты среднестатистического биоинформатика такие же, как у программиста — красные глаза, сутулая осанка и следы от кофейных чашек на рабочем столе. Однако за этим столом идет работа не над абстрактными алгоритмами и командами, а над кодом самой природы, который может многое рассказать нам о нас и мире вокруг.

Специалисты в этой области имеют дело с огромными объемами данных (к примеру, результаты секвенирования генома одного человека занимают около 100 гигабайт).  Поэтому обработка такого массива информации требует подходов и инструментов Data Science. Логично, что успешный биоинформатик должен разбираться не только в биологии и химии, но и в методах анализа данных, статистике и математике — это делает его профессию достаточно редкой и востребованной. Такие специалисты особо нужны в областях инновационной медицины и разработке лекарств. Технологический гиганты вроде IBM и Intel открывают свои программы, посвященные изучению биоинформатики.

Что нужно, чтобы стать биоинформатиком?

— биология и химия (университетский уровень);

— матстат, линейная алгебра, теория вероятностей;

— языки программирования (Python и R, часто также используют C++);

— для структурной биоинформатики: понимание математического анализа и теории дифференциальных уравнений.

Войти в область биоинформатики можно как с биологической базой, так и со знанием программирования и математики. Для первых подойдет работа с готовыми биоинформатическими программы, для вторых — более алгоритмический профиль специальности.

Чем занимаются биоинформатики?

Современная биоинформатика делится на два основных ответвления — структурная биоинформатика и биоинформатика последовательностей. В первом случае мы видим человека, который сидит перед компьютером и запускает программы, помогающие изучать биологические объекты (например, ДНК или белки) в 3D-визуализациях. Они строят компьютерные модели, позволяющие предсказать, как молекула лекарства будет взаимодействовать с белком, как выглядит пространственная структура белка в клетке, какими свойствами молекулы объясняются ее взаимодействия с клеточными структурами и т. д. 

Методы структурной биоинформатики активно используются как в академической науке, так и в индустрии: сложно представить фармкомпанию, которая обходится без таких специалистов. За последние годы компьютерные методы позволили в разы упростить процесс поиска потенциальных лекарств, что сделало фармацевтическую разработку гораздо более быстрым и дешевым процессом.

РНК-зависимая РНК-полимераза SARS-CoV-2 (слева), а также её связь с  дуплексом РНК. Источник.

Что такое геном?

Геном это вся информация о строении наследственности организма. Практически у всех живых существ носителем генома является ДНК, но есть организмы, передающие свою наследственную информацию в виде РНК. Геном передается от родителей к детям, и в ходе этого процесса передачи могут возникать ошибки — мутации.


Взаимодействие лекарства ремдесивира с РНК-зависимой РНК-полимеразой вируса  SARS-CoV-2. Источник.

Биоинформатика последовательностей работает с более высоким уровнем организации живой материи — начиная с отдельных нуклеотидов, ДНК и генов, и заканчивая целыми геномами и их сравнениями друг с другом. 

Представьте себе человека, который видит перед собой набор букв алфавита (но не простого, а генетического или аминокислотного) и ищет в них закономерности, объясняя и подтверждая их статистически, с использованием компьютерных методов. Биоинформатика последовательностей объясняет, с какой мутацией связано то или иное заболевание или почему в крови пациента накапливаются вредоносные вещества. Помимо медицинских данных, биоинформатики последовательностей изучают закономерности распространения организмов по земле, популяционные различия между группами животных, роли и функции конкретных генов. Благодаря этой науке можно проверять эффективность лекарств и изучать биологические механизмы, которые объясняют их действие. 

Например, благодаря биоинформатическому анализу были найдены и описаны мутации, приводящие к развитию муковисцидоза — моногенного заболевания, вызванного поломкой гена одного из хлорных каналов. А еще теперь мы гораздо лучше знаем, кто приходится ближайшим биологическим родственником человеку и как наши предки расселялись по планете. Более того, каждый человек, прочитав свой геном, может узнать, откуда происходит его род и к какой этнической группе он принадлежит. Множество зарубежных (23andme, MyHeritage) и российских (Genotek, Atlas) сервисов позволяют получить эту услугу за сравнительно небольшую цену (порядка 20 тыс. рублей).

Результаты анализа ДНК-теста на происхождение и популяционную принадлежность от компании MyHeritage.

Результаты анализа ДНК-теста на популяционную принадлежность от компании 23andMe.

Как читают геном?

Сегодня секвенирование генома — рутинная процедура, которая обойдется любому желающему примерно в 150 тыс. рублей (в том числе, в России). Чтобы прочитать свой геном, достаточно просто сдать в специальной лаборатории кровь из вены: через две недели вы получите готовый результат с детальным описанием ваших генетических особенностей. Помимо своего генома можно проанализировать геномы микробиоты кишечника: вы узнаете особенности бактерий, населяющих вашу пищеварительную систему, а также получите консультацию от профессионального диетолога.  

Геном можно прочитать разными методами, одним из основных сейчас является так называемое «секвенирование нового поколения». Для проведения этой процедуры нужно сначала получить биологические образцы. В каждой клетке организма геном одинаковый, поэтому чаще всего для чтения генома берут кровь (это проще всего). После этого клетки разрушают и отделяют ДНК от всего остального. Затем, полученную ДНК дробят на множество маленьких кусочков и «пришивают» к каждому из них специальные адаптеры — искусственно синтезированные известные последовательности нуклеотидов. Потом цепочки ДНК разделяют, и однонитевые цепочки с помощью адаптеров присоединяют к специальной плашке, на которой проводится секвенирование. В ходе секвенирования к последовательности ДНК присоединяются комплементарные флуоресцентно меченые нуклеотиды. Каждый меченый нуклеотид при присоединении испускает пучок света определенной длины волны, что фиксируется на компьютере. Так компьютер прочитывает короткие последовательности исходной ДНК, которые потом с помощью специальных алгоритмов собираются в исходный геном. 


Пример данных, с которыми работают биоинформатики последовательностей: выравнивание аминокислотных последовательностей. 

Где работают и сколько получают биоинформатики?

Путь биоинформатика традиционно делится на две основные области — индустрия и наука. Карьера ученого-биоинформатика обычно начинается с аспирантской должности в одном из крупных институтов. Изначально биоинформатики получают базовую ставку, зависящую от их института, количества грантов, в которых они принимают участие, а также их количества аффиляций — мест, в которых они официально трудоустроены. Со временем количество грантов и аффиляций растет, и где-то через пару лет работы в академической среде биоинформатик без проблем получает среднюю зарплату (70-80 тыс. рублей), однако многое зависит от усердия и трудолюбия. Наиболее опытные биоинформатики в конечном итоге заводят собственные лаборатории в сферах своей специализации.

Где учатся на биоинформатика?

МГУ — факультет биоинженерии и биоинформатики

ВШЭ — Анализ данных в биологии и медицине (магистерская программа)

МФТИ — кафедра биоинформатики

Институт биоинформатики (НКО)

В отличие от академии, в индустрии никто не будет тратить свое время на обучение сотрудника необходимым навыкам, поэтому и попасть туда обычно сложнее. Карьерный путь биоинформатика в индустрии очень варьируется в зависимости от его специализации и места работы. В среднем, заработная плата в этой области колеблется от 70 тыс. до 150 тыс. рублей, в зависимости от опыта и специализации. 

Известные биоинформатики

Историю биоинформатики следует вести от Фредерика Сэнгера, английского ученого, получившего в 1980 году Нобелевскую премию по химии за открытие способа прочтения последовательности ДНК. С тех пор, с каждым годом методы чтения последовательностей совершенствуются, однако метод «секвенирования по Сэнгеру» послужил основой для всех дальнейших исследований в этой области.

Кстати, многие программы, созданные именно российскими учеными, сегодня широко используются во всем мире — например, геномный сборщик SPAdes, — St. Petersburg genome assembler, созданный в Санкт-Петербургском институте, помогает ученым со всего мира собирать короткие последовательности ДНК в большие последовательности, чтобы восстановить исходные геномы организмов.

Открытия и достижения биоинформатики

В наше время биоинформатики совершают множество полезных открытий. Невозможно было бы представить разработку лекарств от коронавируса без расшифровки его генома и сложного биоинформатического анализа процессов, происходящих в ходе заболевания. Международная группа ученых с помощью методов сравнительной геномики и машинного обучения смогла понять, что общего у коронавирусов с другими патогенами.

Оказалось, что одна из таких особенностей — происходящее в ходе эволюции усиление сигналов ядерной локализации (NLS) патогенных вирусов. Это исследование может помочь в изучении штаммов вирусов, которые могут быть потенциально опасными для человека в будущем, и, возможно, начать превентивную разработку лекарственных препаратов. 

Помимо этого, биоинформатики сыграли ключевую роль в разработке новых методов редактирования генома, в частности, CRISPR/Cas9 системы (технология, базирующаяся на иммунной системе бактерий). Благодаря биоинформатическому анализу структуры данных белков и их эволюционного развития, точность и эффективность этой системы за последние годы выросла в разы, что позволило целенаправленно редактировать геномы многих организмов (в том числе человека).

Текст: Руслан Гумеров

Иллюстрации: Надежда Степанова

Поделиться:
Опубликовано в рубрике UncategorizedTagged , , , ,

SkillFactory.Рассылка