Ассоциация государственных научных центров "НАУКА"

125009, г. Москва, ул. Тверская, д. 11

тел: +7 (925) 606-23-77, agnc@mail.ru

меню бургер

Генетика в "цифре"

Темпы цифровизации генетической информации в мире опережают рост глобальной сферы данных. Такие данные приводятся в статье ученых НИЦ "Курчатовский институт", оценивающей мировые тенденции в данной области.

Работа опубликована в международном научном журнале Nanobiotechnology Reports.

В мире существуют и регулярно обновляются несколько крупных баз данных генетической информации, и скорость их роста сейчас составляет от 22 до 41% в год. Для сравнения: по прогнозу, годовой рост всех оцифрованных данных в мире составит на промежутке между 2020 и 2025 годами только 23%.

Ученые отмечают, что сегодня получение и оцифровка генетической информации уже стали отработанным технологическим процессом. Более сложные задачи возникают на следующем этапе: рост объема данных опережает развитие средств их анализа и принятия решений на этой основе. 

"Анализ данных включает в себя несколько этапов, различных по трудоемкости. Нужно учитывать и процессорное время, а также время, затраченное на выполнение работы специалистами и интерпретацию получаемых результатов, — рассказывает Алексей Корженков, научный сотрудник лаборатории "Геномная фабрика" Курчатовского геномного центра. — Конечно, мощность вычислительных устройств постоянно растет. Однако основную долю ресурсов сейчас дают графические ускорители, а не центральный процессор. А генетические данные имеют свою специфику, и далеко не для всех задач есть эффективные алгоритмы и программное обеспечение, позволяющее эксплуатировать графические ускорители. Полностью автоматическая обработка и отсутствие тщательного контроля могут приводить к накоплению ошибок в тех публичных базах данных, где материал не проходит ручную проверку. В итоге приходится балансировать между качеством и количеством обработанной информации".

Помочь в обработке генетической информации могут искусственный интеллект и методы машинного обучения. Ученые Курчатовского геномного центра выделяют несколько направлений, где это возможно: получение трехмерных структур биологических молекул и предсказание их взаимодействий с различными веществами, задачи классификации биологических и биомедицинских данных, предсказание экспрессии генов и некоторые другие задачи. Однако роль искусственного интеллекта не стоит переоценивать.

"Это мощная технология, но на текущем уровне ИИ зачастую работает по принципу “черного ящика”, выдавая результат и не объясняя закономерностей. А наша задача — понять законы, по которым работают биологические системы. Сегодня уже есть огромное количество задач, где классические алгоритмы позволяют быстро и эффективно обрабатывать данные", — поясняет Алексей Корженков. 

По словам ученых, сегодня приоритетом можно считать уже не сбор и накопление генетических данных, а развитие производительных и функциональных инструментов их обработки и подготовка для этого квалифицированных специалистов.

Есть и еще один важнейший аспект, который необходимо учитывать при работе с большими массивами генетических данных, — безопасность. Экспоненциальный рост объема генетической информации открывает огромные возможности для медицины, биотехнологий, сельского хозяйства, но в то же время создает новые угрозы.

"Генетические технологии, как ничто иное, максимально близки к ядерным технологиям по возможности своего двойного применения, — комментирует Зоригто Намсараев, начальник лаборатории синтетической биологии Курчатовского геномного центра. — Поэтому необходимо создавать механизмы государственного и межгосударственного контроля в этой области с широким привлечением и научного сообщества, и бизнеса. Нам еще предстоит найти баланс между необходимостью дальнейших научных исследований, соображениями безопасности, а также требованиями соблюдения конфиденциальности персональных данных и других правовых и этических норм".