Ассоциация государственных научных центров "НАУКА"
Ассоциация государственных научных центров "НАУКА"
Темпы цифровизации генетической информации в мире опережают рост глобальной сферы данных. Такие данные приводятся в статье ученых НИЦ "Курчатовский институт", оценивающей мировые тенденции в данной области.
Работа опубликована в международном научном журнале Nanobiotechnology Reports.
В мире существуют и регулярно обновляются несколько крупных баз данных генетической информации, и скорость их роста сейчас составляет от 22 до 41% в год. Для сравнения: по прогнозу, годовой рост всех оцифрованных данных в мире составит на промежутке между 2020 и 2025 годами только 23%.
Ученые отмечают, что сегодня получение и оцифровка генетической информации уже стали отработанным технологическим процессом. Более сложные задачи возникают на следующем этапе: рост объема данных опережает развитие средств их анализа и принятия решений на этой основе.
"Анализ данных включает в себя несколько этапов, различных по трудоемкости. Нужно учитывать и процессорное время, а также время, затраченное на выполнение работы специалистами и интерпретацию получаемых результатов, — рассказывает Алексей Корженков, научный сотрудник лаборатории "Геномная фабрика" Курчатовского геномного центра. — Конечно, мощность вычислительных устройств постоянно растет. Однако основную долю ресурсов сейчас дают графические ускорители, а не центральный процессор. А генетические данные имеют свою специфику, и далеко не для всех задач есть эффективные алгоритмы и программное обеспечение, позволяющее эксплуатировать графические ускорители. Полностью автоматическая обработка и отсутствие тщательного контроля могут приводить к накоплению ошибок в тех публичных базах данных, где материал не проходит ручную проверку. В итоге приходится балансировать между качеством и количеством обработанной информации".
Помочь в обработке генетической информации могут искусственный интеллект и методы машинного обучения. Ученые Курчатовского геномного центра выделяют несколько направлений, где это возможно: получение трехмерных структур биологических молекул и предсказание их взаимодействий с различными веществами, задачи классификации биологических и биомедицинских данных, предсказание экспрессии генов и некоторые другие задачи. Однако роль искусственного интеллекта не стоит переоценивать.
"Это мощная технология, но на текущем уровне ИИ зачастую работает по принципу “черного ящика”, выдавая результат и не объясняя закономерностей. А наша задача — понять законы, по которым работают биологические системы. Сегодня уже есть огромное количество задач, где классические алгоритмы позволяют быстро и эффективно обрабатывать данные", — поясняет Алексей Корженков.
По словам ученых, сегодня приоритетом можно считать уже не сбор и накопление генетических данных, а развитие производительных и функциональных инструментов их обработки и подготовка для этого квалифицированных специалистов.
Есть и еще один важнейший аспект, который необходимо учитывать при работе с большими массивами генетических данных, — безопасность. Экспоненциальный рост объема генетической информации открывает огромные возможности для медицины, биотехнологий, сельского хозяйства, но в то же время создает новые угрозы.
"Генетические технологии, как ничто иное, максимально близки к ядерным технологиям по возможности своего двойного применения, — комментирует Зоригто Намсараев, начальник лаборатории синтетической биологии Курчатовского геномного центра. — Поэтому необходимо создавать механизмы государственного и межгосударственного контроля в этой области с широким привлечением и научного сообщества, и бизнеса. Нам еще предстоит найти баланс между необходимостью дальнейших научных исследований, соображениями безопасности, а также требованиями соблюдения конфиденциальности персональных данных и других правовых и этических норм".