Standard

OrthoML2GO: предсказание функций белков по гомологии с использованием ортогрупп и алгоритмов машинного обучения. / Malyugin, E. V.; Afonnikov, D. A.

в: Vavilovskii Zhurnal Genetiki i Selektsii, Том 29, № 7, 22, 2025, стр. 1145-1154.

Результаты исследований: Научные публикации в периодических изданияхстатьяРецензирование

Harvard

APA

Vancouver

Author

BibTeX

@article{e1ab9fa6ddf34b73a98b9bffd751b329,
title = "OrthoML2GO: предсказание функций белков по гомологии с использованием ортогрупп и алгоритмов машинного обучения",
abstract = "В последние годы быстрый рост объемов данных секвенирования обострил проблему функциональной аннотации белковых последовательностей, поскольку традиционные методы, основанные на гомологии, сталкиваются с ограничениями при работе с отдаленными гомологами, что затрудняет наиболее точное определение функций белков. В нашей работе представлен метод предсказания функций белков OrthoML2GO, который интегрирует поиск гомологичных последовательностей с помощью алгоритма USEARCH, анализ ортогрупп на базе OrthoDB 12-й версии и алгоритм машинного обучения (градиентный бустинг). Ключевая особенность подхода заключается в использовании информации об ортогруппах для учета эволюционного и функционального сходства белков и применения машинного обучения для дальнейшего уточнения терминов Gene Ontology (GO) для анализируемой последовательности. Для выбора оптимального алгоритма аннотации белков были поэтапно применены следующие подходы: метод k ближайших соседей (KNN); метод на основе аннотации ортогруппы, наиболее представленной у k ближайших гомологов (OG); метод верификации выявленных на предыдущем этапе терминов GO с помощью алгоритмов машинного обучения. Проведено сравнение точности предсказания терминов GO методом OrthoML2GO с программами аннотации Blast2GO и PANNZER2 на выборках последовательностей как отдельных организмов (человек, арабидопсис), так и на комбинированной выборке последовательностей, представленных разными таксонами. Результаты показали, что предложенный метод не уступает, а по некоторым показателям превосходит их по качеству предсказания функций белков, особенно на больших и разнородных выборках организмов, а наибольший прирост точности достигается за счет комбинации информации о ближайших гомологах и ортогруппах в сочетании с верификацией терминов методами машинного обучения. Разработанный подход демонстрирует высокую эффективность для крупномасштабной автоматической аннотации белков. Перспективы дальнейшего развития включают оптимизацию параметров моделей машинного обучения под конкретные биологические задачи и интеграцию дополнительных источников структурно-функциональной информации, что позволит еще больше повысить точность и универсальность метода. Кроме того, внедрение новых инструментов биоинформатики и расширение базы данных аннотированных белков будут способствовать дальнейшему совершенствованию предложенного подхода.",
keywords = "ПРЕДСКАЗАНИЕ ФУНКЦИЙ БЕЛКА, ГЕННАЯ ОНТОЛОГИЯ, ГОМОЛОГИЯ, ОРТОГРУППА, МАШИННОЕ ОБУЧЕНИЕ, PROTEIN FUNCTION PREDICTION, GENE ONTOLOGY, HOMOLOGY, ORTHOGROUP, MACHINE LEARNING",
author = "Malyugin, {E. V.} and Afonnikov, {D. A.}",
note = "Малюгин Е.В., Афонников Д.А. OrthoML2GO: предсказание функций белков по гомологии с использованием ортогрупп и алгоритмов машинного обучения // Вавиловский журнал генетики и селекции. – 2025. – Т. 29. - № 7. – С. 1145-1154. – DOI 10.18699/vjgb-25-119. – EDN CWNNER. Исследование поддержано Курчатовским геномным центром ИЦиГ СО РАН, соглашение с Министерством образования и науки Российской Федерации № 075-15-2019-1662 и бюджетным проектом № FWNR-2022-0020. Исследование выполнено с использованием суперкомпьютерного комплекса ЦКП «Биоинформатика» ИЦиГ СО РАН.",
year = "2025",
doi = "10.18699/vjgb-25-119",
language = "русский",
volume = "29",
pages = "1145--1154",
journal = "Вавиловский журнал генетики и селекции",
issn = "2500-0462",
publisher = "Институт цитологии и генетики СО РАН",
number = "7",

}

RIS

TY - JOUR

T1 - OrthoML2GO: предсказание функций белков по гомологии с использованием ортогрупп и алгоритмов машинного обучения

AU - Malyugin, E. V.

AU - Afonnikov, D. A.

N1 - Малюгин Е.В., Афонников Д.А. OrthoML2GO: предсказание функций белков по гомологии с использованием ортогрупп и алгоритмов машинного обучения // Вавиловский журнал генетики и селекции. – 2025. – Т. 29. - № 7. – С. 1145-1154. – DOI 10.18699/vjgb-25-119. – EDN CWNNER. Исследование поддержано Курчатовским геномным центром ИЦиГ СО РАН, соглашение с Министерством образования и науки Российской Федерации № 075-15-2019-1662 и бюджетным проектом № FWNR-2022-0020. Исследование выполнено с использованием суперкомпьютерного комплекса ЦКП «Биоинформатика» ИЦиГ СО РАН.

PY - 2025

Y1 - 2025

N2 - В последние годы быстрый рост объемов данных секвенирования обострил проблему функциональной аннотации белковых последовательностей, поскольку традиционные методы, основанные на гомологии, сталкиваются с ограничениями при работе с отдаленными гомологами, что затрудняет наиболее точное определение функций белков. В нашей работе представлен метод предсказания функций белков OrthoML2GO, который интегрирует поиск гомологичных последовательностей с помощью алгоритма USEARCH, анализ ортогрупп на базе OrthoDB 12-й версии и алгоритм машинного обучения (градиентный бустинг). Ключевая особенность подхода заключается в использовании информации об ортогруппах для учета эволюционного и функционального сходства белков и применения машинного обучения для дальнейшего уточнения терминов Gene Ontology (GO) для анализируемой последовательности. Для выбора оптимального алгоритма аннотации белков были поэтапно применены следующие подходы: метод k ближайших соседей (KNN); метод на основе аннотации ортогруппы, наиболее представленной у k ближайших гомологов (OG); метод верификации выявленных на предыдущем этапе терминов GO с помощью алгоритмов машинного обучения. Проведено сравнение точности предсказания терминов GO методом OrthoML2GO с программами аннотации Blast2GO и PANNZER2 на выборках последовательностей как отдельных организмов (человек, арабидопсис), так и на комбинированной выборке последовательностей, представленных разными таксонами. Результаты показали, что предложенный метод не уступает, а по некоторым показателям превосходит их по качеству предсказания функций белков, особенно на больших и разнородных выборках организмов, а наибольший прирост точности достигается за счет комбинации информации о ближайших гомологах и ортогруппах в сочетании с верификацией терминов методами машинного обучения. Разработанный подход демонстрирует высокую эффективность для крупномасштабной автоматической аннотации белков. Перспективы дальнейшего развития включают оптимизацию параметров моделей машинного обучения под конкретные биологические задачи и интеграцию дополнительных источников структурно-функциональной информации, что позволит еще больше повысить точность и универсальность метода. Кроме того, внедрение новых инструментов биоинформатики и расширение базы данных аннотированных белков будут способствовать дальнейшему совершенствованию предложенного подхода.

AB - В последние годы быстрый рост объемов данных секвенирования обострил проблему функциональной аннотации белковых последовательностей, поскольку традиционные методы, основанные на гомологии, сталкиваются с ограничениями при работе с отдаленными гомологами, что затрудняет наиболее точное определение функций белков. В нашей работе представлен метод предсказания функций белков OrthoML2GO, который интегрирует поиск гомологичных последовательностей с помощью алгоритма USEARCH, анализ ортогрупп на базе OrthoDB 12-й версии и алгоритм машинного обучения (градиентный бустинг). Ключевая особенность подхода заключается в использовании информации об ортогруппах для учета эволюционного и функционального сходства белков и применения машинного обучения для дальнейшего уточнения терминов Gene Ontology (GO) для анализируемой последовательности. Для выбора оптимального алгоритма аннотации белков были поэтапно применены следующие подходы: метод k ближайших соседей (KNN); метод на основе аннотации ортогруппы, наиболее представленной у k ближайших гомологов (OG); метод верификации выявленных на предыдущем этапе терминов GO с помощью алгоритмов машинного обучения. Проведено сравнение точности предсказания терминов GO методом OrthoML2GO с программами аннотации Blast2GO и PANNZER2 на выборках последовательностей как отдельных организмов (человек, арабидопсис), так и на комбинированной выборке последовательностей, представленных разными таксонами. Результаты показали, что предложенный метод не уступает, а по некоторым показателям превосходит их по качеству предсказания функций белков, особенно на больших и разнородных выборках организмов, а наибольший прирост точности достигается за счет комбинации информации о ближайших гомологах и ортогруппах в сочетании с верификацией терминов методами машинного обучения. Разработанный подход демонстрирует высокую эффективность для крупномасштабной автоматической аннотации белков. Перспективы дальнейшего развития включают оптимизацию параметров моделей машинного обучения под конкретные биологические задачи и интеграцию дополнительных источников структурно-функциональной информации, что позволит еще больше повысить точность и универсальность метода. Кроме того, внедрение новых инструментов биоинформатики и расширение базы данных аннотированных белков будут способствовать дальнейшему совершенствованию предложенного подхода.

KW - ПРЕДСКАЗАНИЕ ФУНКЦИЙ БЕЛКА

KW - ГЕННАЯ ОНТОЛОГИЯ

KW - ГОМОЛОГИЯ

KW - ОРТОГРУППА

KW - МАШИННОЕ ОБУЧЕНИЕ

KW - PROTEIN FUNCTION PREDICTION

KW - GENE ONTOLOGY

KW - HOMOLOGY

KW - ORTHOGROUP

KW - MACHINE LEARNING

UR - https://www.scopus.com/pages/publications/105024789533

UR - https://elibrary.ru/item.asp?id=87328071

UR - https://www.mendeley.com/catalogue/49a5e9e3-cb25-364b-aeef-dea5a78915c1/

U2 - 10.18699/vjgb-25-119

DO - 10.18699/vjgb-25-119

M3 - статья

C2 - 41541555

VL - 29

SP - 1145

EP - 1154

JO - Вавиловский журнал генетики и селекции

JF - Вавиловский журнал генетики и селекции

SN - 2500-0462

IS - 7

M1 - 22

ER -

ID: 74450453