Результаты исследований: Научные публикации в периодических изданиях › статья › Рецензирование
OrthoML2GO: предсказание функций белков по гомологии с использованием ортогрупп и алгоритмов машинного обучения. / Malyugin, E. V.; Afonnikov, D. A.
в: Vavilovskii Zhurnal Genetiki i Selektsii, Том 29, № 7, 22, 2025, стр. 1145-1154.Результаты исследований: Научные публикации в периодических изданиях › статья › Рецензирование
}
TY - JOUR
T1 - OrthoML2GO: предсказание функций белков по гомологии с использованием ортогрупп и алгоритмов машинного обучения
AU - Malyugin, E. V.
AU - Afonnikov, D. A.
N1 - Малюгин Е.В., Афонников Д.А. OrthoML2GO: предсказание функций белков по гомологии с использованием ортогрупп и алгоритмов машинного обучения // Вавиловский журнал генетики и селекции. – 2025. – Т. 29. - № 7. – С. 1145-1154. – DOI 10.18699/vjgb-25-119. – EDN CWNNER. Исследование поддержано Курчатовским геномным центром ИЦиГ СО РАН, соглашение с Министерством образования и науки Российской Федерации № 075-15-2019-1662 и бюджетным проектом № FWNR-2022-0020. Исследование выполнено с использованием суперкомпьютерного комплекса ЦКП «Биоинформатика» ИЦиГ СО РАН.
PY - 2025
Y1 - 2025
N2 - В последние годы быстрый рост объемов данных секвенирования обострил проблему функциональной аннотации белковых последовательностей, поскольку традиционные методы, основанные на гомологии, сталкиваются с ограничениями при работе с отдаленными гомологами, что затрудняет наиболее точное определение функций белков. В нашей работе представлен метод предсказания функций белков OrthoML2GO, который интегрирует поиск гомологичных последовательностей с помощью алгоритма USEARCH, анализ ортогрупп на базе OrthoDB 12-й версии и алгоритм машинного обучения (градиентный бустинг). Ключевая особенность подхода заключается в использовании информации об ортогруппах для учета эволюционного и функционального сходства белков и применения машинного обучения для дальнейшего уточнения терминов Gene Ontology (GO) для анализируемой последовательности. Для выбора оптимального алгоритма аннотации белков были поэтапно применены следующие подходы: метод k ближайших соседей (KNN); метод на основе аннотации ортогруппы, наиболее представленной у k ближайших гомологов (OG); метод верификации выявленных на предыдущем этапе терминов GO с помощью алгоритмов машинного обучения. Проведено сравнение точности предсказания терминов GO методом OrthoML2GO с программами аннотации Blast2GO и PANNZER2 на выборках последовательностей как отдельных организмов (человек, арабидопсис), так и на комбинированной выборке последовательностей, представленных разными таксонами. Результаты показали, что предложенный метод не уступает, а по некоторым показателям превосходит их по качеству предсказания функций белков, особенно на больших и разнородных выборках организмов, а наибольший прирост точности достигается за счет комбинации информации о ближайших гомологах и ортогруппах в сочетании с верификацией терминов методами машинного обучения. Разработанный подход демонстрирует высокую эффективность для крупномасштабной автоматической аннотации белков. Перспективы дальнейшего развития включают оптимизацию параметров моделей машинного обучения под конкретные биологические задачи и интеграцию дополнительных источников структурно-функциональной информации, что позволит еще больше повысить точность и универсальность метода. Кроме того, внедрение новых инструментов биоинформатики и расширение базы данных аннотированных белков будут способствовать дальнейшему совершенствованию предложенного подхода.
AB - В последние годы быстрый рост объемов данных секвенирования обострил проблему функциональной аннотации белковых последовательностей, поскольку традиционные методы, основанные на гомологии, сталкиваются с ограничениями при работе с отдаленными гомологами, что затрудняет наиболее точное определение функций белков. В нашей работе представлен метод предсказания функций белков OrthoML2GO, который интегрирует поиск гомологичных последовательностей с помощью алгоритма USEARCH, анализ ортогрупп на базе OrthoDB 12-й версии и алгоритм машинного обучения (градиентный бустинг). Ключевая особенность подхода заключается в использовании информации об ортогруппах для учета эволюционного и функционального сходства белков и применения машинного обучения для дальнейшего уточнения терминов Gene Ontology (GO) для анализируемой последовательности. Для выбора оптимального алгоритма аннотации белков были поэтапно применены следующие подходы: метод k ближайших соседей (KNN); метод на основе аннотации ортогруппы, наиболее представленной у k ближайших гомологов (OG); метод верификации выявленных на предыдущем этапе терминов GO с помощью алгоритмов машинного обучения. Проведено сравнение точности предсказания терминов GO методом OrthoML2GO с программами аннотации Blast2GO и PANNZER2 на выборках последовательностей как отдельных организмов (человек, арабидопсис), так и на комбинированной выборке последовательностей, представленных разными таксонами. Результаты показали, что предложенный метод не уступает, а по некоторым показателям превосходит их по качеству предсказания функций белков, особенно на больших и разнородных выборках организмов, а наибольший прирост точности достигается за счет комбинации информации о ближайших гомологах и ортогруппах в сочетании с верификацией терминов методами машинного обучения. Разработанный подход демонстрирует высокую эффективность для крупномасштабной автоматической аннотации белков. Перспективы дальнейшего развития включают оптимизацию параметров моделей машинного обучения под конкретные биологические задачи и интеграцию дополнительных источников структурно-функциональной информации, что позволит еще больше повысить точность и универсальность метода. Кроме того, внедрение новых инструментов биоинформатики и расширение базы данных аннотированных белков будут способствовать дальнейшему совершенствованию предложенного подхода.
KW - ПРЕДСКАЗАНИЕ ФУНКЦИЙ БЕЛКА
KW - ГЕННАЯ ОНТОЛОГИЯ
KW - ГОМОЛОГИЯ
KW - ОРТОГРУППА
KW - МАШИННОЕ ОБУЧЕНИЕ
KW - PROTEIN FUNCTION PREDICTION
KW - GENE ONTOLOGY
KW - HOMOLOGY
KW - ORTHOGROUP
KW - MACHINE LEARNING
UR - https://www.scopus.com/pages/publications/105024789533
UR - https://elibrary.ru/item.asp?id=87328071
UR - https://www.mendeley.com/catalogue/49a5e9e3-cb25-364b-aeef-dea5a78915c1/
U2 - 10.18699/vjgb-25-119
DO - 10.18699/vjgb-25-119
M3 - статья
C2 - 41541555
VL - 29
SP - 1145
EP - 1154
JO - Вавиловский журнал генетики и селекции
JF - Вавиловский журнал генетики и селекции
SN - 2500-0462
IS - 7
M1 - 22
ER -
ID: 74450453