Standard

Иерархическая классификация научных статей при помощи глубокого обучения (на примере иерархии УДК). / Mamedov, Valentin y.; Kovalevsky, Danil a.; Morozov, Dmitry et al.

In: Modeling and Analysis of Information Systems, Vol. 32, No. 1, 2025, p. 80-94.

Research output: Contribution to journalArticlepeer-review

Harvard

APA

Vancouver

Mamedov VY, Kovalevsky DA, Morozov D, Stolyarov SS, Ospichev SS. Иерархическая классификация научных статей при помощи глубокого обучения (на примере иерархии УДК). Modeling and Analysis of Information Systems. 2025;32(1):80-94. doi: 10.18255/1818-1015-2025-1-80-94

Author

Mamedov, Valentin y. ; Kovalevsky, Danil a. ; Morozov, Dmitry et al. / Иерархическая классификация научных статей при помощи глубокого обучения (на примере иерархии УДК). In: Modeling and Analysis of Information Systems. 2025 ; Vol. 32, No. 1. pp. 80-94.

BibTeX

@article{1d7de04ec02146e5a6af868fb1818ea7,
title = "Иерархическая классификация научных статей при помощи глубокого обучения (на примере иерархии УДК)",
abstract = "В условиях стремительного роста числа научных публикаций актуальной задачей становится разработка эффективных инструментов для их систематизации и поиска. Одним из таких инструментов является универсальная десятичная классификация (УДК), которая позволяет структурировать статьи по тематическим областям. Однако ручное присвоение кодов УДК зачастую оказывается неточным или недостаточно детализированным, что снижает эффективность использования этого подхода. В данной статье предлагается подход к автоматическому присвоению кодов УДК научным статьям с использованием моделей на основе архитектуры BERT. Для обучения и оценки модели был использован набор данных, содержащий более 19 тысяч статей по математике и смежным наукам. Мы разработали две специализированные метрики качества, учитывающие иерархическую природу УДК: иерархическую классификационную точность и иерархическую рекомендательную точность. Кроме того, мы предложили несколько стратегий преобразования иерархических меток в плоские. В ходе экспериментов нам удалось достичь значения иерархической рекомендательной точности 0,8220. Дополнительно проведено слепое тестирование с участием экспертов, которое выявило, что часть расхождений между эталонными и сгенерированными метками обусловлена некорректным выбором кода УДК авторами статей. Предложенный подход демонстрирует высокий потенциал для автоматической классификации научных статей и может быть адаптирован для других иерархических систем классификации.",
keywords = "классификация текстов, иерархическая классификация текстов, универсальный десятичный классификатор, глубокое обучение",
author = "Mamedov, {Valentin y.} and Kovalevsky, {Danil a.} and Dmitry Morozov and Stolyarov, {Stepan s.} and Ospichev, {Sergey s.}",
note = "Иерархическая классификация научных статей при помощи глубокого обучения (на примере иерархии УДК) / В. Ю. Мамедов, Д. А. Ковалевский, Д. А. Морозов, С. С. Столяров, С. С. Оспичев // Моделирование и анализ информационных систем. - 2025. - Т. 32. № 1. - С. 80-94. DOI: 10.18255/1818-1015-2025-1-80-94 ",
year = "2025",
doi = "10.18255/1818-1015-2025-1-80-94",
language = "русский",
volume = "32",
pages = "80--94",
journal = "Modeling and Analysis of Information Systems",
issn = "1818-1015",
publisher = "Ярославский государственный университет им. П.Г. Демидова",
number = "1",

}

RIS

TY - JOUR

T1 - Иерархическая классификация научных статей при помощи глубокого обучения (на примере иерархии УДК)

AU - Mamedov, Valentin y.

AU - Kovalevsky, Danil a.

AU - Morozov, Dmitry

AU - Stolyarov, Stepan s.

AU - Ospichev, Sergey s.

N1 - Иерархическая классификация научных статей при помощи глубокого обучения (на примере иерархии УДК) / В. Ю. Мамедов, Д. А. Ковалевский, Д. А. Морозов, С. С. Столяров, С. С. Оспичев // Моделирование и анализ информационных систем. - 2025. - Т. 32. № 1. - С. 80-94. DOI: 10.18255/1818-1015-2025-1-80-94

PY - 2025

Y1 - 2025

N2 - В условиях стремительного роста числа научных публикаций актуальной задачей становится разработка эффективных инструментов для их систематизации и поиска. Одним из таких инструментов является универсальная десятичная классификация (УДК), которая позволяет структурировать статьи по тематическим областям. Однако ручное присвоение кодов УДК зачастую оказывается неточным или недостаточно детализированным, что снижает эффективность использования этого подхода. В данной статье предлагается подход к автоматическому присвоению кодов УДК научным статьям с использованием моделей на основе архитектуры BERT. Для обучения и оценки модели был использован набор данных, содержащий более 19 тысяч статей по математике и смежным наукам. Мы разработали две специализированные метрики качества, учитывающие иерархическую природу УДК: иерархическую классификационную точность и иерархическую рекомендательную точность. Кроме того, мы предложили несколько стратегий преобразования иерархических меток в плоские. В ходе экспериментов нам удалось достичь значения иерархической рекомендательной точности 0,8220. Дополнительно проведено слепое тестирование с участием экспертов, которое выявило, что часть расхождений между эталонными и сгенерированными метками обусловлена некорректным выбором кода УДК авторами статей. Предложенный подход демонстрирует высокий потенциал для автоматической классификации научных статей и может быть адаптирован для других иерархических систем классификации.

AB - В условиях стремительного роста числа научных публикаций актуальной задачей становится разработка эффективных инструментов для их систематизации и поиска. Одним из таких инструментов является универсальная десятичная классификация (УДК), которая позволяет структурировать статьи по тематическим областям. Однако ручное присвоение кодов УДК зачастую оказывается неточным или недостаточно детализированным, что снижает эффективность использования этого подхода. В данной статье предлагается подход к автоматическому присвоению кодов УДК научным статьям с использованием моделей на основе архитектуры BERT. Для обучения и оценки модели был использован набор данных, содержащий более 19 тысяч статей по математике и смежным наукам. Мы разработали две специализированные метрики качества, учитывающие иерархическую природу УДК: иерархическую классификационную точность и иерархическую рекомендательную точность. Кроме того, мы предложили несколько стратегий преобразования иерархических меток в плоские. В ходе экспериментов нам удалось достичь значения иерархической рекомендательной точности 0,8220. Дополнительно проведено слепое тестирование с участием экспертов, которое выявило, что часть расхождений между эталонными и сгенерированными метками обусловлена некорректным выбором кода УДК авторами статей. Предложенный подход демонстрирует высокий потенциал для автоматической классификации научных статей и может быть адаптирован для других иерархических систем классификации.

KW - классификация текстов

KW - иерархическая классификация текстов

KW - универсальный десятичный классификатор

KW - глубокое обучение

U2 - 10.18255/1818-1015-2025-1-80-94

DO - 10.18255/1818-1015-2025-1-80-94

M3 - статья

VL - 32

SP - 80

EP - 94

JO - Modeling and Analysis of Information Systems

JF - Modeling and Analysis of Information Systems

SN - 1818-1015

IS - 1

ER -

ID: 70750837