Результаты исследований: Научные публикации в периодических изданиях › статья › Рецензирование
Дискриминативная лемматизация сокращений в эпоху LLM. / Glazkova, A. V.; Смаль, Иван Андреевич; Lyashevskaya, Olga N. и др.
в: Доклады Российской академии наук. Математика, информатика, процессы управления, Том 527, № S, 13, 2025, стр. 146-155.Результаты исследований: Научные публикации в периодических изданиях › статья › Рецензирование
}
TY - JOUR
T1 - Дискриминативная лемматизация сокращений в эпоху LLM
AU - Glazkova, A. V.
AU - Смаль, Иван Андреевич
AU - Lyashevskaya, Olga N.
AU - Морозов, Дмитрий Алексеевич
N1 - Дискриминативная лемматизация сокращений в эпоху LLM / А.В. Глазкова, И.А. Смаль, О.Н. Ляшевская, Д.А. Морозов // Доклады Российской академии наук. Математика, информатика, процессы управления. – 2025. – Т. 527. - № S. – С. 146-155. – DOI 10.7868/S2686954325070124. – EDN HEGLOS.
PY - 2025
Y1 - 2025
N2 - В работе представлено исследование эффективности дискриминативных методов лемматизации сокращений в русскоязычных текстах. В отличие от генеративных подходов, дискриминативные модели осуществляют выбор оптимальной леммы из фиксированного набора вариантов, что исключает риск генерации грамматически некорректных словоформ. Впервые для русского языка проводится комплексный анализ четырех контекстно-ориентированных подходов: (1) ранжирования на основе маскированного языкового моделирования, (2) бинарной классификации, (3) многоклассовой классификации, а также (4) обучения с использованием инструкций. Особое внимание уделено случаям контекстной неоднозначности, когда одно сокращение в пределах одного текстового фрагмента соответствует разным лемам. Результаты демонстрируют, что многоклассовая классификация с дообучением предобученных моделей достигает наивысшего качества (F-мера с макроусреднением - 97.75-99.92% в зависимости от сокращения); однако в условиях ограниченного объема обучающих данных обучение с использованием инструкций и ранжирование на основе маскированного языкового моделирования показывают перспективные результаты. Кроме того, эффективность данных подходов возрастает в случаях контекстной неоднозначности. Исследование вносит вклад в развитие методов обработки русскоязычных текстов, предлагая практические рекомендации по выбору архитектур для задач лемматизации сокращений.
AB - В работе представлено исследование эффективности дискриминативных методов лемматизации сокращений в русскоязычных текстах. В отличие от генеративных подходов, дискриминативные модели осуществляют выбор оптимальной леммы из фиксированного набора вариантов, что исключает риск генерации грамматически некорректных словоформ. Впервые для русского языка проводится комплексный анализ четырех контекстно-ориентированных подходов: (1) ранжирования на основе маскированного языкового моделирования, (2) бинарной классификации, (3) многоклассовой классификации, а также (4) обучения с использованием инструкций. Особое внимание уделено случаям контекстной неоднозначности, когда одно сокращение в пределах одного текстового фрагмента соответствует разным лемам. Результаты демонстрируют, что многоклассовая классификация с дообучением предобученных моделей достигает наивысшего качества (F-мера с макроусреднением - 97.75-99.92% в зависимости от сокращения); однако в условиях ограниченного объема обучающих данных обучение с использованием инструкций и ранжирование на основе маскированного языкового моделирования показывают перспективные результаты. Кроме того, эффективность данных подходов возрастает в случаях контекстной неоднозначности. Исследование вносит вклад в развитие методов обработки русскоязычных текстов, предлагая практические рекомендации по выбору архитектур для задач лемматизации сокращений.
KW - ЛЕММАТИЗАЦИЯ
KW - СОКРАЩЕНИЯ
KW - РУССКИЙ ЯЗЫК
KW - ДИСКРИМИНАТИВНЫЕ МЕТОДЫ
KW - КЛАССИФИКАЦИЯ ТЕКСТОВ
KW - ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА
KW - LEMMATIZATION
KW - ABBREVIATIONS
KW - RUSSIAN LANGUAGE
KW - DISCRIMINATIVE METHODS
KW - TEXT CLASSIFICATION
KW - NATURAL LANGUAGE PROCESSING
UR - https://elibrary.ru/item.asp?id=83189199
U2 - 10.7868/S2686954325070124
DO - 10.7868/S2686954325070124
M3 - статья
VL - 527
SP - 146
EP - 155
JO - Доклады Российской академии наук. Математика, информатика, процессы управления
JF - Доклады Российской академии наук. Математика, информатика, процессы управления
SN - 2686-9543
IS - S
M1 - 13
ER -
ID: 74494191