Standard

Дискриминативная лемматизация сокращений в эпоху LLM. / Glazkova, A. V.; Смаль, Иван Андреевич; Lyashevskaya, Olga N. и др.

в: Доклады Российской академии наук. Математика, информатика, процессы управления, Том 527, № S, 13, 2025, стр. 146-155.

Результаты исследований: Научные публикации в периодических изданияхстатьяРецензирование

Harvard

Glazkova, AV, Смаль, ИА, Lyashevskaya, ON & Морозов, ДА 2025, 'Дискриминативная лемматизация сокращений в эпоху LLM', Доклады Российской академии наук. Математика, информатика, процессы управления, Том. 527, № S, 13, стр. 146-155. https://doi.org/10.7868/S2686954325070124

APA

Glazkova, A. V., Смаль, И. А., Lyashevskaya, O. N., & Морозов, Д. А. (2025). Дискриминативная лемматизация сокращений в эпоху LLM. Доклады Российской академии наук. Математика, информатика, процессы управления, 527(S), 146-155. [13]. https://doi.org/10.7868/S2686954325070124

Vancouver

Glazkova AV, Смаль ИА, Lyashevskaya ON, Морозов ДА. Дискриминативная лемматизация сокращений в эпоху LLM. Доклады Российской академии наук. Математика, информатика, процессы управления. 2025;527(S):146-155. 13. doi: 10.7868/S2686954325070124

Author

Glazkova, A. V. ; Смаль, Иван Андреевич ; Lyashevskaya, Olga N. и др. / Дискриминативная лемматизация сокращений в эпоху LLM. в: Доклады Российской академии наук. Математика, информатика, процессы управления. 2025 ; Том 527, № S. стр. 146-155.

BibTeX

@article{57de3e2461c946019fc56fc41cee002c,
title = "Дискриминативная лемматизация сокращений в эпоху LLM",
abstract = "В работе представлено исследование эффективности дискриминативных методов лемматизации сокращений в русскоязычных текстах. В отличие от генеративных подходов, дискриминативные модели осуществляют выбор оптимальной леммы из фиксированного набора вариантов, что исключает риск генерации грамматически некорректных словоформ. Впервые для русского языка проводится комплексный анализ четырех контекстно-ориентированных подходов: (1) ранжирования на основе маскированного языкового моделирования, (2) бинарной классификации, (3) многоклассовой классификации, а также (4) обучения с использованием инструкций. Особое внимание уделено случаям контекстной неоднозначности, когда одно сокращение в пределах одного текстового фрагмента соответствует разным лемам. Результаты демонстрируют, что многоклассовая классификация с дообучением предобученных моделей достигает наивысшего качества (F-мера с макроусреднением - 97.75-99.92% в зависимости от сокращения); однако в условиях ограниченного объема обучающих данных обучение с использованием инструкций и ранжирование на основе маскированного языкового моделирования показывают перспективные результаты. Кроме того, эффективность данных подходов возрастает в случаях контекстной неоднозначности. Исследование вносит вклад в развитие методов обработки русскоязычных текстов, предлагая практические рекомендации по выбору архитектур для задач лемматизации сокращений.",
keywords = "ЛЕММАТИЗАЦИЯ, СОКРАЩЕНИЯ, РУССКИЙ ЯЗЫК, ДИСКРИМИНАТИВНЫЕ МЕТОДЫ, КЛАССИФИКАЦИЯ ТЕКСТОВ, ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА, LEMMATIZATION, ABBREVIATIONS, RUSSIAN LANGUAGE, DISCRIMINATIVE METHODS, TEXT CLASSIFICATION, NATURAL LANGUAGE PROCESSING",
author = "Glazkova, {A. V.} and Смаль, {Иван Андреевич} and Lyashevskaya, {Olga N.} and Морозов, {Дмитрий Алексеевич}",
note = "Дискриминативная лемматизация сокращений в эпоху LLM / А.В. Глазкова, И.А. Смаль, О.Н. Ляшевская, Д.А. Морозов // Доклады Российской академии наук. Математика, информатика, процессы управления. – 2025. – Т. 527. - № S. – С. 146-155. – DOI 10.7868/S2686954325070124. – EDN HEGLOS.",
year = "2025",
doi = "10.7868/S2686954325070124",
language = "русский",
volume = "527",
pages = "146--155",
journal = "Доклады Российской академии наук. Математика, информатика, процессы управления",
issn = "2686-9543",
publisher = "ФГБУ {"}Издательство {"}Наука{"}",
number = "S",

}

RIS

TY - JOUR

T1 - Дискриминативная лемматизация сокращений в эпоху LLM

AU - Glazkova, A. V.

AU - Смаль, Иван Андреевич

AU - Lyashevskaya, Olga N.

AU - Морозов, Дмитрий Алексеевич

N1 - Дискриминативная лемматизация сокращений в эпоху LLM / А.В. Глазкова, И.А. Смаль, О.Н. Ляшевская, Д.А. Морозов // Доклады Российской академии наук. Математика, информатика, процессы управления. – 2025. – Т. 527. - № S. – С. 146-155. – DOI 10.7868/S2686954325070124. – EDN HEGLOS.

PY - 2025

Y1 - 2025

N2 - В работе представлено исследование эффективности дискриминативных методов лемматизации сокращений в русскоязычных текстах. В отличие от генеративных подходов, дискриминативные модели осуществляют выбор оптимальной леммы из фиксированного набора вариантов, что исключает риск генерации грамматически некорректных словоформ. Впервые для русского языка проводится комплексный анализ четырех контекстно-ориентированных подходов: (1) ранжирования на основе маскированного языкового моделирования, (2) бинарной классификации, (3) многоклассовой классификации, а также (4) обучения с использованием инструкций. Особое внимание уделено случаям контекстной неоднозначности, когда одно сокращение в пределах одного текстового фрагмента соответствует разным лемам. Результаты демонстрируют, что многоклассовая классификация с дообучением предобученных моделей достигает наивысшего качества (F-мера с макроусреднением - 97.75-99.92% в зависимости от сокращения); однако в условиях ограниченного объема обучающих данных обучение с использованием инструкций и ранжирование на основе маскированного языкового моделирования показывают перспективные результаты. Кроме того, эффективность данных подходов возрастает в случаях контекстной неоднозначности. Исследование вносит вклад в развитие методов обработки русскоязычных текстов, предлагая практические рекомендации по выбору архитектур для задач лемматизации сокращений.

AB - В работе представлено исследование эффективности дискриминативных методов лемматизации сокращений в русскоязычных текстах. В отличие от генеративных подходов, дискриминативные модели осуществляют выбор оптимальной леммы из фиксированного набора вариантов, что исключает риск генерации грамматически некорректных словоформ. Впервые для русского языка проводится комплексный анализ четырех контекстно-ориентированных подходов: (1) ранжирования на основе маскированного языкового моделирования, (2) бинарной классификации, (3) многоклассовой классификации, а также (4) обучения с использованием инструкций. Особое внимание уделено случаям контекстной неоднозначности, когда одно сокращение в пределах одного текстового фрагмента соответствует разным лемам. Результаты демонстрируют, что многоклассовая классификация с дообучением предобученных моделей достигает наивысшего качества (F-мера с макроусреднением - 97.75-99.92% в зависимости от сокращения); однако в условиях ограниченного объема обучающих данных обучение с использованием инструкций и ранжирование на основе маскированного языкового моделирования показывают перспективные результаты. Кроме того, эффективность данных подходов возрастает в случаях контекстной неоднозначности. Исследование вносит вклад в развитие методов обработки русскоязычных текстов, предлагая практические рекомендации по выбору архитектур для задач лемматизации сокращений.

KW - ЛЕММАТИЗАЦИЯ

KW - СОКРАЩЕНИЯ

KW - РУССКИЙ ЯЗЫК

KW - ДИСКРИМИНАТИВНЫЕ МЕТОДЫ

KW - КЛАССИФИКАЦИЯ ТЕКСТОВ

KW - ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА

KW - LEMMATIZATION

KW - ABBREVIATIONS

KW - RUSSIAN LANGUAGE

KW - DISCRIMINATIVE METHODS

KW - TEXT CLASSIFICATION

KW - NATURAL LANGUAGE PROCESSING

UR - https://elibrary.ru/item.asp?id=83189199

U2 - 10.7868/S2686954325070124

DO - 10.7868/S2686954325070124

M3 - статья

VL - 527

SP - 146

EP - 155

JO - Доклады Российской академии наук. Математика, информатика, процессы управления

JF - Доклады Российской академии наук. Математика, информатика, процессы управления

SN - 2686-9543

IS - S

M1 - 13

ER -

ID: 74494191