Standard

Алгоритмы автоматической морфемной сегментации для белорусского языка: сравнение актуальных подходов. / Morozov, Dmitry A.; Feoktistov, Grigorii O.; Glazkova, Anna V.

In: Моделирование и анализ информационных систем, Vol. 32, No. 4, 4, 2025, p. 384-395.

Research output: Contribution to journalArticlepeer-review

Harvard

APA

Vancouver

Morozov DA, Feoktistov GO, Glazkova AV. Алгоритмы автоматической морфемной сегментации для белорусского языка: сравнение актуальных подходов. Моделирование и анализ информационных систем. 2025;32(4):384-395. 4. doi: 10.18255/1818-1015-2025-4-384-395

Author

Morozov, Dmitry A. ; Feoktistov, Grigorii O. ; Glazkova, Anna V. / Алгоритмы автоматической морфемной сегментации для белорусского языка: сравнение актуальных подходов. In: Моделирование и анализ информационных систем. 2025 ; Vol. 32, No. 4. pp. 384-395.

BibTeX

@article{d6988eacd9e345cf952d891d8f266764,
title = "Алгоритмы автоматической морфемной сегментации для белорусского языка: сравнение актуальных подходов",
abstract = "Задача автоматической морфемной сегментации для морфологически богатых, но малоресурсных языков, таких как белорусский, остаётся недостаточно изученной. Настоящая работа представляет собой первое масштабное сравнительное исследование эффективности современных нейросетевых подходов к морфемной сегментации на материале белорусского языка. Мы сопоставили три подхода, показавших высокое качество в случае других языков: алгоритмы на базе свёрточных нейронных сетей, алгоритмы на основе LSTM-сетей и дообучение BERT-подобных моделей. Из-за малого числа доступных моноязычных белорусских моделей, мы также добавили к сравнению более крупные русскоязычные и многоязычные модели. Эксперименты проводились на свободно доступном наборе данных Slounik с использованием двух стратегий разбиения данных на обучающую и тестовую выборки. В первом случае разбиение было случайным, во втором случае слова были разбиты по корням так, чтобы однокоренные слова не могли попасть одновременно в обучающую и тестовую выборки. Наилучшей производительности в ходе экспериментов достиг ансамбль LSTM-сетей с долей полностью верных разборов 91.42% при случайном разбиении и 73.89% при разбиении по корням. Сопоставимые результаты продемонстрировали дообученные многоязычные и русскоязычные BERT-подобные модели, что подчёркивает возможность применения в этой задаче крупных моделей, в том числе, обученных на близкородственных и более ресурсообеспеченных языках. Анализ ошибок подтвердил, что большинство неточностей, как и для других славянских языков, связано с определением границ корня.",
keywords = "ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА, АВТОМАТИЧЕСКАЯ МОРФЕМНАЯ СЕГМЕНТАЦИЯ, ГЛУБОКОЕ ОБУЧЕНИЕ, БЕЛОРУССКИЙ ЯЗЫК, МАЛОРЕСУРСНЫЕ ЯЗЫКИ, NATURAL LANGUAGE PROCESSING, AUTOMATED MORPHEME SEGMENTATION, DEEP LEARNING, BELARUSIAN LANGUAGE, LOW-RESOURCE LANGUAGES",
author = "Morozov, {Dmitry A.} and Feoktistov, {Grigorii O.} and Glazkova, {Anna V.}",
note = "Алгоритмы автоматической морфемной сегментации для белорусского языка: сравнение актуальных подходов / Д.А. Морозов, Г.О. Феоктистов, А.В. Глазкова // Моделирование и анализ информационных систем. – 2025. – Т. 32. - № 4. – С. 384-395. – DOI 10.18255/1818-1015-2025-4-384-395. – EDN EOEAQU.",
year = "2025",
doi = "10.18255/1818-1015-2025-4-384-395",
language = "русский",
volume = "32",
pages = "384--395",
journal = "Моделирование и анализ информационных систем",
issn = "1818-1015",
publisher = "Ярославский государственный университет им. П.Г. Демидова",
number = "4",

}

RIS

TY - JOUR

T1 - Алгоритмы автоматической морфемной сегментации для белорусского языка: сравнение актуальных подходов

AU - Morozov, Dmitry A.

AU - Feoktistov, Grigorii O.

AU - Glazkova, Anna V.

N1 - Алгоритмы автоматической морфемной сегментации для белорусского языка: сравнение актуальных подходов / Д.А. Морозов, Г.О. Феоктистов, А.В. Глазкова // Моделирование и анализ информационных систем. – 2025. – Т. 32. - № 4. – С. 384-395. – DOI 10.18255/1818-1015-2025-4-384-395. – EDN EOEAQU.

PY - 2025

Y1 - 2025

N2 - Задача автоматической морфемной сегментации для морфологически богатых, но малоресурсных языков, таких как белорусский, остаётся недостаточно изученной. Настоящая работа представляет собой первое масштабное сравнительное исследование эффективности современных нейросетевых подходов к морфемной сегментации на материале белорусского языка. Мы сопоставили три подхода, показавших высокое качество в случае других языков: алгоритмы на базе свёрточных нейронных сетей, алгоритмы на основе LSTM-сетей и дообучение BERT-подобных моделей. Из-за малого числа доступных моноязычных белорусских моделей, мы также добавили к сравнению более крупные русскоязычные и многоязычные модели. Эксперименты проводились на свободно доступном наборе данных Slounik с использованием двух стратегий разбиения данных на обучающую и тестовую выборки. В первом случае разбиение было случайным, во втором случае слова были разбиты по корням так, чтобы однокоренные слова не могли попасть одновременно в обучающую и тестовую выборки. Наилучшей производительности в ходе экспериментов достиг ансамбль LSTM-сетей с долей полностью верных разборов 91.42% при случайном разбиении и 73.89% при разбиении по корням. Сопоставимые результаты продемонстрировали дообученные многоязычные и русскоязычные BERT-подобные модели, что подчёркивает возможность применения в этой задаче крупных моделей, в том числе, обученных на близкородственных и более ресурсообеспеченных языках. Анализ ошибок подтвердил, что большинство неточностей, как и для других славянских языков, связано с определением границ корня.

AB - Задача автоматической морфемной сегментации для морфологически богатых, но малоресурсных языков, таких как белорусский, остаётся недостаточно изученной. Настоящая работа представляет собой первое масштабное сравнительное исследование эффективности современных нейросетевых подходов к морфемной сегментации на материале белорусского языка. Мы сопоставили три подхода, показавших высокое качество в случае других языков: алгоритмы на базе свёрточных нейронных сетей, алгоритмы на основе LSTM-сетей и дообучение BERT-подобных моделей. Из-за малого числа доступных моноязычных белорусских моделей, мы также добавили к сравнению более крупные русскоязычные и многоязычные модели. Эксперименты проводились на свободно доступном наборе данных Slounik с использованием двух стратегий разбиения данных на обучающую и тестовую выборки. В первом случае разбиение было случайным, во втором случае слова были разбиты по корням так, чтобы однокоренные слова не могли попасть одновременно в обучающую и тестовую выборки. Наилучшей производительности в ходе экспериментов достиг ансамбль LSTM-сетей с долей полностью верных разборов 91.42% при случайном разбиении и 73.89% при разбиении по корням. Сопоставимые результаты продемонстрировали дообученные многоязычные и русскоязычные BERT-подобные модели, что подчёркивает возможность применения в этой задаче крупных моделей, в том числе, обученных на близкородственных и более ресурсообеспеченных языках. Анализ ошибок подтвердил, что большинство неточностей, как и для других славянских языков, связано с определением границ корня.

KW - ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА

KW - АВТОМАТИЧЕСКАЯ МОРФЕМНАЯ СЕГМЕНТАЦИЯ

KW - ГЛУБОКОЕ ОБУЧЕНИЕ

KW - БЕЛОРУССКИЙ ЯЗЫК

KW - МАЛОРЕСУРСНЫЕ ЯЗЫКИ

KW - NATURAL LANGUAGE PROCESSING

KW - AUTOMATED MORPHEME SEGMENTATION

KW - DEEP LEARNING

KW - BELARUSIAN LANGUAGE

KW - LOW-RESOURCE LANGUAGES

UR - https://elibrary.ru/item.asp?id=85266841

UR - https://www.mendeley.com/catalogue/1796665d-1cfc-3957-a18e-fa4f08391bf9/

U2 - 10.18255/1818-1015-2025-4-384-395

DO - 10.18255/1818-1015-2025-4-384-395

M3 - статья

VL - 32

SP - 384

EP - 395

JO - Моделирование и анализ информационных систем

JF - Моделирование и анализ информационных систем

SN - 1818-1015

IS - 4

M1 - 4

ER -

ID: 74494057