Результаты исследований: Научные публикации в периодических изданиях › статья › Рецензирование
Алгоритмы автоматической морфемной сегментации для белорусского языка: сравнение актуальных подходов. / Morozov, Dmitry A.; Feoktistov, Grigorii O.; Glazkova, Anna V.
в: Моделирование и анализ информационных систем, Том 32, № 4, 4, 2025, стр. 384-395.Результаты исследований: Научные публикации в периодических изданиях › статья › Рецензирование
}
TY - JOUR
T1 - Алгоритмы автоматической морфемной сегментации для белорусского языка: сравнение актуальных подходов
AU - Morozov, Dmitry A.
AU - Feoktistov, Grigorii O.
AU - Glazkova, Anna V.
N1 - Алгоритмы автоматической морфемной сегментации для белорусского языка: сравнение актуальных подходов / Д.А. Морозов, Г.О. Феоктистов, А.В. Глазкова // Моделирование и анализ информационных систем. – 2025. – Т. 32. - № 4. – С. 384-395. – DOI 10.18255/1818-1015-2025-4-384-395. – EDN EOEAQU.
PY - 2025
Y1 - 2025
N2 - Задача автоматической морфемной сегментации для морфологически богатых, но малоресурсных языков, таких как белорусский, остаётся недостаточно изученной. Настоящая работа представляет собой первое масштабное сравнительное исследование эффективности современных нейросетевых подходов к морфемной сегментации на материале белорусского языка. Мы сопоставили три подхода, показавших высокое качество в случае других языков: алгоритмы на базе свёрточных нейронных сетей, алгоритмы на основе LSTM-сетей и дообучение BERT-подобных моделей. Из-за малого числа доступных моноязычных белорусских моделей, мы также добавили к сравнению более крупные русскоязычные и многоязычные модели. Эксперименты проводились на свободно доступном наборе данных Slounik с использованием двух стратегий разбиения данных на обучающую и тестовую выборки. В первом случае разбиение было случайным, во втором случае слова были разбиты по корням так, чтобы однокоренные слова не могли попасть одновременно в обучающую и тестовую выборки. Наилучшей производительности в ходе экспериментов достиг ансамбль LSTM-сетей с долей полностью верных разборов 91.42% при случайном разбиении и 73.89% при разбиении по корням. Сопоставимые результаты продемонстрировали дообученные многоязычные и русскоязычные BERT-подобные модели, что подчёркивает возможность применения в этой задаче крупных моделей, в том числе, обученных на близкородственных и более ресурсообеспеченных языках. Анализ ошибок подтвердил, что большинство неточностей, как и для других славянских языков, связано с определением границ корня.
AB - Задача автоматической морфемной сегментации для морфологически богатых, но малоресурсных языков, таких как белорусский, остаётся недостаточно изученной. Настоящая работа представляет собой первое масштабное сравнительное исследование эффективности современных нейросетевых подходов к морфемной сегментации на материале белорусского языка. Мы сопоставили три подхода, показавших высокое качество в случае других языков: алгоритмы на базе свёрточных нейронных сетей, алгоритмы на основе LSTM-сетей и дообучение BERT-подобных моделей. Из-за малого числа доступных моноязычных белорусских моделей, мы также добавили к сравнению более крупные русскоязычные и многоязычные модели. Эксперименты проводились на свободно доступном наборе данных Slounik с использованием двух стратегий разбиения данных на обучающую и тестовую выборки. В первом случае разбиение было случайным, во втором случае слова были разбиты по корням так, чтобы однокоренные слова не могли попасть одновременно в обучающую и тестовую выборки. Наилучшей производительности в ходе экспериментов достиг ансамбль LSTM-сетей с долей полностью верных разборов 91.42% при случайном разбиении и 73.89% при разбиении по корням. Сопоставимые результаты продемонстрировали дообученные многоязычные и русскоязычные BERT-подобные модели, что подчёркивает возможность применения в этой задаче крупных моделей, в том числе, обученных на близкородственных и более ресурсообеспеченных языках. Анализ ошибок подтвердил, что большинство неточностей, как и для других славянских языков, связано с определением границ корня.
KW - ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА
KW - АВТОМАТИЧЕСКАЯ МОРФЕМНАЯ СЕГМЕНТАЦИЯ
KW - ГЛУБОКОЕ ОБУЧЕНИЕ
KW - БЕЛОРУССКИЙ ЯЗЫК
KW - МАЛОРЕСУРСНЫЕ ЯЗЫКИ
KW - NATURAL LANGUAGE PROCESSING
KW - AUTOMATED MORPHEME SEGMENTATION
KW - DEEP LEARNING
KW - BELARUSIAN LANGUAGE
KW - LOW-RESOURCE LANGUAGES
UR - https://elibrary.ru/item.asp?id=85266841
UR - https://www.mendeley.com/catalogue/1796665d-1cfc-3957-a18e-fa4f08391bf9/
U2 - 10.18255/1818-1015-2025-4-384-395
DO - 10.18255/1818-1015-2025-4-384-395
M3 - статья
VL - 32
SP - 384
EP - 395
JO - Моделирование и анализ информационных систем
JF - Моделирование и анализ информационных систем
SN - 1818-1015
IS - 4
M1 - 4
ER -
ID: 74494057