Research output: Contribution to journal › Review article › peer-review
Машинное обучение и внутритекстовая разметка для нужд корпусной лингвистики: краткий обзор актуального состояния. / Морозов, Дмитрий Алексеевич; Смаль, Иван Андреевич.
In: Коммуникативные исследования, Vol. 12, No. 4, 10, 2025, p. 865-880.Research output: Contribution to journal › Review article › peer-review
}
TY - JOUR
T1 - Машинное обучение и внутритекстовая разметка для нужд корпусной лингвистики: краткий обзор актуального состояния
AU - Морозов, Дмитрий Алексеевич
AU - Смаль, Иван Андреевич
N1 - Морозов Д.А., Смаль И.А. Машинное обучение и внутритекстовая разметка для нужд корпусной лингвистики: краткий обзор актуального состояния // Коммуникативные исследования. – 2025. – Т. 12. - № 4. – С. 865-880. – DOI 10.24147/2413-6182.2025.12(4).865-880. – EDN ALATVP.
PY - 2025
Y1 - 2025
N2 - В современной корпусной лингвистике экспоненциальный рост объемов текстовых данных сделал невозможной их ручную разметку, что стало ключевым вызовом для дальнейшего развития корпусной лингвистики. Настоящая статья представляет краткий обзор ключевых методов машинного обучения, применяемых для внутритекстовой разметки в крупных лингвистических корпусах, с фокусом на русскоязычных проектах. В работе рассматриваются современные лингвистически аннотированные корпуса русского языка (Национальный корпус русского языка, Генеральный интернет-корпус русского языка и др.) и анализируются подходы к их автоматической разметке: от ранних словарных и статистических методов, таких как MyStem, PyMorphy2, TreeTagger, до современных нейросетевых архитектур, применяемых для лемматизации, морфосинтаксического, словообразовательного и семантического анализа. Показано, что применение машинного обучения, особенно предобученных языковых моделей, позволило достичь высокой точности, сопоставимой с экспертным уровнем, для наиболее актуальных видов лингвистической разметки. Это открывает новые возможности для создания корпусов беспрецедентного масштаба и проведения лингвистических исследований на по-настоящему крупных массивах данных. В то же время отмечено, что при подобных объемах корпусов даже незначительное отклонение точности разметки от идеальной приводит в абсолютном выражении к миллионам ошибок, что делает необходимым критическое осмысление получаемых при анализе автоматически размеченных корпусов результатов.
AB - В современной корпусной лингвистике экспоненциальный рост объемов текстовых данных сделал невозможной их ручную разметку, что стало ключевым вызовом для дальнейшего развития корпусной лингвистики. Настоящая статья представляет краткий обзор ключевых методов машинного обучения, применяемых для внутритекстовой разметки в крупных лингвистических корпусах, с фокусом на русскоязычных проектах. В работе рассматриваются современные лингвистически аннотированные корпуса русского языка (Национальный корпус русского языка, Генеральный интернет-корпус русского языка и др.) и анализируются подходы к их автоматической разметке: от ранних словарных и статистических методов, таких как MyStem, PyMorphy2, TreeTagger, до современных нейросетевых архитектур, применяемых для лемматизации, морфосинтаксического, словообразовательного и семантического анализа. Показано, что применение машинного обучения, особенно предобученных языковых моделей, позволило достичь высокой точности, сопоставимой с экспертным уровнем, для наиболее актуальных видов лингвистической разметки. Это открывает новые возможности для создания корпусов беспрецедентного масштаба и проведения лингвистических исследований на по-настоящему крупных массивах данных. В то же время отмечено, что при подобных объемах корпусов даже незначительное отклонение точности разметки от идеальной приводит в абсолютном выражении к миллионам ошибок, что делает необходимым критическое осмысление получаемых при анализе автоматически размеченных корпусов результатов.
KW - КОРПУСНАЯ ЛИНГВИСТИКА
KW - ЛИНГВИСТИЧЕСКИ АННОТИРОВАННЫЕ КОРПУСЫ ТЕКСТОВ
KW - МАШИННОЕ ОБУЧЕНИЕ
KW - АВТОМАТИЗИРОВАННАЯ ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА
KW - CORPUS LINGUISTICS
KW - LINGUISTICALLY ANNOTATED TEXT CORPORA
KW - MACHINE LEARNING
KW - AUTOMATED NATURAL LANGUAGE PROCESSING
UR - https://elibrary.ru/item.asp?id=86437105
U2 - 10.24147/2413-6182.2025.12(4).865-880
DO - 10.24147/2413-6182.2025.12(4).865-880
M3 - обзорная статья
VL - 12
SP - 865
EP - 880
JO - Коммуникативные исследования
JF - Коммуникативные исследования
SN - 2413-6182
IS - 4
M1 - 10
ER -
ID: 75490117