Машинное обучение и внутритекстовая разметка для нужд корпусной лингвистики: краткий обзор актуального состояния

Standard

Машинное обучение и внутритекстовая разметка для нужд корпусной лингвистики: краткий обзор актуального состояния. / Морозов, Дмитрий Алексеевич; Смаль, Иван Андреевич.

In: Коммуникативные исследования, Vol. 12, No. 4, 10, 2025, p. 865-880.

Research output: Contribution to journal › Review article › peer-review

BibTeX

@article{a1c73d30844f4e0681e3ee6c2a07498c,

title = "Машинное обучение и внутритекстовая разметка для нужд корпусной лингвистики: краткий обзор актуального состояния",

abstract = "В современной корпусной лингвистике экспоненциальный рост объемов текстовых данных сделал невозможной их ручную разметку, что стало ключевым вызовом для дальнейшего развития корпусной лингвистики. Настоящая статья представляет краткий обзор ключевых методов машинного обучения, применяемых для внутритекстовой разметки в крупных лингвистических корпусах, с фокусом на русскоязычных проектах. В работе рассматриваются современные лингвистически аннотированные корпуса русского языка (Национальный корпус русского языка, Генеральный интернет-корпус русского языка и др.) и анализируются подходы к их автоматической разметке: от ранних словарных и статистических методов, таких как MyStem, PyMorphy2, TreeTagger, до современных нейросетевых архитектур, применяемых для лемматизации, морфосинтаксического, словообразовательного и семантического анализа. Показано, что применение машинного обучения, особенно предобученных языковых моделей, позволило достичь высокой точности, сопоставимой с экспертным уровнем, для наиболее актуальных видов лингвистической разметки. Это открывает новые возможности для создания корпусов беспрецедентного масштаба и проведения лингвистических исследований на по-настоящему крупных массивах данных. В то же время отмечено, что при подобных объемах корпусов даже незначительное отклонение точности разметки от идеальной приводит в абсолютном выражении к миллионам ошибок, что делает необходимым критическое осмысление получаемых при анализе автоматически размеченных корпусов результатов.",

keywords = "КОРПУСНАЯ ЛИНГВИСТИКА, ЛИНГВИСТИЧЕСКИ АННОТИРОВАННЫЕ КОРПУСЫ ТЕКСТОВ, МАШИННОЕ ОБУЧЕНИЕ, АВТОМАТИЗИРОВАННАЯ ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА, CORPUS LINGUISTICS, LINGUISTICALLY ANNOTATED TEXT CORPORA, MACHINE LEARNING, AUTOMATED NATURAL LANGUAGE PROCESSING",

author = "Морозов, {Дмитрий Алексеевич} and Смаль, {Иван Андреевич}",

note = "Морозов Д.А., Смаль И.А. Машинное обучение и внутритекстовая разметка для нужд корпусной лингвистики: краткий обзор актуального состояния // Коммуникативные исследования. – 2025. – Т. 12. - № 4. – С. 865-880. – DOI 10.24147/2413-6182.2025.12(4).865-880. – EDN ALATVP.",

year = "2025",

doi = "10.24147/2413-6182.2025.12(4).865-880",

language = "русский",

volume = "12",

pages = "865--880",

journal = "Коммуникативные исследования",

issn = "2413-6182",

publisher = " Омский государственный университет им. Ф.М. Достоевского ",

number = "4",

}

RIS

TY - JOUR

T1 - Машинное обучение и внутритекстовая разметка для нужд корпусной лингвистики: краткий обзор актуального состояния

AU - Морозов, Дмитрий Алексеевич

AU - Смаль, Иван Андреевич

N1 - Морозов Д.А., Смаль И.А. Машинное обучение и внутритекстовая разметка для нужд корпусной лингвистики: краткий обзор актуального состояния // Коммуникативные исследования. – 2025. – Т. 12. - № 4. – С. 865-880. – DOI 10.24147/2413-6182.2025.12(4).865-880. – EDN ALATVP.

PY - 2025

Y1 - 2025

N2 - В современной корпусной лингвистике экспоненциальный рост объемов текстовых данных сделал невозможной их ручную разметку, что стало ключевым вызовом для дальнейшего развития корпусной лингвистики. Настоящая статья представляет краткий обзор ключевых методов машинного обучения, применяемых для внутритекстовой разметки в крупных лингвистических корпусах, с фокусом на русскоязычных проектах. В работе рассматриваются современные лингвистически аннотированные корпуса русского языка (Национальный корпус русского языка, Генеральный интернет-корпус русского языка и др.) и анализируются подходы к их автоматической разметке: от ранних словарных и статистических методов, таких как MyStem, PyMorphy2, TreeTagger, до современных нейросетевых архитектур, применяемых для лемматизации, морфосинтаксического, словообразовательного и семантического анализа. Показано, что применение машинного обучения, особенно предобученных языковых моделей, позволило достичь высокой точности, сопоставимой с экспертным уровнем, для наиболее актуальных видов лингвистической разметки. Это открывает новые возможности для создания корпусов беспрецедентного масштаба и проведения лингвистических исследований на по-настоящему крупных массивах данных. В то же время отмечено, что при подобных объемах корпусов даже незначительное отклонение точности разметки от идеальной приводит в абсолютном выражении к миллионам ошибок, что делает необходимым критическое осмысление получаемых при анализе автоматически размеченных корпусов результатов.

AB - В современной корпусной лингвистике экспоненциальный рост объемов текстовых данных сделал невозможной их ручную разметку, что стало ключевым вызовом для дальнейшего развития корпусной лингвистики. Настоящая статья представляет краткий обзор ключевых методов машинного обучения, применяемых для внутритекстовой разметки в крупных лингвистических корпусах, с фокусом на русскоязычных проектах. В работе рассматриваются современные лингвистически аннотированные корпуса русского языка (Национальный корпус русского языка, Генеральный интернет-корпус русского языка и др.) и анализируются подходы к их автоматической разметке: от ранних словарных и статистических методов, таких как MyStem, PyMorphy2, TreeTagger, до современных нейросетевых архитектур, применяемых для лемматизации, морфосинтаксического, словообразовательного и семантического анализа. Показано, что применение машинного обучения, особенно предобученных языковых моделей, позволило достичь высокой точности, сопоставимой с экспертным уровнем, для наиболее актуальных видов лингвистической разметки. Это открывает новые возможности для создания корпусов беспрецедентного масштаба и проведения лингвистических исследований на по-настоящему крупных массивах данных. В то же время отмечено, что при подобных объемах корпусов даже незначительное отклонение точности разметки от идеальной приводит в абсолютном выражении к миллионам ошибок, что делает необходимым критическое осмысление получаемых при анализе автоматически размеченных корпусов результатов.

KW - КОРПУСНАЯ ЛИНГВИСТИКА

KW - ЛИНГВИСТИЧЕСКИ АННОТИРОВАННЫЕ КОРПУСЫ ТЕКСТОВ

KW - МАШИННОЕ ОБУЧЕНИЕ

KW - АВТОМАТИЗИРОВАННАЯ ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА

KW - CORPUS LINGUISTICS

KW - LINGUISTICALLY ANNOTATED TEXT CORPORA

KW - MACHINE LEARNING

KW - AUTOMATED NATURAL LANGUAGE PROCESSING

UR - https://elibrary.ru/item.asp?id=86437105

U2 - 10.24147/2413-6182.2025.12(4).865-880

DO - 10.24147/2413-6182.2025.12(4).865-880

M3 - обзорная статья

VL - 12

SP - 865

EP - 880

JO - Коммуникативные исследования

JF - Коммуникативные исследования

SN - 2413-6182

IS - 4

M1 - 10

ER -

ID: 75490117