Research output: Contribution to journal › Article › peer-review
Генерация ключевых слов для аннотаций русскоязычных научных статей. / Морозов, Дмитрий Алексеевич; Glazkova, Anna; Тютюльников, Михаил Андреевич et al.
In: Вестник Новосибирского государственного университета. Серия: Лингвистика и межкультурная коммуникация, Vol. 21, No. 1, 2023, p. 54-66.Research output: Contribution to journal › Article › peer-review
}
TY - JOUR
T1 - Генерация ключевых слов для аннотаций русскоязычных научных статей
AU - Морозов, Дмитрий Алексеевич
AU - Glazkova, Anna
AU - Тютюльников, Михаил Андреевич
AU - Iomdin, Boris
N1 - Работа выполнена в рамках проекта № МК-3118.2022, поддержанного грантом Президента Российской Федерации для молодых ученых - кандидатов наук. Генерация ключевых слов для аннотаций русскоязычных научных статей / Д. А. Морозов, А. В. Глазкова, М. А. Тютюльников, Б. Л. Иомдин // Вестник Новосибирского государственного университета. Серия: Лингвистика и межкультурная коммуникация. – 2023. – Т. 21, № 1. – С. 54-66. – DOI 10.25205/1818-7935-2023-21-1-54-66.
PY - 2023
Y1 - 2023
N2 - В этой работе мы попробовали адаптировать различные известные механизмы генерации ключевых слов к весьма специфичному корпусу: аннотациям русскоязычных научных статей из области математики и компьютерных наук. В такой постановке сразу несколько сложностей: отсутствие масштабных исследований механизмов генерации для русского языка, отсутствие крупных корпусов аннотаций и в целом длина аннотаций: если для полного текста ключевые слова обычно встречаются в статье и достаточно лишь выделить их, для аннотаций характерно отсутствие ключевых слов в тексте в явном виде. При этом в открытый доступ попадают обычно именно аннотации, и автоматическая генерация ключевых слов для них позволила бы существенно улучшить возможности поиска по статьям. Причем генерировать слова стоит и для тех статей, в которых авторы сами их указали, так как в ходе исследования мы обнаружили, что используемые ключевые слова нередко уникальны для конкретной статьи, а значит, по таким словам невозможно сформировать подкорпус статей по заданной тематике. Для визуализации результатов работы мы создали ресурс keyphrases.mca.nsu.ru, на котором начинающие исследователи могут сформировать приблизительный список слов для своей первой публикации.
AB - В этой работе мы попробовали адаптировать различные известные механизмы генерации ключевых слов к весьма специфичному корпусу: аннотациям русскоязычных научных статей из области математики и компьютерных наук. В такой постановке сразу несколько сложностей: отсутствие масштабных исследований механизмов генерации для русского языка, отсутствие крупных корпусов аннотаций и в целом длина аннотаций: если для полного текста ключевые слова обычно встречаются в статье и достаточно лишь выделить их, для аннотаций характерно отсутствие ключевых слов в тексте в явном виде. При этом в открытый доступ попадают обычно именно аннотации, и автоматическая генерация ключевых слов для них позволила бы существенно улучшить возможности поиска по статьям. Причем генерировать слова стоит и для тех статей, в которых авторы сами их указали, так как в ходе исследования мы обнаружили, что используемые ключевые слова нередко уникальны для конкретной статьи, а значит, по таким словам невозможно сформировать подкорпус статей по заданной тематике. Для визуализации результатов работы мы создали ресурс keyphrases.mca.nsu.ru, на котором начинающие исследователи могут сформировать приблизительный список слов для своей первой публикации.
KW - Статья
KW - Отсутствие крупных корпусов аннотаций
KW - Слова
KW - Длина аннотаций
KW - Ключевые слова
KW - ARTICLE
KW - LACK OF LARGE CORPORA OF ABSTRACTS
KW - WORDS
KW - OVERALL LENGTH OF ANNOTATIONS
KW - KEY
UR - https://www.elibrary.ru/item.asp?id=53833761
U2 - 10.25205/1818-7935-2023-21-1-54-66
DO - 10.25205/1818-7935-2023-21-1-54-66
M3 - статья
VL - 21
SP - 54
EP - 66
JO - Вестник Новосибирского государственного университета. Серия: Лингвистика и межкультурная коммуникация
JF - Вестник Новосибирского государственного университета. Серия: Лингвистика и межкультурная коммуникация
SN - 1818-7935
IS - 1
ER -
ID: 72051949