Research output: Contribution to journal › Article › peer-review
Извлечение семантических отношений из текстов научных статей. / Тихобаева, Ольга Юрьевна; Бручес, Елена Павловна; Батура, Татьяна Викторовна.
In: Вестник Новосибирского государственного университета. Серия: Информационные технологии, Vol. 20, No. 3, 6, 2022, p. 65-76.Research output: Contribution to journal › Article › peer-review
}
TY - JOUR
T1 - Извлечение семантических отношений из текстов научных статей
AU - Тихобаева, Ольга Юрьевна
AU - Бручес, Елена Павловна
AU - Батура, Татьяна Викторовна
N1 - Тихобаева О.Ю., Бручес Е.П., Батура Т.В. Извлечение семантических отношений из текстов научных статей // Вестник НГУ. Серия: Информационные технологии. - Т. 20. - № 3. - С. 65–76.
PY - 2022
Y1 - 2022
N2 - В современном мире количество научных публикаций, существующих в виде электронного текста, постоянно растет. В связи с этим задачи, связанные с обработкой текстов научных статей, становятся особо актуальными. Данная работа посвящена задаче извлечения семантических отношений между сущностями из текстов научных статей на русском языке, где в качестве сущностей выступают научные термины. Извлечение отношений может быть полезно в отдельных специализированных областях, таких как поисковые и вопросно-ответные системы, а также при составлении онтологий. В ходе работы нами был создан корпус научных текстов, состоящий из 136 аннотаций научных статей на русском языке, в которых выделены 353 отношения следующих типов: USAGE, ISA, TOOL, SYNONYMS, PART_OF, CAUSE. Данный корпус использовался нами для обучения моделей. Кроме того, мы реализовали алгоритм автоматического извлечения семантических отношений и протестировали его на уже существующем корпусе научных текстов RuSERRC. Для реализации алгоритма использовалась нейросетевая модель BERT. Мы провели ряд экспериментов, связанных с использованием векторов, полученных из различных языковых моделей, а также с двумя нейросетевыми архитектурами. Разработанный инструмент и размеченный корпус выложены в открытый доступ и могут быть полезны для других исследователей.
AB - В современном мире количество научных публикаций, существующих в виде электронного текста, постоянно растет. В связи с этим задачи, связанные с обработкой текстов научных статей, становятся особо актуальными. Данная работа посвящена задаче извлечения семантических отношений между сущностями из текстов научных статей на русском языке, где в качестве сущностей выступают научные термины. Извлечение отношений может быть полезно в отдельных специализированных областях, таких как поисковые и вопросно-ответные системы, а также при составлении онтологий. В ходе работы нами был создан корпус научных текстов, состоящий из 136 аннотаций научных статей на русском языке, в которых выделены 353 отношения следующих типов: USAGE, ISA, TOOL, SYNONYMS, PART_OF, CAUSE. Данный корпус использовался нами для обучения моделей. Кроме того, мы реализовали алгоритм автоматического извлечения семантических отношений и протестировали его на уже существующем корпусе научных текстов RuSERRC. Для реализации алгоритма использовалась нейросетевая модель BERT. Мы провели ряд экспериментов, связанных с использованием векторов, полученных из различных языковых моделей, а также с двумя нейросетевыми архитектурами. Разработанный инструмент и размеченный корпус выложены в открытый доступ и могут быть полезны для других исследователей.
KW - извлечение отношений
KW - научные термины
KW - разметка данных
KW - языковые модели
KW - обработка текстов
UR - https://www.elibrary.ru/item.asp?id=50234390
UR - https://www.mendeley.com/catalogue/68a06dbc-b61f-3755-bbed-aaca93aa27b6/
U2 - 10.25205/1818-7900-2022-20-3-65-76
DO - 10.25205/1818-7900-2022-20-3-65-76
M3 - статья
VL - 20
SP - 65
EP - 76
JO - Вестник Новосибирского государственного университета. Серия: Информационные технологии
JF - Вестник Новосибирского государственного университета. Серия: Информационные технологии
SN - 1818-7900
IS - 3
M1 - 6
ER -
ID: 48507264