Standard

Извлечение семантических отношений из текстов научных статей. / Тихобаева, Ольга Юрьевна; Бручес, Елена Павловна; Батура, Татьяна Викторовна.

In: Вестник Новосибирского государственного университета. Серия: Информационные технологии, Vol. 20, No. 3, 6, 2022, p. 65-76.

Research output: Contribution to journalArticlepeer-review

Harvard

Тихобаева, ОЮ, Бручес, ЕП & Батура, ТВ 2022, 'Извлечение семантических отношений из текстов научных статей', Вестник Новосибирского государственного университета. Серия: Информационные технологии, vol. 20, no. 3, 6, pp. 65-76. https://doi.org/10.25205/1818-7900-2022-20-3-65-76

APA

Тихобаева, О. Ю., Бручес, Е. П., & Батура, Т. В. (2022). Извлечение семантических отношений из текстов научных статей. Вестник Новосибирского государственного университета. Серия: Информационные технологии, 20(3), 65-76. [6]. https://doi.org/10.25205/1818-7900-2022-20-3-65-76

Vancouver

Тихобаева ОЮ, Бручес ЕП, Батура ТВ. Извлечение семантических отношений из текстов научных статей. Вестник Новосибирского государственного университета. Серия: Информационные технологии. 2022;20(3):65-76. 6. doi: 10.25205/1818-7900-2022-20-3-65-76

Author

Тихобаева, Ольга Юрьевна ; Бручес, Елена Павловна ; Батура, Татьяна Викторовна. / Извлечение семантических отношений из текстов научных статей. In: Вестник Новосибирского государственного университета. Серия: Информационные технологии. 2022 ; Vol. 20, No. 3. pp. 65-76.

BibTeX

@article{7c14136e032243e7990332d4c7d027f0,
title = "Извлечение семантических отношений из текстов научных статей",
abstract = "В современном мире количество научных публикаций, существующих в виде электронного текста, постоянно растет. В связи с этим задачи, связанные с обработкой текстов научных статей, становятся особо актуальными. Данная работа посвящена задаче извлечения семантических отношений между сущностями из текстов научных статей на русском языке, где в качестве сущностей выступают научные термины. Извлечение отношений может быть полезно в отдельных специализированных областях, таких как поисковые и вопросно-ответные системы, а также при составлении онтологий. В ходе работы нами был создан корпус научных текстов, состоящий из 136 аннотаций научных статей на русском языке, в которых выделены 353 отношения следующих типов: USAGE, ISA, TOOL, SYNONYMS, PART_OF, CAUSE. Данный корпус использовался нами для обучения моделей. Кроме того, мы реализовали алгоритм автоматического извлечения семантических отношений и протестировали его на уже существующем корпусе научных текстов RuSERRC. Для реализации алгоритма использовалась нейросетевая модель BERT. Мы провели ряд экспериментов, связанных с использованием векторов, полученных из различных языковых моделей, а также с двумя нейросетевыми архитектурами. Разработанный инструмент и размеченный корпус выложены в открытый доступ и могут быть полезны для других исследователей.",
keywords = "извлечение отношений, научные термины, разметка данных, языковые модели, обработка текстов",
author = "Тихобаева, {Ольга Юрьевна} and Бручес, {Елена Павловна} and Батура, {Татьяна Викторовна}",
note = "Тихобаева О.Ю., Бручес Е.П., Батура Т.В. Извлечение семантических отношений из текстов научных статей // Вестник НГУ. Серия: Информационные технологии. - Т. 20. - № 3. - С. 65–76.",
year = "2022",
doi = "10.25205/1818-7900-2022-20-3-65-76",
language = "русский",
volume = "20",
pages = "65--76",
journal = "Вестник Новосибирского государственного университета. Серия: Информационные технологии",
issn = "1818-7900",
publisher = "ИПЦ НГУ",
number = "3",

}

RIS

TY - JOUR

T1 - Извлечение семантических отношений из текстов научных статей

AU - Тихобаева, Ольга Юрьевна

AU - Бручес, Елена Павловна

AU - Батура, Татьяна Викторовна

N1 - Тихобаева О.Ю., Бручес Е.П., Батура Т.В. Извлечение семантических отношений из текстов научных статей // Вестник НГУ. Серия: Информационные технологии. - Т. 20. - № 3. - С. 65–76.

PY - 2022

Y1 - 2022

N2 - В современном мире количество научных публикаций, существующих в виде электронного текста, постоянно растет. В связи с этим задачи, связанные с обработкой текстов научных статей, становятся особо актуальными. Данная работа посвящена задаче извлечения семантических отношений между сущностями из текстов научных статей на русском языке, где в качестве сущностей выступают научные термины. Извлечение отношений может быть полезно в отдельных специализированных областях, таких как поисковые и вопросно-ответные системы, а также при составлении онтологий. В ходе работы нами был создан корпус научных текстов, состоящий из 136 аннотаций научных статей на русском языке, в которых выделены 353 отношения следующих типов: USAGE, ISA, TOOL, SYNONYMS, PART_OF, CAUSE. Данный корпус использовался нами для обучения моделей. Кроме того, мы реализовали алгоритм автоматического извлечения семантических отношений и протестировали его на уже существующем корпусе научных текстов RuSERRC. Для реализации алгоритма использовалась нейросетевая модель BERT. Мы провели ряд экспериментов, связанных с использованием векторов, полученных из различных языковых моделей, а также с двумя нейросетевыми архитектурами. Разработанный инструмент и размеченный корпус выложены в открытый доступ и могут быть полезны для других исследователей.

AB - В современном мире количество научных публикаций, существующих в виде электронного текста, постоянно растет. В связи с этим задачи, связанные с обработкой текстов научных статей, становятся особо актуальными. Данная работа посвящена задаче извлечения семантических отношений между сущностями из текстов научных статей на русском языке, где в качестве сущностей выступают научные термины. Извлечение отношений может быть полезно в отдельных специализированных областях, таких как поисковые и вопросно-ответные системы, а также при составлении онтологий. В ходе работы нами был создан корпус научных текстов, состоящий из 136 аннотаций научных статей на русском языке, в которых выделены 353 отношения следующих типов: USAGE, ISA, TOOL, SYNONYMS, PART_OF, CAUSE. Данный корпус использовался нами для обучения моделей. Кроме того, мы реализовали алгоритм автоматического извлечения семантических отношений и протестировали его на уже существующем корпусе научных текстов RuSERRC. Для реализации алгоритма использовалась нейросетевая модель BERT. Мы провели ряд экспериментов, связанных с использованием векторов, полученных из различных языковых моделей, а также с двумя нейросетевыми архитектурами. Разработанный инструмент и размеченный корпус выложены в открытый доступ и могут быть полезны для других исследователей.

KW - извлечение отношений

KW - научные термины

KW - разметка данных

KW - языковые модели

KW - обработка текстов

UR - https://www.elibrary.ru/item.asp?id=50234390

UR - https://www.mendeley.com/catalogue/68a06dbc-b61f-3755-bbed-aaca93aa27b6/

U2 - 10.25205/1818-7900-2022-20-3-65-76

DO - 10.25205/1818-7900-2022-20-3-65-76

M3 - статья

VL - 20

SP - 65

EP - 76

JO - Вестник Новосибирского государственного университета. Серия: Информационные технологии

JF - Вестник Новосибирского государственного университета. Серия: Информационные технологии

SN - 1818-7900

IS - 3

M1 - 6

ER -

ID: 48507264