Research output: Contribution to journal › Article › peer-review
Кто поймет «Незнайку»? Автоматическое определение сложности текстов для детей. / Иодмин, Борис Леонидович; Morozov, Dmitry A.
In: Russkaya Rech, No. 5, 4, 2021, p. 55-68.Research output: Contribution to journal › Article › peer-review
}
TY - JOUR
T1 - Кто поймет «Незнайку»? Автоматическое определение сложности текстов для детей
AU - Иодмин, Борис Леонидович
AU - Morozov, Dmitry A.
N1 - Иомдин Б.Л., Морозов Д.А. Кто поймет «Незнайку»? Автоматическое определение сложности текстов для детей // Русская речь. - 2021. - № 5. - С. 55–68. Работа выполнена при финансовой поддержке РФФИ, проект 19-29-14224.
PY - 2021
Y1 - 2021
N2 - Необходимость оценить сложность текста для читателя может возникнуть в разных ситуациях: составление текстов договоров и законов, создание инструкций к приборам, написание учебников родного или иностранного языка, подбор литературы для внеклассного чтения. Особенно интересна оценка сложности учебных текстов для детей, поскольку к таким текстам предъявляется сразу несколько требований, отчасти противоречащих друг другу. Дети должны хорошо понимать эти тексты, они должны быть актуальны и интересны и одновременно учить читателей как новым концепциям, так и новым словам и конструкциям. Сейчас возрастная маркировка текстов для детей проводится экспертами вручную, что делает процесс долгим и трудоемким, а результат субъективным. В статье предлагается метод автоматической классификации текстов по сложности с использованием нейросетевой модели. Этот метод предполагается использовать для создания корпуса текстов детской литературы с разметкой по возрасту (в рамках НКРЯ). Качество предсказаний нашей модели достигло 0,92, она достаточно хорошо учитывает разнообразие лексики и набор тем. Появление автоматического механизма, с приемлемой точностью оценивающего степень сложности текста, позволит в короткие сроки создать представительный корпус текстов, написанных для детей, с возможностью подбора в нем текстов, заведомо понятных детям заданного возраста. Такой корпус будет востребован и учителями, и родителями, и переводчиками художественной литературы, и лингвистами, и всеми, кому важна возможность подбора понятных детям художественных текстов.
AB - Необходимость оценить сложность текста для читателя может возникнуть в разных ситуациях: составление текстов договоров и законов, создание инструкций к приборам, написание учебников родного или иностранного языка, подбор литературы для внеклассного чтения. Особенно интересна оценка сложности учебных текстов для детей, поскольку к таким текстам предъявляется сразу несколько требований, отчасти противоречащих друг другу. Дети должны хорошо понимать эти тексты, они должны быть актуальны и интересны и одновременно учить читателей как новым концепциям, так и новым словам и конструкциям. Сейчас возрастная маркировка текстов для детей проводится экспертами вручную, что делает процесс долгим и трудоемким, а результат субъективным. В статье предлагается метод автоматической классификации текстов по сложности с использованием нейросетевой модели. Этот метод предполагается использовать для создания корпуса текстов детской литературы с разметкой по возрасту (в рамках НКРЯ). Качество предсказаний нашей модели достигло 0,92, она достаточно хорошо учитывает разнообразие лексики и набор тем. Появление автоматического механизма, с приемлемой точностью оценивающего степень сложности текста, позволит в короткие сроки создать представительный корпус текстов, написанных для детей, с возможностью подбора в нем текстов, заведомо понятных детям заданного возраста. Такой корпус будет востребован и учителями, и родителями, и переводчиками художественной литературы, и лингвистами, и всеми, кому важна возможность подбора понятных детям художественных текстов.
KW - Children’s literature
KW - Corpus linguistics
KW - Machine learning
KW - Neural networks
KW - Readability
KW - Text complexity
UR - http://www.scopus.com/inward/record.url?scp=85119680551&partnerID=8YFLogxK
UR - https://www.mendeley.com/catalogue/81877067-77ea-3c14-8f5d-2338d0e52881/
U2 - 10.31857/S013161170017239-1
DO - 10.31857/S013161170017239-1
M3 - статья
AN - SCOPUS:85119680551
SP - 55
EP - 68
JO - Русская речь
JF - Русская речь
SN - 0131-6117
IS - 5
M1 - 4
ER -
ID: 34878171