Оценка читабельности учебного мультимодального текста методами компьютерной лингвистики и психофизиологии

Веселовская Татьяна Сергеевна

Член творческого коллектива проекта


Лаборатория когнитивных и лингвистических исследований

Научный сотрудник

Кандидат филологических наук

Лапошина Антонина Николаевна

Член творческого коллектива проекта


Лебедева Мария Юрьевна

Член творческого коллектива проекта


Купрещенко Ольга Федоровна

Член творческого коллектива проекта


Пучкова Александра Николаевна

Член творческого коллектива проекта


Лаборатория когнитивных и лингвистических исследований

Ведущий научный сотрудник

Кандидат биологических наук

puchkovaan@gmail.com

+7 916 509 91 48

Трубицина Мария Владимировна

Член творческого коллектива проекта

Грант РФФИ

"Оценка читабельности учебного мультимодального текста методами компьютерной лингвистики и психофизиологии" 

№ 17-29-09156 (2018-2021 гг.)

Руководитель проекта: Варламов Антон Алексеевич

Исполнители проекта: 

Веселовская Татьяна Сергеевна

Лапошина Антонина Николаевна

Лебедева Мария Юрьевна

Купрещенко Ольга Федоровна

Пучкова Александра Николаевна

Трубицина Мария Владимировна 


Проект направлен на комплексное исследование сложности учебных текстов, учитывая как языковую сложность (сложные слова, длинные предложения, трудные грамматические конструкции), так и визуальную сложность текста (шрифт, верстка, сопровождение иллюстрациями). 

Первый год реализации проекта был посвящен выполнению следующих задач:

  1. Составление репрезентативной коллекции современных учебников и учебных пособий русского языка и литературного чтения, русского как иностранного и русского как неродного (эритажного). 
  2. Разметка корпуса учебников. Проведение анализа полученных данных. 
  3. Отбор лингвистических параметров, потенциально способных влиять на сложность текста.
  4. Подготовка и проведение пилотного эксперимента с фиксацией движений глаз.

Для создания корпуса были отобраны учебники по русскому языку и литературному чтению для детей с разным исходным уровнем знания языка (носители языка; дети, изучающие русский язык как второй / неродной; дети, изучающие русский язык как иностранный; дети с семейным русским языком, находящиеся в условиях ограниченной языковой среды).  Отбор проходил на основании соответствия Федеральному государственному образовательному стандарту начального общего образования (ФГОС НОО), включения в Федеральный перечень учебников, отзывов сообществ учителей и родителей (в первую очередь нас интересовали учебники с противоречивыми отзывами от тех, кто непосредственно работает с учебным материалом), а также учебники нестандартных методических школ (так, УМК системы развивающего обучения Л.В. Занкова основан на идеях Л.С. Выготского, над созданием учебника под общ. ред. Г.Г. Граник и В.В. Рубцова работали нейропсихологи - хотя эти учебники и не входят в список рекомендованных ФГОС, их включение в корпус было важно для репрезентации разных методических подходов к обучению). 

Общий объем размеченного и обработанного блока корпуса на данный момент составляет 4 линейки учебников: около 450 тыс.токенов и 5 340 иллюстраций. 

Простейшим элементом корпуса является законченный, визуально отделяемый блок текста, размеченный по следующим параметрам: 

  • аппарат учебника (текст, формулировка задания, список лексики и др.);
  • тип текста (поэзия или проза);
  • авторство (аутентичный, адаптированный, сконструированный);
  • тип связи текста с иллюстрацией (декорация, навигация, репрезентация лексики и др.)

Так как наш корпус является мультимодальным, то есть состоит из учебных текстов,  информация в которых передается с помощью вербальной и визуальной статической модальности (иллюстрации, шрифт, дизайн и т. д.), текстовые блоки были размечены как по текстовым параметрам, так и по типу связи текста с иллюстрацией.  Это позволяет проанализировать влияние иллюстративного материала на восприятие учебного текста. 


На основании изучения российской и зарубежной литературы по данному вопросу, были отобраны более 70 лингвистических признаков, потенциально способных влиять на сложность текста. Среди них:

  • Общие признаки текста (средняя длина предложения, средняя длина слова, количество пунктуации на предложение, количество длинных слов в тексте и др.)
  • Лексические (процент слов, входящих в частотные списки слов русского языка, входящих в список устаревших слов и др.)
  • Грамматические (процент слов в родительном падеже, среднее количество существительных на предложение, процент причастий в тексте, процент пассивных форм глаголов в тексте и мн. др.)
  • Семантические (процент абстрактных слов в тексте, процент эмотивной лексики и др.)

Каждый текстовый блок был автоматически размечен по всем отобранным  признакам. На основании полученных данных были подготовлены тексты, предположительно представляющие разные типы сложности для учащихся (лексическая сложность - непонятные слова, фонетическая сложность - сложно прочитать, синтаксическая сложность - трудная конструкция)  для проведения эксперимента с айтрекингом.

Метод айтрекинга (от англ. Eye tracking, отслеживание глаз) позволяет непрерывно и бесконтактно отслеживать направление движения взгляда человека. Он нашел широкое применение в медицине, психологии, исследованиях восприятия и профессиональной деятельности. Айтрекинг позволяет с большой точностью проследить процессы рассматривания изображений и чтения текстов. С этой целью его используют в исследованиях юзабилити, маркетинге и лингвистике. 


Применение айтрекинга при анализе учебной литературы позволяет исследовать, куда в каждый конкретный момент направлено внимание школьника, помогают или отвлекают его иллюстрации, не мешают ли читать детали оформления на полях страницы. Это особенно важно для учеников младшей школы, поскольку они только учатся управлять своим вниманием и легко могут отвлечься на какую-нибудь яркую, но неважную деталь. Задачу школьнику может усложнить и неудачное оформление текста. Например, если строчки расположены слишком близко друг к другу, ребенок может случайно “перескочить” взглядом не туда, так как в первом классе он только осваивает навык чтения. Айтрекинг может показать, на каких сложных словах или частях предложения “спотыкается” читатель, и подтвердить модели оценки сложности текста, разработанные лингвистами.

В 2019 году мы провели пилотное айтрекинговое исследование с участием учеников младших классов на материале текстов учебников 2-3 классов. Основной целью этого этапа исследования было наметить шкалу читабельности текстов разной степени сложности. Читабельность измерялась при этом средней скоростью чтения, средним количеством фиксаций и возвратов, а также успешностью ответов на послетекстовые задания. 


Публикации по проекту:

  1. Laposhina А. N., Veselovskaya Т. S., Lebedeva M. U., Kupreshchenko O. F. Automated Text Readability Assessment For Russian Second Language Learners // Komp'juternaja Lingvistika i Intellektual'nye Tehnologii Сер. "Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference "Dialogue 2018". Issue 17 (24), 2018, P. 396-406 https://elibrary.ru/item.asp?id=35719389.

  2. Купрещенко О.Ф., Веселовская Т.С. Мультимодальный учебный текст: типы взаимодействия вербального и визуального компонентов // Динамика языковых и культурных процессов в современной России 2018. № 6. С. 1405-1410. https://elibrary.ru/item.asp?id=36590956

  3. Лапошина А.Н., Веселовская Т.С., Купрещенко О.Ф. Иллюстративно-текстовый корпус учебников русского языка для детей младшего школьного возраста: концепция и методика создания//Труды международной конференции "Корпусная лингвистика - 2019". - СПб.: Изд-во С.-Петерб. ун-та, 2019, С. 63-72. https://publications.hse.ru/mirror/pubs/share/direct/295308791

  4. Лапошина А.Н., Веселовская Т.С., Лебедева М.Ю. Купрещенко О.Ф. Лексический состав текстов учебников русского языка для младшей школы: корпусное исследование//Компьютерная лингвистика и интеллектуальные технологии: по материалам международной конференции «Диалог 2019». Выпуск 18 (25), 2019

  5. Купрещенко О.Ф. Лапошина А.Н. Формулировки заданий в учебнике русского языка для начальной школы как отражение методических особенностей пособия: корпусное исследование // Материалы Международной научно-практической конференции (в рамках Международного Кирилло-Мефодиевского фестиваля славянских языков и культур), Москва: Изд-во Государственного института русского языка им. А.С. Пушкина, 2019. С. 366-372. https://elibrary.ru/publisher_books.asp?publishid=1826

  6. Веселовская Т.С. Визуальный компонент учебника для начальной школы как источник социокультурной информации // Материалы Международной научно-практической конференции (в рамках Международного Кирилло-Мефодиевского фестиваля славянских языков и культур), Москва: Изд-во Государственного института русского языка им. А.С. Пушкина, 2019. С. 105-110. https://www.pushkin.institute/science/konferencii/kirillo-mefodievskiy_festival/Sbornik_KMF_itog_201...


СМИ о проекте:

Интернет-издание “Мел” https://mel.fm/shkola/4038271-russian_textbook#comments

Интернет-издание “Системный Блокъ” https://sysblok.ru/education/pomedlennee-ja-zapisyvaju/

Радио “Комсомольская правда” https://www.kp.ru/radio/26988.5/4047605/


По поводу доступа к рабочей версии корпуса учебников русского языка и предложениям о сотрудничестве свяжитесь с нами, пожалуйста, по почте antonina.laposhina@gmail.com

  • Финансирующая организация:
    Российский фонд фундаментальных исследований
    Номер договора/соглашения:
    17-29-09156
    Срок действия:
    c 2018 по 2021

    Основные даты проекта

    проект: 2018 – 2021

  • Цели и задачи:
    Проект направлен на комплексное исследование сложности учебных текстов, учитывая как языковую сложность (сложные слова, длинные предложения, трудные грамматические конструкции), так и визуальную сложность текста (шрифт, верстка, сопровождение иллюстрациями).
  • Актуальность и новизна идеи проекта:
    Абзац об актуальности и новизне. Проект направлен на комплексное исследование сложности учебных текстов, учитывая как языковую сложность (сложные слова, длинные предложения, трудные грамматические конструкции), так и визуальную сложность текста (шрифт, верстка, сопровождение иллюстрациями).
  • Практическая значимость:
    Абзац о практической значимости
  • Достигнутые результаты:
    Первый год реализации проекта был посвящен выполнению следующих задач: Составление репрезентативной коллекции современных учебников и учебных пособий русского языка и литературного чтения, русского как иностранного и русского как неродного (эритажного). Разметка корпуса учебников. Проведение анализа полученных данных. Отбор лингвистических параметров, потенциально способных влиять на сложность текста. Подготовка и проведение пилотного эксперимента с фиксацией движений глаз. Для создания корпуса были отобраны учебники по русскому языку и литературному чтению для детей с разным исходным уровнем знания языка (носители языка; дети, изучающие русский язык как второй / неродной; дети, изучающие русский язык как иностранный; дети с семейным русским языком, находящиеся в условиях ограниченной языковой среды). Отбор проходил на основании соответствия Федеральному государственному образовательному стандарту начального общего образования (ФГОС НОО), включения в Федеральный перечень учебников, отзывов сообществ учителей и родителей (в первую очередь нас интересовали учебники с противоречивыми отзывами от тех, кто непосредственно работает с учебным материалом), а также учебники нестандартных методических школ (так, УМК системы развивающего обучения Л.В. Занкова основан на идеях Л.С. Выготского, над созданием учебника под общ. ред. Г.Г. Граник и В.В. Рубцова работали нейропсихологи - хотя эти учебники и не входят в список рекомендованных ФГОС, их включение в корпус было важно для репрезентации разных методических подходов к обучению). Общий объем размеченного и обработанного блока корпуса на данный момент составляет 4 линейки учебников: около 450 тыс.токенов и 5 340 иллюстраций. Простейшим элементом корпуса является законченный, визуально отделяемый блок текста, размеченный по следующим параметрам: аппарат учебника (текст, формулировка задания, список лексики и др.); тип текста (поэзия или проза); авторство

Пока нет документов.

МАТЕРИАЛЫ В СМИ

Пока нет материалов.

АНОНСЫ

Пока нет материалов.

НОВОСТИ

Пока нет материалов.

На официальном сайте ФГБОУ ВО "Гос. ИРЯ им. А.С. Пушкина" используются технологии cookies и их аналоги для качественной работы сайта и хранения пользовательских настроек на устройстве пользователя. Также мы собираем данные с помощью сервисов Google Analytics, Яндекс.Метрика, счётчиков Mail.ru и Спутник для статистики посещений сайта. Нажимая ОК и продолжая пользоваться сайтом, Вы подтверждаете, что Вы проинформированы и согласны с этим и с нашей Политикой в отношении обработки персональных данных, даёте своё согласие на обработку Ваших персональных данных. При несогласии просим Вас покинуть сайт и не пользоваться им. Вы можете отключить cookies в настройках Вашего веб-браузера.
The Pushkin Institute's official website uses cookies to ensure high-quality work and storage of users' settings on their devices. We also collect some data for site statistics using Google Analytics, Yandex.Metrika, Mail.ru and Sputnik counters. By clicking OK and continuing using our website, you acknowledge you are informed of and agree with that and our Privacy Policy. If you are not agree we kindly ask you to leave our website and not to use it. You may switch off cookies in your browser tools.