Российские ученые разработали алгоритм, который по сообщениям в социальных сетях может отличать отличников от двоечников с точностью до 94%. Статью с результатами его работы опубликовал научный журнал EPJ Data Science, кратко об этом пишет ТАСС со ссылкой на пресс-службу Высшей школы экономики.

Фото: pixabay.com
Фото: pixabay.com

«Наша модель с точностью до 94% выявляла учащихся с высокой и низкой успеваемостью по постам во „ВКонтакте“. Также мы успешно применили ее и к коротким текстам в твиттере. Такой подход может быть полезен и для выявления депрессии, влияющей на учебные достижения», — рассказал автор работы, заведующий лабораторией вычислительных социальных наук Института образования НИУ ВШЭ Иван Смирнов.

В последние десять лет социологи, математики, физики и даже эпидемиологи активно изучают, как информация распространяется через социальные сети и как подобные данные можно использовать для того, чтобы узнавать о чертах характера и поведении пользователей подобных сайтов.

К примеру, два года назад американские социологи создали систему, с помощью которой можно было по сообщениям в Facebook оценивать вероятность развода. Их российские коллеги научились вычислять семейное положение пользователей и пол человека по его активности в социальных сетях. Аналогичным образом британские ученые создали алгоритмы, которые оценивали уровень IQ и пять основных черт личности человека по его лайкам.

Смирнов и его коллеги задумались о том, можно ли с помощью подобных технологий определить успеваемость школьников и студентов, а также оценить, какие проблемы могут мешать им успешно учиться.

Что характеризует двоечников и отличников

Для этого ученые собрали и изучили сообщения, которые на своих страницах во «ВКонтакте» оставляли примерно 2,4 тыс. подростков, проходивших в 2012 году специальный тест на оценку грамотности и способности применять знания на практике в рамках Международной программы по оценке образовательных достижений учащихся (PISA).

Ученые использовали эти данные, чтобы натренировать нейросети, которые могут анализировать смысловое содержание и стилистику текстовых сообщений в социальных сетях и сопоставлять их с типичным уровнем образования и успеваемости людей, для которых характерны подобные интересы, знания и стиль написания.

После того как нейросеть научилась определять двоечников и отличников достаточно точно, Смирнов и его коллеги проверили работу алгоритма на наборе данных, полученных при анализе сообщений студентов из ста крупнейших вузов России. Благодаря этому они подтвердили точность предсказаний нейросети и выделили несколько типичных черт двоечников и отличников.

В частности, алгоритм обнаружил, что для последних были характерны длинные тексты, связанные с литературой, физикой и описанием мыслительных процессов. Вдобавок у них богатый лексикон, в котором часто присутствуют иностранные слова. Для двоечников характерны ошибки, смайлы, восклицания и слова, написанные заглавными буквами. Они чаще обсуждают гороскопы, военную службу и ДТП.

«Наши результаты лишний раз показали, насколько уязвима конфиденциальность пользователя в социальной сети. Люди переживают из-за вездесущих камер и систем распознавания лиц, однако даже такой, казалось бы, незначительный цифровой след, как короткий текст, может стать источником информации, которую человек даже не собирался раскрывать», — подытожил Смирнов.

-35%
-10%
-25%
-52%
-25%
-22%
-45%
-21%
-10%
-30%
-25%