Выражение “встречают по одежке” безнадежно устарело. Наш внешний вид уже давно никого не интересует, потому что мы все погружаемся в виртуальный мир. А здесь узнают человека не по одежке, а по постам в Фейсбуке и ВКонтакте. И тут возникает большая проблема. Потому что все наши доисторические умения производить хорошее впечатление (“побольше молчи - за умного сойдешь”, “делай загадочное лицо, дура” и т.д.) в цифровую эпоху совершенно неприменимы.

Так как же в новую эпоху писать очаровательные посты, тем самым завоевывая друзей и оказывая влияние на людей, спросите вы? Ответ на этот вопрос может подсказать исследование заведующего Лабораторией вычислительных социальных наук НИУ ВШЭ, кандидата наук Ивана Смирнова. С помощью алгоритмов искусственного интеллекта он изучал связь между постами школьников ВКонтакте и Твиттере и их академической успеваемостью. Выяснилось, что практически вся широта нашего ума удивительно точным образом отражается в наших сообщениях в соцсетях. Об интеллекте и кругозоре пользователей откровенно и недвусмысленно окружающим рассказывают знаки препинания, эмодзи (пиктограммки и смайлики), латинские буквы, слова и фамилии известных людей и политических деятелей, которые вы используете. И даже шрифты, которым вы набираете тексты.

Стобалльника ЕГЭ можно вычислить на подлете

Сильная сторона искусственного интеллекта заключается в том, что он может сравнивать между собой гигантское количество данных и находить закономерности в самых незначительных деталях. Так же как служебная собака способна пойти по следу, уловив носом всего несколько молекул запаха. Только искусственному интеллекту в данном случае нужно “обнюхать” цифровой след, который люди оставляют в интернете и социальных сетях.

Для начала алгоритм дрессировали искать закономерности на обучающей выборке. Эти данные нашлись в лонгитюдном исследовании “Траектории в образовании и профессии”, оно следило за образовательными успехами более 4 тысяч школьников, которые участвовали в мониторинге PISA - это международная программа оценки качества образования. Среди прочего ученики указывали свои аккаунты ВКонтакте. После того, как были отсеяны аккаунты ставшие неактуальными (страницы не велись или доступ к ним был ограничен) в обучающей выборке остался набор данных в виде 130 575 постов от 2 468 школьников. А затем алгоритм принялся искать закономерности между содержанием сообщений в “ВК” и результатами, которые их авторы показали в тестах PISA.

В итоге алгоритм научился с точностью 93,7 процента определять кем был написан пост - отличником или двоечником.

Тогда эффективность алгоритма решено было проверить уже на практической задаче: можно ли по сообщениям в соцсетях предсказать количество баллов, которое школьник наберет на ЕГЭ? Оказалось, что да.

Натренированному на обучающей выборке искусственному интеллекту дали проанализировать 1 064 371 постов 38 833 российских школьников (в исследовании участвовали 914 школ Санкт-Петербурга, Самары и Томска). По словам автора Ивана Смирнова и в этом случае была обнаружена сильная связь между постами и успеваемостью, несмотря на то, что при обучении алгоритма академическая успеваемость измерялась иначе (по результатам PISA, а не ЕГЭ). Высокая эффективность модели сохранялась даже когда посты ВКонтакте заменяли сообщениями в Твиттере, а также при анализе успеваемости студентов 100 крупнейших вузов России (115,8 тысяч учащихся, 6,5 миллионов постов). Любопытно, что в последнем случае из анализа был исключен Московский государственный университете, поскольку оказалось, что бренд МГУ по умолчанию используется для создания ботов и фейковых аккаунтов.

Великий пост. Как его создать?

По каким же признакам искусственный интеллект отличает умника от балбеса? Алгоритм оказался чувствительным к множеству нюансов: это частота использования восклицательных знаков и прописных букв (совет - не пишите сообщения заглавными буквами, если не хотите выглядеть Светой из Иванова, это телевизионный персонаж и интернет-мем, знаменитый своим косноязычием - Авт). Имеет значение так же длинна поста и количество букв в словах - алгоритму нравятся, когда используют длинные слова, короткие - признак примитивного словарного запаса. Интересным маркером успеваемости служат названия спиртных напитков. Слово “водка” чаще употребляют отстающие, “вино” - интересует тех, кто учится получше. А “пиво” занимает среднюю позицию между ними.

Кроме того, важным показателем оказалась лексика, которую используют создатели постов. Автор исследования вычислил коэффициенты для 2,5 миллиона слов, разделив корпус слов на условно говоря “высокую” и “низкую” лексику.

Лексика “интеллектуала”

- слова, относящиеся к литературе ( Брэдбери, “Одуванчик”, “Фаренгейт”, Оруэлл, Хаксли, Фолкнер, Набоков, Бродский, Камю, Манн, Шелли, Шекспир, Гарри, Дамблдор, Макгонагалл);

- слова, относящиеся к чтению (читать, перечитывать, опубликовать, книга, том);

- слова, относящиеся к физике (Вселенная, черная дыра, теория струн, квант, Эйнштейн, Ньютон, Хокинг);

- слова, относящиеся к процессам мышления, включая различные синонимы понятий «мышления» и «запоминания».

- английские слова (above - выше, saying - говоря, yours - ваш, must - должен).

Лексика “троечника”

- названия популярных компьютерных игр;

- слова, относящиеся к военной службе (армия, служить, военная присяга);

- слова относящиеся к гороскопам (астропрогноз, Овен, Стрелец)

- автомобильная лексика (ДТП, ГИБДД, тюнинг, колеса);

- слова написаны с орфографическими ошибками или с опечатками.

Золушки, фильтруйте базар!

Автор исследования рассчитывает использовать свою методику в научных целях. Например, для отслеживания академических успехов учащихся или даже школ в целом. Однако и для массового пользователя наблюдения искусственного интеллекта могут сослужить хорошую службу. Потому что если вы хотите достойно выглядеть в Сети, то надо научиться фильтровать базар или, выражаясь высоким стилем, выбирать выражения.

Можно, конечно, существовать внутри своего информационного пузыря, что многие с успехом и делают. Известно, что сторонники возвращения в СССР предпочитают общаться с теми, кто разделяет восторг по поводу прекрасного прошлого. А приверженцы демократических ценностей подписаны исключительно на паблики общественных деятелей, от которых хоргувеносцы шарахаются, как черт от ладана. Эти параллельные миры все меньше пересекаются друг с другом, и внутри каждой вселенной действуют свои правила приличия. Но если вы Золушка, которая ищет прекрасного принца, то лучше держать в уме правила написания хорошего сообщения, когда будете писать на стене пост о пропаже туфельки.

