Премия Рунета-2020
Россия
Москва
+15°
Boom metrics
Наука31 марта 2024 13:30

Нейросеть провалила вступительный экзамен в российском вузе: ее отправили на пересдачу

Искусственный интеллект завалил экзамен по физике, но не безнадежно
В московском физтехе (МФТИ) решили проверить: сможет ли Chat GPT-4 Turbo поступить в их вуз

В московском физтехе (МФТИ) решили проверить: сможет ли Chat GPT-4 Turbo поступить в их вуз

Фото: Shutterstock

В московском физтехе (МФТИ) усадили за задачки генеративную нейросеть Chat GPT-4 Turbo - сможет ли поступить в их вуз?

ПУТАЛАСЬ В ТЕРМИНАХ

Загрузили по полной: механика, оптика, термодинамика, электричество, кинематика. Планку задрали аж до 85 баллов - таков проходной балл в институте. В МФТИ и выше бывало на ключевых направлениях - вплоть до 95. Так что шансы есть только у крепких отличников.

Нейросеть простые задачки, где нужно просто подставить формулу, решила. А где посложнее - забуксовала. Накосячила с финальными расчетами, путалась в терминах и формулировке ответов, иногда делала нелогичные выводы.

- Одно дело выдать правильный ответ на задачу, а другое дело - понимать глубинно физику. Ощущение понимания есть, но оно иллюзорно, - пригвоздил «абитуриентку» главный аналитик Центра искусственного интеллекта МФТИ, директор ведущей конференции по ИИ в России OpenTalks.AI Игорь Пивоваров в комментарии на сайте вуза.

Для понятности эксперт привел в пример известный “утиный тест” на очевидность: если нечто ходит как утка, крякает как утка и похоже на утку, то, наверное, это и есть утка. Но, на самом деле, не факт, что это утка.

Сколько именно баллов набрала нейросеть, не уточнили. Как мы поняли, между четверкой и тройкой (выше 36 по шкале перевода результатов ЕГЭ в оценки. А значит, вполне могла бы поступить в вуз попроще, где проходной балл не такой задиристый, как в МФТИ. Если же ее хорошенько натаскать, то, глядишь, и в физтех возьмут.

Вот и Игорь Пивоваров крест на Chat GPT-4 Turbo не ставил. Мол, да, есть проблемы с математикой и логикой, не хватает творческого подхода. Однако, если разработчики предоставят алгоритму побольше промтов — нужных примеров с пошаговыми объяснениями, из которых нейросеть сможет выбирать подходящие решения (именно так обучают ИИ), качество ответов сильно улучшится.

ВЫДУМЫВАЛА ИСТОРИКОВ

Это не первый экзамен, который сдавал Chat GPT в последнее время. За ЕГЭ по литературе получила тройку, так как не справилась с творческим заданием. Впрочем, в одном из коммерческих вузов результат в 55 баллов оценили позитивно: мол, на бюджет вряд ли, а на платку мы бы взяли! Пороговый балл в 40 баллов нейросеть ведь преодолела, значит, может участвовать в конкурсе.

Трояк влепили и на вступительном по истории в Уральском федеральном университете. Там, где ответ однозначный, отвечала хорошо. А где надо копнуть, порассуждать - “плыла”. Но не сдавалась, а... выкручивалась! Выдумала некоего историка Александра Васильевича Пильяра, а издателю “Отечественных записок” Андрею Краевскому приписала книгу “История Российского государства”. Видимо, перепутала с трудом Карамзина “История государства Российского”. С кем ни бывает.

При этом с экзаменами по юриспруденции и по бизнес-управлению ChatGPT справилась хорошо, сообщили недавно американские СМИ про эксперимент, который провели сразу два крупнейших университета США. А доктор из Нью-Йоркского университета сумел обучить нейросеть решать геометрические задачи на уровне победителя международной математической олимпиады для школьников и защитил диссертацию.

НАХОДИТ ШПАРГАЛКИ

Где нейросеть рвет подметки, так это при выявлении нарушителей на ЕГЭ: следит за сдающими экзамен и, если кто подозрительно шевельнулся — например, полез за шпаргалкой, сразу передает сигнал организаторам. А те пересматривают видеозаписи и окончательно решают, было ли нарушение. Так вот в Рособрнадзоре — ведомстве, отвечающем за выпускные экзамены, помощнице не нарадуются: в первый год ставила много ложных меток и засекла только 13 нарушителей, а в 2023-м правильно идентифицировала более 200 случаев списывания.