В 1950 году учёный Алан Тьюринг создал тестовую форму, с помощью которой разработчики могут проверять искусственный интеллект на его способность мыслить и рассуждать как люди. Тест содержит блок вопросов, на которые в разных чатах отвечают либо реальные люди-респонденты, либо ИИ-боты, а на другом конце диалога сидит человек-судья, который после непродолжительной беседы должен определить, кто где.
В одной из недавних массовых проверок по тесту Тьюринга свежая версия GPT-4.5 несколько раз успешно прошла его, запутав судей, которые выбирали ИИ-бота в качестве участника-человека. Судьями выступили больше 300 человек, а ИИ-систем было лишь четыре, включая уже названную, LLaMa-3.1-405B, ELIZA и GPT-4o.
Для усложнения задачи разработчики заранее задавали каждому ИИ-боту персональный промт-образ, так что боты были не просто набором кодов, а, например, подростками или фанатами поп-культуры. Возможно, именно это условие помогло искусственному интеллекту одурачить судей, потому что новую версию чат-бота выбрали аж в 73% случаев, а когда у него не было промт-образа — всего лишь в 36%.