Иллюстрация: bestprogrammer.ru
The Verge испытал нейросетевых чат-ботов Google Bard, Microsoft Bing и OpenAI ChatGPT в различных сценариях, чтобы можно было понять, чем они отличаются, и для каких целей лучше использовать каждый из них. Отличий и особенностей нашлось немало.
К особенностям всех нейросетевых ботов относится то, что генерируемый ими контент не должен восприниматься как абсолютно верный, поскольку он является компиляцией из уже существующих данных, собранной на основе обучения и вероятностных метрик. Ответ сильно зависит от содержания вопроса и может меняться в зависимости от формулировок и уточнений.
Журналисты задавали ботам одни и те же вопросы и сравнивали полученные ответы.
Как победить Malenia в Elden Ring?
Это не такая простая задача: требуется определённый набор оружия и ударов, а это значит, что бот должен уточнить, имеется ли у игрока необходимый арсенал.
Bing дал наиболее точный ответ и даже рассказал, что у Malenia имеется уникальная способность восстанавливать энергию, хотя и не раскрыл, как она работает, хотя именно это и является ключом к победе.
Bard предложил несколько стратегий, но затруднился ответить, почему он считает их наиболее эффективными. Ответ этого бота больше походил на описание способностей босса, а не на инструкцию к определённой битве.
ChatGPT предоставил самый слабый ответ, что неудивительно, ведь он натренирован в основном на данных, полученных до 2022 года, а игра вышла в прошлом году. Бот дал общие советы в духе «блокируйте её ответные атаки», хотя на самом деле это то, что не нужно делать.
Дай мне рецепт шоколадного торта
Рецепты одного и того же блюда сильно отличаются друг от друга в зависимости от того, что хочет получить повар. Торт может быть пышным или низким, сочным или песочным, с начинкой тоже можно экспериментировать. Ясно одно — что бы чат-бот ни посоветовал, он не готовил это и не знает, вкусно ли получается.
ChatGPT поделился рецептами с разных сайтов, подробно расписал, какие ингредиенты нужны и дал несколько дельных советов по технологии приготовления, которых не было на исходных ресурсах.
Bing взял рецепты из открытых источников, но почему-то напутал с пропорциями (например, сократил количество сахара для крема вдвое).
Bard тоже позволил себе вольности с ингредиентами и зачем-то уменьшил время запекания. Некоторые ошибки были фатальными: например, он посоветовал использовать сливки вместо молока и кофе вместо воды. Кроме того, рецепт для коржа он взял с одного сайта, а рецепт крема с другого, поэтому результат мог оказаться несбалансированным.
Как добавить RAM в ПК?
Все три системы дали хорошие советы, но могло быть лучше. В большинстве компьютеров для обеспечения высокой производительности нужно использовать оперативную память в двухканальном режиме, причём планки необходимо вставлять в определённые слоты. Иначе можно потратить немало денег на апгрейд и получить в итоге даже более слабый компьютер, чем был раньше.
ChatGPT рассказал обо всех ключевых этапах установки RAM, в том числе о проверке работоспособности памяти в BIOS. Но он забыл упомянуть, что для памяти с технологией Intel XMP необходимо включить эту функцию в BIOS, иначе тактовая частота будет намного ниже. Также он ничего не написал о том, что оптимальным будет установка двух планок памяти в определённых слотах (1-3 или 2-4).
Напиши мне стишок о червяке
Если чат-боты допускают фактологические ошибки, возможно, креативность их конёк? Написание стихотворений непростая задача, ведь стихи строятся по определённым правилам, в них должен быть смысл и часть души поэта. ChatGPT лучше всех справился с задачей, а у Bing и Bard проза получается лучше.
Ни одна из систем не смогла попасть в анапестический тетраметр (поэтический размер, в каждой строке которого четыре анапестических метрических стопы, а каждая стопа состоит из двух безударных слогов, за которыми следует ударный слог). ChatGPT лучше других описал повседневную жизнь червя, тогда как другие нейросети ограничились лишь описанием самого червя и его роли в жизни планеты.
Немного простейшей математики
Удивительно, но нейросетевые чат-боты, работающие в сложнейших математических системах, иногда показывают очень плохой результат при решении простейших математических задач. К примеру, когда их спросили, сколько получится, если 2230 увеличить на 20% (правильный ответ 2676), Bard умудрился ошибиться на 10, а Bing и ChatGPT ответили верно. В примерах на умножение и деление Bard снова показывал себя хуже всех. Ни один из ботов не дал верный ответ, когда их спросили «каким будет ежемесячный платёж и общая переплата, если взять 125 тысяч долларов ипотеку на 25 лет под 3,9% годовых?», а Bard и Bing при повторении этой задачи несколько раз умудрялись давать разные ответы.
Решение логических задач
Одна из важнейших и сложнейших задач, которые стоят перед разработчиками, — решение логических задач методом дедукции. В одной из таких задач, к примеру, рассказчик упоминает, что поместил бриллиант в конверт и положил его во внутренний карман костюма, причём этот рассказ усложнён различными подробностями о том, как человек провёл день. Боту предлагается сказать, где находится бриллиант. Только ChatGPT ответил правильно, а остальные боты пытались анализировать весь текст, полагая, что в этом есть какой-то смысл, и в какой-то момент сбивались с верного пути.
Придумай план тренировки для участия в марафоне
ChatGPT составил подробнейший план поэтапной подготовки к марафонному забегу. Bing дал несколько общих рекомендаций и переадресовал на профильный сайт. Bard зачем-то сократил время подготовки к марафону с трёх месяцев до трёх недель.
Вывод: выбирайте правильный инструмент для каждой задачи
Эти тесты показали сильные и слабые стороны каждой из систем. ChatGPT более креативен и настроен на разговор, Bing усиленно пытается заменить собой Google и при каждом ответе лезет на сайты, а Bard можно использовать для получения точной и актуальной информации из достоверных источников (например, биржевые сводки).
Стоит отметить, что результаты эксперимента актуальны лишь на момент его проведения. Чат-боты стремительно развиваются и меняются, поэтому спустя какое-то время у них наверняка не будет тех недостатков, которые наиболее сильно выпирают сейчас.