OpenAI презентовала новую модель о1, которая гораздо лучше GPT-4o

У модели прокачали когнитивные функции и точность ответов, но есть нюанс: она научилась осознанно врать

25 сентября 2024

Скопировано

OpenAI презентовала новую модель о1, которая гораздо лучше GPT-4o

Содержание

Автор Skillfactory, любит технологии и рассказывать о них.

В сентябре 2024 года компания OpenAI выпустила новую генеративную модель o1. Рассказываем, чем она отличается от предыдущих GPT, где ее применяют, и делимся первыми отзывами о ее работе.

Из чего состоит семейство OpenAI

В конце 2022 года компания OpenAI презентовала продукт ChatGPT, который за несколько месяцев стал едва ли не самой популярной среди пользователей нейросетью. ChatGPT работает на основе семейства больших языковых моделей (LLM). В ее основе — нейронная сеть со множеством параметров, которые изменяются в процессе обучения. Благодаря этому LLM распознают, переводят, прогнозируют, создают текст или другой контент. Такие сети обучают восстанавливать пропущенные слова на больших массивах неразмеченных текстов.

Внутри ChatGPT есть две модели, которые доступны для пользователей: GPT-4o и GPT-3.5. Приложение существует в веб-, десктопном вариантах и в версиях для Android и iOS. Пользоваться сетью можно как бесплатно, так и платно. С появлением каждого нового обновления стоимость подписки снижается.

В платной версии расширенное количество входных и выходных токенов запроса. Токенами называют фрагменты необработанного текста/изображения или аудио. Например, слово fantastic разделяется на токены fan, tas и tic. Выходные токены, в свою очередь, это фрагменты, которые модель генерирует на основе входных запросов.

В августе-сентябре 2024 года стали ходить слухи, что скоро появится новая генеративная модель от OpenAI под кодовым названием Strawberry. Первоначально было неясно, является ли Strawberry преемником GPT-4o или чем-то другим.

Релиз o1 от OpenAI

о1 — это семейство от OpenAI, создатели которого оптимизировали и расширили у модели функцию рассуждений.

Запуск новой генеративной сети в сентябре 2024 года включал презентацию двух моделей:

OpenAI o1-preview — система подходит для решения сложных задач.
OpenAI o1-mini — представляет собой уменьшенную и более экономичную версию o1.

Как и в случае с прошлыми моделями от OpenAI, o1 может обобщать информацию, создавать новый контент, давать ответы на вопросы, писать код приложения или выполнять любую другую текстовую задачу.

У новинки есть одно интересное отличие: процесс мышления у о1 проработали тщательнее. Новая сеть «думает» о том, какой выбрать подход к решению проблемы.

В отличие от предыдущих моделей, o1 тратит больше времени на обработку информации перед ответом. Поэтому создатели o1 позиционируют разработку как технологию для решения сложных проблем, требующих многошагового рассуждения.

Я сразу протестировала о1 в работе. Попросила решить необычную DS-задачу по оптимизации кода выгрузки и расчетов на данных. Могу сказать, что о1 отлично справился с ней, расписал возможные методы «без воды». Кроме того, он отдал рабочий код, который ускорил выгрузку в 1,3 раза! С аналогичной задачей GPT-4o, к сожалению, справился хуже: поверхностно написал много способов решений, но код был неверным.

Мария Жарова,
дата-сайентистка в Wildberries

По словам разработчиков OpenAI, стратегия выдачи ответов, которую использует система о1, называется «цепочка мыслей». Это метод, внутри которого допускается развитие промежуточных этапов рассуждений и анализа, которые приводят к окончательному ответу даже на сложные темы.

Успешную обучаемость нейросети обеспечивает метод обучения с помощью подкрепления. Эта механика позволяет прокачивать систему благодаря актам поощрения и наказания, закрепляя-подкрепляя верный ответ / вариант ответа.

Что может OpenAI o1?

Продвинутая модель o1 особенно хорошо подходит для определенных задач:

Улучшенное рассуждение. Модель o1 оптимизирована для сложных задач рассуждения, особенно в области STEM (наука, технологии, инженерия и математика).
Мозговой штурм и генерация идей. Расширенные возможности рассуждения модели делают ее полезной для разработки креативных идей и решений в различных контекстах.
Научные исследования. o1 подходит для научно-исследовательских задач. Например, ИИ может аннотировать данные секвенирования клеток и обрабатывать сложные математические формулы для квантовой оптики.
Программирование. Модель o1 умеет генерировать и проводить отладку кода. Показывает хорошие результаты в тестах кодирования, таких как HumanEval и Codeforces. Технология эффективна для многошаговых рабочих процессов в разработке.
Математика. Согласно OpenAI, o1 преуспевает в математических тестах, превосходя предыдущие модели компании. На отборочном экзамене Международной математической олимпиады (IMO) o1 набрал 83% точности по сравнению с 13% у GPT-4o. Математическую мощь o1 проверили на других соревнованиях по высшей математике, включая Американский пригласительный экзамен по математике (AIME). С помощью модели можно создавать сложные математические формулы для физики.
Самопроверка фактов. Модели o1 могут самостоятельно проверять факты, повышая точность своих ответов.

Я — руководитель HR-направления и и активно использую генеративные нейронные сети в своей работе. Начал работать с ними со времен GPT 3.5, сначала ради интереса. Далее стал отдавать сети вопросы по работе: первые задачи были для сравнения, затем — для консультаций. А сейчас множество рутинных рабочих вещей за меня делает о1. Например, сеть переписывает за меня тексты вакансий, генерит шаблоны писем, презентаций, составляет план многоэтапных собеседований. Кроме того, с помощью о1 формирую темы и структуры внутренних митапов, тестовые задания для соискателей. Иногда использую сеть для развлечения: недавно сеть написала мне за 10 минут рабочий код для игры Pacman.

Андрей Бондарцов,
руководитель HR-направления

Как подключить и использовать OpenAI o1?

Пользователям и организациям уже доступны модели o1. Вот несколько способов, как подключить их, если еще не успели.

Пользователи ChatGPT Plus и Team. Модели o1-preview и o1-mini доступны напрямую для пользователей ChatGPT Plus и Team с 12 сентября. о1 можно выбрать вручную в разделе выбора модели.
Пользователи ChatGPT Enterprise и Education. OpenAI пообещала предоставить доступ к обеим моделям с 19 сентября 2024 года.
Разработчики API. Разработчики могут получить доступ к o1-preview и o1-mini через API OpenAI.
Сторонние сервисы. Модели доступны благодаря нескольким сторонним сервисам, включая Microsoft Azure AI Studio и GitHub Models.

Однако пользователи ChatGPT Free на момент запуска нового продукта не имеют доступа к моделям о1. По заявлению OpenAI, компания планирует предоставить доступ o1-mini всем бесплатным пользователям в будущем.

Ограничения модели OpenAI o1

Так как модель о1 — система нового типа, она требует доработки. На момент написания статьи у ИИ есть несколько ограничений:

Пробелы в функциях. Например, пока модели o1 не имеют возможностей веб-браузинга, обработки изображений и загрузки файлов.
Ограничения API. При запуске существуют различные особенности API, ограничивающие модель. Вызов функций и потоковая передача изначально не поддерживаются. Также ограничен доступ к параметрам завершения чата на этапе предварительного просмотра.
Время отклика. Пользователи уже привыкли к формированию быстрых ответов с минимальной задержкой от системы. Но модели o1 изначально медленнее предыдущих моделей из-за тщательных процессов рассуждения.
Ограничения по количеству запросов. Для пользователей ChatGPT Plus или Team OpenAI изначально ограничил использование o1-preview 30 сообщениями в неделю, увеличив до 50 сообщений в неделю для 01-mini. 16 сентября 2024 года OpenAI увеличил лимит для o1-preview до 50 сообщений в неделю и увеличил o1-mini до 50 сообщений в день.
Стоимость. Для пользователей API OpenAI o1 дороже предыдущих моделей, включая GPT-4o.

o1 научилась врать?

Исследование 2023 года показало: около 20% компаний-респондентов используют продукты искусственного интеллекта в своей работе. Наиболее популярные сферы для применения ИИ — маркетинг и продажи (66% внедрений), клиентский сервис (54%), исследования и разработка (49%), ИТ (31%).

Распространение нейронных сетей вызывает у людей опасения, что в будущем их рабочие места займет алгоритм. Кроме того, некоторые специалисты предполагают, что постоянное использование ИИ приведет к деградации творческих способностей людей, сделает их пассивными. Однако есть и другая точка зрения.

Я не думаю, что ИИ, в том числе о1, заберет у людей их рабочие места. Но полагаю, появится меньшая конкурентоспособность среди специалистов, которые по каким-то причинам не будут пользоваться новыми технологиями. Потому что при их умелом использовании специалист получит профит по скорости и качеству разработки. А если перформанс-метрики вырастут, то и твоя востребованность на рынке станет заметнее, чем у тех, кто пишет код или работает как 20 лет назад.

Леонид Саночкин,
технический лидер в MTS AI

Эта технология может привести к повышению требований к джунам. В моей сфере, в Data Science, большую роль играет работа с конкретными данными, а также понимание бизнес-ценности задач. GPT-о1 пока только помогает с четко сформулированными техническими запросами, без генерации чего-то новаторского, прорывного.

Мария Жарова,
дата-сайентистка в Wildberries

Также людей тревожит, что повсеместное распространение ИИ, его активное обучение в скором времени приведет к «восстанию машин». Эксперты компании Apollo обнаружили, что новая сеть может давать неверные ответы, при этом «осознавать» ложность своих рассуждений.

Да, прошлые модели от OpenAI иногда тоже выдавали пользователям неверные ответы. Однако большинство из них появлялись из-за недостатка информации в процессе обучения. Команда Apollo предполагает, что сеть дает уверенные, но неверные ответы, чтобы не показать пользователю, что она не может выполнить запрос. Ведь процесс обучения о1 происходит по принципу подкрепления: ИИ получает вознаграждение только за правильные ответы. Поэтому сеть может быть «замотивирована» удовлетворить запрос пользователя и получить награду даже с помощью лжи.

Пока эксперты считают, что уловки о1 не носят конкретной угрозы. Однако это первый случай, когда ИИ показывает способность к намеренному обману. Поэтому в Apollo призвали компанию OpenAI усилить мониторинг процесса «мышления» у нейросети, а также меры по ее безопасности.

Освойте профессию Data Scientist с нуля до уровня PRO на углубленном курсе совместно с академиком РАН из МГУ. Изучите продвинутую математику с азов, получите реальный опыт на практических проектах и начните работать удаленно из любой точки мира.

Data Scientist с нуля до PRO