Кажется, что поиск в интернете — это вершина работы с информацией. Больше не нужно идти в библиотеку, перечитывать кучу книг и журналов в поисках ответа на вопрос. Все, что нужно сделать, — ввести его в поисковик. Но развитие языковых нейросетей открывает нам новые грани поиска: теперь он будет понимать нас еще лучше, сможет разобраться в сложном запросе, дать готовый ответ на одной странице и персонализировать выдачу.
Машинное обучение в поисковых системах
В программах поиска в интернете применять искусственный интеллект начали еще в 2010-х. Чтобы ранжировать результаты поиска и двигать вверх самые релевантные запросу, в Google разработали систему Rank Brain. Алгоритм внедрили в поисковик в 2015 году. Его главная функция — связывать отдельные слова и выяснять общий смысл запроса.
Аналогичный алгоритм «Палех» в 2016 году запустил Яндекс. Он позволял поисковику искать страницы не только по словам, но и по смыслу. Через год компания разработала новую модель, «Королев», которую научили анализировать не только заголовки, но и весь текст страницы целиком.
Сегодня перспективное направление развития поисковых систем — внедрение современных языковых нейросетей типа ChatGPT.
Как нейросети меняют интернет-поиск сейчас
Умные поисковики, которые отбирают для пользователей только лучшие результаты с помощью алгоритмов искусственного интеллекта, уже не за горами. Такие разработки уже внедряют Microsoft, Google и их китайский конкурент Baidu.
Microsoft
Корпорация Microsoft внедрят в поисковик Bing искусственный интеллект собственной разработки Prometheus. Система сможет распознавать запросы длиной до 1000 знаков на естественном языке и давать на них наиболее точные ответы.
В презентационном видео Microsoft протестировали следующий запрос: «В сентябре я планирую путешествие в честь годовщины свадьбы. Куда можно поехать в пределах трех часов на самолете из Лондона?» Обычно на таких запросах поисковые системы ломаются, им нужны более простые вопросы, например «путешествие по Европе в сентябре» или «романтическое путешествие по Европе». Умный поисковик от Bing точно угадывает тон запроса: годовщина свадьбы — значит, романтическое путешествие, а также учитывает геолокацию и даты поездки. Для уточнения запроса сбоку есть чатбот, с ним можно обсудить детали: хотите вы поехать на солнечный пляж или к горному озеру, где забронировать билеты и так далее.
Чтобы упростить поиск в сети, Google использует искусственный интеллект для генерации ответов на вопросы пользователей. С этим функционалом больше не нужно будет читать кучу статей на разных страницах из поисковой выдачи. Нейросеть Google по вашему запросу сформирует одну страницу с текстом, ссылками и картинками. При желании вы сможете пролистать страницу вниз и перейти к стандартному поиску по списку страниц.
К поисковой выдаче можно будет задать дополнительные вопросы, чтобы уточнить ответ нейросети. Также нейросеть Google умеет делать сравнительный анализ: например, оценивать два блюда по калорийности, скорости и простоте приготовления.
Таким образом Google планирует сократить время поиска в сети, сделать путь к нужным ответам короче.
Baidu и Яндекс
Разработчики китайского поисковика Baidu анонсировали, что вскоре выпустят свой аналог ChatGPT — языковую нейросеть ERNIE. Она будет работать аналогично конкуренту: генерировать ответы на вопросы. В первую очередь компания планирует внедрить возможности модели в свой флагманский продукт — поисковую систему.
Также без подробностей анонсировал свою нейросеть Яндекс. Она будет называться Ya.LM 2.0. Алгоритм планируют интегрировать в поиск и в Алису.
Как работают нейросети для поисковых систем
В основе сервисов, которые меняют интернет-поиск, — машинное обучение, а точнее конкретное его направление, обработка естественного языка (Natural Language Processing). NLP-специалисты обучают нейросети распознавать естественную речь, на котором разговаривает человек, и переводить ее на язык запросов к компьютеру. Языковые модели учатся воспринимать аудио и текст, анализировать большой объем данных, делать выжимки и пересказы, выделять нужную информацию по текстовым запросам. Также языковые нейросети умеют генерировать текст по заготовленным запросам и переводить его на разные языки.
Чтобы научить модели говорить на естественном языке, ML-инженеры собирают данные из книг, с сайтов и социальных сетей. Например, «Балабобу» инженеры Yandex обучали на материалах из «Википедии» и постах из соцсети Twitter.
NLP-модели сейчас используют онлайн-переводчики, голосовые помощники типа Siri и Алисы, различные сервисы распознавания и генерации текстов. Для самой продвинутой модели на сегодня — GPT-4 — создали собственный сервис, ChatGPT.
Пока идут споры о том, заменят ли языковые нейросети копирайтеров, компании придумывают, как усовершенствовать с их помощью свои сервисы. В частности, этим уже озадачились крупные компании, которые владеют поисковиками. Ведь если ChatGPT может найти рецепт пасты на ужин и дать готовый текстовый ответ, то почему это не может сделать Google?
Как нейросети изменят поисковики в будущем
Анонсированные Google и Microsoft обновления пока только ждут своего релиза. Но как только первые поисковые сервисы на основе нейросетей запустятся, у компаний появятся данные, чтобы усовершенствовать свои разработки.
Нейронные сети могут дать поисковым системы следующие преимущества:
- Более точные результаты. С помощью нейросетей поисковики смогут анализировать длинные запросы, а значит, они будут более подробными. Таким образом выдача будет больше подходить пользователю и он потратит меньше времени на поиск нужной информации.
- Контекстный поиск. Обученная нейросеть поможет поисковым сайтам понимать суть и контекст запроса пользователя. Вспомним примеры про путешествие на годовщину: поисковик Bing сразу понял, что событие романтическое, и предложил соответствующие результаты поиска.
- Персонализированная выдача. Мы уже привыкли к тому, что умные ленты в соцсетях и музыкальные стриминги подбирают для нас контент, похожий на то, что нам уже нравится. Вскоре так смогут работать и поисковики. Например, если вы несколько раз обратитесь к поисковику за вегетарианскими рецептами, он запомнит ваши предпочтения и на запрос о ближайших кафе поставит в приоритет вегетарианские варианты.
- Предиктивный поиск. Нейросети смогут предсказывать ваши запросы на основе истории поиска. Это, по сути, та же рекомендательная лента социальных сетей, только из поисковых запросов.
Нейросети могут изменить поиск информации в интернете, сделать его быстрее, точнее и удобнее для человека. Первые изменения мы увидим уже в ближайшем будущем, когда произойдут релизы Google и Microsoft. Однако дальнейший рост и обучение нейронных сетей может осложниться рядом проблем.
Проблемы нейросетей в поисковых системах
Нейросети в своем развитии сталкиваются с этическими и техническими проблемами. Вот несколько очевидных:
- Защита данных. Нейросети обучаются на большом количестве данных, в том числе персональных. Важно, чтобы поисковые системы были надежными, устойчивыми к взломам и безопасными, чтобы пользователи могли довериться технологии.
- Разнообразие данных. Нейросети учатся на контенте, который создают люди, а значит, помимо хорошего, логичного и фактически правильного текста, они также усваивают фейковые новости, лженаучные статьи и стереотипные описания. Это может привести к тому, что поисковики будут выдавать неполные, односторонние или ошибочные ответы. Чтобы этого избежать, нужно давать алгоритмам не только хорошо очищенные, но и разнообразные, подтвержденные данные.
- Вычислительные ограничения. Нейросетям для работы нужны большие вычислительные мощности и хранилища данных. Из-за этого их сложно масштабировать под масштабы спроса, который есть в поисковиках. Разработчикам поисковых систем придется искать способы оптимизировать ресурсы, которых требует искусственный интеллект, не потеряв при этом в скорости и качестве сервисов.
Чтобы нейросети в поисковых системах были полезными, разработчики должны предложить пользователям безопасные сервисы, обученные на качественных данных. Также важно, чтобы использование искусственного интеллекта не сказывалось на скорости и качестве выдачи для пользователя.