Технорассылка

Что нового показали OpenAI и Google, Медведев против «Яндекса» и лучшие гиды по открытым данным

19 мая 2024

v.pozychanyuk@thebell.io

Тема выпуска — что нового OpenAI и Google придумали в области искусственного интеллекта и кто из них круче?

Что случилось?

OpenAI и Google на этой неделе подтвердили звание главных игроков в области AI. И стартапу явно нравится дергать тигра за усы: всего за несколько дней до ежегодной конференции Google I/O, от которой весь рынок ждал релизов в области AI, агентство Reuters написало, что OpenAI вот-вот выкатит какую-то новинку. Скандально известный глава OpenAI Сэм Альтман только подлил масла в огонь, написав в X, что его компания и правда покажет нечто, что лично ему кажется «волшебством», а презентация состоится не когда-нибудь, а за день до конференции Google.

В понедельник компания представила новую модель GPT-4o, где «о» взята от «omni» и означает многоканальность. Теперь чат-бот умеет распознавать не только текст, но и голос с видео — и по сути это выглядит как готовый сервис для естественного разговора с человеком в реальном времени.

Презентация выглядела весьма убедительно: голосовой ассистент, основанный на новой модели, переводил речь в реальном времени и очень похоже изображал человеческие эмоции. А еще — по шагам разбирал решение уравнения, написанного на листке бумаги, который поднесли к камере смартфона. OpenAI объявила, что убрала неприятные лаги. Например, теперь голосовой ассистент можно прерывать для того, чтобы уточнить задание. Кроме того, новая модель будет вдвое дешевле и вдвое быстрее по сравнению с GPT-4 Turbo, утверждает компания.

С ограничениями пользоваться GPT-4o смогут даже пользователи бесплатной подписки, которым раньше была доступна только GPT-3,5. Правда, первые бесплатные юзеры уже пишут, что они в новой версии могут делать лишь около 10 запросов в день. Но это все равно большой прорыв. Пользователи, которые давно подписаны на Plus от OpenA, скорее всего, большой разницы между моделями не почувствуют. А вот те, кому последние релизы были недоступны, наверняка удивятся, насколько умными стали нейросети, говорит Игорь Котенков, специалист по машинному обучению и автор Telegram-канала про AI «Сиолошная» (его разборы про AI можно прочитать здесь и здесь).

Поговорить с новым AI-ассистентом пока смогут только платные подписчики — эта опция скоро станет доступна пользователям ChatGPT Plus и компаниям. Разговаривать с чат-ботом в приложении ChatGPT можно было и раньше. Но теперь голосовой ответ бота будет занимать меньше секунды — в среднем около 320 миллисекунд против 2,8 секунды в GPT-3.5 и 5,4 секунды в GPT-4. Это значит, что GPT-4о может реагировать со скоростью, которая вполне позволяет вести естественный разговор.

Кроме того, очень важно, что GPT-4o — мультимодальная, отмечает Котенков. Если раньше ChatGPT при генерации картинки отдавал текстовый промпт в Dall-E, отдельную нейросеть, отвечавшую за генерацию картинок, то теперь все это будет происходить внутри одной модели. «В новой версии модель не генерирует промежуточный результат, который добавляет шум, а сразу выдает картинку. И по тем примерам, которые показала компания (пока протестировать эту функцию сами мы не можем), можно сказать, что это дает крутой результат. Теперь модель умеет, например, рисовать шрифты или генерить картинки с одним и тем же персонажем, что раньше было невозможно. Теперь же модель учитывает все предыдущие запросы и результаты», — объясняет Котенков.

Первые независимые отзывы о самой модели — в основном позитивные. Среди достоинств тестеры перечисляют чистый API, позволяющий легко использовать GPT-4о в сторонних приложениях, «навыки» модели в написании кода и реально высокую скорость работы. Впрочем, в тестах на причинно-следственные связи и создание контента новая модель, возможно, даже уступает и GPT-4 Turbo, и продвинутым конкурентам, вроде Claude 3 от Anthropic. Но на Chatbot Arena — платформе, где чат-боты соревнуются в ответах на запросы, а эксперты и пользователи их сравнивают — GPT-4o пока занимает первое место.

Что касается самого голосового помощника на основе модели, отзывы больше восторженные. Например, Марк Спунауэр из Tom’s Guide посчитал, что продукт OpenAI далеко опережает все современные голосовые помощники — и Siri от Apple, и Alexa от Amazon. Того же мнения были и в Mashable.

Вечно второй

Насколько на самом деле «волшебны» релизы OpenAI, судить рано. Весь функционал новой модели пользователям пока недоступен. Но кое-что можно утверждать точно: после внезапной презентации OpenAI конференция Google слегка померкла. Почти двухчасовая презентация главных AI-новинок техногиганта после всего 26 минут от конкурента оставила странное впечатление.

Все свои новинки Google вывалила на зрителей скопом.

Техногигант показал Gemini Live — новый мультимодальный интерфейс, сделанный на основе Project Astra. Это проект DeepMind, который пытается ответить на вопрос, какими будут идеальные AI-агенты в будущем. Gemini Live должен заменить голосового ассистента от Google, он будет быстрее обрабатывать речь, уметь распознавать картинки и видео. Сервис станет доступным к концу этого года и только для платных пользователей. Ну, а пока есть только деморолики, и они на первый взгляд не такие впечатляющие, как те, что показал OpenAI: голос виртуального ассистента более роботизирован, а задержка в ответе ощущается гораздо заметнее.
Кроме того, Google показал, как будет выглядеть более глубокая интеграция Gemini с Android. Например, нейросеть поможет искать данные в фотобиблиотеке (в качестве примера в презентации использовался поиск фото машины и распознавание ее номера).
Кроме того, в перспективе пользователям сервисов Google будет доступен поиск информации в сети через видеозапросы, а также вопросы о видео на экране с быстрой генерацией ответов в титрах.
Также компания готовит для смартфонов на Android функцию прослушки звонков — чтобы ИИ мог выявлять мошенников по паттернам в разговорах. Но пока информации об этом сервисе мало.
В Google Workspace теперь будет интегрирована Gemini 1.5 Pro: чат-бот на ее основе появится в боковой панели в Docs, Sheets, Slides, Drive, и Gmail. Самое важное, что нейросеть сможет оперировать данными из разных сервисов и решать комплексные задачи на их основе (например, составить письмо по данным из таблиц). Но все это только для платных подписчиков.
Еще Google представила свой ответ Sora от OpenAI (которую та представила еще три месяца назад) — модель Veo для генерации видео по текстовому запросу. Пока, так же как и Sora, этот сервис доступен только для закрытых тестов некоторым авторам и кинематографистам.
Кроме того, Google представил Imagen 3, новую версию модели для генерации картинок с улучшенным распознаванием текста и детализацией изображений. А еще — сервис для генерации музыки по текстовому запросу MusicFX.
Наконец, Google показал несколько новых версий самих моделей Gemini. Например, улучшенную Gemini 1.5 Pro и Gemini 1.5 Flash — ее более легкую и быструю версию для тех, кому важна скорость ответа.

Перечень далеко не полный. Но одного, самого главного релиза в презентации так и не случилось. Завершая мероприятие, CEO Google Сундар Пичаи просто подсчитал, сколько раз со сцены за два часа сказали «AI».

К тому же для Google стало уже традицией, что большая часть анонсов непонятно когда выйдет в свет. Объявленные компанией сроки внедрения разных AI-фич варьируются от «в ближайшие месяцы» и «позже в этом году» до совсем неопределенных. А те сервисы, для которых установлены конкретные сроки запуска, будут доступны только платным подписчикам Google One AI Premium.

Поисковая дилемма

Больше всего от Google ждут новостей про AI-поиск. В скором будущем компания собирается выкатить его на более чем миллиард своих пользователей. С этой недели техногигант пообещал открыть для всех пользователей в США доступ к функции AI Overviews. Это сгенерированные нейросетью короткие обзоры, которые будут показываться выше результатов поиска на главной странице. В самом техногиганте утверждают, что лучше всего это работает для составных запросов, в которых нужно учитывать разные параметры. Например, локацию. В презентации как пример привели поиск студии йоги с лучшим рейтингом в районе Бостона и в шаговой доступности от конкретной улицы.

Кроме того, скоро нейросети с помощью поисковика смогут составлять и бронировать поездки и планировать события, рассчитывают в техногиганте. Например, запрос к Gemini, по задумке, мог бы выглядеть примерно так: «Мы с семьей собираемся в Майами на праздники. Сын любит искусство, а муж хочет свежих морепродуктов. Возьми информацию о нашем перелете и отеле из Gmail и помоги спланировать выходные». И модель должна будет построить маршрут и подобрать подходящие для досуга места с помощью Google Maps. Эта функция должна стать доступна платным подписчикам Google AI в ближайшие месяцы. И это, кстати, похоже на тот самый продвинутый ИИ-поиск, который компания должна была впервые в своей истории сделать платным (о чем в начале апреля со ссылкой на источники писала FT).

Хотя в целом презентация Google у техноэнтузиастов вызвала смешанные чувства, инвесторы компании ее планам доверяют. Акции Alphabet за неделю подорожали на 4%. Первый квартал по результатам недавнего сезона отчетности компания закрыла с результатами выше ожиданий. Несмотря на продолжающийся рост капиталовложений, акции компании после публикации отчета выросли на 10%, а капитализация впервые превысила $2 трлн.

Выручка от поисковика, все еще главного бизнеса Google, выросла на 14%, до $46,2 млрд. Поиск приносит и основную прибыль. И внедрение ИИ в него — палка о двух концах. С одной стороны, Google не может позволить себе проиграть конкурентам в ИИ-гонке, а генеративные нейросети, безусловно, могут сделать пользовательский опыт от поиска гораздо более быстрым и приятным. С другой — идея внедрения ИИ в поиск заключается в том, чтобы дать пользователю максимально полезный ответ — так, чтобы у него отпала необходимость ходить по бесконечным ссылкам. Но это совершенно не в интересах рекламодателей и владельцев этих самых ссылок, которые в конечном счете и приносят Google прибыль. Gartner уже сейчас прогнозирует, что к 2026 году трафик из поисковых систем упадет на 25%. «Спустя четверть века своего существования компания, которая когда-то с гордостью служила входной точкой в интернет, наполняя его трафиком и рекламными доходами, начала превращать все это в данные для своих собственных больших языковых моделей», — замечает Platformer. И это не может не пугать всех зависимых от поискового трафика игроков.

Правда, большой вопрос, когда все эти продвинутые функции AI-поиска с агентами, которые ходят по разным сайтам и бронируют за вас путешествия, появятся в широком доступе, говорит Котенков из «Сиолошной». Пока что такие запросы обходятся компании гораздо дороже, и непонятно, сколько времени пройдет до момента, когда она сможет выкатить такой сервис на всех.

Миллиарды пользователей, которые есть у Google, — это и его преимущество, и его слабость. С одной стороны, огромная база юзеров и собственная экосистема сервисов позволяет компании гораздо более точно оценивать нужды и запросы пользователей и искать сценарии, по которым стоит работать, говорит Котенков. У OpenAI такого преимущества нет, и ей приходится постоянно наращивать пользовательскую базу и пытаться ее удержать. С другой стороны, из-за собственной популярности Google не может выкатить на всех свои передовые фичи, потому что это попросту слишком дорого. «Так что еще долго мы будем наблюдать ситуацию, когда у Google будут, возможно, лучшие на рынке модели, но большинству пользователей они доступны не будут», — считает эксперт.

ОНЛАЙН-РАССЛЕДОВАНИЕ

Лучшие гайды по работе с открытыми данными

Open Source Intelligence (OSINT) или поиск по открытым данным зародился в США в 40-х годах XX века после появления специальной службы мониторинга, чьи сотрудники записывали и анализировали радиопередачи других стран и составляли по ним отчеты для разведки. Сегодня OSINT широко применяют журналисты-расследователи, аналитические агентства, эксперты, а также мошенники и киберпреступники. В рубрике «Онлайн-расследование» мы обычно рассказываем о разных инструментах OSINT, которые могут пригодиться пользователям интернета в России. Но в этот раз мы решили собрать для вас гайд по лучшим ресурсам, работающим с OSINT. С их помощью вы сами можете найти нужные инструменты для поиска и проверки самой разной информации.

СДЕЛКИ

«Яндекс» продан, но Медведев все равно недоволен

Теперь официально: «Яндекс» наконец продали новым инвесторам. Вместо нидерландской Yandex N.V., через которую «Яндекс» раньше контролировали траст семьи Аркадия Воложа и менеджмент компании, контроль перешел к консорциуму российских инвесторов. Волож остался с четырьмя выделившимися из «Яндекса» стартапами, которые продолжит развивать за рубежом, и примерно тысячей разработчиков.

К этому разводу компания готовилась с начала войны. Решение об уходе Воложа и разделе имущества привело к расколу в компании (об этом мы рассказывали здесь). Потом Кремль долго и придирчиво выбирал покупателей для «Яндекса». Кому в итоге досталась компания — до конца неясно. Кто может скрываться за официальными покупателями, мы рассказывали тут.

Но смена неблагонадежного Воложа на консорциум российских инвесторов, похоже, вовсе не означает, что «Яндекс» пропадет с радаров властей. По крайней мере, такой сигнал компании в воскресенье послал Дмитрий Медведев, который в свободное от работы время решил протестировать искусственный интеллект от «Яндекса» и результатами остался недоволен. Настолько, что пригрозил топ-менеджерам «Яндекса», которые остались руководить компанией после начала войны и развода с Воложем, статусом «иноагентов».

В «Яндексе» комментировать пост Медведева не стали.

READ LATER

Задавались вопросом, зачем все-таки Илон Маск купил Twitter, то есть X? Есть версия: NYT рассказывает, как один из самых богатых людей в мире использует соцсеть для поддержки правых по всему миру — чтобы получать поддержку в расширении собственной бизнес-империи.
Темная сторона нейросетей: как террористы из Исламского государства (признано террористической организацией и запрещено в России) используют сгенерированных ИИ ведущих новостей для быстрого и дешевого распространения пропаганды.
Хотелось бы, чтобы нейросети умели точно распознавать эмоции по лицу? Есть проблема: исследователи говорят, что неизбежно будут ошибки, потому что универсальных выражений, которым можно было бы обучить ИИ, просто нет.

#технологии