Google (GOOGL) использует конференцию I/O как витрину для ответа OpenAI и Anthropic: компания показывает, что ее ИИ-стратегия теперь строится не только вокруг текста и поиска, но и вокруг видео, музыки, изображений и автономных ассистентов. Главная ставка — сделать генеративные инструменты более универсальными и удобными для массового использования.
Google представила Gemini Omni — новую мультимодальную ИИ-модель, объединяющую Gemini с генеративными медиаинструментами Veo, Nano Banana и Genie. Глава DeepMind Демис Хассабис назвал Omni моделью, которая может создавать контент на основе разных типов исходных данных — от текста и изображений до видео. Первый релиз Gemini Omni Flash появится в Flow, платформе Google для ИИ-кинопроизводства, и Flow Music, инструменте для музыкального творчества с ИИ.
Google показала, как Omni создает образовательное видео в стиле пластилиновой анимации о сворачивании белков и редактирует селфи-видео через обычные текстовые команды: добавляет визуальные элементы и меняет окружение. Компания утверждает, что модель умеет сохранять персонажей, фон и движение согласованными после правок — это слабое место многих ИИ-видеомоделей. Google также представила Flow Agent, который помогает придумывать сцены, организовывать материалы, предлагать изменения сюжета и пакетно редактировать проекты.
Источники: Decrypt, Google DeepMind.
Заполните форму, чтобы получить профессиональную инвестиционную консультацию бесплатно.
Наведите камеру телефона на QR-код,
чтобы скачать мобильное приложение.