TechCrunch · AI · 2 ч назад
Microsoft бросает вызов конкурентам в области искусственного интеллекта с помощью трех новых основополагающих моделей
После формирования группы шесть месяцев назад MAI выпустила модели, которые могут транскрибировать голос в текст, а также генерировать звук и изображения.
Подробности
Microsoft AI, исследовательская лаборатория технологического гиганта, объявила в четверг о выпуске трех основных моделей искусственного интеллекта, которые могут генерировать текст, голос и изображения.
Этот релиз свидетельствует о продолжающемся стремлении Microsoft создать собственный набор мультимодальных моделей искусственного интеллекта и конкурировать с конкурирующими лабораториями искусственного интеллекта, хотя компания по-прежнему привязана к OpenAI.
Согласно пресс-релизу компании, MAI-Transcribe-1 преобразует речь на 25 различных языках в текст и работает в 2,5 раза быстрее, чем предложение Microsoft Azure Fast. MAI-Voice-1 — модель, генерирующая звук. Эта модель голоса позволяет пользователям генерировать 60 секунд звука за одну секунду и создавать собственный голос. MAI-Image-2 — модель генерации видео.
MAI-Image-2 был первоначально выпущен на MAI Playground, новом программном обеспечении для тестирования больших языковых моделей, 19 марта. Теперь все три модели выпускаются на Microsoft Foundry, а модели транскрипции и голоса также доступны в MAI Playground.
Модели были разработаны командой Microsoft MAI Superintelligence — исследовательской группой в области искусственного интеллекта под руководством Мустафы Сулеймана, генерального директора Microsoft AI, которая была сформирована и объявлена в ноябре 2025 года.