OpenAI представила нейросеть Sora, преобразующую текст в видео

Кадр из нейросетевого видео Фото: OpenAI

OpenAI представила нейросетевую модель Sora, способную генерировать минутное видео по текстовым описаниям. Об этом сообщается на сайте компании.

По словам авторов разработки, Sora может создавать сцены с несколькими персонажами и высокой детализацией. Искусственный интеллект умеет не только работать с текстом, но также генерировать видео на основе неподвижного изображения. Кроме того, Sora может вставить недостающие кадры в существующий ролик.

Google представила нейросеть Lumiere для генерации видео

В блоге OpenAI показаны более 40 демонстрационных видео в разных стилях. Среди них есть реалистичные кадры токийского поезда, картинной галереи и побережья Калифорнии, а также ролики с анимационными персонажами и фантастическими декорациями. Среди прочего, с помощью Sora удалось сгенерировать трейлер несуществующего фильма.

Разработчики OpenAI признают, что их модель несовершенна. Например, нейросеть иногда путает лево и право или испытывает трудности при генерации видео с большим количеством объектов — их движение может быть неестественным. Нередко в видео нарушается причинно-следственная связь: персонаж может откусить от печенья, но оно по-прежнему будет целым.

Sora пока что недоступна для широкой аудитории и находится на стадии тестирования. OpenAI собирается принять дополнительные меры, чтобы не допустить распространения реалистичных фейковых видео. В компании работают над инструментом, позволяющим идентифицировать ролики, сгенерированные искусственным интеллектом.

Смотрите видео: подборка роликов, сгенерированных Sora

Часть статьи не может быть отображена, пожалуйста, откройте полную версию статьи.

Обсудить на сайте