OpenAI представила нейросеть Sora, преобразующую текст в видео
Модель может генерировать ролики длиной до минуты
OpenAI представила нейросетевую модель Sora, способную генерировать минутное видео по текстовым описаниям. Об этом сообщается на сайте компании.
По словам авторов разработки, Sora может создавать сцены с несколькими персонажами и высокой детализацией. Искусственный интеллект умеет не только работать с текстом, но также генерировать видео на основе неподвижного изображения. Кроме того, Sora может вставить недостающие кадры в существующий ролик.
В блоге OpenAI показаны более 40 демонстрационных видео в разных стилях. Среди них есть реалистичные кадры токийского поезда, картинной галереи и побережья Калифорнии, а также ролики с анимационными персонажами и фантастическими декорациями. Среди прочего, с помощью Sora удалось сгенерировать трейлер несуществующего фильма.
Разработчики OpenAI признают, что их модель несовершенна. Например, нейросеть иногда путает лево и право или испытывает трудности при генерации видео с большим количеством объектов — их движение может быть неестественным. Нередко в видео нарушается причинно-следственная связь: персонаж может откусить от печенья, но оно по-прежнему будет целым.
Sora пока что недоступна для широкой аудитории и находится на стадии тестирования. OpenAI собирается принять дополнительные меры, чтобы не допустить распространения реалистичных фейковых видео. В компании работают над инструментом, позволяющим идентифицировать ролики, сгенерированные искусственным интеллектом.