Процесс совершенствования искусственного интеллекта (ИИ) сталкивается с серьезной проблемой — ограничением доступа к данным. Об этом сообщает издание New York Times (NYT).

В исследовании MIT, проведенном в рамках проекта Data Provenance Initiative, было установлено, что многие интернет-ресурсы начинают ограничивать использование своих данных, что может серьезно повлиять на обучение ИИ-систем. 

Так, анализ более 14 тысяч доменов, используемых в трех крупнейших базах данных для обучения ИИ, показал значительную тенденцию к ограничению доступа. Примерно 5% всех данных и 25% наиболее ценных данных были защищены протоколом Robots Exclusion Protocol, позволяющим владельцам сайтов блокировать автоматизированные системы сбора данных. Кроме того, почти 45% данных из набора данных C4 теперь ограничены условиями обслуживания веб-сайтов.

Ранее Sony Music Entertainment, Universal Music Group, Warner Records и другие музыкальные лейблы подали в суд на стартапы Suno и Udio за нарушение авторских прав. По мнению истцов, компании использовали для обучения генеративных нейросетей произведения музыкантов без разрешения правообладателей.