Медіакомпанії обмежують доступ Internet Archive через ризики використання контенту для ШІ
Кілька великих медіакомпаній почали обмежувати доступ Internet Archive до своїх матеріалів, побоюючись, що архів відкритого доступу може використовуватися як непряме джерело даних для навчання систем штучного інтелекту. Йдеться про контент, який через Wayback Machine залишався доступним навіть після видалення з оригінальних сайтів.
Як повідомляє Engadget, окремі видавці заблокували або частково обмежили роботу архівних ботів Internet Archive.
Причина — зростаючий інтерес ШІ-компаній до великих масивів структурованих текстів, які можна швидко й автоматично обробляти.
Архівні копії сайтів з відкритим доступом до даних розглядають як потенційний спосіб обійти обмеження й отримати журналістський контент без згоди правовласників.
У медіа наголошують: проблема полягає не в самому архівуванні, а в подальшому використанні матеріалів. Wayback Machine може надавати доступ не лише до відкритих статей, а й до публікацій за підпискою або матеріалів, які редакції свідомо зняли з публічного доступу. В умовах розвитку генеративного ШІ це створює ризик неконтрольованого використання контенту для тренування моделей.
Протягом багатьох років Internet Archive виконував роль цифрової бібліотеки та інструмента збереження історії інтернету. Та навіть сервіси відкритого доступу тепер розглядають як частину ланцюга постачання даних для алгоритмів. Через це медіакомпанії переглядають підходи до захисту власного контенту.