Anthropic обучала ИИ Claude, выкупая и уничтожая миллионы книг
Компания Anthropic, разработчик языковой модели Claude, выкупила и оцифровала миллионы физических книг, а затем уничтожила оригинальные экземпляры. По информации Ars Technica, страницы вырезались из переплётов, сканировались, и использовались исключительно для внутреннего обучения ИИ. Эта масштабная практика вызвала внимание общественности и оказалась юридически защищена.
Судья окружного суда США Уильям Олсап постановил, что компании не обязаны получать разрешение от правообладателей, если приобретают книги легально. Это основано на доктрине первой продажи — юридическом принципе, который позволяет владельцу товара распоряжаться им по своему усмотрению, включая копирование и уничтожение.
К началу 2024 года Anthropic пригласила Тома Тёрви, экс-руководителя проекта Google Books, чтобы тот помог обойти правовые и бизнес-препятствия. Вместо сложных лицензий Anthropic делала ставку на массовую скупку подержанных печатных изданий, что обеспечивало юридическую защиту и снижало издержки. Книги часто закупались оптом, а процесс оцифровки был удешевлён за счёт прямого вырезания страниц.
Позже выяснилось, что Anthropic использовала не только легально приобретённые книги, но и миллионы пиратских копий — аналогично Meta*. Это добавило споров в область этики и авторских прав. Тем не менее, высококачественные книги и статьи дают ИИ заметное преимущество: такие модели точнее, связнее и полезнее в ответах, чем те, что обучались на низкокачественных данных из интернета.