앤트로픽의 수백만 권 도서 스캔·폐기 계획의 내막

어쩐지 말을 너무 잘하더라

앤트로픽이 수백만 권의 종이책을 구매→재단(제본 파괴)→스캔→폐기/재활용하는 방식으로 학습 데이터를 확보하려 했던 ‘Project Panama’의 내부 문서가 공개됐다.

Project Panama: 내부 문서에는 “세상의 모든 책을 파괴적으로 스캔(destructively scan)”한다는 표현이 등장합니다. 법원 기록에 따르면 앤트로픽은 수백만 권을 대량 매입해 제본을 절단하고 고속 스캐너로 스캔한 뒤 재활용 수거까지 계획했습니다.
업계 공통 패턴: 문서들은 앤트로픽뿐 아니라 메타/구글/오픈AI 등도 책 데이터가 성능 경쟁에 중요하다고 보고, 권리자 동의 없이 대규모 수집(일부는 불법 복제본/섀도 라이브러리)에 의존했다는 정황을 보여줍니다.
핵심 쟁점(페어유스/취득): 일부 판결은 ‘훈련이 변형적(transformative)일 수 있다’는 논리를 인정하는 반면, 불법 소스에서의 취득·배포(토렌트 등)는 별개의 법적 위험으로 남을 수 있다는 점을 짚습니다. - “학습의 공정이용” vs “데이터를 어떻게 확보했는가”를 분리해서 보는 프레임이 실무/정책 논의에서 중요해질 듯.