어쩐지 말을 너무 잘하더라

앤트로픽이 수백만 권의 종이책을 구매→재단(제본 파괴)→스캔→폐기/재활용하는 방식으로 학습 데이터를 확보하려 했던 ‘Project Panama’의 내부 문서가 공개됐다.

핵심 내용

  • Project Panama: 내부 문서에는 “세상의 모든 책을 파괴적으로 스캔(destructively scan)”한다는 표현이 등장합니다. 법원 기록에 따르면 Anthropic은 수백만 권을 대량 매입해 제본을 절단하고 고속 스캐너로 스캔한 뒤 재활용 수거까지 계획했습니다.
  • 법원 문서/소송 배경: 저작권 소송(작가 vs Anthropic) 과정에서 4,000페이지 이상의 문서가 공개되면서 세부 내용이 드러났고, Anthropic은 합의금(기사 기준 15억 달러)을 지급했다고 전해집니다. 법원 판단은 ‘학습 자체’와 ‘데이터 취득 과정(불법 다운로드 등)’을 구분해서 보는 흐름이 강조됩니다.
  • 업계 공통 패턴: 문서들은 Anthropic뿐 아니라 Meta/Google/OpenAI 등도 책 데이터가 성능 경쟁에 중요하다고 보고, 권리자 동의 없이 대규모 수집(일부는 불법 복제본/섀도 라이브러리)에 의존했다는 정황을 보여줍니다.
  • 핵심 쟁점(페어유스/취득): 일부 판결은 ‘훈련이 변형적(transformative)일 수 있다’는 논리를 인정하는 반면, 불법 소스에서의 취득·배포(토렌트 등)는 별개의 법적 위험으로 남을 수 있다는 점을 짚습니다. - “학습의 공정이용” vs “데이터를 어떻게 확보했는가”를 분리해서 보는 프레임이 실무/정책 논의에서 중요해질 듯.