Anthropic의 ‘도서 스캔·폐기’ 계획(워싱턴포스트) — 전문 번역

앤트로픽의 수백만 권 도서 스캔·폐기 계획의 내막
어쩐지 말을 너무 잘하더라

앤트로픽이 수백만 권의 종이책을 구매→재단(제본 파괴)→스캔→폐기/재활용하는 방식으로 학습 데이터를 확보하려 했던 ‘Project Panama’의 내부 문서가 공개됐다.

핵심 내용

Project Panama: 내부 문서에는 “세상의 모든 책을 파괴적으로 스캔(destructively scan)”한다는 표현이 등장합니다. 법원 기록에 따르면 앤트로픽은 수백만 권을 대량 매입해 제본을 절단하고 고속 스캐너로 스캔한 뒤 재활용 수거까지 계획했습니다.

법원 문서/소송 배경: 저작권 소송(작가 vs 앤트로픽) 과정에서 4,000페이지 이상의 문서가 공개되면서 세부 내용이 드러났고, 앤트로픽은 합의금(기사 기준 15억 달러)을 지급했다고 전해집니다. 법원 판단은 ‘학습 자체’와 ‘데이터 취득 과정(불법 다운로드 등)’을 구분해서 보는 흐름이 강조됩니다.

업계 공통 패턴: 문서들은 앤트로픽뿐 아니라 메타/구글/오픈AI 등도 책 데이터가 성능 경쟁에 중요하다고 보고, 권리자 동의 없이 대규모 수집(일부는 불법 복제본/섀도 라이브러리)에 의존했다는 정황을 보여줍니다.

핵심 쟁점(페어유스/취득): 일부 판결은 ‘훈련이 변형적(transformative)일 수 있다’는 논리를 인정하는 반면, 불법 소스에서의 취득·배포(토렌트 등)는 별개의 법적 위험으로 남을 수 있다는 점을 짚습니다. - “학습의 공정이용” vs “데이터를 어떻게 확보했는가”를 분리해서 보는 프레임이 실무/정책 논의에서 중요해질 듯.

원본 링크

주의: 아래는 개인 참고/연구 목적의 번역 초안입니다. (고유명사·법률 용어는 맥락에 따라 다르게 번역될 수 있습니다.)

전문 번역

2024년 초, 인공지능 스타트업 앤스로픽(Anthropic)의 경영진은 외부에 알리고 싶지 않은 야심 찬 프로젝트의 속도를 끌어올렸다. “프로젝트 파나마(Project Panama)는 세상의 모든 책을 파괴적으로 스캔하기 위한 우리의 노력이다.” 지난주 법원 기록 공개로 드러난 내부 기획 문서에는 이렇게 적혀 있었다. “우리는 우리가 이 일을 하고 있다는 사실이 알려지지 않기를 원한다.”

법원 기록에 따르면, 약 1년 남짓한 기간 동안 이 회사는 수천만 달러를 들여 수백만 권의 책을 확보한 뒤 책등을 잘라내고(제본을 훼손하고) 페이지를 스캔했다. 이렇게 얻은 지식을, ‘클로드(Claude)’ 같은 인기 챗봇 제품을 뒷받침하는 AI 모델에 더 많이 주입하기 위해서였다.

이전에 보도된 적 없는 프로젝트 파나마의 세부 내용은, 도서 저자들이 앤스로픽을 상대로 제기한 저작권 소송에서 나온 4,000쪽이 넘는 문서 속에서 드러났다. 앤스로픽은 투자자들로부터 1,830억 달러의 기업가치 평가를 받았다. 회사는 8월에 이 사건을 합의로 끝내기 위해 15억 달러를 지급하기로 했지만, 지난주 한 연방법원 판사가 사건 문서 상당수를 공개하도록 결정하면서, 앤스로픽이 책을 얼마나 집요하게 추적해 왔는지가 더 분명해졌다.

이번에 공개된 문서들은, 다른 AI 기업들을 상대로 한 저작권 사건의 초기 제출 자료들과 함께, 앤스로픽·메타(Meta)·구글(Google)·오픈AI(OpenAI) 같은 기술 기업들이 소프트웨어를 ‘훈련’시키기 위해 얼마나 거대한 데이터 더미를 얻으려 했는지 보여준다.

앤스로픽 사건은, 작가·예술가·사진가·뉴스 매체 등이 AI 기업들을 상대로 제기한 일련의 소송 물결 가운데 하나였다. 이 사건들의 제출 자료는, 주요 기술 기업들이 인류의 축적된 창작물을 확보하기 위해 때로는 은밀하고, 때로는 광적인 경쟁을 벌였음을 보여준다.

법원 기록에 따르면, 기업들은 책을 핵심 ‘전리품’으로 보았다. 2023년 1월 문서에서 앤스로픽의 한 공동창업자는 AI 모델을 책으로 훈련시키면 ‘저품질 인터넷 말투(low quality internet speak)’를 흉내 내는 대신 ‘글을 잘 쓰는 방법’을 배울 수 있다고 추정했다. 2024년 메타 내부 이메일에서는 방대한 디지털 도서 저장소에 접근하는 일이 AI 경쟁에서 뒤처지지 않기 위해 “필수(essential)”라고 묘사됐다.

그러나 법원 기록은 기업들이 출판사나 저자에게 직접 허락을 받아 작품을 사용하는 것을 현실적인 방법으로 보지 않았음을 시사한다. 대신 법원 제출 자료에 따르면 앤스로픽·메타 등은 저자들이 모르는 사이에 책을 대량으로 확보하는 방법을 찾아냈고, 그 방식에는 불법 복제본을 다운로드하는 행위도 포함돼 있었다.

여러 차례에 걸쳐 메타 직원들은, 허락 없이 수백만 권의 책 컬렉션을 다운로드하는 것이 저작권법 위반이 될 수 있다고 내부 메시지에서 우려를 표했다. 2023년 12월 한 내부 이메일은 법원 기록에 따르면 “MZ로의 에스컬레이션(escalation to MZ)” 이후 그 관행이 승인되었다고 적었는데, 이는 CEO 마크 저커버그(Mark Zuckerberg)를 가리키는 것으로 보인다. 메타는 이 기사에 대해 논평을 거부했다.

새로 공개된 법원 서류 가운데 하나에서 앤스로픽은 공동창업자 벤 만(Ben Mann)이 2021년 6월 11일 동안 ‘리브젠(LibGen)’이라는 섀도 라이브러리(shadow library)에서 소설과 논픽션을 대량으로 직접 다운로드했다고 밝혔다. 제출 자료에 포함된 그의 웹브라우저 스크린샷에는 파일 공유 소프트웨어로 파일을 내려받는 장면이 담겨 있었다.

1년 뒤, 만은 2022년 7월 ‘파이럿 라이브러리 미러(Pirate Library Mirror)’라는 새 웹사이트의 출범을 반겼다. 이 사이트는 방대한 도서 데이터베이스를 보유했다고 주장하며 “우리는 대부분의 국가에서 저작권법을 의도적으로 위반한다”고 적어두고 있었다. 만은 이 사이트 링크를 다른 앤스로픽 직원들에게 보내며 “딱 맞는 타이밍!!!(just in time!!!)”이라고 썼다.

앤스로픽은 법원 제출 자료에서, 리브젠 데이터로 수익을 창출하는 상업용 AI 모델을 훈련시킨 적이 없으며, 파이럿 라이브러리 미러를 사용해 어떤 ‘완전한’ AI 모델도 훈련시키지 않았다고 주장했다.

전직 AI 업계 임원이자 작곡가로, 현재는 창작자 권리를 주장하는 비영리 단체를 운영하는 에드 뉴턴-렉스(Ed Newton-Rex)는 이런 공개 내용이 AI 기업들이 지금까지 창작자에게 충분히 보상하지 않았다는 사실을 보여준다고 말했다. 그는 “AI 업계 전반에 긴급한 리셋이 필요하다. 창작자들이 자신들이 하는 필수적인 기여에 대해 공정하게 대가를 받도록 해야 한다”고 말했다.

구글, 마이크로소프트, 그리고 ‘챗GPT’ 제작사 오픈AI 역시 책 저자들로부터 유사한 주장에 근거한 저작권 소송을 당하고 있다. (워싱턴포스트는 오픈AI와 콘텐츠 파트너십을 맺고 있다.)

AI 기업들을 상대로 한 대부분의 법적 분쟁은 아직 진행 중이다. 코넬 테크(Cornell Tech)의 디지털·정보법 교수 제임스 그리멜먼(James Grimmelmann)은 이 소송들이 제기하는 질문들이 여전히 확정되지 않은 법 영역이라고 말했다. 하지만 초기 판결 두 건에서는, 저자나 출판사의 허락 없이 책을 AI 학습에 사용하는 것이 ‘공정 이용(fair use)’이라는 저작권 법리 아래 합법일 수 있다고 판사들이 판단했다.

6월, 윌리엄 앨섭(William Alsup) 연방법원 판사는 앤스로픽이 책을 AI 학습에 사용할 권리가 있다고 판단했다. AI가 자료를 “변형적(transformative)” 방식으로 처리하기 때문이라는 논리였다. 그는 AI 학습 과정을 교사들이 “학생들에게 글을 잘 쓰도록 가르치는 것(training schoolchildren to write well)”에 비유했다. 같은 달, 빈스 차브리아(Vince Chhabria) 판사는 메타 사건에서 저자들이 메타의 AI 모델이 자신들의 책 판매에 해를 끼칠 수 있다는 점을 충분히 입증하지 못했다고 판단했다.

그러나 기업들은 책을 ‘어떻게 확보했는가’에 따라 여전히 문제를 겪을 수 있다. 앤스로픽 사건에서 책을 스캔하는 프로젝트 자체는 문제 없다고 인정됐지만, 판사는 회사가 프로젝트 파나마를 시작하기 전에 수백만 권의 불법 복제본 책을 무료로 다운로드한 행위가 저자들의 저작권을 침해했을 수 있다고 보았다.

앨섭 판사는, 앤스로픽이 다운로드해 보관해 두었던 두 개의 섀도 라이브러리에 포함된 책들에 대해, 해당 저자들이 집단소송(class action)을 제기할 수 있는 지위를 인정했다. 섀도 라이브러리는 허가 없이 온라인에서 공유되는 방대한 디지털 도서 저장고다. 재판을 치르는 대신, 앤스로픽은 잘못을 인정하지 않는 조건으로 출판사와 저자들에게 15억 달러를 지급하기로 합의했다. 다운로드된 책의 저자들은 권당 약 3,000달러로 추정되는 합의금 배분을 청구할 수 있다.

앤스로픽의 부법무책임자(Deputy General Counsel) 아파르나 스리다르(Aparna Sridhar)는 포스트에 보낸 이메일에서 “이 사건은 합의로 종결됐지만, 2025년 6월의 기념비적 판결은 유효하다”고 말했다. 이어 그는 “앨섭 판사는 AI 학습이 ‘본질적으로 변형적(quintessentially transformative)’이라고 했다. 앤스로픽의 AI 모델은 작품을 ‘복제하거나 대체하기’ 위해 훈련된 것이 아니라 ‘큰 방향 전환을 통해 다른 무언가를 만들어내기’ 위해 훈련됐다”고 말했다. “우리가 합의한 쟁점은, 일부 자료를 어떻게 취득했는지에 관한 것이지, AI 모델을 개발하는 데 작품을 사용할 수 있는지 여부가 아니었다.”

구매, 절단, 스캔, 재활용

앤스로픽이 종이책을 구매해 스캔하는 프로젝트 파나마를 시작했을 때, 회사는 실리콘밸리 베테랑을 영입했다. 앤스로픽은 20여 년 전 ‘구글 북스(Google Books)’ 프로젝트를 만드는 데 관여했던 구글 임원 출신 톰 터비(Tom Turvey)를 고용했다. 구글 북스는 유명하지만 법적으로도 치열하게 다퉈졌던 프로젝트다.

법원 기록에 따르면 앤스로픽은 처음에는 도서관이나 중고서점(예: 뉴욕의 유명 서점 스트랜드(The Strand))에서 책을 사는 방안을 검토했다. 스트랜드는 새 책과 중고책을 합쳐 ‘18마일’ 분량의 서가를 갖춘 것으로 유명하다. 2024년 3월 앤스로픽의 콘텐츠 확보 회의를 정리한 문서에는 이 서점이 “중고책 제공에 관심이 있다(interested in providing used books)”고 적혀 있다.

문서에는 앤스로픽 직원들이 뉴욕 공립도서관(New York Public Library) 같은 미국 도서관, 또는 “만성적으로 예산이 부족한 새로운 도서관(a new library that is chronically underfunded)”에 접근하는 방안도 논의했다고 적혀 있다.

다만 앤스로픽이 이러한 제안들을 실제로 실행했는지는 분명하지 않다. 이메일로 연락한 스트랜드 측 대변인은 결국 앤스로픽에 어떤 책도 판매하지 않았다고 말했다. 뉴욕 공립도서관은 논평 요청에 응답하지 않았다.

법원 기록에 따르면 앤스로픽은 결국 수백만 권의 책을, 때로는 수만 권 단위 묶음으로 구매했다. 회사는 베터 월드 북스(Better World Books) 같은 중고책 판매업체와, 영국 기반의 월드 오브 북스(World of Books) 같은 판매처에 의존했다.

문서에서는 스캔된 책의 총량과 비용이 가려져 있지만, 최종적으로 앤스로픽과 협업한 업체의 제안서에는 앤스로픽이 “6개월 동안 50만 권에서 200만 권의 책을 변환(convert)할 수 있는 경험 많은 문서 스캔 서비스 업체를 찾고 있다”고 적혀 있었다.

베터 월드 북스와 월드 오브 북스는 논평 요청에 응답하지 않았다.

문서에는 스캔 업체의 “유압식 절단 장치(hydraulic powered cutting machine)”가 책을 “깔끔하게 절단(neatly cut)”할 것이며, 이후 페이지는 “고속·고품질·생산 수준(production level)”의 스캐너로 스캔될 것이라고 적혀 있다. 마지막으로, 스캔 업체는 “재활용 업체와 일정을 잡아 완성된 책을 수거하도록 할(schedule with the recycling company to pick up the completed books)” 것이라고 설명한다.

“뭔가 찜찜하다(Doesn’t feel right)”

메타를 상대로 한 저작권 소송에서 공개된 문서들도, 소셜네트워크 대기업이 더 많은 데이터를 원했고 이를 얻기 위해 법적 위험을 감수할 의향이 있었음을 보여준다. 차브리아 판사는 메타가 책을 AI 학습에 사용하는 행위 자체에 대해서는 메타 편을 들었지만, 메타가 불법 복제본 책의 사본을 배포했다는 주장에 대해서는 저자들이 소송을 계속할 수 있도록 허용했다. 원고 측은 캘리포니아 북부 연방법원에서 해당 주장에 대한 집단소송 지위를 구하고 있다.

저자들은 소장에서 메타 고위층이 AI 모델 학습을 위해 책을 구매하는 방안을 검토했지만, 대신 온라인 불법 복제를 가능하게 하는 ‘토렌트’ 플랫폼에서 수백만 권을 무료로 다운로드하기로 했다고 주장했다. 이런 플랫폼의 설계는, 대규모 파일 묶음을 더 빨리 다운로드하려면 사용자가 자료를 업로드(공유)하도록 유도하는 경향이 있다.

일부는 이전에 보도된 바 있는 내부 문서들은, 메타 직원들이 자신들이 하는 일이 위험하거나 잘못일 수 있다고 우려하며 흔적을 숨기는 방법을 논의했음을 보여준다.

문서에 따르면 2023년 한 엔지니어는 “회사 노트북으로 토렌트를 받는 건 뭔가 찜찜하다(Torrenting from a corporate laptop doesn’t feel right)”고 썼다. 같은 직원은 이후 법무팀에, 토렌트 사이트를 사용하면 다른 사람들에게 불법 복제물을 공유하게 될 수 있고 이는 “법적으로 괜찮지 않을 수 있다(could be legally not OK)”고 우려를 전달했다.

2023년 12월의 내부 이메일은, 저커버그를 이니셜로 지칭하며, 리브젠 사용이 승인됐음을 분명히 한다. 이메일에는 “MZ로의 이전 에스컬레이션 이후, 생성형AI(GenAI)는 리브젠을 라마 3(Llama 3)에 사용하는 것이 승인됐다… 다만 여러 완화 조치가 합의되었다(with a number of agreed upon mitigations)”고 적혀 있고, 이어 리스크 목록이 열거돼 있다.

또한 이메일은 “리브젠처럼 우리가 불법 복제된 것으로 알고 있는 데이터셋을 사용했다는 내용의 언론 보도가 나올 경우, 이 이슈에 대해 규제당국과 협상하는 우리의 지위를 약화시킬 수 있다”고 경고한다.

2024년 4월까지 내부 커뮤니케이션은 회사가 리브젠과 다른 섀도 라이브러리를 다운로드하는 쪽으로 움직이고 있음을 보여준다. 채팅 로그에는 한 직원이 다른 직원에게, 왜 토렌트에 페이스북 소유 서버가 아니라 아마존에서 임대한 서버를 쓰는지 물었고, 돌아온 답은 “추적 위험을 피하기 위해(Avoiding risk of tracing back)”였다.

지난달 제출된 서면에서 메타 측 변호인들은 회사가 “토렌트를 사용해 학습 데이터를 다운로드할 때 원고들의 작품을 배포했다는 주장”을 부인한다고 적었다.

책 저자들을 대리하는 로펌 서스먼 고드프리(Susman Godfrey LLP)의 변호사 저스틴 A. 넬슨(Justin A. Nelson)은 “오픈AI가 출발 신호를 쏘아 올렸고, 그 뒤 AI 기업들 사이에 광범위한 불법 복제와 인류의 모든 표현을 ‘노천 채굴(strip-mining)’하는 일이 이어졌다”고 말했다. 오픈AI는 논평을 거부했다.

그리멜먼 교수는 AI 기업들이 저작권 자료 사용에 대해 “스스로를 오류에 빠뜨렸다(talked themselves into a fallacy)”고 말했다. 챗GPT 같은 도구를 가능케 한 돌파구는 학계 연구에서 나왔고, 학계에서는 저작권 자료를 학습에 사용하는 것이 폭넓게 받아들여진다는 점이 배경이었다. 하지만 AI 모델이 상업화되면서도 연구자들은 그 관행을 이어갔다.

그는 또한 “불법 섀도 라이브러리를 다운로드하는 대신 물리적 책을 구매해 스캔하기로 한 앤스로픽의 결정은 결과적으로 현명한 선택으로 드러났다”고 덧붙였다. “이것은 회사가 더 절제된 접근을 취하면서도 법적 준수를 달성한 좋은 사례가 될 수 있다.”

(번역 끝)

minhyeok.me

탐색기

Anthropic의 ‘도서 스캔·폐기’ 계획(워싱턴포스트) — 전문 번역

앤트로픽의 수백만 권 도서 스캔·폐기 계획의 내막

어쩐지 말을 너무 잘하더라

핵심 내용

전문 번역

구매, 절단, 스캔, 재활용

“뭔가 찜찜하다(Doesn’t feel right)”

목차

최근 업데이트된 노트

유튜브 TV 광고, 이제 30초 논스킵까지 간다

Anthropic의 ‘도서 스캔·폐기’ 계획(워싱턴포스트) — 전문 번역

앤트로픽과 미국 정부 갈등 타임라인

AI 소매업은 '더 똑똑한 점원'이 아니라 '더 촘촘한 상거래 운영체제'로 간다

Gemini Embedding 2: 임베딩이 텍스트를 넘어선 순간