기사 메일전송
[분석] 깊어지는 AI 시대 저작권 갈등, 해법은?
  • 김영 기자
  • 등록 2026-01-18 14:16:12
기사수정
  • 정부 “AI 학습 면책 필요” vs 언론계 “창작자 통제권 박탈”
  • 공정이용 판단 핵심 ‘시장 대체성’…면책 아닌 조건 설계가 해법
  • 무제한 학습이 AI 정확성 보장하지 않는다

'생성형 AI의 저작물 학습에 대한 저작권법상 공정이용 안내서' 대국민 설명회 [사진=연합뉴스]

최근 정부가 추진 중인 ‘AI 학습 면책’ 정책을 둘러싸고 산업계와 언론·창작자 진영의 갈등이 본격화되고 있다. 

 

대통령직속 국가인공지능전략위원회가 발표한 행동계획안에는 AI 모델이 법적 불확실성 없이 저작물을 학습할 수 있도록 저작권법과 AI기본법을 개정하겠다는 내용이 담겼다. 

 

이에 대해 한국신문협회는 “선사용 후보상 방식은 창작자의 사전 통제권을 박탈하는 불공정 제도”라며 공식 반대 입장을 냈다.

 

표면적으로는 산업 발전과 저작권 보호의 충돌처럼 보이지만, 이 논쟁의 본질은 다른 곳에 있다. 핵심 쟁점은 “AI가 콘텐츠에 접근할 수 있느냐”가 아니라 “어떤 조건과 절차로 접근하게 할 것인가”다. 

 

단순한 찬반 구도가 아니라 제도 설계의 문제라는 뜻이다.

 

정부와 산업계의 논리 “더 많은 데이터가 더 좋은 AI를 만든다”

 

정부와 AI 산업계는 더 많은 데이터에 접근할수록 AI의 성능이 높아진다는 전제를 바탕으로 학습 면책의 필요성을 주장한다. 

 

대규모 데이터가 확보돼야 한국형 AI 경쟁력이 강화된다는 논리다. 실제로 이용자 경험에서도 다양한 자료를 참고할수록 생성 결과가 풍부해지는 경향이 있는 것은 사실이다.

 

그러나 최근 발표된 다수의 연구는 이러한 직관이 AI 학습 과정에서는 그대로 성립하지 않는다고 지적한다. 

 

국제 연구진이 참여한 논문 ‘Generative AI Training and Copyright Law’는 대규모 무단 학습이 정확성을 자동으로 보장하지 않으며, 특히 서로 다른 시점의 정보가 뒤섞일 경우 오류가 구조화될 수 있다고 분석했다.

 

생성형 AI의 대표적 약점인 ‘시계열 오류’가 그 예다. 

 

AI는 2019년 기사와 2025년 기사를 스스로 구분하지 못하고, 정정 보도나 후속 맥락도 독립적으로 반영하지 못한다. 

 

결과적으로 무차별 학습은 정확성 향상이 아니라 잘못된 정보의 고착화로 이어질 위험이 크다는 것이 연구들의 공통된 결론이다.

 

기술적 현실 “정확성은 학습량이 아니라 접근 방식의 문제”

 

‘The State of Copyright in AI Training Datasets’ 연구는 실제 학습 데이터셋을 분석한 결과, 저작권이 있는 뉴스와 전문 콘텐츠가 대량 포함돼 있음에도 시점과 맥락 정보는 체계적으로 관리되지 않는다는 점을 확인했다. 

 

단순히 학습 데이터의 양을 늘리는 방식이 품질 개선을 담보하지 못한다는 뜻이다.

 

또 다른 연구 ‘Copyright Detection in Large Language Models’는 학습 데이터의 출처와 사용 범위를 투명하게 관리하지 않으면 오류를 수정하거나 책임을 묻는 구조가 작동할 수 없다고 지적했다. 

 

이 연구들은 공통적으로 무제한 학습이 아니라 조건부 접근과 출처 기반 참조 구조가 필요하다고 강조한다.

 

정확한 AI는 많이 외운 AI가 아니라, 필요할 때 신뢰할 수 있는 자료에 접근해 확인할 수 있는 AI라는 인식이 점차 힘을 얻고 있다.

 

공정이용 논쟁의 핵심 ‘시장 대체성’

 

정부안은 AI 학습을 공정이용 또는 TDM(텍스트·데이터 마이닝) 면책 대상으로 폭넓게 인정하는 방향을 검토하고 있다. 그러나 법리적으로 이는 매우 복잡한 문제다.

 

공정이용 판단의 핵심 기준은 언제나 ‘시장 대체 여부’다. 

 

뉴스 콘텐츠의 경우 생성형 AI는 단순 분석 도구를 넘어 기사 소비 자체를 대체하는 기능을 한다. 

 

이용자가 원문을 읽지 않고도 AI 답변만으로 정보 소비를 끝낼 수 있다면, 이는 전형적인 시장 대체 이용에 해당한다는 지적이 나온다.

 

미국 의회조사국(CRS)은 보고서에서 “AI 학습 과정이 변형적 이용이라는 주장만으로 공정이용이 자동 인정되지는 않는다”며 “특히 뉴스와 같은 상업적 콘텐츠는 시장 영향 평가가 결정적 요소가 된다”고 분석했다. 

 

공정이용이 무제한 면책 조항이 될 수 없다는 뜻이다.

 

판례가 보여준 현실 ‘면책이 아닌 사안별 판단’

 

최근 미국과 유럽에서 이어지는 실제 소송 사례들은 이 논쟁이 단순하지 않음을 보여준다.

 

미국에서 진행된 톰슨로이터와 로스 인텔리전스 간 소송에서 법원은 AI 훈련 과정에서의 저작물 사용이 무조건 공정이용으로 인정되지는 않는다고 판단했다. 

 

법원은 특히 학습 결과물이 원저작물의 시장을 대체할 가능성을 핵심 판단 기준으로 제시했다.

 

앤스로픽 관련 소송에서도 법원은 “대규모 언어모델 훈련이 변형적 이용이라는 이유만으로 면책되는 것은 아니다”라고 명시했다. 

 

이는 AI 기업들이 흔히 주장하는 ‘학습은 곧 공정이용’이라는 논리가 실제 법정에서는 자동으로 받아들여지지 않음을 보여준다.

 

반면 메타를 상대로 제기된 일부 소송에서는 학습 데이터 사용이 공정이용에 해당할 수 있다는 판단도 나왔다. 

 

그러나 이 역시 학습 범위와 상업성, 시장 영향 등을 종합적으로 고려한 제한적 판단이었다. 

 

판례들이 공통적으로 전하는 메시지는 분명하다. AI 학습은 면책의 영역이 아니라, 조건부 설계의 영역이라는 점이다.

 

해외 제도와 한국 논의의 간극

 

정부는 EU와 일본 등 해외 사례를 들어 TDM 면책 도입 필요성을 강조한다. 그러나 세부 구조를 보면 한국 논의와는 상당한 차이가 있다.

 

EU는 TDM 면책을 인정하면서도 권리자의 옵트아웃 권리, 합법적 접근 요건, 학습 데이터 투명성 의무를 필수 조건으로 둔다. 일본 역시 폭넓은 TDM 규정을 갖고 있지만 계약과 약관을 통한 권리자 통제 장치를 병행한다.

 

반면 한국 정부안에는 이러한 안전장치가 구체적으로 제시되지 않았다. 

 

신문협회가 “깜깜이 학습의 합법화”라고 비판하는 이유가 여기에 있다. 투명성 없는 면책은 결국 특정 플랫폼 기업에 대한 일방적 특혜가 될 가능성이 크다.

 

출처 표시와 사용료만으로는 부족

 

일각에서는 출처 표시나 사용료 지불이 해법이 될 수 있다고 주장한다.

 

그러나 출처 표시는 신뢰성을 높이는 수단일 뿐 사전 허가를 대신하지 못한다. 사용료 역시 사후 보상만으로는 권리자의 통제권을 회복하지 못한다.

 

라이선스가 제대로 작동하려면 사전 허가, 범위 명시, 투명한 정산, 검증 가능한 이용 기록이 함께 갖춰져야 한다. 이 조건이 빠진 보상 논의는 형식적 장치로 전락할 위험이 있다.

 

해법은 ‘단계화’에 있다

 

연구와 해외 사례가 가리키는 현실적 해법은 전면 금지도, 무조건 허용도 아니다. 

 

핵심은 단계적 설계다.

 

공공 데이터와 저작권이 만료된 자료는 자유롭게 학습하되, 전문 콘텐츠는 라이선스 기반으로 접근하고, 최신 뉴스는 실시간 참조와 출처 명시 방식으로 활용하며, 무단 고정 학습은 엄격히 제한하는 구조다. 

 

여기에 권리자의 옵트아웃 권리와 학습 데이터 투명성 의무가 결합될 때 비로소 균형이 가능하다.

 

이는 AI와 인간 창작자가 대립하는 구조가 아니라, 협업의 단계화라는 새로운 질서로 이어질 수 있다.

 

기술이 아니라 질서의 문제

 

AI 시대 저작권 논쟁은 결국 같은 질문으로 돌아온다. 기술이 빠르게 발전한다고 해서 권리와 책임의 구조까지 건너뛰어도 되는가.

 

인터넷 시대의 경험은 이미 답을 보여줬다. 무규제는 혁신이 아니라 시장 붕괴로 이어졌고, 라이선스와 책임 구조가 자리 잡은 뒤에야 생태계가 안정됐다.

 

지금 필요한 것은 “AI를 위해 저작권을 낮출 것인가”라는 선택이 아니다.

 

AI가 정확하고 지속 가능하게 성장하도록,

저작권 질서를 어떻게 재설계할 것인가가 핵심이다.

 

<참고 자료>

 

Generative AI Training and Copyright Law

https://arxiv.org/html/2502.15858v1

 

The State of Copyright in AI Training Datasets

https://www.researchgate.net/publication/394962410

 

Copyright Detection in Large Language Models

https://arxiv.org/abs/2511.20623

 

Copyright Exceptions and Fair Use Defences for AI Training

https://www.cambridge.org/core/journals/european-journal-of-risk-regulation/article/752DF1DB564AD1EDFE23BA8BB1110802

 

텍스트·데이터 마이닝(TDM) 관련 저작권법상 쟁점 검토

https://www.kci.go.kr/kciportal/landing/article.kci?arti_id=ART002993622

 

Thomson Reuters v. Ross Intelligence 판례

https://www.reuters.com/legal/thomson-reuters-wins-ai-copyright-fair-use-ruling-against-one-time-competitor-2025-02-11/

 

Anthropic 관련 AI 저작권 소송

https://apnews.com/article/1e5cece51c2e4bd0bb21d94de2abb035

 

Meta 관련 공정이용 판결 사례

https://www.theverge.com/news/693437/meta-ai-copyright-win-fair-use-warning

 

EU Directive on Copyright in the Digital Single Market

https://en.wikipedia.org/wiki/Directive_on_Copyright_in_the_Digital_Single_Market

 

Generative AI Copyright Disclosure Act

https://en.wikipedia.org/wiki/Generative_AI_Copyright_Disclosure_Act

 

<용어 해설>

 

생성형 AI(Generative AI)

사용자 요청에 따라 문장·이미지 등을 새로 만들어내는 인공지능. 학습(training)은 데이터를 모델 내부에 통계적 패턴으로 고정하는 과정이고, 참조(reference)는 응답 시점에 외부 자료를 실시간으로 조회하는 방식이다.

 

공정이용(Fair Use)

목적·사용량·상업성·시장 영향 등을 종합 고려해 예외적으로 허용되는 저작권법상의 이용 기준.

 

TDM(Text & Data Mining)

대량의 텍스트와 데이터를 컴퓨터로 분석하는 행위. 일부 국가에서 조건부 면책을 인정한다.

 

옵트아웃(Opt-Out)

권리자가 자신의 저작물을 AI 학습 대상에서 제외하도록 요구할 수 있는 권리.

 

시계열 오류(Temporal Error)

AI가 과거 정보와 현재 정보를 혼합해 발생하는 오류.

 

투명성(Transparency)

AI가 어떤 데이터를 어떻게 사용했는지 공개하고 설명하는 의무.


김영 기자


관련기사
이 기사에 대해 어떻게 생각하시나요?
추천해요
0
좋아요
0
감동이에요
0
유니세프-기본배너
모바일 버전 바로가기