[기획] 생성형 AI 혁신과 저작권 보호···"공존 모색해야"

생성형 AI의 활용도가 높아지면서 수집되는 데이터에 대한 ‘저작권’ 문제에 논란이 일고 있다. 사진=엔바토

텍스트 생성형 AI로 대표되는 챗GPT와 클로드(Claude), 이미지 생성형 AI로 대표되는 미드저니(Midjourney)와 달·E(DALL·E), 음악·오디오 생성형 AI 주노(SUNO)와 리퓨전(Riffusion), 영상 생성형 AI 피카(Pika)와 런웨이(Runway) 등 AI(인공지능)의 영향력은 날이 갈수록 커지고 있다. 하지만 AI가 사용자의 요청에 따라 온라인 상에서 다양하게 수집·학습해 일목요연하게 정리해 제공하는 그 데이터에 대한 ‘저작권’ 문제가 계속 논란이 되고 있다.

최근 불거진 생성형 AI와 관련된 저작권 논란을 간단하게 살펴보면, 오픈AI의 챗GPT 모델이 뉴욕타임즈 기사를 대량으로 학습했고, 특정 프롬프트를 입력할 때 뉴욕타임즈 원문 기사와 거의 동일한 결과를 출력해 복제권 침해 논란이 일었다.

또 미국의 스톡 포토 에이전시 게티이미지는 영국 기업 스태빌리티 AI(Stability AI)가 서비스하는 이미지 생성 모델 스테이블 디퓨전(Stable Diffusion)이 게티이미지의 고품질 이미지와 설명 텍스트를 무단으로 크롤링해 학습했다며 저작권 침해 및 이미지 라이선스 시장 훼손을 이유로 소송을 제기하기도 했다.

스태빌리티 AI 측은 ‘자사의 모델 학습 과정은 공정이용에 해당한다’고 주장했다. 하지만, 이미지는 텍스트와 다르게 저작권 침해와 연관될 가능성이 더 크다는 지적이 일었다.

◇저작물 관련 권리 3가지, ‘원본 대체 영향력 발휘’ 핵심

먼저 저작물의 이용과 관련한 저작권의 재산권 중 복제권, 변형권, 공중송신권에 대한 논란이 있다. ‘복제권’은 AI 학습과정에서 원본 저작물을 서버에 저장하고 복제하는 단계는 저작권 침해 가능성이 높은 것으로 알려졌다.

복제권은 책의 복사(제본), 음악 파일 다운로드, 영상 저장 등이 해당되고, 변경권은 데이터 전처리와 패턴 추출 과정, 이를 통해 생성된 결과물과 원본의 식별이 불가능할 경우 침해 가능성이 낮다. ‘변형권’의 예는 소설을 영화로 각색하거나 기존의 음악을 바탕으로 새롭게 편곡하는 행위가 포함된다. ‘공중송신권’은 AI가 생성한 결과물을 배포할 때 이 결과물이 원본과 유사성이 크면 침해 논란이 발생한다. 공중송신권은 스트리밍, 팟캐스트, 온라인 강좌 등 다양한 디지털 송신이 해당한다.

이처럼 AI 학습데이터와 관련된 논란에 해외 여러 국가에서는 각각 규정을 정하는 움직임이 일고 있다. 미국은 ‘Fair Use 4요소’라는 이름으로 목적과 성격, 저작물 성질, 이용된 부분, 시장 대체 효과 등 4가지를 기준으로 저작권 침해 여부를 판단한다.

유럽연합(EU)에서는 지난해 6월 제정된 세계 최초의 포괄적 AI 규제법인 AI Act를 통해 학습 데이터의 투명성을 요구하고, 저작권 보호 저작물은 사전에 라이선스를 취득할 것을 권고하고 있다.

일본은 2018년에 IoT·빅 데이터·인공지능 기술을 이용·활용해 새로운 부가가치를 창출하는 4차산업혁명을 맞아 저작권법을 개정, AI 학습 목적 이용에 예외를 인정했다. 다만 저작권자의 이익을 부당하게 해치는 경우는 제재를 유지했다. 영국은 상업적인 텍스트·데이터 마이닝(Text and Data Mining, TDM) 허용 여부를 두고 공공협의를 진행 중인 가운데 창작자 단체는 강하게 반발하고 있는 것으로 알려졌다.

◇유럽 등 AI 학습 데이터 활용 허용 범위 넓히는 사례

유럽연합은 2024년에 제정한 AI 법(AI Act)에 근거해 고위험 AI 시스템에 대해 데이터 품질·대표성·편향 관리를 의무화했다. 먼저 생성형 AI가 학습에 사용한 저작권 자료를 공개하도록 의무화하는 조항을 추가했다. 이는 창작자 권리 보호와 데이터 활용을 투명성을 높이는 조치다. 다만 텍스트·데이터 마이닝(TDM)은 예외로 뒀다.

유럽연합의 개인정보 처리는 ‘유럽연합 일반 데이터 보호 규칙’(General Data Protection Regulation, GDPR)과 동일하게 적용된다. 필요할 때 편향 교정을 위해 특별한 개인정보도 제한적으로 활용 가능하지만, 엄격한 보호 조치가 필요하다. EU는 합법적인 접근이 가능한 데이터는 폭넓게 활용할 수 있지만, 저작권자 권리 보장과 데이터 품질 관리를 병행하고 있다.

일본은 올해 AI 연구·개발·활용을 장려하는 AI 촉진법을 제정했다. 또 지난해에는 기업이 AI를 활용할 때 투명성과 공정성, 책임성을 강조하는 가이드라인인 ‘AI 비즈니스 지침’을 마련했다. 일본의 저작권법 제30-4조에는 저작권자의 동의 없이도 정보분석을 목적으로 한다면 저작물을 활용할 수 있음을 명시했다. 이는 AI 학습 데이터의 활용을 사실상 허용하는 조항이다.

일본 개인정보보호법(APPI)에 따르면, 개인정보의 활용은 엄격히 규제되지만, 비식별화·익명화된 데이터는 폭넓게 활용 가능하다. 일본은 AI 학습 데이터에 대해 법적 강제보다는 자율규제와 가이드라인 중심으로 판단하며, 저작권법상 정보 분석 예외를 통해 학습 데이터의 활용을 폭넓게 허용하고 있다.

싱가포르는 2023년에 제정한 국가 AI 전략에 근거해 AI를 ‘필수 기술’로 규정하고, 데이터·컴퓨팅 인프라를 확대하고 있다. 또 기업이 AI를 활용할 때 공정성·투명성·설명가능성 등을 확보하도록 모델 AI 거버넌스 프레임워크를 통해 권고하고 있다. 이밖에도 AI 모델에 대한 기술 테스트를 수행하고 프로세스를 기록하도록 AI 테스트 툴킷 ‘AI 베리파이’(AI Verify)를 출시했다.

싱가포르 개인정보보호법(PDPA)에 따르면 개인정보 원본 데이터의 활용은 규제되지만, 비식별화 처리된 데이터는 자유롭게 활용이 가능하도록 허용하고 있다. 싱가포르는 자율 규제와 테스트 프레임워크를 중심으로 기업이 책임 있게 데이터를 활용하도록 유도하면서도 혁신을 저해하지 않는 유연성을 제공한다.

◇생성형 AI 저작권 쟁점, 권리 보호와 혁신 사이 균형 필요

생성형 AI의 결과물을 사용자가 자유롭게 사용하는 것에 대해 한국저작권위원회(이하 위원회)는 “생성형 AI를 통해 얻은 결과물은 기존 저작물과 유사할 수 있어 제삼자의 저작권 침해 위험이 존재해 이용자는 사전에 권리 침해 여부를 확인해야 한다”고 말했다. 생성형 AI(GAI) 결과물은 인간의 창작적 기여가 없다면 ‘GAI 산출물’로, 인간이 창작 과정에서 도구로 활용해 창작성이 인정된다면 ‘GAI 활용 저작물’로 구분된다.

반면, 인간의 창작적 기여가 포함되면 저작물로 인정된다. 예를 들어 △이용자가 자신의 저작물을 프롬프트로 입력해 창작성이 반영된 경우 △산출물을 수정·증감해 창작성이 나타난 경우 △산출물을 선택·배열·구성해 창작성이 인정되는 경우 등이다. 위원회는 “개인적 생성은 침해에 해당하지 않을 수 있으나, 서비스 약관에 따른 저작권 귀속 및 상업적 이용 가능 여부를 확인하고 허용 범위를 초과하지 않도록 주의해야 한다”고 말했다.

현재 생성형 AI 학습을 둘러싸고 미국·한국의 공정이용, EU·일본의 TDM 예외 규정 등 각국에서 법적 분쟁이 잇따르고 있다. TDM 예외를 도입한 국가들에서도 논란과 비판은 늘고 있지만, AI 산업 발전에 긍정적 효과가 입증된 사례는 없다. 독일은 AI 학습에 TDM 예외가 적용되지 않는다고 판단했으며, EU는 옵트아웃 제도의 분산·비표준화로 혼란이 커지고 대규모 일괄 거부 시 제도 실효성이 약화될 우려도 제기되고 있다.

일본은 비교적 넓은 TDM 예외를 규정했지만, 요건 불명확성으로 문화청이 설명자료를 발표했다. 최근 일본 언론사들은 AI 기업을 상대로 저작권 소송도 제기 중이다. 위원회는 “언론·이미지·영상 플랫폼과 AI 기업 간 저작물 거래가 활발해지면서 광범위한 예외 규정은 거래 시장 형성을 저해할 위험이 있다”며 “공정이용 규정이 있는 우리나라도 TDM 예외 도입에 신중한 접근 필요의 목소리가 커지고 있다”고 설명했다.

이러한 제도적 장치는 학습데이터 거래 비용을 줄이고 시장의 건전한 성장을 지원, 미래 사회의 지속 가능한 발전을 이루는데 핵심 과제가 될 것이다.

Search