데이터 보호를 위한 저작권 함정


생성 AI의 주된 자료가 데이터이며, 콘텐츠 크리에이터들은 자신의 저작물이 동의 없이 AI 모델 학습에 사용되고 있다는 우려를 하고 있다. 이 문제는 작가, 출판계 및 기타 크리에이터들이 자신의 콘텐츠가 AI 기업에 의해 스크랩되었다는 사실을 증명하는 데 어려움을 겪고 있으며, 많은 불만을 터트리고 있다. 이 문제를 풀기 위하여 Imperial College London의 연구원들은 저작자가 자신의 콘텐츠가 AI 학습 데이터세트에 사용되었는지 여부를 감지할 수 있도록 설계된 ‘ 저작권 함정 ’이라는 새로운 해결책을 만들어 제시하였다. 

 

1. 저작권 함정

이 ‘저작권 함정’은 지도 제작자나 사전 출판사가 과거에 무단 복사를 적발하기 위하여 쓰던 기법인 가짜 위치나 단어를 삽입는 등의 개념을 원용하는 것이다. 콘텐츠 내에 특이하고 사소해 보이는 요소를 의도적으로 배치하는 방법이다. ‘저작권 함정’은 텍스트, 이미지 또는 소프트웨어 코드와 같이 식별 가능하지만 눈에 띄지 않는 세부 정보를 저작물에 삽입하여 나중에 콘텐츠가 복사되었음을 증명하는 증거로 사용할 수 있도록 한다. 이러한 ‘저작권 함정은 원저작자는 쉽게 알아볼 수 있지만 다른 사람은 알아채지 못할 수 있는 ‘지문’ 역할을 ‘한다. ‘저작권 함정’의 목표는 누군가 자신의 콘텐츠를 무단으로 사용했다는 증거를 제공하기 위함이다. 식별 가능한 요소가 다른 맥락에서 나타나면 상대방이 내 저작물을 무단으로 복사했다고 주장할 수 있다는 것이다. 

모델이 ‘저작권 함정’이 포함된 콘텐츠를 학습하였는지 여부를 감별하기 위하여 연구진은 모델에 무작위적으로 합성한 문장을 입력한 후 반응을 분석하였다. 모델이 학습 중에 ‘저작권 함정’을 본 적이 있다면 ‘surprise’ 또는 ‘perplexity’ 점수가 낮게 나타나며, 이는 해당 텍스트에 익숙하다는 것을 나타낸다. 이를 통하여 저작자는 자신의 콘텐츠가 AI 시스템에 의해 사용되었음을 증명할 수 있게 된다.

 

2. 작동 방식

보호하려는 콘텐츠 유형에 따라 ‘저작권 함정’을 만드는 방법에는 여러 가지가 있다. 다음은 몇 가지 예시이다.

  • 텍스트: 고의적인 오류 또는 독특한 문구를 삽입한다. 작성자는 고의적이지만 사소한 오류, 비정상적인 맞춤법 선택 또는 자신의 작품에 고유한 단어/문구를 삽입하는 방식이다. 
    • 쉽게 알아볼 수 있는 허구의 세부 정보를 추가
    • 만들어낸 단어나 잘못된 역사적 사실을 추가
    • 눈에 띄지 않는 사소한 오타 포함
  • 이미지 및 그래픽: 디지털 워터마크 삽입 방식과 변형 방식이 있다. 
    • 디지털 워터마크 삽입. 보이지 않는 디지털 워터마크를 이미지에 삽입한다. 이러한 워터마크는 눈에 보이는 이미지를 변경하지 않지만 저작권 소유자가 특수 도구를 사용하여 쉽게 감지할 수 있다. 워터마크에는 소유권에 대한 정보를 인코딩하는 일련의 비트가 포함될 수 있다.
    • 변형방식. 육안으로는 거의 감지할 수 없는 작은 모양, 색상 변화 또는 특이한 패턴 등 구체적이면서도 특이한 인공물을 추가할 수 있다. 이미지가 도난당한 경우 이러한 요소는 소유권을 증명하는 증거로 사용된다.
  • 지도: 가상의 위치와 세부 정보. 전형적인 저작권 함정 기법이다. 지도 제작자는 현실 세계에 존재하지 않는 가상의 거리, 마을 또는 지리적 특징을 지도에 의도적으로 삽입한다. 
  • 소프트웨어 코드: 코드 워터마크와 고유 식별자 방식이 사용된다. 
    • 코드 워터마크: 프로그래머는 소프트웨어에 주석, 특정 기능 이름 또는 기능이 없는 추가 코드 조각을 추가할 수 있다. 이는 누군가가 소프트웨어를 복사하거나 리버스 엔지니어링했는지 식별하는 데 도움이 될 수 있다.
    • 고유 식별자: 프로그래머는 자신만 알아볼 수 있고 복사를 증명하기 위해 역추적할 수 있는 비기능적 함수, 변수 또는 데이터와 같이 무해하게 보이는 고유한 요소를 포함한다.
  • 데이터 세트: 소유자는 실제 데이터에 포함된 고유하고 조작된 데이터인 ‘합성 데이터’를 포함 시킬 수 있다. 

 

3. 적용의 한계

‘저작권 함정’은 눈에 띄기 어렵고 불법 사용자가 제거하기 어렵기 때문에 매우 효과적이라 할 수 있다. 자료를 도난당하고 사본에 ‘저작권 함정” 요소가 포함된 경우, 무단 사용이 발생했다는 결정적인 증거가 된다. 그러나 그 한계 또한 있다. 

  • 법적 요건: ‘저작권 함정’은 복제에 대한 강력한 증거가 될 수 있지만, 일부 지역에서는 고의적인 침해 인정을 하지 않는 경우도 있다. 
  • 윤리적 문제: 지도나 데이터 세트에 고의적으로 잘못된 정보나 허위 세부 정보를 포함시키는 것은 데이터를 사용하는 사람에게 의도하지 않은 결과를 초래할 수 있다.
  • 정교한 필터: 도용자가 잠재적인 저작권 함정을 알고 있는 경우, 데이터를 사용하기 전에 정교한 필터, 알고리즘 또는 수동 검사를 사용하여 이를 감지하고 제거할 수 있다.

 

4. 결론

‘저작권 함정’은 콘텐츠의 무단 사용을 탐지하는 좋은 방법 중 하나이다. 콘텐츠 소유자는 고의적이고 눈에 띄지 않는 마커를 삽입함으로써 표절을 감지하고 잠재적으로 법적 조치를 취하여 자신의 저작물을 보호할 수 있다. 데이터와 콘텐츠가 점점 더 디지털화되고 스크랩되는 세상에서 ‘저작권 함정’은 도용을 억제할 수 있는 보호 수단 중 하나이다.

people found this article helpful. What about you?
답글 남기기 0

Your email address will not be published. Required fields are marked *