오픈 소스 AI의 공식 정의 발표 – OSAID 1.0
오픈 소스 AI에 대한 ‘공식적인’ 정의가 나왔다. 오픈 소스의 모든 것을 정의하고 관리해온 Open Source Initiative (OSI)는 AI의 오픈 소스 여부를 판단하기 위한 새로운 표준인 Open Source AI Definition (OSAID) 버전 1.0을 발표하였다. 학계 및 업계와의 수년간의 협력의 산물인 OSAID는 AI 모델이 진정한 오픈 소스인지 여부를 평가하는 기준을 제시하고 있다.
1. 오픈 소스 AI 정의
OSAID에 따르면 AI 모델이 오픈 소스로 간주되기 위해서는 몇 가지 조건을 충족해야 한다. 우선, 모델이 ‘실질적 재현’이 가능하도록 설계에 대한 충분한 정보를 제공해야 한다는 것이다. 이는 이를 사용는 개발자가 AI 모델의 구조를 완전히 이해하고 복제할 수 있도록 모든 구성 요소에 접근 가능해야 함을 의미한다. 또한, 학습 데이터의 출처, 데이터 처리 방법, 데이터 획득 또는 라이선스 취득 방법 등 모든 관련 세부 정보 또한 공개해야 한다는 것이다.
이 정의는 AI의 투명성과 접근성을 높이기 위한 것이다. 개발자가 자유롭게 AI 모델을 수정하고 재사용할 수 있는 권한을 명시하고 있다. 즉, 오픈 소스 AI는 누구나 그 위에 자유롭게 구축할 수 있어야 하는 것이 이번 정의의 핵심적 사항이다.
- 설계 정보의 공개: AI 모델이 어떻게 설계되었는지에 대한 충분한 정보를 제공해야 한다.
- 데이터 투명성: 학습 데이터의 출처와 처리 방법 등 모든 관련 정보를 공개해야 한다.
- 개발자 권한: 개발자가 자유롭게 AI 모델을 사용할 수 있어야 하며, 수정과 배포에 제한이 없어야 한다.
2. 오픈 소스 AI 적용의 문제
이와 같은 정의에도 불구하고, 현실적으로 모든 AI 모델이 이 기준을 충족하기는 쉽지 않은 것이 현실이다. OSI는 강제 메커니즘이 없기 때문에 개발자들에게 OSAID를 준수하도록 강요할 수는 없다는 것이다. 다만, ‘오픈 소스’라는 명칭을 사용하는 모델이 OSAID 정의를 만족하지 않을 경우, AI 커뮤니티가 이를 인정하지 않겠다는 입장을 취하고 있다.
예를 들어 Meta는 자사의 Llama 모델 사용을 위해 특별한 라이선스를 요구하고 있다. 이는 완전한 오픈 소스라고 할 수 없다는 지적을 받고 있다. Stability AI 역시 일정한 매출 이상의 기업에 대해서는 별도의 라이선스를 요구하고 있다. 그리고 프랑스의 신생 AI 기업인 Mistral의 라이선스는 특정 모델과 결과물을 상업적 용도로 사용하는 것을 금지하고 있다. 구글과 마이크로소프트는 이와 같은 완전히 개방되지 않은 모델에 대해 ‘오픈 소스’라는 용어를 사용하지 않기로 OSI와 합의하였으나, Meta는 이러한 합의에 동의하지 않고 있다.
3. ‘오픈 소스’의 의미와 논란
OSI가 OSAID를 발표한 이유 중 하나는 오픈 소스 AI의 진정한 의미를 지키고자 하는 것이다. Signal Foundation과 Carnegie Mellon의 연구에 따르면, 많은 ‘오픈 소스’ AI 모델들이 실제로는 이름만 오픈 소스일 뿐, 데이터 접근이나 재현 가능성에서 제한이 많은 것으로 나타났다. 학습에 사용된 데이터가 비밀로 유지되거나, 필요한 컴퓨팅 성능이 많은 개발자들에게 부담이 되는 경우가 많아, 실질적으로는 중앙 집중화된 권력을 강화하는 데 기여하고 있다는 지적을 하고 있다.
Meta는 이러한 비판에 대해 반박하며, OSAID의 기준이 너무 엄격하다고 주장하고 있다. Meta는 자사의 Llama 모델을 무료로 공개하며, 약관과 사용 제한 정책을 통해 사람들의 안전을 지키기 위한 몇 가지 제한을 두고 있다고 말한다. 이는 기술의 정의와 관계없이 책임감 있게 AI 접근성을 높이기 위한 조치라고 설명하고 있다는 것이다. 메타가 훈련 데이터 공개를 꺼리는 이유는 대부분의 AI 모델이 개발되는 방식과 관련이 있을 것이다. 훈련 데이터에 대한 상세한 정보는 법적 표적이 될 수도 있다. 저자와 출판사는 Meta가 저작권이 있는 책을 훈련에 사용했다고 주장하고 있다. 예술가들은 자신의 저작물을 스크랩하여 보상 없이 복제하는 행위를 도둑질에 비유하며 Stability를 상대로 소송을 제기하고 있다. 법정 다툼을 지속하고 있는 기업의 입장에서 OSAID는 문제가 될 소지가 많다는 것이다.
4. 향후 과제
OSAID 버전 1.0에서는 AI 모델과 관련된 저작권과 저작권 라이선스 문제를 다루지 않고 있다. AI 모델이 학습에 사용한 데이터의 라이선스 문제가 법적 분쟁의 대상이 될 가능성도 있으며, 이는 AI의 오픈 소스화를 어렵게 만드는 요소 중 하나이다. OSI는 이러한 문제를 해결하기 위해 OSAID의 향후 버전을 개선하고, AI 모델의 지적 재산권 문제를 다룰 수 있는 방안을 모색하고 있다. OSI는 앞으로 OSAID가 어떻게 적용되는지 지속적으로 모니터링할 것이며, 이를 통해 AI 커뮤니티의 의견을 수렴하여 정의를 발전시킬 계획이다. 이를 위하여 OSI는 OSAID가 어떻게 적용되는지 모니터링하고 향후 버전에 대한 수정을 제안할 위원회를 설립하였다.
5. 결론
이번 OSI의 OSAID 1.0 발표는 AI의 오픈 소스 정의를 명확히 하고, 투명성과 접근성을 높이기 위한 중요한 시도라 할 수 있다. 하지만 현실적으로 이를 실현하는 데에는 많은 과제를 안고 있다. AI 모델의 학습 데이터 공개, 재현 가능성, 그리고 법적 이슈까지 다양한 문제가 얽혀 있으며, AI의 민주화를 위해 어떤 방향으로 나아가야 할지에 대한 지속적 논의 과정이 필요하다.