Open Source AI란 무엇인가?
이름과는 달리 OpenAI는 개방형 AI 모델이 아니다. 여러 GPT 및 DALL-E 모델은 모두 비공개 소스이다. Meta의 Llama는 오픈 소스는 아니지만 개방형이다. AI 모델에는 크게 세 가지 범주가 있다. Proprietary AI, Open Source AI, Open AI 모델이 있다. 이 같은 구분은 LLM과 텍스트-이미지 모델 모두에 해당된다. Open Source Inititive는 아직 AI 모델이 진정한 Open Source로 간주되기 위해 무엇이 필요한지에 대한 엄격한 정의를 개발 중에 있다.
1. Open Source
Open Source란 누구나 자유롭게 사용, 수정, 배포할 수 있는 소프트웨어를 말한다. 보다 정확히 Open Source의 의미에 대한 이해를 필요로 한다. 이는 단순한 유행어가 아니며, Open Source Initiative (OSI)가 이에 대한 정확한 정의를 내리고 있다. Open Source는 단순히 자유롭게 다운로드하거나 소스 코드에 액세스할 수 있다는 의미만이 아니다. Open Source는 개발자 커뮤니티가 함께 협력하여 소스 코드를 개선하고 구축하는 협업 개발을 강조한다. 누구나 원하는 방식과 목적에 따라 원하는 방식으로 사용하고 수정할 수 있어야 한다. OSI는 라이센스 목록을 만들어 관리하고 있으며, 그 중 대표적인 것으로 Apache 2.0 License와 함께 MIT License, 그리고 GNU General Public License가 있다.
2. 독점 (proprietary) AI model
독점 AI 모델은 현재 가장 널리 사용되고 있다. 이 모델은 민간 기업에서 개발 및 운영하며 소스 코드, 학습 전략, 모델 가중치, 심지어 모델에 포함된 매개변수 수와 같은 세부 사항까지 모두 비밀로 유지되는 것이 일반적이다. 독점 모델에 접근할 수 있는 유일한 방법은 공식 서비스나 API를 사용하는 것이다. 널리 볼 수 있는 독점 모델은 다음과 같다.
- ChatGPT와 DALL·E 3
- Perplexity
- Zapier Chatbots
- Anthropic의 Claude 3와 Claude 3.5
- Google의 Gemini와 Imagen 3
- Cohere의 Command R과 R+ from Cohere
- Midjourney
3. Open Source AI
Open Source AI는 Open Source 라이센스에 따라 소스 코드가 공개적으로 제공되는 AI 기술을 말하고 있으나, 이는 그리 간단하지 않다. 오픈 소스라고 주장하는 많은 모델들은 오픈 소스가 아닌 open-washing이라는 다른 접근 방식을 택하고 있다. 현재 Open Source Initiative는 Open Source AI를 정의하는 노력을 진행 중이다. 이는 기존 라이센스가 지금 AI 모델의 모든 기술을 포괄하지 못하기 때문이다. Open Source 소프트웨어의 요구 사항과 철학을 실제로 충족하려면 모델의 소스 코드를 자유롭게 사용할 수 있어야 할 뿐만 아니라 학습 데이터, 학습 코드, 파라미터, 그리고 훨씬 더 많은 것들을 포함하여야 하기 때문이다. 소프트웨어 부분은 Open Source 라이선스에 따라 공유되어야 하며, 학습 데이터 및 작동 방식에 대한 설명과 같은 것은 Creative Commons 라이선스 또는 이와 유사한 개방형 라이선스에 따라 공유되어야 한다.
4. Open Source AI Projects
- TensorFlow: Google에서 만든 텐서플로는 기계 학습을 위한 가장 인기 있는 오픈 소스 라이브러리 중 하나이다. 다양한 기능 덕분에 데이터 과학자, 연구자, 취미로 사용하는 사람들 사이에서 인기가 높다.
- PyTorch: Facebook의 AI 연구소에서 개발한 PyTorch는 디버깅과 테스트를 간소화하는 동적 계산 그래프로 특히 호평을 받고 있다.
- Hugging Face Transformers: Hugging Face는 챗봇에서 감정 분석 도구에 이르기까지 누구나 자신의 애플리케이션에 통합할 수 있는 오픈 소스 모델을 제공함으로써 자연어 처리(NLP) 분야에서 큰 발전을 이뤄냈다.
5. Open and Open Source AI 모델
이 모델들은 현재 최고의 Open Source AI 대안으로, 각각 고유한 강점을 가지고 있다. 언어 처리, 이미지 생성, 대화형 AI 등 프로젝트의 필요에 따른 다양한 모델이다.
- Llama 3: 다용도성과 고성능으로 유명한 개방형 모델로, GPT-4와 같은 일부 주요 독점 모델에 필적하는 성능을 자랑한다. 상업용 및 개인용 모두에 적합하며 사용량에 약간의 제한이 있다.
- FLUX.1: 다양한 AI 작업에 탁월한 성능을 제공하는 최첨단 모델로, 독점 옵션에 대한 훌륭한 대안이 될 수 있다. FLUX.1은 사용자 정의의 용이성을 강조하며 적응형 AI 솔루션을 찾는 개발자에게 이상적이다.
- Stable Diffusion: Stable Diffusion은 기능과 광범위한 수정 및 실험이 가능한 오픈 라이선스로 인해 예술가와 연구자 모두에게 사랑받고 있다.
- BLOOM: 대규모 연구진이 협력하여 개발한 BLOOM은 GPT와 유사한 모델과 경쟁하도록 설계된 오픈 소스 언어 모델이다. 여러 언어를 지원하며 커뮤니티 주도의 AI 개발의 힘을 보여주는 대표적인 예이다.
- OpenLLaMA: 독점적인 LLaMA 모델에 대한 오픈 소스 대안을 제공하는 것을 목표로 하는 고성능 언어 모델이다. OpenLLaMA는 연구 및 상업적 목적으로 모두 액세스할 수 있으며 구현의 유연성을 제공한다.
- Dolly 2.0: Databricks가 개발한 Dolly 2.0는 완전히 개방되어 있으며 상세한 학습 데이터 투명성과 함께 제공되는 대화형 AI 모델이다. 챗봇 및 대화형 AI 애플리케이션을 위한 탁월한 선택일 수 있다.
- Grok: 지식 기반 작업에 중점을 둔 모델인 Grok은 사실 검색 및 교육적 맥락에서 뛰어난 성능을 발휘하는 것으로 잘 알려져 있다. 커뮤니티 기여를 위해 개방되어 있으며 공동 작업을 통해 계속 발전하고 있다.
6. 결론
Open Source AI는 기술과 혁신에 대한 사고방식의 획기적인 전환을 의미한다. 협업, 투명성, 접근성을 가능하게 함으로써 개발자, 기업, 연구자들은 독점 소프트웨어와 관련된 기존의 장벽 없이 새로운 지평을 열 수 있다. 누구나 Open Source 활동에 참여하는 것은 AI의 미래를 이해하고 만들어가는 관문이 될 수 있을 것이다.