2024년 9월 4주 AI 단신

AI가 지속적으로 발전하고 있는 가운데, 연구자들은 인공 뉴런의 작동 방식을 변경함하여 인공신경망을 더 이해하기 쉽게 만드는 새로운 방법을 개발하였다. 이 접근법은 인공지능의 블랙박스 문제를 해결하고, 네트워크가 어떻게 작동 하는지를 이해하는데 도움이 될 것으로 전망된다. 새로운 방식으로 조합된 뉴런은 복잡성을 내부가 아닌 외부로 옮기고, 기존의 숨겨진 연산 없이 입력을 단순히 합산하여 출력을 생성한다.이 뉴런 네트워크는 ‘콜모고로프-아르놀드 네트워크’ (KAN)라고 불린다.
최근 OpenAI는 GPT-4o를 뛰어넘는 새로운 모델인 o1을 출시하였다. 글쓰기 및 편집과 같은 언어 작업에 적합한 이전 모델과 달리 OpenAI o1은 고급 수학, 코딩 또는 기타 STEM 기반 질문에 필요한 프로세스 유형인 다단계 ‘추론’에 중점을 두고 있다. 또한 이 모델은 천체물리학에서 유기화학에 이르는 다양한 과목에서 박사 수준의 질문에 답할 수 있도록 훈련되었다. 지금까지의 LLM 발전은 대부분 언어 중심이었지만, 많은 사실을 틀릴 뿐만 아니라 신약 개발, 재료 과학, 코딩 또는 물리학 같은 분야에서 중요한 문제를 해결하는 데 필요한 기술을 보여주지 못하였다. OpenAI의 o1은 LLM이 곧 이러한 분야에서 인간 연구자들에게 진정으로 도움이 되는 동반자가 될 수 있다는 가능성을 제공하고 있다.
AI 환각 문제를 해결하기 위하여, Google은 신뢰할 수 있는 데이터를 사용하여 대규모 언어 모델의 사실 확인을 위해 설계된 도구인 DataGemma를 도입하였다. Retrieval-Interleaved Generation (RIG)와 Retrieval-Augmented Generation (RAG) 방법을 사용한다. RIG는 모델의 초기 응답을 신뢰할 수 있는 소스가 포함된 저장소인 Google의 Data Commons 데이터와 비교하여 사실 확인을 한다. 부정확한 내용을 수정하고 출처를 인용합니다. RAG는 관련 Data Commons 수치에서 직접 답변을 작성하고 출처를 인용한다. 문제는 RIG가 유용한 데이터를 58%만 검색하였으며, RAG의 정확도는 80~94% 범위이다.
Google ‘Gemin’가 OpenAI나 Entropic의 제품보다 사용하기 어렵다는 반응이다. OpenAI의 경우 API를 처음 사용할 때 거의 즉시적으로 사용할 수 있으나, Google의 경우 클라우드 계정을 설정하는 등 많은 것을 요구하고 있어 적지 않은 노력을 필요로 한다는 것이다. 개발자들은 Gemini가 OpenAI 모델에 비하여 인기가 없다는 사실은 공공연한 사실이라는 것이다.
YouTube는 콘텐츠 제작자의 동영상 제작을 지원하기 위해 플랫폼 전반에 걸쳐 AI를 통합하고 있다. ‘Made on YouTube‘ 행사에서 YouTube는 동영상 제작을 간소화하기 위한 몇 가지 AI 기반 기능을 소개하였다. 주요 기능 중 하나는 YouTube 스튜디오의 ‘Inspiration tab’으로, 동영상 아이디어, 제목, 썸네일, 개요까지 제작자에게 제안한다. 이 도구는 브레인스토밍을 돕거나 AI가 생성한 아이디어를 사용하여 전체 프로젝트를 만들 수 있도록 돕는다. 또 다른 기능은 YouTube 단편에 통합된 DeepMind 기반 동영상 모델인 Veo이다. 제작자는 Veo를 사용하여 동영상에 AI 기반 배경을 생성하고 최대 6초 길이의 짧은 클립을 제작할 수 있다. 이 밖에 YouTube는 더 많은 언어를 지원하도록 auto-dubbing 기능을 확장하여 제작자가 동영상을 자동으로 번역할 수 있도록 지원한다. 이들 AI 기능은 올해 말 또는 내년 초에 출시될 예정이다.
프랑스 인공지능 회사 Mistral은 이미지와 텍스트를 모두 처리할 수 있는 첫 번째 멀티모달인 Pixtral 12B를 출시하였다. 12억 개의 매개변수를 갖추고 있으며, 이를 통해 이미지 캡션기능, 객체 인식, 이미지 분류와 같은 작업을 수행할 수 있다. Pixtral 12B는 미스트랄의 이전 텍스트 모델인 Nemo 12B를 기반으로 만들어 졌으며, 이미지 처리 기능을 추가한 것이다. Apache 2.0 라이선스에 따라 무료로 다운로드하여 사용할 수 있다.
런웨이가 동영상 AI 중 처음으로 개발자와 기업을 위한 API를 공개하였다. 주력 제품인 ‘젠-3 알파’의 경량 버전인 ‘젠-3 알파 터보’의 개인 및 팀을 대상으로 하는 ‘Build’와 대기업용 ‘Enterprise’ 두가지 요금제를 공개하였다. 그 후 몇 시간 만에 라이벌 루마 AI도 API를 출시하여 경쟁구도를 유지하였다.
업스테이지는 오픈소스로 공개한 ‘Solar Pro’의 초기 테스트용 모델 ‘Solar Pro Preview) 버전이 최근 한때 허깅페이스 오픈 LLM 리더보드에서 매개변수 70B 미만 기준 1위를 차지하였다. 현재는 매개변수 70B 미만 모델 기준 3위, 전체 15위를 기록하고 있다.
1만 단어 이상을 출력할 수 있는 AI 시스템이 만들어지고 있다. 최근 OpenAI가 ‘GPT-4o Long Output’ 모델을 선보인데 이어, 중국 칭화대학교 연구진은 1만 단어 이상 텍스트 생성이 가능한 ‘LongWriter-GLM4-9B’를 선보였다. 1만 단어는 A4로 10장가량의 분량이다. 이 같은 장문 AI는 출판의 초안, 마케팅 백서, 연구 정리, 학습자료 제작 등에 사용될 수 있다.
중국 AI 모델은 미국에 비해 약 6-9개월 정도 뒤쳐져 있지만, 중국 AI 앱은 훨씬 빠르게 성장할 것으로 예상된다고 Google China의 전 대표인 Lee Kai-Fu가 말하였다. 그는 가장 발전된 중국의 AI 모델 훈련 비용 감소로 인해 중국 AI 앱이 내년 초까지 확산될 것이라고 생각하고 있다. 중국은 결국 전 세계적으로 최고의 AI 앱을 구축할 것이라고 예측하고 있다.

people found this article helpful. What about you?

##AI #단신