본문 바로가기
기타

“지원 코딩 언어 600여 개”··· 오픈소스 AI 코딩 LLM ‘스타코더2’ 출시

by K-Books 2024. 3. 5.
728x90

 

서비스나우, 허깅페이스, 엔비디아가 코드 생성에 특화된 오픈소스 LLM인 스타코더2(StarCoder2)를 28일 공동 출시했다.

 

      ⓒ 허깅페이스

 

스타코더2는 서비스나우에서 학습한 30억 개의 파라미터 모델, 허깅페이스에서 학습한 70억 개의 파라미터 모델, 엔비디아에서 네모(NeMo) 프레임워크를 사용하여 구축한 150억 개의 파라미터 모델이라는 세 가지 LLM으로 구성되어 있다.

 

기업은 내부 리소스 상황에 따라 적절한 규모의 모델을 선택하며 컴퓨팅 비용을 조절할 수 있다. 개발자는 코드 완성, 코드 요약, 코드 스니펫 검색 등 다양한 목적으로 스타코더2를 사용할 수 있다.

 

세 기업은 “스타코더2는 텍스트-투-코드 및 텍스트-투-워크플로우 기능을 포함하여 AI 기반 코딩 애플리케이션의 잠재력을 더 높여줄 것”이라며 “또한 더 광범위하고 심층적인 프로그래밍 학습을 통해 결과에 맥락을 제공하고 보다 정확한 예측값을 지원할 것”이라고 밝혔다.

 

스타코드1에 비해 스타코드2는 더 많은 프로그래밍 언어를 지원한다. 스타코드1는 80개의 프로그래밍 언어를 지원했지만, 스타코드2는 최대 619개의 프로그래밍 언어를 지원한다.

 

스타코더2는 이전 세대 LLM에서 사용했던 데이터보다 7배 이상 규모가 큰 ‘스택v2’라는 코드 데이터세트를 활용했다. 여기에 코볼 같이 온라인 리소스가 거의 없는 언어 처리나 프로그램 소스 코드의 수학적 처리를 돕는 새로운 학습 기법을 활용했다.

 

기업은 자체 데이터로 모델을 미세 조정할 수 있는 엔비디아의 네모나 허깅페이스의 TRL 같이 도구를 사용하여 맞춤형 챗봇 또는 코딩 어시스턴트를 만들 수 있다.

 

2023년 5월에 처음 출시된 스타코더는 구글의 듀엣 AI나 아마존의 코드위스퍼러 같은 AI 코딩 도구와 달리 대부분 무료인 동시에 사용 허가를 받은 데이터만 학습했다는 점에서 주목 받았다.

 

두 기업은 사용허가를 받은 소스코드를 기반으로 LLM을 학습하면서 출처가 모호한 코드를 생성하는 등의 법적 문제를 어느 정도 해결했다고 밝혔다. 깃허브가 코파일럿 학습 코드 관련 저작권 문제로 소송을 당했다는 점에서 이런 법적 문제 해결은 중요하다.

 

사용 제한 없이 공개되는 기존 오픈소스 소프트웨어와 달리 스타코더의 라이선스에는 악성 코드 배포 제한을 포함하여 모델 수정 및 모델을 사용하는 애플리케이션에 적용되는 제한 사항이 포함돼 있다.

 

자세한 소스코드 정보는 빅코드 프로젝트의 깃허브 페이지에서 확인할 수 있다. 스타코더2 중 규모가 작은 모델 2개는 허깅페이스에서 바로 다운로드 가능하며 150억 개의 매개변수를 지닌 모델은 엔비디아의 AI 재단 모델 카탈로그에서만 접근할 수 있다.

 

한편, 서비스나우와 허깅페이스는 ‘빅코드’라는 프로젝트를 통해 개방적이고 책임감 있는 방식으로 AI 연구 커뮤니티의 지원을 받아 코드 생성에 특화된 최첨단 AI 시스템을 만들고 있다. 스타코더도 빅코드 프로젝트의 일환으로 개발됐다.

 

출처 : ciokr@idg.co.kr

 

728x90