“다음 단어 예측 엔진” LLM 알고리즘의 이해

728x90

2022년 11월, 챗GPT(ChatGPT)가 등장하면서 기업과 소비자가 생성형 인공 지능(AI)을 사용해 작업을 자동화하고 창의적인 아이디어를 얻을 뿐만 아니라 소프트웨어 코딩도 할 수 있다는 생각이 보편화됐다. 예를 들어 이메일 또는 채팅 스레드를 간략하게 요약하려면 오픈AI의 챗GPT, 구글의 바드(Bard)와 같은 챗봇에 요청하기만 하면 된다. 더 좋은 언변과 보기 좋은 레이아웃으로 이력서를 꾸미고 싶을 때도 AI의 도움을 받을 수 있다. 새로운 마케팅이나 광고 캠페인을 위한 아이디어를 얻고 싶을 때 역시 생성형 AI를 찾으면 된다.

챗GPT는 '챗봇 생성형 사전 학습 변환기(chatbot generative pre-trained transformer)'를 의미한다. 이 챗GPT의 기반은 컴퓨터 알고리즘인 GPT 대규모 언어 모델(LLM, large language model)인데, 이 LLM이 자연어 입력을 처리하고 앞선 내용을 기반으로 다음 단어를 예측하고 또 그 다음 단어를 예측하는 방식으로 대답을 완성해 나간다. 간단히 표현하면 LLM은 다음 단어 예측 엔진(next-word prediction engine)이라고 할 수 있다.

널리 사용되는 LLM으로는 오픈AI의 GPT-3와 4 LLM 외에, 개방형 모델인 구글의 람다(LaMDA)와 팜(PaLM) LLM(바드의 기반), 허깅 페이스(Hugging Face)의 블룸(BLOOM)과 XLM-로버타(XLM-RoBERTa), 엔비디아의 니모(NeMO) LLM, XLNet, 코히어(Co:here), GLM-130B 등이 있다.

지금은 개발자가 더 낮은 비용으로 더 맞춤화된 모델을 만들 수 있는 오픈소스 LLM에 특히 관심이 쏠리고 있다. 특히 메타가 2월에 라마(LLaMA)를 내놓았는데 오픈소스 LLM을 사용하려는 개발자 사이에서 폭발적인 호응을 얻었다.

LLM은 방대한 양의 문서, 위키피디아 항목, 책, 인터넷 기반 리소스와 기타 자료를 사용해 학습하고, 자연어 질의에 대해 인간과 비슷한 응답을 만들어내는 AI다. 여기에 사용되는 데이터의 양은 엄청나다. 그러나 LLM의 크기는 앞으로는 더 커지는 것이 아니라 작아질 것으로 보인다. 각 업체가 특정 용도로 LLM을 맞춤화해 현재 가장 인기 있는 모델에 사용되는 방대한 규모의 데이터 집합이 필요 없는 방법을 찾고 있기 때문이다.

예를 들어 보도에 따르면 2월 초에 발표된 구글의 새로운 팜 2 LLM은 3조 6,000억 개의 토큰 또는 단어 문자열을 학습 데이터로 사용했다. 불과 1년 전에 나온 이전 모델보다 거의 5배 많은 데이터를 사용했다. 하지만 팜 2는 더 작은 규모의 부가 데이터 집합을 통해 코딩, 수학, 창의적 작문 같은 특정 작업에서 더 좋은 성과를 낸다.

LLM은 무엇인가

LLM은 데이터 입력/출력 집합을 통해 학습되는 머신러닝 신경망이다. 많은 경우 텍스트는 레이블이 지정되지 않거나 분류되지 않고, 모델은 자가 지도 또는 준지도 학습 방법을 사용한다. LLM으로 정보가 수집되거나 콘텐츠가 입력되면 알고리즘은 다음 단어를 예측해서 출력한다. 입력은 기업의 독점 데이터일 수도 있고, 챗GPT의 경우와 같이 인터넷에서 직접 수집, 스크랩한 데이터를 쓴다. 이런 데이터로 LLM을 학습시키려면 슈퍼컴퓨터 역할을 하는 거대하고 값비싼 서버 팜이 필요하다.

LLM은 매개변수에 의해 제어되며 매개변수의 수는 수백만 개에서 수십억, 수조 개에 이르기도 한다. 여기서 매개변수는 LLM이 여러 응답 중에서 출력할 응답을 결정할 때 도움이 되는 요소라고 생각하면 된다. 오픈AI의 GPT-3 LLM은 1,750억 개의 매개변수를 사용하며 최신 모델인 GPT-4는 1조 개를 사용하는 것으로 알려졌다.

예를 들어 LLM 프롬프트 창에 "오늘 점심에 내가 먹은 것은…"이라고 입력하면 LLM은 "시리얼" 또는 "밥", "스테이크 타르타르"라는 대답을 내놓을 수 있다. 100% 정확한 답은 없지만 모델이 이미 수집된 데이터를 기반으로 확률이 높은 단어를 제시한다. 기존 데이터를 근거로 할 때 "시리얼"이라는 답이 가장 맞을 확률이 높다면 LLM은 이 단어로 문장을 완성한다. 그러나 LLM은 확률 엔진이므로 가능한 대답을 일정 비율로 제시한다. 즉, 시리얼은 50%의 확률로 출력되고, "밥"은 20% 미만의 확률로 출력되고, 스테이크 타르타르는 0.005% 미만의 확률로 출력될 수 있다. 머신러닝, 자연어 처리, 딥러닝을 연구하는 MIT의 김윤 교수는 "핵심은 LLM이 이를 학습한다는 것이다. 사람과는 다르다. 충분히 큰 학습 집합을 통해 확률이 할당되는 방식이다"라고 말했다.

그러나 "쓰레기가 들어오면 쓰레기가 나간다"는 점을 유의해야 한다. 즉, LLM이 수집한 정보가 편향되거나 불완전하거나 기타 적절치 않은 경우 LLM이 출력하는 응답도 똑같이 신뢰할 수 없고 이상하거나 심지어 모욕적일 수 있다. 응답이 정상 범위를 완전히 벗어나는 경우를 "환각(hallucination)"이라고 한다. AI를 사용해 원격으로 소프트웨어 엔지니어를 채용해주는 튜링(Turing)의 CEO 조나단 시드하스는 "환각이 발생하는 이유는 가장 기본적인 형태의 LLM에 세계에 대한 내적 상태 표현이 없기 때문이다. 즉, 사실(fact)에 대한 개념이 없다. 지금까지 본 데이터를 기반으로 다음 단어를 예측하는 통계적 추정일 뿐이다"라고 말했다.

일부 LLM은 인터넷 기반의 데이터로도 학습하므로 초기 개발자가 의도한 이상 범위까지 확장할 수 있다. 예를 들어 마이크로소프트 빙은 GPT-3를 기반으로 하지만, 검색 엔진을 쿼리해서 처음 20개 정도의 결과를 분석하기도 한다. 즉, 빙은 LLM과 인터넷을 모두 사용해서 응답을 제공한다. 시드하스는 "가령 한 프로그래밍 언어로 학습된 모델이 이전에 접한 적이 없는 다른 프로그래밍 언어의 코드를 자동으로 생성한다. 자연어도 마찬가지다. 프랑스어 학습을 하지 않았지만 프랑스어로 된 문장을 만들 수 있다. 실제로 새로운 행동이 나타나는 것 같다. 우리는 이런 신경망이 어떤 원리로 작동하는지 잘 모른다. 흥미로운 동시에 무섭기도 하다"라고 말했다.

LLM은 편향되는가

LLM과 그 매개변수의 또 다른 문제는 LLM 개발자, 그리고 인터넷에서 이뤄지는 자가 지도 데이터 수집에 의해 의도하지 않은 편향성이 유입될 수 있다는 점이다. 프린스턴 대학 정보기술 정책 센터의 박사과정에 있는 사야시 카푸에 따르면 챗GPT와 같은 시스템은 인터넷과 프로그래머에게서 수집한 데이터에 따라 성별 편향적인 답을 제공할 가능성이 높다.

그는 "챗GPT에서 암시적인 편향성 테스트, 즉 성별이 명시적으로 언급되지 않고 성별의 대명사에 대한 정보만 포함되는 테스트를 실시했다. 예를 들어 문장에서 "그녀"를 "그"로 바꿨다. 그랬더니 챗GPT의 오류율이 3배 줄어들었다. 이런 선천적 편향성 때문에 언어 모델을 현실에서 사용할 때 위험할 수 있다. 예를 들어 채용 과정에서 편향된 언어 모델이 사용되면 실제 성별 편향성으로 이어질 수 있다. 이런 편향성은 개발자가 의도적으로 편향되도록 모델을 프로그래밍해서 발생하는 것이 아니다. 하지만 궁극적으로 편향성을 수정할 책임은 AI 모델을 출시하고 이를 통해 이익을 얻는 개발자에게 있다"라고 말했다.

프롬프트 엔지니어링이란

오픈AI의 GPT-4와 같은 대부분의 LLM에는 방대한 양의 정보가 사전에 주입되지만 사용자에 의한 프롬프트 엔지니어링으로도 특정 산업, 나아가 기업의 목적에 맞게 모델을 학습시킬 수 있다. MIT의 김윤은 "프롬프트 엔지니어링은 원하는 것을 말하도록 하기 위해 알고리즘에 무엇을 집어넣을지를 결정하는 것이다. LLM은 텍스트 맥락 없이 말을 쏟아내는 시스템이다. 어떤 의미에서 LLM 자체가 이미 챗봇이다"라고 말했다.

프롬프트 엔지니어링은 원하는 결과를 얻기 위해 LLM을 위한 텍스트 프롬프트를 작성하고 최적화하는 과정이다. 이제 막 탄생한 새로운 분야이므로 기업은 AI 애플리케이션에서 최적의 응답을 얻기 위해 안내 책자와 프롬프트 가이드에 의존한다. '챗GPT를 위한 최고의 프롬프트 100개'와 같이 프롬프트 관련 시장도 만들어지고 있다. LLM을 만들고 호스팅하는 커뮤니티 플랫폼인 허깅 페이스의 머신러닝 엔지니어인 이노 레예스는 "프롬프트 엔지니어링은 사용자에게도 중요하지만, IT 및 비즈니스 전문가 입장에서도 필수적으로 익혀야 하는 기술이다. 프롬프트 엔지니어는 비즈니스 용도에 따라 맞춤 LLM을 만드는 역할을 담당하게 된다"라고 말했다.

LLM은 어떻게 더 작아지고 빨라지고 저렴해지는가

현재 LLM 기반 챗봇의 가장 보편적인 사용 형태는 "기본", 즉 텍스트 기반의 웹 채팅 인터페이스다. LLM은 구글 바드, 마이크로소프트 빙(챗GPT 기반)과 같은 검색 엔진, 그리고 자동화된 온라인 고객 지원에 사용된다. 기업은 자체 데이터 집합을 수집해 특정 비즈니스 용도에 따라 챗봇을 더 맞춤 설정할 수 있지만, 정확성 문제가 발생할 수 있다.

허깅 페이스의 창업자이자 CSO인 토마스 울프는 2월 초 MIT 컨퍼런스 현장에서 "작은 모델을 더 많은 데이터로 더 오래 학습시키면 대규모 모델이 해왔던 일을 할 수 있음을 보여주는 사례가 늘고 있다. 기본적으로 이 부분에 대한 우리의 이해도가 성숙해지고 있다고 생각한다. 첫 번째 단계에서는 일단 가동을 위해 모든 것을 시도한다. 그 다음에는 효율성을 높이고 운영 비용을 낮추기 위해 노력하는 단계다. 그동안 모두 웹 전체를 긁어오는 데 열중했지만, 이제는 양질의 데이터를 확보하는 것이 훨씬 더 중요하다"라고 말했다.

크기와 용도에 따라 다르지만 LLM을 특정 사용 사례에 맞게 학습시키는 데는 몇 백만 달러부터 많게는 1,000만 달러까지 든다. 더 작지만 양질의 데이터 집합을 활용하면 방대한 무정형 데이터 집합에 의존하는 거대 LLM과 대등하거나 오히려 더 우수한 성능을 발휘하는 것은 물론, 또한 사용자가 원하는 콘텐츠를 생성하는 데 있어 정확도도 향상된다. 학습에 들어가는 비용도 훨씬 더 적다.

마이크로소프트 AI 플랫폼 부문 부사장인 에릭 보이드는 최근 MIT 엠테크(EmTech) 컨퍼런스에서 마이크로소프트가 4년 전 오픈AI와 함께 AI 이미지 모델을 개발하기 시작했을 때의 이야기를 공개했다. 데이터 집합의 크기가 커짐에 따라 이미지 모델의 성능 향상은 오히려 정체됐다는 것이다. 반면 언어 모델의 경우 데이터 크기에 따라 성능이 함께 개선됐다. 이에 따라 오픈AI와 챗GPT의 가장 큰 재무적 후원자인 마이크로소프트는 더 큰 LLM을 구축하기 위한 인프라에 투자했다. 하지만 상황이 바뀌었다. 보이드는 "이제는 그렇게 큰 모델을 사용할 필요 없이 비슷한 성능을 얻는 방법을 연구하고 있다. 더 많은 데이터와 컴퓨팅, 학습 시간을 통해 여전히 성능을 높일 수 있지만, 그렇게 크게 만들지 않고 더 효율적으로 관리할 수 있는 방법을 찾고 있다"라고 말했다.

보이드에 따르면, 이는 매우 중요한 문제다. 컴퓨팅 등의 요소는 상당히 고가이기 때문이다. 광범위하게 LLM을 활용하려면 학습 비용과 서비스 비용을 관리할 방법을 찾아야 한다는 것이다. 예를 들어 사용자가 GPT-3에 프롬프트를 입력하면 GPT-3는 1,750억 매개변수 모두에 액세스해서 대답을 만들어낸다. 더 작은 LLM을 만드는 방법의 하나인 이른바 성긴 전문가(sparse expert) 모델은 LLM의 학습 및 계산 비용을 낮춰줄 것으로 예상된다. 보이드는 "성긴 전문가 모델은 고밀도 모델보다 정확성이 더 높은 거대 모델을 만들 수 있다"라고 말했다.

메타 플랫폼(전 페이스북) 연구원들 역시 성긴 모델이 "상대적으로 극히 일부분의 컴퓨팅만 사용해서" 챗GPT와 기타 거대 LLM과 비슷한 수준의 성능을 달성할 수 있을 것으로 본다. 메타는 2022년 10월에 발표한 연구 논문에서 "컴퓨팅 예산이 상대적으로 많지 않은 모델에서 성긴 모델은 최대 4배 더 많은 컴퓨팅이 필요한 고밀도 모델과 대등한 수준으로 작동한다"라고 주장했다. 현재 알레프 알파(Aleph Alpha), 데이터브릭스(Databricks), 픽시(Fixie), 라이트온(LightOn), 스태빌리티 AI(Stability AI), 그리고 오픈AI와 같은 기업에서 작은 모델을 내놓고 있다. 더 민첩한 이들 모델의 매개변수 수는 몇 십억 개에서 1,000억 개 수준이다.

여전히 만연한 개인정보 보호, 보안 문제

사이버 보안 기업 서프샤크(Surfshark)의 개인정보 보호 부문 고문인 가브리엘 캐비카이트는 많은 사용자가 LLM 기반 챗봇의 놀라운 기능에 감탄하지만 정부와 소비자는 그 안에 잠재된 개인정보 보호 문제를 간과하면 안 된다고 말했다. 예를 들어 올해 초 이탈리아는 서방 국가 중에서는 처음으로 개인정보에 대한 우려를 이유로 챗GPT의 추가 개발을 금지했다. 나중에 금지를 풀긴 했지만 이 결정은 자연어 처리 앱에서 사용자 대화 및 결제 정보와 관련된 데이터 유출이 발생한 이후에 내려졌다.

캐비카이트는 "이탈리아의 임시 금지 조치 이후 챗GPT의 일부분이 개선됐지만 여전히 고쳐야 할 부분이 많다. 책임감 있고 윤리적인 데이터 사용을 보장하고 신뢰를 촉진하고 AI 상호작용에서 사용자 개인정보를 보호하려면 이런 잠재적인 개인정보 보호 문제를 해결하는 것이 중요하다"라고 말했다.

캐비카이트는 챗GPT의 데이터 수집 관행을 분석해 잠재적인 문제점을 찾아냈다. 예를 들어 챗GPT는 모델 학습을 위해 방대한 양의 개인 데이터를 수집했지만 이런 행위의 정당한 법적 근거가 불분명했고, AI 모델을 학습시키는 데 사용된 데이터의 당사자 중 그런 사용에 대한 고지를 받지 못하거나 정확하게 고지하지 않은 경우가 있었다. 13세 미만 어린이의 사용을 막기 위한 효과적인 연령 확인 툴이 없다.

이런 문제 외에 전문가들은 LLM이 아직 해결하지 못한 기본적인 문제점을 지적한다. 예를 들어 AI가 수집하고 저장하는 데이터의 보안, 지식재산권 도용, 데이터 기밀성 등이다. 투링의 시드하스는 "병원이나 은행에서 LLM을 사용하려면 지식재산권, 보안, 기밀성 문제를 해결해야 한다. 일반 기업도 마찬가지다. LLM에 회사 데이터를 사용했는데, 그 결과로 데이터가 유출되어 결과적으로 경쟁업체가 득을 보는 상황을 원하는 기업은 없을 것이다. 이 중 몇 가지에 대해서는 좋은 엔지니어링 솔루션이 있고, 결국 해결되리라 생각한다"라고 말했다.

전 세계 여러 국가와 정부 기관 역시 AI 툴에 대처하기 위한 작업에 착수했다. 지금까지 가장 적극적인 국가는 중국이고, 그외 국가와 정부 기관도 활발하게 움직이고 있다.

중국은 이미 AI 거버넌스를 위한 여러 정책을 시행했으며 대부분 이니셔티브는 안전보다는 시민 개인정보 보호와 관련된다.

미국 바이든 행정부는 책임감 있는 혁신을 촉진하기 위한 조치를 이미 내놓은 데 이어 안전과 개인정보 보호를 위한 AI 규칙을 추가로 발표했다. 다만 의회가 AI를 규제하기 위한 법률을 현재까지 제정하지 않고 있다. 바이든 행정부는 2022년 10월 "AI 권리 장전"과 AI 위험 관리 프레임워크에 대한 청사진을 공개했으며, 최근에는 국가 AI 연구 리소스(National AI Research Resource)도 출범했다.

G7 국가는 최근 AI의 발전이 안전과 보안에 대한 관리감독을 추월했다고 지적하며 AI를 규제하기 위한 기술 표준 마련을 촉구했다.

유럽 연합은 익명의 출처에서 생성한 콘텐츠를 가져올 수 있는 챗GPT와 같은 생성형 AI 플랫폼을 만드는 기업에 책임을 묻는 법률을 제정하는 마무리 단계에 있다.

출처: itworld, by editor@itworld.co.kr

728x90

'기타' 카테고리의 다른 글

“지원 코딩 언어 600여 개”··· 오픈소스 AI 코딩 LLM ‘스타코더2’ 출시 (1)	2024.03.05
백악관, 'C'와 'C++' 사용 중단 촉구··· 전문가들 "시의적절한 권고" (1)	2024.02.29
생성형 AI를 더 쓸모있게··· ‘RAG’ 따라잡기 (0)	2024.02.23
2030년에는 일자리 감소 직업 30선 (0)	2024.02.22
생성형 AI가 실물 경제와 물리적 산업에 가져오는 이점 (0)	2024.02.22

K-Books

“다음 단어 예측 엔진” LLM 알고리즘의 이해

'기타' 카테고리의 다른 글

티스토리툴바

“다음 단어 예측 엔진” LLM 알고리즘의 이해

'기타' 카테고리의 다른 글

관련글

티스토리툴바