[사진: 셔터스톡]
 [사진: 셔터스톡]

[디지털투데이 황치규 기자] 오픈AI의 챗GPT로 대표되는 생성AI 서비스들에 대한 관심이 고조되면서 기반 기술인 거대언어모델(LLM)을 둘러싼 테크 기업들 간 경쟁이 뜨겁다.

오픈AI가 LLM과 관련해 이전보다 폐쇄적인 정책을 취하고 LLM 레이스가 대규모 데이터와 컴퓨팅 용량을 투입하는 대결 구도로 판이 짜이면서 LLM 개발 진입 장벽도 높아지는 상황이다.

빅테크 기업들이나 대규모 투자를 유치한 스타트업들이 아닌 회사들은 독자적으로 LLM 구축하기가 점점 힘들어지는 분위기다. 비영리 조직으로 출발했던 오픈AI의 경우 2019년 마이크로소프트로부터 10억달러 투자를 유치한 것을 계기로 수익을 추구하는 기업 색깔을 강화해왔다. 

최근 공개한 GPT-4의 경우 경쟁 상황과 보안을 이유로 훈련에 사용한 데이터나 하드웨어 및 컴퓨팅 용량에 대해서도 공개하지 않았다. 오픈AI가 LLM을 공개하면서 기술적으로 구체적인 내용을 공유하지 않은 것은 이번이 처음이다.

이런 가운데  오픈소스 LLM을 앞세워 기업들이 자체적으로 AI 모델을 개발할 수 있도록 지원하는 테크 기업들이 늘고 있어 주목된다.

최근 오픈소스 LLM과 관련해 주목할 만한 회사는 클라우드 기반 데이터 플랫폼 업체인 데이터브릭스다. 데이터웨어하우스와 데이터레이크를 결합한 레이크하우스를 주특기로 하는 데이터브릭스는 LLM의 민주화를 기치로 내걸고 오픈소스 LLM인 돌리(Dolly)를 공개했다. 

회사 측에 따르면 돌리를 활용해 기업들은 보다 적은 데이터와 컴퓨팅 용량으로 챗GPT 같은 AI 모델을 구축할 수 있다. 이를 통해 일부 빅테크 기업들을 넘어 많은 회사들이 자체 생성 AI 모델을 개발해 쓸 수 있도록 하겠다는 비전을 제시했다.

데이터브릭스가 돌리를 처음부터 개발한 것은 아니다. 데이터브릭스는 엘로더AI가 7년전 개발한 GPT-J를 기반으로 돌리를 구현했다. 데이터는 알파카(Alpaca)에 사용된 것을 활용했다.

알파카는 페이스북을 운영하는 메타가 개발한 LLM인 라마(LLaMA)를 활용해 개발된 LLM으로  5만개 정도 질의응답 데이터셋을 사용해 훈련됐다. 그런 만큼  대규모 데이터와 GPU를 쓰지 않고도 활용할 수 있다는 것이 데이터브릭스 설명이다. 

장정욱 데이터브릭스코리아 대표는 최근 기자간담회에서 "돌리가 챗GPT 수준의 결과를 보여주는 것은 아니지만 기업들이 활용하기에는 충분하다고 본다"면서 "데이터셋은 기업 핵심 자산이다. 기업들 입장에선 데이터가 외부 업체로 나가는 것에 고민이 있을 수 밖에 없다"고 강조했다.

세레브라스(Cerebras)도 최근 7개 GPT 기반 LLM들을 오픈소스로 공개했다. 이 회사 LLM들을 아파치 2.0 라이선스 아래 연구 커뮤니티에서 사용할 수 있다.

특징은 GPU를 필요로 하지 않는다는 점이다. 세레브레스는 130억개 파라미터를 훈련시키기 위해 GPU 기반 AI 시스템을 사용하지 않았다고 강조했다.

저작권자 © 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지