생성형 AI가 갑작스럽게 등장한 만큼 그에 따른 여러 새로운 용어도 등장했다. 여러 CIO, 애널리스트, 컨설턴트 및 기타 비즈니스 임원들 사이에서 널리 사용되는 용어를 소개한다.
에이전틱 시스템
에이전트는 자율적으로 결정하거나 행동할 수 있는 AI 모델 또는 소프트웨어 프로그램이다. 여러 에이전트가 하나의 목표를 추구하기 위해 함께 작업하면, 서로 작업을 계획, 위임, 조사, 실행할 수 있다. 그리고 이러한 에이전트의 일부 또는 전부가 생성형 AI로 구동되면 단순한 프롬프트 및 응답 방식보다 월등할 수 있다. 그러나 생성형 AI 기반 에이전틱 시스템은 비교적 새로운 기술이기 때문에 기업에서 자체적으로 구축하기 어려울 수 있으며, 이러한 시스템의 안전과 보안을 보장하는 것은 더욱 어렵다.
가트너의 애널리스트 아룬 찬드라세카란은 “에이전트 및 에이전틱 AI는 분명 VC와 스타트업에게 막대한 투자가 필요한 분야다. 2025년에는 더 많은 에이전트 프레임워크가 진화하고 성숙해지는 것을 보게 될 것”이라고 말했다.
AI 정렬
AI 정렬(AI alignment)이란 안전이나 예절 등 모델이 일련의 가치를 지키도록 훈련하는 것을 의미한다. 하지만 모든 기업이 동일한 가치를 공유하는 것은 아니다. 모든 AI 공급업체가 플랫폼에 어떤 가치를 구축하는지 명확히 밝히는 것도 아니다.
글로반트의 데이터 과학 및 AI 책임자인 JJ 로페즈 머피는 “이는 해결하기 쉽지 않은 문제다. 공급 모델이 사용자의 가치와 상충되는 경우 프롬프트를 통해 할 수 있는 일은 많지 않다”라고 말했다.
블랙박스
내부 메커니즘을 명확하게 이해할 수 없고 내부 프로세스가 숨겨져 있어 모델이 어떻게 답을 내놓는지 알기 어려운 모델을 말한다. 오늘날 기업, 특히 상업적 모델의 경우 심각한 문제다.
“모델이 어떤 데이터를 기반으로 학습되었는지, 모델에 어떤 미세 조정이 이루어졌는지 알 수 없다면 그 모델이 회사의 가치에 부합한다고 믿을 수 없을 것”이라고 아레트(AArete)의 데이터 과학 및 분석 담당 부사장인 프리야 이라가바라푸는 말했다.
컨텍스트 창
주어진 프롬프트에서 모델이 처리할 수 있는 토큰의 수를 뜻한다. 토큰은 평균적으로 단어의 4분의 3 크기다. 컨텍스트 창(context windows)이 크면 모델이 긴 텍스트나 코드를 분석하거나 더 자세한 답변을 제공할 수 있다. 또한 기업은 프롬프트에 더 많은 예제나 가이드라인을 제공하거나, 컨텍스트 정보를 전달하거나, 후속 질문을 할 수 있다.
현재 오픈AI 챗GPT의 최대 컨텍스트 창은 12만 8,000토큰이며, 이는 약 9만 6,000단어 또는 약 400페이지에 달하는 텍스트에 해당한다. 앤트로픽은 9월 초에 50만 개의 토큰 창이 있는 클로드 모델의 엔터프라이즈 요금제를 출시했다. 구글은 6월에 제미니 1.5 프로 모델에 대해 약 150만 단어 또는 텍스트 6,000페이지에 해당하는 200만 개의 토큰 제한을 발표했다.
증류
증류(Distillation)란 한 모델의 크기를 특정 사용 사례에 최대한 적합한 작은 모델로 축소하는 과정이다. “훈련 중에 증류 또는 가지치기를 거친(pruned) 모델을 사용하면 추론 시 필요한 컴퓨팅 리소스를 줄이면서 비슷한 수준의 성능을 제공할 수 있다”라고 클라우드 컨설팅 회사 케일런트(Caylent)의 데이터 및 애플리케이션 수석 디렉터인 라이언 그로스는 설명했다. 즉, 메모리를 덜 사용하면서도 더 빠르고 저렴하게 질문에 답할 수 있다.
임베딩
임베딩(Embeddings)은 텍스트, 이미지 또는 기타 데이터를 표현하는 방법으로, 유사한 객체가 서로 가까이에 위치하도록 한다. 이는 일반적으로 다차원 공간에서 벡터를 사용하여 수행되며, 각 차원은 데이터에 대한 특정 속성을 반영한다. 일반적으로 벡터 데이터베이스에 저장되며 검색 증강 생성(RAG)과 함께 사용되어 AI 응답의 정확성과 적시성을 향상시킨다.
미세 조정
특정 데이터 세트에 대해 사전 학습된 모델을 특정 작업에 맞게 조정하기 위해 추가로 학습시키는 프로세스다. 기업은 일반적으로 상용 또는 오픈소스 모델로 시작한 다음 자체 데이터에 대해 미세 조정(Fine-tuning)하여 정확도를 개선한다. 콘스텔레이션 리서치의 부사장 겸 수석 애널리스트 앤디 수라이는 “교육이 가장 비용이 많이 든다. 미세 조정은 두 번째로 비용이 많이 든다”라고 말했다.
파운데이션 모델
대규모 생성형 AI 모델은 일반적으로 방대한 데이터 세트에서 학습된다. 일반적인 예로는 챗GPT와 같은 LLM과 달리 2(Dall-E 2)와 같은 이미지 모델이 있다. 개별 기업에서는 일반적으로 자체적으로 파운데이션 모델을 학습시키지 않는다. 대신 상용 또는 오픈소스 모델을 사용한 다음 필요에 맞게 사용자 정의하거나 미세 조정한다. 추가적인 미세 조정 없이 RAG 및 프롬프트 엔지니어링을 통해 파운데이션 모델은 그대로 사용할 수도 있다.
그라운딩
생성형 AI 모델은 학습 데이터를 실제로 기억하지 않고 해당 학습 데이터에서 학습한 패턴만 기억하다. 따라서 응답의 정확도가 널뛰기할 수 있다. 이로 인해 그럴듯하지만 사실은 완전히 틀린 응답이 나타나기도 한다. 기업 사용 사례에서 심각한 문제가 될 수 있다. 그라운딩(Grounding)은 AI에 필요한 데이터를 제공함으로써 이러한 문제를 줄이는 데 도움이 된다. 예를 들어, 특정 제품의 사용 방법을 AI에게 묻는 사용자는 제품 설명서의 문맥을 프롬프트에 붙여넣어 답변의 정확도를 높일 수 있다.
환각
AI 모델은 언뜻 보기에는 그럴듯해 보일 수 있는 잘못된 답변, 말도 안 되는 답변, 심지어 위험한 답변을 생성할 수 있다. 기업은 모델을 미세 조정하고 RAG 및 그라운딩 기술을 사용하여 이러한 착각을 줄일 수 있다. 환각(Hallucinations)을 줄이는 또 다른 방법은 동일한 프롬프트를 여러 번 실행하고 응답을 비교하는 것이지만, 추론 비용이 증가할 수 있다고 EY 아메리카의 AI 리더인 데이비드 구아레라는 설명했다.
휴먼 인 더 루프
여러 사용 사례에서 생성형 AI는 사람의 감독 없이 사용하기에 충분히 정확하거나 포괄적이거나 안전하지 못하다. 휴먼 인 더 루프(Human in the loop) 접근 방식은 AI 결과물을 사용하기 전에 사람이 검토하도록 하는 접근법이다. “대규모 언어 모델이 생성하는 코드, 콘텐츠, 그림 등 모든 것을 사람이 검토하는 정책을 적극 지지한다”라고 이라가바라푸는 말했다.
추론
훈련된 모델을 사용하여 질문에 대한 답을 제공하는 프로세스다. 기업이 토큰 단위로 비용을 청구하는 상용 모델을 사용하는 경우 비용이 매우 많이 들 수 있다. “수백만 개의 추론이 필요한 워크로드를 실행하기 시작하면 스티커 쇼크(비싼 가격으로 소비 주체가 받는 충격)를 받기 십상”이라고 쓰라이는 말했다. 추론 비용을 줄이는 몇 가지 방법으로는 오픈소스 모델, 소규모 언어 모델, 엣지 AI 등이 있습니다.
탈옥
챗봇이나 이미지 생성기와 같은 생성형 AI 시스템에는 일반적으로 AI가 불법적이거나 위험하거나 음란한 답변을 제공하지 못하도록 하는 가드 레일이 마련되어 있다. 이러한 제한을 우회하기 위해 악의적인 사용자는 ‘이전 명령을 모두 무시하세요’와 같은 프롬프트를 통해 AI가 이러한 가드레일을 무시하도록 속인다. 시간이 지남에 따라 AI 공급업체는 일반적인 탈옥(Jailbreaking) 기법을 파악했지만 사용자들은 계속해서 새로운 기법을 개발해내고 있다. 이것이 많은 LLM 애플리케이션에서 가장 큰 보안 위험이라며, 구아레라는 “골대는 항상 바뀌는 형국”이라고 말했다.
탈옥은 AI를 속여 부적절한 답변을 제공하도록 하는 것에 그치지 않는다. 학습 데이터를 노출하거나 벡터 데이터베이스에 저장되어 RAG에 사용되는 독점 정보 또는 민감한 정보에 액세스하는 데 악용될 수 있다. 탈옥 공격은 프롬프트 인젝션 공격이라고도 한다.
대규모 언어 모델
대규모 언어 모델(LLM) 은 텍스트 작업을 위해 특별히 설계된 일종의 파운데이션 모델이다. 일반적으로 파라미터 수가 100억 개 미만인 소규모 언어 모델과 달리 일반적으로 수백억 또는 수천억 개의 파라미터로 구성된다. 예를 들어 메타의 라마 3.1에는 4,050억 개의 파라미터가 있으며, 오픈AI의 GPT-4에는 1조 개가 넘는 파라미터가 있는 것으로 알려져 있다.
올바른 모델을 선택하려면 일반적으로 원하는 사용 사례에 대한 테스트가 필요하다. 그러나 기업은 종종 리더보드를 확인하여 어떤 모델이 가장 높은 점수를 받았는지 확인하는 것으로 시작하곤 한다. LMSYS 챗봇 아레나 리더보드는 자체 모델과 오픈소스 모델의 순위를 매기는 반면, 허깅 페이스오픈 LLM 리더보드는 오픈소스 모델만 순위를 매기며 여러 벤치마크를 사용한다.
멀티모달 AI
멀티모달 기반 모델은 텍스트, 이미지, 오디오 또는 비디오와 같은 여러 유형의 데이터를 처리할 수 있다. 완전한 멀티모달 모델은 한 번에 여러 유형의 데이터에 대해 학습된다. 그러나 일반적으로는 백엔드에 여러 개의 모델이 있으며, 각 모델은 서로 다른 유형의 데이터를 처리한다.
EY의 파트너인 싱클레어 슐러는 “멀티모달은 아직 초기 단계에 있다. 현존하는 대부분의 멀티모달 시스템은 아직 진정한 의미의 멀티모달이 아니다”라고 말했다. 예를 들어, 음성을 통해 사용자와 상호 작용하는 모델은 먼저 오디오를 텍스트로 번역한 다음 텍스트 응답을 생성하고 그 응답을 다시 오디오로 번역하는 식으로 동작한다.
프롬프트
생성형 인공지능 모델에 제공되는 입력 또는 사용자가 챗봇에게 보내는 질문을 의미한다. 프롬프트에는 질문 외에도 질문에 답하는 데 도움이 될 수 있는 배경 정보, 질문에 답하는 방법에 대한 안전 지침, 모델로 사용할 답변의 예가 포함될 수 있다.
프롬프트 엔지니어링
AI 모델에서 원하는 결과를 얻기 위해 효과적인 프롬프트를 만드는 준칙이다. 최종 사용자가 “고등학생이 이해할 수 있을 정도로 간단한 답변”을 요청하거나 “단계별로 생각해보라”라고 말하는 등 AI를 안내하는 데 사용되기도 한다. 그러나 엔터프라이즈 워크플로우에 AI 기능을 추가하는 개발자가 사용하기도 하며, 가이드라인과 스타일북, 샘플 답변, 문맥 데이터 및 응답의 품질과 정확성을 향상시킬 수 있는 기타 정보를 포함할 수도 있다.
검색 증강 생성(RAG)
검색 증강 생성(RAG) 은 프롬프트에 컨텍스트를 추가하여 정확성, 보안 및 적시성을 개선하는 방법이다. 예를 들어, 생성형 AI를 사용하여 마케팅 레터를 작성하는 애플리케이션은 데이터베이스에서 관련 고객 정보를 가져와 AI가 가장 최신 데이터에 액세스할 수 있도록 할 수 있다. 또한 기업은 보안 또는 개인정보 침해가 될 수 있는 실제 고객 데이터에 대한 AI 모델 학습이나 미세 조정을 피할 수 있다.
하지만 RAG에는 단점도 있다. 먼저, 관련 정보를 수집하고 벡터 데이터베이스로 옮기는 과정이 복잡해진다. 그리고 권한이 있는 사용자나 프로세스만 정보에 액세스할 수 있도록 하기 위한 보안 부하도 있다. 그리고 일반적으로 토큰 수에 따라 가격이 책정되기 때문에 추론 자체에 대한 추가 비용도 있다.
“각각 천 페이지에 달하는 문서를 수집하는 경우 임베딩 비용이 상당히 높아질 수 있다”라고 KPMG의 디지털 솔루션 아키텍처 책임자 스와미나탄 찬드라세카란은 말했다.
책임감 있는 AI
윤리, 편견, 개인정보 보호, 보안, 규정 준수 및 사회적 영향을 고려하여 AI 시스템을 개발 및 배포해야 한다. 책임감 있는 AI(Responsible AI)는 고객, 직원, 기타 사용자 및 이해관계자의 신뢰를 높일 뿐만 아니라 기업이 사회적 망신을 피하고 규제를 앞서가는 데 도움이 될 수 있다.
PwC의 책임감 있는 AI 리더인 일라나 골빈 블루멘펠드는 기업이 AI 시스템의 개발과 배포를 안내할 책임감 있는 AI 원칙을 정의하는 것부터 시작할 것을 권장한다. 여기에는 공정성, 투명성, 개인정보 보호, 책임성, 포용성 등이 포함될 수 있다. 또한 그녀는 기업이 사람의 감독과 책임을 유지할 것을 권장했다. “AI 시스템은 인간의 의사결정을 완전히 대체하는 것이 아니라 보완할 수 있도록 설계해야 한다”라고 그녀는 말했다.
소규모 언어 모델
오픈AI의 챗GPT나 앤트로픽의 클로드와 같이 가장 잘 알려진 차세대 AI 모델은 수백억 또는 수천억 개의 매개변수가 있는 LLM이다. 이에 비해 소규모 언어 모델(Small language model)은 70억 개 또는 80억 개의 파라미터를 가지고 있으며 특정 사용 사례에 상당한 이점을 제공할 수 있다. “규모가 작은 모델은 일반적으로 실행 비용이 적게 들지만 정확도나 기능이 떨어질 수 있다”라고 케일런트의 그로스는 말했다. 하지만 특정 작업에 적합한 모델 크기를 선택하면 성능을 크게 저하시키지 않으면서 비용을 최적화할 수 있다고 그는 덧붙였다.
합성 데이터
합성 데이터(Synthetic data)는 인위적으로 생성된 데이터로, 다른 AI 모델에서 생성된 데이터를 사용하여 AI 모델을 학습시키는 데 사용된다. 쓰라이는 “실제 데이터는 매우 비싸고 시간이 많이 소요되며 수집하기 어렵다. 합성 데이터는 부족한 부분을 채우거나 개인 식별 정보를 대체하는 데에도 사용할 수 있다. 그러나 합성 데이터를 너무 많이 사용하면 새로운 편견이 생길 수 있다. 또 합성 데이터로 모델을 학습시킨 다음 더 많은 합성 데이터를 생성하는 데 사용하면 모델 붕괴로 이어질 수 있다.
벡터 데이터베이스
일반적으로 RAG를 통해 AI 모델에 필요한 컨텍스트를 제공하는 데 사용되는 정보를 보관하는 데이터베이스다. 벡터 데이터베이스는 다차원 공간에 데이터를 저장하므로 서로 밀접하게 관련된 정보를 가까운 곳에 배치하여 쉽게 검색할 수 있도록 해준다. 하이퍼스케일러와 AI 플랫폼 공급업체는 일반적으로 도구 세트에 벡터 데이터베이스를 포함하고 있다. 널리 사용되는 오픈소스 벡터 데이터베이스로는 파인콘(Pinecone)이 있으며, 엘라스틱서치와 오픈서시는 전체 텍스트 검색에 널리 사용된다.
제로 샷 프롬프트
제로 샷 프롬프트(Zero-shot prompting)는 사용자가 LLM이 어떻게 응답하기를 원하는지 예시를 제공하지 않는 생성형 AI 사용 사례이자 생성형 AI 챗봇을 사용하는 간단한 방법dl다. 퍼블리시스 사피엔트의 최고 제품 책임자인 셸던 몬테이로는 “제로샷을 사용하면 누구나 생성형 AI 툴을 사용해 비즈니스에 가치를 더할 수 있다. 개발자가 ‘코드 작성 좀 도와주세요’라고 말하는 것과 같다”라고 설명했다.
일반적인 제로 샷 프롬프트의 다른 예로는 일반적인 지식 질문이나 텍스트 요약 요청 등이 있다. 이에 비해 퓨 샷 프롬프트(few-shot prompting)는 사용자가 AI를 안내하기 위해 예시를 제공해야 한다. 예를 들어, 영업 편지 작성 사례를 찾는 사용자가 이전 영업 편지의 예를 제공하면 AI가 회사의 스타일과 형식에 맞게 더 나은 작업을 수행할 수 있다. ciokr@idg.co.kr