Insight

Insight

[TECH INSIGHT]What is Retrieval-Augmented Generation(RAG)?

2024-06-13


방대한 양의 데이터로 학습된 대규모 언어 모델(LLMs)의 개발로 인해 Generative AI 서비스들은 텍스트 응답 생성에서 뛰어난 성과를 보이고 있습니다. 우리는 이러한 AI 서비스에 프롬프트를 보내고, AI는 사전에 학습된 데이터를 기반으로 응답하며 상호작용 할 수 있습니다. 

그러나 우리가 AI에 보낸 요청에 답을 하기 위해 학습 되지 않은 정보가 필요한 경우 문제가 발생합니다.

LLM을 학습하는 데 사용된 데이터는 시간이 지날수록 오래되고, 조직의 제품이나 서비스에 대한 세부 정보들은 학습할 수 없어 답변에 사용할 수 없습니다. 사람들이 잘 모르는 주제에 대해 정확한 답변을 할 수 없는 것처럼, AI도 부정확하거나 허구의 정보를 생성할 수 있는데 이를 할루시네이션(환각) 현상 이라고 합니다. 

어떻게 이런 문제를 해결할 수 있을까요? 사람들은 잘 모르는 질문에 직면했을 때 책을 찾거나 인터넷 검색을 하는 등 정보를 검색하여 정확한 답변을 제공합니다. AI도 Retrieval Augmented Generation (RAG)이라는 과정을 통해 동일한 작업을 수행할 수 있습니다.

다음은 RAG가 작동하는 방식에 대한 간략한 개요입니다 (아래 그림 참고):

  1. 사용자 프롬프트 전송: 프롬프트를 제출하면 동일한 쿼리가 임베딩 모델에 전송됩니다.
  2. 임베딩 모델이 쿼리 변환: 임베딩 모델은 쿼리를 임베딩 벡터로 변환합니다.
  3. 대규모 데이터베이스에서 벡터 검색: 이 쿼리 임베딩을 사용하여 대규모 벡터 데이터베이스에서 가장 유사한 데이터를 검색합니다. 데이터베이스의 방대한 데이터와 쿼리 처리 능력은 사용자의 요청과 문맥적으로 가장 관련 있는 정보를 검색하는 데 중요합니다.
  4. 데이터 검색: 검색된 데이터는 원본 쿼리와 함께 LLM에 전송됩니다.
  5. 응답 생성: LLM은 쿼리와 검색된 문맥을 사용하여 적절한 응답을 생성하고 이를 사용자에게 반환합니다.

대규모 데이터베이스는 벡터 검색을 통해 적절한 문맥을 검색하는 데 중요합니다. 이를 통해 LLM은 가장 정확하고 관련성 있는 정보에 접근할 수 있으며, AI가 생성한 응답의 품질과 신뢰성을 향상시킵니다. 데이터베이스가 성장하고 개선됨에 따라 RAG의 효과는 더욱 향상되어 더 정확하고 유용한 결과를 제공합니다.

추가로, RAG 과정을 더 효율적으로 만들기 위해서는 가장 유사한 데이터를 검색하는 속도를 높이는 것이 중요합니다. 이 때문에 벡터 데이터베이스의 가속이 필요합니다. MetisX의 Computational Memory Solution은 메모리 확장과 Near-Data 병렬 처리를 통해 벡터 데이터베이스의 성능을 향상시킬 수 있습니다.

다음 Metis Insight에서는 Vector Database의 하드웨어 가속 과정에 대해 더 자세히 탐구해보겠습니다.



4o 

Xcelerate
Your Intelligence

엑시나 주식회사

 

대표자 : 김진영

사업자등록번호 : 710-81-02837

주소 : 경기도 성남시 분당구 판교역로 241번길 20, 미래에셋벤처타워 8층

© 2025 XCENA Inc. | All Rights Reserved

Xcelerate Your
Intelligence


XCENA Inc.

사업자등록번호: 710-81-02837


주소: 경기도 성남시 분당구 판교역로 241번길 20, 미래에셋벤처타워 8층


대표자 이름: 김진영

© 2024 XCENA Inc. | All Rights Reserved