이프카카오에서 클라우드⬝검색 분야 연구 성과 및 기술력 알려
URL이 복사되었습니다.
- 클라우드 GPU, 비전 AI, 머신러닝, RAG 등 총 4개의 기술 세션에서 발표 진행
- AI 인프라의 근간이 되는 ‘클라우드’ 기술력을 확인할 수 있는 기술 세션 마련
- “향후 클라우드 및 검색 분야 기술 및 방법론을 지속 공유하고 국내 IT 기술 발전에 기여할 것”
[2024-10-22] 카카오엔터프라이즈(대표 이경진)가 22일 경기도 용인시 카카오 AI 캠퍼스에서 개막하는 ‘이프카카오(if kakaoAI 2024)’ 개발자 컨퍼런스에서 클라우드 GPU, 비전 AI, 머신러닝, 검색증강생성(RAG) 등 다양한 주제로 발표를 진행한다.
2018년에 시작해 6회째를 맞는 이프카카오는 카카오 그룹의 기술 비전을 공개하고 기술적 성취에 대해 개발자 커뮤니티와 함께 공유하는 행사다. 카카오는 이번 컨퍼런스의 핵심 주제를 AI로 정하고, ‘모든 연결을 새롭게’라는 슬로건 아래 카카오의 기술과 관련 지식을 참가자들과 공유한다.
카카오엔터프라이즈는 이번 이프카카오에서 총 4개의 기술 세션에 참여한다. 이번 기술 세션을 통해 카카오가 그룹 차원에서 선보이는 AI 기술과 AI 인프라의 근간이 되는 클라우드 기술력을 확인할 수 있다.
비전 AI : 미디어 및 AI 가속기를 탑재한 카카오클라우드의 비디오 인스턴스 활용기
행사 첫날, 비전 AI 관련 서비스를 개발하는 김민주 매니저는 ‘미디어 및 AI 가속기를 탑재한 카카오클라우드의 비디오 인스턴스 활용기’를 주제로 발표를 진행한다. 해당 세션에서는 화상 회의, 실시간 중계, 라이브커머스 등 영상 스트리밍 데이터를 더욱 빠르고 효율적으로 처리할 수 있는 ‘미디어 가속 인스턴스’ 2종과 영상 내에서 인상착의 검색(미아, 치매 노인 찾기), 차량 번호 검색 및 경로 추적 등 AI 모델을 활용해 영상을 분석할 수 있는 ‘AI 가속 인스턴스’ 1종을 소개한다.
또한 김민주 매니저는 여러 자동차가 촬영된 거리뷰 영상에서 ▲색상 ▲브랜드 ▲차종 등의 정보를 분류해내는 과정을 시연한다. AI 가속 인스턴스에서 손쉽게 비전 AI 모델을 적용해 ▲영상에서 자동차를 식별하고 ▲자동차의 색상, 브랜드, 차종 총 3가지의 추론을 실행하며 ▲그 결과를 영상 프레임에 오버레이 및 인코딩하는 총 3단계 과정을 설명한다.
김민주 매니저는 “카카오클라우드의 AI 가속 인스턴스에 비전 AI 모델 추론을 효율적으로 가속하기 위해 설계된 프로세서인 딥러닝 처리 유닛(DPU)을 장착했다”며 “이를 통해 객체 탐지 및 분류, 세그멘테이션, 얼굴⬝텍스트 감지 등 여러 비전 AI 모델을 간단하게 적용해 추론을 가속화할 수 있다”고 설명했다.
머신러닝 운영 플랫폼(MLOps) : 카카오클라우드 MLOps 활용 방안 소개
데이터 및 머신러닝 플랫폼 프로덕트 매니저(PM)를 맡고 있는 진은용 파트장은 카카오클라우드의 머신러닝 운영(이하 MLOps) 플랫폼을 소개하고 이를 활용해 로드밸런서 액세스 로그 기반의 트래픽 예측 머신러닝 모델을 만드는 예제를 시연한다. MLOps는 기계학습(Machine Learning)과 운영(Operation)의 합성어로 머신러닝 모델의 개발, 배포, 운영을 효율적이고 안정적으로 관리하는 프레임워크다.
진은용 파트장은 카카오클라우드의 MLOps 워크플로우를 ▲수집(Ingestion) ▲준비(Preparation) ▲분석 및 머신러닝(Analytic & Machine Learning) 총 3단계로 나눠 설명했다. 또한 카카오클라우드의 강력한 컴퓨팅 및 네트워크 성능이 머신러닝 운영을 안정적으로 뒷받침하고 있다고 덧붙였다.
먼저 데이터 수집 단계에서는 실시간 스트리밍 데이터부터 대규모 배치 데이터를 효율적으로 수집하기 위해 대규모 메시지 데이터를 효율적으로 관리할 수 있는 Pub/Sub, 대용량 데이터를 안정적으로 저장할 수 있는 스토리지 서비스인 Beyond Storage Service(BSS)를 제공하고 있다.
데이터 준비 단계에서는 데이터 정제, 변환, 통합 작업이 이뤄지며 이를 지원하기 위해 ▲분산 데이터 처리 프레임워크인 하둡 에코(Hadoop Eco), ▲메타 데이터를 손쉽게 관리할 수 있도록 지원하는 데이터 카탈로그(Data Catalog)를 지원한다.
수집된 데이터가 준비되면 분석 및 머신러닝 단계에서 ▲빠르고 효율적인 쿼리와 분석을 지원하는 데이터 쿼리(Data Query)와 머신러닝 워크플로우 관리와 자동화를 지원하는 오픈소스 플랫폼인 쿠버플로우(Kubeflow)를 활용할 수 있다.
진은용 파트장은 “다양한 산업군에서 머신러닝이 상용화돼 데이터 및 머신러닝 모델의 복잡성이 증가하는 등 머신러닝의 발전에 따라 발생하는 여러 문제들을 해결하기 위해 최근 MLOps의 중요성이 더욱 부각되고 있다”며 “MLOps는 데이터 관리부터 머신러닝 모델 배포 및 운영, 파이프라인 자동화와 모니터링을 통해 워크플로우 전반을 최적화하며 효율성과 확장성을 높이는 중요한 역할을 한다”고 말했다.
검색증강생성(RAG) : 공공데이터를 활용한 RAG 기술 구현 및 프레임워크 소개
AI 기반으로 검색 모델을 고도화하고 있는 김도윤 검색CIC RAG모델링TF장은 거대언어모델(LLM) 응답의 신뢰도를 높이기 위한 방법론인 RAG를 효과적으로 구현하기 위해 필요한 구조 및 데이터 방식을 소개하고 이를 구현한 데모를 시연한다.
RAG는 LLM이 검색 결과를 바탕으로 사용자의 질문에 답변하도록 유도해 할루시네이션(hallucination, AI가 거짓 정보를 사실인 양 생성·전달하는 환각 현상)을 줄이기 위한 기술이다. 김도윤 RAG모델링TF장은 최소한의 동질적인 의미로 묶을 수 있는 최대 단위로 정의한 청크(Chunk)로 쪼갠 후 검색을 수행하는 방법을 제안한다. 이어 공공데이터 중 법제처의 찾기 쉬운 생활 법령 데이터와 식품의약품안전처의 건강기능식품 품목제조신고(원재료) 및 의약품개요정보(e약은요)를 활용해 개발한 AI 서치 베타 서비스를 시연한다.
김도윤 RAG모델링TF장은 “LLM이 처리할 수 있는 문서의 길이에는 한계가 있어, 지나치게 긴 문서를 제공할 경우 답변에 불필요한 내용이 많아 할루시네이션이 증가할 수 있고 너무 짧은 문서의 경우 전체 맥락이 유실되거나 텍스트의 의미가 왜곡되고 누락될 수 있다”며 “고품질 청크 기반의 검색은 하나의 주제를 중심으로 관련성이 높은 검색 결과를 제공하며 검색 품질을 향상시킬 수 있다”고 말했다.
클라우드 GPU : NIC와 GPU 간 제로카피
행사 둘째 날에는 국내에서 2명 뿐인 ‘리눅스 커널 네트워킹 스택 자동 멀티캐스트 터널링(AMT) 메인테이너’로 활동하고 있는 유태희 매니저가 ‘네트워크 인터페이스 카드(Network Interface Card, 이하 NIC)와 GPU 간 제로카피(zero-copy)’를 주제로 발표를 진행한다.
최근 AI 워크로드가 기하급수적으로 증가하면서 GPU 또는 NPU에서 복잡한 병렬 연산을 더욱 빠르고 효율적으로 수행해야 하는 필요성이 대두되고 있다. 유태희 매니저는 NIC와 GPU 또는 NPU 사이에 데이터를 전송할 때 발생하는 복사 작업을 최소화한 데이터 전송 방식인 제로카피 기법과 최근 리눅스 커널 커뮤니티에서 공개된 최신 기능인 디바이스 메모리 TCP(Device Memory TCP)에 대해 소개한다.
유태희 매니저는 “AI 시대에 많은 리눅스 커널 네트워크 스택 개발자들은 NIC에서 GPU 성능을 충분히 끌어올리지 못하는 문제에 직면하고 있다”며 “제로카피 기법은 AI 워크로드를 처리하는 데 설계 상의 한계가 있었고 이를 해결하기 위해 최근 공개된 디바이스 메모리 TCP는 구조적인 한계보다는 현 단계에서 아직 구현되지 않은 기능이 있어 발전 가능성이 높다”고 말했다.
카카오엔터프라이즈 관계자는 “카카오엔터프라이즈는 카카오 그룹의 뉴 이니셔티브(신성장동력)의 한 축을 담당하며 카카오클라우드를 필두로 AI 원천 기술의 근간을 다지고 있다”며 “앞으로도 카카오엔터프라이즈는 클라우드 및 검색 분야 기술 고도화를 위해 연구 개발한 다양한 기술과 방법론을 공유하고 국내 IT 기술 발전에 기여할 것”이라고 말했다.