nVidia, AI 플랫폼 전반에서 텐서RT-LLM으로 젬마 성능 가속화
글/반도체네트워크 편집부 2024.02.24
AI 컴퓨팅 기술 분야의 선두주자인 엔비디아(www.nvidia.co.kr)가 구글(Google)과 협력해 모든 엔비디아(NVIDIA) AI 플랫폼에서 AI 모델 ’젬마(Gemma)’를 위한 최적화를 실시했다고 밝혔다. 이를 통해 비용을 절감하고 도메인별 용도에 따라 작업 속도를 혁신적으로 높였다. 어디서나 실행 가능한 젬마는 구글의 새로운 경량 오픈 언어 모델로, 20억(2B) 파라미터와 70억(7B) 파라미터 크기로 제공된다.
젬마는 구글의 멀티모달 모델인 제미나이(Gemini) 개발에 사용된 동일한 연구와 기술을 기반으로 구축됐다. 엔비디아는 구글과 긴밀히 협력해 엔비디아 텐서RT-LLM(TensorRT-LLM)으로 젬마의 성능을 가속화했다. 텐서RT-LLM은 데이터센터, 클라우드 혹은 엔비디아 RTX GPU가 탑재된 PC에서 대규모 언어 모델(LLM) 추론을 최적화하는 오픈 소스 라이브러리이다.
이를 통해 개발자는 전 세계 고성능 AI PC에 탑재된 1억 개 이상의 엔비디아 RTX GPU를 활용할 수 있다. 개발자들은 클라우드 상의 엔비디아 GPU에서도 젬마를 실행할 수 있다. 여기에는 H100 텐서 코어(H100 Tensor Core) GPU를 기반으로 하는 구글 클라우드 A3인스턴스(A3 instances)가 포함되며, 초당 4.8테라바이트의 141GB HBM3e 메모리를 갖춘 엔비디아 H200 텐서 코어 GPU도 합류할 예정이다. 구글은 올해 안에 이를 배포할 예정이라고 전했다.
엔비디아는 네모 프레임워크(NeMo Framework)가 적용된 엔비디아 AI 엔터프라이즈(AI Enterprise)와 텐서RT-LLM을 비롯한 광범위한 도구를 갖추고 있다. 엔터프라이즈 개발자들은 이들을 추가로 활용해 젬마를 미세 조정하고 최적화된 모델을 프로덕션 애플리케이션에 배포할 수 있다. 여기에서 개발자를 위한 추가 정보와 함께 텐서RT-LLM이 젬마의 추론을 개선하는 방법에 대해 자세히 알아볼 수 있다. 여기에는 젬마의 여러 모델 체크포인트와 FP8 정량화 버전 모델이 포함되며 모두 텐서RT-LLM으로 최적화돼 있다.
또한, 엔비디아 AI 플레이그라운드(AI Playground)를 통해 브라우저에서 직접 젬마 2B와 젬마 7B를 체험해 볼 수 있다.
엔비디아, 새로운 RTX A400과 A1000 GPU로 AI 기반 워크플로우 강화
조회수 80회 / NVIDIA
엔비디아, 클라우드 양자 컴퓨터 시뮬레이션 마이크로서비스 출시
조회수 131회 / 엔비디아
엔비디아, AI 시대 위한 GTC 콘퍼런스 개최 준비 박차
조회수 123회 / NVIDIA
nVidia, AI 플랫폼 전반에서 텐서RT-LLM으로 젬마 성능 가속화
조회수 198회 / NVIDIA
nvidia, 차세대 AI 디자인과 시각화 시대 위한 초고화질 레이 트레이싱 ...
조회수 144회 / 엔비디아
nVidia 드라이브, 선도적인 전기차 제조업체에 자율주행 실현 지원
조회수 196회 / 엔비디아
엔비디아, 새로운 스펙트럼-X 이더넷 네트워킹으로 기업 AI 워크로드 가...
조회수 282회 / nVidia
엔비디아, HGX H200 출시…추론 속도 더욱 가속화
조회수 313회 / 엔비디아
엔비디아, 로보틱스와 엣지 위한 젯슨 플랫폼 확장 발표
조회수 268회 / nVidia
PDF 다운로드
회원 정보 수정