고성능 AI 컴퓨팅 칩 분야의 스타트업, Cerebras Systems
Cerebras Systems는 개발자 커뮤니티가 전산 유체 역학, 분자 역학, 신호 처리 등에 걸쳐 새로운 웨이퍼 스케일 애플리케이션을 만들 수 있도록 지원하는 소프트웨어 개발 키트(SDK)로 탄탄한 기반을 다진 회사이다. 작년에 본격적으로 이 비즈니스를 시작한 이 회사는 현재 고성능 AI 컴퓨팅 분야에서 그 이름을 지속적으로 날리고 있는 미국의 스타트업이다.
이 회사의 SDK는 AI 및 HPC 개발자들로 하여금 CS-2 시스템과 업계 최고의 웨이퍼 스케일 엔진(WSE-2)에 대한 새로운 아이디어를 보다 유연하고 낮은 수준에서 개발, 테스트하게 해준다. WSE-1 출시 이후 2년도 채 되지 않아 작년에 시장에 선보인 WSE-2는 트랜지스터 수, 코어 수, 메모리, 메모리 대역폭 및 패브릭 대역폭과 같은 모든 성능 특성을 두 배 이상 늘린 것이 특징이다.
AI에서는 칩 크기가 매우 중요하다. 큰 칩은 정보를 더 빠르게 처리하여 더 짧은 시간에 답을 생성한다. WSE-2는 경쟁 제품보다 56배 더 큰, 업계 최대의 칩으로 업계에서 가장 빠른 AI 컴퓨터인 Cerebras CS-2를 구동한다. 이 2 세대 웨이퍼 스케일 엔진은 TSMC를 통해 7nm 노드에서 제조된다.
컴퓨팅 산업 역사상 가장 큰 칩인 WSE-2는 업계에서 가장 빠르고 강력한 프로세서로서 850,000개의 코어, 40GB의 온칩 메모리, 20페타바이트/초의 메모리 대역폭 및 220페타비트/초의 패브릭 대역폭을 갖추고 있다. 주요 그래픽 처리 장치보다 123배 더 많은 코어, 1,000배 더 많은 온칩 메모리, 12,733배 더 많은 메모리 대역폭 및 45,833배 더 많은 패브릭 대역폭을 제공하는 WSE-2는 SDK와 C 및 친숙한 병렬 프로그래밍 개념을 기반으로 하는 새로운 도메인별 프로그래밍 언어로 방대한 계산 리소스를 통해 상상력에 머물렀던 것을 개발자의 손으로 직접 전달해주는 역할을 한다.
Cerebras의 WSE-2는 컴퓨팅 과거, 디지털 현재 및 인류에 대한 미래의 영향 등을 공개, 전시하는 컴퓨터 역사 박물관(CHM)에 전시되고 있다. 식사용 접시 크기의, 업계에서 가장 큰 컴퓨터 칩인 WSE-2는 2.6조 개의 트랜지스터, 850,000개의 AI 최적화 코어를 포함하며 AI 작업에 모든 면에서 최적화되어 있는 것으로 이 박물관에 영구 보관된다.
한편 세계에서 가장 빠른 AI 솔루션임을 자랑하는 Cerebras CS-2 시스템은 그래픽 처리 장치(GPU)의 128배 성능을 달성하는 바이오 제약 리더인 AbbVie등 고객사들에게 판매된다. 제약 산업에서 에너지 분야, 미국 국립 연구소에 이르는 고객사들은 100초 GPU를 초과하는 이 회사의 CS-2 성능들을 잘 활용하고 있다.
수 주 혹은 수 개월이 걸리는 GPU 클러스터에 비해 CS-2의 설정 및 프로그래밍은 불과 몇 분이면 완료된다. 설정 및 구성에 소요되는 시간이 줄여줌으로써 모델 교육에 소요되는 시간도 감소하므로 더 많은 아이디어를 탐색하게 해주는 것이다.
CS-2는 지금까지 제작된 가장 큰 프로세서인 WSE-2(Cerebras Wafer-Scale Engine 2)로 구동된다. 경쟁사의 제품보다 56배 더 크고 컴퓨팅 코어 수의 100배 이상, 고속 온칩 메모리의 1000배 이상, 그래픽 처리 장치보다 10,000배 이상의 메모리 대역폭을 포함하는 것이 특징인 CS-2는 업계의 어떤 칩보다 더 많은 AI 성능을 제공하는 것으로 정평받고 있다.
Cerebras CS-2 시스템은 AI 기반 건강 기술 회사인 nference의 생물 의학 연구 및 개발용 자연어 처리(NLP)를 수십 배 가속화해 주기도 한다. 이를 통해 환자 기록, 과학 논문, 의료 이미지 및 게놈 데이터 베이스 내에 있는 방대한 양의 건강 데이터가 건강 분야의 발전에 기여하고 있다.
WSE-2의 계산 능력과 웨이트 스트리밍 아키텍처를 기반으로 하는 Cerebras는 단일 시스템에서 가장 큰 NLP 네트워크도 지원한다. 이를 통해 설정 시간을 불과 몇 분으로 단축시킴으로써 모델 이식성을 가능하게 한다. 몇 번의 키 입력으로 전환하는 GPT-J와 GPT-Neo 간의 작업은 수백 개의 GPU 클러스터에서 달성하는 데 수개월의 엔지니어링 시간이 걸렸던 일이다.
사상 최초로 단일 CS-2 시스템에서 최대 200억 개의 파라미터로 모델을 훈련할 수 있는 기능은 다른 단일 장치에서는 불가능한 위업으로 인정된다. 대규모 자연어 처리(NLP) 모델을 실행하는 데 필요한 시스템 엔지니어링 시간 단축 외에도 수백 또는 수천 개의 소형 GPU(그래픽 처리 장치)에 걸친 모델 분할 작업도 제거해준다.
이 회사는 최근 거의 실시간 속도의 고해상도 자연 대류 작업 부하 시뮬레이션을 달성하기도 했다. 미국. 에너지부 산하 국립에너지기술연구소(NETL)에서 개발한 WSE 필드 방정식 API(WFA)를 사용해 만든 이 시뮬레이션은 피츠버그 슈퍼컴퓨터 센터(PSC)의 NSF Neocortex로 구동되는데 기존의 유사한 분산 컴퓨터의 워크로드보다 수백 배 빠르게 실행된다.
이 회사의 올해 주력 제품은 1,350만 개 코어로 구성된 AI 슈퍼컴퓨터인 Andromeda이다. 16개의 CS-2 시스템 클러스터로 구축되어 상업용 및 학술 작업에 채택된 16비트 반정밀도에서 1엑사플롭 이상의 AI 컴퓨팅과 120페타플롭스 이상의 고밀도 컴퓨팅을 제공하는 Andromeda는 간단한 데이터 병렬 처리에 의존했던 기존의 대규모 언어 모델 워크로드에서 거의 완벽한 선형 확장을 시연한 유일한 AI 슈퍼컴퓨터로 인정받고 있다.
미국, 유럽 지역에서의 탄탄한 영업에 이어 중동과 아시아로 뻗어나가는 이 회사의 기술력은 기업 뿐 아니라 정부 기관의 고성능 컴퓨팅 분야의 AI 솔루션 부문에서 그 이름을 넓혀 나가는 중이다. 최근 2년 동안 일본과 캐나다 전역에서의 활발한 영업에 힘입어 이 회사는 작년에 인도에서도 지사를 오픈해 영업을 강화하고 있다.
칩 테스트 성능 향상을 위한 솔루션
조회수 27회 / Smiths Interconnect
[인터뷰] 반도체 테스트 소켓의 강자, 스미스 인터커넥트
조회수 48회 / 스미스 인터커넥트
모빌리티 전동화 기술의 새로운 강자, 에노비
조회수 39회 / 에노비
빌딩 인텔리전스: 기술, 데이터 및 IoT의 스마트한 조합
조회수 70회 / Future Intelligent Solutions
댄로: “V2X 부터 커넥티드 차량 인증까지 우리가 해결한다”
조회수 69회 / Danlaw
운송 수단으로서의 드론
조회수 113회 / Future Electronics
퀙텔: “통신, 위성, 자동차 시장의 스마트 모듈화? 우리가 책임지지”
조회수 114회 / Quectel
EdgeQ: “지금은 기지국-온-칩 시대”
조회수 141회 / EdgeQ
우주로 나아가는 AI 기술
조회수 138회 / Ken O’Neill
PDF 다운로드
회원 정보 수정