테슬라 AI데이 리뷰 – ‘AI와 슈퍼컴퓨터, 그리고 테슬라봇

2023. 8. 12. 12:48주요 경제뉴스 , 이슈뉴스 요약정리

반응형

$TSLA 테슬라의 100ExaFLOPs, 얼마나 담대한 목표인가? - 백색나무

Tesla's 100 ExaFLOPs, how bold is that goal?

<유투브 영상 내용 -중- >

1. 병목현상이 없다는 이상적인 가정 하에 2024년의 테슬라는 파라미터 5400억개 LLM을 훈련시키는데 7시간 소요.

2. 2024년 10월, 테슬라의 100 엑사플롭스 플랜은 테슬라가 앞으로 1년 반 내에 구글의 2022년 자사 프로젝트 투입 켬퓨팅의 62배 규모로 키우겠다는 의미

1. Under ideal assumptions of no bottlenecks, Tesla in 2024 takes 7 hours to train an LLM with 540 billion parameters.

2. In October 2024, Tesla's 100 exaflops plan means that Tesla will grow 62 times the size of Google's 2022 project input computing within the next year and a half.

ㅡㅡㅡㅡㅡㅡㅡㅡㅡ

테슬라 관련자료는 자주자주 보고있지만

이 7월에 공개되는...기술들은 예측치를 훨씬 넘어서 큰 파장을 불러모으지않을까? 생각이.드네요

이정도면 엄청 어마어마한 기술혁신같은데....

테슬라는 대체 ㄷ ㄷ 어느정도까지 발전하려는건지 무섭습니다

소름

ㅡㅡㅡ

AGI를 위한 첫걸음, 테슬라 도조?

어느 순간, 엔비디아가 테슬라를 위해 특별히 커스터마이징한 수많은 GPU 그래픽 컴퓨팅 카드가 중고시장에 등장하여 헐값에 팔리고 있습니다.

이러한 비정상적인 징후는 테슬라가 점차 엔비디아의 컴퓨팅 클러스터를 포기하고 훨씬 더 높은 수준의 자체 연구를 통해 차세대 컴퓨팅 클러스터를 구축하기 위해 나아가고 있다는 것을 확인하는 것 같습니다.

일찍이 AI DAY에서 Tesla는 차세대 인공 지능에 대한 여러 가지 아이디어를 공개했으며, 여기에는 "월드 모델", 즉 세계 모델의 방향성을 지향하는 Tesla의 미래 완전 자동 운전 설계가 포함되어 있습니다.

이 중 가장 중요한 부분은 수많은 데이터 모델을 통해 '경험 축적'을 달성하여 현실에서 발생할 수 있는 문제를 해결하는 것입니다. 현재 테슬라의 솔루션은 다른 브랜드의 솔루션과 본질적으로 동일하며, 테슬라 소유자가 운전하는 동영상을 전송하면 컴퓨터가 이를 분석하고 학습하여 모든 운전 가능성을 모델링하는 등 모든 가능성을 다 소진하는 과정입니다. 물론 이론적으로 모든 가능성을 다 소진하는 것은 불가능하며 무한히 근접하는 것일 뿐입니다.

Tesla의 "철저한" 모델링 접근 방식은 대량의 데이터 처리와 학습을 기반으로 합니다. Tesla는 위의 데이터 수집을 통합하기 위해 자율주행을 위한 신경망 훈련 전용 Nvidia GPU 그래픽 카드 클러스터에 있는 10,000개의 GPU에 의존해 왔습니다.

이 엔비디아 기반 신경망 컴퓨팅 클러스터는 이미 컴퓨팅 성능 면에서 최고의 슈퍼컴퓨터 클러스터이지만, 이러한 슈퍼컴퓨팅 성능을 갖추고 있더라도 신경망 학습을 위해 대량의 비디오 데이터가 필요한 Tesla와 같은 시나리오에서는 여전히 부담스러울 수 있습니다.

즉, 엔비디아의 학습 트레이닝 GPU 컴퓨팅 파워 그룹이 테슬라의 실제 요구 사항을 충족시키지 못했기 때문에 테슬라 자율 주행의 발전에 한계가 있었던 것입니다. 아마도이 시점에서 어떤 사람들은 산술 능력이 충분하지 않기 때문에 GPU의 수와 크기를 계속 늘리면 문제가 해결되지 않을 것이라고 말할 것입니다.

물론 문제는 그렇게 간단하지 않으며 컴퓨팅 클러스터의 크기와 수는 컴퓨팅 성능과 완전히 동일하지 않으며 신경망이 클수록 컴퓨팅 클러스터 성능 활용도가 낮아지고 큰 신경망은 단일 GPU에서 훈련 할 수 없으며 작업을 분할하기 위해 여러 GPU 만 사용할 수 있으며 여러 GPU가 서로 통신하고 데이터를 전송해야하므로 컴퓨팅 성능이 심각하게 손실되고 심각한 경우 손실 될 수도 있습니다. 연산 성능의 80% 이상을 잃을 수도 있습니다. 이것이 바로 그 이유입니다. 계산 성능을 개선하기 위해 테슬라는 자체 슈퍼컴퓨팅 클러스터인 도조를 확보해야 합니다.

테슬라 도조의 설계 아이디어는 크게 세 가지 측면으로 나눌 수 있습니다. 첫째, 컴퓨팅 클러스터의 밀도를 높이는 것입니다. 얼마 전 AI DAY에서 공개 된 정보에 따르면 1 개의 Dojo 섀시에 2 개의 대형 GPU 그래픽 카드가 있고 각 대형 GPU 그래픽 카드는 6 개의 소형 그래픽 카드로 구성되며 각 소형 그래픽 카드에는 25 개의 DOJO 칩이 있으며 이는 Dojo 섀시가 300 개 도조 웨이퍼 컴퓨팅 유닛을 통합합니다. 장부 가치 측면에서 Dojo 섀시는 오늘날의 평균 상용 섀시보다 10배 더 큽니다. 컴퓨팅 클러스터의 밀도가 높아지면 섀시 간의 데이터 전송 손실이 줄어들어 컴퓨팅 성능이 향상됩니다.

또한 시스템에 들어오고 나가는 방대한 양의 데이터로 인한 병목 현상을 방지하기 위해 네트워크 카드 형태로 연결된 자체 개발 통신 프로토콜을 사용하여 서로 다른 장치 간에 통신 지름길을 만들어 기존 컴퓨팅 클러스터에 비해 데이터 전송으로 인한 계산 지연 시간을 30배 단축하고 실제 훈련에서 단일 컴퓨팅 장치의 계산 성능을 두 배 이상 향상시켰습니다.

마지막으로 가장 중요한 부분은 프로그래밍 언어를 기계어로 변환하는 컴파일러의 최적화이며, 이 역시 연산 프로그램의 효율성에 큰 영향을 미칩니다. Dojo용 컴파일러를 개발하고 최적화하는 것이 가장 큰 과제이며 현재 Tesla Dojo 팀이 최우선 과제로 삼고 있습니다.

일이 순조롭게 진행된다면, 현재 단계에서는 72개의 박스와 4000개의 GPU가 제공하는 컴퓨팅 성능을 제공하기 위해 4개의 Dojo 박스와 1200개의 웨이퍼만 있으면 됩니다. 이 수치에 따르면, Tesla는 단 2개의 Dojo 클러스터로 14,000개의 GPU 그래픽 카드로 구성된 기존 컴퓨팅 클러스터를 대체할 수 있으며, 7개의 Dojo 클러스터를 통해 7만 개의 GPU에 해당하는 컴퓨팅 클러스터의 컴퓨팅 성능을 구성할 계획입니다.

Dojo가 구축되면 Tesla는 현재 전 세계 기업 중 최고의 신경망 트레이닝 능력을 갖추게 되며, 이를 통해 자율 주행 시스템 개발을 반복하는 Tesla의 능력을 크게 가속화할 수 있을 것입니다.

youtu.be/zI9_9PRUMIU

 

 

 

[테슬라 AI데이 리뷰 – ‘AI와 슈퍼컴퓨터, 그리고 테슬라봇’]

보면서 약 23.465% 정도만 알아들었지만^^ 저와 같은 AI린이를 위해 여러번 물고뜯고씹고 맛보고 정리해봤습니다.

전문가분들이 잘못된 부분 지적해주시면 더 좋구요!!^^

회사에 내기 전에 검증작업!

1. 개요

지난 8.19.(현지시간) 테슬라는 AI데이를 개최해 인공지능 기술개발 현황과 AI학습을 위한 슈퍼컴퓨터 개발 현황, 휴머노이드 로봇인 테슬라봇 소개

일론 머스크는 지난달 인재유치가 목적인 AI데이 개최를 예고한 바 있으며, 실제 이번 AI데이를 통해 테슬라가 첨단 기술개발의 정점에 있음을 과시

발표의 주요내용은 크게 컴퓨터 비전 성능향상과 주행전략 수립 등 ① 자율주행 AI기술, 방대한 데이터를 학습시키기 위한 ② Dojo 슈퍼컴퓨팅 플랫폼, 그리고 테슬라 자동차에 사용되는 하드웨어와 기술을 그대로 적용하는 휴머노이드 ③ 테슬라봇에 대한 소개로 구성

AI데이를 통해 테슬라는 현재 자율주행, 슈퍼컴퓨팅, 로봇 등 현존하는 가장 어려운 난제들에 대해 기술적 도전을 하고 있음을 보이며 전세계 유능한 인재들이 이에 관심을 갖고 동참하기를 희망하는 메시지 전달

7월, 일론 머스크는 AI데이를 예고하며 행사의 목적이 우수인재 채용(recruitment)에 있음을 피력, 실제 8.19. 행사 이후 지원자가 몰리기도 함

2. 주요내용

① 자율주행 AI기술

(컴퓨터 비전)

과거 8대의 카메라에 입력된 2D 이미지를 개별 처리하던 방식에서 실제 자동차가 주행하는 환경과 동일한 3D 공간인 Vector Space로 통합 투사

테슬라는 다른 자율주행기술 개발기업과 달리 8개의 카메라 조합으로 주행하는 ‘Pure Vision Driving’을 표방한 바 있으며, 이미 미국 사양에서는 레이더도 삭제

8개 개별 카메라에서 입력된 이미지 데이터를 하나의 3D 공간(vector space)으로 통합(fusion)해 위치식별 및 사물식별(localization & object detection)함으로서 차량을 둘러싼 360도의 환경에 대해 더욱 정확한 통합적 분석이 가능해짐

(주행전략)

순환신경망(RNN, Recurrent Neural Network)을 통해 지도 예측력을 한층 높이고, 알파고의 발전형태인 알파제로를 통해서도 알려진 몬테카를로 트리 서치 방식(Monte Carlo tree search, MCTS)을 통해 최적의 경로탐색이 구현가능함을 소개

입력된 데이터를 기반으로 카메라 시야 밖의 상황을 예측하는 지도예측은 자율주행전략 수립을 위한 필수적 요소로 지속적 개선이 이루어지고 있음

규칙입력이나 학습과정 없이 최적의 의사결정을 하는 몬테카를로 트리 서치는 알파고의 후속 플랫폼인 알파제로나 뮤제로와 유사한 방식으로, 빠른 시간 내 최적의 경로를 찾아내는 과정을 소개

(데이터 레이블링)

자율주행학습을 위해서는 막대한 양의 사물 식별표식(레이블링)이 된 이미지 데이터가 필요한데 테슬라는 1천 명으로 구성된 메뉴얼 레이블링 조직을 in-house운영, 인공지능 기반 자동 레이블링도 지속적으로 개선

사람이 기계보다 뛰어난 의미론적 해석을 통한 레이블링이 필수적이며, 레이블링 팀의 내재화를 통해 AI엔지니어와의 직접소통으로 개발이 한층 수월해졌다고 설명

툴 개발을 통해 3D vector space에 직접 레이블을 달게 됨으로써 처리능력이 크게 향상되고 시간개념을 포함한 보다 직관적 레이블링 가능

자동 레이블링은 클립(비디오, GPS, IMU 등 데이터)에 정적 사물(도로, 표지 등)과 동적 사물(자동차, 사람 등)에 대한 위치, 속도, 궤적을 추출 표시

동일한 지역을 지나는 여러 대의 테슬라 차량으로부터 중첩정보를 추출해 정밀지도 구축도 가능

사람이 하면 수개월 걸릴 레이블링을 1만 개의 비디오클립을 단 1주일만에 자동레이블

(시뮬레이션)

현실세계에서 잘 일어나지 않는 edge case를 단기간에 학습시키기 위해 실사에 가까운 이미지를 컴퓨터 시뮬레이션을 통해 재구성

센서 데이터가 현실에 가깝도록 정밀한 재구성이 필요하며, 사람이 고속도로를 달리는 모습, 수백명의 사람이 교차 보행하는 모습, 도심에 야생동물이 출현하는 모습 등 희귀한 상황 재현해 학습

② Dojo 슈퍼컴퓨팅 플랫폼

(D1 Chip)

테슬라는 AI학습을 위한 슈퍼컴퓨터 개발을 위해 가장 기본이 되는 D1칩을 자체 개발중으로, 현존하는 칩 가운데 가장 우수한 수준으로 평가

현재는 자체구축한 1.8엑사플롭스(초당 1.8x1018 명렁어 처리, 3개 클러스터 연결) 슈퍼컴퓨터를 활용 중이나 향후 D1칩에 기반한 Dojo 플랫폼으로 대체 예정

D1칩은 경쟁사인 엔비디아 A100 대비 16% 빠른 연산력, 대역폭은 5배로 초당 데이터 처리량이 5배에 달할 전망

(ExaPOD)

D1칩 25개를 모아 하나의 트레이닝 타일(tile)을 구성, 다시 트레이닝 타일 120개(D1칩 3000개)를 묶어 ExaPOD 슈퍼컴퓨터를 구성

ExaPOD 1대는 1.1 엑사플롭스의 연산속도, 같은 가격에 4배의 성능을 보이는 가격경쟁력과 특히 전력소모율이 1.3배 낮아 세계 최고 수준의 트레이닝 컴퓨터가 될 것으로 전망

칩에서 시스템, 컴퓨팅 클러스터, 소프트웨어까지 Full Stack (全단계 수직통합) 개발과정을 Dojo 컴퓨터 프로젝트로 지칭

③ 테슬라봇

AI데이에서 가장 큰 화제를 모은 주인공은 177센티미터, 57kg가량의 사람 형상을 띤 휴머노이드로봇 테슬라봇이나 현실성에 대한 많은 논란도 야기함

테슬라봇은 시속 8km/h로 이동이 가능하며 20kg 정도의 짐을 나를 수 있는 인간형 로봇으로 실제 사람의 손과 유사한 수준의 손 가동

손과 팔에 각각 12개, 목에 2개, 몸통에 2개, 다리에 12개 액츄에이터를 적용해 사람과 유사한 동작을 모사할 것으로 추정

또한 현재 테슬라 차량에 탑재되는 오토파일럿 카메라와 FSD컴퓨터를 그대로 적용해 테슬라 모빌리티 플랫폼이 로봇사업으로도 그대로 확장될 수 있음을 보여줌

일각에서는 로봇기술 가운데 가장 실현이 어려운 휴머노이드 로봇을 경험이 거의 없는 테슬라가 1년만에 시제품을 출시하겠다는 선언이 믿기 어렵다는 반응

3. 시사점

AI데이를 통해 테슬라는 하드웨어와 소프트웨어, 서비스 전 과정을 수직계열화해 다른 기업과 차별적 경쟁력을 갖춰 나가고 있음을 재차 확인

테슬라는 전기차 사업뿐만 아니라, 아마존이나 구글이 영위하고 있는 빅데이터 및 인공지능서비스, 엔비디아의 강점영역인 AI컴퓨터 개발분야까지 확장이 가능하며 기존 선두주자를 위협할 정도의 기술력을 지니게 되었음

특히 AI분야는 범용성이 높아 자동차의 자율주행분야 외에도 의료, 에너지, 로봇 등 기타 산업분야로의 진출이 가능하며, 장기적으로는 테슬라의 AI플랫폼을 AI학습 목적으로 제3자에게 활용할 수 있도록 제공하는 AI-as-a-Service 사업도 충분히 가능

이번에 소개된 테슬라봇은 컨셉만을 내놓은 모델로 이목을 끌기 위한 단순홍보성 이벤트였다는 의견도 많지만, 자율주행차 개발목적으로 제작된 오토파일럿 카메라와 FSD컴퓨터가 로봇운영에도 거의 동일하게 활용될 수 있다는 점에서 시간이 걸리더라도 어떠한 형태로든 로봇산업이 테슬라 플랫폼의 다음 진출분야가 될 것으로 예상

* 출처: 테슬라 AI데이 (https://www.youtube.com/watch?v=j0z4FweCy4M), 렉스 프리드먼 “테슬라 AI데이 하이라이트” (https://www.youtube.com/watch?v=ABbDB6xri8o)

출처 https://m.facebook.com/story.php?story_fbid=pfbid02vgQjFXEncFmkHpcMiT1ZEvWTvxJ4P3ywcLjhysr6XAo8ghf8CiD3dU6LeYVKwe6Bl&id=569705720&mibextid=Nif5oz

 

반응형
그리드형