Wayve, W&B를 통한 엔드투엔드 MLOps 구현

"우리는 W&B를 적극적으로 사용하여 모든 실험을 트래킹하고 있으며, 이를 통해 비교 분석을 깊이 있게 할 수 있고 학습 중에 발생하는 상황을 실시간으로 정확히 모니터링할 수 있게 되었습니다."

Peter Matev
Engineering Manager, Wayve

전속력으로 앞으로 

자율 주행 미래를 향한 경쟁은 치열합니다. 기술 거대 기업과 전통적인 자동차 제조업체가 지배하는 시장에서 한 AI 회사가 경쟁에서 앞서 나가기 위해 페달을 밟고 있습니다. 

영국 런던에 본사를 두고 캘리포니아에 두 번째 사무실을 둔 Wayve의 사명은 체현된 지능을 통해 자율 주행 모빌리티를 재구상하는 것입니다. 즉, 차량이 복잡한 실제 환경에서 운전을 배우고, 상호 작용하고, 적응할 수 있도록 하는 AI 시스템을 개발하는 것을 의미합니다. 

거기에 도달하는 것은 쉬운 일이 아닙니다. Wayve는 기계 학습(ML) 엔지니어가 실험에서 프로덕션으로 효율적으로 이동할 수 있도록 견고한 솔루션과 인프라가 필요합니다. 사내 도구가 성공적임이 입증되었지만, 종단 간 ML 라이프사이클이 지원되도록 하기 위해 Wayve는 Weights & Biases와 협력합니다. 

개발자 경험 최적화 

모델을 생산에 적용하려면 많은 인내와 노력, 리소스가 필요합니다. 

Wayve에는 ML 엔지니어의 생산성을 개선하는 데 전념하는 전체 팀이 있습니다. Wayve의 엔지니어링 관리자인 Peter Matev가 이끄는 팀은 내부 사용자를 위한 도구와 파이프라인 개발에 집중하며, 모든 것은 데이터 탐색으로 시작됩니다. 

데이터 준비는 ML 워크플로의 중요한 단계입니다. 하지만 데이터 세트에서 패턴과 관계를 쉽게 찾아내는 것은 어려울 수 있으며, 특히 볼륨이 큰 경우 더욱 그렇습니다. Peter는 “저희가 구축하고 있는 도구는 ML 엔지니어가 다양한 방식으로 데이터를 빠르게 분석하는 데 도움이 됩니다.”라고 설명했습니다. “데이터를 더 잘 이해할 수 있으므로 고품질의 교육 데이터 세트를 쉽게 생성할 수 있습니다.” 

데이터가 처리되면 Wayve는 모델 훈련으로 넘어갑니다. 여기서 W&B가 중요한 역할을 합니다. 

ML은 본질적으로 반복적입니다. 여러 변수를 부지런히 추적해야 합니다. W&B를 사용하면 하이퍼파라미터, 메트릭, 아티팩트와 같은 진화하는 정보가 자동으로 기록되어 한곳에 저장되므로 훈련 중에 실행을 비교하고 문제 영역을 식별하기 쉽습니다.

Peter는 “우리는 W&B를 적극적으로 사용하여 모든 실험을 추적하고, 이를 통해 심층적으로 비교하고 교육에서 정확히 무슨 일이 일어나고 있는지 실시간으로 모니터링할 수 있었습니다.”라고 말했습니다. 

그 외에도 W&B는 Wayve가 시스템 활용도(GPU, CPU, 네트워킹, IO 등)를 모니터링하고 여러 그래프로 표시하도록 돕습니다. 이러한 시각화는 가능한 교육 병목 현상에 대한 통찰력을 제공하고 팀이 컴퓨팅 리소스를 효율적으로 사용하고 있는지 확인합니다. 

피터는 “W&B를 사용하면 GPU와 컴퓨팅 노드를 최대한 활용할 수 있습니다.”라고 말했습니다. “인프라에 대한 모니터링 수준을 제공하여 모델을 대규모로 계속 학습할 수 있습니다.” 

무대 뒤에서 일어나는 모든 일을 문서화하고 업무에 대한 맥락을 제공하기 위해 Wayve는 W&B Reports를 광범위하게 사용합니다. 이 역동적인 도구는 팀이 실행한 실험의 전체 스토리를 알려주는 데 도움이 되며, 무엇이 잘 되었는지, 무엇이 잘 안 되었는지, 무엇이 개선되어야 하는지를 알려줍니다. 

피터는 “저희 팀은 보고서 기능을 꽤 많이 사용합니다.”라고 말했습니다. “그들이 실행한 특정 실험에 대해 이야기하고 더 큰 그룹과 세부 정보를 공유하는 것이 유용했습니다.” 

가중치 및 편향을 갖춘 Azure 

Wayve는 훈련 및 추론 워크로드에 대한 ML 워크플로를 구동하는 데 있어 Microsoft Azure를 활용합니다. 이 팀은 AzureML, Azure Kubernetes Service, Azure 네이티브 데이터베이스 및 네트워킹 인프라를 조합하여 사용합니다. Microsoft Azure를 통해 Wayve는 모델을 유연하고 안전하게, 그리고 엄청난 규모로 배포할 수 있습니다. 

W&B는 AzureML에서 실행되는 모든 학습 및 추론 워크로드를 포함하여 Microsoft Azure에서 실행되는 ML 워크로드와 완벽하게 통합됩니다. 이 통합을 통해 Wayve는 전체 ML 워크플로에서 W&B를 빠르고 쉽게 활용할 수 있습니다. 

앞으로의 길 

AV 경쟁이 치열해짐에 따라 AI 시스템을 개발하고 배포하는 데 관련된 프로세스를 간소화하고 최적화하는 것이 Wayve에 더욱 중요해지고 있습니다. Wayve는 자체 도구와 함께 W&B를 통해 전체 ML 라이프사이클의 운영적 필요성을 지원합니다. W&B를 워크플로에 통합하면 Wayve는 실시간으로 실험을 기록하고 시각화하고, 리소스 소비를 개선하고 비용을 절감하며, 생산성 향상을 위해 AI 개발자 경험을 최적화할 수 있습니다. 

피터는 “우리는 W&B를 사용함으로써 엄청난 이점을 확실히 보았습니다.”라고 말했습니다. “병렬로 실행할 수 있는 실험의 수가 기하급수적으로 증가했으며, 이러한 실험에서 올바른 통찰력을 얻는 데 도움이 되었습니다.”