Waymo의 신규 시뮬레이터 Waymax, 실제적인 에이전트 훈련 지원
자율주행차(AV) 기업들은 자율주행 시스템을 훈련하고 보행자, 자전거 운전자, 교통 신호 및 다른 차량 등 ‘에이전트’(agent)에 반응하는 방법을 교육하기 위해 시뮬레이터를 사용한다. 진정으로 발전된 AV 시스템을 보유하려면 이러한 에이전트들이 AV와 서로를 대상으로 실제적으로 행동하고 반응해야 한다.
지능형 에이전트(intelligent agent) 생성 및 훈련은 Waymo가 해결하고자 하는 문제 중 하나이며 AV 연구계의 공통적인 과제이기도 하다. 이를 위해 Waymo는 지난 목요일 AV 연구 커뮤니티를 위한 새로운 시뮬레이터를 출시했다. 이 시뮬레이터는 지능형 에이전트를 훈련하고 미리 구축된 시뮬레이션 에이전트와 Waymo의 인지(perception) 데이터를 통해 완성할 수 있는 환경을 제공한다.
Waymo 연구 책임자 Drago Anguelov는 “전통적인 시뮬레이터는 사전 정의된 에이전트를 보유하며, 이러한 에이전트의 행동 방식에 관한 스크립트를 작성하기는 하지만 에이전트들이 스크립트대로 행동하지는 않는다”고 <TechCrunch>와의 화상 인터뷰를 통해 밝혔다.
Anguelov는 “당사의 경우 시뮬레이터가 환경에 속한 모든 요소의 행동을 관찰한 대규모 차량 데이터세트와 결합된다”고 설명했다. 그는 “모든 요소의 행동을 관찰하면 올바른 행동 방식에 관한 내용을 얼마나 많이 배울 수 있을까?”라고 질문하며 “당사는 이를 더욱 강력한 모방 요소(imitative component)라고 부르며 강건하고 확장 가능한 AV 시스템 개발의 핵심”이라고 덧붙였다.
Waymo는 Waymax라는 새로운 시뮬레이터가 “가볍기” 때문에 연구자들이 빠르게 반복할 수 있다고 말한다. 가볍다는 의미는 시뮬레이션에 실제와 유사한 에이전트와 도로가 완전히 구체화되지 않는다는 것이다. 그 대신 이 시뮬레이터는 도로 그래프를 대략적으로 표현하며, 에이전트는 특정 속성이 내재된 경계 상자(bounding box)로 묘사된다. Anguelov는 기본적으로 연구자들이 에이전트와 환경의 실제 모습보다 복수의 도로 이용자 사이의 복잡한 행동에 더욱 집중할 수 있는 정리된 환경이라고 말한다.
시뮬레이터는 현재 GitHub에서 이용 가능하지만 상업적 목적으로는 사용할 수 없다. 이 시뮬레이터는 Waymo Open Dataset와 같이 Waymo가 연구자들에게 자율주행차 개발을 앞당기는 데 도움이 되는 도구를 제공하려는 큰 계획의 일부이다.
Waymo는 연구자들이 Waymax를 사용하여 만들어내는 작업을 볼 수 없지만, 이 기업이 도구와 데이터 공유를 통해 아무 것도 얻지 못하는 것은 아니다.
Waymo는 연구자들이 AV와 관련된 문제를 해결할 수 있는 챌린지를 정기적으로 개최한다. 2022년에는 ‘시뮬레이션된 에이전트’라는 챌린지를 진행했다. Waymo는 시뮬레이터에 에이전트를 추가하여 이 에이전트들이 시험차와 관련하여 실제적으로 행동하도록 훈련하는 과제를 연구자들에게 제시했다. 이 챌린지가 진행되던 동안 Waymo는 에이전트를 훈련할 수 있을만큼 강건한 환경이 조성되지 않았다는 점을 깨달았다. 이에 따라 Waymo는 Google Research와의 협업을 통해 폐루프(closed-loop) 방식으로 실행 가능하거나 시스템 거동을 지속적으로 모니터링하고 수정하여 의미있는 결과를 만들 수 있는 더욱 적합한 환경을 공동 개발했다.
이러한 과정을 통해 Waymo의 Waymax가 탄생했다.
Anguelov는 Waymo가 내년 새로운 시뮬레이터를 이용해 챌린지를 다시 진행할 수 있다고 말한다. 이러한 유형의 챌린지를 통해 Waymo는 멀티 에이전트 환경 등 특정 문제와 관련된 AV 업계의 발전 상황을 파악하고 자체 기술과 비교할 수 있다.
Anguelov는 “Waymo Open Dataset 및 이러한 시뮬레이터는 당사가 학계 또는 연구 논의를 당사가 유망하다고 생각하는 방향으로 발전시키기 위한 방식이며, 이후 개발되는 결과를 기대해 보려고 한다”고 말했으며, 이러한 챌린지들이 AV 및 로보틱스 연구 분야에 대한 관심과 인재를 유치하는 데에도 도움이 된다는 점을 시사했다.
또한 그는 Waymax 시뮬레이터가 AV 시스템의 창발적 행동(emergent behavior)으로 이어질 수 있는 강화 학습(reinforcement learning) 개선에 도움이 될 수 있다고 말했다. 강화 학습은 에이전트가 환경과 상호작용하고 행동에 따라 보상(reward)과 제약(penalty) 형태의 피드백을 받으면서 의사결정을 내리는 머신러닝의 한 가지 예시로서, 사람이 학습하는 것과 유사하다. 자율주행 에이전트의 경우 예컨대 시뮬레이션된 보행자가 다른 보행자를 향해 걸어가지 않으면 보상을 받을 수 있다.
Anguelov는 이러한 학습을 통해 다양한 유형의 차선 변경이나 다수의 차량이 서로를 AV로 인식한 경우 일정한 속도로 주행하기로 하는 등의 창발적 행동 또는 사람이 보일 것이라고 반드시 기대되지는 않는 행동으로 이어질 것이라고 말한다. 그 결과 자율주행이 더 안전해질 수 있다.
서울특별시 관악구 관악로 1 서울대학교 314동 현대·기아 차세대자동차 연구관 5층
TEL. 02-870-8000 / FAX.02-886-1902
COPYRIGHT ⓒ 2021 HYUNDAI NGV. ALL RIGHTS RESERVED.