뉴스기사

라이더의 엔드투엔드 융합은 순수 시각보다 성능이 뛰어나고, 분할은 단일 단계보다 더 좋습니다.

영구원(09One) 2025. 8. 12. 21:30

단일 세그먼트(글로벌) 엔드투엔드(end-to-end)를 엄격하게 정의하기는 어렵습니다. VLM/VLA의 핵심은 일반적으로 20억~40억 개의 매개변수를 갖는 대규모 기반 모델입니다. 이러한 대규모 모델은 정확한 웨이포인트 좌표를 출력하는 데 적합하지 않습니다. VLA의 궤적 계획은 일반적으로 확산 또는 MLP(다층 퍼셉트론)를 사용하여 수행됩니다. 이는 두 단계로 나뉜 것처럼 보이지만, 핵심이 단일의 대규모 모델이기 때문에 단일 세그먼트로 간주해야 합니다. 기존의 세그먼트 엔드투엔드(segmented end-to-end)의 가장 큰 특징은 통합된 백본 네트워크입니다. 세그먼트 방식은 일반적으로 라이더와 카메라의 융합을 포함합니다. 단일 세그먼트 방식은 일반적으로 순수 비전(pure vision)에 기반합니다. 비디오를 패치로 분할하고 이를 토큰으로 변환하는 기술은 매우 성숙하고 리소스가 풍부한 반면, 포인트 클라우드를 토큰으로 변환하는 연구는 제한적입니다. 따라서 단일 세그먼트 방식은 기본적으로 순수 비전으로 간주될 수 있습니다.

 

 

UniAD 파이프라인

 

 

 

이미지 출처: "계획 중심 자율주행"

 

오늘날 대부분의 사람들의 관점에서 UniAD는 엔드 투 엔드(end-to-end)라고 할 수 없습니다. UniAD는 트랜스포머 디코더 기반 인식 및 예측 모듈 4개와 계획 모듈 1개로 구성됩니다. 여러 시계열 쿼리 벡터를 사용하여 전체 아키텍처를 연결하고 여러 에이전트가 주변 환경과 어떻게 상호 작용하는지 학습합니다. 또한 감지, 추적, 매핑, 동작 예측, 점유 예측, 계획 등 다운스트림 계획을 지원하는 추가 작업도 포함합니다.

 

구체적으로, 여러 대의 서라운드 뷰 카메라에서 수집된 이미지 시퀀스는 CNN 백본 네트워크 특징 추출기를 통해 이미지 특징으로 변환된 후, BEV 인코더를 통해 BEV 특징으로 변환됩니다. 이 역시 CNN 백본 네트워크를 사용합니다. UniAD-S는 ResNet-50, UniAD-B는 ResNet-101, UniAD-L은 VoVNet 2-99를 사용합니다. 이 이미지들은 BEVFormer를 사용하여 BEV 특징 벡터로 변환됩니다.

 

 

 

 

이미지 출처: Xiaomi Auto의 논문 "ORION: 비전-언어 기반 액션 생성을 통한 종합적인 엔드투엔드 자율주행 프레임워크"

 

 

샤오미 오토는 몇 가지 일반적인 엔드투엔드 시스템을 나열합니다. a는 전통적인 클래식 엔드투엔드, 즉 세그먼트화된 모듈식 엔드투엔드이고, b는 VLM 기반 단일 세그먼트 또는 글로벌 엔드투엔드이며, c는 구현 가능한 빠르고 느린 듀얼 시스템입니다. VLM은 보조적인 시스템일 뿐입니다. 즉, VLM의 추론 공간 정보가 클래식 엔드투엔드 행동 공간으로 전송됩니다. 최종 행동 궤적 예측 최적화는 VLM의 추론과 결합되지 않습니다. 샤오미는 네 번째 유형인 d를 제안했는데, 이는 행동 궤적 계획(예측) 모듈과 VLM 간에 역전파를 생성합니다.

 

 

종단간 테스트 방법

 

 

이미지 출처: 인터넷

 

기존의 세그먼트화된 엔드투엔드 및 단일 단계 엔드투엔드 테스트 플랫폼은 에뮬레이터에서 개방 루프 테스트와 폐쇄 루프 테스트라는 두 가지 유형의 테스트를 제공합니다. 이러한 폐쇄 루프 테스트는 기존의 진정한 폐쇄 루프 테스트와 크게 다릅니다. 반면, 개방 루프 테스트는 사용자가 예측된 명령의 효과를 확인할 수 없도록 하는 완전히 정적인 테스트이며, 피드백이 없습니다.

 

 

오픈 루프 테스트에는 두 가지 주요 지표가 있습니다.

 

첫 번째는 3초 이내의 평균 L2 거리입니다. 예측 궤적의 품질은 예측 궤적과 실제 값 궤적 사이의 L2 거리를 계산하여 판단합니다.

두 번째는 3초 이내의 평균 충돌률입니다. 예측 궤적과 다른 물체 사이의 충돌 확률을 계산하여 예측 궤적의 안전성을 평가합니다.

nuScenes 데이터셋을 기반으로 한 개방 루프 테스트는 비교적 간단하고 학계에서는 널리 사용되지 않는 일반적인 방법입니다. 그러나 현재 튀빙겐 대학교, 상하이 AI 랩, NVIDIA, 난양 이공대학교, 보쉬, 벡터 연구소, 토론토 대학교, 스탠퍼드 대학교가 공동 개발한 데이터 기반 자율주행차 시뮬레이터인 NAVSIM이 인기를 얻고 있습니다.

 

 

 

데이터 출처: Xiaomi Auto 및 화중과학기술대학교 논문 "ReCogDrive: 엔드투엔드 자율주행을 위한 강화된 인지 프레임워크"

 

Xiaomi Auto와 Huazhong University of Science and Technology의 ReCogDrive 모델 아키텍처

 

 

 

데이터 출처: Xiaomi Auto 및 화중과학기술대학교 논문 "ReCogDrive: 엔드투엔드 자율주행을 위한 강화된 인지 프레임워크"

샤오미 자동차와 화중과학기술대학교의 ReCogDrive 모델 아키텍처는 InternVL3-8B를 사용합니다. 이 VLM은 80억 개의 매개변수를 가지고 있으며, 이는 현재 일반적으로 사용되는 20~30억 개의 매개변수를 훨씬 능가합니다. 20~30억 개의 매개변수조차 구현하기 어려운데, 80억 개는 더욱 그렇습니다. 기존의 일부 세그먼트화된 엔드투엔드 방식과 비교했을 때, 이 성능은 상당히 우수합니다.

 

 

데이터 출처: 샤오펑 모터스의 첫 번째 논문 "NavigScene: 가시거리 밖 자율주행을 위한 로컬 인식과 글로벌 내비게이션의 연결". 내비게이션 강화 기능을 적용하더라도 PDMS의 점수는 샤오미 오토의 ReCogDrive보다 여전히 낮습니다.

 

 

 

 

데이터 출처: Ideal Auto의 논문 "TransDiffuser: 자율 주행을 위한 비상관 다중 모달 표현을 통한 종단 간 궤적 생성"

 

위 그림에서 V는 비전을, L은 라이더를 나타냅니다. ReCogDrive는 종단간 비교에서 일부 최신 세분화 기반 접근 방식에 비해 상당히 뒤떨어져 있습니다. TransDiffuser는 2,180만 개의 매개변수를 갖는 ResNet34 이미지 인코더를 사용하는데, 이는 대형 모델에서 사용되는 수십억 개의 매개변수보다 훨씬 적습니다.

 

Ideal Auto의 TransDiffuser 모델 아키텍처

 

 

 

데이터 출처: Ideal Auto의 논문 "TransDiffuser: 자율 주행을 위한 비상관 다중 모달 표현을 통한 종단 간 궤적 생성"

 

Ideal Auto의 TransDiffuser 모델 아키텍처는 주로 BEV 인식에 노이즈 감소 및 확산 디코딩 모듈을 추가합니다. 라이더와 카메라의 융합은 매우 잘 이루어졌으며, 현재 PDMS 성능이 가장 뛰어난 모델입니다.

 

2위를 차지한 TrajHF 모델 프레임워크 역시 Ideal Auto에서 개발했습니다. Ideal Auto의 R&D 역량은 매우 뛰어나다는 점을 강조하고 싶습니다.

 

TrajHF 모델 프레임워크

 

 

 

이미지 출처: Li Auto의 논문 "인간 피드백을 활용한 강화 학습을 통한 생성 궤적 모델 미세 조정"

 

현재 가장 우수한 VLA는 UCLA에서 제안한 AutoVLA로, 논문 제목은 AutoVLA: 적응적 추론과 강화 미세 조정을 통한 종단 간 자율 주행을 위한 비전-언어-행동 모델입니다.

 

 

 

AutoVLA의 NAVSIM의 성능은 제로샷 케이스에서는 80.54로 매우 낮았지만, 강화학습 미세조정 후에는 89.11로 크게 향상되었습니다.

 

AutoVLA 모델 아키텍처

 

 

이미지 출처: "AutoVLA: 적응 추론 및 강화 미세 조정을 통한 종단 간 자율 주행을 위한 비전-언어-행동 모델"

 

AutoVLA 훈련 프로세스(Qwen2.5-VL의 30억 매개변수 버전 사용)

 

 

 

이미지 출처: "AutoVLA: 적응 추론 및 강화 미세 조정을 통한 종단 간 자율 주행을 위한 비전-언어-행동 모델"

 

단일 단계 접근법은 현재 세분화된 접근법보다 열등하지만, 업계의 미래가 될 가능성이 높습니다. 비즈니스 관점에서 볼 때, 이 접근법은 알리바바, 구글, 마이크로소프트, 그리고 META가 개발한 VLM(Very Large Model)을 활용하는 거대 기업들의 어깨 위에 서 있습니다. 이는 R&D 비용을 크게 절감할 뿐만 아니라 빠른 반복을 가능하게 합니다. 더 나아가, 단일 단계 접근법은 복잡한 기존 인식 알고리즘의 필요성을 없애 R&D 비용을 크게 절감합니다.

 

면책 조항: 본 기사의 견해와 데이터는 참고용이며 실제 상황과 다를 수 있습니다. 본 기사는 투자 자문이 아닙니다. 본 기사에 표현된 모든 견해와 데이터는 저자의 관점만을 나타내며, 투자 지침, 투자 자문 또는 의사 결정 자문을 구성하지 않습니다.

 

 

출처 : https://t.cj.sina.com.cn/articles/view/5484361783/146e4b837001018hew