테슬라 특허 살펴보기 – 초음파 센서 빼도 되나?

중국 공장에서 생상되어 인도되는 테슬라 모델 Y RWD에서 전면부의 USS(Ultra Sonic Sensor)가 빠지면서 카메라만으로 외부 장애물을 인식하고자 하는 테슬라의 개발 로드맵을 다시 확인할 수 있었습니다. 테슬라 특허를 통해 테슬라의 개발 로드맵을 확인하면 좋을 것 같아서 공부한다는 마음으로 포스팅을 해보고자 합니다.

테슬라의 공식 홈페이지에 접속해 보면, 비전 업데이트를 통해 울트라 소닉 센서를 비전으로 대체한다는 점을 공식적으로 발표하고 있습니다.

카메라만으로 다른 센서들을 모두 대체할 수 있는 것인지 궁금해져서 테슬라에서 출원한 비전 인식 특허들을 살펴보고자 합니다. 특허가 상당히 많은데 최근에 출원된 특허들 중에 비전 인식 모델에 관련된 특허로 한정하여 기술을 살펴보고자 합니다.

첫 번째로, US 2023/0057509 A1 – Vision-based machine learning model for autonomous driving with adjustable virtual camera 특허를 살펴보고자 합니다.

테슬라 특허 – 비전 기반 머신 러닝 모델

1. 이미지 센서의 위치

테슬라 특허에 나타는 테슬라 차량의 이미지 센서의 위치

22년 출원된 테슬라 특허를 기준으로 테슬라의 이미지 센서는 전면 유리에 하나, 좌측과 우측에 각각 2 개씩 존재하고, 후면 센서가 한 개 존재합니다.

기존 USS 위치에도 이미지 센서가 추가되었을 것으로 예상되지만, 22년 테슬라 특허 명세서에는 포함되어 있지 않습니다.

테슬라의 자동차들은 프로세서 시스템(120)을 이용해서 이미지 센서들을 통해 수집한 이미지들을 처리합니다.

2. 비전 인식 네트워크

테슬라의 자동차들은 이미지 센서를 통해 입력 받은 이미지들을 프로세서 시스템의 머신 러닝 모델엔진을 통해 처리함으로써 장애물(특허 문헌에서는 객체(object)라고 표현됨) 정보를 생성합니다.

그럼, 비전 기반 머신 러닝 모델은 어떻게 구성되어 있느냐 하면, 아래 그림과 같습니다.

비전 기반 머신 러닝 모델은 이미지 센서로부터 입력 받은 이미지를 최초로 처리하는 백본 네트워크(backbone networks), VRU(Vulnerable Road User) 네트워크와 Non-VRU 네트워크로 나뉘어집니다.

백본 네트워크는 잔차 네트워크(residual network), 재귀 뉴럴 네트워크 정규화된 잔차 네트워크(recurrent neural network-regulated residual networks) 그리고, BiFPN(Bi-directional feature pyramid networks) 를 포함합니다.

이런 네트워크들을 통해서 백본 네트워크는 이미지들에 대해서 전처리를 수행하고, 202A – 202 H에 해당하는 전처리된 이미지들을 생성합니다.

(1) VRU 네트워크

VRU 네트워크는 보행자를 비롯해서, 유모차, 스케이트 보드와 같은 도로 상의 취약체에 대한 정보를 결정하는 역할을 수행합니다.

VRU 네트워크의 구체적인 형상은 다음과 같습니다.

VRU 네트워크는 고정 투사 엔진과 프레임 선택 엔진을 통해서 취약체의 속도나 검출을 수행합니다. VRU 네트워크를 통해 생성된 파노라마 투사 이미지는 아래와 같습니다.

(2) Non-VRU 네트워크

Non-VRU 네트워크는 트랜스포머 네트워크 엔진, 프레임 선택 엔진을 이용해서 Non-VRU 객체들의 속도 계산 및 검출을 수행하고, 특성들을 별도로 추출합니다.

Non-VRU는 말 그대로 비취약체들을 검출하는 엔진으로, 비취약체로는 승차, 트럭, 세미 트럭, 응급 차량, 앰뷸런스 등이 포함됩니다.

비디오 모듈(408A,B,C)은 3 차원 컨볼루션을 수행하는 어텐션 네트워크로 구성됩니다.

VRU 네트워크에서 설명한 것과 마찬가지로, Non-VRU 네트워크도 아래와 같은 파노라마 투사 이미지를 생성합니다.

(3) 가상 카메라(Virtual Camera)

이 특허에서 중요한 개념으로 사용되는 것이 가상 카메라입니다. 프로세서는 이미지 센서를 통해 입력 받은 이미지를 처리해서, 높이가 다른 위치에 설치된 것으로 가정되는 복수의 가상 카메라에서 본 이미지로 변환을 수행합니다.

예를 들어, 취약체의 경우에는 1미터, 1.5 미터, 2미터 높이에서 가상 카메라가 바라본 것과 같이 벡터스페이스로 투영이되고, 비취약체의 경우에는 13미터, 15미터, 20미터 높이에 설치된 가상 카메라가 본 것과 같이 투영됩니다.

테슬라 특허에서는 가상 카메라에 대응하는 벡터 스페이스 이미지들을 이용해서 객체들을 검출합니다.

우리가 테슬라의 디스플레이 화면을 통해서 보여지는 사람이나 다른 차량의 인식 결과들은 이런 네트워크들을 이용해서 인식됩니다.

오늘 알 수 있는 부분은 테슬라는 취약체와 비 취약체를 서로 다른 서브 네트워크를 통해서 인식한다는 점입니다.

자율 주행에서는 안전이 최우선이기 때문에 취약체에 대한 검출 성능을 높이기 위해서 별도의 네트워크를 사용하는 것으로 판단됩니다.

답글 남기기 응답 취소