Делаем больше данных доступными для обучения беспилотным автомобилям: дополнительные данные повышают точность отслеживания других автомобилей и пешеходов

В целом, чем больше данных о дорогах и трафике доступно для обучающих систем слежения, тем лучше результаты. И исследователи CMU нашли способ получить для этой цели массу данных об автономном вождении.
«Наш метод намного более надежен, чем предыдущие методы, потому что мы можем обучаться на гораздо больших наборах данных», – сказал Химанги Миттал, стажер-исследователь, работающий с Дэвидом Хелдом, доцентом Института робототехники CMU.

Большинство автономных транспортных средств перемещаются в основном на основе датчика, называемого лидар, лазерного устройства, которое генерирует трехмерную информацию о мире, окружающем автомобиль. Эта трехмерная информация – не изображения, а облако точек. Один из способов, которым транспортное средство понимает эти данные, – это использование техники, известной как поток сцены.

Это включает в себя расчет скорости и траектории каждой трехмерной точки. Группы точек, движущихся вместе, интерпретируются в потоке сцены как автомобили, пешеходы или другие движущиеся объекты.
В прошлом современные методы обучения такой системы требовали использования помеченных наборов данных – данных датчиков, которые были аннотированы для отслеживания каждой трехмерной точки с течением времени. Пометка этих наборов данных вручную трудоемка и дорогостоящая, поэтому неудивительно, что существует мало помеченных данных.

В результате обучение потока сцены вместо этого часто выполняется с смоделированными данными, что менее эффективно, а затем настраивается с небольшим количеством помеченных реальных данных, которые существуют.
Миттал, Хелд и доктор робототехники.D. студент Брайан Окорн использовал другой подход, используя немаркированные данные для обучения потоку сцены.

Поскольку немаркированные данные относительно легко сгенерировать, установив лидар на автомобиль и разъезжая по нему, недостатка в них нет.
Ключ к их подходу состоял в том, чтобы разработать способ, позволяющий системе обнаруживать собственные ошибки в потоке сцены. В каждый момент система пытается предсказать, куда движется каждая трехмерная точка и как быстро она движется.

В следующий момент он измеряет расстояние между предсказанным местоположением точки и фактическим местоположением точки, ближайшей к этому предсказанному местоположению. Это расстояние является одним из типов ошибок, которые необходимо минимизировать.

Затем система меняет процесс, начиная с прогнозируемого местоположения точки и работая в обратном направлении, чтобы отобразить место, откуда эта точка возникла. На этом этапе он измеряет расстояние между прогнозируемой позицией и фактической точкой происхождения, и полученное расстояние формирует второй тип ошибки.
Затем система работает над исправлением этих ошибок.

«Оказывается, чтобы устранить обе эти ошибки, система действительно должна научиться делать правильные вещи, даже не говоря, что это правильно», – сказал Хельд.
Как бы запутанно это ни звучало, Окорн обнаружил, что это работает хорошо.

Исследователи подсчитали, что точность потока сцены с использованием обучающего набора синтетических данных составила всего 25%. Когда синтетические данные были согласованы с небольшим количеством реальных помеченных данных, точность увеличилась до 31%.

Когда они добавили большой объем немаркированных данных для обучения системы, используя свой подход, точность потока сцены подскочила до 46%.
Исследовательская группа представила свой метод на конференции Computer Vision and Pattern Recognition (CVPR), которая прошла практически 14-19 июня.

Центр искусственного интеллекта CMU Argo для исследования автономных транспортных средств поддержал это исследование при дополнительной поддержке со стороны исследовательского сообщества космических технологий НАСА.