Автомобили-роботы, разработкой которых занимаются практически все ведущие автомобилестроители, пока еще не очень хорошо справляются со многими задачами, такими, как распознавание пешеходных и велосипедных дорожек, светофоров, дорожных знаков и т.п. Но, по мере совершенствования и обучения систем искусственного интеллекта, управляющими автомобилями-роботами, эти автомобили будут становиться все умней и безопасней, и в недалеком будущем все же наступит время, когда вы сможете забросить ноги на приборную панель, позволив автомобилю передвигаться полностью самостоятельно. Неоценимую помощь в деле обучения систем управления автомобилей-роботов может оказать Synthia, модель виртуальной, но реалистичной городской среды, разработанная специалистами из Центра компьютерного видения (Computer Vision Center) в Барселоне. Эта система может использоваться для обучения искусственного интеллекта распознаванию препятствий и поведению в различных непредвиденных ситуациях при различных погодных условиях, включая туман, дождь, снег и гололед.
Нейронные сети, которые являются ключевыми компонентами систем искусственного интеллекта, обучаются на больших наборах снимков и видео, полученных в реальном мире. Анализируя изображения, нейронные сети учатся распознавать объекты различных классов, таких, как другие автомобили и транспортные средства, пешеходы, дорожные знаки, знаки разметки и т.п. Используя накопленные данные, система пытается интерпретировать в режиме реального времени все, что поступает ей с камер и датчиков автомобиля, и на основе этой интерпретации система вырабатывает решение о выполнении того или иного действия, к примеру, торможения, ускорения, смены полосы движения, поворота и т.п.
Системам искусственного интеллекта достаточно просто обрабатывать данные при движении по автостраде или по другой прямой дороге. Но когда передвижение производится в сложных городских условиях, в условиях ограниченной видимости, наличия большого количества перекрестков и пересечений улиц, система получает такую лавину информации, из которой она порой не успевает "выдернуть" самое важное.
Но самым неприятным в деле обучения систем искусственного интеллекта является то, что все "скармливаемые" им снимки и видео должны иметь пояснение (аннотацию), и маркировку отдельных объектов на снимке, что делается полностью в ручном режиме. К примеру, специалисты компании Daimler при реализации проекта CityScapes выполнили поистине титаническую работу по аннотированию 20 тысяч изображений, на которых были отмечены объекты, разбитые на 30 отдельных классов. Компания Mobileye, которая занимается разработкой программного обеспечения автопилота для автомобилей Tesla, имеет в штате 600 человек, которые занимаются ручной обработкой изображений, а к концу года это количество будет увеличено до тысячи.
Частично проблему аннотирования обучающих изображений решает система Synthia (Synthetic collection of Imagery and Annotations of urban scenario), разработанная группой Германа Роса (German Ros) из Барселоны. Эта система представляет собой нечто наподобие видеоигры, фигурантами которой являются объекты заранее известных классов, о которых упоминалось выше. Игровой сценарий позволяет смоделировать множество ситуаций, включая и столь маловероятные, с которыми вряд ли можно будет столкнуться в реальной жизни.
Система построена на базе распространенного и популярного игрового "движка" Unity, который позволяет создать реалистичную модель городской среды и наполнить ее непредсказуемо себя ведущими пешеходами, велосипедистами, неправильно припаркованными автомобилями и т.п. Помимо этого, система позволяет моделировать различные метеорологические условия, смену времени года и многое другое. В эту виртуальную среду исследователи поместили виртуальный автомобиль, имеющий определенную ориентацию его камер, и позволили этому автомобилю самостоятельно перемещаться по виртуальному городу, фиксируя все окружающее в виде снимков и видео.
Поскольку система точно знает то, какие именно объекты попали в поле зрения камер виртуального автомобиля, она может создавать поток высококачественных реалистичных снимков, снабженных безупречной аннотацией. Этот поток данных может быть направлен в нейронную сеть, которая будет обучаться, легко распознавая объекты, воспринимая аннотации и вычисляя особенности окружающей ситуации.
В настоящее время исследователи из Барселоны составили базу, в которую входит около 213 тысяч изображений и видео. При этом, все изображения упорядочены в соответствии с той или иной ситуацией, которая может возникнуть на городской дороге. Обучение систем искусственного интеллекта на этой базе показало высокую эффективность такого подхода. Для завершающего обучения систем ей потребовалось "скормить" лишь менее двух процентов реальных снимков, снабженных аннотациями в ручном режиме.
При использовании восьми различных алгоритмов нейронных сетей, которым на вход подавались изображения низкого качества (разрешающей способностью в 240 180 пикселей), ученые отметили, что добавление "синтетических" изображений к реальным позволяет значительно увеличить качество работы системы распознавания объектов. При таком подходе точность распознавания объектов 11 различных классов поднялась с 45 до 55 процентов. А коммерческое программное обеспечение, разработка которого ведется в настоящее время, будет использовать снимки максимально возможного качества, что позволит увеличить эффективность системы Synthia еще на значительную величину.
В настоящее время все данные, полученные при помощи системы Synthia, выкладываются в открытый доступ под лицензией не для коммерческого использования. Это делается для того, чтобы обеспечить улучшение самой платформы, путем установления обратных связей с заинтересованными лицам и организациями. А автомобилестроителям разработчики системы Synthia предлагают создание уникальной конфигурации камер и других датчиков виртуального автомобиля, которые будут полностью соответствовать камерам и датчикам реального автомобиля-робота.