На страницах нашего сайта мы в свое время уделили достаточно много внимания компании DeepMind из Лондона, которая является филиалом Alphabet, другими словами, компании Google. Эта компания получила широкую известность в 2016, когда разработанная ею система искусственного интеллекта AlphaGo, самообучившись на миллионах виртуальных игр, приобрела такую степень мастерства в китайской игре Го, что ей не смог серьезно противостоять даже чемпион мира по этой игре. В 2018 году более совершенная система искусственного интеллекта AlphaZero добилась подобных результатов сразу в трех типах логических игр, Го, шахматах и японских шахматах Сеги. А теперь компания DeepMind представляет свое очередное творение, систему MuZero, которой для обучения и приобретения мастерства в какой-нибудь игре даже не требуется изначальное знание правил этой игры.
Обучение системы MuZero начинается с того, что система делает первый шаг (или ход), изучая варианты, которые позволяют правила игры. Одновременно с этим система анализирует "бонусы", предоставляемые игрой за правильное действие, в случае игры "Pac-Man" это съеденные желтые точки, а в случае шахмат - это приближение к выигрышному финалу. После этого система начинает совершенствовать свои навыки, постоянно атакуя противника и пытаясь получить большее количество бонусов.
Одновременное изучение правил и совершенствование уровня игры позволяет системе MuZero продемонстрировать огромное превосходство в эффективности и "экономичности" использования данных по сравнению с предыдущими версиями этой системы. Однако, это имеет и обратную сторону, для полноценного обучения системе MuZero требуются достаточно большие вычислительные ресурсы. Но, уже после обучения система нуждается в малом количестве вычислительных ресурсов, она способна быстро принимать правильные решения, даже используя весьма ограниченные аппаратные средства не самого мощного из существующих смартфонов.
Реализованный метод самообучения уже достаточно близок к основной цели компании DeepMind, к созданию системы искусственного интеллекта, способной самообучаться подобно тому, как это делают маленькие дети. Более того, такой метод обучения идеален для обучения искусственного интеллекта в условиях, когда конечная цель или задача в целом не могут быть описаны достаточно точно и четко. А большинство проблем, решением которых в реальном мире предстоит заняться искусственному интеллекту в будущем, как раз и относятся к такому классу.
Параллельно с обучением играм, специалисты компании DeepMind начали делать первые попытки использования искусственного интеллекта в практических целях. "Сейчас мы исследуем возможности системы MuZero в области эффективного сжатия видео и в других областях, в которых по многим причинам нельзя было использовать системы предыдущих поколений, такие, как AlphaZero" - рассказывает Томас Хьюберт (Thomas Hubert), ведущий исследователь.
Другие области практического применения подобных универсальных систем искусственного интеллекта включают в себя технологии автономного вождения для автомобилей-роботов, разрабатываемые еще одной "дочкой" Alphabet, компанией Waymo, область биохимии, в которой впечатляющие результаты продемонстрировала недавно "родственная" программа AlphaFold, и многое другое.