Революционный метод, который навсегда изменил машинное зрение

Машины сегодня распознают объекты практически не хуже человека — переломный момент в этой области, по мнению ученых в области компьютерных наук, состоялся в 2012 году.
 
В космических исследования есть премия Google Lunar X Prize, которая будет вручена команде, создавшей лучший луноход. В медицине — Qualcomm Tricorder X Prize. Которая достанется тому, кто создаст устройство для быстрой диагностики заболеваний. Существует даже едва оперившаяся премия Artificial Intelligence X Prize — за разработку системы на основе искусственного интеллекта, которая сможет сама разрабатывать (!) вдохновляющие выступления для известной конференции TED.
 
Есть своя премия и у тех, кто занимается исследованиями в области машинного зрения — ImageNet Large-Scale Visual Recognition Challenge. Это соревнование, которое проходит ежегодно начиная с 2010 года, и оценивает алгоритмы для распознавания изображений (его предтечей был схожий проект PASCAL VOC, проходивший с 2005 по 2012 год).
 
Участникам конкурса выдают специально подготовленное изображение и предлагаются два простых задания. Для начала им необходимо определить содержит ли изображение определенный тип объектов или нет — к примеру, участник может решить, что там есть машины, но нет тигров. Второе задание — найти определенный объект и нарисовать вокруг него прямоугольник. Конкурсант, например, может решить, что в определенном месте изображения присутствует отвертка шириной в 50 пикселей и высотой в 30.
 
Да, и еще одна вещь, которая несколько усложняет задачу: в конкурсе используется 1000 различных категорий объектов — от абака до цуккини. И участникам состязания необходимо проверить базу данных, содержащую более 1 миллиона изображений для того, чтобы обнаружить использование каждого из объектов.
 
У компьютеров всегда были проблемы с определением объектов в реальных изображениях. Поэтому нетрудно поверить в то, что победители такого рода соревнований всегда показывали худшие результаты в сравнении с человеком.
 
Но все изменилось в 2012 году, когда команда из Торонтского университета создала алгоритм SuperVision, с помощью которого канадцы буквально разгромили конкурентов.
 
Сегодня Ольга Руссаковски (Olga Russakovsky) из Стэндфордского университета и ее коллеги считают, что безусловная победа SuperVision в том соревновании явилась переломным моментом в области научных разработок, связанных с машинным зрением. С тех пор, по их словам, соответствующие инструменты и методы улучшались настолько быстро, что сегодня машины могут состязаться в точности с человеком на равных.
 
Что же такое произошло в 2012 году, благодаря чему изменился мир машинного зрения? Ответ содержится в использовании концепции сверточных нейронных сетей (deep convolutional neural networks), которая была использована в алгоритме SuperVision для классификации 1,2 млн изображений высокого разрешения (набор данных, состоящий из 1000 различных классов).
 
Это был первый случай, когда сверточная нейронная сеть помогла выиграть состязание. И это была чистая победа. В 2010 году частота появления ошибок у победителя составляла 28,2%, в 2011 она снизилась до 25,8%. Создатели SuperVision выиграли в 2012 году с показателем всего лишь 16,4% (на втором месте оказалась команда с частотой появления ошибки, равной 26,2%).
 
Сверточные нейронные сети состоят нескольких слоев небольших групп нейронов, каждый из которых реагирует на небольшой фрагмент изображения. Результирующие сигналы от всех групп в слое накладываются друг на друга и тем самым создают представление о полном изображении. Более глубокий уровень затем повторяет этот процесс и создает новое представление, позволяя системе определить структуру изображения.
 
Концепция сверточных нейронных сетей была предложена в начале 1980-х. Но только в последние пару лет компьютеры получили необходимую производительность для распознавания высококачественных изображений.
 
SuperVision, к примеру, состоит из почти 650 тыс. нейронов, составляющих пять сверточных слоев. Алгоритм имеет около 60 млн параметров, которые должны быть тонко настроены в процессе обучения для распознавания объектов определенной категории. И это действительно огромный набор параметров, который позволяет распознавать большое количество типов объектов.
 
Начиная с 2012 года несколько групп ученых значительно улучшили результаты SuperVision. В этом году алгоритм GoogLeNet, созданный инженерами Google, смог снизить частоту появления ошибок до 6,7%.
 
По мнению Руссаковски и ее коллег, одна из наибольших проблем для участников в соревнованиях подобного рода состоит, прежде всего, в создании высококачественного набора данных. Каждое изображение в базе данных должно быть описано в соответствии с «золотым стандартом», которому будет удовлетворять каждый из алгоритмов. Существует также и база данных для обучения, состоящая из 150 тыс. изображений, которые должны быть описаны соответствующим образом.
 
И это действительно большая проблема. Руссаковски и ее коллеги справились с ней, используя краудсорсинговые проекты вроде амазоновского Mechanical Turk — привлеченные со стороны исполнители выполняли работу по категоризации изображений. Это требовало огромных усилий по планированию, перекрестной проверке и повторному выполнению, если выстроенная схема не работала. В результате ученые получили базу данных изображений высокого разрешения, описанных с высочайшей точностью.
 
Насколько лучшие алгоритмы распознавания объектов сравнимы с человеческими возможностями? По словам Руссаковски, они проводили соответствующий эксперимент, и его итог оказался неутешительным: «Результаты показывают, что составитель описаний, прошедший специальное обучение, обходит лучший алгоритм (GoogLeNet) всего лишь на 1,7%».
 
Другими словами, машины смогут превзойти людей в области распознавания изображений уже в ближайшее время.
 
Даже лучшие машинные алгоритмы пока с трудом справляются с миниатюрными или тонкими объектами такими, как муравей, сидящий на стебле цветка, или человек с пером в руке. Не менее проблематична для них и работа с изображениями, которые были искажены с помощью фильтров.
 
Человек редко испытывает затруднения при работе с такими объектами. Но, с другой стороны, нам довольно сложно классифицировать объекты одной категории, имеющие минимальные отличия — например, породы собак или виды птиц. А вот машина щелкает такие задачи как орешки.
 
Тенденция ясна. По словам Руссаковски, уже в ближайшее время человек сможет противостоять передовым системам распознавания изображений только ценой значительных усилий, имеющегося опыта и затрат времени.