Лекция
Привет, сегодня поговорим про распознавание лиц, обещаю рассказать все что знаю. Для того чтобы лучше понимать что такое распознавание лиц , настоятельно рекомендую прочитать все из категории Распознавание образов.
Общий процесс обработки изображения лица при распознавании
На первом этапе производится детектирование и локализация лица на изображении. На этапе распознавания производится выравнивание изображения лица (геометрическое и яркостное), вычисление признаков и непосредственно распознавание – сравнение вычисленных признаков с заложенными в базу данных эталонами. Основным отличием всех представленных алгоритмов будет вычисление признаков и сравнение их совокупностей между собой.
Techopedia определяет распознавание лица как биометрическое программное приложение, способное однозначно идентифицировать или верифицировать человека путем сравнения и анализа шаблонов на основе контуров лица человека .
Проще говоря, каждый человек имеет уникальное строение лица. Специальное программное обеспечение способно анализировать его, сопоставляя с информацией в базе данных для последующей идентификации того, кто вы такой.
Главный недостаток технологии распознавания лиц – это ухудшение качества распознавания при
Существует несколько подходов для создания алгоритма распознавания лиц.
Эмпирический подход использовался в самом начале развития компьютерного зрения. Он базируется на некоторых правилах, которые использует человек для детектирования лица. К примеру, лоб обычно ярче, чем центральная часть лица, которая, в свою очередь, однородна по яркости и цвету. Еще одним важным признаком является наличие частей лица на изображении – носа, рта, глаз. Для определения лиц производится значительное уменьшение участка изображения, где предполагается наличие лица, или строятся перпендикулярные гистограммы. Эти методы легко реализовать, но они практически непригодны при наличии большого количества посторонних объектов на фоне, нескольких лиц в кадре или при изменении ракурса.
Следующий подход использует инвариантные признаки, характерные для изображения лица. В его основе, как и в предыдущем методе, лежит эмпирика, то есть попытка системы «думать» как человек. Метод выявляет характерные части лица, его границу, изменение формы, контрастности и т.д., объединяет все эти признаки и верифицирует. Данный метод может использоваться даже при повороте головы, но при наличии других лиц или неоднородном фоне распознавание становится невозможным.
Следующий алгоритм – это детектирование лиц с помощью шаблонов, которые задает разработчик. Лицо представляется неким шаблоном или стандартом, и цель алгоритма – произвести проверку каждого сегмента на наличие этого шаблона, причем проверка может производиться для разных ракурсов и масштабов. Такая система требует множество трудоемких вычислений.
Все современные технологии распознавания лиц используют системы, обучающиеся с помощью тестовых изображений. Для обучения используются базы с изображениями, содержащими лица, и не содержащими лица. Каждый фрагмент исследуемого изображения характеризуется как вектор признаков, с помощью которого классификаторы (алгоритмы для определения объекта в кадре) определяют, является данная часть изображения лицом или нет.
Технологически системы иногда могут сильно отличаться в плане распознавания лиц, но все они имеют примерно общие принципы работы.
Шаг 1: Обнаружение лица
Для начала камера обнаружит лицо человека, будь он один или находясь в толпе. Лицо лучше всего обнаруживается в тот момент, когда человек смотрит прямо в камеру, однако современные технологические достижения позволяют также обнаруживать лицо и в тех ситуациях, когда человек не смотрит прямо в камеру (конечно, в определенных пределах).
Шаг 2: Анализ лица
Затем снимается фотография лица и начинается его анализ. Большинство решений для распознавания лиц использует 2D-изображения вместо объемных 3D-изображений, поскольку они могут более просто сопоставлять 2D-фото с общедоступными фотографиями или фотографиями, имеющимися в базе данных. Каждое лицо составлено из различимых ориентиров или узловых точек. Каждое человеческое лицо имеет 80 узловых точек. Программы для распознавания лиц анализируют узловые точки, такие как расстояние между вашими глазами или форма ваших скул.
Шаг 3: Конвертация изображения в данные
После этого анализ вашего лица превращается в математическую формулу. Ваши черты лица становятся числовым кодом. Такой числовой код называется отпечатком лица (faceprint). Подобно уникальной структуре отпечатка большого пальца, каждый человек имеет свой собственный отпечаток лица.
Шаг 4: Поиск совпадений
Далее ваш код сравнивается с базой данных отпечатков лиц. В этой базе данных имеются фотографии с идентификаторами, которые можно сравнивать.
ФБР имеет доступ к более чем 641 миллиону фотографий, включая 21 государственную базу данных, такие как DMV. Другой пример базы данных, к которой многие имеют доступ, - это фотографии в Facebook. Любые фотографии, помеченные именем человека, становятся частью базы данных Facebook.
Затем технология определяет соответствия ваших точных данных тому, что представлено в базе данных. Результатом этого становится идентификация человека с предоставлением дополнительной информации (ФИО, адрес и т.п.).
Технологии распознавания лиц применяются в самых разнообразных сферах :
Apple планирует использовать систему распознавания лиц в качестве разблокировки телефона – селфи, снятое владельцем телефона на фронтальную камеру, будет сравниваться с заранее загруженным фото-эталоном.
Хотя технологии распознавания лиц могут показаться чем-то футуристическим, тем не менее, они уже активно используются в самых разных направлениях. Вот несколько удивительных применений этой технологии.
Безопасность устройства
Некоторые приложения используют распознавание лиц для защиты ваших данных. Даже безопасный пароль не может защитить ваши аккаунты и информацию от опытных хакеров, поэтому люди решили прибегнуть к технологиям распознавания лиц. Эти приложения требуют показать им ваше лицо, чтобы разблокировать ваш смартфон или получить доступ к личным данным.
Выявление генетических нарушений
Существуют специальные медицинские приложения, такие как Face2Gene и DeepGestalt, которые используют распознавание лиц для обнаружения генетических нарушений. Они анализируют лица и сравнивают их с базой данных лиц тех людей, у которых имеются различные нарушения.
Магазинная кража
Многие магазины оснащены системами распознавания лиц, которые выделяют людей в качестве угрозы, если они что-то крали в магазинах. Такая система может идентифицировать магазинного воришку и уведомить владельца магазина о его прошлых проделках, даже если такой вор никогда не бывал в данном магазине ранее. Хотя такая система может предоставлять значительные выгоды для владельцев магазинов, но часто эффективность таких систем ставится под сомнение. Если невиновный человек будет помечен в качестве вора, то это может повлиять на его жизнь.
Покупка алкоголя
Некоторые продуктовые магазин и бары в Великобритании используют распознавание лиц, чтобы определить, достаточно ли лет покупателю, чтобы иметь право покупки алкоголя. Продуктовые магазины разрешают покупателям использовать систему самопроверки без необходимости в дополнительном сотруднике, проверяющим паспорта. Если система посчитает, что клиенту менее 25 лет, то он должен будет предъявить паспорт для проверки.
Безопасность в школах
Распознавание лиц начинают внедрять в школах. Одна школа в Швеции использует FRT для проверки посещаемости на уроках. Школы в США, особенно в Нью-Йорке, начинают тестировать использование технологий распознавания лиц в качестве «системы раннего оповещения» против угроз со стороны таких лиц, как сексуальные маньяки. Технология также может распознавать 10 видов оружия для предотвращения актов насилия в школах.
Использование в авиакомпаниях
Такие авиакомпании как Delta и JetBlue используют распознавание лиц для идентификации пассажиров. Биометрическое сканирование лица является необязательным, но позволяет пассажирам использовать свои лица в качестве билета, экономя время и сокращая затраты на проверку билетов.
Приложения, которые вас старят
Была ли ваша лента новостей в соцсестях заполнена пожилыми лицами людей в последнее несколько месяцев? Возрастной фильтр FaceApp, который использует распознавание лиц для старения вашего лица, набрал обороты в мире соцсетей. К сожалению, существуют опасения, что собираемые им данные о лицах не защищены на должном уровне.
Суть метода сводится к эластичному сопоставлению графов, описывающих изображения лиц. Лица представлены в виде графов со взвешенными вершинами и ребрами. На этапе распознавания один из графов – эталонный – остается неизменным, в то время как другой деформируется с целью наилучшей подгонки к первому. В подобных системах распознавания графы могут представлять собой как прямоугольную решетку, так и структуру, образованную характерными (антропометрическими) точками лица.
а)
б)
Пример структуры графа для распознавания лиц: а) регулярная решетка б) граф на основе антропометрических точек лица.
В вершинах графа вычисляются значения признаков, чаще всего используют комплексные значения фильтров Габора или их упорядоченных наборов – Габоровских вейвлет (строи Габора), которые вычисляются в некоторой локальной области вершины графа локально путем свертки значений яркости пикселей с фильтрами Габора.
Набор (банк, jet) фильтров Габора
Пример свертки изображения лица с двумя фильтрами Габора
Ребра графа взвешиваются расстояниями между смежными вершинами. Различие (расстояние, дискриминационная характеристика) между двумя графами вычисляется при помощи некоторой ценовой функции деформации, учитывающей как различие между значениями признаков, вычисленными в вершинах, так и степень деформации ребер графа.
Деформация графа происходит путем смещения каждой из его вершин на некоторое расстояние в определенных направлениях относительно ее исходного местоположения и выбора такой ее позиции, при которой разница между значениями признаков (откликов фильтров Габора) в вершине деформируемого графа и соответствующей ей вершине эталонного графа будет минимальной. Данная операция выполняется поочередно для всех вершин графа до тех пор, пока не будет достигнуто наименьшее суммарное различие между признаками деформируемого и эталонного графов. Значение ценовой функции деформации при таком положении деформируемого графа и будет являться мерой различия между входным изображением лица и эталонным графом. Данная «релаксационная» процедура деформации должна выполняться для всех эталонных лиц, заложенных в базу данных системы. Результат распознавания системы – эталон с наилучшим значением ценовой функции деформации.
Пример деформации графа в виде регулярной решетки
В отдельных публикациях указывается 95-97%-ая эффективность распознавания даже при наличии различных эмоциональных выражениях и изменении ракурса лица до 15 градусов. Однако разработчики систем эластичного сравнения на графах ссылаются на высокую вычислительную стоимость данного подхода. Например, для сравнения входного изображения лица с 87 эталонными тратилось приблизительно 25 секунд при работе на параллельной ЭВМ с 23 транспьютерами [15] (Примечание: публикация датирована 1993 годом). В других публикациях по данной тематике время либо не указывается, либо говорится, что оно велико.
Недостатки: высокая вычислительная сложность процедуры распознавания. Низкая технологичность при запоминании новых эталонов. Линейная зависимость времени работы от размера базы данных лиц.
В настоящее время существует около десятка разновидности нейронных сетей (НС). Одним из самых широко используемых вариантов являться сеть, построенная на многослойном перцептроне, которая позволяет классифицировать поданное на вход изображение/сигнал в соответствии с предварительной настройкой/обучением сети.
Обучаются нейронные сети на наборе обучающих примеров. Суть обучения сводится к настройке весов межнейронных связей в процессе решения оптимизационной задачи методом градиентного спуска. В процессе обучения НС происходит автоматическое извлечение ключевых признаков, определение их важности и построение взаимосвязей между ними. Предполагается, что обученная НС сможет применить опыт, полученный в процессе обучения, на неизвестные образы за счет обобщающих способностей.
Наилучшие результаты в области распознавания лиц (по результатам анализа публикаций) показала Convolutional Neural Network или сверточная нейронная сеть (далее – СНС) [29-31], которая является логическим развитием идей таких архитектур НС как когнитрона и неокогнитрона. Успех обусловлен возможностью учета двумерной топологии изображения, в отличие от многослойного перцептрона.
Отличительными особенностями СНС являются локальные рецепторные поля (обеспечивают локальную двумерную связность нейронов), общие веса (обеспечивают детектирование некоторых черт в любом месте изображения) и иерархическая организация с пространственными сэмплингом (spatial subsampling). Благодаря этим нововведениям СНС обеспечивает частичную устойчивость к изменениям масштаба, смещениям, поворотам, смене ракурса и прочим искажениям.
Схематичное изображение архитектуры сверточной нейронной сети
Тестирование СНС на базе данных ORL, содержащей изображения лиц с небольшими изменениями освещения, масштаба, пространственных поворотов, положения и различными эмоциями, показало 96% точность распознавания.
Свое развитие СНС получили в разработке DeepFace [47], которую приобрел
Facebook для распознавания лиц пользователей своей соцсети. Все особенности архитектуры носят закрытый характер.
Принцип работы DeepFace
Недостатки нейронных сетей: добавление нового эталонного лица в базу данных требует полного переобучения сети на всем имеющемся наборе (достаточно длительная процедура, в зависимости от размера выборки от 1 часа до нескольких дней). Проблемы математического характера, связанные с обучением: попадание в локальный оптимум, выбор оптимального шага оптимизации, переобучение и т. д. Трудно формализуемый этап выбора архитектуры сети (количество нейронов, слоев, характер связей). Обобщая все вышесказанное, можно заключить, что НС – «черный ящик» с трудно интерпретируемыми результатами работы.
Одним из статистических методов распознавания лиц являются скрытые Марковские модели (СММ) с дискретным временем [32-34]. СММ используют статистические свойства сигналов и учитывают непосредственно их пространственные характеристики. Элементами модели являются: множество скрытых состояний, множество наблюдаемых состояний, матрица переходных вероятностей, начальная вероятность состояний. Каждому соответствует своя Марковская модель. При распознавании объекта проверяются сгенерированные для заданной базы объектов Марковские модели и ищется максимальная из наблюдаемых вероятность того, что последовательность наблюдений для данного объекта сгенерирована соответствующей моделью.
На сегодняшний день не удалось найти примера коммерческого применения СММ для распознавания лиц.
Недостатки:
— необходимо подбирать параметры модели для каждой базы данных;
— СММ не обладает различающей способностью, то есть алгоритм обучения только максимизирует отклик каждого изображения на свою модель, но не минимизирует отклик на другие модели.
Одним из наиболее известных и проработанных является метод главных компонент (principal component analysis, PCA), основанный на преобразовании Карунена-Лоева.
Первоначально метод главных компонент начал применяться в статистике для снижения пространства признаков без существенной потери информации. В задаче распознавания лиц его применяют главным образом для представления изображения лица вектором малой размерности (главных компонент), который сравнивается затем с эталонными векторами, заложенными в базу данных.
Главной целью метода главных компонент является значительное уменьшение размерности пространства признаков таким образом, чтобы оно как можно лучше описывало «типичные» образы, принадлежащие множеству лиц. Используя этот метод можно выявить различные изменчивости в обучающей выборке изображений лиц и описать эту изменчивость в базисе нескольких ортогональных векторов, которые называются собственными (eigenface).
Полученный один раз на обучающей выборке изображений лиц набор собственных векторов используется для кодирования всех остальных изображений лиц, которые представляются взвешенной комбинацией этих собственных векторов. Используя ограниченное количество собственных векторов можно получить сжатую аппроксимацию входному изображению лица, которую затем можно хранить в базе данных в виде вектора коэффициентов, служащего одновременно ключом поиска в базе данных лиц.
Суть метода главных компонент сводится к следующему. Вначале весь обучающий набор лиц преобразуется в одну общую матрицу данных, где каждая строка представляет собой один экземпляр изображения лица, разложенного в строку. Все лица обучающего набора должны быть приведены к одному размеру и с нормированными гистограммами.
Преобразования обучающего набора лиц в одну общую матрицу X
Затем производится нормировка данных и приведение строк к 0-му среднему и 1-й дисперсии, вычисляется матрица ковариации. Для полученной матрицы ковариации решается задача определения собственных значений и соответствующих им собственных векторов (собственные лица). Далее производится сортировка собственных векторов в порядке убывания собственных значений и оставляют только первые k векторов по правилу:
Алгоритм РСА
Пример первых десяти собственных векторов (собственных лиц), полученных на обучаемом наборе лиц
= 0.956*-1.842*+0.046 …
Пример построения (синтеза) человеческого лица с помощью комбинации собственных лиц и главных компонент
Принцип выбора базиса из первых лучших собственных векторов
Пример отображения лица в трехмерное метрическое пространство, полученном по трем собственным лицам и дальнейшее распознавание
Метод главных компонент хорошо зарекомендовал себя в практических приложениях. Однако, в тех случаях, когда на изображении лица присутствуют значительные изменения в освещенности или выражении лица, эффективность метода значительно падает. Все дело в том, что PCA выбирает подпространство с такой целью, чтобы максимально аппроксимировать входной набор данных, а не выполнить дискриминацию между классами лиц.
В [22] было предложено решение этой проблемы с использование линейного дискриминанта Фишера (в литературе встречается название “Eigen-Fisher”, “Fisherface”, LDA). LDA выбирает линейное подпространство, которое максимизирует отношение:
где
матрица межклассового разброса, и
Матрица внутриклассового разброса; m – число классов в базе данных.
LDA ищет проекцию данных, при которой классы являются максимально линейно сепарабельны (см. рисунок ниже). Для сравнения PCA ищет такую проекцию данных, при которой будет максимизирован разброс по всей базе данных лиц (без учета классов). По результатам экспериментов [22] в условиях сильного бакового и нижнего затенения изображений лиц Fisherface показал 95% эффективность по сравнению с 53% Eigenface.
Принципиальное отличие формирования проекций PCA и LDA
Отличие PCA от LDA
Active Appearance Models (AAM)
Активные модели внешнего вида (Active Appearance Models, AAM) — это статистические модели изображений, которые путем разного рода деформаций могут быть подогнаны под реальное изображение. Данный тип моделей в двумерном варианте был предложен Тимом Кутсом и Крисом Тейлором в 1998 году [17,18]. Первоначально активные модели внешнего вида применялись для оценки параметров изображений лиц.
Активная модель внешнего вида содержит два типа параметров: параметры, связанные с формой (параметры формы), и параметры, связанные со статистической моделью пикселей изображения или текстурой (параметры внешнего вида). Перед использованием модель должна быть обучена на множестве заранее размеченных изображений. Разметка изображений производится вручную. Каждая метка имеет свой номер и определяет характерную точку, которую должна будет находить модель во время адаптации к новому изображению.
Пример разметки изображения лица из 68 точек, образующих форму AAM.
Процедура обучения AAM начинается с нормализации форм на размеченных изображениях с целью компенсации различий в масштабе, наклоне и смещении. Для этого используется так называемый обобщенный Прокрустов анализ.
Координаты точек формы лица до и после нормализации
Из всего множества нормированных точек затем выделяются главные компоненты с использованием метода PCA.
Модель формы AAM состоит из триангуляционной решетки s0 и линейной комбинации смещений si относительно s0
Далее из пикселей внутри треугольников, образуемых точками формы, формируется матрица, такая что, каждый ее столбец содержит значения пикселей соответствующей текстуры. Стоит отметить, что используемые для обучения текстуры могут быть как одноканальными (градации серого), так и многоканальными (например, пространство цветов RGB или другое). В случае многоканальных текстур векторы пикселов формируются отдельно по каждому из каналов, а потом выполняется их конкатенация. После нахождения главных компонент матрицы текстур модель AAM считается обученной.
Модель внешнего вида AAM состоит из базового вида A0, определенного пикселями внутри базовой решетки s0 и линейной комбинации смещений Ai относительно A0
Пример конкретизации AAM. Вектор параметров формы
p=(p_1,p_2,〖…,p〗_m )^T=(-54,10,-9.1,…)^T используется для синтеза модели формы s, а вектор параметров λ=(λ_1,λ_2,〖…,λ〗_m )^T=(3559,351,-256,…)^Tдля синтеза внешнего вида модели. Итоговая модель лица 〖M(W(x;p))〗^ получается как комбинация двух моделей – формы и внешнего вида.
Подгонка модели под конкретное изображение лица выполняется в процессе решения оптимизационной задачи, суть которой сводится к минимизации функционала
методом градиентного спуска. Найденные при этом параметры модели и будут отражать положение модели на конкретном изображении.
Пример подгонки модели на конкретное изображение за 20 итераций процедуры градиентного спуска.
С помощью AAM можно моделировать изображения объектов, подверженных как жесткой, так и нежесткой деформации. ААМ состоит из набора параметров, часть которых представляют форму лица, остальные задают его текстуру. Под деформации обычно понимают геометрическое преобразование в виде композиции переноса, поворота и масштабирования. При решении задачи локализации лица на изображении выполняется поиск параметров (расположение, форма, текстура) ААМ, которые представляют синтезируемое изображение, наиболее близкое к наблюдаемому. По степени близости AAM подгоняемому изображению принимается решение – есть лицо или нет.
Active Shape Models (ASM)
Суть метода ASM [16,19,20] заключается в учете статистических связей между расположением антропометрических точек. На имеющейся выборке изображений лиц, снятых в анфас. На изображении эксперт размечает расположение антропометрических точек. На каждом изображении точки пронумерованы в одинаковом порядке.
Пример представления формы лица с использованием 68 точек
Для того чтобы привести координаты на всех изображениях к единой системе обычно выполняется т.н. обобщенный прокрустов анализ, в результате которого все точки приводятся к одному масштабу и центрируются. Далее для всего набора образов вычисляется средняя форма и матрица ковариации. На основе матрицы ковариации вычисляются собственные вектора, которые затем сортируются в порядке убывания соответствующих им собственных значений. Модель ASM определяется матрицей Φ и вектором средней формы s ̅.
Тогда любая форма может быть описана с помощью модели и параметров:
Локализации ASM модели на новом, не входящем в обучающую выборку изображении осуществляется в процессе решения оптимизационной задачи.
а) б) в) г)
Иллюстрация процесса локализации модели ASM на конкретном изображении: а) начальное положение б) после 5 итераций в) после 10 итераций г) модель сошлась
Однако все же главной целью AAM и ASM является не распознавание лиц, а точная локализация лица и антропометрических точек на изображении для дальнейшей обработки.
Практически во всех алгоритмах обязательным этапом, предваряющим классификацию, является выравнивание, под которым понимается выравнивание изображения лица во фронтальное положение относительно камеры или приведение совокупности лиц (например, в обучающей выборке для обучения классификатора) к единой системе координат. Для реализации этого этапа необходима локализация на изображении характерных для всех лиц антропометрических точек – чаще всего это центры зрачков или уголки глаз. Разные исследователи выделяют разные группы таких точек. В целях сокращения вычислительных затрат для систем реального времени разработчики выделяют не более 10 таких точек .
Модели AAM и ASM как раз и
продолжение следует...
Часть 1 Анализ существующих подходов к распознаванию лиц
Часть 2 6. Основные проблемы, связанные с разработкой систем распознавания лиц -
Часть 3 2018 - Анализ существующих подходов к распознаванию лиц
Часть 4 2017 - Анализ существующих подходов к распознаванию лиц
Часть 5 2015 - Анализ существующих подходов к распознаванию лиц
Комментарии
Оставить комментарий
Распознавание образов
Термины: Распознавание образов