Перейти к основному содержанию
ИТарктика
УДК 004.8
Хохрин Алексей Андреевич
аспирант кафедры «Конструирование и технология радиоэлектронных средств», Арзамасский политехнический институт (филиал) федерального государственного бюджетного образовательного учреждения высшего образования «Нижегородский государственный технический
университет им. Р.Е. Алексеева»
Системы построения 3D-модели лица на основе 2D изображения
Аннотация:

В статье представлен краткий обзор систем построения 3D-модели лица на основе 2D-изображения. Представлено практическое применение данных систем, описаны преобладающие подходы решения задачи реконструкции 3D-модели человеческого лица. Приведены результаты тестирования современных алгоритмов расчета трехмерной реконструкции лица.

Ключевые слова: цифровая обработка изображений, компьютерное зрение, трехмерная реконструкция лица.

Введение

Важным этапом работы программного айтрекера является задача сопоставления распознанных координат зрачков на изображении с координатами экрана. Задача осложняется движением лица пользователя при работе с программой, так как координата зрачка будет изменяться, даже если взгляд будет направлен в одну и ту же точку. Одним из решений данной задачи является нахождение опорной точки, относительно которой будет рассчитываться координата зрачка. После расчета координат следует процедура сопоставления координаты с точкой на экране монитора. Другим решением является реконструкция 3D-модели человеческого лица на основе видеопоследовательности. Некоторые существующие системы используют алгоритмы структуры из движения (structure from motion) или алгоритмы на основе общей модели лица (generic model).

Трехмерная реконструкция лица является фундаментальной проблемой компьютерного зрения высокой сложности. Современные системы часто предполагают наличие множественных изображений лица в качестве входных данных и должны решать ряд задач, таких, как: установление плотных соответствий в разных позах лица, выражениях лица и неравномерном освещении. Для построения моделей эти методы требуют большое количество ресурсов. Однако существуют также и разработки, позволяющие реконструировать трехмерную модель лица на основе одного 2D-изображения в режиме реального времени. Примерами таких исследований являются «A Multiresolution 3D Morphable Face Model and Fitting Framework»[1], «Dense 3D Face Alignment from 2D Videos in Real-Time»[2], «Large Pose 3D Face Reconstruction from a Single Image via Direct Volumetric CNN Regression»[3] и др. Такие системы могут быть использованы в том числе для восстановления всей трехмерной лицевой геометрии, включая невидимые части лица.

В современных системах преобладают 5 подходов:

1. В трехмерной морфологической модели (3D Morphable Model, 3DMM) [4], популярном подходе для оценки полной трехмерной лицевой структуры на основе одного изображения, обучение включает в себя процедуру итеративного потока для плотного соответствия изображений. Кроме того, тестирование требует тщательной инициализации для решения сложной проблемы с невыпуклой оптимизацией, которая требует много времени.

2. Популярный подход для реконструкции 2.5D из одного изображения (работа [5]), формулирует и решает тщательно инициализированную (только для фронтальных изображений) проблему невыпуклой оптимизации для восстановления освещения и глубины, где каждая из подзадач представляет собой сложную проблему оптимизации.

3. В работе [6] к созданию нейтральной предметной модели 2.5D из почти фронтального изображения, предлагается итерационная процедура, которая предполагает локализацию лицевых ориентиров, фронтализацию лица, решение фотометрической проблемы стереосистемы, нормальную оценку локальной поверхности и, наконец, интеграцию формы.

4. В современном подходе [7] реконструкции высокодетальной формы лица 2,5D для каждого видео-кадра, сначала вычисляется средняя форма и освещение для конкретного человека, а при тестировании запускается итеративный процесс, требующий сложного алгоритма оценки позы, вычисления трехмерного потока между моделью и видеокадром и, наконец, уточнения формы путем решения проблемы оптимизации формы от затенения (shape-from-shading).

5. В еще одном современном методе [8], который производит среднюю (нейтральную) трехмерную грань из коллекции личных фотографий, сначала выполняется обнаружение ориентира, определяется 3DMM, используя разреженный набор точек, затем решается проблема оптимизации, аналогичная той, что описана в п.3, после чего выполняется оценка нормальной поверхности, и, наконец, выполняется поверхностная реконструкция.

Подход, использующийся в работе [3], основанный на обучении сверточной нейронной сети на соответствующем наборе данных, состоящем из 2D-изображений и 3D-моделей лица, является наиболее прогрессивным. При тестировании он показал высокую скорость работы, что позволяет использовать его в режиме реального времени.

Существуют и другие методы, в которых использовались сверточные нейронные сети для решения задачи расчета трехмерной реконструкции лица. В работе [4] описан многофункциональный подход к подгонке 3DMM с использованием нелинейной оптимизации наименьших квадратов, который при соответствующей инициализации дает результаты с хорошей точностью. В более поздней работе было предложено оценить обновление параметров 3DMM с использованием регрессии сверточной нейронной сети. В работе [9] параметры 3DMM оцениваются в шесть этапов, каждый из которых использует разные сверточные нейронные сети. В этой работе параметры 3DMM оцениваются на разреженном наборе ориентиров, т.е. целью работы является трехмерное выравнивание лица, а не реконструкция лица. Метод [10] основан на одной сверточной нейронной сети, которая итеративно применяется для оценки параметров модели, используя в качестве входных данных 2D-изображение и трехмерное представление, созданное на предыдущей итерации.

Метод, представленный в работе [3], отличается от вышеупомянутых методов следующим:

  1. Метод не оценивает параметры 3DMM и фактически полностью обходит установку 3DMM. Вместо этого метод создает трехмерное объемное представление лицевой геометрии.
  2. Метод также радикально отличается с точки зрения используемой архитектуры сверточной нейронной сети: используется такая архитектура, которая способна делать пространственные предсказания на уровне воксела, в отличие от работ [9, 10], которые целостно предсказывают параметры 3DMM.
  3. Метод способен производить результаты восстановления для любых изображений лица, охватывающих весь спектр лицевых поз с произвольным выражением лица.

Работа [3] также отличается от других работ тремя важными аспектами: во-первых, производится фокусировка на лицах (т.е. деформируемых объектах), а не на общих сценах. Во-вторых, в работе демонстрируется, что на самом деле можно изучить отображение от 2D до полной трехмерной лицевой структуры, включая невидимую часть лица, без сопоставления 2D-изображений с 2D-картами глубины. В-третьих, в ней используется обработка грани в фиксированном масштабе вместо многомасштабного подхода, где идет обработка изображения с низкого до высокого разрешения.

Целью метода в работе [3] является предсказание координат трехмерных вершин каждого лицевого сканирования из соответствующего 2D-изображения с помощью регрессии сверточной нейронной сети. Как отмечалось в ряде работ, прямая регрессия всех трехмерных точек, связанных в виде вектора с использованием стандартных потерь, может вызвать трудности в обучении, поскольку должны быть предсказаны правильные значения каждой трехмерной вершины. Кроме того, такой подход требует интерполяции всех сканирований на вектор фиксированного измерения. Для того чтобы уменьшить данную проблему обучения, предлагается переформулировать проблему реконструкции 3D-лица в сегментирование 2D-3D-изображения: в частности, преобразование каждого трехмерного лицевого сканирования в трехмерный двоичный объем Vwhd  путем дискретизации трехмерного пространства в вокселях {w, h, d}, присваивая значение 1 всем точкам, заключенным в 3D-лицевое сканирование, и 0 в противном случае. То есть Vwhd является истиной для воксела {w, h, d} и равна 1, если воксель {w, h, d} принадлежит пространственному объемному представлению лица и 0 в противном случае (т.е. принадлежит фону). Процесс создает объем, полностью выровненный с 2D-изображением. Ошибка имеет порядок нескольких миллиметров, и дискретизация с объемом 192×192×200 приводит к незначительной ошибке.

Были исследованы следующие архитектурные решения VRN:

  1. Объемная регрессионная сеть (VRN)
  2. Многозадачная VRN (VRN Multitask)
  3. Управляемая VRN (VRN Guided)

В объемной регрессионной сети (VRN) изучается сопоставление 2D-изображения лица с соответствующим трехмерным объемом f:IV. Архитектура сверточной нейронной сети для 3D-сегментации основана на «сетке песочных часов» (hourglass network) [11] на расширении полностью сверточной сети с использованием пропущенных связей и остаточного обучения. Архитектура состоит из двух модулей песочных часов, которые объединены вместе без промежуточного наблюдения. Вход представляет собой изображение RGB, а выход представляет собой набор реальных значений объемом 192×192×200. Эта архитектура показана на рисунке 1 – сеть имеет структуру кодирования/декодирования, в которой набор сверточных слоев используется для вычисления представления функции фиксированного измерения. Далее это представление обрабатывается в пространственную область, восстанавливая пространственное соответствие между входным изображением и выходным объемом. Локальные точки иерархически объединены из разных разрешений с целью уточнения результатов.

Обучение VRN  происходит с использованием функции потери сигмовидной кросс-энтропии:

kjh

где Vwhd- соответствующий сигмоидный выход в вокселе {w, h, d} регрессированного объема.

Во время тестирования и с учетом входного 2D-изображения сеть регрессирует трехмерный объем, из которого восстанавливается внешняя трехмерная лицевая сетка. Наконец, из 3D-объема может быть сформирована сетка путем генерации изоповерхности объема. Если необходимо, соответствие между этой сеткой переменной длины и фиксированной сеткой может быть найдено с использованием итеративного алгоритма ближайших точек (ICP).

iu

Многозадачная VRN. Многозадачная VRN, показанная на рисунке 2, состоит из трех модулей песочных часов. Первые песочные часы предоставляют функции разделения двух других песочных часов. Первая из них регрессирует 68 ориентиров (2D-гауссианов), каждый на отдельном канале. Вторая непосредственно регрессирует трехмерную структуру лица, как в вышеупомянутом неуправляемом VRN. Цель этой многозадачной сети - узнать более надежные функции, которые лучше подходят для двух задач.

Управляемая VRN. В основе данной архитектуры (рисунок 3) лежит утверждение, что реконструкция должна выиграть в производительности от начального выполнения более простой задачи анализа лица, также предлагается архитектура для объемной регрессии, ориентированной на локальные точки лица. С этой целью обучается сетчатая сеть песочных часов, которая принимает локальные точки во время обучения и вывода. Эта сеть имеет сходную архитектуру с неуправляемым VRN, однако входной сигнал этой архитектуры представляет собой изображение RGB, состоящее из 68 каналов, каждое из которых содержит гауссиан (приблизительный диаметр 6 пикселей), центрированный по каждому из 68 ориентиров.

Результаты

Рассмотренные методы были протестированы на открытой базе изображений AFLW2000-3D – база изображений, в которых определены трехмерные грани первых 2000 образцов изображений базы AFLW. Для тестирования были выбраны 5 современных решений: 3DDFA [10], EOS [12], VRN, VRN Multitask, VRN Guided. Результаты представлены в таблице 1.

Таблица 1. Результаты тестирования методов на базе AFLW2000-3D

Метод

Ср.квадратичная ошибка

3DDFA

0.1012

EOS

0.0971

VRN

0.0676

VRN Multitask

0.0698

VRN Guided

0.0637

 

Чтобы измерить точность реконструкции для каждой грани, используется среднеквадратическая ошибка, определяемая как среднее на каждую вершину евклидово расстояние между найденной и истинной точкой:

pi

где N - количество вершин на лицевой сетке, d - трехмерное межлучевое расстояние, а xk, yk- вершины найденной и истинной сетки.

Заключение

Результаты тестирования показали следующее:

1. Алгоритмы VRN в значительной степени превосходят 3DDFA и EOS, подтверждая, что прямое восстановление трехмерной лицевой структуры является гораздо более простой задачей для обучения сверточной нейронной сети.

2. Наиболее эффективной VRN является VRN Guided, ориентированная на локальные точки лица, но имеет более высокую вычислительную сложность.

В настоящее время ведется работа по внедрению алгоритма расчета трехмерной реконструкции лица VRN Guided в исходный код программного айтрекера с целью повышения точности проецирования взгляда на экран монитора при изменении позы лица.

Список литературы

  1. Multiresolution 3D Morphable Face Model and Fitting Framework [Электронный ресурс] / P.  Huber [и др.]. – Режим доступа: https://www.researchgate.net/publication/285054377_A_Multiresolution_3D_Morphable_Face_Model_and_Fitting_Framework.
  2. Laszlo, A.  J.  [Электронный ресурс] Dense 3D Face Alignment from 2D Videos in Real-Time  / A. J. Laszlo  //   Robotics Institute, School of Computer Science, Carnegie Mellon University published. – Режим доступа: http://www.pitt.edu/~jeffcohn/biblio/Jeni15FG_ZFace.pdf.
  3. Large Pose 3D Face Reconstruction from a Single Image via Direct Volumetric CNN Regression [Электронный ресурс] / S. Aaron [и др.]. – Режим доступа: https://amds123.github.io/2017/09/08/Large-Pose-3D-Face-Reconstruction-from-a-Single-Image-via-Direct-Volumetric-CNN-Regression/.
  4. S. Romdhani  [Электронный ресурс] Estimating 3d shape and texture using pixel intensity, edges, specular highlights, texture constraints and a prior. / S. Romdhani, T. Vetter. Режим доступа: http://gravis.dmi.unibas.ch/publications/CVPR05_Romdhani.pdf.
  5. Kemelmacher-Shlizermanand, I.  [Электронный ресурс]  3D face reconstruction from a single image using a single reference face shape / I. Kemelmacher-Shlizermanand, R. Basri   // IEEE TPAMI. – 2011. - №  33(2). – С. 394–405. – Режим доступа: https://www.ncbi.nlm.nih.gov/pubmed/21193812.
  6. Kemelmacher-Shlizerman, I. [Электронный ресурс] Face reconstruction in the wild. In ICCV 2011 / I. Kemelmacher-Shlizermanand, S. M. Seitz. – Режим доступа: http://grail.cs.washington.edu/3dfaces/.
  7. Suwajanakorn, S [Электронный ресурс] Total moving face reconstruction. In ECCV, 2014 / S. Suwajanakorn, I. Kemelmacher-Shlizerman, S. M. Seitz. – Режим доступа: http://grail.cs.washington.edu/projects/totalmoving/.
  8. Roth, J.  [Электронный ресурс]  Adaptive 3d face reconstruction from unconstrained photo collections  / J. Roth, Y. Tong, and X. Liu. – Режим доступа: http://grail.cs.washington.edu/projects/totalmoving/.
  9. Jourabloo, А.  [Электронный ресурс] Large-pose face alignment via cnnbased dense 3d model fitting / A. Jourabloo, X. Liu. - Режим доступа: https://www.computer.org/csdl/proceedings/cvpr/2016/8851/00/07780823-abs.html.
  10.   Face alignment across large poses: A 3d solution [Электронный ресурс] / X. Zhu [и др.]. A. Newell, K. Yang, and J. Deng. – Режим доступа:  https://www.computer.org/csdl/proceedings/cvpr/2016/8851/00/8851a146-abs.html.
  11. Newell, А. [Электронный ресурс] Stacked hourglass networks for human pose estimation. / A. Newell, K. Yang, J. Deng. – Режим доступа: https://link.springer.com/chapter/10.1007/978-3-319-46484-8_29.

12. A multiresolution ¨ 3d morphable face model and fitting framework [Электронный ресурс] / P. Huber [и др.]. – Режим доступа: https://www.researchgate.net/publication/285054377.

References

1. Multiresolution 3D Morphable Face Model and Fitting Framework [Electronic resource] / P. Huber [et al.]. – Mode of access: https://www.researchgate.net/publication/285054377_A_Multiresolution_3D_Morphable_Face_Model_and_Fitting_Framework.

2. Laszlo, A. J. [Digital resource] sense 3D Face Alignment from 2D Videos in Real-time / A. J. Laszlo // Robotics Institute, School of Computer Science, Carnegie Mellon University published. – Mode of access: http://www.pitt.edu/~jeffcohn/biblio/Jeni15FG_ZFace.pdf.

3. Large Pose 3D Face Reconstruction from a Single Image via Direct Volumetric CNN region [Electronic resource] / S. Aaron [et al]. – Mode of access: https://amds123.github.io/2017/09/08/Large-Pose-3D-Face-Reconstruction-from-a-Single-Image-via-Direct-Volumetric-CNN-Regression/.

4. S. Romdhani [Electronic resource] Estimating 3d shape and texture using pixel intensity, edges, specular highlights, texture constraints and a prior. / S. Romdhani, T. Vetter. - Access mode: http://gravis.dmi.unibas.ch/publications/CVPR05_Romdhani.pdf Oh.

5. Kemelmacher-Shlizermanand, I. [Electronic resource] 3D face reconstruction from a single image using a single reference face shape / I. Kemelmacher-Shlizermanand, R. Basri // IEEE TPAMI. - 2011. - No. 33 (2). - P. 394-405. - Access mode: https://www.ncbi.nlm.nih.gov/pubmed/21193812 Oh.

6. Kemelmacher-Shlizerman, I. [Electronic resource] Face reconstruction in the wild. In ICCV 2011 / I. Kemelmacher-Shlizermanand, S. M. Seitz. – Mode of access: http://grail.cs.washington.edu/3dfaces/.

7. Suwajanakorn, S [Electronic resource] Total moving face reconstruction. In ECCV, 2014 / Suwajanakorn S., I. Kemelmacher-Shlizerman, S. M. Seitz. – Mode of access: http://grail.cs.washington.edu/projects/totalmoving/.

8. Roth, J. [Electronic resource] Adaptive 3d face reconstruction from unconstrained photo collections / J. Roth, Y. Tong, and X. Liu. – Mode of access: http://grail.cs.washington.edu/projects/totalmoving/.

9. Jourabloo, A. [Electronic resource] Large-pose face alignment via cnnbased dense 3d model fitting / A. Jourabloo, X. Liu. - Access mode: https://www.computer.org/csdl/proceedings/cvpr/2016/8851/00/07780823-abs.html Oh.

10. Face alignment across large poses: a 3d solution [Electronic resource] / X. Zhu [et al.]. A. Newell, K. Yang, and J. Deng. - Access mode: https://www.computer.org/csdl/proceedings/cvpr/2016/8851/00/8851a146-abs.html Oh.

11. Newell, A. [Electronic resource] Stacked hourglass networks for human pose estimation. / A. Newell, K. Yang, J. Deng. - Access mode: https://link.springer.com/chapter/10.1007/978-3-319-46484-8_29 Oh.

12. A multiresolution 3d morphable face model and fitting framework [Electronic resource] / P. Huber [et al]. - Access mode: https://www.researchgate.net/publication/285054377