数据派THU原创

2019/01/29 13:37

Faizan Shaikh作者王雨桐校对季洋翻译

手把手教你运用深度学习构建视频人脸识别模型(Python实现)

本文将展示如何使用开源工具完成一个人脸识别的算法。

引言

“计算机视觉和机器学习已经开始腾飞，但是大多数人并不清楚计算机在识别一张图片的时候，它到底看到了什么。”
——麦克.克里奇

计算机视觉这个精彩领域在最近几年突飞猛进，目前已经具备了一定的规模。大量的应用已经在全世界被广泛使用 —— 而这也仅仅是个开始！

在这个领域中，我最赞赏的一件事就是对开源的接纳。即使是那些技术大佬们也乐于与大家分享新的突破和创新，从而使这些技术不再“曲高和寡”。

其中一项技术就是人脸识别，它可以解决很多现实问题（如果被正确又合乎伦理地使用）。本文将展示如何使用开源工具完成一个人脸识别的算法。以下是的一个有趣的演示，这也为接下来的内容做好铺垫：

所以，你准备好了吗？精彩才刚刚开始！

提示：如果你想要了解计算机视觉的复杂性，下面这个深度学习的计算机视觉是很好的起步课程。

Computer Vision using Deep Learning
https://trainings.analyticsvidhya.com/courses/course-v1:AnalyticsVidhya+CVDL101+CVDL101_T1 /about

内容

人脸识别中有前景的应用
系统准备—— 硬件/软件要求
- 硬件安装
- 软件安装
探究Python的实现
- 简单演练
- 人脸识别案例

人脸识别中有前景的应用

我找到了一些经典的人脸识别技术应用案例。你一定碰到过类似的例子，但并没有意识到这些场景背后到底使用了什么技术！

例如，对于每一张上传到平台的图像，Facebook都用自动生成的标签建议替代手动给图像加标签。Facebook使用了一个简单的人脸识别算法来分析图像中人脸的像素，同时将它和相关用户做比较。我们将学习如何创建一个人脸识别模型，但是在我们描述相关的技术细节之前，先来探讨一些其它的应用案例。

我们现在常常用最新的“人脸解锁”功能来解锁手机。这是一个很小的人脸识别技术案例，以帮助维护个人数据安全。同样的想法可以应用于更大范围，使相机能够在抓取图像的同时识别人脸。

人脸识别技术还应用于广告、医疗、银行等行业中，只是不太被人所知。在大多数公司，甚至在很多会议中，进入时都需要佩戴身份识别卡。但是我们能否找到一种无需佩戴任何身份识别卡就能进出的方法呢？人脸识别非常有助于这个想法的实现。人们只需要看着镜头，系统就会自动判断他是否具备权限。

另一个有趣的人脸识别应用是计算参与活动（如会议或音乐会）的人数。这并不是手动计算参加者的数量，我们可以安装一个摄像机，它能够捕捉参加者影像并计算人员总数。如此可以使得过程自动化，同时也能节省大量人力。这个技术非常实用，不是吗？

你可以想出更多类似的应用 ——在下面的留言中和我们分享吧！

本文将侧重于人脸识别的实践应用，对算法如何运作只作注释。如果你想了解更多，可以浏览下面这篇文章：

Understanding and Building an Object Detection Model from Scratch in Python
https://www.analyticsvidhya.com/blog/2018/06/understanding-building-object-detection-model-python/

系统准备 —— 硬件/软件要求

现在你知道了人脸识别技术可以实现的应用，让我们看看如何能够通过可用的开源工具来实现它。这就能体现领域的优势了 —— 分享开源代码的意愿和行动都是其他领域无法比拟的。

针对本文，以下列出了我使用的和推荐使用的系统配置如下：

一个网络摄像头（罗技 Logitech C920）用来搭建一个实时人脸识别器，并将其安装在联想E470 ThinkPad系列笔记本（英特尔酷睿5第7代内核Core i5 7th Gen）。你也可以使用笔记本电脑自带的摄像头，或电视监控系统摄像头。在任意系统上做实时的视频分析都可以，并不一定是我正在使用的配置。
使用图形处理器（GPU）来加速视频处理会更好。
在软件方面，我们使用Ubuntu 18.04操作系统安装所有必要的软件。

为了确保搭建模型前的每件事都安排妥当，接下来我们将详细探讨如何配置。

步骤一：硬件安装

首要的事就是检查网络摄像头是否正确安装。在Ubuntu上有一个简单小技巧 —— 看一下相应的设备在操作系统中是否已经被注册。你可以照着以下的步骤来做：

步骤1.1：在连接网络摄像头到笔记本电脑之前，通过在命令提示符窗口输入命令ls /dev/video* 来检查所有连接上的视频设备。这将列出那些已经连接入系统的视频设备。

步骤1.2：连接网络摄像头并再次执行这一命令。

如果网络摄像头被成功连接，将显示一个新的设备。

步骤1.3：另一件你可以做的事是使用任一网络摄像头软件来检查摄像头能否正常工作，Ubuntu中你可以用“Cheese”来检查。

这里我们可以看出网络摄像头已经安装成功啦！硬件部分完成！

步骤二：软件安装

步骤2.1：安装Python

本文中的代码是用Python 3.5编写。尽管有多种方法来安装Python，我还是建议使用Anaconda —— 数据科学中最受欢迎的Python发行版。

Anaconda下载链接：
https://www.anaconda.com/download/

步骤2.2：安装OpenCV

OpenCV(Open Source Computer Vision) 是一个旨在创建计算机视觉应用的软件库。它包含大量预先写好的图像处理功能。要安装OpenCV，需要一个该软件库的pip安装：

pip3 install opencv-python

步骤2.3：安装face_recognition应用程序接口

最后，我们将会使用face_recognition，它号称是世界上最简单的人脸识别应用程序Python接口。安装如下：

pip install dlib pip install face_recognition

让我们开始探索它的实现吧。

既然你已经配置好了系统，是时候探究真正的使用了。首先，我们将快速地创建程序，然后分段来解释我们做了什么。

简单流程

首先，创建一个face_detector.py文件同时复制下面的代码：

# import librariesimport cv2import face_recognition# Get a reference to webcam video_capture = cv2.VideoCapture("/dev/video1")# Initialize variablesface_locations = []while True:    # Grab a single frame of video    ret, frame = video_capture.read()     # Convert the image from BGR color (which OpenCV uses) to RGB color (which face_recognition uses)    rgb_frame = frame[:, :, ::-1]     # Find all the faces in the current frame of video    face_locations = face_recognition.face_locations(rgb_frame)     # Display the results    for top, right, bottom, left in face_locations:        # Draw a box around the face        cv2.rectangle(frame, (left, top), (right, bottom), (0, 0, 255), 2)     # Display the resulting image    cv2.imshow('Video', frame)     # Hit 'q' on the keyboard to quit!    if cv2.waitKey(1) & 0xFF == ord('q'):        break# Release handle to the webcamvideo_capture.release()cv2.destroyAllWindows()

然后，用如下命令执行这个Python文件：

python face_detector.py

如果一切运行正确，会弹出一个新窗口，以运行实时的人脸识别。

总结一下，以上的代码做了这些：

首先，我们配置了运行影像分析的硬件。
接下来我们逐帧地捕捉实时影像。
然后我们处理每一帧并且提取图像中所有人脸的位置。
最后，我们以视频形式描绘出这些帧，同时标注人脸的位置。

这很简单，不是吗？如果你想深入了解更多细节，我已经对各代码段做了详尽注解。你可以随时回顾我们做了什么。

人脸识别案例

有趣的事情并没有结束！我们还能做一件很酷的事情 —— 结合以上代码实现一个完整的案例。并且不需要从零开始，我们仅仅需要对代码做一些小的改动。

例如，你想搭建一个自动的摄像头定位系统，来实时跟踪演讲者的位置。根据他的位置，系统会转动摄像头使得演讲者总是处于视频的中间。

我们怎么做到这一点？第一步就是要搭建一个可辨识视频中人（们）的系统，并且重点放在演讲者的位置。

让我们来看一下如何才能实现这个案例。本文将以一个Youtube上的影片为例，视频记录了一个演讲者在2017年数据黑客峰会（DataHack Summit 2017）上的演讲。

首先，我们引入必要的代码库：

import cv2 import face_recognition

然后，读入影片并得到影片长度：

input_movie = cv2.VideoCapture("sample_video.mp4") length = int(input_movie.get(cv2.CAP_PROP_FRAME_COUNT))

随后我们新建一个输出文件，使其拥有和输入文件相似的分辨率和帧频。

载入演讲者的一个影像样本，来识别视频中的主角：

image = face_recognition.load_image_file("sample_image.jpeg") face_encoding = face_recognition.face_encodings(image)[0] 
known_faces = [ face_encoding, ]

做完这些，现在我们可以执行一个循环来完成如下步骤：

从影片中提取一帧影像
找到所有的人脸并完成识别
新建一个影片，来将源帧图像和标注演讲者脸部的位置合并起来

让我们看看这部分代码：

# Initialize variablesface_locations = []face_encodings = []face_names = []frame_number = 0while True:    # Grab a single frame of video    ret, frame = input_movie.read()    frame_number += 1     # Quit when the input video file ends    if not ret:        break     # Convert the image from BGR color (which OpenCV uses) to RGB color (which face_recognition uses)    rgb_frame = frame[:, :, ::-1]     # Find all the faces and face encodings in the current frame of video    face_locations = face_recognition.face_locations(rgb_frame, model="cnn")    face_encodings = face_recognition.face_encodings(rgb_frame, face_locations)     face_names = []    for face_encoding in face_encodings:        # See if the face is a match for the known face(s)        match = face_recognition.compare_faces(known_faces, face_encoding, tolerance=0.50)         name = None        if match[0]:            name = "Phani Srikant"         face_names.append(name)     # Label the results    for (top, right, bottom, left), name in zip(face_locations, face_names):        if not name:            continue         # Draw a box around the face        cv2.rectangle(frame, (left, top), (right, bottom), (0, 0, 255), 2)         # Draw a label with a name below the face        cv2.rectangle(frame, (left, bottom - 25), (right, bottom), (0, 0, 255), cv2.FILLED)        font = cv2.FONT_HERSHEY_DUPLEX        cv2.putText(frame, name, (left + 6, bottom - 6), font, 0.5, (255, 255, 255), 1)     # Write the resulting image to the output video file    print("Writing frame {} / {}".format(frame_number, length))    output_movie.write(frame)# All done!input_movie.release()cv2.destroyAllWindows()

这段代码将输出如下类似的结果：

人脸识别真的是一件了不起的事情！

总结

恭喜！你现在已经掌握了如何为一些现实场景搭建人脸识别系统。深度学习是一个如此令人着迷的领域，而我非常期待看到它未来的发展。

在这篇文章中，我们学习了如何在真实情境中运用开源工具来构建实时人脸识别系统。我希望你能创造更多类似的应用，并且自己尝试更多的案例。相信我，还有很多东西要学习，而他们真的很趣！

一如既往，如果你有任何问题或建议尽管在下面的留言部分提出来吧！

原文标题：

Building a Face Detection Model from Video using Deep Learning (Python Implementation)

原文链接：

https://www.analyticsvidhya.com/blog/2018/12/introduction-face-detection-video-deep-learning-python/

THU数据派

THU数据派"基于清华，放眼世界"，以扎实的理工功底闯荡“数据江湖”。发布全球大数据资讯，定期组织线下活动，分享前沿产业动态。了解清华大数据，敬请关注姐妹号“数据派THU”。

工程深度学习人脸识别计算机视觉Python

相关技术

推理网络 OpenCV

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

数据科学技术

数据科学，又称资料科学，是一门利用数据学习知识的学科，其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术，包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

来源：维基百科

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术，包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等；而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。人脸识别是一项热门的计算机技术研究领域，它属于生物特征识别技术，是对生物体（一般特指人）本身的生物特征来区分生物体个体。

来源：维基百科

计算机视觉技术

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

OpenCV技术

OpenCV的全称是Open Source Computer Vision Library，是一个跨平台的计算机视觉库。OpenCV是由英特尔公司发起并参与开发，以BSD许可证授权发行，可以在商业和研究领域中免费使用。OpenCV可用于开发实时的图像处理、计算机视觉以及模式识别程序。

来源：维基百科

操作系统技术

操作系统（英语：operating system，缩写作 OS）是管理计算机硬件与软件资源的计算机程序，同时也是计算机系统的内核与基石。操作系统需要处理如管理与配置内存、决定系统资源供需的优先次序、控制输入与输出设备、操作网络与管理文件系统等基本事务。操作系统也提供一个让用户与系统交互的操作界面。

来源：百度百科

图像处理技术

图像处理是指对图像进行分析、加工和处理，使其满足视觉、心理或其他要求的技术。图像处理是信号处理在图像领域上的一个应用。目前大多数的图像均是以数字形式存储，因而图像处理很多情况下指数字图像处理。