疑车无据：大熊猫何时交配才能怀上宝宝？四川学者用音频AI给出预测

国宝大熊猫憨态可掬，但是繁衍后代却是一个老大难问题。总共发情时间就那么几天，还可能因为雄性大熊猫要吃饭睡觉而错过。如果能预测大熊猫交配的成功率，就能为繁育工作提供很大帮助。近日，四川大学、成都大熊猫繁育研究基地和四川省大熊猫科学研究院的研究者公布了一项基于神经网络预测大熊猫交配成功率的新方法。这种方法能够根据大熊猫的叫声快速给出预测结果。

我们都知道，大熊猫是地球上最濒危的物种之一，但我们并不清楚它为什么会濒危。

研究表明，大熊猫成为濒危物种主要是因为繁殖艰难，而繁殖难的问题主要源于「性冷淡」。

熊猫的繁殖季节时间非常短，一年 365 天中，最佳交配时间仅有 1 天。更令人惆怅的是，雄性熊猫每天将大把的时间用来吃饭和睡觉，压根注意不到异性，所以生育率一直很低。

暴饮暴食使我快乐。

传统上，认定大熊猫的发情与确认交配结果（即是否交配成功）是基于它们的荷尔蒙分泌情况来评估的，这种方法操作非常复杂，而且无法实时获得结果。

近期的研究表明，处于繁殖季节的大熊猫会有特殊的发声行为，这为分析大熊猫的交配成功情况提供了新的机会。

Benjamin D. Charlton 等人发现：在交配时，大熊猫发出低音是一种积极信号，表明它有良好的意愿，而咆哮和嚎叫通常表示拒绝。他们在自己的研究中以人工方式定义了 5 种不同的大熊猫叫声，并基于人工设计的声学特征使用聚类方法对叫声数据进行了分组。尽管他们的研究表明大熊猫的发声行为与交配结果确实存在相关性，但他们并未提供用于预测大熊猫交配成功率的自动化解决方案。

受近段时间语音识别方法快速发展的启发以及计算机技术在野生动植物保护方面的应用，四川大学、成都大熊猫繁育研究基地和四川省大熊猫科学研究院的研究者提出根据大熊猫的发声情况来自动预测其交配的成功率。

为此，他们将这个问题定义成了一个语音情绪识别（SER）问题。他们没有使用人工定义的特征和发声类型，而是使用了深度网络来学习不同的发声特征，自动预测交配成功率。

图 1：基于大熊猫发声行为的自动交配成功率预测能更好地协助大熊猫繁殖。

研究者对学习到的发声特征进行了可视化分析，结果表明新提出的方法是有效的。作者也对预测准确度进行了定量分析，结果表明基于音频自动预测大熊猫的交配成功率是可行的。这项研究有望更加智能地帮助繁殖大熊猫。

论文地址：https://arxiv.org/abs/1912.11333

CGANet ：根据音频预测交配成功率

在这篇论文中，繁殖发生过程中大熊猫的音频序列是双轨式的。给定一段原始音频序列，作者首先对其进行了预处理：裁剪出大熊猫的叫声，然后根据一个预先设定的最大值对其进行了归一化处理，并将每一段序列的长度设定为 2 秒，并且每秒提取出 43 个声学特征。

他们并未直接将提取出的声学特征用于预测，而是先使用一个深度网络来学习更具判别能力的发声特征，然后再基于每一帧上的这种特征来预测交配成功或失败的概率。对于输入的音频序列，最终的预测结果是通过求和所有帧上的概率而得到的，如果整体的成功概率更大，那么就将这个交配结果分类为成功。

预处理

首先，基于人工标注的起止点从输入音频序列中提取出大熊猫的叫声。然后，基于一个预先设定的最大值，对音频幅度进行归一化，并将每一段音频的长度规范为 2 秒——裁切长音频序列或通过复制部分短音频来填充短音频序列。最后，在经过归一化的音频段（2 秒）的 86 帧中的每一帧上提取其梅尔频率倒谱系数（MFCC），并将其用作深度网络的输入。

注意，输入的音频序列是双轨式的，也就是说有两个声道，每个声道的采样频率是 44 100 Hz。在计算 MFCC 时，傅立叶变换的窗口大小是 2048。因此，对于音频段的每个声道，都能获得 MFCC 的 43 个声学特征，每个特征的维度是 40。最终，所提取的声学特征（表示为 F_in）的大小为 2×86×40。

学习叫声特征

基于所提取的声学特征，研究者使用了一个深度网络来进一步学习判别式的叫声特征。如图 2 所示，作者将该网络命名为 CGANet，其中 C 表示卷积模块，G 表示双向 GRU（门控循环单元）模块，A 表示注意力模块。

图 2：CGANet 的结构，其主要由卷积模块、GRU 模块和注意力模块构成

1. 卷积模块

卷积模块由三个完全一样的部件按顺序连接而成。其中每个部件都由卷积层和批归一化层构成。在每个卷积层的 ReLU 激活函数之前进行批归一化。卷积层有 128 个过滤器，其核大小为 3*3。卷积模块之后是最大池化层、dropout 层和 reshape 层。最大池化层的作用是降低输入特征的维度，从而移除一些冗余的信息。dropout 层能够增加 CGANet 的泛化能力。reshape 层能够将特征的形状调整至特定的维度，以便后续的 GRU 模块学习。形状调整后的特征表示为 F_conv，维度为 86×2560。

2.GRU 模块

GRU 模块由两个双向 GRU 层构成。门控循环单元（GRU）是循环神经网络中的一种门控机制，其在 2014 年由 Cho 等人引入。多层式双向 GRU 在帮助 CGANet 学习更深度的时间信息方面发挥着关键性的作用。通过使用双向 GRU，CGANet 可以沿整个音频段的前向和反向方向学习时间信息。GRU 模块的最终输出为叫声特征 F_GRU，维度为 86×32。

3. 注意力模块

目前得到的叫声特征 F_GRU 由在 86 个采样的帧上学习到的特征构成。但是，对交配成功率预测任务而言，不同帧的重要性可能也不一样。基于这一点，研究者为叫声特征应用了注意力机制，以迫使 CGANet 为不同的特征元素分配不同的权重。他们设计的注意模块主要由一个全连接层和一个融合层构成。最终叫声特征记为 F_attn，大小与 F_GRU 一样。

学习做预测

根据每个采样帧的叫声特征，研究者使用了一个 softmax 层来预测交配成功或失败的概率，这会得到一个概率矩阵 P（大小为 86×2），其中第一列和第二列分别对应于交配成功和失败的概率。然后按如下方式对帧上的这些概率值求和：