麻省理工学院的研究人员发明一种技术,能够仅凭借声音描绘出人脸
据阿根廷布宜诺斯艾利斯经济新闻网6月18日报道,仅凭声音就可以描绘出人脸,这听起来似乎匪夷所思。现在一个名为Speech2Face的自主智能学习系统已经将其变为现实。
据麻省理工学院的研究人员称,这个系统实际上就是一个神经网络。他们搜集了来自YouTube等网站上的海量视频,而所有视频内容都是人在讲话。随后他们利用这些资料对这个能够自主智能学习的神经网络加以训练。通过训练,这个系统学习到了声音和面部特征的相关联系,掌握了讲话者的一些基本特征,例如年龄、性别、种族和音色等。
报道称,自主智能学习系统能够利用声音与面部特征的关系,根据少量声音片段大致推测出一个从未见过的讲话者的面容。
值得一提的是,该系统并不能准确还原一个讲话者的面容,而是只能根据学习到的基本特征大致模拟人脸图像。
研究人员指出,这是因为该系统的训练方向就是捕捉与年龄、性别等特征相关的视觉特点,而这些特点属于多位讲话者的共性。在海量资料的基础上,该系统只有在从未见过的讲话者身上找到足够多的共性之后,才能大致模拟出一幅人脸图像。因此这幅图像无法做到精确还原讲话者的面容。
此外,虽然该系统的资料库规模庞大,但毕竟无法涵盖全世界所有人,因此该系统模拟出来的图像仍需要进一步调整和完善。
目前该系统面临的最大挑战就是如何给这个资料库扩容,进而使其描绘的讲话者面容更加接近原型,但这项任务绝非易事,仍需研究人员进一步努力。