“迪士尼研究人工智能将AI用于动画制作”-南宁都市网

本篇文章2654字，读完约7分钟

商用跑步机【科技在线】大家都知道，卡耐基梅隆大学在计算机科学方面的研究名列前茅，而迪士尼有意将计算机科学技术引入动画制作。他们与卡耐基梅隆大学合作树立的实验室近日发表了一篇论文 a deep learning approach for generalized speech animation，利用深度学习的做法，来生成看起来自然的语音动画。这篇论文已被siggraph 收录。他们引入了一种简单而比较有效的深度学习做法，来自动生成看起来自然的，能够与输入语音同步的语音动画。这种做法采用滑动窗口预测器，可以学习到从音位标签输入序列到嘴型运动的任意非线性映射，能精准捕捉自然动作和可视化的协同发音效果。这种做法有几个引起人的特点：它能实时运行，只需要进行非常少的参数调节，能很好的泛化到新的输入语音序列，很容易来创建风格化和情绪化的语音，同时与现有的动画重定向做法兼容。迪士尼实验室表示，他们从业中的一个要点是开发出能高效生成语音动画，并将其轻松地整合到现有作品中的做法。他们的论文中详述了这种端到端的做法，其中包括机器学习的一点设计决定。在论文中，通过动画片段中不同的人物和声音，演示了泛化的语音动画结果，包括唱歌和外语输入。这种做法还可以根据客户的语音输入实时生成灵活的语音动画。 ai科技评论将论文部分文案编译如下：语音动画是生成逼真的角色动画中重要且费时的一部分。从广义上讲，语音动画是一种这样的任务：改变图形(或机器人)模型的面部特征，使嘴唇的动作与发出的声音同步，形成一种在说话的感觉。作为人类，我们都是面部表情的专家，糟糕的语音动画可能会让人分心，不愉快，产生困惑。例如，当看到的嘴型和听到的声音不一致时，有时会让观众以为自己听到的是另一种声音(mcgurk和macdonald的论文，1976)。对于实际的角色动画来讲，高保真语音动画至关重要。目前在电影和视频游戏制作中采用的以前传下来语音动画做法一般趋向于两个极端。一种方法是，高预算的产品一般会使用表演捕获技术或雇一个大型的专业动画制作团队，这样消费巨大，而且不太容易大规模复制。例如，目前没有什么好的生产做法，可以跨多种语言，划算且高效地生成优质的语音动画。另一种方法是，对于价钱低、文案多的产品，可能会采用简单的唇形库来快速生成质量相对较低的语音动画。近，人们对开发出自动生成语音动画的数据驱动做法越来越兴致趣，以找到将这两个极端折中的处理办法(de martino等的论文，2006;edwards等的论文，;taylor等的论文，)。但是，以前的从业需要预先定义一组数量有限的唇形，还必需将这些唇形混合起来。简单的混合函数限制了可以建模的视觉语音动态的多而杂度。所以我们另辟蹊径，计划利用现代机器学习做法，直接从数据中学习视觉语音的多而杂动态。我们提出了一种自动生成语音动画的深度学习做法，这种做法提供一种划算且高效的手段，能大规模地生成高保真的语音动画。例如，我们用100多家自由度，在电影制作级别的人脸模型上生成逼真的语音动画。我们从业中的一个要点是开发一种高效的语音动画做法，可以无缝地整合到现有的作品生产中。我们的做法采用连续的深度学习滑动窗口预测器，这是受kim等人在年发表的一篇论文的启发。滑动窗口的做法意味着预测器能够在持续讲话的输入语音描述和输出视频之间表示多而杂的非线性回归，也自然包括语境和协同发音效果。我们的研究结果展现了在kim等人之前的决定树做法上利用神经互联网深度学习做法带来的改进。采用重叠的滑动窗口更直接地将学习集中在捕捉局部范围的语境和协同发音的效果上，比起循环神经互联网和lstm(hochreiter和schmidhuber的论文，1997)等以前传下来的序列学习做法，更适合预测语音动画。采用机器学习的首要挑战之一是：要以一种对所需的终目标有用的方法，恰当地定义学习任务(例如选择什么样的输入/输出和训练集)。我们的目标是让动画师能轻松地将高保真的语音动画合并到任何rig上，对任何说话者都适用，同时易于和风格化。我们将我们的机器学习任务定义为，从单个作为参照的说话者中，学会产生具有中性语音的高保真动画。通过聚焦作为参照的面部和中性的语音，我们可以低价钱且高效地收集一个全面的数据集，这个数据集能充分地描述出语音动画的多而杂特点。大的训练数据集使得我们能够采用现代机器学习做法，可信地学习语音运动中细微的动态变化。与之前程序化的生成语音动画的研究相比(de martino等的论文，2006;edwards 等的论文，;taylo等的论文，)，我们的做法能直接从数据中学会自然的协同发音效果。我们将输入定义为文案(音位标签)，意味着可以学习与说话者无关的从语境到语音动画的映射。我们只需要现成的语音识别软件自动将任何说话者的语音转换成相应的音位描述。因为此，我们的自动语音动画可以泛化到任何说话者，任何形式的语音，甚至是其他语言。局限性和未来的研究首要的实际局限是，我们的动画预测是依据aam参数化法生成的参考面部来制作的。这使我们这种做法能泛化到任何文案，但是对特征进行重定位会引入潜在的错误源。当提出重定向模型的初始特征设置时，必需小心谨慎，以保持预测动画的逼真度。幸运的是，对各个角色，这个预计算步骤只需执行一次。展望未来，一个有意思的研究方向是采用真实的动画数据来开发对比自动语音动画的数据驱动重定位技术。只从中性的语音中学习，我们可以得到一个具有鲁棒性的语音动画模型，它可以泛化到任何语音文案。目前，在动画中添加表情和情感还是艺术家的从业，在未来，一个兴趣的方向是从多个具有情感的语境(生气、伤心等)生成的训练数据中，训练一个更大的神经互联网，使预测的面部动作更接近于真实的情感。一个首要的挑战是怎么既划算，又高效地收集一个综合数据库用于训练。如果没有一个够全面的训练集，采用现代机器学习技术会存在困难，因为深度学习等做法一般是严重欠约束的。可能的方向是大规模地收集杂乱的数据(例如从公共视频存储库中收集)，或者开发能自适应地选择收集哪种视频的主动学习做法，以使总收集价钱小化。

另外，泛化性可以从具有男性、女性、圆脸、方脸、肥胖、瘦身等各种脸部特征的多位说话者中训练声音动画模型，在预测时选择与动画角色模型相符的特征。这种做法可以根据人物的说话方式，根据脸部的形状泛化为不同的表情。再次证明了如何有效地收集综合训练集是一大挑战。

标题：“迪士尼研究人工智能将AI用于动画制作”

地址：http://www.nh-inco.com/nnzx/45549.html

资讯

“迪士尼研究人工智能将AI用于动画制作”

大家都喜欢看的内容

“全国农产品产销对接行广西站活动开启满目八桂名特优”

“罕见！22只栗树鸭成群现身南湖公园”

二次构造柱泵-耐用时间延长5年

“南宁创建全国文明城气氛浓厚｜一次街头偶遇一个温馨祝福感动网友”

“中国航天“龙”系列商业运载火箭发布”

盐山颢泰标志杆设计细节

“2018年世界青年技能日市民一睹学生秀技能风采”

““医”路飘香南宁市第四人民医院创建学习型医院”

“贺州市探索对接粤港澳大湾区开放新模式跑出东融“加速度””

“共同谋划亚太经济快速发展新愿景”

热门排行

市政工程和公路工程有哪些本质区别

office 2019专业增强版激活密钥，没激活的兄弟可以激活了.

“更便民！即日起，在南宁搭乘地铁可刷微信支付宝啦”

生理学（第9版）王庭槐主编_人卫版教材.PDF电子书下载

“华尔街日报：5G终将是中国企业的胜利”

“南宁七塘镇火葬场急招抬尸工，工资1500元/天？官方回应...”

“南宁市应急管理局多形式开展安全推广活动全市安全生产形势持续向好快速

“《极限挑战》7首播即高潮，雅迪冠能2.0完成综艺首秀”

“三峡工程没帮上忙？事实正好相反”

“突发！南宁星湖路北一里发生坍塌，铺设管道男子受伤”

最新发布

驻马店二高教师研修班

马达加斯加贸易研修班

马王堆帛书研修班

马来西亚硕士免联考

马来西亚免联考硕士好不好

南宁都市网介绍

资讯

“迪士尼研究人工智能 将AI用于动画制作”

大家都喜欢看的内容

热门排行

最新发布

南宁都市网介绍

“迪士尼研究人工智能将AI用于动画制作”