合成媒体的崛起：准备好在工作中迎接 AI 化身

image-178-1024x757

尽管对于深度伪造视频的担忧一直存在——这种在线内容通常是为了不正当目的而创造或操纵，从选举干扰到新兴的网络安全威胁——数字“合成媒体”在职场中提供了实际的好处。

这至少是一些初创公司提供的承诺，它们已经转向生成式人工智能（genAI）工具和深度学习算法来创建类似人类的数字化身。特别是，这些新工具可以被企业用于生成内部沟通、员工培训视频、特定工作或任务的操作手册，甚至是面向客户的营销视频。

在预先编写的脚本的基础上，数字化身可以在视频内容中使用，而无需通常的制作和编辑成本和工作。结果是：更快的内容创建、更大程度的个性化，以及在不雇佣配音演员的情况下将沟通翻译成各种语言的能力——同时仍然向员工和客户提供有用的信息。

元宇宙：尚未消亡

IDC人工智能集团副总裁Ritu Jyoti认为，在商业环境中，基于AI的视频创作工具有着“巨大的潜力”。“企业将在市场营销、教育、培训以及创建视频手册方面使用它。”她说。

在大多数情况下，人们很容易看出视频是人工创建的。但是，技术已经发展到足够逼真的水平，以至于AI视频生成工具现在适用于企业通信。

“它们看起来非常逼真。”Jyoti评价了这些合成数字化身，“现在它们可以眨眼，可以移动眼睛，有颧骨，嘴唇也会动……”

近年来涌现出了许多承诺帮助企业创建其员工逼真数字化身的初创公司。其中包括在过去两年内获得了1.56亿美元资金的Synthesia；D-ID；HeyGen；和Hour One。

一些大型公司也在开发类似的功能：微软于去年11月推出了Azure AI Speech服务，该工具目前正处于预览阶段。

image-179-1024x445
微软的 Azure AI Speech 可用于创建合成头像

“我认为我们将继续看到市场从中崛起，无论是在大型科技供应商方面还是初创公司方面。”Forrester的高级分析师Rowan Curran表示。

然而，目前市场仍处于早期阶段，至少在企业采用方面是如此，他说：“在这些工具方面，我们仍处于非常初期的阶段，更多是在采用方面而不是在实际功能方面。”

视频能否取代文本文档？

在大多数应用程序中，创建AI生成的内容的基本过程相当简单。用户通常可以选择从一系列选项中选择一个现成的通用化身，或者上传员工的视频镜头（或在某些情况下只是一张图片）来创建数字表示。然后选择一种语音，添加文本脚本，还可以包括其他定制的方面，比如背景。

一旦所有部分就绪，就会生成一个视频，可以单独使用或嵌入到文件中——例如在PowerPoint演示文稿中的一个说话的头像。

对于企业而言，关键优势在于成本的降低，Synthesia的首席执行官兼联合创始人Victor Riparbelli在电子邮件采访中表示。（该公司的客户包括Heineken、Zoom和杜邦等跨国公司。）

“雇佣视频制作团队的费用，以及支付设备和工作室时间等费用，可能使许多组织无法进行视频制作。”Riparbelli说。

他说，客户可以减少制作视频所需的时间，并在无需重新拍摄的情况下进行更改。这些工具还允许组织内更广泛的员工创建视频，而无需视频制作专业知识。

image-180-1024x576
Synthesia 首席执行官 Victor Riparbelli 表示，合成媒体可以帮助公司节省制作成本

除了营销内容之外，Riparbelli表示，目前最普遍的业务用途是创建学习和发展内容，包括入职和招聘视频等其他常见示例。

D-ID的官员表示，他们的客户包括财富500强公司，通过基于genAI的平台创建的视频通常替代传统的办公文档，用于员工学习和发展等目的。

“而这些内容过去主要是书面的，比如PowerPoint幻灯片或其他东西，我们现在可以帮助他们创建视频内容。”D-ID商业战略副总裁Matthew Kershaw说。他表示，人们更愿意观看视频，而不是阅读书面文件或演示文稿，而且更有可能在之后记住这些信息。

image-181-1024x704
使用基于 genAI 的工具创建的视频最终可能会取代 PowerPoint 幻灯片等传统办公文档

除了视频外，D-ID还专注于使用AI化身进行与企业客户或内部员工的几乎实时互动。这个想法是将合成媒体与强大的AI内容生成相结合，从而实质上将化身作为基于大型语言模型（LLM）的聊天机器人的“面孔。”Kershaw说。

“然后你可以创建这个数字人类化身，可以实时与之交流并向其提问。”他说，“LLMs的限制很大。它仍然是文本：你输入文本，然后得到文本回复。而我们则有能力以一种更自然的人类方式与之交谈。”

他说，该公司希望最终能够包括情感分析，以跟踪对话的情感流。（这目前不是D-ID产品的功能之一。）

“所以，如果这是一个客户服务的问题——而客户变得沮丧或生气——化身可以识别到这一点，并说，‘我听说你感到相当沮丧，’”Kershaw说。他说，另一个例子可能是与人力资源相关的，例如可以向化身询问与公司规定有关的查询——例如当被选为陪审团成员时的指南——而不必查阅员工手册文档，这甚至可能是另一种语言。

对于AI化身的使用，需要谨慎

与使用任何genAI工具一样，分析师建议企业在部署AI视频创作工具时要在安全和治理方面采取预防措施。“任何考虑使用这些[应用程序]的公司都应该进行严格的测试、风险评估。”Curran说。这包括用户验收测试，以了解员工在实际使用这些工具时的反应。

Jyoti表示，企业还应谨慎使用AI视频创作工具的输出。就像基于文本的工具（如ChatGPT）可能出现“幻觉”一样，化身的对话可能偏离输入的脚本。当文本被翻译成多种语言时，这可能尤其成为问题。Jyoti说，企业应确保内容过滤已经就位，以减轻幻觉和任何“有害”输出。

确保有控制措施来控制化身的交付方式，使其与消息的预期语调相匹配也非常重要。“确保你进行了测试，充分尝试，而且首先用于更简单、风险较低的用例。”Jyoti说。

使用化身还引发了关于数据所有权的真实问题。基于AI的视频创作工具使雇主能够在员工离开公司后继续基于其肖像创建视频内容，例如。Curran表示：“有些这方面的问题在某些雇佣合同中已经得到了解答，但还将有额外的灰色地带。”

尽管对于滥用这些工具创建深度伪造或未经授权的内容的担忧是真实的，但供应商正在采取措施防止这种情况发生。例如，Kershaw指出，使用D-ID软件创建的视频将包含一个标志（可以是D-ID本身的标志或来自客户的标志）或免责声明，以表明该视频是“真实的”。

合成媒体将大规模涌入？

从某种程度上说，AI视频生成工具代表了自2022年底开始的genAI浪潮的演进的下一个步骤。早期的工具，如OpenAI的ChatGPT，更依赖于文本生成，但这可能会发生改变。

Curran预测，在2024年将会出现“对图像和视频生成的大量关注”，“而不仅仅是过去一年里作为生成AI繁荣焦点的文本生成”。

除了用于视频的AI生成的化身之外，还有其他正在开发的文本到视频工具，包括开始受到关注的语音和音频生成技术。这些技术的结合可能会显著增加企业和整个互联网生成的内容量。Curran表示，人们可能会观看或与如此之多的合成媒体互动，以至于内容可能很快以“能够真正满足企业渠道需求的速度”生成。

这并不意味着genAI将立即取代内容创作中的人类参与的需要。在某些情况下，AI生成的内容可能不适用于需要人际关系的特定类型的沟通——例如，在组织内部危机期间首席执行官与员工交流。

Kershaw表示，D-ID等工具的目的并不是在所有情境下取代视频制作，而是使在以前无法实现的地方创建视频变得可能。

“现实情况是，仍将存在视频制作，因为你可以使用真实视频做一些目前用AI无法做到的事情。”他说，“但这确实使你能够在更多的地方放置视频——在通常可能从未拥有过的地方。

“过去有很多黑白印刷。”他说，“现在你几乎不能用黑白印刷，一切都是彩色的。我认为我们将在视频方面看到类似的情况：视频将成为企业通信中的常态。”

意间AI创意研发工作室