什么时候刮起了AIGC视频制作的风潮,2D数字人、3D虚拟视频 AI 模型人有什么区别?

一、简介近期,短视频平台上火爆的“AI绘画”,在各大科技平台上刷屏的智能聊天软件ChatGPT,引起了人们广泛关注。人工智能潜力再次被证明,而这两个概念均来自同一个领域:AIGC。AIGC到底是什么?为什么如此引人关注?AIGC能产生什么样的应用价值? 本文将重点关注三个方面:1、AIGC核心技术与原理
2、AIGC典型应用场景
3、AIGC落地产品形态二、AIGC是什么?AIGC全称为AI-Generated Content,直译:人工智能内容生成。即采用人工智能技术来自动生产内容。那么,AIGC采用了什么人工智能技术?可生成什么内容?对以上两个问题进行回答,首先,从技术层面AIGC可分为三个层次,分别为:1、智能数字内容孪生:简单的说,将数字内容从一个维度映射到另一个维度。与生成有什么关系呢?因为另一个维度内容不存在所以需要生成。内容孪生主要分为内容的增强与转译。增强即对数字内容修复、去噪、细节增强等。转译即对数字内容转换如翻译等。该技术旨在将现实世界中的内容进行智能增强与智能转译,更好的完成现实世界到数字世界映射。例如,我们拍摄了一张低分辨率的图片,通过智能增强中的图像超分可对低分辨率进行放大,同时增强图像的细节信息,生成高清图。再比如,对于老照片中的像素缺失部分,可通过智能增强技术进行内容复原。而智能转译则更关注不同模态之间的相互转换。比如,我们录制了一段音频,可通过智能转译技术自动生成字幕;再比如,我们输入了一段文字,可以自动生成语音,两个例子均为模态间智能转译应用。【应用】:图像超分、语音转字幕、文字转语音等。2、智能数字内容编辑:智能数字内容编辑通过对内容的理解以及属性控制,进而实现对内容的修改。如在计算机视觉领域,通过对视频内容的理解实现不同场景视频片段的剪辑。通过人体部位检测以及目标衣服的变形控制与截断处理,将目标衣服覆盖至人体部位,实现虚拟试衣。在语音信号处理领域,通过对音频信号分析,实现人声与背景声分离。以上三个例子均在理解数字内容的基础上对内容的编辑与控制。【应用】:视频场景剪辑、虚拟试衣、人声分离等。3、智能数字内容生成:智能数字内容生成通过从海量数据中学习抽象概念,并通过概念的组合生成全新的内容。如AI绘画,从海量绘画中学习作品不同笔法、内容、艺术风格,并基于学习内容重新生成特定风格的绘画。采用此方式,人工智能在文本创作、音乐创作和诗词创作中取得了不错表现。再比如,在跨模态领域,通过输入文本输出特定风格与属性的图像,不仅能够描述图像中主体的数量、形状、颜色等属性信息,而且能够描述主体的行为、动作以及主体之间的关系。【应用】:图像生成(AI绘画)、文本生成(AI写作、ChatBot)、视频生成、多模态生成等。从生成内容层面AIGC可分为五个方面:1、文本生成基于NLP的文本内容生成根据使用场景可分为非交互式与交互式文本生成。非交互式文本生成包括摘要/标题生成、文本风格迁移、文章生成、图像生成文本等。交互式文本生成主要包括聊天机器人、文本交互游戏等。【代表性产品或模型】:JasperAI、copy.AI、ChatGPT、Bard、AI dungeon等。2、图像生成图像生成根据使用场可分为图像编辑修改与图像自主生成。图像编辑修改可应用于图像超分、图像修复、人脸替换、图像去水印、图像背景去除等。图像自主生成包括端到端的生成,如真实图像生成卡通图像、参照图像生成绘画图像、真实图像生成素描图像、文本生成图像等。【代表性产品或模型】:EditGAN,Deepfake,DALL-E、MidJourney、Stable Diffusion,文心一格等。3、音频生成音频生成技术较为成熟,在C端产品中也较为常见,如语音克隆,将人声1替换为人声2。还可应用于文本生成特定场景语音,如数字人播报、语音客服等。此外,可基于文本描述、图片内容理解生成场景化音频、乐曲等。【代表性产品或模型】:DeepMusic、WaveNet、Deep Voice、MusicAutoBot等。4、视频生成视频生成与图像生成在原理上相似,主要分为视频编辑与视频自主生成。视频编辑可应用于视频超分(视频画质增强)、视频修复(老电影上色、画质修复)、视频画面剪辑(识别画面内容,自动场景剪辑)。视频自主生成可应用于图像生成视频(给定参照图像,生成一段运动视频)、文本生成视频(给定一段描述性文字,生成内容相符视频)。【代表性产品或模型】:Deepfake,videoGPT,Gliacloud、Make-A-Video、Imagen video等。5、多模态生成以上四种模态可以进行组合搭配,进行模态间转换生成。如文本生成图像(AI绘画、根据prompt提示语生成特定风格图像)、文本生成音频(AI作曲、根据prompt提示语生成特定场景音频)、文本生成视频(AI视频制作、根据一段描述性文本生成语义内容相符视频片段)、图像生成文本(根据图像生成标题、根据图像生成故事)、图像生成视频。【代表性产品或模型】:DALL-E、MidJourney、Stable Diffusion等。三、AIGC的核心技术有哪些?1、基础模型模型名称提出时间应用场景1、深度变分自编码(VAE)2013年图像生成、语音合成2、生成对抗神经网络(GAN)2014年图像生成、语音合成3、扩散模型(Diffusion Model)2015年图像生成4、Transformer2017年语言模型5、Vision Transformer(ViT)2020年视觉模型(1)变分自编码(Variational Autoencoder,VAE)变分自编码器是深度生成模型中的一种,由Kingma等人在2014年提出,与传统的自编码器通过数值方式描述潜空间不同,它以概率方式对潜在空间进行观察,在数据生成方面应用价值较高。VAE分为两部分,编码器与解码器。编码器将原始高维输入数据转换为潜在空间的概率分布描述;解码器从采样的数据进行重建生成新数据。VAE模型如上图所示,假设有一张人脸图片,通过解码器生成了多种特征,这些特征可以有“微笑”,“肤色”,“性别”,“胡须”,“眼镜”,“头发颜色”。传统的自编码器对输入图像编码后生成的潜在特征为具体的数值,比如,微笑=0.5,肤色=0.8等,得到这些数值后通过解码器解码得到与输入接近的图像。也就是说该张人脸的信息已经被存储至网络中,我们输入此人脸,就会输出一张固定的与该人脸相似的图像。我们的目标是生成更多新的与输入近似的图像。因此,我们将每个特征都由概率分布来表示,假设“微笑”的取值范围为0-5,“肤色”的取值范围为0-10,我们在此范围内进行数值采样可得到生成图像的潜在特征表示,同时,通过解码器生成的潜在特征解码得到生成图像。(2)生成对抗网络(Generative Adversarial Networks,GAN)2014年 Ian GoodFellow提出了生成对抗网络,成为早期最著名的生成模型。GAN使用零和博弈策略学习,在图像生成中应用广泛。以GAN为基础产生了多种变体,如DCGAN,StytleGAN,CycleGAN等。GAN模型GAN包含两个部分:生成器:学习生成合理的数据。对于图像生成来说是给定一个向量,生成一张图片。其生成的数据作为判别器的负样本。判别器:判别输入是生成数据还是真实数据。网络输出越接近于0,生成数据可能性越大;反之,真实数据可能性越大。如上图,我们希望通过GAN生成一些手写体来以假乱真。我们定义生成器与判别器:生成器:图中蓝色部分网络结构,其输入为一组向量,可以表征数字编号、字体、粗细、潦草程度等。在这里使用特定分布随机生成。判别器:在训练阶段,利用真实数据与生成数据训练二分类模型,输出为0-1之间概率,越接近1,输入为真实数据可能性越大。生成器与判别器相互对立。在不断迭代训练中,双方能力不断加强,最终的理想结果是生成器生成的数据,判别器无法判别是真是假。以生成对抗网络为基础产生的应用:图像超分、人脸替换、卡通头像生成等。(3)扩散模型(Diffusion Model,里程碑式模型)扩散是受到非平衡热力学的启发,定义一个扩散步骤的马尔科夫链,并逐渐向数据中添加噪声,然后学习逆扩散过程,从噪声中构建出所需的样本。扩散模型的最初设计是用于去除图像中的噪声。随着降噪系统的训练时间越来越长且越来越好,可以从纯噪声作为唯一输入,生成逼真的图片。一个标准的扩散模型分为两个过程:前向过程与反向过程。在前向扩散阶段,图像被逐渐引入的噪声污染,直到图像成为完全随机噪声。在反向过程中,利用一系列马尔可夫链在每个时间步逐步去除预测噪声,从而从高斯噪声中恢复数据。前向扩散过程,向原图中逐步加入噪声,直到图像成为完全随机噪声。前向扩散反向降噪过程,在每个时间步逐步去除噪声,从而从高斯噪声中恢复源数据。反向扩散扩散模型的工作原理是通过添加噪声来破坏训练数据,然后通过逆转这个噪声过程来学习恢复数据。换句话说,扩散模型可以从噪声中生成连贯的图像。 扩散模型通过向图像添加噪声进行训练,然后模型学习如何去除噪声。然后,该模型将此去噪过程应用于随机种子以生成逼真的图像。下图为向原始图像中添加噪声,使原始图像成为随机噪声。添加噪声下图为从噪声中恢复的原始图像的变种图像。生成图像应用:在扩散模型(diffusion model)的基础上产生了多种令人印象深刻的应用,比如:图像超分、图像上色、文本生成图片、全景图像生成等。如下图,中间图像作为输入,基于扩散模型,生成左右视角两张图,输入图像与生成图像共同拼接程一张全景图像。生成全景图像产品与模型:在扩散模型的基础上,各公司与研究机构开发出的代表产品如下:DALL-E 2(OpenAI 文本生成图像,图像生成图像)DALL-E 2由美国OpenAI公司在2022年4月发布,并在2022年9月28日,在OpenAI网站向公众开放,提供数量有限的免费图像和额外的购买图像服务。如下图,左图像为原始图像,右图像为DALL-E 2所生成的油画风格的变种图像。DALL-E 2生成的变种图像Imagen(Google Research 文本生成图像)Imagen是2022年5月谷歌发布的文本到图像的扩散模型,该模型目前不对外开放。用户可通过输入描述性文本,生成图文匹配的图像。如下图,通过prompt提示语“一只可爱的手工编织考拉,穿着写着“CVPR”的毛衣”模型生成了考拉图像,考拉采用手工编织,毛衣上写着CVPR,可以看出模型理解了提示语,并通过扩散模型生成了提示语描述图像。“一只可爱的手工编织考拉,穿着写着“CVPR”的毛衣”Stable Diffusion(Stability AI 文本生成图像,代码与模型开源)2022年8月,Stability AI发布了Stable Diffusion ,这是一种类似于DALL-E 2与Imagen的开源Diffusion模型,代码与模型权重均向公众开放。通过prompt提示语“郊区街区一栋房子的照片,灯光明亮的超现实主义艺术,高度细致8K”,生成图像如下,整体风格与内容锲合度高,AI作画质量较高。“郊区街区一栋房子的照片,灯光明亮的超现实主义艺术,高度细致8K”(4)Transformer2017年由谷歌提出,采用注意力机制(attention)对输入数据重要性的不同而分配不同权重,其并行化处理的优势能够使其在更大的数据集训练,加速了GPT等预训练大模型的发展。最初用来完成不同语言之间的翻译。主体包括Encoder与Decoder分别对源语言进行编码,并将编码信息转换为目标语言文本。采用Transformer作为基础模型,发展出了BERT,LaMDA、PaLM以及GPT系列。人工智能开始进入大模型参数的预训练模型时代。Transformer模型(5)Vision Transformer (ViT)2020年由谷歌团队提出,将Transformer应用至图像分类任务,此后Transformer开始在CV领域大放异彩。ViT将图片分为14*14的patch,并对每个patch进行线性变换得到固定长度的向量送入Transformer,后续与标准的Transformer处理方式相同。以ViT为基础衍生出了多重优秀模型,如SwinTransformer,ViTAE Transformer等。ViT通过将人类先验经验知识引入网络结构设计,获得了更快的收敛速度、更低的计算代价、更多的特征尺度、更强的泛化能力,能够更好地学习和编码数据中蕴含的知识,正在成为视觉领域的基础网络架构。以ViT为代表的视觉大模型赋予了AI感知、理解视觉数据的能力,助力AIGC发展。Vision Transformer(ViT)2、预训练大模型虽然过去各种模型层出不穷,但是生成的内容偏简单且质量不高,远不能够满足现实场景中灵活多变以高质量内容生成的要求。预训练大模型的出现使AIGC发生质变,诸多问题得以解决。大模型在CV/NLP/多模态领域成果颇丰,并如下表的经典模型。诸如我们熟知的聊天对话模型ChatGPT,基于GPT-3.5大模型发展而来。计算机视觉(CV)预训练大模型自然语言处理(NLP)预训练大模型多模态预训练大模型微软Florence(SwinTransformer)谷歌Bert/LaMDA/PaLMOpenAI的CLIP/DALL-EOpenAI的GPT-3/ChatGPT微软的GLIPStability AI的Stable Diffusion(1)计算机视觉(CV)预训练大模型FlorenceFlorence是微软在2021年11月提出的视觉基础模型。Florence采用双塔Transformer结构。文本采用12层Transformer,视觉采用SwinTransformer。通过来自互联网的9亿图文对,采用Unified Contrasive Learning机制将图文映射到相同空间中。其可处理的下游任务包括:图文检索、图像分类、目标检测、视觉问答以及动作识别。Florence overview(2)自然语言处理(NLP)预训练大模型LaMDALaMDA是谷歌在2021年发布的大规模自然语言对话模型。LaMDA的训练过程分为预训练与微调两步。在预训练阶段,谷歌从公共数据数据中收集了1.56T数据集,feed给LaMDA,让其对自然语言有初步认识。到这一步通过输入prompt能够预测上下文,但是这种回答往往不够准确,需要二次调优。谷歌的做法是让模型根据提问输出多个回答,将这些回答输入到分类器中,输出回答结果的安全性Safety,敏感性Sensible,专业性Specific以及有趣性Interesting。根据这些指标进行综合评价,将评价从高分到低分进行排列,从中挑选出得分最高的回答作为本次提问的答案。LaMDA对话系统原理图ChatGPTChatGPT是美国OpenAI公司在2022年11月发布的智能对话模型。截止目前ChatGPT未公开论文等技术资料。大多数的技术原理分析是基于InstructGPT分析。ChatGPT与GPT-3等对话模型不同的是,ChatGPT引入了人类反馈强化学习(HFRL:Human Feedback Reinforcement Learning)。ChatGPT与强化学习:强化学习策略在AlphaGo中已经展现出其强大学习能力。简单的说,ChatGPT通过HFRL来学习什么是好的回答,而不是通过有监督的问题-答案式的训练直接给出结果。通过HFRL,ChatGPT能够模仿人类的思维方式,回答的问题更符合人类对话。ChatGPT原理:举个简单的例子进行说明,公司员工收到领导安排任务,需完成一项工作汇报的PPT。当员工完成工作PPT制作时,去找领导汇报,领导在看后认为不合格,但是没有清楚的指出问题在哪。员工在收到反馈后,不断思考,从领导的思维方式出发,重新修改PPT,提交领导查看。通过以上多轮反馈-修改后,员工在PPT制作上会更符合领导思维方式。而如果领导在第一次查看时,直接告诉员工哪里有问题,该怎样修改。那么,下一次员工所做的PPT很大概率还是不符合要求,因为,没有反馈思考,没有HFRL,自然不会做出符合要求的工作。ChatGPT亦是如此。ChatGPT训练过程图ChatGPT能够回答出好的问题与它的“领导”所秉持的价值观有很大关系。因此,你的“点踩”可能会影响ChatGPT的回答。ChatGPT的显著特点如下:ChatGPT特点1)主动承认错误:若用户指出其错误,模型会听取,并优化答案。2)敢于质疑:对用户提出的问题,如存在常识性错误,ChatGPT会指出提问中的错误。如提出“哥伦布2015年来到美国时的情景”,ChatGPT会指出,哥伦布不属于这一时代,并调整输出,给出准确答案。3)承认无知:对于非常专业的问题或超出安全性范围,如果ChatGPT不清楚答案,会主动承认无知,而不会一本正经的“胡说八道”。4)支持连续多轮对话:ChatGPT能够记住先前对话内容,并展开多轮自然流畅对话。(3)多模态预训练大模型CLIP(OpenAI)2021年美国OpenAI公司发布了跨模态预训练大模型CLIP,该模型采用从互联网收集的4亿对图文对。采用双塔模型与比对学习训练方式进行训练。CLIP的英文全称是Contrastive Language-Image Pre-training,即一种基于对比文本-图像对的预训练方法或者模型。简单说,CLIP将图片与图片描述一起训练,达到的目的:给定一句文本,匹配到与文本内容相符的图片;给定一张图片,匹配到与图片相符的文本。怎样进行训练?首先,采用Text-Encoder与Image-Encoder对文本与图像进行特征提取。Text-Encoder采用Text Transformer模型,Image-Encoder采用CNN或Vision Transformer(ViT)。其次,这里对提取的文本特征和图像特征进行对比学习。对于一个包含N个文本-图像对的训练batch,将N个文本特征和N个图像特征两两组合,CLIP模型会预测出N^2个可能的文本-图像对的相似度,这里的相似度直接计算文本特征和图像特征的余弦相似性(cosine similarity),即下图所示的矩阵。这里共有N个正样本,即真正属于一对的文本和图像(矩阵中的对角线元素),而剩余的N^2-N个文本-图像对为负样本,那么CLIP的训练目标就是最大N个正样本的相似度,同时最小化N^2-N个负样本的相似度。最后,训练模型,优化目标函数。完成训练,输入文本经模型预测输出匹配图片;输入图片经模型预测输出匹配文本。有什么应用?1)跨模态检索:如搜索中文本搜索图片、文本搜索视频,图片搜索文本等。2)跨模态内容生成:文本生成图片(DALL-E 2,Stable Diffusion等)、图片生成标题、图片生成描述等。CLIP模型结构Stable Diffusion(Stablility AI)Stable Diffusion是英国伦敦 Stability AI公司开源的图像生成扩散模型。Stable Diffusion的发布是AI图像生成发展过程中的一个里程碑,相当于给大众提供了一个可用的高性能模型,不仅生成的图像质量非常高,运行速度快,并且有资源和内存的要求也较低。Stable Diffusion从功能上来说主要包括两个方面:1)利用文本输入来生成图像(Text-to-Image)2)对图像根据文字描述进行修改(输入为文本+图像)具体原理是怎样实现?下面以文本生成图片进行分析。如下图:Stable diffusion=Text Encoder+Image Generator1) Text Encoder(文本特征提取)我们知道,文本与图片为两个不同模态。要建立文本与图片之间的匹配需要多模态模型,因此,需利用多模态预训练模型中的Text Encoder提取文本特征(与CLIP中的Text Encoder功能一致。)之后,文本特征向量与随机噪声一并输入Image Generator。输入:文本;输出:77*768向量(77个token,每个token 768维)。Stable diffusion原理图2)Image Generator(图像生成)Image Generator=Image Information Creator+Image DecoderStable diffusion原理图A:Image Information Creator(独家秘方,领先的关键)Image Information Creator=UNet+Scheduler相比之前的模型,它的很多性能增益都是在这里实现的。该组件运行多个steps来生成图像信息,通常默认为50或100。Stable diffusion原理图整个运行过程是step by step的,每一步都会增加更多的相关信息。Stable diffusion原理图整个diffusion过程包含多个steps,其中每个step都是基于输入的latents矩阵进行操作,并生成另一个latents矩阵以更好地贴合「输入的文本」和从模型图像集中获取的「视觉信息」。将这些latents可视化可以看到这些信息是如何在每个step中相加的。Stable diffusion原理图由上图可以看到,图像从噪声中生成的全过程,从无到有,到每一步的变化,生成细微差异的图像。B:Image DecoderImage Decoder对处理过的信息矩阵进行解码,输出生成图像。输入:处理过的信息矩阵,维度为(4, 64, 64)输出:结果图像,各维度为(3,512,512)Stable Diffusion是一款功能强大、免费且开源的文本到图像生成器。不仅完全开放了图片版权,甚至开放了源代码,并允许用户免费使用该工具,允许后继的创业者们使用开源框架构建起更加开放而强大的内容生成大生态。“Stable Diffusion最初采用4000台A100的显卡训练,这些显卡价值不菲(每台价格一至两万美元),很难想象他们有着怎样的财力,抱着怎样的理念,或者说为人们做贡献的精神去把这个东西放出来的。它的价值之高,对业界的影响之大,说是AI革命都不过分。”四、AIGC的应用场景有哪些?1、AIGC在传媒行业应用AI在媒体行业架构如上图为AI在媒体行业应用架构,包括生成、审核、分发运营、创新应用以及媒资管理。以上架构总体上分为两部分:AI内容生成(AIGC)与AI内容分析。AIGC在媒体行业能做什么?采集环节编辑环节播报环节语音转文本画质修复AI数字人(AI合成主播)写作机器人画质增强智能播报机器人AI视频剪辑视频字幕生成视频封面生成图文转视频(1)采集环节借助语音识别技术将语音实时转换为文本,压缩稿件生产过程中的重复性工作,提高内容生产效率。采用智能写作机器人,提升新闻资讯写作的时效性。(2)编辑环节采用AIGC技术对视频画质修复与增强,提升视频质量。此外,可利用AIGC技术对视频场景识别,实现智能视频剪辑。如人民日报社利用“智能云剪辑师”并能够实现自动匹配字幕、人物实时追踪与画面抖动修复等功能。2022冬奥会期间,央视视频通过AI智能内容剪辑系统,高效生产与发布冰雪项目视频集锦内容。(3)播报环节AI合成主播开创了新闻领域实时语音及人物动画合成的先河,只需要输入所需要播发的文本内容,计算机就会生成相应的AI合成主播播报的新闻视频,并确保视频中人物音频和表情、唇动保持自然一致,展现与真人主播无异的信息传达效果。AI合成主播2、AIGC在影视行业应用前期创作中期拍摄后期制作剧本创作虚拟场景生成画质修复画质增强AI视频剪辑人脸替换、人声替换在前期创作阶段,AIGC可通过对海量剧本进行学习,并按照预定风格生成剧本,创作者可进行二次筛选与加工,激发创作灵感,缩短创作周期。在中期拍摄阶段,可通过人工智能合成虚拟场景,将无法实拍或成本过高的场景生成出来,提升视听体验。比如,在拍摄前,进行大量场景素材收集与建模制作虚拟场景,演员在绿棚中进行拍摄,根据实时人员识别与抠图技术,将人物嵌入至虚拟场景中进行融合,生成最终视频。在后期制作阶段,可结合AIGC技术对视频画质进行增强,若视频中出现“劣迹艺人”等敏感人员可通过“人脸替换”、“人声替换”对视频进行编辑。此外,制作者可利用AI技术自动对视频片段进行剪辑,缩短视频预告片、片段集锦的制作时间。3、AIGC在电商行业应用在商品展示环节:AIGC生成3D模型用于商品展示和虚拟适用,提升线上购物体验;在主播打造环节:打造虚拟主播,赋能直播带货;在交易场景环节:虚拟商城构建,智能聊天机器人,赋能线上和线下秀场加速演变,为消费者提供全新的购物场景。4、AIGC在娱乐行业应用全民娱乐:在图像内容生成应用(人脸美妆、融合;黑白图像上色、图像风格转换、人像属性变换)社交互动:虚拟主播、虚拟网红、聊天机器人、聊天互动游戏。5、AIGC在其他行业应用在教育行业:AIGC为教育工作者提供了丰富的教学工作与内容素材。比如,在通过数字人生成技术,可对历史人物进行生成并与之对话,提升课堂互动。再比如,通过ChatGPT生成创意性教学方案,提供更加广泛的授课思路。在工业行业:将AIGC技术融合工业设计软件CAD,Solidworks中,通过文本输入提示语生成,特定样式的机构模型供设计者参考。比如“设计一款卫星太阳能电池板可伸缩折翼机构”通过AIGC模型生成3D设计机构。AIGC在内容生成行业的突破,将提升内容创作者,设计师,工程师,教育工作者等各行业人员工作效率与质量。同时,将加速企业数字化与智能化进程。五、AIGC的产品形态有哪些?AIGC产业生态体系1、基础层(模型服务)基础层为采用预训练大模型搭建的基础设施。由于开发预训练大模型技术门槛高、投入成本高,因此,该层主要由少数头部企业或研发机构主导。如谷歌、微软、Meta、OpenAI、DeepMind、Stability.ai等。基础层的产品形态主要包括两种:一种为通过受控的api接口收取调用费;另一种为基于基础设施开发专业的软件平台收取费用。2、中间层(2B)该层与基础层的最主要区别在于,中间层不具备开发大模型的能力,但是可基于开源大模型等开源技术进行改进、抽取或模型二次开发。该层为在大模型的基础上开发的场景化、垂直化、定制化的应用模型或工具。在AIGC的应用场景中基于大模型抽取出个性化、定制化的应用模型或工具满足行业需求。如基于开源的Stable Diffusion大模型所开发的二次元风格图像生成器,满足特定行业场景需求。中间层的产品形态、商业模式与基础层保持一致,分别为接口调用费与平台软件费。3、应用层(2C)应用层主要基于基础层与中间层开发,面向C端的场景化工具或软件产品。应用层更加关注用户的需求,将AIGC技术切实融入用户需求,实现不同形态、不同功能的产品落地。可以通过网页、小程序、群聊、app等不同的载体呈现。总结:基础模型与预训练大模型的发展,促使AIGC迎来质变期与大规模应用期,未来随着核心技术演进、产品形态丰富、场景应用多元化、生态建设的日益完善,AIGC将充分释放应用价值与商业潜力。参考文献:人工智能内容生成(AIGC)白皮书(中国信息通讯研究院&京东探索研究院)AIGC发展趋势报告2023(腾讯研究院)Denoising Diffusion-based Generative Modeling: Foundations and Applications(Google Brain& NV)从CHAT-GPT到生成式AI(Generative AI):人工智能新范式,重新定义生产力(中信建投证券)https://jalammar.github.io/illustrated-stable-diffusion/Edited by Lucas Shan
1
AIGC是什么?
AIGC( AI Generated Content)是利用人工智能来生成你所需要的内容,GC的意思是创作内容。与之相对应的概念中,比较熟知的还有PGC,是专业人员用来创作内容;UGC是用户自己创造内容,顾名思义AIGC是利用人工智能来创造内容。
2
AIGC的技术原理?
AIGC 是指利用GAN(生成对抗网络)、Transformer 模型、Diffusion 模型等基础生成算法模型、预训练模型以及 CLIP(跨模态学习模型)等 AI 技术,通过对既有数据的学习和发散,基于与人类交互所确定的主题,由 AI 算法模型完全自主、自动生成对应内容,从而帮助互联网、传媒、电商、影视、娱乐等行业进行文本、图像、音视频、代码、策略等多模态内容的单一生成或跨模态生成,以提升内容生产效率与多样性。
AIGC 也是继 UGC、PGC 之后新型利用 AI 技术自动生成内容的生产方式,被认为是继专业生产内容(PGC)、用户生产内容(UGC)之后的新型内容创作方式。目前主要用在文字、图像、视频、音频、游戏以及虚拟人上等。
3
AIGC的功能?
1)文字创作
AIGC生成文字目前主要被应用于新闻的撰写、给定格式的撰写以及风格改写。比如用户可以通过输入一段对于目标文章的描述或者要求,系统会自动抓取数据,根据我们描述的指令进行创作。
2)图像创作
技术平台降低了艺术绘画创作的门槛,用户只需要通过输入文字描述,计算机将会自动生成一张作品。
3)视频创作
例如 Google 推出了 AI 视频生成模型 Phenaki 能够根据文本内容生成可变时长视频的技术,在公布的 DEMO 中,Phenaki 基于几百个单词组成一段前后逻辑连贯的视频只需两分钟。
4)音频剪辑
AIGC生成音频早被应用于我们的日常生活当中,比如常用的手机导航中的声音。更深层次的应用将会是虚拟人领域,AIGC 不仅可以生成虚拟人的声音,并可以创造出说的内容。
5)游戏开发
AIGC在游戏当中的应用可分为两方面,一方面用于场景和故事的搭建,另一方面玩家可以通过 AIGC 的平台工具来创建自己的虚拟人,可以用于游戏中的打金等活动。
6)代码生成
资料显示,2022 年 AIGC 发展速度惊人,迭代速度更是呈现指数级爆发,其中深度学习模型不断完善、开源模式的推动、大模型探索商业化的可能,成为 AIGC 发展的“加速度”。
4
AIGC的创作类型
目前为止,与 AIGC 相关的创作类型主要有三种:
1、内容平台的一种自动化作业方式比如 CCTV 的 AIGC 平台,就包括智能采编、模板生成、画质优化等等;部分语音类 app,通过语音合成(TTS)技术,提供文本自动转语音的能力;流媒体平台,通过算法对画面画质进行优化,提高清晰度等等。
2、AI 科研机构的多模态应用,实现内容生成比如中科院自动化所的跨模态通用人工智能平“紫东太初”,就能够做到“以图生音”“以音生图”。百度文心大模型的“AI 画家”,则在前不久的元宵节,生成与地点相匹配的专属画作。
3、科技企业及创业公司的数字人、虚拟人制作通过自主开发、平台开发等形式,合成全新的人物形象,与用户开展互动。比如 AI 手语主播,通过 AI 算法将文本转化为手语信息,为听障朋友提供服务;品牌代言人,火星车数字人祝融号跟广大用户进行互动;虚拟偶像,通过生动的表情、动作、语言等展示才艺,与粉丝对话;以及智能客服、游戏陪玩等等。
5
AIGC有哪些应用价值?
AIGC将有望成为数字内容创新发展的新引擎。
1)AIGC能够以优于人类的制造能力和知识水平承担信息挖掘、素材调用、复刻编辑等基础性机械劳动,从技术层面实现以低边际成本、高效率的方式满足海量个性化需求。
2)AIGC能够通过支持数字内容与其他产业的多维互动、融合渗透从而孕育新业态新模式。
3)助力“元宇宙”发展。通过AIGC加速复刻物理世界、进行无限内容创作,从而实现自发有机生长。
1)AIGC+传媒:写稿机器人、采访助手、视频字幕生成、语音播报、视频锦集、人工智能合成主播。
2)AIGC+电商:商品3D模型、虚拟主播、虚拟货场。
3)AIGC+影视:AI剧本创作、AI合成人脸和声音、AI创作角色和场景、AI自动生成影视预告片。
4)AIGC+娱乐:AI换脸应用(如FaceAPP、ZAO)、AI作曲(如初音未来虚拟歌姬)、AI合成音视频动画。
5)AIGC+教育:AI合成虚拟教师、AI根据课本制作历史人物形象、AI将2D课本转换为3D。
6)AIGC+金融:通过AIGC实现金融资讯、产品介绍视频内容的自动化生产,通过AIGC塑造虚拟数字人客服。
7)AIGC+医疗;AIGC为失声者合成语言音频、为残疾人合成肢体投影、为心理疾病患者合成医护陪伴。
8)AIGC+工业:通过AIGC完成工程设计中重复的低层次任务,通过AIGC生成衍生设计,为工程师提供灵感。
6
AIGC商业模式如何?
1)作为底层平台接入其他产品对外开放,按照数据请求量和实际计算量计算:GPT-3对外提供API接口,采用的四种模型分别采用不同的按量收费方式。
2)按产出内容量收费:包括DALL·E、Deep Dream Generator等AI图像生成平台大多按照图像张数收费。
3)直接对外提供软件:例如个性化营销文本写作工具AX Semantics则以约1900人民币/月的价格对外出售,并以约4800欧元/月的价格提供支持定制的电子商务版本。大部分C端AGC工具则以约80人民币/月的价格对外出售。
4)模型训练费用:适用于NPC训练等个性化定制需求较强的领域。
5)根据具体属性收费:例如版权授予(支持短期使用权、长期使用权、排他性使用权和所有权多种合作模式,拥有设计图案的版权)、是否支持商业用途(个人用途、企业使用、品牌使用等)、透明框架和分辨率等。
7
AIGC的行业门槛及壁垒是什么?
1)打造一体化解决方案服务能力:AIGC本质上提供的是内容的生成工具,和传统的内容辅助编辑逻辑是相同的。采集、生产、媒资管理、分发消费等视频整个生命周期,一般都需要覆盖内容生成的全生命周期。
2)与行业的深度绑定关系:通过和行业形成深度绑定关系,接入相关平台或底层系统的,与原来的内容载体建立良好的合作关系,除去说明场景可行性外,还需要强调对方在基础架构上的配合意愿。
3)构建业务闭环:创作型的工具如何得到反馈的手段,需要新的模式形成闭环。需要从“拼接式”(需要大量的人工标注数据,只能针对具体任务,不会自我成长)到“进化式”(创造特定条件和核心能力,使之能够完成通用任务并自我成长),并与用户增加对话轮次、建立情感链接。
8
AIGC技术处于什么发展阶段?
2021年之前,AIGC生成的主要是文字,而新一代模型可以处理的格式内容包括:文字、语音、代码、图像、视频、机器人动作等等。AIGC被认为是继专业生产内容(PGC,professional-generated content)、用户生产内容(UGC,User-generated content)之后的新型内容创作方式,可以在创意、表现力、迭代、传播、个性化等方面,充分发挥技术优势。
2022年:AIGC高速发展,其中深度学习模型不断完善、开源模式的推动、大模型探索商业化的可能,成为AIGC发展的“加速度”。
9
AIGC的发展面临什么挑战?
AIGC在引发全球关注的同时,知识产权、技术伦理将面临诸多挑战和风险。同时AIGC距离通用人工智能还有较大的差距。
1)知识产权争议。AIGC的飞速发展和商业化应用,除了对创作者造成冲击外,也对大量依靠版权为主要营收的企业带来冲击。
2)关键技术难点。AIGC距离通用人工智能还有较大差距,当前热门的AIGC系统虽然能够快速生成图像,但是这些系统未必能够真正理解绘画的含义,从而能够根据这些含义进行推理并决策。
3)创作伦理问题。部分开源的AIGC项目对生成的图像监管程度较低,数据集系统利用私人用户照片进行AI训练,侵权人像图片进行训练的现象屡禁不止。一些用户利用AIGC生成虚假名人照片等违禁图片,甚至会制作出暴力和性有关的画作。由于AI本身尚不具备价值判断能力,一些平台已经开始进行伦理方面的限制和干预,但相关法律法规仍处于真空阶段。
10
如何看待AIGC的未来趋势?
未来AIGC将走过三个发展阶段:助手阶段、协作阶段、原创阶段。
在第一阶段,AIGC将辅助人类进行内容生产;
第二阶段,AIGC以虚实并存的虚拟人形态出现,形成人机共生的局面;
第三阶段则是原创阶段,AIGC将独立完成内容创作。Gartner预计,到2025年,生成式人工智能将占所有生成数据的10%。
推动这一变化发生的驱动力在于:
1)核心技术升级不断发展。AIGC的三大基础能力包括内容孪生、内容编辑、内容创作,将随着产业发展而逐渐升级。
2)产品类型逐渐丰富。人工智能的不断发展及推进,也将使AIGC模态不再仅仅局限于文本、音频、视觉三种基本形态。嗅觉、触觉、味觉、情感等多重信息感知和认知能力将以数字化的形式传输并指导人工智能进行内容创作,甚至创造出酸甜苦辣外的另一种味道。
3)场景应用趋于多元。目前,AIGC已经在多个领域得到广泛应用,如金融、传媒、文娱、电商等,未来应用场景会进一步多元化。除应用场景的横向扩展外,场景与场景的融合交互也是未来的发展趋势之一。
4)生态建设日益完善。技术研发的不断创新将强有力地推动内容创作,提高生成内容质量,使内容更接近人类智力水平和审美标准,同时应用于各类行业各种场景。AIGC的繁荣发展将促进资产服务快速跟进,通过对生成内容的合规评估、资产管理、产权保护、交易服务等构成AIGC的完整生态链,并进行价值重塑,充分释放其商业潜力。
11
AIGC未来市场空间有多大?
随着标注数据累积、技术架构完善、内容行业对丰富度/事实性/个性化的要求越来越高,AIGC行业即将被推向前台。
在未来2-3年间,AIGC的初创公司和商业落地案例将持续增加。目前由人工智能生成的数据占所有数据的1%不到,根据Gartner预测,到2025年,人工智能生成数据占比将达到10%。根据《Generative AI:A Creative New World》的分析,AIGC有潜力产生数万亿美元的经济价值。
12
AIGC的产业链分布如何?
我国的AIGC行业尚未发展成型,目前,AIGC代表公司较少,且上游还有众多欠缺。
国内的AIGC场景开发较少:在我国,由于技术发展不足以及投资环境的影响,AIGC大多被作为公司的部分业务、乃至相对边缘化的功能进行研发开发,独立运行的初创公司数量明显少于国外,大部分细分赛道的初创玩家在5家以下,这也间接导致了国内的AIGC场景开发较少。
AIGC应用场景深度不足:国内布局最多的赛道是写作和语音合成领域,虚拟人赛道刚刚开始兴起基本均停留在内容领域。而在国外延展领域得到了更为充分的挖掘,例如个性化文本生成、合成数据等赛道均是重点布局领域。此类业务拓展的综合性要求较高,需要客户方的数字化程度以及对对应行业的充分了解。返回搜狐,查看更多
责任编辑:

我要回帖

更多关于 虚拟视频 AI 模型 的文章

 

随机推荐