可生成高清视频的Stable Diffusion 来了!分辨

IT资讯2年前 (2022)更新 IT资讯
0

本篇文章给各位网友带来的资讯是:可生成高清视频的 Stable Diffusion 来了!分辨率提升 4 倍,超分算法来自腾讯,支持 Colab 在线试玩 详情请欣赏下文

可生成高清视频的Stable Diffusion 来了!分辨

古典人像丝滑切换,还都是 4 倍超分辨率水平,细节也就多了亿点点吧,眉毛发丝都根根分明。

可生成高清视频的Stable Diffusion 来了!分辨

这就是最近在推特上火了 Stable Diffusion 视频版 2.0.

它能够通过 Real-ESRGAN 进行上采样,让生成画面达到 4 倍超分。

可生成高清视频的Stable Diffusion 来了!分辨

要知道,之前 Stable Diffusion 生成的图像如果想要高清,还得自己手动提升分辨率。

现在直接二合一,在谷歌 Colab 上就能跑!

食用指南

Colab 上的操作非常简单,基本上就是傻瓜式按照步骤运行即可。

可生成高清视频的Stable Diffusion 来了!分辨

需要注意的是,过程中要从个人 Hugging Face 账户中复制 token 登入。

拉取模型前,记得在 Hugging Face 上授权,否则会出现 403 错误。

搞定以上问题后,就能来用 Stable Diffusion 来生成高清视频了。

可生成高清视频的Stable Diffusion 来了!分辨

生成一段视频需要给出 2 个提示词,然后设置中间的步数,以及是否需要上采样。

可生成高清视频的Stable Diffusion 来了!分辨

中间步骤越多,生成所需的时间越长;同样上采样也会一定程度上加长生成时间。

还能直接用代码来跑,修改几个简单的参数就能搞定。

可生成高清视频的Stable Diffusion 来了!分辨

除了线上模式外,该模型还支持本地运行,项目已在 GitHub 上开源。

注意需要额外安装 Real-ESRGAN。

可生成高清视频的Stable Diffusion 来了!分辨

超分算法来自腾讯

简单来说,这次 Stable Diffusion 的变种版本就是把生成的图片,通过超分辨率方法变得高清。

Stable Diffusion 的原理,是扩散模型利用去噪自编码器的连续应用,逐步生成图像。

可生成高清视频的Stable Diffusion 来了!分辨

一般所言的扩散,是反复在图像中添加小的、随机的噪声。而扩散模型则与这个过程相反 —— 将噪声生成高清图像。训练的神经网络通常为 U-net。

可生成高清视频的Stable Diffusion 来了!分辨

不过因为模型是直接在像素空间运行,导致扩散模型的训练、计算成本十分昂贵。

基于这样的背景下,Stable Diffusion 主要分两步进行。

可生成高清视频的Stable Diffusion 来了!分辨

首先,使用编码器将图像 x 压缩为较低维的潜在空间表示 z(x)。

其中上下文(Context)y,即输入的文本提示,用来指导 x 的去噪。

可生成高清视频的Stable Diffusion 来了!分辨

它与时间步长 t 一起,以简单连接和交叉两种方式,注入到潜在空间表示中去。

随后在 z(x)基础上进行扩散与去噪。换言之,就是模型并不直接在图像上进行计算,从而减少了训练时间、效果更好。

再来看超分辨率部分。

用到的方法是腾讯 ARC 实验室此前开发的 Real-ESRGAN,被 ICCV 2021 接收。

可生成高清视频的Stable Diffusion 来了!分辨

它可以更有效地消除低分辩率图像中的振铃和 overshoot 伪影

面对真实风景图片,能更逼真地恢复细节,比如树枝、岩石、砖块等。

可生成高清视频的Stable Diffusion 来了!分辨

原理方面,研究人员引出了高阶退化过程来模拟出更真实全面的退化,它包含多个重复的经典退化过程,每个又具有不同的退化超参:

可生成高清视频的Stable Diffusion 来了!分辨

下图为 Real-ESRGAN 进行退化模拟的示意图:

可生成高清视频的Stable Diffusion 来了!分辨

采用的是二阶退化,具体可分为在模糊(blur)、降噪(noise)、resize、JPGE 压缩几个方面。

到训练环节,Real-ESRGAN 的生成器用的是 RRDBNet,还扩展了原始的 4 ESRGAN 架构,以执行 resize 比例因子为 2 和 1 的超分辨率放大。

可生成高清视频的Stable Diffusion 来了!分辨

想要单独使用这种超分算法也不是问题。

在 GitHub 上下载该模型的可执行文件,Windows / Linux / MacOS 都可以,且不需要 CUDA 或 PyTorch 的支持。

可生成高清视频的Stable Diffusion 来了!分辨

下好以后只需在终端执行以下命令即可使用:

./realesrgan-ncnn-vulkan.exe -i input.jpg -o output.png

值得一提的是,Real-ESRGAN 的一作 Wang Xintao 是图像 / 视频超分辨率领域的知名学者。

他本科毕业于浙江大学本科,香港中文大学博士(师从汤晓鸥),现在是腾讯 ARC 实验室(深圳应用研究中心)的研究员。

此前曾登顶 GitHub 热榜的项目 GFPGAN 也是他的代表作。

可生成高清视频的Stable Diffusion 来了!分辨

One More Thing

前两天,大谷老师也发布了用 Stable Diffusion 生成了一组少女人像,效果非常奈斯。

可生成高清视频的Stable Diffusion 来了!分辨

顺带让我们都完成了一下“阅女无数”的成就(doge)。

可生成高清视频的Stable Diffusion 来了!分辨

Stable Diffusion 还能玩出哪些新花样?你不来试试吗?

Colab 试玩:

https://colab.research.google.com/github/nateraw/stable-diffusion-videos/blob/main/stable_diffusion_videos.ipynb

GitHub 地址:

https://github.com/nateraw/stable-diffusion-videos

Hugging Face 授权:

https://huggingface.co/CompVis/stable-diffusion-v1-4

参考链接:

[1]https://twitter.com/_nateraw/status/1569315090314444802

[2]https://www.bilibili.com/video/BV1yd4y1g7Wz?spm_id_from=333.999.0.0

© 版权声明
好牛新坐标 广告
版权声明:
1、IT大王遵守相关法律法规,由于本站资源全部来源于网络程序/投稿,故资源量太大无法一一准确核实资源侵权的真实性;
2、出于传递信息之目的,故IT大王可能会误刊发损害或影响您的合法权益,请您积极与我们联系处理(所有内容不代表本站观点与立场);
3、因时间、精力有限,我们无法一一核实每一条消息的真实性,但我们会在发布之前尽最大努力来核实这些信息;
4、无论出于何种目的要求本站删除内容,您均需要提供根据国家版权局发布的示范格式
《要求删除或断开链接侵权网络内容的通知》:https://itdw.cn/ziliao/sfgs.pdf,
国家知识产权局《要求删除或断开链接侵权网络内容的通知》填写说明: http://www.ncac.gov.cn/chinacopyright/contents/12227/342400.shtml
未按照国家知识产权局格式通知一律不予处理;请按照此通知格式填写发至本站的邮箱 wl6@163.com

相关文章