速度惊人,手机跑StableDiffusion,12秒出图,谷歌加速扩散

2023-04-29 09:59 来源:IT之家   阅读量:5299   

手机 12 秒一键生图?谷歌最新研究做到了。

手机生图只要 12 秒?

这不是吹的,谷歌就给实现了。

最新研究中,谷歌研究人员对 4 个 GPU 分层优化,在三星手机上成功运行 Stable Diffusion 1.4。

实现了 11.5 秒生成图像,重要的是,内存使用量也大幅减少。

正所谓,Speed Is All You Need!

谷歌最新提出的方法是通用的,可以对所有扩散模型的改进,并非仅针对特定设备实现的。

通过实验结果发现,三星 S23 Ultra 和 iPhone 14 Pro 的整体图像生成时间分别减少了 52% 和 33%。

这意味着,一部手机装下一个生成式 AI 模型的未来更近了。

从 3080 到一部手机

当前,将大型扩散模型合并到任何 App 中的一个关键考虑因素是,模型将在何处执行选择。

在一个消费级设备上部署模型的好处是,较低的服务成本、改善扩展性、还可以离线,并且能改善用户隐私。

22 年,Stable Diffusion 刚刚发布的第一个版本,最初只能缓慢运行在 RTX 3080 上。

Stable Diffusion 有超过 10 亿的参数,DALL-E 是 120 亿,以后随着扩散模型的发展,参数量会逐渐增加。

由于设备计算和内存资源的限制,因此在运行时带来了诸多挑战。

在没有精心设计情况下,在设备上运行这些模型可能会导致,由于迭代去噪过程和过多的内存消耗,输出内容延迟就会增加。

此前,也有研究实现了将 Stable Diffusion 成功部署到设备上,但仅局限于特定的设备或芯片组。

对此,谷歌研究人员对大型扩散模型提供了一系列实现优化,这些模型在配备 GPU 的移动设备上实现了迄今为止报道的最快推理延迟。

具体是如何实现的呢?

GPU 感知优化

在论文中,研究人员侧重的是使用大型扩散模型,然后完成从文本描述生成图像的任务。

虽说论文中,部分讨论是研究者为 Stable Diffusion 特定结构所提出的优化建议,但这些优化可以很容易推广到其它大型扩散模型上。

研究人员表示,当用文本提示进行推理时,这个过程包含根据所需的文本描述,应用额外条件来指导反向扩散。

具体来说,Stable Diffusion 的主要组成部分包括:文本嵌入器、噪声生成(Noise Generation)、去噪神经网络(Denoising Neural Network,aka UNet),以及图像解码器(Image Decoder)。

如下图所示:

Stable Diffusion 中主要组件及其相互作用的示意图

下面,我们分别介绍一下这几个组成部分,各部分间的关系参照图。

?文本嵌入器:

利用 CLIP 模型对文本提示 y 进行编码,生成一个高维嵌入向量 τθ,将文本提示的语义封装进去。该嵌入被当作去噪神经网络的输入,为逆向扩散的过程提供指示。

?噪声生成:

给潜在空间提供随机噪声 z,该噪声作为逆向扩散过程的起始点。

?去噪神经网络:

该网络被设计为近似 p 形式的条件分布,利用条件去噪自动编码器 θ(zt, t, τθ(y))(denoising autoencoder)。每次迭代 t 采用 UNet 架构。

同时,交叉注意机制被用来操作潜在空间和文本嵌入向量,在迭代过程中预测 z 的去噪版本。

?图像解码器:

逆行扩散过程在潜在空间

中进行。一旦这个过程完成,图像解码器 D 被用来从潜在矢量中重建 RGB 图像。

研究人员在整个 UNet 架构中实现了群组归一化。

这种归一化技术的工作原理是将特征图的 pipeline 划分为较小的组,并对每个组进行独立的归一化,使 GN 对批次大小的依赖性降低,更适合于各种大小的批次和各种网络结构。

应用公式①,每个特征值

被归一化为其所属组的组均值

和方差

研究人员并没有依次执行上述提到的重塑、平均值、方差和归一化的所有操作,而是以 GPU Shader 的形式设计了一个特别的程序,在一个 GPU 命令中执行所有这些操作,无需中间流程。

这里先介绍一下 Gaussian Error Linear Unit。

GELU 作为模型中普遍存在的激活函数,包含许多数值计算,如乘法、加法和高斯误差函数,如公式②所示。

研究人员弄了一个专门的 Shader 来整合这些数值计算及其伴随的分割和乘法操作,使其在一次绘图调用中完成执行。

稳定扩散中的文本 / 图像变换器有助于对条件分布 P ) 进行建模,这对文本到图像的生成任务至关重要。

然而,自我 / 交叉注意力机制在处理长序列时遇到了困难,因为它们的时间和内存复杂性是平过方的。在论文中,研究人员介绍了两种可能的优化,旨在缓解这些计算瓶颈。

一种是 Partially Fused Softmax,另一种是 FlashAttention。

下面仅以 Softmax 为例。

上图是在注意力模块中,优化过的 softmax 实现。

虚线以上的流程图描述的是直接在矩阵

中应用 softmax 的初始实现。

虚线以下的展示的则是修正后的模块。

总而言之,论文中研究人员提出了一整套优化方案,可以在各种设备上执行大型扩散模型时,共同达到了突破性的延迟数字。

这些改进扩大了模型的通用性,并提高了在各种设备上的整体用户体验。

12 秒,业界领先

为了评估改进后的模型,研究人员分别在三星 S23 Ultra 和 iPhone 14 Pro Max (A16) 进行了一组基准测试。

作为去噪神经网络,UNet 是计算需求最高的组件。

研究人员提供了执行单次迭代的 UNet 所需的延迟数据,以毫秒为单位测量,图像分辨率为 512x512。

此外,他们记录了运行时生成的中间张量在「Tensor」列中的内存使用情况,以及为保存模型权重分配的内存在「Weight」列中的使用情况,均以兆字节为单位。

请注意,内存管理器通过重用中间张量的缓冲区来优化内存占用。

如表中数据显示,第一行显示了在公共 Github 仓库中使用内部 OpenCL 内核实现,但没有任何优化的结果。

实现之后的结果,并且研究者在没有任何优化的情况下使用内部 OpenCL 内核。

第 2-5 行,分别逐个启用每个优化:

Opt. Softmax:部分融合的 softmax 和优化的 softmax 减少步骤

S-GN / GELU:用于组归一化和 GELU 的专用内核

FlashAttn.:FlashAttention 实现

Winograd :采用 Winograd 卷积

随着每个优化的启用,实验结果发现延迟逐步减少。

与基线相比,在两种设备上都观察到了显著的总体延迟降低:三星 S23 Ultra 降低 52.2%,iPhone 14 Pro Max 降低 32.9%。

此外,研究人员还评估了在三星 S23 Ultra 进行文本到图像输出端到端延迟。

进行了 20 次去噪迭代,生成一张 512x512 图像,实现了不到 12 秒的业界领先结果。

可见,在没有数据连接或云服务器的情况下,在手机上本地运行生成式人工智能模型,将开辟了许多可能性。

谷歌最新研究给出了一种全新方案。

参考资料:

郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。

热门

一键全自动换电——泰州市首家蔚来第三代换电站在兴化戴南上线
一键全自动换电——泰州市首家蔚来第三代换电站

一辆新能源汽车稳稳地停到蔚来充换电一体站的停车平台上,汽车下部的换电装置自动开启,卸下用完电的电池,换上充足电的...更多>

azg集团多维度赋能品牌,助力打造可持续产业生态
azg集团多维度赋能品牌,助力打造可持续产业

日前,由azg集团与Bubs贝儿联合举办的“Bubs贝儿纯净营养,守护新队友”五一特别场线下亲子活动圆满结束,门...更多>

喜报!中诚信托荣获深交所优秀债券投资交易机构奖项
喜报!中诚信托荣获深交所优秀债券投资交易机构

2月27日,深圳证券交易所组织召开2022年度债券监管发展业务座谈会,并表彰在服务国家重点战略、推进债券市场高质...更多>

银保监会就保险保障基金管理办法公开征求意见
银保监会就保险保障基金管理办法公开征求意见

为促进保险业稳健经营和高质量发展,更好发挥保险保障基金的积极作用,维护保单持有人合法权益,银保监会商有关部门对2...更多>

人民银行:指导银行将个人信贷延期还款政策落到实处
人民银行:指导银行将个人信贷延期还款政策落到

2022年第一季度金融统计数据新闻发布会现场。人民网黄盛摄人民网北京4月14日电(黄盛)今日,中国人民银行(以下...更多>

聚焦

发放消费券、举办消费节、推动线上线下消费融合,近期一批促消费措施密集推出—— 为消费升温积聚合力
以奋斗之势展青年力量——农发行利津县支行王荆
农发行利津县支行王荆花同志暨前期被推荐为利津最美职工候选人,...更多>
盘点淄博烧烤小程序运营商淄博上线智慧淄博烧烤
五一假期前夕,淄博上线“智慧淄博烧烤服务”小程序,内含出行地...更多>
追得集团携手捷途大圣,带你体验全新柔性显示黑
 关键词:追得集团捷途汽车 天幕星空星空...更多>
养元饮品2023一季报回暖净利润同比增长39
4月22日,养元饮品2023一季报出炉,开年一季度以来,公司...更多>
迪士尼百年庆典之作,动画电影《星愿》首支预告
,迪士尼百年庆典巨作《星愿》首支预告今晚发布。该动画电影现已...更多>
台电T40S平板电脑公布:10.4英寸2K全
,台电科技于今日公布了一款新的平板电脑——台电T40S,预计...更多>
国网突泉县供电公司:开展庆五一职工拔河比赛
为推进职工体育文化建设,丰富职工业余生活展职工风彩,培养员工...更多>
德州仪器TI2023年第一季度营业收入43.
日前公布其第一季度财务报告,营业收入43.8亿美元,净收益1...更多>
揭榜挂帅!汇纳科技成为浦东新区数字化转型技术
推进算力产业高质量发展,打造浦东数字生态圈。4月26日,由上...更多>
隆基绿能2022营收首破千亿大关背后:财务更
据CPIA预计,2023年全球光伏新增装机同比增长21.74...更多>