StableDiffusion还能压缩图:比JPEG更小,肉眼看更清晰,
免费开源稳定扩散玩出了新花样:
稳定扩散不仅可以将同一幅原始图像缩小到更小的尺寸,而且性能优于JPEG和WebP。
对于同一幅原始图像,稳定扩散压缩后的图像不仅细节更多,而且压缩伪影更少。
但使用稳定扩散压缩图形的软件工程师马蒂亚斯·布尔曼也指出,这种方法有明显的局限性。
因为它不太擅长处理人脸和文字,有时甚至会在解码和扩展回来后,幻化出原图中不存在的特征。
像这样:
左边是原始图像,右边是稳定扩散压缩和扩展的生成图像。
但是话说回来—
稳定扩散是一种特殊的扩散模型,称为势扩散。
与标准扩散不同,潜在扩散在低维的潜在空间中进行,而不使用实际的像素空间。
也就是说,隐藏空间的表现结果是一些低分辨率的压缩图像,但这些图像具有很高的准确性。
在这里,图像的分辨率和精度是两回事
以这只骆驼的头像为例:原图大小为768KB,分辨率为512×512,精度为3×8位。
经过稳定扩散压缩到4.98KB后,分辨率降低到64×64,但精度提高到4×32位。
所以看起来稳定扩散的压缩图像和原图差别不大。
更具体地说,稳定扩散的势扩散模型有三个主要部分:
VAE,优信网和文本编码器。
可是,在这个压缩图像的测试中,文本编码器是没有用的。
VAE起主要作用,它由两部分组成:编码器和解码器。
MB发现,VAE的解码函数对于量化潜在表征是非常稳定的。
通过缩放,拖动和重新映射,将潜在表示从浮点量化为8位无符号整数,可以得到失真很小的压缩图像:
首先将latents量化为8位无符号整数,图像大小为64×64×4×8Bit=16 kB。
然后利用调色板和抖动进一步将数据压缩到5kB,同时提高图像还原度。
作为一个严谨的程序员,MB哥不仅用肉眼观察,还分析了画质的数据。
但从PSNR和SSIM这两个重要的图像质量评价指标来看,稳定扩散的压缩结果并不比JPG和WebP好。
此外,当潜在表示被重新解码并扩展到原始图像分辨率时,尽管图像的主要特征仍然可见,但VAE也会将高分辨率特征分配给这些像素值。
用白话文来说,重建的图像往往与原始图像不同,其中包含了许多新生成的鬼畜特征。
我们再来回顾一下这张图:
虽然用稳定扩散来压缩图还有很多问题,但是用MB的话来说,它的效果还是很惊人的,前景很光明。
现在MB哥已经把相关代码放在Google Colab上了,感兴趣的朋友可以仔细看看~
入口
参考链接:
郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。
最新资讯
- 华大基因:公司合成类业务主要包含基因合成、Oligo合成等 每经AI快讯,投资人在投资人互动平台提问:华大基因关联方华大基因研究院在常州投资数亿元建设基因合成生产线,大量招聘工作人
- 宁德时代申请注册新型电池M3P商标 据企业搜索APP显示,最近几天,当代安培科技有限公司申请注册了两个M3P商标,这两个商标在国际上被归类为科学仪器和运输工
- “城野医生”品牌中国首家医疗美容诊所北京启幕 今天,中国首家日式影院品牌叶澄医疗美容诊所在京开业。 医生品牌总经理郭表示,这家医疗美容诊所首次在中国推出,并将延续其
- 岭南控股广之旅并购海南特区国旅:布局国际旅游岛与自由贸易港 2022年9月28日晚间,岭南控股(000524.SZ)发布公告称,控股子公司广之旅拟以现金增资收购海南特区国际旅行社有
- 消息称吉利电动商用车品牌“远程汽车”正寻求3亿美元融资 新浪新闻北京时间9月27日下午消息,知情人士今日表示,吉利集团旗下电动卡车品牌远程车正在寻求约3亿美元的融资这也是第一轮
- 梦天家居上半年营收净利双增:研发等多项费用压缩股价长期“破发” 最近几天,蒙恬家居发布了上市后首份半年报报告期内,蒙恬家居实现营业收入5.52亿元,同比增长2.46%,归属于上市公司股
- 腾龙发布索尼E卡口20-40mmF/2.8DiIIIVXD镜头:小体积, ,龙腾今日发布索尼E—mount大光圈标准变焦镜头——20—40mmf/2.8diiiiVXD,用于全画幅无反光镜单镜头
- 微星发布英特尔Z790主板:2299元起,GODLIKE采用26+2相供 今天微星发布了IntelZ790系列电竞主板,包括MEG,MPG,MAG系列。 梅格Z790神一样 MEGZ790G