来源:量子位
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI
(资料图片)
开源AI绘画扛把子,Stable Diffusion背后公司 StabilityAI 再放大招!
全新开源模型 DeepFloyd IF ,一下获星2千+并登上GitHub热门榜。
DeepFloyd IF不光图像质量是 照片级 的,还解决了文生图的两大难题:
准确绘制文字 。(霓虹灯招牌上写着xxx)
以及 准确理解空间关系 。(一只猫照镜子看见狮子的倒影)
网友表示,这可是个大事,之前想让Midjourney v5在霓虹灯招牌上写个字AI都是瞎划拉两笔,对于镜子理解的也不对。
使用DeepFloyd IF,可以把指定文字巧妙放置在画面中任何地方。
霓虹灯招牌、街头涂鸦、服饰、手绘插画,文字都会以合适的字体、风格、排版出现在合理的地方。
这意味着,AI直出商品渲染图、海报等实用工作流程又打通一环。
还在视频特效上开辟了新方向。
目前DeepFloyd IF以非商用许可开源,不过团队解释这是暂时的,获得足够的用户反馈后将转向更宽松的协议。
有需求的小伙伴可以抓紧反馈起来了。
DeepFloyd IF仍然基于扩散模型,但与之前的Stable Diffusion相比有两大不同。
负责理解文字的部分从OpenAI的CLIP换成了谷歌 T5-XXL ,结合超分辨率模块中额外的注意力层,获得更准确的文本理解。
负责生成图像的部分从潜扩散模型换成了 像素级扩散模型 。
也就是扩散过程不再作用于表示图像编码的潜空间,而是直接作用于像素。
官方还提供了一组DeepFloyd IF与其他AI绘画模型的直观对比。
可以看出,使用T5做文本理解的 谷歌Parti 和 英伟达eDiff-1 也都可以准确绘制文字,AI不会写字这事就是CLIP的锅。
不过英伟达eDiff-1不开源,谷歌的几个模型更是连个Demo都不给,DeepFloyd IF就成了更实际的选择。
具体生成图像上 DeepFloyd IF 与之前模型一致,语言模型理解文本后先生成64x64分辨率的小图,再经过不同层次的扩散模型和超分辨率模型放大。
在这种架构上,通过把指定图像缩小回64x64再使用新的提示词重新执行扩散,也实现以图生图并调整风格、内容和细节。
并且不需要对模型做微调就可直接实现。
另外,DeepFloyd IF的优势还在于,IF-4.3B基础模型是目前扩散模型中 U-Net部分有效参数是最多的 。
在实验中,IF-4.3B取得了最好的FID分数,并达到SOTA(FID越低代表图像质量越高、多样性越好)。
DeepFloyd AI Research是StabilityAI旗下的独立研发团队,深受摇滚乐队平克弗洛伊德影响,自称为一只“研发乐队”。
主要成员只有4人,从姓氏来看均为东欧背景。
这次除了开源代码外,团队在HuggingFace上还提供了DeepFloyd IF模型的在线试玩。
我们也试了试,很可惜的是目前对中文还不太支持。
原因可能是其训练数据集LAION-A里面中文内容不多,不过既然开源了,相信在中文数据集上训练好的变体也不会太晚出现。
DeepFloyd IF并不是Stability AI昨晚在开源上的唯一动作
语言模型方面,他们也推出了首个开源并引入RLHF技术的聊天机器人StableVicuna,基于小羊驼Vicuna-13B模型实现。
目前代码和模型权重已开放下载。
完整的桌面和移动界面也即将发布。
Deepfloyd IF在线试玩: https://huggingface.co/spaces/DeepFloyd/IF
代码: https://github.com/deep-floyd/IF
StableVicuna在线试玩: https://huggingface.co/spaces/CarperAI/StableVicuna
权重下载: https://huggingface.co/CarperAI/stable-vicuna-13b-delta
参考链接: [1]https://deepfloyd.ai/deepfloyd-if [2]https://stability.ai/blog/deepfloyd-if-text-to-image-model [3]https://stability.ai/blog/stablevicuna-open-source-rlhf-chatbot [4]https://stable-diffusion-art.com/how-stable-diffusion-work/
关键词:
还在苦苦寻找优秀经典的名言吗?为大家整理的关于法律的名言警句
关于法律的名言警句(精选220句)在日常学习、工作或生活中,大家都有令自己印象深刻的名言吧,巧用名言有助于我们正确对待学习、生活、成长
怎样写方案才更能起到其作用呢?整理的项目合作实施方案
项目合作实施方案5篇为保证事情或工作高起点、高质量、高水平开展,往往需要预先进行方案制定工作,方案指的是为某一次行动所制定的计划类
楚辞影响最大的作品 《离骚》全文对照翻译
《离骚》全文对照翻译《离骚》是屈原的代表作,创作于楚怀王时期屈原遭谗被疏之时,是楚辞影响最大的作品。下面是《离骚》全文对照翻译...
写申请书时理由总是不够充分?为大家整理的退学申请书
退学申请书(精选12篇)在一步步向前发展的社会中,申请书在现实生活中使用广泛,申请书不同于其他书信,是一种专用书信。写申请书时理由总是
都有哪些类型的话语呢?为大家收集的感恩老师的话精选150句
感恩老师的话在生活、工作和学习中,越来越多人喜欢发表话语,话语是特定社会语境中人与人之间从事沟通的具体言语行为。那么都有哪些类...
关于我们 加入我们 联系我们 商务合作 粤ICP备18023326号-32
中国创氪网 www.chuanganwang.cn 版权所有
投稿投诉联系邮箱:85 572 98@qq.com