最近,快手打造的文生图大模型——可图(Kolors),正式公开宣布开源,迅速掀起一股旋风。这位才华横溢的“艺术家”,不但善于绘制万物,而且深谙中国文化精髓,不仅善“画” 而且能“书” ,写起汉字来也丝毫没有压力。评测视频、教学指南、创意分享……社会化媒体上,围绕可图的话题如火燎原。
据了解,可图(Kolors)的生成效果已经超越了现有的开源模型如SD3,并达到了与闭源商业模型Midjourney-v6相当的水平。可图(Kolors)具有强大的复杂语义理解能力,画质达到了摄影级别的质感,并且支持英文和中文汉字的生成。这样强大的模型还是开源的,能不令人心动吗?
在AI大热的当下,快手选择了一条低调务实的道路。在近期举行的世界人工智能大会(WAIC)上,快手的大模型家族首次集体亮相,并宣布可图(Kolors)正式开源,引发了轰动。
可图(Kolors)的这次开源包括了模型权重、完整代码和技术报告,内容非常全面,目前已在Huggingface平台和GitHub上线。供个人开发者免费使用,获得登记许可即可商用。
同时,可图(Kolors)在Huggingface也登上了模型Trending榜首,截止至发稿前已下载上万次。
这也展示了开源社区对可图(Kolors)的热烈反响。许多开发者在实测和体验了可图(Kolors)的生成效果后,给予了极高的评价。
在X平台,来自Stability AI和Huggingface等企业的开发者第一时间测试、宣传、点赞可图(Kolors)。
可图(Kolors)的开源之所以能获得如此多的关注,离不开其顶级的性能表现。在智源FlagEval文生图模型第三方评测榜单中,可图(Kolors)以主观综合评分75.23分的成绩,排名全球第二,仅次于闭源的DALL-E 3。特别值得一提的是,在主观图像质量方面,可图(Kolors)表现尤为突出,评分排名第一,显著优于其他开源和闭源模型。
在50位人类图像专家评估中,可图(Kolors)也表现出色,超越了一众开源模型,与Midjourney-v6性能相当,并且在视觉吸引力方面显著领先。
架构方面,根据官方技术报告,可图(Kolors)使用了隐空间扩散模型,并创新地使用了大语言模型进行文本表征。这使得可图(Kolors)具备了复杂长文本理解能力。更长的文本提示词允许包含更多的细节和上下文信息,从而使模型能够更准确地理解和生成图像内容,并且可图(Kolors)支持中英文文字生成。此外,可图(Kolors)通过采用两阶段渐进训练策略(概念学习和美感提升),在图像美感和质量上达到了国际领先水平。
可图(Kolors)使用大语言模型进行文本表征,同时构建了精细化图像文本描述数据集,在复杂文本理解能力上取得了显著突破。从下图中我们大家可以看到,可图(Kolors)能够正确绘制中国女性形象的所有元素和细节,从黑色皮夹克、时尚太阳镜到鲜艳的红裙和醒目的口红,无一遗漏。在文生图模型常见的颜色混淆难题上,可图(Kolors)也表现优异。即便面对多个主体和繁复的色彩描述,模型依然能够准确无误地进行绘制,将文字描述转化为视觉呈现。
一个时髦的中国女人在上海的街道上,阳光照在她身上,她穿着黑色皮夹克,红色长裙,背着一个黑色背包,戴着太阳镜,涂着红色的口红,她走起路来自信而随意
作为一款国产的文生图大模型,可图(Kolors)在理解和呈现中国特色元素方面表现得尤为出色。如下图所展示的,无论是北京奥运会的标志性建筑“鸟巢”、上海现代化都市风貌的代表“外滩”、彰显古代建筑智慧的“天坛”,还是中华文明的象征“长城”,可图(Kolors)都能以很高准确度和细腻度进行再现。
可图(Kolors)的一大技术亮点是支持中文汉字生成。虽然,DALL-E 3和SD3支持英文文字生成,但可图(Kolors)是第一个原生支持中文文字生成的文生图模型。
根据硅星人的实测,可图(Kolors)生成中文文字的效果已经相当惊艳。不仅仅可以准确绘制不太常见汉字(如:硅),也支持中英文同时绘制,且文字与背景之间的贴合感弱。
面对SD3宣传中的高难度复杂提示,可图(Kolors)依然不在话下。模型能够精准捕捉并呈现提示中的各种复杂属性,包括具体数量、精确位置、丰富色彩、英文字母、中文汉字,以及数字概念。
在大语言模型的加持下,可图(Kolors)仿佛拥有一个能够深入解析人类语言的“大脑”,能够迅速理解并准确执行各种复杂的视觉创作指令。这再次印证了可图(Kolors)强大的复杂语义理解能力。
可图(Kolors)能够生成具有摄影级画面质感的图像,这一效果得益于海量训练数据的支持,以及训练策略的优化。
具体来看,可图(Kolors)训练分为两个阶段:概念学习和质量微调。首先,可图(Kolors)从大规模图像-文本对中学习各种知识。接下来,团队使用高质量、高美感的数据对模型进行微调,以提升图像的精细度和美感。同时,可图(Kolors)引入了一种新的加噪策略,使其在高分辨率图像的处理上表现更好。这一系列优化明显提升了模型生成图像的质量和视觉效果,让可图(Kolors)生成的图片具备摄影级的画质质感。
凭借其卓越的模型能力,可图(Kolors)的开源引发了全球社区广泛关注。而实际上,可图的文生图能力已经应用到快手的多个下游业务中。
例如在非真人IP形象定制中,用户都能够根据具体需求生成独特的非真人IP形象,这些形象不仅仅具备高度的视觉吸引力,还能按照每个用户的指令进行个性化调整和优化。这一应用不仅提升了内容创作的效率和质量,还为品牌和个人IP的打造提供了新的可能性。
可图(Kolors)通过人像ID保持功能,能够在生成图像时保持用户的独特面部特征,同时支持多种风格化人像的生成。用户都能够在不一样的风格的虚拟形象中自由切换,例如卡通风、油画风、赛博朋克风等,不仅满足了用户多样化和个性化的表达需求,还可以衍生出诸如多风格合成、夸张表情定制、写真定制等趣味玩法。
借助可图(Kolors)的能力,用户都能够在虚拟环境中试穿不同的服装和配饰,实时查看效果。这一功能不仅提升了用户的购物体验,还大幅度提升了商品的展示效果和吸引力。商家可以依据用户的个性化需求,自动生成多样化的商品图片和展示素材,从而更精准地进行市场营销,真正的完成千人千面的商品素材生成。
近段时间,开源社区的明星公司Stability AI经历了剧烈动荡。Stability创始人兼CEO Emad Mostaque于3月辞职,高层及核心技术人员相继离职,甚至公司传出寻求“卖身”的消息,使得业内人士担忧这可能是Stability AI的最后一舞。然而,在开源社区遭遇如此重创的时期,快手选择将可图(Kolors)开源,也因此成为了业界关注的新焦点。
快手此次开源的可图(Kolors),不仅在效果上超越了开源的Stable Diffusion 3,还同时支持中英双语生成,并且支持中英文文字绘制,出图质量达到国际领先水平,比肩闭源商用模型。与此同时,快手也展示了对开源技术的坚定承诺,计划陆续开源可图(Kolors)的相关应用组件,如ControlNet、LORA、IP-Adapter等,以丰富其开源生态。
同时,我们也欣喜的观察到,已经有不少开发者开始实现基于可图(Kolors)的相关应用。相信在开源社区的共同努力下,可图(Kolors)的开源生态会慢慢的完善。
总体来看,可图(Kolors)开源展示了快手在AI技术领域的开放态度和技术能力。快手希望能够通过开源来推动文生图大模型社区的发展,为企业与开发者提供强大的工具来开发自己的应用和产品。未来,随着慢慢的变多的企业和开发者开始使用可图(Kolors),我们也可以期待整个文生图大模型社区将迎来新的发展契机。
在当今AI大潮汹涌的时代,前沿技术的光环耀眼又令人迷惑,吸引着无数企业投身其中,一方面热情高涨,另一方面又显露出急于求成。无论是大语言模型还是生成式AI,技术的最终价值都在于它如何改善人类的生活和工作方式。只有那些能够在喧嚣中保持清醒,始终聚焦于解决实际问题的公司,才有机会在下一个时代站住脚跟。
快手在AI大模型领域展现出低调、高标准和开放的态度。他们不搞期货,也不玩花活。可图(Kolors)这样的模型正在真实地使用户得到满足需求和商业转化,并通过开源的方式回馈社区。
纵观整个互联网行业的发展历史,每一次技术革新都与内容形态的演进紧密相连,当生成式AI和推荐算法更加紧密的结合,短视频平台与AI大模型的结合将成为下一个重大的技术融合方向。可图(Kolors)的开源和落地,已经让我们正真看到了这种预兆,接下来就看快手能否抓住这个创造革命的机会了。
目前可图大模型的各项功能已经集成至可灵AI中,普通用户都能够直接通过可灵AI官方网站和可图大模型微信小程序免费使用各项功能。
上一篇:黑马大赛现场_创业家_i黑马