您当前位置:首页 > 热门攻略

昆仑万维开源“Skywork UniPic 2.0”模型 多模态AI领域迎来新突破

发布时间:2025-08-13 16:33:06

昆仑万维开源的“SkyworkUniPic2.0”模型,正掀起多模态AI领域新热潮。当下多模态AI应用对模型性能要求渐高,需能应对复杂场景。“SkyworkUniPic2.0”在复杂场景识别上优势显著,无论是混乱的街景图像,还是包含多元素的图表,它都能精准识别关键信息,输出详实文本说明,为智能应用拓展更多可能。

昆仑万维开源“Skywork UniPic 2.0”模型

“Skywork UniPic 2.0”模型

昆仑万维集团在其SkyWork AI技术发布周活动步入尾声之际,震撼宣布了一项开源创新——「Skywork UniPic2.0」模型的问世。这一多模态人工智能领域的最新力作,预示着技术边界的又一次飞跃。

Skywork UniPic2.0,作为一款集理解、生成与编辑于一体的多模态模型,其核心竞争力在于高效训练和推理框架的构建。该模型巧妙融合了生成与编辑模块的轻量化设计,以及多模态理解模型的联合训练策略,旨在打造“高效、高质、统一”的智能化体验。

“Skywork UniPic 2.0”模型核心架构

模型的核心架构由三大模块支撑:生图编辑、统一模型能力,以及生图编辑后的训练流程。基于SD3.5-Medium架构的Skywork UniPic2.0,实现了从文本输入向文本与图像双重输入的跨越,将单纯的生图能力拓展至兼具生成与编辑的双重功能。通过冻结生图编辑模块,结合多模态模型Qwen2.5-VL-7B与Pre-Train连接器,模型进一步整合了理解、生成与编辑的一体化能力。经由连接器与编辑模块的联合微调,最终成就了这一全面而强大的模型。

多模态AI领域迎来新突破 

8月11日,昆仑万维科技股份有限公司(以下简称“昆仑万维”)SkyWork AI技术发布周正式启动。8月11日至8月15日连续五天,昆仑万维将每天发布一款新模型,覆盖多模态AI核心场景的前沿模型。截至目前,昆仑万维已经发布SkyReels-A3、Matrix-Game2.0、Matrix-3D模型。

8月13日,昆仑万维正式开源“Skywork UniPic 2.0”模型。“Skywork UniPic 2.0”模型面向统一多模态建模的高效训练和推理框架,围绕生成和编辑模块轻量化、连接多模态理解模型进行联合训练,构建了理解、生图、编辑一体化的核心能力,旨在实现“高效、高质、统一”的多模态生成模型。

当前,“Skywork UniPic 2.0”及其系列模型已全面开源,涵盖模型权重、推理代码、强化策略等,助力开发者与研究者快速上手并构建多模态应用。

“Skywork UniPic 2.0”模型由三个核心模块组成,分别为生图编辑,统一模型能力以及生图编辑后训练。

生图编辑基于SD3.5-Medium架构将原本只支持文本输入的模型改进成也接受文本图像同时输入,然后通过高质量图像生成和编辑数据的训练将原本生图能力扩展成生图、编辑双能力。

统一模型能力通过冻结生图编辑模块,多模态模型(Qwen2.5-VL-7B),Pre-Train连接器来构建出理解生成编辑一体化能力,再通过连接器和生图编辑模块一起联合微调,实现最终的一体化理解、生图、编辑模型。

为提升生图编辑整体性能,生图编辑后训练设计了基于Flow-GRPO的渐进式双任务强化策略,实现了生成与编辑任务在不互相干扰下的协同优化,在预训练的基础上进一步提升了模型性能。

昆仑万维集团的此番开源,不仅向开发者与研究人员敞开了全面合作的大门,提供了包括模型权重、推理代码及强化策略在内的丰富资源。尤为Skywork UniPic2.0的生成模块基于2B参数的SD3.5-Medium架构训练,其在生图和编辑方面的性能指标,甚至超越了参数规模更大的同类模型。模型还融入了强化学习策略,借助Flow-GRPO首创的渐进式双任务强化策略,显著提升了模型对复杂指令的解析能力,以及图像生成与编辑的一致性。

对于有志于探索多模态人工智能领域的开发者与研究人员而言,Skywork UniPic2.0无疑是一座宝贵的资源宝库。项目主页、技术报告、GitHub地址以及HuggingFace平台上的相关资源,均已全面开放,诚邀各界人士共襄盛举。

相关攻略
热门游戏
更多>
热门分类
软件榜单
热门攻略
更多>