在科技界掀起新波澜的国产大模型DeepSeek,于1月28日凌晨震撼发布了其最新力作——Janus-Pro多模态大模型,正式进军文本生成图像领域,这一举动无疑为业界带来了巨大惊喜。
据悉,Janus-Pro在Geneval和DPG-Bench两大基准测试中展现出了非凡实力,不仅成功超越了OpenAI的DALL-E 3,还将Stable Diffusion、Emu3-Gen等其他热门模型甩在身后。这一成绩,无疑是对其技术实力的最佳证明。
Janus-Pro采用了MIT开源协议,这意味着它将能够无限制地应用于商业场景,为各行各业提供强有力的技术支持。这一决策,无疑将极大地推动其在市场上的普及和应用。
DeepSeek方面透露,Janus-Pro是其在去年11月13日发布的JanusFlow大模型的高级版本。与前代模型相比,Janus-Pro在训练策略上进行了优化,训练数据也得到了扩展,使得模型规模更加庞大,性能更加卓越。
得益于这些改进,Janus-Pro在多模态理解和文本到图像的指令跟踪功能方面取得了显著进步。同时,它还增强了文本到图像生成的稳定性,使得生成的图像更加清晰、准确。尽管目前Janus-Pro仅能处理384x384分辨率的图像,但考虑到其模型的紧凑性和所展现出的高水平性能,这一成就已经足以令人赞叹不已。
作为一款多模态模型,Janus-Pro的功能远不止于此。它不仅能够根据文本生成图像,还能对图像进行描述、识别地标景点、识别图像中的文字,并能对图片中的知识进行详细介绍。这些功能使得Janus-Pro在多个领域都具有广泛的应用前景。