参数优化:PSALM 采用了 Swin-Base 结合 Phi-1.5(1.3B 参数)的模型组合,这比传统的 ViT-L 和 Vicuna-7B/Llama2-13B 模型要小巧得多,实现了效率与性能的兼备。 多任务统一:得益于 PSALM 灵活的结构设计,模型能够将多种分割任务的输入形式进行统一,并支持多任务的联合训练,最终取得相互促进的效果。 性能优异:PSALM 不仅在全景分割、交互式分割、指代分割等多个已见分割任务上展现出比肩或超越专家模型的强大性能,还在开放词表、视频目标分割等未见开放场景任务中表现出令人瞩目的零样本泛化能力。
论文标题:PSALM: Pixelwise SegmentAtion with Large Multi-Modal Model 论文地址:https://arxiv.org/abs/2403.14598 代码地址:https://github.com/zamling/PSALM 模型地址:https://huggingface.co/EnmingZhang/PSALM