计算机视觉研究人员开发用于高分辨率二分图像分割的双边参考框架
一个研究团队开发了一种计算机视觉技术,可以在同一框架中执行二分图像分割、高分辨率显著物体检测和隐藏物体检测。他们的新型双边参考框架 (BiRefNet) 能够捕捉微小像素特征,并具有广泛的实际计算机视觉应用潜力。该项研究成果发表在《CAAI人工智能研究》期刊上。
在计算机视觉研究中,图像分割技术涉及将数字图像分离成有意义的部分。通过此过程,图像更易于分析。随着高分辨率图像采集技术的进步,科学家现在能够实现高精度的物体分割。
这项新技术被称为高分辨率二分图像分割 (DIS),三星、Adobe 和迪士尼等公司目前正在使用它。然而,DIS 中使用的当前策略不足以捕捉最精细的特征。为了应对高分辨率 DIS 中存在的这些挑战,研究团队开发了一个双边参考模块。
该团队通过 BiRefNet 实现了高分辨率 DIS 的高精度处理。南开大学教授范登平表示:“通过提出的双边参考模块,BiRefNet 在高分辨率图像上表现出更高的精度,尤其是那些细节精细的图像。我们的 BiRefNet 是迄今为止最好的开源和商用前景物体提取模型。”
该团队的新型渐进式双边参考网络 BiRefNet 使用单独的定位和重建模块来处理高分辨率 DIS 任务。对于定位模块,他们从视觉变换器主干中提取分层特征,然后进行组合和压缩。对于重建模块,他们进一步将内部和外部参考设计为双边参考,其中源图像和梯度图在不同阶段输入解码器。
他们没有将原始图像调整为较低分辨率的版本以确保与每个阶段的解码特征保持一致,而是保留了原始分辨率以获得内部参考的完整细节特征,并自适应地将它们裁剪成补丁以兼容解码特征。
他们的 BiRefNet 提供了一个简单但强大的基线,可执行高质量的 DIS。其在源图像引导下的内部参考填充了精细部分的任务信息,其在梯度监督下外部参考使其能够更多地关注细节更丰富的区域。
由于分割结果极其精准,BiRefNet 的应用场景非常广泛,可以应用于普通分割模型无法处理的场景,比如可以精准找到墙体裂缝,帮助维修,判断何时修复,对网格细密、孔洞密集的物体也可以实现高精度提取。
BiRefNet 已在计算机视觉社区中得到广泛应用。它已集成到 Web 应用程序 ComfyUI 系统中,成为迄今为止最好的图像抠图节点,可实现更好的基于稳定扩散的图像合成。BiRefNet 还广泛用于图像和视频中的人体或肖像分割。
展望未来,团队计划将 BiRefNet 扩展到更多相关任务,包括 DIS、高分辨率显著性物体检测、伪装物体检测、肖像分割和提示引导物体提取。该团队已经为上述大多数任务提供了训练有素的模型。
他们还在努力将 BiRefNet 调整为更轻量级的架构,以便在高分辨率图像上更快地进行推理,并更轻松地在边缘设备上部署。“我们已经提供了不同参数量的 BiRefNet,其中一些已经在 1024 x 1024 分辨率的图像上实现了每秒 30 帧的速度,”范说。
“我们的最终目标是让我们的 BiRefNet 成为一系列相关任务的最佳开源模型,例如前景对象提取、图像抠图和肖像分割,让它变得强大、免费,并永远对所有人开源。”范先生说。
更多信息: Peng Zheng 等,高分辨率二分图像分割的双边参考,CAAI 人工智能研究(2024)。DOI :10.26599/AIR.2024.9150038
页:
[1]