新的人工智能模型打破了跨模态机器视觉学习的障碍
近日,中国科学院合肥物质科学研究院王洪强教授课题组提出了一种跨模态的宽范围机器视觉AI模型。该模型克服了传统单领域模型在处理跨模态信息的局限性,实现了跨模态图像检索技术的新突破。
跨模态机器视觉是人工智能领域的一大挑战,因为它涉及寻找不同类型数据之间的一致性和互补性。传统方法侧重于图像和特征,但受到信息粒度和数据不足等问题的限制。
与传统方法相比,研究人员发现详细关联在保持不同模态之间的一致性方面更为有效。该研究成果已发布到arXiv预印本服务器。
研究中,团队引入了广域信息挖掘网络(WRIM-Net),该模型通过创建全局区域交互,提取空间、通道、尺度等不同域的详细关联,强调广域范围内的模态不变信息挖掘。
此外,研究团队还通过设计跨模态关键实例对比损失,引导网络有效提取模态不变信息。实验验证表明,该模型在标准和大规模跨模态数据集上均有效,首次在多个关键性能指标上达到 90% 以上。
研究团队表示,该模型可应用于人工智能的各个领域,包括视觉追踪与检索、医学图像分析等。
页:
[1]