找回密码
 立即注册

QQ登录

只需一步,快速开始

微信登录

只需一步,快速开始

查看: 18|回复: 0

从轻量级 AI 到设计自动化,研究人员介绍 AI 技术的进展

[复制链接]

2733

主题

0

回帖

5466

积分

管理员

积分
5466
发表于 2024-10-30 02:15:38 | 显示全部楼层 |阅读模式 IP归属地:亚太地区
韩国蔚山科学技术大学人工智能研究生院的 Jaejun Yoo 教授和他的研究团队最近在欧洲计算机视觉会议 ( ECCV 2024 ) 上展示了他们关于人工智能 (AI) 技术未来的开创性工作。
ECCV 是全球研究人员的聚集地,在这里,研究人员可以分享研究成果、交流信息,并探讨计算机视觉行业和技术的未来。在本次论坛上,该团队展示了三篇重要的研究论文,突出了在增强 AI 性能、减小模型大小以及使用多模态 AI 技术实现设计流程自动化方面的创新成果。
一项重大成果是将用于图像生成的生成对抗网络 (GAN) 压缩了惊人的 323 倍,同时保持了性能质量。通过采用知识蒸馏技术,研究人员展示了即使在边缘设备或低功耗计算机上也能高效利用人工智能的潜力,从而无需高性能计算资源。
Yoo 教授表示:“我们的研究证明,压缩 323 倍的 GAN 仍能生成与现有模型相当的高质量图像。这一突破为在边缘计算环境和低功耗设备上部署高性能 AI 铺平了道路。”
这项研究的第一作者 Yeo Sang-yeop发表在arXiv预印本服务器上,题为《Nickel and Diming Your GAN:通过知识提炼提高 GAN 效率的双重方法》。他补充道:“我们的目标是通过使用有限的资源实现高性能的 AI 功能,大幅拓宽 AI 应用的范围。”
该团队引入了两项创新技术,即分布匹配高效压缩(DiME)和通过知识交换和学习的网络交互式压缩(NICKEL),旨在通过比较分布而不是单独评估图像来增强模型稳定性。
NICKEL 方法优化了生成器和分类器之间的交互,从而能够在轻量级模型中保持高性能。这些技术的结合使得压缩的 GAN 模型能够继续生成与较大模型生成的图像类似的高质量图像。
另一项重大进展是,Yoo 教授及其团队开发了一种混合视频生成模型 HVDM,即使在计算资源有限的环境中也能高效地生成高分辨率视频。通过将二维三通道表示与三维小波变换相结合,HVDM 能够熟练地处理图像中的全局背景和复杂细节。这篇论文也发布在arXiv预印本服务器上。
尽管现有的视频生成模型严重依赖高性能计算资源,但 HVDM 成功实现了自然、高质量的图像,克服了传统基于 CNN 的自动编码器方法的局限性。
研究人员通过对基准视频数据集(包括 UCF-101、SkyTimelapse 和 Tai Chi)进行严格测试验证了 HVDM 的优越性,其中 HVDM 始终如一地展示出更高质量的视频和逼真的细节。
Yoo 教授强调:“HVDM 代表了一种变革模型,即使在资源受限的环境中也能高效生成高分辨率视频,其应用范围广泛应用于视频制作和模拟等行业。”
在发表于arXiv 的第三篇论文中,研究团队还介绍了一种多模式布局生成模型,旨在以最少的数据输入自动生成广告横幅和网页 UI 布局。该模型同时处理图像和文本,仅根据用户输入生成适当的布局。
由于数据资源有限,以前的模型无法充分整合文本和视觉信息。新模型解决了这一限制,大大提高了广告设计和网页 UI 创建的实用性。通过最大限度地提高文本和图像之间的交互,它可以自动生成无缝反映视觉和文本元素的优化设计。
为了实现此功能,团队将布局信息转换为 HTML 代码。利用来自语言模型的大量预训练数据,他们建立了一个自动生成管道,即使在稀疏数据集的情况下也能产生出色的结果。基准评估显示,与现有方法相比,性能提高了 2,800%。
在预训练过程中,团队利用图像说明数据集,结合深度图和 ControlNet 技术,通过数据增强来提高性能。这种方法显著提高了布局生成的质量,并通过减少数据预处理过程中可能出现的潜在扭曲来创建自然的设计。
Yoo 教授指出: “我们的模型优于需要超过 60,000 个数据点的现有解决方案,仅需 5,000 个样本即可获得有效结果。这项创新不仅可供专家使用,也可供日常用户使用,标志着广告横幅和网页 UI 设计自动化取得了重大进步。”

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|NewCET |网站地图

GMT+8, 2024-11-16 22:51 , Processed in 0.025862 second(s), 21 queries .

Powered by NewCET 1.0

Copyright © 2012-2024, NewCET.

快速回复 返回顶部 返回列表