每日学术速递3.22
创始人
2025-06-01 13:22:50

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理 

Subjects: cs.CV

1.DS-Fusion: Artistic Typography via Discriminated and Stylized Diffusion

标题:DS-Fusion:通过辨别和程式化扩散的艺术排版

作者:Maham Tanveer, Yizhi Wang, Ali Mahdavi-Amiri, Hao Zhang

文章链接:https://arxiv.org/abs/2303.09604

项目代码:https://ds-fusion.github.io/

摘要:

        我们介绍了一种新颖的方法,通过对一种或多种字母字体进行风格化来自动生成艺术排版,以直观地传达输入词的语义,同时确保输出保持可读性。为了解决我们手头任务的各种挑战,包括相互冲突的目标(艺术风格化与易读性)、缺乏基本事实和巨大的搜索空间,我们的方法利用大型语言模型来桥接文本和视觉图像以进行风格化,并建立一个无监督的具有扩散模型骨干的生成模型。具体来说,我们在潜在扩散模型 (LDM) 中使用去噪生成器,并关键添加了一个基于 CNN 的鉴别器,以将输入样式适应输入文本。鉴别器使用给定字母/单词字体的光栅化图像作为真实样本,并将去噪生成器的输出作为假样本。我们的模型被创造为 DS-Fusion,用于区分和程式化的扩散。我们通过大量示例、定性和定量评估以及消融研究展示了我们方法的质量和多功能性。用户研究与包括 CLIPDraw 和 DALL-E 2 在内的强基线以及艺术家制作的排版进行比较,证明了 DS-Fusion 的强大性能。

2.HIVE: Harnessing Human Feedback for Instructional Visual Editing

标题:HIVE:利用人类反馈进行教学视觉编辑

作者:Jiayu Jiao, Yu-Ming Tang, Kun-Yu Lin, Yipeng Gao, Jinhua Ma, YaoWei Wang, Wei-Shi Zheng

文章链接:https://arxiv.org/abs/2303.09618

摘要:

        结合人类反馈已被证明对于使大型语言模型生成的文本与人类偏好保持一致至关重要。我们假设最先进的教学图像编辑模型,其中输出是根据输入图像和编辑指令生成的,同样可以从人类反馈中受益,因为它们的输出可能不符合用户的正确指令和偏好.在本文中,我们提出了一个新的框架来利用人类反馈进行教学可视化编辑 (HIVE)。具体来说,我们收集人类对编辑图像的反馈,并学习奖励函数来捕捉潜在的用户偏好。然后,我们介绍了可扩展的扩散模型微调方法,该方法可以根据估计的奖励结合人类偏好。此外,为了减轻数据限制带来的偏差,我们贡献了一个新的 1M 训练数据集、一个用于奖励学习的 3.6K 奖励数据集和一个 1K 评估数据集,以提高教学图像编辑的性能。我们在定量和定性方面进行了广泛的实证实验,表明 HIVE 在很大程度上优于以前最先进的教学图像编辑方法。

3.FreeDoM: Training-Free Energy-Guided Conditional Diffusion Model

标题:FreeDoM:无训练能量引导条件扩散模型

作者:Jiwen Yu, Yinhuai Wang, Chen Zhao, Bernard Ghanem, Jian Zhang

文章链接:https://arxiv.org/abs/2302.01660v2

项目代码:https://github.com/ysig/learnable-typewriter

摘要:

        最近,条件扩散模型因其出色的生成能力而在众多应用中受到欢迎。然而,许多现有方法需要训练。他们需要训练一个依赖时间的分类器或一个依赖条件的分数估计器,这增加了构建条件扩散模型的成本,并且不方便在不同条件下迁移。目前的一些工作旨在通过提出免训练解决方案来克服这一限制,但大多数只能应用于特定类别的任务,而不适用于更一般的条件。在这项工作中,我们提出了一种用于各种条件的无训练条件扩散模型 (FreeDoM)。具体来说,我们利用现成的预训练网络(例如人脸检测模型)来构建与时间无关的能量函数,该函数无需训练即可指导生成过程。此外,由于能量函数的构建非常灵活并且适应各种条件,我们提出的 FreeDoM 比现有的免训练方法具有更广泛的应用范围。 FreeDoM 的优势在于其简单性、有效性和低成本。实验表明,FreeDoM 在各种条件下都有效,适用于不同数据域(包括图像和潜在代码域)的扩散模型。

更多Ai资讯:公主号AiCharm
在这里插入图片描述

相关内容

热门资讯

【实验报告】实验一 图像的... 实验目的熟悉Matlab图像运算的基础——矩阵运算;熟悉图像矩阵的显示方法࿰...
MATLAB | 全网最详细网... 一篇超超超长,超超超全面网络图绘制教程,本篇基本能讲清楚所有绘制要点&#...
大模型落地比趋势更重要,NLP... 全球很多人都开始相信,以ChatGPT为代表的大模型,将带来一场NLP领...
Linux学习之端口、网络协议... 端口:设备与外界通讯交流的出口 网络协议:   网络协议是指计算机通信网...
kuernetes 资源对象分... 文章目录1. pod 状态1.1 容器启动错误类型1.2 ImagePullBackOff 错误1....
STM32实战项目-数码管 程序实现功能: 1、上电后,数码管间隔50ms计数; 2、...
TM1638和TM1639差异... TM1638和TM1639差异说明 ✨本文不涉及具体的单片机代码驱动内容,值针对芯...
Qt+MySql开发笔记:Qt... 若该文为原创文章,转载请注明原文出处 本文章博客地址:https://h...
Java内存模型中的happe... 第29讲 | Java内存模型中的happen-before是什么? Java 语言...
《扬帆优配》算力概念股大爆发,... 3月22日,9股封单金额超亿元,工业富联、鸿博股份、鹏鼎控股分别为3.0...
CF1763D Valid B... CF1763D Valid Bitonic Permutations 题目大意 拱形排列࿰...
SQL语法 DDL、DML、D... 文章目录1 SQL通用语法2 SQL分类3 DDL 数据定义语言3.1 数据库操作3.2 表操作3....
文心一言 VS ChatGPT... 3月16号,百度正式发布了『文心一言』,这是国内公司第一次发布类Chat...
CentOS8提高篇5:磁盘分...        首先需要在虚拟机中模拟添加一块新的硬盘设备,然后进行分区、格式化、挂载等...
Linux防火墙——SNAT、... 目录 NAT 一、SNAT策略及作用 1、概述 SNAT应用环境 SNAT原理 SNAT转换前提条...
部署+使用集群的算力跑CPU密... 我先在开头做一个总结,表达我最终要做的事情和最终环境是如何的,然后我会一...
Uploadifive 批量文... Uploadifive 批量文件上传_uploadifive 多个上传按钮_asing1elife的...
C++入门语法基础 文章目录:1. 什么是C++2. 命名空间2.1 域的概念2.2 命名...
2023年全国DAMA-CDG... DAMA认证为数据管理专业人士提供职业目标晋升规划,彰显了职业发展里程碑及发展阶梯定义...
php实现助记词转TRX,ET... TRX助记词转地址网上都是Java,js或其他语言开发的示例,一个简单的...
【分割数据集操作集锦】毕设记录 1. 按要求将CSV文件转成json文件 有时候一些网络模型的源码会有data.json这样的文件里...
Postman接口测试之断言 如果你看文字部分还是不太理解的话,可以看看这个视频,详细介绍postma...
前端学习第三阶段-第4章 jQ... 4-1 jQuery介绍及常用API导读 01-jQuery入门导读 02-JavaScri...
4、linux初级——Linu... 目录 一、用CRT连接开发板 1、安装CRT调试工具 2、连接开发板 3、开机后ctrl+c...
Urban Radiance ... Urban Radiance Fields:城市辐射场 摘要:这项工作的目标是根据扫描...
天干地支(Java) 题目描述 古代中国使用天干地支来记录当前的年份。 天干一共有十个,分别为:...
SpringBoot雪花ID长... Long类型精度丢失 最近项目中使用雪花ID作为主键,雪花ID是19位Long类型数...
对JSP文件的理解 JSP是java程序。(JSP本质还是一个Servlet) JSP是&#...
【03173】2021年4月高... 一、单向填空题1、大量应用软件开发工具,开始于A、20世纪70年代B、20世纪 80年...
LeetCode5.最长回文子... 目录题目链接题目分析解题思路暴力中心向两边拓展搜索 题目链接 链接 题目分析 简单来说࿰...