首页 论文改写 正文

2023年3月的10篇论文推荐

2023年3月的10篇论文推荐

2023年3月10篇推荐论文

3月份有很多重大产品发布,包括刚刚发布的GPT4、Meta发布后不久被泄露的LLaMA、midjourneyV5、ChatGPTAPI(非常便宜)等等。

但这篇文章整理了本月应该阅读的10篇论文,其中将包括多模态语言模型、扩散模型和机器翻译等主题。

1.LLaMA:开放且高效的基础语言模型

雨果·图夫龙、蒂博·拉夫里尔、戈蒂埃·伊扎卡尔、泽维尔·马蒂内、玛丽-安妮·拉肖、蒂莫西·拉克鲁瓦、巴蒂斯特·罗齐埃、纳曼·戈亚尔、埃里克·汉布罗、费萨尔·阿扎尔、奥瑞利安·罗德里格斯、阿曼德·朱兰、爱德华·格雷夫、纪尧姆·兰普尔

LLaMA是开源的,并且开放了模型权重,但是需要申请才可以下载。不过,有些网友已经将其提供给公众下载,这对我们来说是一件好事。该模型在超过万亿代币上进行了训练,主要包括以下模型:

这些模型是在完全公开的数据上进行训练的,并且在各种QA和常识推理任务中,它们在零样本和少样本样本中都取得了出色的性能。

这些开源模型既没有经过微调,也不是基于RLHF,因此我们仍然需要自己对其进行调优。这也适合我们弯道超车。我们之前已经公布了下载地址。如果您有兴趣,可以查看一下。

2.一致性模型

杨松,PrafullaDhariwal,MarkChen,IlyaSutskever。

扩散模型的计算非常耗时,因为它们需要对解码输出进行多次迭代,这使得它们比单个前向传递更具表现力。但这使得它们非常慢,与GAN和VAE不同。

本文提出学习一个模型,该模型可以预测任何深度级别的扩散过程的输出(见下图)。

构建这些模型的关键是要认识到任何跳跃f(x,t)都需要与其步骤的组合保持一致;当从噪声到数据时,不同的跳跃需要最终得到相同的图像;这就是为什么它们需要保持一致,所以它被称为ConsistencyModels。

之前的ProgressiveDistillation研究中已经展示了一种细化扩散模型以需要更少解码步骤(例如仅4个)的方法,但在本文中,提出了一种训练独立一致性模型的方法。

3.PaLM-E:一个体现多模态语言模型

DannyDriess、FeiXia、MehdiS.M.Sajjadi、CoreyLynch、AakankshaChowdhery、BrianIchter、AyzaanWahid、JonathanTompson、QuanVuong、TianheYu、WenlongHuang、YevgenChebotar、PierreSermanet、DanielDuckworth、SergeyLevine、VincentVanhoucke、KarolHausman、MarcToussaint,克劳斯·格雷夫,安迪·曾,伊戈尔·莫达奇,皮特·弗洛伦斯。

这时Google的多模态模型,为了对图像进行编码,他们使用了视觉变换器(ViT)和编码文本PaLM,模型蔬菜高达5620亿(分别为22B540B)。

尽管这项工作标榜自己是一个端到端的解决方案,但现实是它仍然严重依赖传统技术,并且语言模型仅提供高级操作指令。

4.情境教学

SeonghyeonYe、HyeonbinHwang、SoheeYang、HyunguYun、YireunKim、MinjoonSeo。

指令调优是一种在训练语料库中以自然语言指令的形式包含标记数据集的技术,该技术已被证明可以推广到训练任务之外的新任务,并且在人类给出指令时使LM更可用。

本文研究了在提示中完成此操作时会发生什么情况;该模型给出了各种其他语言任务的示例,然后提示执行新任务,而不是添加手头任务的示例(即更少定量学习)。这再次证明可以通过情境学习引入非常复杂的信息

5.GPT模型在机器翻译方面有多好?综合评估

AmrHendy、MohamedAbdelrehim、AmrSharaf、VikasRaunak、MohamedGabr、HitokazuMatsushita、YoungJinKim、MohamedAfify和HanyHassanAwadalla。

ChatGPT最被低估的技能之一是翻译。论文将测试GPT模型的性能是否接近SOTA和传统机器翻译模型,并发现现有的神经机器翻译和基于GPT的翻译表现出互补的优势。

考虑到GPT不是在平行语料库上进行训练,它避免了常见的陷阱,例如噪声或低质量样本的数据内存问题,或长尾错误,例如物理单位或货币的转换。

翻译性能很大程度上来自无监督修改、指令调优和RLHF,这并不是专门针对翻译的,但所取得的结果令人印象深刻且令人兴奋。

6.Composer:具有可组合条件的创意且可控的图像合成

黄良华、陈迪、刘宇、沉宇军、赵德利、周景仁。

扩散模型的基本优势之一是易于使用条件数据进行训练,这就是它们在文本引导方面如此成功的原因。这项工作将可控性提升到了一个新的水平。作者开发了一种方法,可以在图像生成过程中控制更广泛的图像属性:空间布局、调色板、样式、强度等。

组合性是该模型背后的核心思想,它将图像分解为代表性因素,然后使用以这些因素为条件的扩散模型重新组合输入。图像分解的元素包括标题(文本)、语义和风格(通过CLIP嵌入)、颜色(通过直方图统计)、草图(通过边缘检测模型)、实例(对象分割)、深度图(通过预训练的单目模型)、强度(通过灰度图像)和掩蔽。图像生成可以基于所有这些属性进行调整,并且可以使用先前的输出作为新的条件输入来迭代优化。

这项工作展示了如何设计图像生成技术来更好地控制人类创造力并增强创作过程。

7.Prismer:AVision-LanguageModelwithMulti-ModalExperts

刘诗昆、范林希、EdwardJohns、于志鼎、肖超伟、AnimaAnandkumar

专家系统的回归?本文采用了一种相当结构化的方法来进行多模式语言建模,并带来了一些引人注目的好处:

本文采用结构化方法进行多模态语言建模,与其他模型相比,以少一到两个数量级的数据实现了可比的性能。

“专家”是冻结的计算机视觉模型,在处理图像时输出深度图或对象分割等信息。只有适配器经过培训,允许设计与其他黑盒视觉模型即插即用。

最大的Prismer模型有1.6B个参数,可训练参数只有360M。性能低于大型模型,但效率更高。

Prismer对嘈杂的“专家”表现出很强的鲁棒性,并随着更多/更高质量的专家而改进,展示了其在大规模多模态学习中的实用性。

总的来说,本文提出了一种有效的技术,可以在不降低性能的情况下安全地包含许多模态专家,从而提供一种缩小多模态学习规模的实用方法。

8.增强语言模型:调查

GrégoireMialon、RobertoDessì、MariaLomeli、ChristoforosNalmpantis、RamPasunuru、RobertaRaileanu、BaptisteRozière、TimoSchick、JaneDwivedi-Yu、AsliCelikyilmaz、EdouardGrave、YannLeCun、ThomasScialom。

LM在鲁棒推理和准确性方面的局限性是众所周知的,这就是为什么存在一个活跃的研究领域来增强其通过计算设备的能力,例如,LM是使用编译和运行生成的代码,或调用任何API来收集数据。

检索增强生成(RAG)是最常见的用例之一(我们在我们的平台上使用它,Bing和Google都在积极研究它)。例如,以下是4项检索增强LM(RAG)的研究和比较:

调查提出的一个有趣的观点是,用工具和显式结构增强语言模型使它们更易于解释,因为它们的输出可以明确地归因于它们的模块,这使得它们更适合人类使用。

9.优化算法的符号发现

陈香宁、陈亮、大黄、EstebanReal、王开元、刘耀、HieuPham、XuanyiDong、ThangLuong、Cho-JuiHsieh、YifengLu、QuocV.Le。

Adam一直是我们默认的优化器,Lion可以应用符号搜索来学习训练器函数,该函数根据网络的权重、梯度和学习率输出更新的权重值。这里的学习优化器不是通过梯度下降来学习,而是通过符号发现来学习。该方法在论文所示的实验中效果非常好,与Adam等优化器相比,训练速度提高了约2倍。

Lion在前几天的优化器文章中已经介绍过。个人测试结果并不好。无论如何,我现在正在使用LookaHeadRAdam。如果您需要的话,请自行测试一下。

10.MarioGPT:通过大型语言模型进行开放式文本2级生成

希亚姆·苏达卡兰、米格尔·冈萨雷斯-杜克、克莱尔·格拉努瓦、马蒂亚斯·弗莱伯格、埃利亚斯·纳贾罗、塞巴斯蒂安·里西。

使用GPT-2生成马里奥兄弟世界。作者通过将马里奥兄弟中的元素标记为角色并训练基于文本提示的语言模型,实现了程序内容生成(PCG,基于算法生成游戏内容的想法)。

他们通过进化计算进一步增加了生成关卡的多样性,将MarioGPT嵌入到一个新颖的搜索循环中,该循环对现有关卡进行采样、更改它们,并应用选择标准来保留或丢弃它们。

结果,该关卡的可玩率达到了88%,并且通过文字提示提高了可控性。这只是令人兴奋的、可能更具表现力和个性化游戏体验的开始!

作者:塞尔吉·卡斯泰莱·萨佩

本文转载自互联网,如有侵权,联系删除

本文地址:https://www.5i818.cn/244.html

相关推荐

7VWuYQwlqV

7VWuYQwlqV

超强大的浏览器“下载”扩展插件,IDM也是小弟虽然现在有很多优秀的下载工具,比如大肆宣传的IDM,但雷锋网通常使用浏览器自带的下载管理器...

论文改写 2024.02.23 0 0

网站设计架构与SEO的关系

网站设计架构与SEO的关系

网站设计与SEO的关系SEO(搜索引擎优化)和有效的网站设计齐头并进。好的网站设计是创建一个能够吸引目标受众并让他们采取一些行动的网站。...

论文改写 2024.02.23 0 2

发布评论

文章目录