首页 AI写作 正文

OpenAI放出逆天语言AI模型,AI学会一本正经胡说八道

OpenAI放出逆天语言AI模型,AI学会一本正经胡说八道

OpenAI发布挑战语言的AI模型,AI学会认真地说废话

智迪西(公众号:zhidxcom)文|于洋,心连心

今天,OpenAI在大洋彼岸推出了重磅AI语言模型。这个故事被编得虚实结合,完全看不出背后有人工智能

不信的话就看吧!

当人类随机告诉AI一条信息:今天,一辆载有核材料的火车车厢在辛辛那提被盗,至今下落不明。

AI跟随这一场景,认真地创作了出来:

这起事件发生在连接卡温顿和阿什兰车站的市中心火车线上。

美国能源部在发给俄亥俄州新闻媒体的电子邮件中表示,正在与联邦铁路管理局合作寻找窃贼。

美国能源部长汤姆·希克斯在一份声明中表示:“这些核材料被盗将对公众、环境健康、劳动力和国家经济产生重大负面影响。”“我们的首要任务是确保被盗物品的安全,确保此类事情不再发生。”

▲GPT-2捏造的新闻

一条假新闻就这样诞生了!但文笔流畅,没有任何矛盾感,让我作为一个作家感到羞愧。

OpenAI在推特上表示,这是他们训练的无监督语言模型,可以生成连贯的段落、执行阅读理解、机器翻译、问答、撰写摘要等,而这一切都不需要特定任务的训练。

它的名字是GPT-2。我们来看看这个语言模型背后的魅力。

现实的人工智能笑话者

几个月前,谷歌推出了BERT语言模型。其3亿参数打破了11项记录,引起了业界的广泛关注。

今天OpenAI推出了一个大规模无监督语言模型,命名为GPT-2。它拥有来自800万个网页的15亿个数据集,其训练目标是根据前一个文本预测下一个文本。

正是数据集的多样性,使得这个简单的目标自然适用于跨领域的应用,这也是它能够应用于“文本创作”的原因之一。

另一个重要的一点是,GPT-2是一种无监督语言模型,可以生成连贯的文本段落并执行阅读理解、机器翻译、问答和撰写摘要,因此这些人工智能能力不需要针对特定任务的训练。可以说是当前AI应用的一大进步。

至于GPT-2的功效,之前的文章已经展示了它写新闻的能力。我们不妨看看它讲故事的能力。

同样的人类给出了暗示:科学家有了一个令人震惊的发现:在安第斯山脉一个偏远且从未探索过的山谷里,生活着一群独角兽。更令人震惊的是,独角兽的英语说得很好。

于是,AI作家又开始写了:

科学家们曾根据它们独特的角将这一群体命名为奥维德独角兽。这些银角物种以前对科学来说是未知的。

如今,近两个世纪后,这个谜团终于被揭开。

拉巴斯大学的进化生物学家豪尔赫·佩雷斯博士和他的几位同伴在探索安第斯山脉时,发现了一个无人居住的小山谷。豪尔赫·佩雷斯注意到这个山谷有一个天然喷泉,周围有两座山峰。

······

佩雷斯和他的朋友们看到这群独角兽感到惊讶。这些生物不需要太多移动就可以从空中看到——它们离得如此之近,甚至可以触摸到它们的角。

在研究这些奇异的生物时,科学家发现它们可以说一些相当标准的英语。······

佩雷斯认为,独角兽可能起源于阿根廷,人们认为这些动物是人类到来之前生活在南美洲的一个失落种族的后裔。

尽管这些生物的起源仍不清楚,但一些人认为这些生物可能在人类文明之前的某个时间就已经存在,是人类和独角兽相遇时创造的。佩雷斯表示,“在南美洲,这样的情况似乎很常见”。

······

▲GPT-2编造的故事全文

如果你不知道这是AI在胡说八道,看完这段话你的反应是什么?

讲故事有原因、有过程、有结果,有大人物的背书和论证。人工智能已经学会了讲故事的能力。如果不挑剔细节,就流畅度而言,AI讲故事的能力已经快赶上普罗大众了。

Twitter上很少有网友对这款文本生成器表示赞赏,但也有网友对AI带来的假新闻和恶意新闻表示担忧,称“又一个重要的潘多拉魔盒被打开了”。

▲深度学习之父Hinton的点评

深度学习之父Hinton也在推特上评论称,这应该能让硅谷独角兽产生更好的成果英语的。

虽然是通用模式,但专业技能可能会让中国教师失业

从技术角度来看,GPT-2是一款AI文本合成器。当你输入一个句子时,模型就像变色龙一样,生成适当的样式和内容,如上所示。

这是因为GPT-2有15亿个参数,这是一个非常大的参数数量。谷歌最强的NLP模型BERT,此前打破了11项NLP记录,参数仅有3.3亿个。

GPT-2是一种基于Transformer的大规模语言模型。它是GPT(上一代GPT-2)模型的扩展版本。其参数和数据量比GPT模型大10倍。

该模型的数据集高达40GB,源自800万条互联网文本。由于数据集的多样性,根据输入内容编写故事只是GPT-2庞大技能树的一个分支。如果算上GPT-2的专业技能,可以让中文老师失业。

例如,GPT-2还可以在不使用相关数据集的情况下训练特定领域(例如维基百科、新闻或书籍)的其他语言模型。

这个设置被称为“零样本”,OpenAI博客给出了当前GPT-2在该设置下在多语言任务上取得的最佳结果。

▲GPT-2在WinogradSchema、LAMBADA等语言建模任务中取得了目前最好的成绩。其中,()表示该领域得分越高越好,(-)表示该领域得分越低越好。

此外,在知识问答、阅读理解、摘要和翻译等语言任务中,GPT-2也可以从原文开始学习,在不使用特定任务训练数据的情况下,在文本连贯性和流畅性方面取得良好的表现。。

然而,这种语言模型也有很多缺点。有时会出现文本重复、建模失败、主题切换不自然等问题。例如,模型有时会写出错误的句子,例如“火灾发生在水下”。这些都是NLP领域一直努力突破的热点问题。

尽管这些下游任务还不是最优的,但GPT-2表明,只要有足够的(未标记的)数据和计算能力,这些任务可以利用无监督技术取得非常好的结果。

一侧是天堂,另一侧是地狱

这样一个万能的通用语言模型会对社会产生什么影响?

OpenAI给出了一些应用方向,比如AI写作助手、无监督语言翻译、更强大的会话机器人、更好的语音识别系统等。

然而,任何先进技术都是一把双刃剑。OpenAI已经开始担心它可能造成的一些负面影响。

无论是制造虚假新闻、捏造信息、冒充他人、诽谤他人,还是生成垃圾邮件、钓鱼邮件,都会对网络环境造成极其恶劣的污染。

网民不得不升级判断力,对网络文字内容保持更加谨慎的态度,这可能会引发更大的信任危机。

由于担心这项新技术创新会被恶意利用,并且在没有更好的对策的情况下,OpenAI决定“仅发布GPT-2的较小版本和示例代码,而不发布数据集、训练代码和GPT”“-2模型重量”。

这意味着这个模型并不是完全开源的。旁观者只能赞叹这个模型的性能有多么惊人,但想要完全重现却很难。

在当今全球鼓励开源共享的趋势下,这一不开放完整模型的决定不出所料地引起了一些质疑。

FacebookAI首席科学家、深度学习专家YannLeCun点赞了KyunghyunCho在Twitter上的抱怨:“如果是这样的话,我觉得我有义务删除迄今为止披露的所有模型权重。”

英伟达机器学习研究负责人阿尼玛·阿南德库马尔(AnimaAnandkumar)态度更为强硬,直接直呼“MaliciousBS”,指责OpenAI站在开源的对立面,批评其“炒作、散布恐慌、阻碍繁衍”。

随着人工智能的进一步发展,关于如何平衡伦理与技术的争论再次摆在我们眼前,值得深思。

附上OpenAI博客链接

https://blog.openai.com/better-language-models/#sample2

附上OpenAI无监督语言模型论文链接

https://d4mucfpksywv.cloudfront.net/better-language-models/languagemodelsareunsupervisedmultitasklearners.pdf

本文转载自互联网,如有侵权,联系删除

本文地址:https://www.5i818.cn/2693.html

相关推荐

发布评论

文章目录