Facebook开发新的神经网络模型,提供更具“吸引力”的照片标题

1年前

        对于那些对Facebook今年在社会中所面临的一系列挑战感到惊叹的人来说,该公司人工智能团队的最新研究成果提供了一个引人入胜的目标:“让AI更有吸引力”。

        Facebook AI部门的研究人员找到了一种培训机器学习模型的方法,不仅可以标注图像说明,而且可以对照片,采用可能对某个人来说更有趣的多种评论风格进行描述。

        传统的机器学习任务成功地将描述自动地放在图像上“对于验证机器是否理解图像的内容很有用”,他们写道,“但它们并没有像人物那样吸引人类。”

        在这种情况下,人格可以从甜蜜到傲慢到焦虑,以及两者之间的各种安排。例如,一张三明治的图片可以被亲切地标记为“这是一个可爱的三明治”,或者更具嘲弄性,“我做的食物比这更好”。

        这项工作是对几种最先进技术的混搭,例如如何确定图像的内容,以及如何生成新颖的句子。

        RedHat?OpenShift应用程序运行时可帮助企业使用云交付模型,并以Redbative方式简化Red Hat OpenShift平台上应用程序和服务的持续交付。Red Hat OpenShift应用程序运行时基于成熟的开源技术,还为开发团队提供了多种现代化选项,以便为现有应用程序平稳过渡到云。

        该论文“通过个性吸引图像字幕”,并发布在arXiv预印本服务上,由Kurt Shuster,Samuel Humeau,胡海良,Antoine Bordes和Facebook AI Research的Jason Weston撰写。

        神经网络模型的作者创建的,其中它们进行复制“TransResNet,”依赖于内置于“编码”的图像数据的几个国家的最先进的方案,包括了“ResNet152”编码器通过Sebastian马塞尔和晏Rodriguez的发达一块在2010年被称为“Torchvision”的软件。

        然后将该编码器的输出给予“具有ReLU [限制线性单位]激活单位的多层感知器”。为此,作者添加了一种人格特质的“嵌入”。接下来,作者训练两个编码器,他们称之为“下一个话语检索任务”,它利用一个数据库,该数据库包含“17亿对话语,其中一个编码上下文,另一个编码下一个话语的候选者”。 “

        然后,作者表明TransResNet在一系列标准基准测试中具有竞争力,甚至更优越,可以为图像应用标题。但是为了表明一个标题的个性可以产生影响,他们让一群人看到人为创作的标题和自动生成的标题,并说出他们发现“更具吸引力”。

        报告作者:“发现以人格为条件的字幕比图像的中性字幕更具吸引力,获胜率为64.5%,使用二项式双尾检验具有统计学意义。”

        在将他们的工作与人们撰写的“引人入胜”字幕进行比较时,研究人员发现“我们最好的TransResNet模型几乎与人类作者相匹配,获胜率为49.5%。

        作者指出,这是进一步发展其模型的基准,“这个领域很快就会出现超人表现的可能性。”

        有趣的是,作者留下了一些他们无法模仿的人格特征,例如“分配中心,无耻,灵活,朴实和不可见”,他们写的所有这些都难以解释。

        关于这个世界的情绪,所有这些都可能有更广泛的教训。在研究组中,人们被要求评估标题的吸引力,作者写道,当他们被提出两个表达没有特定个性的标题时。一方面,这只是一个事实,一个表达积极观点的标题 - “好猫咪!” 或者一些这样的 - 另一方面,人们倾向于发现积极的标题更具吸引力。但是当出现负面字幕时,人们发现它们不像那些只是事实的那样具有吸引力。足够的消极性,可能是外卖。

相关推荐