您的位置:首页>互联网>

Clickbait的秘密曝光了 人类和AI联手改善点击诱饵检测

宾夕法尼亚州立大学和亚利桑那州立大学的研究人员说,人类和机器共同协作,以帮助训练一种优于其他点击诱饵检测器的人工智能模型。他们说,此外,新的基于AI的解决方案还能够分辨出由机器(或机器人)生成的clickbait标题与由人编写的clickbait标题之间的区别。

在一项研究中,研究人员要求人们编写自己的点击诱饵-这是一个有趣但具有误导性的新闻标题,旨在吸引读者点击其他在线故事的链接。研究人员还对机器进行了编程以生成人工点击诱饵。然后,将人和机器的标题作为数据来训练点击诱饵检测算法。

研究人员表示,由此产生的算法预测点击诱饵标题的能力比其他系统好14.5%,研究人员今天(8月28日)在2019年IEEE / ACM国际社交网络分析先进会议(ASONAM)上发布了他们的发现。加拿大温哥华。

该项目的首席研究员,信息科学与技术学院副教授Dongwon Lee表示,除了将其用于点击诱饵检测之外,该团队的方法还可能有助于总体上提高机器学习性能。Lee还是宾夕法尼亚州立大学计算机科学研究所(ICS)的附属机构,该研究所为宾夕法尼亚州立大学的研究人员提供了超级计算资源的访问权限。

“我们成功地证明了机器生成的点击诱饵训练数据可以反馈到训练管道中,以训练各种各样的机器学习模型来提高性能,这一结果非常有趣。” Lee说。“这是解决需要大量高质量培训数据的监督型机器学习的基本瓶颈的一步。”

宾夕法尼亚州立大学信息科学与技术学院的一名博士生Thai Le表示,点击诱饵检测技术的发展面临的挑战之一是缺乏标记数据。就像人们需要老师和学习指南来帮助他们学习一样,人工智能模型也需要带有标签的数据来帮助他们学习建立正确的联系和关联。

Le说:“当我们开始这个项目时,我们意识到的一件事是,我们没有很多积极的数据点。”“为了识别点击诱饵,我们需要让人员标记训练数据。有必要增加正面数据点的数量,以便以后我们可以训练更好的模型。”

尽管在互联网上找到点击诱饵很容易,但点击诱饵的多种变化又增加了另一层难度,据Donald P媒体效应教授兼媒体效应研究实验室联合主任James P. Jimirro的S. Shyam Sundar称。 Bellisario通信学院,以及ICS子公司。

“有一些点击诱饵是列表或列表;有一些点击诱饵被表述为问题;有一些以谁,什么地方,何时开始;还有我们在研究中发现的各种其他种类的点击诱饵。年。”桑达尔说。“因此,要找到足够数量的所有这些类型的Clickbait样本是一个挑战。尽管我们都在抱怨周围的Clickbait数量,但是当您四处获取并标记它们时,这些数据集并不多。”

根据研究人员的说法,该研究揭示了人和机器在创建标题方面的差异。与机器产生的点击诱饵相比,人们产生的标题倾向于在其标题中包含更多确定性词(例如“ that”和“ that”)。

培训似乎也促使点击诱饵的创建有所不同。例如,受过训练的作家(例如记者)比其他参与者倾向于使用更长的单词和更多的代词。记者也可能会使用数字作为头条新闻。

据Sundar称,研究人员计划利用这些发现来指导他们对更强大的假新闻检测系统的研究。

Sundar说:“对我们来说,点击诱饵只是构成虚假新闻的众多因素之一,但是这项研究是确保我们建立良好的点击诱饵检测系统的有用准备步骤。”

为了寻找人类点击诱饵作者进行研究,研究人员从在线人群资源网站Amazon Turk招募了新闻专业的学生和工人。他们从现场招募了125名学生和85名工人。参与者首先阅读了clickbait的定义,然后被要求阅读了简短的文章(约500个单词)。然后要求参与者为每篇文章写一个点击诱饵标题。

机器生成的点击诱饵标题是使用称为变分自动编码器(VAE)生成模型的机器学习模型开发的,该模型依赖于在数据中查找模式的可能性。

研究人员针对在线点击诱饵检测竞赛Clickbait Challenge 2017的顶级系统测试了他们的算法。

宾夕法尼亚州大众传播学的博士候选人Maria Molina也为这项研究做出了贡献。亚利桑那州立大学的计算机科学与工程教授刘欢和计算机科学与工程博士学位候选人凯舒。

国家科学基金会,橡树岭联合大学和海军研究办公室支持这项工作。

免责声明:本文由用户上传,如有侵权请联系删除!