疫情期间互联网虚假新闻检测

北京市政务数据资源网-连环夺宝

新型冠状病毒肺炎(covid-19)疫情威胁着国民健康和社会秩序,准确、及时地向民众传达疫情相关信息对打赢这场人民战争至关重要。然而,一些疫情相关的虚假新闻也在互联网上广泛传播,给防疫工作有序开展带来了极大的阻碍。疫情期间,大蒜、土霉素、维生素c、单枞茶、胡柚、花椒水等二十多种食物、药品被传有预防或治疗新冠肺炎的作用,后被证实无科学依据。这些假新闻给民众科学防疫带来了显著的负面影响。在社交媒体上,疫情有关的虚假新闻内容更新快、扩散速度快,但人工审核存在滞后低效的问题,因此,开展自动化虚假新闻检测工作具有重要意义。

本赛题针对疫情相关虚假新闻检测中面临的两个实际问题:

一、检测时效性要求高。此次新冠肺炎疫情影响广泛,每一条新消息的发布都牵动着全国人民的心,虚假信息易造成爆炸性、病毒式传播。但在传播早期,其传播范围小,社会危害小。因此,对虚假信息进行早期检测并及时阻断其传播,可以极大降低虚假新闻带来的危害。

二、缺少专用数据。短时间内,难以得到训练模型需要的高质量的疫情相关新闻数据。但学术界在多年研究中,已积累了丰富的历史数据。将历史数据上训练的模型迁移到疫情相关新闻的真假检测上,有助于快速获得高性能的特定领域(时间)的检测模型。

本赛题由中国科学院计算技术研究所指导,旨在抑制本次疫情中虚假新闻的传播,营造清朗的网络舆论空间。

本次比赛提供多模态虚假新闻检测数据集,每条数据包括微博正文、评论、图片、所属领域等多个字段,包含三种类别,分别是无需判断,虚假新闻和真实新闻。训练集为和本次疫情无关的数据,评测集为和本次疫情相关的数据,要求参赛者将在其他领域学到的虚假新闻检测能力迁移到疫情领域中。同时,根据提供的评论时间进行划分,能越早进行检测的模型得分将越高。此外,本次比赛还提供一份疫情相关的辟谣数据集,可供灵活使用。

jin, z., cao, j., guo, h., zhang, y., & luo, j. multimodal fusion with recurrent neural networks for rumor detection on microblogs. mm 2017.(多模态虚假新闻检测)

qi p, cao j, yang t, et al. exploiting multi-domain visual information for fake news detection. icdm 2019.(虚假新闻配图检测)

jin, z., cao, j., zhang, y., zhou, j., & tian, q. novel visual and statistical image features for microblogs news verification. tmm, 19(3).(虚假新闻配图检测)

cao j., qi p., sheng q., yang t., guo j., li j. (2020) exploring the role of visual content in fake news detection. in disinformation, misinformation and fake news in social media, lecture notes in social networks. springer.(虚假新闻配图检测综述)

guo h, cao j, zhang y, et al. rumor detection with hierarchical social attention network. cikm 2018.(虚假文本检测)

jin z, cao j, zhang y, et al. news verification by exploiting conflicting social viewpoints in microblogs. aaai 2016.(基于社交上下文的虚假新闻检测)

本次比赛将提供以下数据文件:

多模态虚假新闻检测数据集

本次虚假新闻检测任务中,包含文本和图片两种模态的信息。

1)文本数据

id:新闻id,每条新闻的id均不相同,唯一表征一条新闻;

content: 新闻的文本内容;

picture_lists:新闻所包含的图片id,字段为空则代表该新闻没有图片,若有多张图片则按其在文本中出现的顺序以“\t”分割。

comment_2:新闻的评论(最多两条),字段为空则代表该新闻没有评论,多条评论则以“\t”分割。

comment_all:新闻的所有评论,字段为空则代表该新闻没有评论,多条评论则以“\t”分割。

category: 取值为{疫情,科技,政治,军事,财经商业,社会生活,文体娱乐,医药健康,教育考试},表示新闻所属的领域;其中,训练集中包含除疫情外的所有领域的新闻,测试集只包含疫情相关的新闻,需要注意的是,疫情分类中的新闻按内容仍然可以被分入其它类别,只是考虑到比赛需要单独列出。

ncw_ label:取值为{0,1},0表示需要进行真假判断,1表示不需要进行真假判断。

fake_ label:取值为{0,1},0表示非虚假新闻,1表示虚假新闻。

real_ label:取值为{0,1},0表示非真实新闻,1表示真实新闻。

2)图片数据

图片文件夹中,每张图片均以“id 格式后缀”的形式命名,格式后缀包含“.jpg”,“.jpeg”,“.png”等多种形式,格式后缀也可能为空。

2020/3/5赛题数据训练集 - md5: 1e03db9284eafce357f760fcc404f3e9
2020/3/5赛题数据训练集图片 - md5: 3d11a1202c064ed44a4c811a208f28b1
2020/4/3赛题数据测试集 - md5: 466ac88c9fdd0a02d4a4d085711afce0
2020/3/5赛题数据测试集图片 - md5: bcfd9e82bc08b8492b7937d2134b54e2
网站地图