本次比赛提供多模态虚假新闻检测数据集,每条数据包括微博正文、评论、图片、所属领域等多个字段,包含三种类别,分别是无需判断,虚假新闻和真实新闻。训练集为和本次疫情无关的数据,评测集为和本次疫情相关的数据,要求参赛者将在其他领域学到的虚假新闻检测能力迁移到疫情领域中。同时,根据提供的评论时间进行划分,能越早进行检测的模型得分将越高。此外,本次比赛还提供一份疫情相关的辟谣数据集,可供灵活使用。
jin, z., cao, j., guo, h., zhang, y., & luo, j. multimodal fusion with recurrent neural networks for rumor detection on microblogs. mm 2017.(多模态虚假新闻检测)
qi p, cao j, yang t, et al. exploiting multi-domain visual information for fake news detection. icdm 2019.(虚假新闻配图检测)
jin, z., cao, j., zhang, y., zhou, j., & tian, q. novel visual and statistical image features for microblogs news verification. tmm, 19(3).(虚假新闻配图检测)
cao j., qi p., sheng q., yang t., guo j., li j. (2020) exploring the role of visual content in fake news detection. in disinformation, misinformation and fake news in social media, lecture notes in social networks. springer.(虚假新闻配图检测综述)
guo h, cao j, zhang y, et al. rumor detection with hierarchical social attention network. cikm 2018.(虚假文本检测)
jin z, cao j, zhang y, et al. news verification by exploiting conflicting social viewpoints in microblogs. aaai 2016.(基于社交上下文的虚假新闻检测)
本次比赛将提供以下数据文件:
多模态虚假新闻检测数据集
本次虚假新闻检测任务中,包含文本和图片两种模态的信息。
1)文本数据
id:新闻id,每条新闻的id均不相同,唯一表征一条新闻;
content: 新闻的文本内容;
picture_lists:新闻所包含的图片id,字段为空则代表该新闻没有图片,若有多张图片则按其在文本中出现的顺序以“\t”分割。
comment_2:新闻的评论(最多两条),字段为空则代表该新闻没有评论,多条评论则以“\t”分割。
comment_all:新闻的所有评论,字段为空则代表该新闻没有评论,多条评论则以“\t”分割。
category: 取值为{疫情,科技,政治,军事,财经商业,社会生活,文体娱乐,医药健康,教育考试},表示新闻所属的领域;其中,训练集中包含除疫情外的所有领域的新闻,测试集只包含疫情相关的新闻,需要注意的是,疫情分类中的新闻按内容仍然可以被分入其它类别,只是考虑到比赛需要单独列出。
ncw_ label:取值为{0,1},0表示需要进行真假判断,1表示不需要进行真假判断。
fake_ label:取值为{0,1},0表示非虚假新闻,1表示虚假新闻。
real_ label:取值为{0,1},0表示非真实新闻,1表示真实新闻。
2)图片数据
图片文件夹中,每张图片均以“id 格式后缀”的形式命名,格式后缀包含“.jpg”,“.jpeg”,“.png”等多种形式,格式后缀也可能为空。