疫情期间互联网虚假新闻检测

北京市政务数据资源网-连环夺宝

新型冠状病毒肺炎（covid-19）疫情威胁着国民健康和社会秩序，准确、及时地向民众传达疫情相关信息对打赢这场人民战争至关重要。然而，一些疫情相关的虚假新闻也在互联网上广泛传播，给防疫工作有序开展带来了极大的阻碍。疫情期间，大蒜、土霉素、维生素c、单枞茶、胡柚、花椒水等二十多种食物、药品被传有预防或治疗新冠肺炎的作用，后被证实无科学依据。这些假新闻给民众科学防疫带来了显著的负面影响。在社交媒体上，疫情有关的虚假新闻内容更新快、扩散速度快，但人工审核存在滞后低效的问题，因此，开展自动化虚假新闻检测工作具有重要意义。

本赛题针对疫情相关虚假新闻检测中面临的两个实际问题：

一、检测时效性要求高。此次新冠肺炎疫情影响广泛，每一条新消息的发布都牵动着全国人民的心，虚假信息易造成爆炸性、病毒式传播。但在传播早期，其传播范围小，社会危害小。因此，对虚假信息进行早期检测并及时阻断其传播，可以极大降低虚假新闻带来的危害。

二、缺少专用数据。短时间内，难以得到训练模型需要的高质量的疫情相关新闻数据。但学术界在多年研究中，已积累了丰富的历史数据。将历史数据上训练的模型迁移到疫情相关新闻的真假检测上，有助于快速获得高性能的特定领域（时间）的检测模型。

本赛题由中国科学院计算技术研究所指导，旨在抑制本次疫情中虚假新闻的传播，营造清朗的网络舆论空间。

本次比赛提供多模态虚假新闻检测数据集，每条数据包括微博正文、评论、图片、所属领域等多个字段，包含三种类别，分别是无需判断，虚假新闻和真实新闻。训练集为和本次疫情无关的数据，评测集为和本次疫情相关的数据，要求参赛者将在其他领域学到的虚假新闻检测能力迁移到疫情领域中。同时，根据提供的评论时间进行划分，能越早进行检测的模型得分将越高。此外，本次比赛还提供一份疫情相关的辟谣数据集，可供灵活使用。

jin, z., cao, j., guo, h., zhang, y., & luo, j. multimodal fusion with recurrent neural networks for rumor detection on microblogs. mm 2017.（多模态虚假新闻检测）

qi p, cao j, yang t, et al. exploiting multi-domain visual information for fake news detection. icdm 2019.（虚假新闻配图检测）

jin, z., cao, j., zhang, y., zhou, j., & tian, q. novel visual and statistical image features for microblogs news verification. tmm, 19(3).（虚假新闻配图检测）

cao j., qi p., sheng q., yang t., guo j., li j. (2020) exploring the role of visual content in fake news detection. in disinformation, misinformation and fake news in social media, lecture notes in social networks. springer.（虚假新闻配图检测综述）

guo h, cao j, zhang y, et al. rumor detection with hierarchical social attention network. cikm 2018.（虚假文本检测）

jin z, cao j, zhang y, et al. news verification by exploiting conflicting social viewpoints in microblogs. aaai 2016.（基于社交上下文的虚假新闻检测）