该赛题旨在评测智能问答算法能力,是问题理解、内容搜索、答案提取等多个环节综合能力的集成。任务将提供以疫情为主的政策数据集、用户问题以及标注好的答案片段,参赛者可自行通过对政策数据的分析、处理和组织,利用训练数据集训练智能问答算法,并在测试数据集上进行评测,评测指标为最终返回答案的准确性。
疫情政务问答助手
北京市政务数据资源网-连环夺宝
2020年春节期间,新型冠状病毒感染肺炎疫情迅速向全国蔓延,全国上下共同抗击疫情。新冠疫情不仅对人民生命安全造成了威胁,也对很多企业的生产、发展产生了影响,按照党中央和国务院关于在做好疫情防控前提下,有序做好企业复工复产工作要求,国家各级政府部门、各个行业积极主动应对,相继出台了一系列惠民惠企政策。这些政策内容丰富、涵盖面广,涉及到了稳定就业岗位、减轻企业负担、强化资金补贴、和谐劳动关系等方方面面,给予企业实实在在的支持,切实帮助各类企业(特别是中小微企业)共度疫情难关。
为了更好的帮助各行业企业准确掌握相关政策,疫情政务问答助手旨在通过对惠民惠企政策数据的收集与处理,通过人机对话式问答的方式,对用户提出的政策疑问快速、准确地定位相关政策内容返回给用户。
数据包含3个文件,corpus.csv, train.csv, test.csv.
1.corpus.csv 政策文件内容,使用utf-8编码,用tab分隔。
字段名称字段说明
docid政策文件id
text政策内容
2.train.csv:训练集,使用utf-8编码,用tab分隔。
字段名称字段说明
qid训练问题的id
query用户查询的问题
docid答案参考的政策文件id
answer答案
3.test.csv:测试集,使用utf-8编码,用tab分隔。
字段名称字段说明
qid测试问题的id
query用户查询的问题
提交测试格式为csv格式,使用utf-8编码,tab分隔,包含两个字段。
字段名称字段说明
qid训练问题的id
docid提交答案所在的政策文件id
answer预测的答案
2020/3/3赛题数据训练集 - md5: 5cb1ba79d5ce77985465f6b5b3335e54
2020/3/3赛题数据政策文件内容 - md5: 868e5e195f1ed4862c343a0c6e8c86e5
2020/3/3赛题数据测试集 - md5: 3b8c004d0869f3472f05075a3ebcf421