第一个中文多项选择阅读数据集：BERT的最高成绩只有68%，86%的问题需要先验知识-量子比特

2023-04-18 09:07:42 栏目 : 网络动态围观 : 0次

舔过基准的BERT等NLP模型似乎没有那么强。

因为你会遇到一个名为“中文”的数据集

康奈尔大学留学生第一次阅读了自由形式的中文多选题的数据集。86.6%的问题需要书面知识。

在这个数据集中，每个模型的正确率都高达68%，与96%的人有很大的差距。

数据集3

机器阅读的最大课题是回答这样的问题，在这一点上中文与英文相比相当差，但一个是缺乏专业的数据集。

此数据集被命名为C3（free-form multiple-choicechinese machine reading Comprehension dataset）

收集的主要是自由形式的复数选择题，阅读材料来自汉语水平考试和民族汉语考试，包括试卷和练习。

有13369篇文章和19577个问题，其中60%是训练集，20%是开发集，20%是测试集。

数据集可以分为两种类型

正式的文件和口头文件。写的文章比口头写的文章长，但两者都不能成为机械地阅读长文章的训练数据集。

数据集将按以下方式合并：。

需要事先了解的问题分为10类

研究人员分析了需要先验的知识来回答哪些问题。如果某个问题在文章中一致，回答时几乎不需要先验的知识。需要先验知识的问题分为三类。

1、关于语言知识：需要词汇/语法知识，如：习语、谚语、否定语、反义词、同义词、单词可能的语义和语法转换。

2、关于特定领域：需要，但不限于这些领域的概念、概念定义和特性以及概念之间关系的一些事实知识。

3、一般世界：我们需要关于世界如何工作的一般知识，或者被称为常识的东西。这个数据集主要指的是即使不用百科全书的假设来说明读者也知道的知识。

在第三种类型中，我们将问题分为八个子类型。

1、计算：数值计算和分析。

2、内涵：关于对某物或某人包含的情感，情感和语调

3、因果：事件B会引起事件A，经常用于“为什么”这个问题。

4、暗示：要点、建议、意见、事实或事件在文本中没有明确表达

5、部分和整体：你需要知道A是B的一部分。

6、情境：观察人类的行为和活动，以及相应的时间/位置信息。也知道参加者的个人信息（职业、学历、性格、心理身体状态等）、参加者之间的关系性等。

7、前提：如果A不发生，B就不会发生。

8，其他

基于支持回答的最小语句数。研究人员把所有的问题分为三类：单一、多个和独立

所有问题的分类和标注如下表所示。

进行着与人类相差甚远的训练

通过使用现有方法和神经网络模型对数据集进行训练，结果如下：。

语言模型的预训练效果与基于规则的方法和基于bi-lstm的模型相比有很大的优势，但即使是正确率最高的模型也有68%，96%的人有很大的差别。

我们需要开发更好的模型

是传送门

https：//github.com/nlpdata/c3

展开剩余内容

分享到：

标签数据知识问题需要

上一篇：商汤入局围剿Deepfake：推出迄今为止最大的面部伪造检测数据集，包含6万个视频-量子位下一篇：图森创立团队反击！运用多数投票权改组董事会，回归管理一线-量子位，

第一个中文多项选择阅读数据集：BERT的最高成绩只有68%，86%的问题需要先验知识-量子比特

猜你喜欢

618笔记本推荐指南 3款4000元轻薄本不能错过

2023年广东艺术类大学排名一览表

不再 Pixel、三星独占：Android 11 为所有手机带来无线 Android Auto 功能

一公司推出奢华版苹果iPhone 11 Pro，售价约人民币2.6万元起

推荐文章

网站分类

热门浏览

热门标签