知识图谱比赛题目详细要求

in 机器学习 with 0 comment view 35 times

网址:

https://tianchi.aliyun.com/competition/information.htm?spm=5176.100067.5678.2.793b24c0dG2MF4&raceId=231687

一、初赛赛题评判标准:

1.论文文献的文本$:\mathcal{D} = \left\{ d_{1},d_{2}\cdots d_{N} \right\},\ \ \ \ d_{i} = \left\langle w_{i1},w_{i2}\cdots w_{\text{in}} \right\rangle$,为第i篇文档

2.预定义实体类别:$C = \{ c_{1},c_{2}\cdots c_{m}\}$ $c_{i}$是预设的实体, $m_{i}$是文档中提到的实体,其是一个三元组

实体提及和所属类别对的集合:$\{\left\langle m_{1},c_{m_{1}} \right\rangle,\left\langle m_{2},c_{m_{2}} \right\rangle,\cdots\left\langle m_{p},c_{m_{p}} \right\rangle\}$,其中$m_{i} = \left\langle d_{i},b_{i},e_{i} \right\rangle$是出现在$d_{i}$中的医疗实体提及(mention),$b_{i}$和$e_{i}$分别表示$m_{i}$在$d_{i}$中的起止位置,$c_{m_{i}} \in C$表示实体所属的预定义类别。要求实体提及之间不重叠,即$e_{i} < b_{i + 1}$。

采用F1-Measure作为评测指标。参赛系统的输出结果集合记为$S = \{ s_{1},s_{2}\ldots s_{m}\}$,人工标注的结果(Gold Standard)集合记为$G = \{ g_{1},g_{2}\ldots g_{n}\}$。集合元素为一个实体,表示为四元组$\left\langle d,\text{pos}_{b},\text{pos}_{e},c \right\rangle$,$d$表示文档,$\ \text{pos}_{b}$和$\text{pos}_{e}$分别对应实体提及在文档$d$中的起止下标,$c$表示实体提及所属预定义类别。按照如下指标进行评价。

我们定义$s_{i} \in S$与$g_{j} \in G$等价,当且仅当:

$$s_{i}.d = g_{j}.d$$

$$s_{i}.\text{pos}_{b} = g_{j}.\text{pos}_{b}$$

$$s_{i}.\text{pos}_{e} = g_{j}.\text{pos}_{e}$$

$$s_{i}.c = g_{j}.c$$

基于以上等价关系,我们定义集合$S$与$G$的严格交集为$\cap_{s}$。由此得到评测指标:

$P_{s} = \frac{|S \cap_{s}G|}{|S|}$, $R_{s} = \frac{|S \cap_{s}G|}{|G|}$, $F_{1s} = \frac{2\text{PR}}{P + R}$

二、复赛赛题评判标准:

预定义实体关系类别:$R = \{ r_{1},r_{2}\cdots r_{s}\}$

集合元素为一个实体提及,表示为六元组$\left\langle d,\text{pos}_{b1},\text{pos}_{e1},\text{pos}_{b2},\text{pos}_{e2},r \right\rangle$

定义$s_{i} \in S$与$g_{j} \in G$等价,当且仅当:

$$s_{i}.d = g_{j}\text{.d}$$

$$s_{i}.\text{pos}_{b1} = g_{j}.\text{pos}_{b1}$$

$$s_{i}.\text{pos}_{e1} = g_{j}.\text{pos}_{e1}$$

$$s_{i}.\text{pos}_{b2} = g_{j}.\text{pos}_{b2}$$

$$s_{i}.\text{pos}_{e2} = g_{j}.\text{pos}_{e2}$$

$$s_{i}.r = g_{j}\text{.r}$$

基于以上等价关系,我们定义集合$S$与$G$的严格交集为$\cap_{s}$。由此得到评测指标:

$P_{s} = \frac{|S \cap_{s}G|}{|S|}$, $R_{s} = \frac{|S \cap_{s}G|}{|G|}$, $F_{1s} = \frac{2\text{PR}}{P + R}$

三、选手提交格式

初赛提交文件共四列,分别为:文档编号(数值型),起始位置(数值型),终止位置(数值型),类别(字符型)

初赛提交文件共六列,分别为:文档编号(数值型),起始位置1(数值型),终止位置1(数值型),起始位置2(数值型),终止位置2(数值型),关系类别(字符型)。其中,1是关系的起始实体(关系类别中下划线前部),2是关系的终止实体(关系类别中下划线后部)。

Responses