找技术路线很头大啊,明天还要做一个技术分享(压力山大)…这篇论文《Discourse Element Identification in Student Essays based on Global and Local Cohesion》的训练集是中国学生写的中文文章,虽然对我研究的托福雅思的英文议论文不同,但我想思路和技术方法可能是有一定借鉴作用的。
论文主要是通过探索整篇文章中句子与句子之间关系的内聚性来分析文章的篇章结构。通过这种方式能更好的识别Thesis、Main idea和Conclusion标签类别。论文将篇章结构的识别作为一个分类问题来看待,文章中的每个句子使用分类器(朴树贝叶斯、决策树和SVM等)独立分类,论文主要使用SVM模型和基于线性链的条件随机场模型(CRF)来对句子进行篇章结构标签分类。
1 基本特征:
2 内聚链
这里主要挖掘关系与词汇的内聚特征,主要构建的是在文章所有句子范围内单词的身份链(identity chains)和词汇链(lexical chains)。
3 全局链(global chains)与局部链(local chains)
基于第二部分的内聚链来构造一个句子链(Sentence Chains),一个句子链包含那些相似的身份链和词汇链。
局部链是那些只包含单一子主题的句子链,全局链那些只包含多个子主题的句子链。
图1 训练样本中全局链与局部链图
网格中的每个实体节点表示一个句子中包含来自内聚链的单词。 文章假设一个段落就是一个子主题,所以将那些跨越三个段落的句子链分类为全局链,只在一个段落中的句子链为局部链。
4 基于句子链的内聚特征:
使用条件随机场(CRF)模型对三个不同主题的六种篇章结构分类效果如下图所示:
图2 分类效果图
我们可以发现添加了内聚特征的模型可以明显提升识别Main idea 和 Thesis类别标签的精确度。