基于机器学习的文本自动分类技术介绍
基于机器学习的文本自动分类技术介绍
如今的TC系统应该是一个具有ML和IR功能的,如同从文本里返回信息/知识、文本挖掘[D¨orreetal 1999;Knight1999;Pazienza 1997]。在这里仍然有一些值得考虑的争论关于这两个学科的边界,术语学是一直都在发展之中的。我们可以尝试用“文本挖掘”去描述所有的这些任务,通过分析大量的文本和探测用法模式,尝试取出可能有用的(可能有是仅仅是正确的)信息。根据这个观点,TC系统就是一个文本挖掘的实例。
关于TC系统的文献现在有很多,但是我们还是应该公平地把它们区分开1。虽然有两个国际刊物已经发表了关于这个主题的文章[Joachimsand Sebastiani200 1;LewisandHayes 1994],但是它们都没有系统地描述这个主题:既没有教科书也没有刊物关于TC系统的完整描述,[Manning and Sch¨utze 1999]也只有一章是关于这个主题的。应该注意的是,我们应该提醒读者这个专业术语“文本自动分类”也可以用于文学领域,也就是说,在这里,我们必须区分清楚我们要做的是不同的事。除此以外,(i)对于一个预先给定的分类集合,文档的自动分类任务是我们这篇论文的主题,(ii)这个术语也意味着自动标识这个给定集合(例如[Borko and Bernick 1963]),(iii)根据这个集合的标识自动分组属于这个标识的文档(例如[Merkl 1998;Papka and Allan 1998;Roussinov and Chen 1998]),就是所谓的文本聚类,或者是(iv)设置分组的文本项目,也就是文本的分类和聚类[Manning and Schutze 1999]。