2.3 归类结果分类
归类结果不一定满足归类公理和类表示公理。根据对归类公理的遵守情况,可将归类结果分类。
一致归类结果(consistent categorization result):如果一个归类结果满足归类公理和类表示公理,则该归类结果是一致的,否则该归类结果称为不一致的归类结果。
一般情况下,归类等价公理总是满足的。因此,在忽略归类等价公理的情形下,归类结果可以进行如下分类。
正则归类结果(proper categorization result):如果一个归类结果满足样本可分性公理和类可分性公理,则该归类结果是正则的。
在现实生活中也有这样的例子。如各级行政区划关系。具体说来,北京市有区和自然村或者街道办事处等行政划分。北京市下设16个区,显然,每个区也至少管辖一个自然村或者街道办事处,每个自然村或者街道办事处也只属于一个北京市的一个区。如果将每个自然村或者街道办事处视为一个样例,每个区视为一个类,这样的行政划分符合样本可分公理和类可分公理,是一个正则归类结果。
重叠归类结果(overlapping categorization result):如果一个归类结果满足类可分性公理但不满足样本可分性公理,则该归类结果是重叠归类结果。如图2.2所示。类A和类B有重合,其重合部分的元素既属于A类又属于B类,并不唯一地属于一个类,因此,违反了类可分性公理,类A和类B组成了一个重叠归类结果。
非正则归类结果(improper categorization result):如果一个归类结果不满足类可分性公理,则该归类结果是非正则归类结果。
图2.2 重叠归类结果
正则归类结果在实际机器学习中很常见,重叠归类结果有时在实际应用中也有用。然而,一个好的归类结果不会是非正则归类结果。一个非正则归类结果意味着至少存在一个空类。当给定数据有好的分类时,一个归类方法不希望生成非正则归类结果。两种特殊的非正则归类结果定义如下:
重合归类结果(coincident categorization result):对,如果,则该归类结果是重合归类结果。
完全重合归类结果(totally coincident categorization result):对,如果,则该归类结果是完全重合归类结果。
类似地,根据归类等价性公理,划分矩阵可分为下面几类:
正则划分(proper partition):U=[uik]c×N是正则划分,如果∀k∃i∀j((j≠i)→(uik> ujk))且∀i∃k∀j((j≠i)→(uik> ujk))。
重叠划分(overlapping partition):U=[uik]c×N是重叠划分,如果∃k∃j((j≠i)∧(uik=ujk=maxlulk))且∀i∃k∀j((j≠i)→(uik> ujk))。
非正则划分(improper partition):U=[uik]c×N是非正则划分,如果∃i∀k∃j((j≠i)∧(uik≤ujk))。
非正则划分包括几种特殊情形:
覆盖(covering partition):U=[uik]c×N满足∃i∃j(i≠j)∀k(uik≤ujk),U=[uik]c×N称作覆盖。
重合划分(coincident partition):U=[uik]c×N满足∃i∃j(i≠j)∀k(uik=ujk),U=[uik]c×N称作重合划分。
无信息划分(uninformative partition):Uπ=[π1,π2,…,πc]T⊗ 11×N称作无信息划分,其中⊗表示Kronecker乘积,1表示全1向量。
绝对无信息划分(absolute uninformative partition):Uc-1=[c-1]c×N称作绝对无信息划分。
当一个归类结果不是正则的,理论上有一些对象属于两个或更多的类。即,一些对象处于一些类的边界。基于这个事实,下面给出边界集的定义。
边界集(boundary set):如果N个对象的归类结果为,该结果的边界集定义为:
其中,|Y|表示Y的基。
边界集也可以用相异性映射定义。边界集非空时,归类结果不满足样本可分性公理。