分类变量是说明事物类别的一个名称,其取值是分类数据。 例如,“性别”就是一个分类变量,其变量值为“男”或“女”;“行业”也是一个分类变量,其变量值可以为“零售业”、“旅游业”、“汽车制造业”等。
分类变量的不同取值仅表示个体所属的类别,它们的取值一定是离散的,如性别变量只取男、女两个值,商品的等级变量只取一级、二级、三级等。有时也可以把分类变量的不同取值用数字表示,但这时的数字除了分类以外没有其他的含义。例如,用0表示“男”,用1表示“女”,性别变量就变成取值为0和1的随机变量,但比较性别变量的两个不同值之间的大小没有意义,性别变量的均值和方差也没有意义。
分类变量在现实生活中大量存在,如是否吸烟、性别、是否患病、是否秃顶等。它们在统计学中被广泛应用,特别是在数据分析中,分类变量用于描述和区分不同类别的事物或属性。
分类变量其变量值是定性的,表现为互不相容的类别或属性。中序次测度变量和名义测度变量的处理方法一样,所以一般并不加以区分,序次测度变量常作为名义测度变量来用,把二者合称为分类变量。
变量类型不是一成不变的,根据研究目的的需要,各类变量之间可以进行转化。例如血红蛋白量(g/L)原属数值变量,若按血红蛋白正常与偏低分为两类时,可按二项分类资料分析;若按重度贫血、中度贫血、轻度贫血、正常、血红蛋白增高分为五个等级时,可按等级资料分析(资料是根据临床数据得出)。有时亦可将分类资料数量化,如可将病人的恶心反应以0、1、2、3表示,则可按数值变量资料(定量资料)分析。
无序分类变量是指所分类别或属性之间无程度和顺序的差别。,它又可分为①二项分类,如性别(男、女),药物反应(阴性和阳性)等;②多项分类,如血型(O、A、B、AB),职业(工、农、商、学、兵)等。对于无序分类变量的分析,应先按类别分组,清点各组的观察单位数,编制分类变量的频数表,所得资料为无序分类资料,亦称计数资料。
有序分类变量各类别之间有程度的差别。如尿糖化验结果按-、±、+、++、+++分类;疗效按治愈、显效、好转、无效分类。对于有序分类变量,应先按等级顺序分组,清点各组的观察单位个数,编制有序变量(各等级)的频数表,所得资料称为等级资料。