置信区间:表示样本估计总体平均值范围的区间,用样本信息估计总体信息。置信区间(误差范围):[a,b]->表示样本估计总体平均值范围的区间。置信水平Y%:->表示置信区间包含总体平均值的概率多大。区间包含总体平均值的概率p(a<样本平均值<b)=Y%
我们用95%置信水平来构造这个区间估计:95%的置信度的意思是如果你从总体中抽取100个不同样本,每个样本都用相同的统计量构造的置信区间(注意:由于样本不相同,这些置信区间的范围也不尽相同),那么有95个置信区间包含了总体参数的真值。如果我们构造出100个这样的置信区间(100个样本),那么会有95个区间会包含这个总体平均值,置信水平是95%。
第一行是3种不同分布类型的总体,用于比较不同类型下的抽样分布。
第二行是当样本大小=2时,样本平均值分布,横轴是平均值,纵轴是该平均值出现了多少次。
第三行是样本大小=5时样本平均值分布,有点接近正态分布了。
第四行是样本大小=30时样本平均值分布,呈现正态分布。
结论:样本=30时接近正态分布,才符合中心极限定理。样本>=30就被定义为大样本,样本<30就是小样本,因为小样本的平均值分布不符合正态分布,小样本的分布符合t分布。t分布是为小样本的置信区间所设计的。
所以根据样本数量的不同分成大样本小样本,两种平均值分布分别是正态分布和t分布,计算置信区间方式也不一样。