第三讲 统计的基本概念与计算
学习目标
1掌握总体、个体、样本及统计量的概念
2熟悉数据的整理方法
3掌握样本均值、中位数的概念与计算
4掌握样本极差、方差、标准差的概念与计算
一、 总体和样本
定义 1 从全部对象中按一定方式抽取一部分对象的过程叫抽样。
要进行抽样的原因:
1. 违背研究的本来目的。
2. 客观上对全部对象进行观测或检验是根本不可能的。
3. 对全部对象进行检测需要的成本很高,或者所需时间很长,或者两者兼而有之。
4. 虽然根据抽样调查的数据来推断整体的情况必定带来误差,但在很多情况下,误差可以容忍。
定义 2 在统计学中,所考察对象的全体称为总体,而把组成总体的每个基本元素称为个体。
为了研究的方便,把所关心个体的某个数量指标称为个体,而相应的个体的集合称为总体,一般用随机变量X表示总体。
直观意义:
例如,一批灯泡是总体,其中的每个灯泡是个体;一个城市的人口是总体,这个城市的每个人是个体。
抽样的意义
人们从总体中抽取样本是为了认识总体。即从样本推断总体,如推断总体是什么分布?总体均值为多少?总体的标准差是多少?为了使此种统计推断有所依据,推断结果有效,由样本获得对总体的正确认识,需要对抽样方法有一定的要求。
如为了了解女性所占的比例,不能专门到坦克部队去取样,也不能专门到纺织厂去取样,而应当进行随机抽样。直观地讲就是抽样时,每个个体被抽到的可能性相同。
设抽取个体的次数为 ,用 表示第i次试验相应的随机变量,则共有n个随机变量,他们组成一个n维的随机向量 ,一般把这个随机向量 称作总体X的样本容量为n的样本,而把对应的抽样结果称作样本值,记为 。
定义 3记总体为X,总体的分布函数为 ,一个样本容量为 的样本 如果满足以下两个条件,则称为简单随机样本:
(1) 随机性。 与 具有相同的分布函数 (2) 独立性。 相互独立。
以后,我们把简单随机样本简称为样本。
类似地,获得简单随机样本的抽样方法称为简单随机抽样。
在实际抽样时,也应按此要求从总体中进行抽样。这样获得的样本能够很好地反映实际总体的状态。两个不同的总体,若是按随机性和独立性要求进行抽样,则机会大的地方(概率密度值大〉被抽到样本的个体就多;而机会少的地方(概率密度值小),被抽到样本的个体就少。分布愈分散,样本也就分散;分布愈集中,样本也相对集中。
抽样切忌受到干扰,特别是人为干扰。某些人为的倾向性会使所得样本不是简单随机样本,从而使最后的统计推断失效。
统计学主要的任务
简单地说,总体就是一个分布,不同总体有不同分布。统计学主要的任务就是:
l 研究总体是什么分布?
l 这个总体(分布)的均值、方差(或标准差)各是多少?
例1 对某产品仅考察其合格与否,并记合格品为0,不合格品为1‘
分析:
总体={该产品的全体}={由0或1组成的一堆数}
若记l在总体中所占比例为P,则该总体可用如下二项分布b(1,P)(n=l的二项分布)表示:
X01
P1-PP
例2有两个工厂生产同一产品,甲厂的不合格品率P=0.01,乙厂的不合格品率P=0.08,甲乙两厂所生产的产品(即两个总体)分别用如下两个分布描述:
X甲01
P0.990.01
X乙01
P0.920.08
例3考察某橡胶件的抗张强度。它可用0到∞上的一个实数表示,这时总体可用区间[0,∞]上的一个概率分布表示。国内外橡胶业对其抗张强度有较多研究,认为橡胶件的抗张强度服从正态分布 ,该总体常称为正态总体。
例4例如某型号电视机的寿命全体所构成的总体就是一个偏态分布。
又如两个不同的正态总体混合也可以产生一个偏态总体。如将两位不同的操作工(或在不同机器上,或用不同原料,或不同转速等)生产的同一种零件混在一起,其质量特性常呈偏态分布,应该重视考察偏态分布产生的原因。
分析:用非对称分布(即偏态分布)描述的总体也是常见的。
二、 统计量与抽样分布
样本来自总体,因此样本中包含了有关总体的丰富的信息,但是这些信息是零散的,为了把这些零散的信息集中起来反映总体的特征,我们取得样本之后,并不是直接利用样本进行推断,而需要对样本进行一番“加工”和“提炼”,把样本中所包含的有关信息尽可能地集中起来,种有效的办法就是针对不同的问题,构造出样本的某种函数,这就是统计量。不同的函数可以反映总体的不同的特征。
1统计量
把不含未知参数的样本函数称为统计量。一个统计量也是一个随机变量。
定义4:设(X1,X2,…,Xn)为取自总体X的一个样本,g(X1,X2,…,Xn)为一个连续函数,如果这个函数中不包含任何未知参数,则称g(X1,X2,…,Xn)为一个统计量。
例如,设X~N(m ,s 2),其中m 已知,s 2未知,(X1,X2,…,Xn)为取自X的样本,则 是统计量, ---不是统计量。
统计量是样本的函数,因而统计量是随机变量。
由统计量进行推断,便可获得对总体的认识,统计推断是数理统计的核心内容。
2抽样分布
统计量的分布称为抽样分布。
例:从均值为 ,方差为 的总体中抽得一个样本量为n的样本 ,其中 与 均未知。
在此情形, 是统计量;而 , 都
不是统计量,因为后者包含 , 等未知参数。
3常用统计量
常用统计量可分为两类,一类是用来描述样本的中心位置,另一类用来描述样本的分散程度。为此先介绍有序样本的概念,再引入几个常用统计量。
有序样本
设 是从总体X中随机抽取的样本,样本量为n,将它们的观测值从小到大排列为: ,这便是有序样本。其中 是样本中的最小观测值, 是样本中的最大观测值。
例 从某种合金强度总体中随机抽取样本量为5的样本,记为 ,样本观测值为:140,150,155,130,145
解析:将它们从小到大排序后为:130,140,145,150,155,这便是有序样本,其中最小的观测值为 =30,最大的观测值为 =155。
(1)描述样本的中心位置的统计量
总体中每一个个体的取值尽管是有差异的,但是总有一个中心位置,如样本均值、样本中位数等。描述样本中心位置的统计量反映了总体的中心位置,常用的有以下几种:
①样本均值
样本观测值有大有小,样本均值大致处于样本的中间位置,它可以反映总体分布的均值。
例 上例数据: ,样本观测值为:140,150,155,130,145。
样本均值为 =(140+150+155+130+145)/5=144。
对分组数据,样本均值的近似值为
其中 是分组数, 是第 组的组中值, 是第 组的频数, 。
例 下表是经过整理的分组数据表,结出了110个电子元件的失效时间:
分组区间[0,400][400,800)[800,1200)[1200,1600)[1600, 2000)[2000,2400)
组中值xi2006001000140018002200
频数ni628372397
解析:
平均失效时间近似为:
= 1170.9
②样本中位数
中位数有时也记为Me。
当n为奇数
, 当n为偶数
例 现有一组数据(已经排序):2,3,4,4,5,5,5,5,6,6,7,7,8,
解析:
共有13个数据,处于中间位置的是第7个数据,样本中位数即为 。
(3)描述样本数据分散程度的统计量
总体中各个个体的取值总是有差别的,因此样本的观测值也是有差异的,这种差异有大有小,反映样本数据的分散程度的统计量实际上反映了总体取值的分散程度,常用的有如下几种:
①样本极差:
例 数据为 ,样本观测值为:140,150,155,130,145,那么将它们从小到大排序后为:130,140,145,150,155
解析:最小值为130,最大值为155,因此样本极差R=155-130=25
②样本方差:
同样,对分组数据来讲,样本方差的近似值为:
例 数据为 ,样本观测值为:140,150,155,130,145
解析:
上式有两个简化的计算公式:
样本极差的计算十分简便,但对样本中的信息利用得也较少,而样本方差就能充分利用样本中的信息,因此在实际中样本方差比样本极差用得更广。
③样本标准差:
在上例中 。
样本标准差的意义:
样本方差尽管对数据的利用是充分的,但是方差的量纲(即数据的单位)是原始量纲的平方,例如样本观测值是长度,单位是“毫米”,而方差的单位是“平方毫米”,单位不同就不便于比较,而采用样本标准差就消除了单位的差异。
四 样本数据的整理
从总体x中获得的样本是总体的一个缩影,具有丰富信息的数据,我们需要对数据进行加工,将有用的信息提取出来,以便对总体有所了解。
对数据加工有两种方法:
一是计算统计量,二是利用图形与表格。上面提到的便是常用的统计量,它具有概括性,但不够形象,下面给出对效据进行整理的表格与图形描述。
下面我们结合一个例子来叙述对计量数据结出频数频率分布表的步骤。
|
例 食品厂用自动装罐机生产罐头食品,由于工艺的限制,每个罐头的实际重量有所波动,现从一批罐头中随机抽取100个称其净重,数据如下:
342 352 346 344 343 339 336 342 347 340 340 350 347 336 341
349 346 348 342 346 347 346 346 345 344 350 348 352 340 356
339 348 338 342 347 347 344 343 349 341 348 341 340 347 342
337 344 340 344 346 342 344 345 338 351 348 345 339 343 345
346 344 344 344 343 345 345 350 353 345 352 350 345 343 347
354 350 343 350 344 351 348 352 344 345 349 332 343 340 346
342 335 349 348 344 347 341 346 341 342
对这一样本数据进行整理。
解析:
步骤如下
①首先从给出的数据中找出其最大值 与最小值 ,并计算极差R= 一 。
在本例中 =356, =332,从而R=356-332=24
②根据样本量n决定分组数k和每一组的组距h。
作频数频率分布表的目的是要显示出数据中所隐藏的规律!因此分组数不能太少,也不宜太多。通常可以利用下表进行选择。
直方图分组组数选用表
样本量n推荐组数
50—1006—10
101—2507—12
250以上10—20
每一组的区间长度可以相同也可以不同,而区间长度相同的情况用得比较多。在区间长度相同时,当组数确定后,区间长度(即组距)可以用下式计算:
通常取为最小测量单位的整数倍。
在本例中,n=100的,取k=9,在等距分组时,组距可以取为 。
③决定各组的区间端点: ˉ
通常要求 。
必要时还可以计算各组的组中值 。
在本例中取 ,便可以逐一计算每一个组的组限,具体的值列下表。
④用唱票的方法统计样本落在每一个区间中的个数(称为频数),记为 ,并计算每个区间
对应的频率 ,列出频数频率分布表。
本例的频数频率分布表见表。
频数频率分布表
组号区 间组中值频数频 率
1(331.5,334.5 33310.01
2(334.5,337.5 33640.04
3(337.5,340.5 339170.17
4(340.5,343.5 342270.27
5(343.5,346.5 34530 0.30
6(346.5,349.5 348 120.12
7(349.5,352.5 35170.07
8(352.5,355.5 354100.01
9(355.5,358.5 357100.01
合 计 100 1.00
可见,绝大多数,罐头净重集中在337.5—352.5之间,特别是大量集中在340.5—349.5之间,而特别重的和特别轻的所占的比例很少。
用上表的数据可以画出直方图。
统计在线作业
1. 下表是一个分组样本,其样本均值 近似为( )。
分组区间(35,45](45,55](55,65](65,75]
频数3872
A. 50 B. 54 C. 62 D. 64
答案: B
解析:四个分组区间的组中值分别为40,50,60,70。样本均值
2. 某小型企业有员工共25人,他们的月薪如下:
月薪(元)人数月薪(元)人数
15000115004
10000112001
8000210008
300048004
该企业员工月薪中位数为( )元。
A. 3000 B. 1500 C. 1200 D. 1000
答案:C
解析:把25人月薪从小到大排序,第13人的月薪1200元即为中位数
3.调查100个家庭中拥有电视机台数的频数如下:
台数0123
家庭数351397
则平均每个家庭拥有电视机的台数为( )台。
A. 3.5 B. 1.41 C. 1.20 D. 1.65
答案:A
解析:平均每个家庭拥有电视机的台数= 4. 设10个数据的均值 为9.26,如今又得第11个数据9.92,则此11个数据的均值 =
( )。
A. 9.23 B..9.32 C.9.74 D.9.59
答案:A
解析:11个数据的均值 5. 样本 减去100的得 。两个样本均值 与 间有如下关系: ,考察这两个样本的样本方差 与 ,则有( )。
A. = +100 B.. C. D. 答案:D
解析: = 6. 测得某批电阻中五个电阻的阻值分别为8.1,7.9,8.0,8.1,8.2,则下列叙述正确的
有( )。
A. 样本极差为0.3 B. 样本中位数为8.1
C. 样本均值为8.06 D. 样本标准差为0.013
答案:A、B、C
解析:将数据按从小到大的顺序排序后有:7.9,8.0,8.1,8.1,8.2,所以样本极差为8.2-7.9=0.3,样本中位数位于第3个位置,为8.1,样本均值是(8.1+7.9+8.0+8.1+8.2)/5=8.06,样本标准差为