第五章 概率统计基础
第一讲 概率统计基础
重点:概率的定义、分布的均值、方差及标准差
难点:概率的统计定义
在我们所生活的世界上,充满了不确定性:
从扔硬币、掷色子和玩扑克等简单的机会游戏到复杂的社会现象;从婴儿的出生到世间万物的繁衍生息;从流星坠落到大自然的千变万化…,我们无时无刻不面临着不确定性和随机性。
一、两种现象
随机现象和确定性现象。
随机现象:不确定、偶然性的现象。
确定性现象:在一定条件下能预言其结果。
判断下列现象哪些是随机现象?
A 太阳从东边升起
B 上抛物体一定下落
C 明天的最高气温
D 新生婴儿的体重
随机现象的例子在质量管理中随处可见。以下是随机现象的另外一些例子:
⑴ 新产品在未来市场的占有率
⑵ 加工某机械轴的误差
⑶ 一台电视机从开始使用到第一次发生故障的时间
⑷ 一罐午餐肉的重量。
认识一个随机现象首先要列出它的一切可能发生的基本结果。这些基本结果称为样本点,随机现象一切可能样本点的全体称为这个随机现象的样本空间,常记为。
“抛一枚硬币”的样本空间 ;
“掷一颗色子”的样本空间 ;
“一台电视机从开始使用到第一次发生故障的时间”的样本空间 ;
“加工某机械轴的误差”的样本空间 。
二、随机事件
随机现象的某些样本点的集合称为随机事件,简称事件,常用大写字母A,B,C,D表示,它是样本空间 的子集合。 在概率论中通常用一个长方形示意样本空间,用其中的圆示意事件,这类图形通常称为维恩图。(图见考试用书132页)
1. 随机事件的特征
(1) 事件A发生,当且仅当子集A中的一个样本点出现。若 是 中的两个样本点,则当 出现,且时,事件A发生。当 则事件A不发生。
(2) 任意样本空间有一个最大子集,这个子集就是,由于它对应的事件肯定发生,因此称为必然事件,仍用 表示。比如,在掷一颗色子,“出现的点数不超过6”就是一个必然事件。
(3) 任意样本空间有一个最小子集,这个子集就是空集,它对应的事件称为不可能事件,记为。在掷一颗色子,“出现的点数超过7”就是一个不可能事件。
例1 若产品只区分合格与不合格。用“0”表示合格品,用“1”表示不合格品。则检验两件产品的样本空间 由下列四个样本点组成。
其中样本点(0,1)表示第一件产品是合格品,第二件产品是不合格品。其他的样本点可以类似地解释。
下面几个事件可用集合表示,也可用语言表示。
A=“至少有一件合格品”= B=“恰有一件合格品” =“有三件不合格品”=空集。
随机事件的关系与运算
1 事件的包含与相等
若事件A发生,则事件B必然发生。此时A包含的样本点在B所包含的样本点当中,记为。若 且 ,则称A与B相等,记为A=B。
2事件的和(并)
一个事件发生意味着A发生或者B发生,则称该事件是A与B的并,记作或 。由定义知道, 由所有属于A或者B中的样本点构成。对于n个事件 = 称为这n个事件的和或者并。
3.事件的积(交)
一事件发生意味着A与B同时发生,称该事件为A与B的积(交),记作 。由定义知道, 由所有既属于A又属于B中的样本点构成。
n个事件的交记作 。
4.事件的差
由那些属于A但是不属于B的点构成的新事件记作 。
5.互不相容事件(互斥)
若 ,则称A与B互不相容事件。
6.对立事件
由所有不包含在A中的点构成的新事件,记作 。
以上这些关系和运算,可以用维恩图表示,维恩图的表示方法和集合的维恩图的表示方法一致,这里不再重复(可以参照教材)。
四、事件的概率
随机事件的发生由偶然性,但是随机事件发生的可能性有大小之分,是可以度量的。实际上,通常人们关心事件发生的可能性大小。例如:
(1) 抛一枚硬币,出现正面和反面的可能性各为。
(2) 购买彩票的中奖机会有多少呢?等等
一个事件发生A发生的可能性大小通常用P(A)表示。概率是一个介于0和1之间的数。概率越大,事件发生的可能性越大;概率越小,事件发生的可能性越小。
下面介绍概率的统计定义。
1 概率的统计定义
若与事件A相关的随机现象允许大量重复试验,而且假设在n次重复实验中,事件A发生 次,则事件A发生的频率为,根据概率论中的定理,频率 将会随着试验次数不断增加而趋于稳定,这个频率的稳定值就是事件A的概率。在实际中,无法把一个试验无限地重复下去,只能用重复试验次数n较大时的频率去近似它。
2 概率的性质
性质1 (非负性) 性质2 。
性质3 。特别地,若事件A与事件B互不相容,则 。
性质4 对任何事件A有 。
性质5 。特别地,若 ,则 。
很显然,由上面的不等式知,对任一事件A,有。
性质6 若事件A与B相互独立,即事件A的发生不影响事件B的发生,则A与B的交事件的概率为
。
例2 已知 。求:
; ; 。
解 因为 ,且AB与 互不相容,有
五、随机变量及其分布
1 随机变量
表示随机现象结果的变量称为随机变量。常用大写字母X, Y, Z等表示随机变量,它们的取值用小写字母 等表示。
常见的有两种随机变量。
离散型随机变量:仅取数轴上的有限个点或可列个点。比如,一批产品中的次品数X是离散型随机变量,它的可能取值是0,1,2,……
连续型随机变量:可能取值充满数轴上的一个区间。一台电视机的寿命 (单位:小时)是连续型随机变量,在 上取值。“ ”表示事件“寿命不超过10000小时。”
2 随机变量的分布
(1) 离散型随机变量的分布
离散型随机变量的分布可用分布烈表示。假设离散型随机变量 可能取的值为 。取这些值的概率为, 。这些可以用一个表清楚地表示出来
… …
概率 … …
作为一个分布, 满足一下条件: , 。这样的分布称作离散分布, 称作分布的概率函数。
例 3 设袋中装有6个球,编号为{-1,2,2,2,3,3},从袋中任取一球,求取到的球的号 的分布律。
解 因为 可取的值为-1,2,3,而且 , , ,所以 的概率分布为
-123
例 4 某厂生产的三极管,每100支装一盒,记X为一盒中不合格品数,厂方多次抽查,根据近千次的抽查纪录,从未发现一盒中有6支或6支以上的不合格三极管,用统计方法整理历史数据可得如下分布:
0 1 2 3 4 5
0.284 0.2000 0.0900 0.080 0.004
从表中可以看出,最可能发生的不合格品数在0到2之间,它的概率为:
而超过3个不合格品的概率很小:
3 连续型随机变量的分布
连续型随机变量 的分布用概率密度函数 表示。下面以产品的某个质量特性值 来说明 的由来。
假如我们一个接一个地测量产品的质量特性 ,把测量得来的x值一个接一个地描在数轴上,当累积到很多x时,就形成了一个图形,把纵轴改为单位长度上的频率,由于频率的稳定性,随着被测质量特性x的增多,图形就越稳定,其外形显现出一条曲线,这条曲线就是概率密度曲线,相应的表达式称为概率密度曲线。由于频率稳定于概率,因此可以用概率代替频率,从而纵轴成为“单位长度上的概率”,这就是概率密度的概念,故最后形成的曲线称为概率密度曲线,它一定位于x轴的上方,即 ,并且与x轴所夹面积恰为1。而X在区间 (a,b)上取值的概率为 区间上的面积。
4 随机变量分布的均值、方差与标准差
随机变量的分布有几个重要的特征数,用来表示分布的中心位置和散布大小。
均值用来表示分布的中心位置,用 表示。
(1) 均值的计算方法:
(2) 方差的计算方法
方差表示分布的散布大小,用 表示。方差越大,分布越分散;方差越小,分布越集中。
(3) 标准差
方差的平方根即为标准差,记为 ,即 。
例5已知离散型随机变量的概率分布列 ,求它的均值、方差和标准差。
解
六 二项分布
1定义
若由n次随机试验组成的随机现象满足如下条件:
(1) 重复进行n次随机试验。
(2) n次试验间相互独立,即每一次试验结果不对其他次试验结果产生影响。
(3) 每次试验仅有两个可能结果,称为“成功”与“失败”。
(4) 每次试验成功的概率均为P,失败的概率均为1—P。 .
在上述四个条件下,设X表示n次独立重复试验中成功出现的次数,显然X是可以取0,l,……n,共 个值的离散随机变量,且它的概率函数为:
这个分布称为二项分布,记为b(n,P)。
其中 2 二项分布的均值、方差和标准差
均值 方差 标准差 [例5] 在一个制造过程中,不合格品率为0.05,如今从成品中随机取出10个,记x为10个成品中的不合格品数,则x服从二项分布。现研究如下几个问题:
(1) 恰有1个不合格品的概率是多少?
分析:若规定抽到不合格品为“成功”,则x服从B(10,0.05),则所求概率为:
这表明,10个成品中恰有l个不合格品的概率为0.3151。
(2) 少于2个不合格品的概率为:
这表明,10个成品中有少于2个不合格品的概率为0.9138。
(3)分布的均值、方差与标准差分别为:
习 题
一、单项选择题
1. 随机现象的样本空间 中至少有( )个样本点。
A. 0 B. 1 C. 2 D. 3
答案:C
解析:样本空间Ω至少含有2个样本点。
2. 检验两件产品。记A=“至少有一件不合格”,B=“两次检查结果不同”,则事件A与B 之间的关系是:
A. B. C. D. 答案:A
解析:设X表示“两件产品中的不合格品数”,X是随机变量,且A=“X≥l”,B=“X=l”,从而。
3. 一条自动化生产线上一级品率为0.8, 现抽查5件,至少有两件一级品的概率为( )
A. 0.9793 B. 0.9393 C. 0.9933 D. 0.9339
答案: C
解析:提示:设X=“五件产品中一级品的件数”,则 b(5,0.8)。所求概率为
4. 一批产品不合格概率为0.2,现从这批产品中随机抽出5个,记X为这5个产品中的不合格品数,则这5个产品中没有不合格品的概率为:
A. B. C. D. 答案: B
解析: 5. 一自动报警器由雷达和计算机两部分组成,两部分工作相互独立,且任一部分失效将导致报警器失效。若雷达失效概率为0.1,计算机失效概率为0.05, 则该报警器失效的概率为:
A. 0 .005 B. 0.15 C. 20.05 D. 0.145
答案: D
解析:报警器失效概率= 报警器工作概率= 雷达工作概率 计算机工作概率 6. 下表是一个分组样本,其样本均值 近似为( )。
分组区间(35,45](45,55](55,65](65,75]
频数3872
A. 50 B. 54 C. 62 D. 64
答案: B
解析:四个分组区间的组中值分别为40,50,60,70。样本均值
7. 设 ,且 则 ( )。
A. B. C. D. 答案: C
解析:由于 二、多项选择题
8. 设事件A={抽10件产品,检验发现不合格品不多于5件},B={抽10件产品,检验发现不合格品至少有7件},则下述叙述正确的有:
A. B. C. D. A与B互不相容
答案: C、D
解析:A:检验发现不合格品数可能为0,1,2,3,4,5。B:检验发现不合格品数可能为7,8,9,10。两者没有相同的样本点。
9. 设随机变量X服从二项分布b(16,0.9) , 则其均值与标准方差分别为:
A. B. C. D. 答案:B、D