第3讲基本统计分析—统计描述 2014年9月22日
2014年9月22日 第3讲 基本统计分析——统计描述
数据统计描述中的概念 1.综述 ◆基本特点 数据统计分析中的数据都是数值型的。 ◆四个方面 数值型量的类型 定类变量(名义变量)—整形 定序变量(序号变量)—整形 定距变量(度量变量)—连续变量。(实数) 基本统计量 集中性量、离散性(波动性)量、偏离性 分布形态描述 正态、泊松、指数等 缺失值
一、数据统计描述中的概念 ➢ 1. 综述 ◆基本特点 数据统计分析中的数据都是数值型的。 ◆四个方面 数值型量的类型 定类变量(名义变量)——整形 定序变量(序号变量)——整形 定距变量(度量变量)——连续变量。(实数) 基本统计量 集中性量、离散性(波动性)量、偏离性 分布形态描述 正态、泊松、指数等 缺失值
数据统计描述中的概念 >2.三类数值型变量 ◆度量型变量(定距变量、连续变量) 高测度、连续取值 ◆序号变量(定序变量) 低测度、离散型取值、有大小之分 例如: 5级量表的取值 ◆名义变量(定类变量) 。低测度、离散型取值、无大小之分 例如 性别、单位编号、学号等 在统计中通常不作为统计量,常用作分组依据
一、数据统计描述中的概念 ➢ 2. 三类数值型变量 ◆度量型变量(定距变量、连续变量) 高测度、连续取值 ◆序号变量(定序变量) 低测度、离散型取值、有大小之分 例如: 5级量表的取值 ◆名义变量(定类变量) 低测度、离散型取值、无大小之分 例如: 性别、单位编号、学号等 在统计中通常不作为统计量,常用作分组依据
数据统计描述中的概念 >3.对定距变量的统计描述技术 ◆(1)集中性描述 均值 中位数 排序后位于正中间的数。 如果有偶数个数据,则为中间2个数的均值
一、数据统计描述中的概念 ➢ 3. 对定距变量的统计描述技术 ◆(1)集中性描述 均值 中位数 排序后位于正中间的数。 如果有偶数个数据,则为中间2个数的均值
数据统计描述中的概念 >3.对定距变量的统计描述技术 ◆(2)离散性描述 概念 反映数据序列的波动程度,或者说偏离均值的程度。 关键技术 离差: 当前数据与均值的差。 全体数据的离差之和为0
一、数据统计描述中的概念 ➢ 3. 对定距变量的统计描述技术 ◆(2)离散性描述 概念: 反映数据序列的波动程度,或者说偏离均值的程度。 关键技术 离差: ✓当前数据与均值的差。 ✓全体数据的离差之和为0
数据统计描述中的概念 >3.对定距变量的统计描述技术 ◆(2)离散性描述 方差: ˇ方差是离差平方和的均值。 √两种算法: 离差平方和/样本数n —基于总体数据VarP(数据序列) 离差平方和/自由度 基于样本估算总体方差var(数据序列) 标准差: 方差的算术平方根 两种算法: 基于总体数据的标准差 stdevp(数据序列 基于样本估算的标准差 stay(数据序列)
一、数据统计描述中的概念 ➢ 3. 对定距变量的统计描述技术 ◆(2)离散性描述 方差: ✓ 方差是离差平方和的均值。 ✓ 两种算法: • 离差平方和/样本数n • ——基于总体数据 Varp(数据序列) • 离差平方和/自由度 • ——基于样本估算总体方差 Var(数据序列) 标准差: ✓ 方差的算术平方根。 ✓ 两种算法: • 基于总体数据的标准差 stdevp(数据序列) • 基于样本估算的标准差 stdev(数据序列)
数据统计描述中的概念 扩展概念 均值的标准误—SE.Mean 标准误=平方根(方差/样本数n) ˇ因为标准差少除了一次样本数,不能真正地反映平均距 标准差系数 ˇ即均方差系数,离散系数,从相对角度观察的差异和离 散程度,在比较相关事物的差异程度时较之直接比较标 准差要好些。反映标志变动程度的相对指标 原因 标准差受样本值域的影响(5分制成绩与百分制成绩计算标 准差) 标准差系数=标准差/均值
一、数据统计描述中的概念 扩展概念 均值的标准误——SE.Mean ✓标准误=平方根(方差/样本数n) ✓因为标准差少除了一次样本数,不能真正地反映平均距 离 标准差系数 ✓即均方差系数,离散系数,从相对角度观察的差异和离 散程度,在比较相关事物的差异程度时较之直接比较标 准差要好些。反映标志变动程度的相对指标 ✓原因: • 标准差受样本值域的影响(5分制成绩与百分制成绩计算标 准差) • 标准差系数=标准差/均值
数据统计描述中的概念 全距(极差) √描述样本值的最大范围 最大值与最小值的差—适应于定距变量,易受奇 异值的影响 四分位差 y(三分位的值)—(一分位的值) ˇ即75%处的值减去25%之处的值(箱体图的范围) ˇ奇异值与极端值
一、数据统计描述中的概念 全距(极差) ✓描述样本值的最大范围 ✓最大值与最小值的差——适应于定距变量,易受奇 异值的影响 四分位差 ✓(三分位的值)—(一分位的值) ✓即75%处的值减去25%之处的值(箱体图的范围) ✓奇异值与极端值
数据统计描述中的概念 >4对定序变量的统计描述 ◆(1)集中性描述 中位数( medium) 众数(mode) 出现次数最多的数据 ◆(2)离散性描述 高测度数据 可借助定距变量的方差与标准差的概念 低测度数据 四分位数 四分位差
一、数据统计描述中的概念 ➢ 4.对定序变量的统计描述 ◆(1)集中性描述 中位数(medium) 众数(mode) 出现次数最多的数据 ◆(2)离散性描述 高测度数据 可借助定距变量的方差与标准差的概念。 低测度数据 四分位数 四分位差
数据统计描述中的概念 >5对定类变量的统计描述 ◆(1)集中性描述 众数 ◆(2)离散性描述 异众比率 计算非众值次数与样本数的比率。可最快求出
一、数据统计描述中的概念 ➢ 5.对定类变量的统计描述 ◆(1)集中性描述 众数 ◆(2)离散性描述 异众比率 计算非众值次数与样本数的比率。可最快求出