
Bioinformatics第二章生物统计基础
Bioinformatics 第二章 生物统计基础

本章内容Bioinformatics第一节生物统计简介第二节参数估计和假设检验第三节统计模型第四高维统计方法节第统计学习基础五节统计因果推断第六节1
Bioinformatics 本章内容 第一节 生物统计简介 第二节 参数估计和假设 检 验 第三节 第四节 第 五节第六节 统计模型 高维统 计方法 统计 学 习基础 统计 因 果推断 1

第一节生物统计简介Bioinformatics1.总体与样本的关系2.数据特征及描述3.常见的图表2
2 Bioinformatics 第一节 生物统计简介 1.总体与样本的关 系 2.数据特征及描述 3.常见的图表

第一节生物统计简介Bioinformatics总体与样本的关系抽样总体样本推断统计推断是在一定的假设下,基于数据反向推断真实的情况3
Bioinformatics 第一节 生物统计简介 总体与样本的关系 3 统计推断是在一定的假设下,基于数据反向推断真实的情况

第一节生物统计简介Bioinformatics数据特征及描述示例数据类型定义连续型表示在一定范围内可以取任意数身高、体重、温度等值的数据(continuous)数值型(numeric)离散型表示在有限数值集合中取值的数年龄、家庭人数等据(discrete)分类型表示不同类别或属性的数据,没性别、血型等有数值意义,只表示不同的类别(categorical/nomical)顺序型肿瘤分期、烧伤程度表示按照一定顺序排列的数据等但不能进行精确的数值计算(ordinal)4
4 Bioinformatics 第一节 生物统计简介 数据特征及描述 数据类型 定义 示例 数值型 (numeric) 连续型 (continuous) 表示在一定范围内可以取任意数 值的数据 身高、体重、温度等 离散型 (discrete) 表示在有限数值集合中取值的数 据 年龄、家庭人数等 分类型 (categorical/nomical) 表示不同类别或属性的数据,没 有数值意义,只表示不同的类别 性别、血型等 顺序型 (ordinal) 表示按照一定顺序排列的数据, 但不能进行精确的数值计算 肿瘤分期、烧伤程度 等

第一节生物统计简介Bioinformatics数据特征及描述特征样本-统计量XO)均值中位数Xs2(s)方差(标准差)比例pe众数MoR极差rIQR四分位距用来衡量数据相对于S/XO)变异系数o/μ其均值的离散程度偏度Y91衡量数据分布的不对称程度峰度反映数据分布的尖或扁平程度K92IQR延伸线十一异常值点一一异常值点四分位距延伸线延伸线下界下四分位数中位数上四分位数延伸线上界5Q1Q3
Bioinformatics 第一节 生物统计简介 特征 样本-统计量 总体-参数 均值 𝑋ത 𝜇 中位数 𝑋෨𝜇 方差(标准差) 𝑠 2(𝑠) 𝜎 2(𝜎) 比例 𝑝Ƹ 𝑝 众数 𝑀෨𝑜 𝑀𝑜 极差 𝑟 𝑅 四分位距 IQR — 变异系数 𝑠/𝑋ത 𝜎/𝜇 偏度 𝑔1 𝛾 峰度 𝑔2 𝜅 用来衡量数据相对于 其均值的离散程度 衡量数据分布的不对称程度 反映数据分布的尖峭或扁平程度 数据特征及描述 5

第一节生物统计简介Bioinformatics常见的图表频数频率表物种B总和DOA频数55873820200频率0.2750.1900.4350.1001.0001+u1折线图直方图散点图箱线图6
Bioinformatics 第一节 生物统计简介 常见的图表 物种 A B C D 总和 频数 55 38 87 20 200 频率 0.275 0.190 0.435 0.100 1.000 频数频率表 折线图 6 直方图 散点图 箱线图

第二节参数估计与假设检验Bioinformatics1.参数估计2.假设检验7
7 Bioinformatics 第二节 参数估计与假设检验 1.参数估 计 2.假设检 验

第二节参数估计与假设检验Bioinformatics统计推断(statisticalinference)是根据样本信息对总体分布或总体的特征进行推断》参数估计(parameterestimation)是使用样本来估计总体分布中包含的未知参数或参数的函数的方法。》假设检验(hypothesistesting)是在抽样分布和小概率原理的基础上,使用样本对总体的分布或分布中所含参数的假设进行检查的方法和过程。的分总体样分8
Bioinformatics 第二节 参数估计与假设检验 统计推断(statistical inference)是根据样本信息对总体分布或总体的特征进行推断 ➢ 参数估计(parameter estimation)是使用样本来估计总体分布中包含的未知参数或参数的函数的方法。 ➢ 假设检验(hypothesistesting)是在抽样分布和小概率原理的基础上,使用样本对总体的分布或分布中 所含参数的假设进行检查的方法和过程。 的 分 总 体 ( ) 样 分 ( / ) / 8

第二节参数估计与假设检验Bioinformatics统计推断=参数估计+假设检验(x1x2...xn)~f比如:100只同样品种小鼠的基因A的表达量估计x1+x2+...+xnEXの xf(x)dxxIhn统计量假设检验x1+X2+...+xn该品种小鼠的基因A高表达?xIhn9
Bioinformatics 第二节 参数估计与假设检验 统计推断 = 参数估计+ 假设检验 𝑥1 + 𝑥2 + ⋯ +𝑥𝑛 𝑥ҧ 𝑛 E𝑋 න 𝑥𝑓 𝑥 𝑑𝑥 估计 𝑥1 𝑥2 . 𝑥𝑛 ~ 𝑓 比如:100只同样品种小鼠的基因A的表达量 𝑥ҧ 𝑥1 + 𝑥2 + ⋯ +𝑥𝑛 该品种小鼠的基因A高表达? 𝑛 假设检验 9 统计量