统计自然语言处理基本概
统计自然语言处理基本概念
模型 真实世界中Ouut 的系统 put Output 1 模型1 Output2 模型2 如果 Output I总是和 Ouput接近, Output2总是 和 Output偏离,我们就认为模型1比模型2好
模型 真实世界中 的系统 模型1 Input Output 模型2 Output1 Output2 如果Output1总是和Ouput接近,Output2总是 和Output偏离,我们就认为模型1比模型2好
模型2 Output 真实系统 模型1 put
真实系统 模型1 模型2 Input Output
模型由体系结构和参数两部分构成 举例:住宅楼 多层板楼 高层板楼 ·高层塔楼 参数 层数 户型:三室一厅,两室一厅, 举架高度: 供热方式:地热?暖气片?
• 模型由体系结构和参数两部分构成 – 举例:住宅楼 • 多层板楼 • 高层板楼 • 高层塔楼 – 参数 • 层数: • 户型:三室一厅,两室一厅,…… • 举架高度: • 供热方式:地热?暖气片?
目录 样本空间( Sample space) 估计器( Estimator)和随机过程( Stochastic Process) 信息论( nformation Theory) 数据集分类( Data set classification) 性能评价( Performance measure)
目录 • 样本空间(Sample Space) • 估计器(Estimator)和随机过程(Stochastic Process) • 信息论(Information Theory) • 数据集分类(Data Set Classification) • 性能评价(Performance Measure)
样本空间 (Sample Space)
样本空间 (Sample Space)
试验( Experiment) 试验 个可观察结果的人工或自然的过程,其产生的 结果可能不止一个,且不能事先确定会产生什么 结果 例 如 连掷两次硬币 样本空间 是一个试验的全部可能出现的结果的集合 举例 连掷两次硬币 g2={HH,HT,TH,TT},H面朝上;T面朝下
试验(Experiment) • 试验 – 一个可观察结果的人工或自然的过程,其产生的 结果可能不止一个,且不能事先确定会产生什么 结果 – 例如 • 连掷两次硬币 • 样本空间 – 是一个试验的全部可能出现的结果的集合 – 举例 • 连掷两次硬币 – ={HH, HT, TH, TT}, H:面朝上; T:面朝下
事件( Event) 事件 个试验的一些可能结果的集合,是样本 空间的一个子集 举例:连掷两次硬币 A:至少一次面朝上 B:第二次面朝下 A(HT, TH, HH, B=HT, TT)
事件(Event) • 事件 – 一个试验的一些可能结果的集合,是样本 空间的一个子集 – 举例:连掷两次硬币 • A: 至少一次面朝上 • B: 第二次面朝下 • A={HT, TH, HH}, B={HT, TT}
事件的概率 事件的概率 重复m试验,如果事件A出现的次数为n,则事件A 的概率为P(A)=mm,这称为概率的频率解释,或 称统计解释 频率的稳定性又称为经验大数定理 举例:连掷两次硬币 A:至少一次面朝上 B:第二次面朝下 °P(A)3/4,P(B)=1/2 当试验不能重复时,概率失去其频率解释的含义, 此时概率还有其他解释:贝叶斯学派和信念学派 个人出生时的体重,一个人只能出生一次
事件的概率 • 事件的概率 – 重复m试验,如果事件A出现的次数为n,则事件A 的概率为P(A)=n/m,这称为概率的频率解释,或 称统计解释 – 频率的稳定性又称为经验大数定理 – 举例:连掷两次硬币 • A: 至少一次面朝上 • B: 第二次面朝下 • P(A)=3/4, P(B)=1/2 – 当试验不能重复时,概率失去其频率解释的含义, 此时概率还有其他解释:贝叶斯学派和信念学派 • 一个人出生时的体重,一个人只能出生一次
举例 举例:连续三次掷硬币 样本空间 Q2=(HHH, HHT, HTH, HTT,THH,THT, TTH,TTT 事件A:恰好两次面朝下 A=HTT,THT,TTHI 做1000次试验,计数得386次为两次面朝下 估计:P(A)=386/1000=0.386 继续做7组试验,得:373,399,382,355,372, 406,359,共8组试验 计算平均值:P(A)=(0.386+0.373+)8=0379,或 累计:P(A)=(386+373+.)8000=3032/80000.379 统一的分布假设为:3/8=0.375
举例 • 举例:连续三次掷硬币 – 样本空间 • ={HHH,HHT,HTH,HTT,THH,THT,TTH,TTT} – 事件A:恰好两次面朝下 • A={HTT,THT,TTH} – 做1000次试验,计数得386次为两次面朝下 • 估计:P(A)=386/1000=0.386 – 继续做7组试验,得:373,399,382,355,372, 406,359,共8组试验 – 计算平均值:P(A)=(0.386+0.373+…)/8=0.379,或 累计:P(A)=(386+373+…)/8000=3032/8000=0.379 – 统一的分布假设为:3/8=0.375