信息论基础（PPT课件讲稿）统计自然语言处理基本概念

样本空间 (Sample Space) 参数估计 Parameter Estimation 信息论数据集分类性能评价

团购合买资源类别：文库，文档格式：PPT，文档页数：71，文件大小：479.5KB

统计自然语言处理基本概

统计自然语言处理基本概念

模型真实世界中Ouut 的系统 put Output 1 模型1 Output2 模型2 如果 Output I总是和 Ouput接近, Output2总是和 Output偏离,我们就认为模型1比模型2好

模型真实世界中的系统模型1 Input Output 模型2 Output1 Output2 如果Output1总是和Ouput接近，Output2总是和Output偏离，我们就认为模型1比模型2好

模型2 Output 真实系统模型1 put

真实系统模型1 模型2 Input Output

模型由体系结构和参数两部分构成举例:住宅楼多层板楼高层板楼 ·高层塔楼参数层数户型:三室一厅,两室一厅, 举架高度: 供热方式:地热?暖气片?

• 模型由体系结构和参数两部分构成 – 举例：住宅楼 • 多层板楼 • 高层板楼 • 高层塔楼 – 参数 • 层数： • 户型：三室一厅，两室一厅，…… • 举架高度： • 供热方式：地热？暖气片？

目录样本空间( Sample space) 估计器( Estimator)和随机过程( Stochastic Process) 信息论( nformation Theory) 数据集分类( Data set classification) 性能评价( Performance measure)

目录 • 样本空间(Sample Space) • 估计器(Estimator)和随机过程(Stochastic Process) • 信息论(Information Theory) • 数据集分类(Data Set Classification) • 性能评价(Performance Measure)

样本空间 (Sample Space)

试验( Experiment) 试验个可观察结果的人工或自然的过程,其产生的结果可能不止一个,且不能事先确定会产生什么结果例如连掷两次硬币样本空间是一个试验的全部可能出现的结果的集合举例连掷两次硬币 g2={HH,HT,TH,TT},H面朝上;T面朝下

试验(Experiment) • 试验 – 一个可观察结果的人工或自然的过程，其产生的结果可能不止一个，且不能事先确定会产生什么结果 – 例如 • 连掷两次硬币 • 样本空间 – 是一个试验的全部可能出现的结果的集合 – 举例 • 连掷两次硬币 – ={HH, HT, TH, TT}, H:面朝上; T:面朝下

事件( Event) 事件个试验的一些可能结果的集合,是样本空间的一个子集举例:连掷两次硬币 A:至少一次面朝上 B:第二次面朝下 A(HT, TH, HH, B=HT, TT)

事件(Event) • 事件 – 一个试验的一些可能结果的集合，是样本空间的一个子集 – 举例：连掷两次硬币 • A: 至少一次面朝上 • B: 第二次面朝下 • A={HT, TH, HH}, B={HT, TT}

事件的概率事件的概率重复m试验,如果事件A出现的次数为n,则事件A 的概率为P(A)=mm,这称为概率的频率解释,或称统计解释频率的稳定性又称为经验大数定理举例:连掷两次硬币 A:至少一次面朝上 B:第二次面朝下 °P(A)3/4,P(B)=1/2 当试验不能重复时,概率失去其频率解释的含义, 此时概率还有其他解释:贝叶斯学派和信念学派个人出生时的体重,一个人只能出生一次

事件的概率 • 事件的概率 – 重复m试验，如果事件A出现的次数为n，则事件A 的概率为P(A)=n/m，这称为概率的频率解释，或称统计解释 – 频率的稳定性又称为经验大数定理 – 举例：连掷两次硬币 • A: 至少一次面朝上 • B: 第二次面朝下 • P(A)=3/4, P(B)=1/2 – 当试验不能重复时，概率失去其频率解释的含义，此时概率还有其他解释：贝叶斯学派和信念学派 • 一个人出生时的体重，一个人只能出生一次

举例举例:连续三次掷硬币样本空间 Q2=(HHH, HHT, HTH, HTT,THH,THT, TTH,TTT 事件A:恰好两次面朝下 A=HTT,THT,TTHI 做1000次试验,计数得386次为两次面朝下估计:P(A)=386/1000=0.386 继续做7组试验,得:373,399,382,355,372, 406,359,共8组试验计算平均值:P(A)=(0.386+0.373+)8=0379,或累计:P(A)=(386+373+.)8000=3032/80000.379 统一的分布假设为:3/8=0.375

举例 • 举例：连续三次掷硬币 – 样本空间 • ={HHH,HHT,HTH,HTT,THH,THT,TTH,TTT} – 事件A：恰好两次面朝下 • A={HTT,THT,TTH} – 做1000次试验，计数得386次为两次面朝下 • 估计：P(A)=386/1000=0.386 – 继续做7组试验，得：373，399，382，355，372， 406，359，共8组试验 – 计算平均值：P(A)=(0.386+0.373+…)/8=0.379，或累计：P(A)=(386+373+…)/8000=3032/8000=0.379 – 统一的分布假设为：3/8=0.375

点击下载完整版文档（PPT格式）

共71页，可试读20页，点击继续阅读 ↓↓

点击下载（PPT格式）

浏览记录