
PEARSONPrentice工商管理优秀教材译丛Hall管理学系列pplied Multivariate StatisticalAnalysis SixthEdition实用多元统计分析第6版理查德·A.约翰逊(RichardA.Johnson)(美著迪安·W.威克恩(DeanW.Wichern)陆璇叶俊译PEARSONEducation清华大学出版社

实用多元统计分析第6版Applied Multivariate理查德:A.约翰逊(RichardA.Johnson)(美)著迪安·W.威克恩(DeanW.Wichern)叶俊陆璇学技e馆书Sisae(uipais)清华大学出版社北京

北京市版权局著作权合同登记号图字:01-2007-5699Authorized translation fromthe English language edition,entitled APPLIED MULTIVARIATESTATISTICALANALYSIS,6Edition0131877151byRICHARDA.JOHNSONandDEANW.WICHERN.published by Pearson Education,Inc,publishing as Prentice Hall,copyright 2oo7.All Rights Reserved. No part of this book may be reproduced or transmitted in any form or by anymeans,electronic or mechanical,including photocopying,recording or by any information storage retrievalsystem,without permission from Pearson education,Inc.CHINESE SIMPLIFIED language editionpublished by TSINGHUA UNIVERSITY PRESS Copyright 2008.本书中文简体翻译版由培生教育出版集团授权给清华大学出版社出版发行。未经许可,不得以任何方式复制或抄袭本书的任何部分,本书封面贴有培生教育出版集团防伪标签,无标签者不得销售,版权所有,侵权必究.侵权举报电话:010-6278298913701121933图书在版编目(CIP)数据实用多元统计分析:第6版/(美)约翰逊(Johnson,R.A.),(美)威克恩(Wichern,D.W.)著;陆璇,叶俊译,一北京:清华大学出版社,2008.11(工商管理优秀教材译丛·管理学系列)书名原文:AppliedMultivariateStatisticalAnalysis,6eISBN978-7-302-18343-3I实.约②威③陆?叶Ⅲ.多元分析:统计分析一高等学校一教材IV.O212.4中国版本图书馆CIP数据核字(2008)第119261号责任编辑:江娅责任校对:王凤芝责任印制:孟凡玉出版发行:清华大学出版社地址:北京清华大学学研大厦A座http://www.tup.com.cn邮编:100084社总机:010-62770175邮购:010-62786544投稿与读者服务:010-62776969.c-service@tup.tsinghua,edu.cn质量反馈:010-62772015,zhiliang@tup.tsinghua.edu.cn印刷者:北京市清华园胶印厂装订者:北京鑫海金澳胶印有限公司经销:全国新华书店开本:185X260印张:38插页:2字数:897千字版次:2008年11月第1版印次:2008年11月第1次印刷印数:1~4000定价:68.00元本书如存在文字不清、漏印、缺页、倒页、脱页等印装质量问题,请与清华大学出版社出版部联系调换。联系电话:(010)62770177转3103产品编号:026794-01

译者序实用多元统计分析Applied Multivariate Statistical Analysis多元统计分析是统计学中内容十分丰富、应用范围极为广泛的一个分支,在自然科学和社会科学的许多学科中,研究者都有可能需要分析处理有多个变量的数据的问题.从表面上看起来杂乱无章的数据中发现和提炼出规律性的结论,不仅需要对所研究的专业领域有很好的训练,而且需要掌握必要的统计分析工具,对实际领域中的研究者和高等院校的研究生来说,要学习掌握多元统计分析的各种模型和方法,手头有一本好的,有长久价值的参考书是非常必要的这样一本书应该满足以下条件:首先,它应该是“浅人深出”的,也就是说,既可供初学者人门,又能使有较深基础的人受益,其次,它应该是既侧重于应用,又兼顾必要的推理论证,使学习者既能学到“如何”做,而且在一定程度上了解“为什么”这样做最后,它应该是内涵丰富、全面的,不仅要基本包括各种在实际中常用的多元统计分析方法,而且还要对现代统计学的最新思想和进展有所介绍、交代,我们认为R.A.约翰逊(R.A.Johnson)和D.W.威克恩(D.W.Wichern)合著的《实用多元统计分析》(第6版)(AppliedMultivariateStatisticalAnalysis,6Ed)就是这样一本有长久价值的多元统计分析参考书.本书的内容十分丰富,涵盖了多元统计分析的各种有广泛应用的、经典和现代的模型和方法.为便于学习者对方法的理解,本书对各种方法的计算过程介绍得很详细,从简单的数据出发,将计算过程一步一步、不厌其烦地展开,使学习者对计算方法获得感性认识.在此基础上,对实际数据用计算机软件进行分析,并给出输人方法的说明和输出结果的解释,使得学习者能够掌握统计软件的操作步骤,并读懂输出结果的含义,书中有大量来自实际问题的案例,通过对这些案例的分析,学习者可以学到如何将实际问题转化为恰当的统计问题,进而选择恰当的模型与方法来分析,由清华大学出版社出版的本书第4版的中文译本(2000年)在我国拥有广泛的读者群,并且已经被选为许多高校本科或研究生相关课程的教科书.作为第4版的中文译者,我们又有幸翻译了本书的第6版.第6版对第4版有所修改与补充,在作者原序中已经作了较为具体的说明.我们在这里再强调一下第6版新增加的两个内容.首先是在第11章中增加了逻辑斯蒂回归(Logisticregression),平行于经典的线性回归,逻辑斯蒂回归处理对二值响应变量的预测(分类)问题.其次是在第12章中增加了一节补充材料,介绍近年来非常热门并得到广泛应用的数据分析领域一一数据挖掘(datamining),以及多元统计分析方法在数据挖掘中的应用本书由叶俊翻译第1章至第6章,由陆璇翻译第7章至第12章并统稿;研究生冯汉杰、向红旭、廖新国和郑灿亮也参与了翻译工作。由于我们的水平有限,因此在翻译中难免有错误或不妥之处,希望各位专家和读者发现问题后及时告知我们,以便以后有机会时予以更正,译者2008年7月于清华园

原著序实用多元统计分析Applied Multivariate Statistical Analysis读者对象本书最初来自我们为威斯康星大学麦迪逊分校统计系和商学院开设的“实用多元分析”课程的讲稿.《实用多元统计分析》第6版的内容,介绍了描述和分析多元数据的统计方法.尽管数据分析在一个变量时就很有趣味,但当涉及几个变量时,它才真正变得具有吸引力和富于挑战性.生物学、物理学和社会科学诸领域中的研究人员经常收集几个变量的测量结果,而现代计算机程序包则能轻易地提供复杂统计分析的数值结果.本书试图为读者提供一些必要的支持性知识,使他们能对统计分析结果作出适当的解释,能选择恰当的分析方法并了解这些方法的优点和缺点,我们希望,本书内容能满足实验科学家们的需要,在广泛多样的研究课题领域内,成为一本对多元观测结果进行统计分析的人门书,水平我们的目标是在这样的水平上介绍多元分析的概念和方法:使那些已学过两门或更多门统计学课程的读者能毫无困难地理解这些内容.本书侧重讨论多元方法的应用,因而我们尽可能地使数学有趣味.书中避免使用微积分,另一方面,矩阵及矩阵变换的概念却十分重要.我们假定读者不熟悉矩阵代数.所以当矩阵自然地出现在讨论中时,我们会先对它进行介绍,然后告诉你它如何简化了多元模型及方法的叙述本书第2章介绍了矩阵代数,对矩阵代数应用于多元分析时的一些重要结论作了强调,第2章的补充部分为那些很少或从未接触过这一学科的人提供了一个矩阵代数结论汇总,补充材料不仅使本书在内容上实现自给自足,而且被用来完成各种论证.这些论证在初次阅读时可以跳过,我们希望通过这种方式使本书能为更多的读者所接受,为了吸引从事实际工作和理论工作的广大读者学习多元分析,我们不得不在某种程度上牺性本书内容难度的一致性:有些章节的难度要比其余部分大些.特别在第7章中,我们概括了有关回归问题的大量材料,而结论表述又相当简略,因而初次阅读时会感到很困难,希望教师们能在选择适合学生的章节时设法弥补这种不平衡性,必要时可降低要求.组织和方法第5章至第12章讨论多元分析的方法论“工具”这儿章是本书的核心,不过要是没有第1至第4章的大量导论性材料,这些内容是无法理解的.即使对矩阵代数具备良好知识或愿意接受数学结论的读者,也应至少精读第3章的样本儿何和第4章的多元正态分布在涉及方法论的各章中,我们的做法是使讨论直截了当而又有条不紊地进行,典型的情况是,我们从总体模型的表述开始,对相应的样本结果作出描述,然后用例子对每件事情作出解释.例子分两类:一类比较简单,其中的计算可用手算轻易完成,另一类则依赖实际数据和计算机软件这些情况提供了一种机会,使我们能够:(1)重复做过的分析,(2)完成练习所要

亚I原著序求的分析,或(3)用我们未曾用过或未曾提出过的另一种方法来分析数据将叙述方法论的各章(5至12章)分成三部分,就能使教师们在将材料剪辑成适合自已需要的课程方面具有某种可塑性,兹将一学期(两个季度)课程的可能安排图示如下:预备知识1~4章关于均值的推断分类和分组5~7章11~12章协方差结构的分析协方差结构的分析8~10章8~10章每个教师无疑都会放弃某几章中的某几节内容,以形成比上述两种选择更宽广的课题选择对于大多数学生,我们建议他们迅速通过最初4章(主要是第1章,2.1节,2.2节,2.3节,2.5节,2.6节和3.6节,以及第4章中“评估正态性假定”那一节),然后便选择方法论课题例如,人们也许会讨论均值向量、主成分、因子分析、判别分析和聚类等的比较.这些讨论可以以包含在这几节中的那些“设计出来的”例子为特色.教师可依靠图表和文字说明来讲授相应的理论推导.如果学生们的数学水平较高而且程度均衡,本书大部分内容可在一学期内成功地授完.我们发现个别数据分析方案有助于将来自方法论各章的材料组成一个整体.所以我们对多元方差分析、回归分析、因子分析、典型相关、判别分析等内容进行相当完善的论述是有益的,尽管这些内容在讲课时也许不会专门提到第6版的内容更动新材料本书前几版的读者会注意到第6版有以下几个改动,·12个新的数据集,主要有:各国男子和女子的径赛记录,心理评分,汽车车身装置测量结果,手机塔故障,纸浆和纸张的性能测试,马里家庭农场数据,股票收益率以及布拉索斯河的水蛇数据·添加了37道新习题和修正了20道原来的习题,而且其中很多习题都是基于新的数据集。添加了4个基于新数据的习题并修正了15个习题.6个新添的或扩充的节1.6.6节的协方差矩阵相等性的检验2.11.7节的逻辑斯蒂(Logistic)回归和分类3.12.5节的基于统计模型的聚类4.扩充了6.3节,新增了“样本量不大时,对正态总体的T分布的逼近”5.扩充了7.6节和7.7节,新增了赤池(Akaike)信息准则6.将以前关于两组别的判别式分析的11.3节和11.5节合并成11.3一节网址为了突出多变量分析的方法,我们删除了结论7.2,7.4,7.10和10.1长的证明,但是将证明放在了以下网站:www.prenhall.com/statistics.点击“MultivariateStatistics”,然

IV实用多元统计分析后点击本书可获得这些证明.此外,本书所用的所有数据集的ASCII文件可以在该网站下载教师使用手册我们在网站www.prenhall.com/statistics上提供了教师使用手册.如果想知道更多与本书相关的资料或更多感兴趣的主题等信息,读者可以访问PrenticeHall的网站:www.prenhall.com致谢首先感谢我的同事们,他们贡献了自己的数据作为本书的例题和练习,完善了本书的应用.在本书的修订过程中,很多人给了我很大帮助,也非常感谢他们,他们是Minnesota大学的ChristopherBingham,Michigan大学的SteveCoad,Florida大学的RichardKiltie,GeorgeMason大学的SamKotz,Michigan州立大学的HimKoul,Drexel大学的BruceMcCullough,Virginia大学的ShyamalPeddada,Illinois大学Chicago分校的K.Sivakumar,Virginia理工大学的EricSmith以及Illinois大学Urbana-Champaign分校的StanleyWasserman.我们还要感谢过去35年来参加多元分析课程学习的同学们,他们的反馈意见很有意义,他们的评论和建议对本书的成稿有很大帮助.此外,特别感谢WaiKwongCheang,ShanghongGuan,JialiangLi和ZhiguoXiao,他们对本书许多例题的计算给予了很大帮助.我们还应感谢DianneHall帮忙完成了教师使用手册,SteveVerrill帮助完成了很多计算,感谢AlisonPollack完善了切尔诺夫(Chernoff)脸的编程工作.感谢CliffGilman在第12章中讨论多维标度例子中提供的帮助.JacquelynForer负责了本书的大部分打字工作,在此我们感谢她的专业与耐心,最后,感谢PetraRecter,DebbieRyan,MichaelBell,LindaBehrens,JoanneWendelken以及PrenticeHall的相关工作人员对本项目的支持R.A.Johnsonrich@stat. wisc.eduD.W.Wichernd-wichern@tamu.edu

目录实用多元统计分析Applied Multivariate Statistical Analysis第1章多元分析概述1.1引言1.2多元方法的应用1.3数据的组织·1.4数据的展示及图表示141.5距离231.6最终评注27练习28参考文献37第2章矩阵代数与随机向量392.1引言392.2矩阵和向量代数基础392.3正定矩阵472.4平方根矩阵502.5随机向量和矩阵512.6均值向量和协方差矩阵522.7矩阵不等式和极大化60补充2A向量与矩阵:基本概念63练习78参考文献85第3章样本几何与随机抽样863.1引言863.2样本儿何863.3随机样本以及样本均值和协方差矩阵的期望值913.4广义方差943.5作为矩阵运算的样本均值、协方差与相关系数1053.6变量的线性组合的样本值107练习111参考文献114

VI实用多元统计分析第4章多元正态分布1154.1引言1154.2多元正态密度及其性质1154.3从多元正态分布抽样与极大似然估计1284.4X和S的抽样分布1324.5X和S的大样本特性1334.6评估正态性假定·1354.7搜寻离群值及“清洁”数据1434.8变换到接近正态性147练习153参考文献160第5章关于均值向量的推断1615.1引言1615.2H作为正态总体均值的似真性:1615.3霍特林T与似然比检验1665.4置信域和均值分量的联合比较1685.5总体均值向量的大样本推断1795.6多元质量控制图1835.7观测值缺损时均值向量的推断1925.8多元观测中由时间相依性造成的困难196补充5A作为P维椭球投影的联合置信区间与置信椭圆197练习198参考文献207第6章多个多元均值向量的比较2096.1引言2096.2成对比较与重复测量设计2096.3两总体均值向量的比较:2176.4多个多元总体均值向量的比较(单因子多元方差分析)2266.5处理效应的联合置信区间2356.6协方差矩阵相等性的检验2366.7双因子多元方差分析2386.8轮廓分析2476.9重复测量设计和生长曲线2516.10对分析多元模型的展望和建议255练习258参考文献278

VI日录第7章多元线性回归模型2807.1引言2807.2经典线性回归模型2807.3最小二乘估计.2837.4回归模型的推断2887.5由估计的回归函数作推断2947.6模型检查及回归中的其他问题2967.7多元多重回归·3007.8线性回归的概念3127.9比较回归模型的两种表达方式3187.10有时间相关误差的多重回归模型321补充7A多元多重回归模型的似然比的分布·324练习325参考文献332第8章主成分3348.1引言3348.2总体主成分3348.3综合主成分的样本变差3428.4主成分的图形表示3518.5大样本推断3538.6用主成分监控质量356补充8A样本主成分近似的几何意义360练习364参考文献373第9章因子分析与对结构性协方差矩阵的推断3749.1引言3749.2正交因子模型3749.3估计方法3799.4因子旋转.3929.5因子得分3999.6因子分析的展望和建议403补充9A极大似然估计的某些计算细节409练习411参考文献419第10章典型相关分析42010.1引言420