Data Analysis Tools and 2018.05.08 Practice(Using R) 课程复习川 北大软件与微电荐院 Huiping Sun(孙惠平) School of Software and Microelectronics,Peking University sunhp@ss.pku.edu.cn
Huiping Sun(ਃణଘ) sunhp@ss.pku.edu.cn 课程复习II Data Analysis Tools and Practice(Using R) 2018.05.08
课堂测试时间
᧞झၥᦶᳵ
Course 课堂测试09 先用电脑完成 Wrap-up II 40分钟 然后誊抄纸上 ●I、查看数据集mtcars,根据要求作图: (I)画出car与GDP关系,设置图形属性颜色由region决定,并将省份名称标注在 图上,注意避免省份标签的文本不会重叠; (2)画一个块面图表示car与GDP的关系,要求根据region分组,两行 (3)画出car与GDP关系的拟合直线,直线两侧不显示置信区间 (4)画出car与GDP关系的折线图 (5)画出region?变量的条形图 (6)画出region3变量的直方和频率折线图,指定组距为0.5 (T)使用region作为分类变量,画出GDP变量的画箱线图 (8)如果我们只想看人均GDP在2至4之间,平均汽车保有量在10至20之间的省份 的散点图,可以使用xlim0、yimO函数限定坐标轴范围。X轴标签为'Per (9)画出region变量的条形图,要求根据region来进行颜色填充,不显示图例,组 距宽度为l,xab,ylab为空,反转x,y坐标
• 1̵ັ፡හഝᵞmtcars҅໑ഝᥝ֢ࢶғ (1)ኮڊcarӨGDPىᔮ҅ᦡᗝࢶ᷏ં୵ᜋኧregion٬ਧ҅ଚਖ਼ղݷᑍຽဳࣁ ࢶӤ҅ဳعղຽᓋጱӧտ᯿ݖҔ (2)ኮӞӻࣘᶎࢶᤒᐏcarӨGDPጱىᔮ҅ᥝ໑ഝregionړᕟ҅ӷᤈ (3)ኮڊcar ӨGDP ىᔮጱݳፗᕚ҅ፗᕚӷ׆ӧดᐏᗝ܄מᳵ (4)ኮڊcar ӨGDP ىᔮጱರᕚࢶ (5)ኮڊregionݒᰁጱ୵ࢶ (6)ኮڊregionݒᰁጱፗො᷇ሲರᕚࢶ҅ਧᕟ᪗ԅ0.5 (7)ֵአregion֢ԅړᔄݒᰁ҅ኮڊGDPݒᰁጱኮᓟᕚࢶ (8)ইຎ౯ժݝమ፡Ո࣐GDPࣁ2ᛗ4ԏᳵ҅ଘ࣐כํᰁࣁ10ᛗ20ԏᳵጱղ ጱවᅩࢶ҅ݢզֵአxlim()̵ylim()ڍහᴴਧࣖຽࢱ̶Xຽᓋԅ’Per (9)ኮڊregionݒᰁጱ୵ࢶ҅ᥝ໑ഝregionᬰᤈ᷏ᜋऴش҅ӧดᐏࢶֺ҅ᕟ ᪗਼ଶԅ1҅xlab,ylabԅᑮ҅ݍx,yࣖຽ 课堂测试09 ضአኪᚏਠ౮ 40ړᰦ ᆐݸᦀಧᕕӤ Course Wrap-up II
Course 课堂测试07 先用电脑完成 Wrap-up II 40分钟 然后誊抄纸上 ●2、使用ggplot2包的数据集mpg,画出cty和displ关系的散点 图,并添加随机抖动 。3、根据要求绘制地图: (I)加载ggplot.2和maps包,获取数据euro指定map 为“UK",'France'',“Spain',"Germany',“'Italy'" (2)使用euro绘制地图,表示x轴表示long变量,y轴表示lat变 量,使用group变量分组,填充颜色根据region来指定, geom_polygon3来绘制边,颜色指定为黑色,调色板,y轴 范围为(40,60)(使用scale_y._continuous(0函数),×轴范围为 (-25,25)(使用scale_x_continuous(0函数),标题为Euorpe's Big Five Football Leagues
• 2̵ֵአggplot2۱ጱහഝᵞmpg,ኮڊctydisplىᔮጱවᅩ ࢶ҅ଚႲےᵋಮۖ • 3 ̵໑ഝᥝᕲࢶࣈګғ (1)ےggplot2maps۱҅឴ݐහഝeuroਧmap ԅ“UK”,”France”, “Spain”,”Germany”, “Italy” (2)ֵአeuroᕲࢶࣈګ҅ᤒᐏxᤒᐏlongݒᰁ҅yᤒᐏlatݒ ᰁֵ҅አgroupݒᰁړᕟ҅ऴش᷏ᜋ໑ഝregionਧ҅ geom_polygonᕲګᬟ᷏҅ᜋਧԅἓᜋ҅᧣ᜋ҅y ࢱԅ(40҅60)(ֵአscale_y_continuous()ڍහ) , xࢱԅ (-25҅25)(ֵአscale_x_continuous()ڍහ),ຽ᷌ԅEuorpe’s Big Five Football Leagues 课堂测试07 ضአኪᚏਠ౮ 40ړᰦ ᆐݸᦀಧᕕӤ Course Wrap-up II
Course 上次课程内容回顾 Wrap-up II 8Plot(O,图层 *data;mapping;geom;stat;position;aes();layer(); geom xxx: *point;line;path;bar;histogram;smooth;density;jitter;text;line; line;abline;tile;area;polygon; ● stat xxx: identity;smooth;function;boxplot;density;quantile;sum; unique;bin;stat bin2d 其余: *fill;bins;colour;group;labs;binwidth;shape;alpha;maps;
੶ࢶ ,()ggplot• ✴ data; mapping; geom; stat; position; aes(); layer(); • geom_xxxғ ✴ point; line; path; bar; histogram; smooth; density; jitter; text; line; line; abline; tile; area; polygon; • stat_xxxғ ✴ identity; smooth; function; boxplot; density; quantile; sum; unique; bin; stat_bin2d • ٌ֟ғ ✴ fill; bins; colour; group; labs; binwidth; shape; alpha; maps; 上次课程内容回顾 Course Wrap-up II
课堂测试复习
᧞झၥᦶ॔ԟ
Course 课堂测试05 Wrap-up II ·1、0位同学的姓名、性别、年龄、身高、体重数据如下: Name Sex Age Height Weight Alice Harden F 13 56.5 84.0 Sandy Muller F 51.3 50.5 Sharon Wilshere F 15 62.5 112.5 Tammy Wenger F 14 62.8 102.5 Alfred Ferguson M 14 69.0 112.5 Duke klopp M 14 63.5 102.5 Guido Conte M 15 67.0 133.0 Robert Mourinho M 12 64.8 128.0 Thomas Bryant M I 57.5 85.0 William Curry M15 66.5 112.0 I)根据以上信息构造一个数据框,数据框的名称为stuinfos 2)分别计算全体学生年龄、身高、体重的和、平均值、标准差,并且设置数据的输出格式为小数点后两位 3)依姓氏和名字对数据集进行排序: 4)将上述数据写成(write.table0)一个纯文本的文件(文件名为class..txt),并用函数read.table)(读取文件中 的身高和体重数据
• 1̵10֖ݶጱনݷ̵ڦ̵ଙἻ̵ṛ̵֛᯿හഝইӥғ Name Sex Age Height Weight Alice Harden F 13 56.5 84.0 Sandy Muller F 11 51.3 50.5 Sharon Wilshere F 15 62.5 112.5 Tammy Wenger F 14 62.8 102.5 Alfred Ferguson M 14 69.0 112.5 Duke klopp M 14 63.5 102.5 Guido Conte M 15 67.0 133.0 Robert Mourinho M 12 64.8 128.0 Thomas Bryant M 11 57.5 85.0 William Curry M 15 66.5 112.0 1) ໑ഝզӤמ௳᭜Ӟӻහഝ҅හഝጱݷᑍԅstuinfos 2) ڦړᦇᓒق֛ኞଙἻ̵ṛ̵֛᯿ጱ̵ଘ̵࣐ຽاٴ૧҅ଚӬᦡᗝහഝጱᬌڊ໒ୗԅੜහᅩݸӷ֖ 3) ׁন࿄ݷਁහഝᵞᬰᤈഭଧғ 4) ਖ਼Ӥᬿහഝٟ౮( write.table() )Ӟӻᕍጱկҁկݷԅclass.txt҂,ଚአڍහread.table()ݐկӾ ጱṛ᯿֛හഝ 课堂测试05 Course Wrap-up II
Course 课堂测试06 Wrap-up II I、数据集alpe_d huez2描述了环法自行车赛期间Alpe d'Huez赛段的最快时间,以及关于 年份和吸毒指控的背景信息。绘制出车手最快时间的分布。使用)直方图和b)箱线图 显示它们。 2、mtcars是datasets包中的数据集。请使用str0函数了解这个数据集的构成,并输出数 据集,然后按要求画图: 米a. 我们要设置一个蓝色背景和红色的点或线。我们应该使用什么命令 米b.画出cyl和mPg关系的散点图,并将结果输出为plot.png,要求输出为白底, 360px*360px,点的大小为72 ·3、obama vs mccain数据集描述了2008年美国总统选举中的各州投票信息,以及关于收 入,失业,种族和宗教的背景信息。 米a.画出收入Income和参加选举比例Turnout,之间的关系的散点图。提示:Turnout存 在Na值。 米b.将上述图形点的形状为黑色实心三角形I) 米c.数据集中有一个因子类型的列regions,.请画出每个地区region下的收入Income和参 加选举比例Turnout,之间的关系的散点图。要求设置布局为5列,行优先
• 1̵හഝᵞalpe_d_huez2ൈᬿԧሾဩᛔᤈᩦ๗ᳵAlpe d’Huezᩦྦྷጱ๋ளᳵ҅զ݊ىԭ ଙղޕྰഴጱᙧวמ̶௳ᕲڊګಋ๋ளᳵጱړ̶ֵአa҂ፗොࢶb҂ᓟᕚࢶ ดᐏਙժ̶ • 2̵mtcarsฎdatasets۱Ӿጱහഝᵞ̶᧗ֵአstr()ڍහԧᥴᬯӻහഝᵞጱ౮҅ଚᬌڊහ ഝᵞ҅ᆐݸೲᥝኮࢶғ ✴ a. ౯ժᥝᦡᗝӞӻ᠗ᜋᙧวᕁᜋጱᅩᕚ̶ ౯ժଫᧆֵአՋԍե ✴ b. ኮڊcylmpgىᔮጱවᅩࢶ҅ଚਖ਼ᕮຎᬌڊԅplot.png҅ᥝᬌڊԅጮବ҅ 360px*360px,ᅩጱय़ੜԅ72 • 3̵obama_vs_mccainහഝᵞൈᬿԧ2008ଙᗦࢵᕹᭌԈӾጱݱಭᐥמ҅௳զ݊ىԭත ̶௳מਤරጱᙧว෧ᐿ҅०ӱ҅ف ✴ a. ኮڊතفIncome݇ےᭌԈྲֺTurnoutԏᳵጱىᔮጱවᅩࢶ̶ᐏғTurnoutਂ ̶Naࣁ ✴ b. ਖ਼Ӥᬿࢶ୵ᅩጱ୵ᇫԅἓᜋਫஞӣ୵(17) ✴ c. හഝᵞӾํӞӻࢩৼᔄࣳጱڜregions,᧗ኮڊྯӻ܄ࣈregionӥጱතفIncome݇ ےᭌԈྲֺTurnoutԏᳵጱىᔮጱවᅩࢶ̶ᥝᦡᗝੴԅ5ڜ҅ᤈսض̶ 课堂测试06 Course Wrap-up II
Course 课堂测试07 Wrap-up II 1、1 创建字符向量colors,元素为"green'',orange'',"brown”,创建字符向量months, 元素为”一月,”二月,”三月”四月”,五月”,创建字符向量regions,元素为东部地 区””西部地区”,”南部地区”;创建矩阵values,元素为值2,9,3,11,9,4,8,7,3,12,5,2,8, 10,II,要求3行5列。(I)、使用矩阵valuest创建推叠(堆积)的条形图,添加标题为 总收入”,x轴名称为”月份”,y轴名称为”收入”,条形图的标签为字符向量 months(使用names..arg参数),推叠条形图的颜色设置为创建的字符向量colors; (2)、添加图例,内容为字符向量regions,.分别对应条形图中的三种颜色。 ● 2、dapengde_DummyR_PM25.csv是2003年8月在北京城区的三个高度(8米, 100米,325米)测得的PM2.5的质量浓度日变化的统计数据,共4列25行。 (I)、请画出一条折线表示h8和time的关系,要求是"time"和"pm2.5"分别是x轴的 名称和y轴的名称,lty=I(表示line的type为l,表示直线)y轴的范围是0到200; (2)、在上图增加一条折线(使用lines(0函数)表示hl00和time的关系,要求颜色为红 色,线型为虚线(ty=2);(3)、在上图中增加图例来表示上边画的两条折线,其中 图例位置为(x=I5,y=180)位置处,内容为8m和100m,两条折线分别为黑色直 线和红色虚线;(4)、画出x轴,刻度指定为和时间相对应的24个小时。(5)、与h8 和l00两条折线相对应,画出其对应的y轴均值的水平线
• 1̵ڠୌਁᒧݻᰁcolors,زᔰԅ”green”,”orange”,”brown”҅ڠୌਁᒧݻᰁmonths, زᔰԅ”Ӟ์”,”ԫ์”,”ӣ์”,”ࢥ“,“์Բ์”҅ڠୌਁᒧݻᰁregions,زᔰԅ”ӳ᮱ࣈ ܄“,“ᥜ᮱܄ࣈ“,“ܖ᮱܄ࣈ“ҔڠୌᎥᴣvalues,زᔰԅ2,9,3,11,9, 4, 8, 7, 3, 12, 5, 2, 8, 10, 11҅ᥝ3ᤈ5ڜ)̶1)̵ֵአᎥᴣvaluesڠୌവݖ)ञᑌ)ጱ୵ࢶ҅Ⴒےຽ᷌ԅ “فත ҅xݷᑍԅ”์ղ” ҅yݷᑍԅ”තف୵҅“ࢶጱຽᓋԅਁᒧݻᰁ months(ֵአnames.arg݇හ)҅വݖ୵ࢶጱ᷏ᜋᦡᗝԅڠୌጱਁᒧݻᰁcolorsҔ (2)̵Ⴒࢶےֺٖ҅ԅਁᒧݻᰁregions҅ڦړଫ୵ࢶӾጱӣᐿ᷏ᜋ̶ • 2̵dapengde_DummyR_PM25.csvฎ2003 ଙ 8 ์ࣁ۹Ղउ܄ጱӣӻṛଶҁ8 ᔂ҅ 100 ᔂ҅325 ᔂ҂ၥጱ PM2.5 ጱᨶᰁၫଶ෭ݒ۸ጱᕹᦇහഝ҅و 4 ڜ 25 ᤈ̶ (1)̵᧗ኮڊӞರᕚᤒᐏh8timeጱىᔮ҅ᥝฎ"time""pm2.5" ڦړฎxጱ ݷᑍyጱݷᑍ, lty=1ҁᤒᐏlineጱtypeԅ1҅ᤒᐏፗᕚ) yጱࢱฎ0ک200Ҕ (2)̵ࣁӤࢶीےӞರᕚ(ֵአlines()ڍහ)ᤒᐏh100timeጱىᔮ҅ᥝ᷏ᜋԅᕁ ᜋ҅ᕚࣳԅᡦᕚ(lty=2)Ҕ(3)̵ࣁӤࢶӾीࢶےֺᤒᐏӤᬟኮጱӷರᕚٌ҅Ӿ ࢶֺ֖ᗝԅҁx=15҅y=180҂֖ᗝ॒ٖ҅ԅ8m100m,ӷರᕚڦړԅἓᜋፗ ᕚᕁᜋᡦᕚҔ(4)̵ኮڊx҅ڰଶਧԅᳵፘଫጱ24ӻੜ̶(5)̵Өh8 h100ӷರᕚፘଫ҅ኮڊٌଫጱy࣐ጱଘᕚ̶ 课堂测试07 Course Wrap-up II
Course 课堂测试07 Wrap-up II 3、右图表示某种商品上一周与本周 销量的对比图,请根据表格中的数 据创建矩阵,并完成那个下列的作 pre now 图要求:()、将各组数据用条形图 113 123 表示,要求水平、并列的方式,上 2 134 145 周和本周的颜色分别为黄色和红色, 123 136 不添加坐标轴;(2)、在底部添加水 145 178 平坐标轴;(3)、在左侧添加垂直坐 5 123 113 标轴,要求在位置2,5,8,11,14,17,20 处,标签为Mon”Tue'Wed"Thur'”Fri 6 234 167 Sat”Sun',不显示刻度 7 145 220
• 3̵ࢶݦᤒᐏᐿࠟߝӤӞޮӨޮ ᲀᰁጱྲࢶ҅᧗໑ഝᤒ໒Ӿጱහ ഝڠୌᎥᴣ҅ଚਠ౮ᮎӻӥڜጱ֢ ࢶᥝғ(1)̵ਖ਼ݱᕟහഝአ୵ࢶ ᤒᐏ҅ᥝଘ̵ଚڜጱොୗ҅Ӥ ޮޮጱ᷏ᜋڦړԅἎᜋᕁᜋ҅ ӧႲࣖےຽҔ(2)̵ࣁବ᮱Ⴒے ଘࣖຽҔ(3)̵ࣁૢ׆Ⴒ࣮ےፗࣖ ຽ҅ᥝࣁ֖ᗝ2,5,8,11,14,17,20 ॒,ຽᓋԅ’Mon” Tue” Wed” Thur” Fri” Sat” Sun’,ӧดᐏڰଶ 课堂测试07 Course Wrap-up II