《数据科学引论——Python之道》课程教学资源（教案讲义）02 数据科学的应用

团购合买资源类别：文库，文档格式：PDF，文档页数：15，文件大小：2.41MB

数据科学引论-Python之道第2课数据科学的应用让我们来通过一些实例来靠近体验数据科学的应用。一、社交网络&约会首先，让我们先看一看数据科学在社交网络中的应用。陌陌是一个很著名的社交网站，很多人在上面找到了朋友，我们可以看到陌陌的成长非常迅速，那么为什么这么迅速呢？因为陌陌这样的公司在使用相关算法推荐好友，因为用户在陌陌上找到了好友，那么用户在这个pp上的粘滞度就非常高。陌陌是一个典型的社交网络的APP,很多人都在上面找到了自己的朋友，这是统计出来的陌陌的月活跃用户数以及每位用户在陌陌上支付的费用，可以看到陌陌的成长非常迅速，那么陌陌的成长为什么这么迅速呢？因为像陌陌这样的公司，他在使用数据科学中的一些推荐算法为我们推荐好友，因为我们找到了好友，所以我们在这个网站上的粘滞度非常的高，那么好友是如何推荐的呢？ Average Revenue Per User S0.60 50.51 5050 50.39 0.34 50.40 S0.27 80.0 50.30 5020 50.16 730 50.20 $0.07 50.13 60.0 50.03 02 50.10 54 50.00 40.0 37 283 20.0 1303 1304 1401 14Q2 14Q3 14Q415Q1 15Q2 153 Monthly Active Users (mn)ARPU 它的一般推荐方法如下，假设这个红色的圆圈表示的就是你，你会有一些已经认识的好友，他们也注册到了陌陌上，那么你在陌陌上直接将其加为了好友

数据科学引论-Pyth瀂瀁之道第 2 课数据科学的应用让我们来通过一些实例来靠近体验数据科学的应用。一、社交网络&约会首先，让我们先看一看数据科学在社交网络中的应用。陌陌是一个很著名的社交网站，很多人在上面找到了朋友, 我们可以看到陌陌的成长非常迅速,那么为什么这么迅速呢? 因为陌陌这样的公司在使用相关算法推荐好友,因为用户在陌陌上找到了好友,那么用户在这个 a瀃瀃上的粘滞度就非常高。陌陌是一个典型的社交网络的 APP，很多人都在上面找到了自己的朋友，这是统计出来的陌陌的月活跃用户数以及每位用户在陌陌上支付的费用，可以看到陌陌的成长非常迅速，那么陌陌的成长为什么这么迅速呢？因为像陌陌这样的公司，他在使用数据科学中的一些推荐算法为我们推荐好友，因为我们找到了好友，所以我们在这个网站上的粘滞度非常的高，那么好友是如何推荐的呢？它的一般推荐方法如下，假设这个红色的圆圈表示的就是你，你会有一些已经认识的好友，他们也注册到了陌陌上，那么你在陌陌上直接将其加为了好友

当然你的好友不可能只有一位，而是会有一群，于是你就把他们都加为了你的好友。在这些好友中，你会发现其中有一些跟你不认识的人，就是这个绿色圆圈标注出来的人，同时也是朋友，也就是说你和这个陌生人有一些共同的朋友，基于朋友的朋友就有可能成为朋友的这样一个假设，我们就会把这样的人推荐给你。好友好友的好友好友你好友我们再来看看约会APP的例子，探探是一个典型的约会APP,它帮助注册在上面的男女找到他们互相之间可能存在的缘分。它是如何来找缘分的呢？其实也是通过类似的方法使用数据科学的推荐算法来得到的。例如在APP上，它会问你一个问题：是否喜欢狗。面对这个问题，有的人可能回答喜欢，另外一个人回答也是喜欢，那么这两个人之间就存在一定的相似度，他们就可能会存在着缘分。于是，在是否喜欢狗这个维度上，我们就给他们赋一个值，比如说一分，但是对于另外一个人，他并不喜欢狗，我们就会发现他和喜欢狗的人之间就没有相似度，于是在是否喜欢狗这个问题上，他们的相似度就为零。于是，注册的用户会在网站上填写一系列问题的答案，比如说是否喜欢狗，是否喜欢旅行，是否上过大学和是否喜欢游泳。假设有一位女士，她对这四个问题产生了不同的回答，红色表示否定的回答

当然你的好友不可能只有一位，而是会有一群，于是你就把他们都加为了你的好友。在这些好友中，你会发现其中有一些跟你不认识的人，就是这个绿色圆圈标注出来的人，同时也是朋友，也就是说你和这个陌生人有一些共同的朋友，基于朋友的朋友就有可能成为朋友的这样一个假设，我们就会把这样的人推荐给你。我们再来看看约会 APP 的例子，探探是一个典型的约会 APP，它帮助注册在上面的男女找到他们互相之间可能存在的缘分。它是如何来找缘分的呢？其实也是通过类似的方法使用数据科学的推荐算法来得到的。例如在 APP 上，它会问你一个问题：是否喜欢狗。面对这个问题，有的人可能回答喜欢，另外一个人回答也是喜欢，那么这两个人之间就存在一定的相似度，他们就可能会存在着缘分。于是，在是否喜欢狗这个维度上，我们就给他们赋一个值，比如说一分，但是对于另外一个人，他并不喜欢狗，我们就会发现他和喜欢狗的人之间就没有相似度，于是在是否喜欢狗这个问题上，他们的相似度就为零。于是，注册的用户会在网站上填写一系列问题的答案，比如说是否喜欢狗，是否喜欢旅行，是否上过大学和是否喜欢游泳。假设有一位女士，她对这四个问题产生了不同的回答，红色表示否定的回答

绿色表示肯定的回答，现在我们来找和她可能匹配的男生。 You Person 1 Person 2 Person 3 Like Dogs? Like to Travel? Went to university Like to swim? 第一位男士对这四个问题的回答有两个和这位女士的回答是一致的，另外两个是不一致的，我们给他评分为两分。第二位男士四个问题的回答全部是否定的，但是，其中有两个和这位女士也是相同的答案，所以他的得分也是两分。第三位男士的回答有三个问题和这个女士的答案是相同的，所以他的得分就是三分。相比之下，我们就会发现这位女士和第三位男士之间的相似度更大，于是他们之间存在缘分的可能性越大，所以我们就会把这个男士推荐给这位女生去约会。从前面两个例子中，我们可以看到，无论是社交网站还是约会APP,它们都会面临相同的问题。什么问题呢？我们来看看默默的网站，在它的主页上它写了这样一句话，“超过两亿人的社交选择”。而在探探的网页上，他在主页上显示了一个计数器，这个计数器已经超过了30亿。也就是说，这两个应用都需要面对海量数据的分析。另外，社交网络和约会APP都有明确的业务模型，也就是说，它们知道如何分析数据去建模，如何得到想要的结果。它们只是在依托计算机集群的强大的计算能力来加速其分析和处理的速度和准确性，这就是我们看到的数据科学依托现代计算能力产生新型业务的例子

绿色表示肯定的回答，现在我们来找和她可能匹配的男生。第一位男士对这四个问题的回答有两个和这位女士的回答是一致的，另外两个是不一致的，我们给他评分为两分。第二位男士四个问题的回答全部是否定的，但是，其中有两个和这位女士也是相同的答案，所以他的得分也是两分。第三位男士的回答有三个问题和这个女士的答案是相同的，所以他的得分就是三分。相比之下，我们就会发现这位女士和第三位男士之间的相似度更大，于是他们之间存在缘分的可能性越大，所以我们就会把这个男士推荐给这位女生去约会。从前面两个例子中，我们可以看到，无论是社交网站还是约会 APP，它们都会面临相同的问题。什么问题呢？我们来看看默默的网站，在它的主页上它写了这样一句话，“超过两亿人的社交选择”。而在探探的网页上，他在主页上显示了一个计数器，这个计数器已经超过了 30 亿。也就是说，这两个应用都需要面对海量数据的分析。另外，社交网络和约会 APP 都有明确的业务模型，也就是说，它们知道如何分析数据去建模，如何得到想要的结果。它们只是在依托计算机集群的强大的计算能力来加速其分析和处理的速度和准确性，这就是我们看到的数据科学依托现代计算能力产生新型业务的例子

二、房价下面让我们看看房价的例子，房价无时无刻不再发生变化，下面就是一个中国大陆房价统计图。我们可以利用数据科学来预测需要为一套房子支付多少钱。最直观的感受，我们认为房子大小跟价格存在着密切的关系，所以小房子的价格就比较低，大一点的房子价格就会高一些，更大的房子价格就会更高。 China Land Price 25 15 1.0 0.5 0.0 Source:Wharton/NUS/Tsinghua 于是，我们根据数据统计得到了一条曲线，我们可以用这条曲线来预测房子的价格与房屋大小之间的关系。但是，这个模型不一定可靠，例如，我们会发现更大的房子，它的价格反而会下来，因为它离郊区更近，交通更不方便，所以它的需求量并不是很高，它的房价就下来了。在这种情况下，我们就会发现简单的数据统计实际上是无法准确预测房价的。 Statistics Price Machine Learning Feature:Size 这时，我们需要机器学习。我们可以从图中看到，通过机器学习，我们得到了绿色的这条曲线，这条曲线的预测就会比红色的这条直线的预测要显得更准确

二、房价下面让我们看看房价的例子，房价无时无刻不再发生变化，下面就是一个中国大陆房价统计图。我们可以利用数据科学来预测需要为一套房子支付多少钱。最直观的感受，我们认为房子大小跟价格存在着密切的关系，所以小房子的价格就比较低，大一点的房子价格就会高一些，更大的房子价格就会更高。于是，我们根据数据统计得到了一条曲线，我们可以用这条曲线来预测房子的价格与房屋大小之间的关系。但是，这个模型不一定可靠，例如，我们会发现更大的房子，它的价格反而会下来，因为它离郊区更近，交通更不方便，所以它的需求量并不是很高，它的房价就下来了。在这种情况下，我们就会发现简单的数据统计实际上是无法准确预测房价的。这时，我们需要机器学习。我们可以从图中看到，通过机器学习，我们得到了绿色的这条曲线，这条曲线的预测就会比红色的这条直线的预测要显得更准确

一些。也就是说，只从房屋大小这一个维度来进行预测，实际上是不准确的。考虑到其他的因素，通过机器学习的方式得到的预测结果会更准确。那么，怎样进行机器学习呢？我们现在看到的机器学习和深度学习等非常流行的技术中，都脱离不了神经网络这个概念。神经网络通过对数据的训练得到一个复杂的模型，例如我们将所有的房屋进行拍照，把这些照片提取关键特性作为输入放入神经网络进行训练，对识别正确的，即房价预测正确的数据和房价预测不正确的数据进行分类，然后通过这些误差进行计算，不断地去训练这个网络，最后就能得到一个比较准确的对房价进行预测的模型。 Picture of House Neural Network Price 16 我们为什么需要神经网络呢？实际上从前面的讲述中我们就可以发现，房价的变化实际上不是一个只和房屋的大小相关的问题，它是一个多元的问题，涉及国家政策、供需关系、城市规划观念的转换等等，而且这些因素之间也不是完全独立的，它们存在不同程度的关联和交互，所以我们很难用数学的方法对其建立形式化的模型，这里面就会提到一个问题，就是机器学习和人工智能到底能帮助我们解决什么问题？神经网络就是典型的机器学习和人工智能的技术，那么在刚才我们提到的神经网络的例子中，我们没有直接去告诉房屋价格的多个因素之间的关系是什么

一些。也就是说，只从房屋大小这一个维度来进行预测，实际上是不准确的。考虑到其他的因素，通过机器学习的方式得到的预测结果会更准确。那么，怎样进行机器学习呢？我们现在看到的机器学习和深度学习等非常流行的技术中，都脱离不了神经网络这个概念。神经网络通过对数据的训练得到一个复杂的模型，例如我们将所有的房屋进行拍照，把这些照片提取关键特性作为输入放入神经网络进行训练，对识别正确的，即房价预测正确的数据和房价预测不正确的数据进行分类，然后通过这些误差进行计算，不断地去训练这个网络，最后就能得到一个比较准确的对房价进行预测的模型。我们为什么需要神经网络呢？实际上从前面的讲述中我们就可以发现，房价的变化实际上不是一个只和房屋的大小相关的问题，它是一个多元的问题，涉及国家政策、供需关系、城市规划观念的转换等等，而且这些因素之间也不是完全独立的，它们存在不同程度的关联和交互，所以我们很难用数学的方法对其建立形式化的模型，这里面就会提到一个问题，就是机器学习和人工智能到底能帮助我们解决什么问题？神经网络就是典型的机器学习和人工智能的技术，那么在刚才我们提到的神经网络的例子中，我们没有直接去告诉房屋价格的多个因素之间的关系是什么

而是通过大量数据进行训练，所以神经网络主要的一个作用就是通过大量的数据训练产生一个准确度很高的模型，这个模型可能对人类来说并不是那么直观，也不太容易理解，但是它的准确度相当高，也就是说它在这一批训练集上的拟合度非常高，所以从这个例子我们可以看到，数据科学可以通过机器学习和人工智能来帮助我们解决难以形式化建模的问题。三、在线零售下面让我们来看一看在线零售的例子，我们说阿里巴巴这样的公司为什么如此成功。下面是一张对比图，是过去几年里面阿里巴巴和一倍销售量的一个对比，我们可以看到阿里巴巴不但远远地把eby甩在了后头，而且它还曾不断增长的趋势。 Alibaba and eBay GMV (In Billions) 466 367 252 153 68 76 83 82 2012 2013 2014 2015 ■eBay ■Alibaba https://revenuesandprofits.com/alibab 实际上，像阿里巴巴这样的在线公司与实体店相比，最大的核心竞争力就是它开发的推荐系统。什么是推荐系统？最直观的感受就是当我们登录了网站之后回到网站首页上会看到一些推荐的商品，而这些商品往往是我们需要的或者是符合我们喜好的商品，这就是推荐出来的商品。推荐系统是如何工作的？我们举个例子，我们可以考虑一下Amy会不会喜欢进而购买一套粉色连衣裙。这需要我

而是通过大量数据进行训练，所以神经网络主要的一个作用就是通过大量的数据训练产生一个准确度很高的模型，这个模型可能对人类来说并不是那么直观，也不太容易理解，但是它的准确度相当高，也就是说它在这一批训练集上的拟合度非常高，所以从这个例子我们可以看到，数据科学可以通过机器学习和人工智能来帮助我们解决难以形式化建模的问题。三、在线零售下面让我们来看一看在线零售的例子，我们说阿里巴巴这样的公司为什么如此成功。下面是一张对比图，是过去几年里面阿里巴巴和一倍销售量的一个对比，我们可以看到阿里巴巴不但远远地把 ebay 甩在了后头，而且它还曾不断增长的趋势。实际上，像阿里巴巴这样的在线公司与实体店相比，最大的核心竞争力就是它开发的推荐系统。什么是推荐系统? 最直观的感受就是当我们登录了网站之后，回到网站首页上会看到一些推荐的商品，而这些商品往往是我们需要的或者是符合我们喜好的商品，这就是推荐出来的商品。推荐系统是如何工作的？我们举个例子，我们可以考虑一下 A瀀y 会不会喜欢进而购买一套粉色连衣裙。这需要我 htt瀃s://reve瀁uesa瀁d瀃r瀂fits.c瀂瀀/a濿ibab a-vs-ebay-c瀂瀀瀃ari瀁g-the-瀃濿atf瀂r瀀s-size-

们了解Ay的购物习惯，也就是把她以往的购物数据拿出来进行分析。在网站提供的各类商品里面，我们会看到她喜欢某一类产品或者是不喜欢某一类商品，拿她和网站上其他的用户进行对比，找到与她购物的喜好最相近的用户。比如说在下面三个用户里面，中间一位用户和Amy的购物喜好最接近，所以我们来看这位用户可能购买这条连衣裙的概率。我们发现她是喜欢这条连衣裙的，基于因有相同的购物爱好，我们认为Ay也极有可能会购买这条连衣裙，所以我们把这条连衣裙推荐给他。实际上，推荐系统遇到的最大的挑战就是由大数据带来了的。推荐系统需要采用合适的算法来处理这些大数据。实际上，刚才我们介绍的就是协同过滤算法。协同过滤算法作用于大量用户的购物习惯数据上时，它需要算法本身能够适合这个业务模型，并能够得出准确的结果。另外，这个算法需要通过并行化来提高处理速度。在这里，数据科学就可以助力推荐系统，在这其中我们必须要理解业务需求的驱动是首位的，也就是说，数据科学是数据驱动的，数据科学通过提供大量的计算资源来提高算法的执行效率，通过收集大量的用户反馈来迭代修正算法参数，提高算法的准确性

们了解 A瀀y 的购物习惯，也就是把她以往的购物数据拿出来进行分析。在网站提供的各类商品里面，我们会看到她喜欢某一类产品或者是不喜欢某一类商品，拿她和网站上其他的用户进行对比，找到与她购物的喜好最相近的用户。比如说在下面三个用户里面，中间一位用户和 A瀀y 的购物喜好最接近，所以我们来看这位用户可能购买这条连衣裙的概率。我们发现她是喜欢这条连衣裙的，基于因有相同的购物爱好，我们认为 A瀀y 也极有可能会购买这条连衣裙，所以我们把这条连衣裙推荐给他。实际上，推荐系统遇到的最大的挑战就是由大数据带来了的。推荐系统需要采用合适的算法来处理这些大数据。实际上，刚才我们介绍的就是协同过滤算法。协同过滤算法作用于大量用户的购物习惯数据上时，它需要算法本身能够适合这个业务模型，并能够得出准确的结果。另外，这个算法需要通过并行化来提高处理速度。在这里，数据科学就可以助力推荐系统，在这其中我们必须要理解业务需求的驱动是首位的，也就是说，数据科学是数据驱动的，数据科学通过提供大量的计算资源来提高算法的执行效率，通过收集大量的用户反馈来迭代修正算法参数，提高算法的准确性

四、Waston 来让我们看一看IBM的Waston系统。Waston在2006年立项的时候只是 BM内部的一个研究性项目，经过超过十年的发展，它在很多的领域都得到了应用。现在它已经在很多业界成为了标准的解决方案之一。它最出名的就是和癌症中心合作，在癌症治疗方面提供支持。Watson系统记录下了不同病症的病人在服用不同药物时具体的疗效，从中进行分析，做到对症下药，帮助医生确定针对不同的病患时最适合的药物是什么。 Waston还可以帮助人们计算退税金额。由于退税的规则非常的复杂，所以以往总是有人因为计算错误而导致退税金额算少了，造成了金钱上的损失， Waston可以帮助人们处理这些复杂的规则，计算出正确的退税金额。 Waston在迎战网络犯罪方面也有很好的表现，以往我们每年都会有很多的时间浪费在了追踪虚假的网络犯罪上，但是现在通过Waston的处理，它只需要几分钟的时间就能够把以往那些网络犯罪行为专家需要花费半天时间进行的研究给处理掉，从而提高了处理的速度以及处理的准确性。五、高级案例研究我们再来看一些更加复杂的例子。头条是一个在中国有7亿用户的非常热门的手机APP,它使用机器学习来发现用户感兴趣的新闻故事，并且把它们推荐给用户。它使用了机器学习和深入学习的技术。百度的增强现实可以虚拟化地重现重要的历史遗迹，使得遗迹的结构看起来和原貌一样，它也使用了机器学习和深度学习技术。百度的医疗对话机器人Melody像人类医生一样直接通过病人的语音输入就能够对疾病作出可靠的判断。它的后端是百度医疗大脑的支持，它使用的技术包

四、Wast瀂瀁来让我们看一看 IBM 的 Wast瀂瀁系统。Wast瀂瀁在 2006 年立项的时候只是 IBM 内部的一个研究性项目，经过超过十年的发展，它在很多的领域都得到了应用。现在它已经在很多业界成为了标准的解决方案之一。它最出名的就是和癌症中心合作，在癌症治疗方面提供支持。Wats瀂瀁系统记录下了不同病症的病人在服用不同药物时具体的疗效，从中进行分析，做到对症下药，帮助医生确定针对不同的病患时最适合的药物是什么。 Wast瀂瀁还可以帮助人们计算退税金额。由于退税的规则非常的复杂，所以以往总是有人因为计算错误而导致退税金额算少了，造成了金钱上的损失， Wast瀂瀁可以帮助人们处理这些复杂的规则，计算出正确的退税金额。 Wast瀂瀁在迎战网络犯罪方面也有很好的表现，以往我们每年都会有很多的时间浪费在了追踪虚假的网络犯罪上，但是现在通过 Wast瀂瀁的处理，它只需要几分钟的时间就能够把以往那些网络犯罪行为专家需要花费半天时间进行的研究给处理掉，从而提高了处理的速度以及处理的准确性。五、高级案例研究我们再来看一些更加复杂的例子。头条是一个在中国有 7 亿用户的非常热门的手机 APP，它使用机器学习来发现用户感兴趣的新闻故事，并且把它们推荐给用户。它使用了机器学习和深入学习的技术。百度的增强现实可以虚拟化地重现重要的历史遗迹，使得遗迹的结构看起来和原貌一样，它也使用了机器学习和深度学习技术。百度的医疗对话机器人 Me濿瀂dy 像人类医生一样直接通过病人的语音输入就能够对疾病作出可靠的判断。它的后端是百度医疗大脑的支持，它使用的技术包

括自然语言处理和深度学习。小鱼在家机器人是一款24小时在线的视频对讲机器人，它可以使用自然语言处理技术来理解用户的要求，并且提供了人脸跟踪识别、多方视频会话、互动社交分享、家庭用户助手和家庭娱乐等功能。它也使用了自然语言处理和深度学习技术。百度deep speech2是一款语音识别系统，它可以准确地识别英语和中文普通话，这是一种端到端的深度学习方法。 iCarbon X是一家新兴的企业，它围绕着消费者的生命大数据、互联网和人工智能创建了数字生命的生态系统，它可以提供私人专享的健康指数分析和预测服务，它使用的技术包括人工智能和数据挖掘以及生物数据分析。六、高级案例剖析让我们用一个高级案例的深度剖析来更加深入的理解数据科学的应用。下面是一张有关外汇交易市场外汇比价的走势图，那么我们的目标就是要根据收集到的历史数据来预测在未来的某个时间点的外汇比价。一般来说，我们会使用某种数学工具，例如神经网络、自回归模型、积分滑动平均模型来处理这些历史数据。通过这种处理，我们希望找到市场变化的规律，然后用这个规律去预测未来的比价值。 1.10 1.09 1.08 1.06 1.07 装裘装装鼓锰益證醛益器釜透透醛透猛簧簧醛益簧篮锰能我们发现外汇比价的变化会受到重大事件的影响，例如油价的上升或者是战

括自然语言处理和深度学习。小鱼在家机器人是一款 24 小时在线的视频对讲机器人，它可以使用自然语言处理技术来理解用户的要求，并且提供了人脸跟踪识别、多方视频会话、互动社交分享、家庭用户助手和家庭娱乐等功能。它也使用了自然语言处理和深度学习技术。百度 dee瀃 s瀃eech 2 是一款语音识别系统，它可以准确地识别英语和中文普通话，这是一种端到端的深度学习方法。 iCarb瀂瀁 X 是一家新兴的企业，它围绕着消费者的生命大数据、互联网和人工智能创建了数字生命的生态系统，它可以提供私人专享的健康指数分析和预测服务，它使用的技术包括人工智能和数据挖掘以及生物数据分析。六、高级案例剖析让我们用一个高级案例的深度剖析来更加深入的理解数据科学的应用。下面是一张有关外汇交易市场外汇比价的走势图，那么我们的目标就是要根据收集到的历史数据来预测在未来的某个时间点的外汇比价。一般来说，我们会使用某种数学工具，例如神经网络、自回归模型、积分滑动平均模型来处理这些历史数据。通过这种处理，我们希望找到市场变化的规律，然后用这个规律去预测未来的比价值。我们发现外汇比价的变化会受到重大事件的影响，例如油价的上升或者是战

争的爆发。所以我们得到启发，应该去找到重大事件与外汇比价之间的关联，而重大事件可以到新闻当中去发现，所以我们收集大量的新闻，通过新闻和外汇比较之间的关联关系来找到外汇比价变化的规律，进而使用该规律来进行预测，于是我们得到了下面张图： 1.10 1.09 1.08 1.06 1.07 图中上面部分仍然是外汇比价的走势图，而下面部分是我们补充了在每一个时间跨度内发生的最重大的新闻。由于历史数据的量可能会非常大，所以为了方便处理，我们会对这些数据做切片，于是我们得到了这张图片。我们按每半小时为时间跨度进行数据的切片，在每一个切片内，我们根据它的起始值和终止值来标识在这个切片内外汇比价是上升了还是下降了。 Down Up Down Up 1.10 1.09 1.08 106 1.07

争的爆发。所以我们得到启发，应该去找到重大事件与外汇比价之间的关联，而重大事件可以到新闻当中去发现，所以我们收集大量的新闻，通过新闻和外汇比较之间的关联关系来找到外汇比价变化的规律，进而使用该规律来进行预测，于是我们得到了下面张图：图中上面部分仍然是外汇比价的走势图，而下面部分是我们补充了在每一个时间跨度内发生的最重大的新闻。由于历史数据的量可能会非常大，所以为了方便处理，我们会对这些数据做切片，于是我们得到了这张图片。我们按每半小时为时间跨度进行数据的切片，在每一个切片内，我们根据它的起始值和终止值来标识在这个切片内外汇比价是上升了还是下降了

点击下载完整版文档（PDF格式）

共15页，试读结束，阅读完整版请下载

点击下载（PDF格式）

浏览记录