正在加载图片...
要求用户界面友好,运行稳定。 三、项目开发计划 1.开发规模计划 由于本项目是作为课程作业来做的,受到时间和人力等方面的约束,我们在实际开发中 只能减小问题的规模,开发一个demo程序的原型系统。初步计划是,抓取网页只在北大未 名和水木清华两大bbs的相关版面进行。在此基础上进行网页信息的提取,分词,建立索引, 然后实现对输入关键词的解析,匹配査询,结果排序,返回到页面显示等工作,从而完成概 念上的实现,给出初步的系统原型。 2.初步开发计划 1)界面 类似于 baidu和 google的界面,用户可以输入搜索条件,点击搜索按钮后,下面排列 出符合条件的结果。稍微不同的是,由于租房信息跟地域(城市、地区)紧密相关,所以在 用户输入搜索条件前,要先让用户选定一个地区,然后再进行搜索。这里我们仅考虑北京市 城区 后台 初步考虑分为以下几个模块: A.网页抓取模块:对北大未名和水木清华两大bbs相关版面,利用 crawler进行抓取。 B.网页分析模块:提取网页中有用的信息,保存为文本格式 C.网页分段模块:采用合适的分段技术,将每个文本分成多段。 D.索引建立模块:对分好的段进行分词、标注、词频统计等工作,建立全文索引。 E.查询匹配:将用户输入的关键词,采用合适的查找算法与索引进行逐一匹配,将符 合的内容提取出来,返回到界面 序:考虑相似度和时间等因素,将结果越接近,时间越新的内容排到前面 3.开发进度计划 项目开发周期40天,具体安排如下: 时间 工作 11月11日-11月16日各人搜集idea 11月16日11月17日「小组讨论,确定idea 11月18日-11月20日完成项目计划书 11月21日-11月27日小组成员分工,并根据分工自己去学习、查阅相关的资料,了解实现机 11月28日-11月30日讨论,给出系统总体框架和模块划分,设计各模块间的通信接口 11月31日-12月15日分工编码,各自完成相应模块基本功能:期间不定期碰头讨论 12月16日-12月20日模块整合,调试,构建完整的系统,全面测试 12月21日-12月23日完成最终项目报告,准备 presentation要求用户界面友好,运行稳定。 三、 项目开发计划 1. 开发规模计划 由于本项目是作为课程作业来做的,受到时间和人力等方面的约束,我们在实际开发中 只能减小问题的规模,开发一个 demo 程序的原型系统。初步计划是,抓取网页只在北大未 名和水木清华两大 bbs 的相关版面进行。在此基础上进行网页信息的提取,分词,建立索引, 然后实现对输入关键词的解析,匹配查询,结果排序,返回到页面显示等工作,从而完成概 念上的实现,给出初步的系统原型。 2. 初步开发计划 1) 界面 类似于 baidu 和 google 的界面,用户可以输入搜索条件,点击搜索按钮后,下面排列 出符合条件的结果。稍微不同的是,由于租房信息跟地域(城市、地区)紧密相关,所以在 用户输入搜索条件前,要先让用户选定一个地区,然后再进行搜索。这里我们仅考虑北京市 城区。 2) 后台 初步考虑分为以下几个模块: A. 网页抓取模块:对北大未名和水木清华两大 bbs 相关版面,利用 crawler 进行抓取。 B. 网页分析模块:提取网页中有用的信息,保存为文本格式。 C. 网页分段模块:采用合适的分段技术,将每个文本分成多段。 D. 索引建立模块:对分好的段进行分词、标注、词频统计等工作,建立全文索引。 E. 查询匹配:将用户输入的关键词,采用合适的查找算法与索引进行逐一匹配,将符 合的内容提取出来,返回到界面。 F. 排序:考虑相似度和时间等因素,将结果越接近,时间越新的内容排到前面。 3. 开发进度计划 项目开发周期 40 天,具体安排如下: 时间 工作 11 月 11 日-11 月 16 日 各人搜集 idea 11 月 16 日-11 月 17 日 小组讨论,确定 idea 11 月 18 日-11 月 20 日 完成项目计划书 11 月 21 日-11 月 27 日 小组成员分工,并根据分工自己去学习、查阅相关的资料,了解实现机 制 11 月 28 日-11 月 30 日 讨论,给出系统总体框架和模块划分,设计各模块间的通信接口 11 月 31 日-12 月 15 日 分工编码,各自完成相应模块基本功能;期间不定期碰头讨论。 12 月 16 日-12 月 20 日 模块整合,调试,构建完整的系统,全面测试 12 月 21 日-12 月 23 日 完成最终项目报告,准备 presentation
<<向上翻页
©2008-现在 cucdc.com 高等教育资讯网 版权所有