高级Web技术 1ebE的数据标准MM 一概述与语法
高级W be 技术 Web上的数据标准XML —概述与语法
课程主要内容组织 请理清听课思路 ◆WEB高级开发与应用技术概迒 基于Web的应用程序概念及其演变 N层次架构,分布式对象(组件)技术概逃 校心术 ◆Web数据标准-X的相关标准和应用 VRML→>X3D aWeb上的分布式虚拟环境 ◆企业应用背景 aE Bussiness, EAI etc. J2E概泚 sErvlet JSP n应用案例 EJB ■J2E组件与API J2EMC模式与框架( struts, spring etc) Service Web- Web Services S ic Web
课程主要内容组织 高级开发与应用技术概述 请理清听课思路 WEB 基于Web的应用程序概念及其演变 N层次架构,分布式对象(组件)技术概述 核心技术讲解 Web数据标准-XML的相关标准和应用 VRMLÆX3D Web上的分布式虚拟环境 Application Web-J2EE J2EE概述 企业应用背景 E Bussiness EAI etc Servlet & JSP EJB J2EE组件与API J2EE MVC模式与框架(struts spring etc) E _ Bussiness, EAI etc. 应用案例 J2EE MVC模式与框架(struts,spring etc) Service Web – Web Services Semantic Web
本次课程内容 XML简介与起源 XML的设计目的 XML的特点 XML1.0规范组成 XML文档逻辑结构 XML文档规则
本次课程内容 XML简介与起源 XML的设计目的 XML的特点 XML1.0规范组成 XML文档逻辑结构 XML文档规则
XML简介与起源 XML是 Extensible Markup Language(可扩展标记语言)的简称,是一 种元语言定义其他语言的系统) 1996年,W3C( World Wide WebConsortium,互联网联合组织)为了 克服HTML的局限性,在SGML的基础上创建XML 计算机产业界的需求:开发简单而又可扩展的、结构化和半结构化信息 文本表示机制 HTML是SGML的一个应用,XML是SGML的一个子集,并且已经成为 Internet上事实的数据交换标准 1998年2月推出第一个正式的XML10版本;目前XML已经以扩展巴科斯 诺尔范式EBNF( Extended Backus-Naur Form notation)的形式正式 定义了下来 (XML 1.1( Second Edition), W3C Recommendation, 16 August 2006 http://www.w3.org/tr2006/rec-xml11-20060816/ 独立于平台的XML是为web开发的,这是它最具影响的地方
XML简介与起源 XML是 Extensible Markup Language (可扩展标记语言)的简称,是一 种元语言(定义其他语言的系统 ) 1996年, W3C(World Wide WebConsortium,互联网联合组织)为了 克服HTML的局限性, 在SGML的基础上创建XML 计算机产业界 的需求:开发简单而又可扩展的、结构化和半结构化信息 文本表示机制 HTML是SGML的一个应用,XML是SGML的一个子集, 并且已经成为 Internet上事实的数据交换标准 1998年2月推出第一个正式的XML1.0版本;目前XML已经以扩展巴科斯 -诺尔范式 EBNF(Extended Backus (Extended Backus-Naur Form notation) Naur Form notation)的形式正式 定义了下来 (XML 1.1 (Second Edition), W3C Recommendation, 16 August 2006 ) http://www.w3.org/TR/2006/REC-xml11-20060816/ 独立于平台的XML是为Web开发的, 这是它最具影响的地方
HTML的局限性 可扩展性差 HTML的标记集是固定的,即HTML语法是不可扩展的 ■缺乏对信息含义的描述能力,信息检索效率低 HTML是针对人机交流而设计的,标记几乎全都是用来设计网页的布 局和外观的。检索信息时,需要对全部页面的所有内容扫描,并且检 索质量往往极差 夜夜我不觉晓 苦苦绕世界找 玩儿命好几天 有用的知多少
HTML的局限性 可扩展性差 HTML的标记集是固定的,即HTML语法是不可扩展的 缺乏对信息含义的描述能力,信息检索效率低 HTML是针对人机交流而设计的,标记几乎全都是用来设计网页的布 局和外观的。检索信息时,需要对全部页面的所有内容扫描,并且检 索质量往往极差 夜夜我不觉晓 苦苦绕世界找 玩儿命好几天 有用的知多少
HTML的局限性 ■搜索引擎简介 分类 目录式搜索引擎:早期的 Yahoo ■全文搜索引擎: Google及百度等第二代商用搜索引擎 元搜索引擎: Web Crawler 文件)牺①)查看C)收震工具⑦)帮助cD ⊙回☆收来创,国,回题图B不 M囝转 WebCrawler ageswhite Featured searche Otner Resources a gs tormes o Add webcrawler to Your Site o when to plant a how to videos e WebCrawler Toolbar
HTML的局限性 搜索引擎简介 分类 目录式搜索引擎:早期的Yahoo 全文搜索引擎:Google及百度等第二代商用搜索引擎 元搜索引擎:WebCrawler
HTML的局限性 ■搜索引擎简介 搜索引擎的体系结构 下载系统:网络蜘蛛( Spider),广度,深度优先 分析系统:分词, PageRank 索引系统:正排索引;倒排索引 查询系统:检索模型 下载系统 分析系统 网页库 索引系统 提交查询 查询系统 索引库 返回查询结果 Client
HTML的局限性 搜索引擎简介 搜索引擎的体系结构 下载系统:网络蜘蛛(p ) S ider),广度,深度优先 分析系统:分词,PageRank 索引系统:正排索引;倒排索引 查询系统:检索模型
HTML的局限性 搜索引擎简介 分词 基于字符串匹配 基于理解 基于统计 PageRank PR(A)=(1-d)+d(Pr(t1)C(t1)+.+ PR (Tn)/C(Tn)) aPR(A):网页A的 PageRank值; nT1,T2,…,Tn:网页A的链入网页; aPR(Ti):网页Ti的 PageRank值(i1,2,…n); ac(Ti):网页Ti的链出网页的数量(i=1,2,…n) d:一个衰减因子,0<d<1,通常取值为0.85
HTML的局限性 搜索引擎简介 分词 基于字符串匹配 基于理解 基于统计 PageRank PR (A ) = (1- d) + d (PR (T1)/C (T1) + ڮڮ +PR (Tn)/C (Tn) ) PR (A ) :网页A 的PageRank 值; T1, , T2 ڮ ,Tn :网页A 的链入网页; PR (T i) :网页T i 的PageRank 值( i= 1, 2, ڮn) ; C (T i) :网页T i 的链出网页的数量( i= 1, 2, ڮn) ; d :一个衰减因子, 0< d< 1, 通常取值为0. 85
HTML的局限性 ■搜索引擎简介哪 索引系统 hithithit hit-. its hit hithit- ts hithithit hit 正排索引 cel0[ dIDn hite hit下tht“ ordID n hits: hit hithit hit Plain Hite: Positi∞n12 Fancy Hits: Type: 4Position:B Anchor)Hits: Cap :4[脚:4Pit∞4 倒排索引 倒排福索引 wordID n docID docID n hits hithit hits sordID n doc ID docID n hit hit hit hit hit sordID n doc l0 dociD n hits hit hit… deeD n hits hithithit hit
HTML的局限性 搜索引擎简介 索引系统 正排索引 倒排索引
HTML的局限性 ■搜索引擎简介 用户输入 查询系统 倒排表检索 交档列表求交 向量化 ■搜索引擎的评价标准 向量相似度 查全率(Reca) 排序输出 查准率( Precision) recall-number of retrieved relevant documents total number of relevant documents number of retrieved relevant documents precision= total number of retrieved documents
HTML的局限性 搜索引擎简介 查询系统 搜索引擎的评价标准 查全率(Recall) 查准率(Precision)