相关文档

电子科技大学：《大数据分析与挖掘 Big Data Analysis and Mining》课程教学资源（课件讲稿）Lecture 2 BasicConcepts（Foundations of Data Mining）
电子科技大学：《大数据分析与挖掘 Big Data Analysis and Mining》课程教学资源（课件讲稿）Lecture 1 Intro（主讲：邵俊明）
计算机科学与技术（PPT讲稿）Unlock with Your Heart - Heartbeat-based Authentication on Commercial Mobile Phones
计算机科学与技术（参考文献）VECTOR - Velocity Based Temperature-field Monitoring with Distributed Acoustic Devices
计算机科学与技术（参考文献）VSkin - Sensing Touch Gestures on Surfaces of Mobile Devices Using Acoustic Signals
计算机科学与技术（参考文献）RespTracker - Multi-user Room-scale Respiration Tracking with Commercial Acoustic Devices
计算机科学与技术（参考文献）Dynamic Speed Warping - Similarity-Based One-shot Learning for Device-free Gesture Signals
计算机科学与技术（参考文献）SpiderMon - Towards Using Cell Towers as Illuminating Sources for Keystroke Monitoring
计算机科学与技术（参考文献）Unlock with Your Heart：Heartbeat-based Authentication on Commercial Mobile Phones
计算机科学与技术（参考文献）QGesture - Quantifying Gesture Distance and Direction with WiFi Signals
计算机科学与技术（PPT讲稿）QGesture - Quantifying Gesture Distance and Direction with WiFi Signals
计算机科学与技术（参考文献）Gait Recognition Using WiFi Signals
计算机科学与技术（参考文献）Gait Recognition Using WiFi Signals
计算机科学与技术（参考文献）Depth Aware Finger Tapping on Virtual Displays
计算机科学与技术（参考文献）Device-Free Gesture Tracking Using Acoustic Signals
计算机科学与技术（参考文献）Device-Free Gesture Tracking Using Acoustic Signals
计算机科学与技术（参考文献）Depth Aware Finger Tapping on Virtual Display
计算机科学与技术（参考文献）Keystroke Recognition Using WiFi Signals
计算机科学与技术（参考文献）Understanding and Modeling of WiFi Signal Based Human Activity Recognition
计算机科学与技术（参考文献）Understanding and Modeling of WiFi Signal Based Human Activity Recognition
电子科技大学：《大数据分析与挖掘 Big Data Analysis and Mining》课程教学资源（课件讲稿）Lecture 4 Sampling for Big Data
电子科技大学：《大数据分析与挖掘 Big Data Analysis and Mining》课程教学资源（课件讲稿）Lecture 5 Data Stream Mining
电子科技大学：《大数据分析与挖掘 Big Data Analysis and Mining》课程教学资源（课件讲稿）Lecture 6 Graph Mining
电子科技大学：《大数据分析与挖掘 Big Data Analysis and Mining》课程教学资源（课件讲稿）Lecture 7 Hadoop-Spark
电子科技大学：《先进计算机网络技术》课程教学资源（课件讲稿）Introduction（冯钢）
电子科技大学：《先进计算机网络技术》课程教学资源（课件讲稿）Unit 1 Overview - A big Picture on Traffic Control and QoS in IP networks
电子科技大学：《先进计算机网络技术》课程教学资源（课件讲稿）Unit 2 Call-level Models and Admission Control
电子科技大学：《先进计算机网络技术》课程教学资源（课件讲稿）Unit 3 Traffic Policing and Shaping
电子科技大学：《先进计算机网络技术》课程教学资源（课件讲稿）Unit 4 TCP Traffic Control
电子科技大学：《先进计算机网络技术》课程教学资源（课件讲稿）Unit 5 Buffer Management
电子科技大学：《先进计算机网络技术》课程教学资源（课件讲稿）Unit 6 Packet Scheduling
电子科技大学：《先进计算机网络技术》课程教学资源（课件讲稿）Unit 7 IntServ/RSVP and DiffServ
电子科技大学：《先进计算机网络技术》课程教学资源（课件讲稿）Unit 8 Traffic Management and Modeling
电子科技大学：《先进计算机网络技术》课程教学资源（课件讲稿）Unit 9 Network Traffic Engineering
电子科技大学：《先进计算机网络技术》课程教学资源（课件讲稿）Unit 10 Network Coding and Traffic Balancing
电子科技大学：《先进计算机网络技术》课程教学资源（课件讲稿）Unit 11 AI Enabled Wireless Access Control and Handoff
《机器学习 Machine Learning》课程教学资源（实践资料）华为Atlas人工智能计算解决方案产品彩页
《机器学习 Machine Learning》课程教学资源（实践资料）Xshell远程登陆开发板方法（华为atlas800 - 910）
《机器学习 Machine Learning》课程教学资源（实践资料）MNIST手写体识别实验
《机器学习 Machine Learning》课程教学资源（实践资料）MNIST手写数字识别的Atlas 200DK推理应用

电子科技大学：《大数据分析与挖掘 Big Data Analysis and Mining》课程教学资源（课件讲稿）Lecture 3 Hashing

Locality-Sensitive Hashing Find Similar Items CASE STUDY Finding Similar Documents Min-Hashing Locality-Sensitive Hashing Learn to Hash

团购合买资源类别：文库，文档格式：PDF，文档页数：61，文件大小：2.11MB

Lecture 3 HASHING

Why we need HASHING? Wal-Mart:267 million items/day;4PB data warehouse Sloan Digital Sky Survey:New Mexico telescope captures 200 GB image data/day T吉 nature Science The FOURTH PARADIGM DATA-TENS SCIENCEIN THE PETABYTE ERA data Challenge in big data applications: 1.Curse of dimensionality 2.Storage cost 3.Query speed

Challenge in big data applications: 1. Curse of dimensionality 2. Storage cost 3. Query speed • Wal-Mart: 267 million items/day; 4PB data warehouse • Sloan Digital Sky Survey: New Mexico telescope captures 200 GB image data/day Why we need HASHING?

Example 1.Information Retrieval h(Statue of Liberty)= h (Napoleon)= h (Napoleon)= 10001010 01100001 011001Q1 flipped bit Should be very different Should be similar

Example 1. Information Retrieval

Example 2.Storage Cost Gist vector Binary reduction 10 million images 20 GB 160MB 512values 128bits

Example 2. Storage Cost

Example 3.Fast Nearest Neighbor Search Given a query point g(high dimensional),return the points closest(similar)to g in the database. ● 98 0 KD-TREE KD-tree cannot handle high-dimensional data

Example 3. Fast Nearest Neighbor Search Given a query point q (high dimensional), return the points closest (similar) to q in the database. KD-TREE KD-tree cannot handle high-dimensional data

WHAT WILL WE TALK? 1.Locality-Sensitive Hashing (Shingling+MinHash) 2.Learning to Hash 7

7 1. Locality-Sensitive Hashing (Shingling+ MinHash) 2. Learning to Hash WHAT WILL WE TALK?

Locality-Sensitive Hashing Find Similar Items

Introduction Many Web-mining problems can be expressed as finding "similar"sets: 1.Pages with similar words,e.g.,for classification by topic. 2.NetFlix users with similar tastes in movies,for recommendation systems. 3.Movies with similar sets of fans. 4.Images of related things. 9

9 Many Web-mining problems can be expressed as finding “similar” sets: 1. Pages with similar words, e.g., for classification by topic. 2. NetFlix users with similar tastes in movies, for recommendation systems. 3. Movies with similar sets of fans. 4. Images of related things. Introduction Introduction

CASE STUDY Finding Similar Documents

Given a body of documents,e.g.,the Web,find pairs of documents with a lot of text in common, e.g.: -Mirror sites,or approximate mirrors. Application:Don't want to show both in a search -Plagiarism,including large quotations. -Similar news articles at many news sites. Application:Cluster articles by "same story." 11

11 • Given a body of documents, e.g., the Web, find pairs of documents with a lot of text in common, e.g.: – Mirror sites, or approximate mirrors. • Application: Don’t want to show both in a search. – Plagiarism, including large quotations. – Similar news articles at many news sites. • Application: Cluster articles by “same story.” Introduction

点击进入文档下载页（PDF格式）

共61页，可试读20页，点击继续阅读 ↓↓

点击下载（PDF格式）

浏览记录