广东工业大学:《机器学习》课程教学资源(课件讲义)第3讲 特征工程 Feature Engineering


(Feature Engineering) 李东 广东工业大学 自动化学院 特征工程 1

Outline • 3.1 什么是特征⼯程? • 3.2 ⾃然语⾔处理中的⾃动分词、词性标注及句 法分析 • 3.3 向量空间模型及⽂本相似度计算 • 3.4 相似度计算 • 3.5 特征值的缩放及归⼀化 • 3.6 特征选择 • 3.7 特征降维与升维 哈尔滨工业大学计算机学院 刘远超 2

什么是特征⼯程? l引⽤维基百科上的定义 (https://en.wikipedia.org/wiki/Feature_engineering ) n Feature engineering is the process of using domain knowledge of the data to create features that make machine learning algorithms work. l引⾃知乎:“数据和特征决定了机器学习的上限,⽽模型和算法只是 逼近这个上限⽽已。” l深度学习也要⽤到特征,需要对输⼊的特征进⾏组合变换等处理。 3

⾃动分词 l何谓⾃动分词?⾃动分词就是将⽤⾃然语⾔书写的⽂章、句段经计算机 处理后,以词为单位给以输出,为后续加⼯处理提供先决条件。 l举例: l “我来到北京清华⼤学。” à“我/ 来到/ 北京/ 清华⼤学/ 。/” l “I came to Tsinghua University in Beijing.” à“I/ came/ to/ Tsinghua/ University/ in/ Beijing/ ./” l思考⼀下:中⽂的⾃动分词和英⽂的⾃动分词有何不同? 4

词根提取与词形还原 l词根提取(stemming):是抽取词的词⼲或词根形式(不⼀定能够 表达完整语义)。 n原⽂:'And I also like eating apple’ n词根提取后:['and', 'I', 'also', 'like', 'to', 'eat’, 'appl’]]) l词形还原(lemmatization):是把词汇还原为⼀般形式(能表达完 整语义)。如将“drove”处理为“drive”。 n原⽂:'And I also like eating apple’ n词形还原后:['And', 'I', 'also', 'like', u'eat', 'apple’]]) 5

词性标注 l词性标注(part-of-speech tagging)1:是指为分词结果中的每个单 词标注⼀个正确的词性的程序,也即确定每个词是名词、动词、形 容词或者其他词性的过程。 l举例: “I like eating apple.”的词性标注结果为 [('I', 'PRP'), ('like', 'VBP'), ('eating', 'VBG'), ('apple', 'NN'), ('.', '.’)] PRP personal pronoun I, he, she ⼈称代词 VBP verb,sing. present, non-3d take 动词 现在 VBG verb,gerund/present participle taking 动词 动名词/现在分词 NN noun, singular 'desk' 名词单数形式 6 l 美国滨州树库词性标注规范: http://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html 1. 宗成庆《统计自然语言处理》 清华大学出版社, 2013.8

句法分析 l句法分析(Syntactic analysis):其基本任务是确定句⼦的句法结构 或者句⼦中词汇之间的依存关系。 7

NLTK 8 l Natural Language Toolkit (⾃然语⾔处理⼯具包)是在NLP领域中最常⽤的 ⼀个Python库。由宾⼣法尼亚⼤学计算机系Steven Bird和Edward Loper 开发 l提供了很多⽂本处理的功能: n Tokenization(词语切分,单词化处理) n Stemming(词⼲提取) n Tagging(标记,如词性标注) n Parsing(句法分析) l此外,还提供了50多种语料和词汇资源的接⼝, 如 WordNet等

Text Processing API l http://text-processing.com/ (Natural Language Text Processing APIs), l⽀持如下功能: n词根提取与词形还原(Stemming & Lemmatization) n情感分析(Sentiment Analysis ) n词性标注和语块抽取(Tagging and Chunk Extraction) n短语抽取和命名实体识别(Phrase Extraction & Named Entity Recognition) 9

基于curl访问Text Processing API l Curl (CommandLine Uniform Resource Locator)是利⽤URL语法在命令⾏⽅ 式下⼯作的开源⽂件传输⼯具。⽀持Unix、多种Linux发⾏版、Win32、 Win64等。 哈尔滨工业大学计算机学院 刘远超 10 $ curl -d "text=great" http://text-processing.com/api/sentiment/ { "probability": { "neg": 0.39680315784838732, "neutral": 0.28207586364297021, "pos": 0.60319684215161262 }, "label": "pos" }

