留求艺

首页 > 网站地图 > 留学攻略 > 英国留学

爱丁堡大学自然语言处理基础重点梳理

来源: 留求艺 更新时间:2024-02-21 14:17

2025年留学申请条件/费用/专业咨询 >>

爱丁堡大学自然语言处理基础课程涵盖了自然语言处理(NLp)的一些语言学和算法基础。这门课具有很强的经验性,使用语料库数据来说明核心语言学概念和算法,涉及语言建模、词性标注、句法处理、句法-语义接口以及语义和语用处理的各个方面。语言概念的理论研究和算法在这些概念的实证分析中对语料库的应用将贯穿整个课程。课程重点梳理如下。

爱丁堡大学自然语言处理基础重点梳理

一、课程重点

1、词汇和词汇处理

形态学;语言建模;隐马尔可夫模型和相关算法;词性标注(例如,针对英语以外的语言);平滑;文本分类。

2、句法和句法处理

乔姆斯基等级制度;句法概念:选区(及其测试)、子范畴化、有界和无界依赖、特征表示;上下文无关语法;词汇化语法形式(例如,依存语法);图表解析和依赖关系解析(例如,shift-reduce解析);树库:词汇化语法和语料库注释;统计分析。

3、语义和语义处理

词义:规则多义和结构词汇、分布模型、单词嵌入(包括发现的偏差);语意合成性,从(消除歧义的)句子句法分析中构建正式的语义表示;谓词论元结构;词义消歧;语义角色标签;话语和对话中的语用现象(回指、预设、含义和连贯关系);处理词义(例如,Brown)、语义角色(例如,propbank、SemCor)、话语信息(例如,pDTB、STAC、RST树库)的标记语料库。

4、数据和评估(穿插在其他主题中)

跨语言的异同;常用数据集;注释方法和问题(例如,众包、注释者间协议);评估方法和问题(例如,标准指标、基线);数据偏差的影响。

二、学习目标

1、识别和分析自然语言中的歧义实例:词类、词义、句法、语义和语用中的歧义。解释模糊性是如何给计算分析和NLp应用带来问题的,以及解决这些问题的方法。

2、描述并应用标准序列模型(如HMMs)、分类模型(如朴素贝叶斯、max ent);用于在不同级别(例如,词法、句法和语义)处理语言的解析算法(例如,统计图解析和依存关系解析),并且用笔和纸在“玩具语言示例”上逐步模拟每个算法。

3、解释并举例说明在NLp中稀疏数据如何成为机器学习的一个问题;描述并应用解决稀疏数据问题的方法。

4、给定一个适当的NLp问题,学生还应该能够确定合适的评估方法来测试问题的解决方案,解释注释语料库在开发这些解决方案中的作用,并基于对算法的理解,评估和证明哪个算法序列最适合解决问题。

5、在适当的支持代码和/或工具的帮助下,实现部分NLp管道。评估和解释在自然语言数据集上所实现方法的结果。

同学在学习爱丁堡大学自然语言处理基础课程的时候,可以将本文梳理的重点作为课程的整体知识框架,这样无论是预习还是复习,都会更有条理。

相关推荐: