美国伊利诺伊大学香槟分校的数据挖掘课程(CS 412)提供了数据挖掘的基本概念和技术的全面概述。目的是使学生能够理解数据挖掘技术的关键概念,包括数据预处理、数据仓库和多维数据集、频繁模式挖掘、分类、聚类,并能将关键数据挖掘技术应用到现实环境中,同时对挖掘结果进行评估和分析。这门课主要通过书面作业、编程作业和考试对学生进行评估。其中,书面作业占30%(预计三份家庭作业),编程作业占30%(预计两次编程作业),期中考试占20%,期末考试占20%。UIUC数据挖掘作业及考试的重点有哪些呢?解析如下。
UIUC数据挖掘课程的学习将通过软件聚类和编程作业得到加强,重点是下述两个主要的数据挖掘功能:
一、第一部分,重点是模式发现,你将学习为什么模式发现很重要,高效模式挖掘的主要技巧是什么,以及如何在一些有趣的应用程序中应用模式发现。课程为你提供了学习概念、原则和技能的机会,以实践和参与海量数据上的可扩展模式发现方法;讨论模式评估方法;研究挖掘各种频繁模式、序列模式和子图模式的方法;研究基于约束的模式挖掘、基于模式的分类,探索其应用。
1、回忆重要的模式发现概念、方法和应用,特别是模式发现的基本概念,如频繁模式、封闭模式、最大模式和关联规则。
2、识别有效的模式挖掘方法,如Apriori、ECLAT和Fpgrowth。
3、比较模式评估问题,特别是几种常用的度量方法,如lift、chisquare、cosine、Jaccard和Kulczynski,以及它们的比较优势。
4、比较挖掘不同模式的方法,包括挖掘多层次、多维模式、定性模式、负相关、压缩和冗余感知的top-k模式,以及挖掘长(庞)模式的方法。
5、学习众所周知的序列模式挖掘方法,包括挖掘序列模式的方法,如GSp、SpADE、prefixSpan和CloSpan。
6、学习图模式挖掘,包括子图模式挖掘的方法,如gSpan,CloseGraph,图索引方法,在单个大型网络中挖掘top-k大型结构模式,以及图挖掘应用,如图数据库中的图索引和相似性搜索。
7、学习基于约束的模式挖掘,包括推动不同类型约束的方法,如基于数据和模式的约束、反单调、单调、简洁、可转换和多重约束。
8、学习基于模式的分类,包括CBA、CMAR、patClass和DpClass。
9、享受各种模式挖掘应用,如挖掘时空和轨迹模式和挖掘质量短语。
10、探索模式分析的进一步主题,如数据流中的模式挖掘、软件缺陷挖掘、图像分析的模式发现和隐私保护数据挖掘。
二、第二部分,侧重于聚类分析,你将学习聚类分析的概念和方法,也称为聚类、数据分段或无监督学习。课程将介绍聚类分析的基本概念,然后研究一组典型的聚类方法、算法和应用。这涉及分割方法,如k-means,分层方法,如BIRCH,基于密度的方法,如DBSCAN,以及基于网格的方法,如CLIQUE。课程还将讨论聚类验证的方法。
1、回顾聚类分析的基本概念、方法和应用,包括聚类的概念、聚类分析的要求和挑战、聚类分析的多维分类以及典型聚类方法的概述。
2、学习聚类分析的多种距离或相似性度量,包括欧几里德距离和闵可夫斯基距离;对称和非对称二元变量的邻近度量:分类属性之间的距离度量。序数属性。以及混合tvpes:两个向量之间的邻近性度量——余弦相似性;以及两个变量之间的相关性度量——协方差和相关系数。
3、了解用于聚类分析的流行的基于距离的划分算法,包括K-Means、KMedians、K-Medoids和核K-Means算法。
4、学习分层聚类算法,包括基本的凝聚和分裂聚类算法、BIRCH(一种基于微聚类的方法)、CURE(研究分散的代表点)、CHAMELEON(研究数据的KNN图上的图划分)和概率分层聚类方法。
5、了解基于密度的聚类分析方法,该方法可以对任意形状的密集区域进行分组,例如DBScan和OpTICS。
6、学习基于网格的方法,这种方法将数据空间的各个区域组织成类似网格的结构,比如STING和CLIQUE。
7、通过介绍使用外部度量和内部度量的聚类验证,以及用于评估聚类稳定性和聚类趋势的度量,研究聚类评估和验证的概念和方法。
通过上述介绍,同学应该就能了解到美国伊利诺伊大学香槟分校的数据挖掘课程(CS 412)作业及考试的重点了。