悉尼大学数据科学专业的DATA2001课程着重于有效探索和分析大型数据集的方法和技术。学生将学习如何从数据科学项目中遇到的各种数据模型(如关系、半结构化、时间序列、地理空间、图像、文本)中获取、组合和总结数据。除了通过相关Python库的经验来强化编程技能之外,课程还将向学生介绍使用SQL进行声明性数据处理的概念,并分析关系数据库中的数据。学生将获得来自社交媒体、交通、健康和社会科学的数据集,并学习基本的探索性数据分析和小型用例背景下的挖掘技术。那么DATA2001考试和作业的重点是什么呢?分析如下。
一、考试及作业具体要求
1、Homework,10%:Canvas上的每周家庭作业小测验,旨在帮助学生回顾每周主题的学习情况。
2、SQL tutorials and SQL Test,15%:学生通过每周在线教程学习,了解SQL日益复杂的用法。SQL教程提供简单的反馈并允许多次尝试,示例解决方案在提交截止日期过后可用。每周都会提供解答,学期中会进行SQL测验。
3、Practical Assignment,20%:学生以小组为单位进行更大的数据整合和数据分析任务,其中一些提供的数据集必须与学生研究的额外数据相结合。最终提交的内容包括团队开发的源代码工件,加上结果的简短报告,以及在第12周的实验中的小组演示。
4、Final Examination,55%:主要评估学生对本课程所有内容的理解。
二、考试及作业评估重点
1、使用适当的Python库来自动化各种数据的数据科学活动。
2、从各种数据模型中摄取、组合和总结数据。
3、展示处理不同类型数据的数据集的经验,包括关系、半结构化、时间序列、地理位置、图像、文本,包括组合不同类型数据的经验。
4、理解并生成声明性查询,以从数据集中提取适当的信息,包括使用SQL的能力。
5、了解分析“大数据”的主要挑战:数据量、多样性、速度、准确性。
6、了解数据量对数据处理的影响,并了解解决这一问题的方法,如索引、压缩、数据分区和分布式处理框架(Hadoop)。
7、在处理数据时表现出对隐私问题的意识。
悉尼大学数据科学专业的同学可以参考上述DATA2001考试及作业的具体要求和评估重点,来进行学习规划,这样就能更有针对性地进行学习,从而获得更好的成绩。