数据科学专业 主要以统计学、机器学习、数据可视化以及(某一)领域知识为理论基础,其主要研究内容包括数据科学基础理论、数据预处理、数据计算和数据管理,数据科学的知识体系.
基础理论:数据科学中的新理念、理论、方法、技术及工具以及数据科学的研究目的、理论基础、研究内容、基本流程、主要原则、典型应用、人才培养、项目管理等。在此需要特别提醒的是 ——“基础理论”与“理论基础”是两个不同的概念。数据科学的“基础理论”在数据科学的研究边界之内,而其“理论基础”在数据科学的研究边界之外,是数据科学的理论依据和来源。
数据预处理:为了提升数据质量、降低数据计算的复杂度、减少数据计算量以及提升数据处理的准确性,数据科学中需要对原始数据进行预处理 ——进行数据审计、数据清洗、数据变换、数据集成、数据脱敏、数据规约和数据标注等。
数据计算:在数据科学中,计算模式发生了根本性的变化 ——从集中式计算、分布式计算、网格计算等传统计算过渡至云计算。有一定的代表性的是google云计算3大技术、haoop mapreuce和yarn技术的出现。数据计算模式的变化意味着数据科学中所关注的数据计算的主要目标、瓶颈和矛盾发生了根本性变化。
数据管理:在完成 “数据预处理”(或“数据计算”)之后,我们需要对数据进行管理,以便进行(再次进行)“数据处理”以及数据的再利用和长久保管。在数据科学中,数据管理方法与技术发生了根本性的改变——不仅包括传统关系型数据库,而且还出现了一些新兴数据管理技术,例如nosql、newsql技术和关系云等。
技术与工具:数据科学中采用的技术与工具具有一定的专业性,r语言是数据科学家最为普遍应用的工具之一。
数据科学就业方向
数据分析师侧重于利用统计学、数学等知识进行数据挖掘,日常的主要工作内容为收集数据、清洗数据、然后做一些分析或可视化处理,对编程语言有一定的要求,如 r,python,javascript,c/c++,sql等。初级的analyst的工作就是配合scientist和engineer,当业务需求使用某些方法的时候,他们就是一线操作者,当scientist要数据,他们要收集清理数据,当客户或者子公司要数据,他们也要收集清理数据。得出最终的分析报告给产品组工程组或管理层。所以从这个角度讲,analyst只是非常纯粹的在和数据打交道罢了。
数据科学家是数据领域非常具有复合型的高级岗位,往往需要具备能够独立完成一整套数据分析过程的能力:从数据提取,整合、并进行分层,进行统计或其他复杂的分析,创造引人注目的可视化诠释和效果,开发具有更宽广应用前景的数据工具。实际工作中主要的精力大概在分布式算法的实现和优化上,特别是后者,是极具挑战性的,需要资深的数据科学家来完成,因此需要非常强大的数学、统计、计算机背景,在优化问题上很有经验。
都说不想当数据架构师的程序猿不是一个好前端。因为一个优秀的数据架构师应该对所在领域的主流技术体系有一个全面清晰的认识,对某一种技术的原理、运作机理有深入的理解,是该领域的专家,同时具有将客观事物抽象出来的能力,关注当前技术前沿和热点,使用最高效的方式解决问题。他们的日常主要任务为创建数据管理系统,对数据源进行整合、集中、和维护。具体来讲,要求会 sql,xml,hive,pig,spark等,对数据库体系结构有深入了解,擅长数据仓库解决方案等。
作为一个新兴的职业类型,数据工程师更倾向于掌握“战术层面” 的具体数据技能,专注于使数据可用并能够在生产环境中对数据进行处理,如具体的编程语言、操作系统与数据库等;而数据科学家更倾向于“战略层面”的数据技能,如数据分析、数据挖掘、统计分析、机器学习等。他们的日常主要工作内容是用sql来回答分析型问题,用脚本来做数据集成,清洗etl(提取-转换-装载)任务和使用haoop生态工具等,对编程语言要求较高,sql,hive,pig,r,matlab,sas,spss,python,java,ruby,c++,perl等等都要会。
数据库管理员和数据分析的关联不是很大,类似于一个 it职位,职责为管理数据以及支持数据管理的设施,确保数据库是提供给所有相关用户,正在正确、安全的执行,因此可能会用到sql,haoop及相关查询语言,如hive和pig。日常专注于优化数据仓库,负责数据的读写和管理。
商业分析师和纯数据科学家都是使用数据的专家,但他们的工作内容是有比较大差别的。通常,商业分析师要对某专业领域具有深入的了解和深刻的认识,商业敏感度高,擅长于从某一领域的数据中挖掘信息,以此评估过去、现在和未来可能的经营业绩。确定最有效的分析模型和途径,为商业用户提供和解释解决方案。
更多问题欢迎咨询
【微语】我们在家静静守候,期盼你学成归来,那时的你将更加耀眼。