Hello~大家好,今天学姐为同学们总结美国留学生introtodatascience相关基础习题的分享,这期的内容主要是教留学生如何正确进行作业难点的分析整理,学姐整理了非常详细的流程细节可以参考。
数据科学的关键元素有很多,从可视化到数据库到python等等
可视化数据分布
数字数据通常用平均的价值。例如,一所高中的质量有时用一个数字来概括:标准化考试的平均分数。偶尔会有第二个数字被报道标准偏差。例如,通过可能会看到一份报告称得分为680±50(标准差)。该报告仅用两个数字就概括了整个得分向量。这样合适吗?只看这个摘要而不看整个列表,我们会遗漏什么重要的信息吗?
我们的第一个数据可视化构建模块是学习总结因子或数值向量的列表。通常,分享或探索这一总结的最佳方式是通过数据可视化。对象或数字列表最基本的统计概要是它的分布。一旦一个向量被总结为一个分布,就有几种数据可视化技术来有效地传递这些信息。
变量类型
我们将使用两种类型的变量:分类的和数字的。每一个都可以分为另外两组:分类变量可以是序数的,也可以不是,而数值变量可以是离散的,也可以是连续的。
当向量中的每个条目来自少数几个组中的一个时,我们将数据称为分类数据。两个简单的例子是性别(男性或女性)和地区(东北、南方、中北部、西部)。一些分类数据可以排序,即使它们本身不是数字,例如辛辣(温和、中等、热)。在统计学教科书中,有序分类数据被称为序数数据。
数字数据的例子有人口规模、谋杀率和身高。一些数字数据可以被视为有序分类的。我们可以进一步将数值数据分为连续和离散。连续变量是那些可以取任何值的变量,例如高度,如果测量足够精确的话。例如,一对双胞胎可能分别为68.12英寸和68.11英寸。计数,如人口规模,是离散的,因为它们必须是整数。
分布函数
事实证明,在某些情况下,平均值和标准差几乎是我们理解数据所需的全部。我们将学习数据可视化技术,这将有助于我们确定何时这两个数字的总结是合适的。当两个数字不足够时,这些相同的技术将作为一种替代。
对象或数字列表最基本的统计概要是它的分布。最简单的方法是将分布看作是一个包含许多条目的列表的紧凑描述。对于本书的读者来说,这个概念并不新鲜。
累积分布函数
不是绝对的数字数据也有分布。一般来说,当数据不明确时,报告每个条目的频率并不是一个有效的总结,因为大多数条目都是唯一的。在我们的案例研究中,虽然几名学生报告的身高为68英寸,但只有一名学生报告的身高为68.503937007874只有一个学生报告了身高68.8976377952756英寸。我们假设它们分别从174和175厘米转换而来。
统计学教科书告诉我们,定义数字数据分布的一个更有用的方法是定义一个函数来报告下面数据的比例 a对于的所有可能值 a。这个函数叫做累积分布函数(CDF)。在统计学中,使用以下符号:
F(a)=镨(x≤a)类似于频率表对分类数据的作用,cdfd定义了数字数据的分布。从图中,我们可以看到16%的值低于65,因为 F(66)= 0.164,或者84%的值低于72,因为 F(72)= 0.841,以此类推。事实上,我们可以报告任意两个高度之间的值的比例,比如说 a和 b,通过计算 F(b)−F(a)。这意味着,如果我们将上面的这个图发送给ET,他将拥有重建整个列表所需的所有信息。转述“一张图片胜过千言万语”这句话,在这种情况下,一张图片就像812个数字一样信息丰富。
练习题:
1、数据集区域是一个分类变量,下面是它的分布:
最接近5%的州在中北部地区的比例是多少?
2.下列哪一项是正确的:
a.上图是直方图。
b.上图只显示了四个带条形图的数字。
c.类别不是数字,所以绘制分布图没有意义。
d.描述分布的是颜色,而不是线条的高度。
2、下图显示了男性身高的eCDF:
从上图来看,75寸以下的男性比例是多少?
a.100%
b.95%
c.80%
d.72英寸
留求艺数据科学导论的相关专业在线辅导可以添加留求艺老师微信进行一对一咨询。留求艺专注辅导海外留学生在学习中遇到的各种问题。