描述性统计分析

2024-05-18 08:42

1. 描述性统计分析

描述性统计,是指运用制表和分类,图形以及计算概括性数据来描述数据特征的各项活动。
描述性统计分析要对调查总体所有变量的有关数据进行统计性描述,主要包括数据的频数分析、集中趋势分析、离散程度分析、分布以及一些基本的统计图形。描述性研究是指利用常规检测记录或通过专门调查获得的数据资料,按不同地区、不同时间及不同人群特征进行分组。
描述人群中有关疾病或健康状态以及有关特征和暴露因素的分布状况,在此基础上进行比较分析。获得疾病三间分布的特征,进而获得病因线索,提出病因假设和线索。是流行病研究工作的起点。

种类特点:
1、横断面研究
又叫做现状研究,在特定时间点与特定范围内,以个人为单位收集并描述人群中的有关变量以及疾病或健康状况的分布情况,并分析有关因素与疾病之间的关系。
2、生态学研究
生态学研究是描述性研究的一种类型。它是在群体的水平上研究某种因素与疾病之间的关系,以群体为观察和分析的单位,通过描述不同人群中某因素的暴露状况与疾病的频率,分析该暴露因素与疾病之间的关系。
3、病例系列分析
病例系列分析是对一组相同疾病的临床资料进行整理、统计、分析、总结并得出结论。

描述性统计分析

2. 数据的描述性统计

是一组数据中出现次数最多的数值,有可能没有也有可能有多个。
  
 中位数,又称中点数,中值。中位数是按顺序排列的一组数据中居于中间位置的数,即在这组数据中,有一半的数据比他大,有一半的数据比他小。中位数一定存在。
  
 1.中位数是以它在所有标志值中所处的位置确定的全体单位标志值的代表值,不受分布数列的极大或极小值影响,从而在一定程度上提高了中位数对分布数列的代表性
  
 2.有些离散型变量的单项式数列,当次数分布 偏态 时,中位数的代表性会受到影响。
  
              偏态:偏态(skewness)是指非对称分布的偏斜状态。换句话说,就是指统计总体当中的变量值分别落在众数(M0)的左右两边,呈非对称性分布。 
  
 3.趋于一组有序数据的中间位置
  
 分位数,亦称分位点,是指用分割点将一个随机变量的概率分布范围分为几个具有相同概率的连续区间。分割点的数量比划分出的区间少1,例如3个分割点能划分出四个区间。
  
 常见的有中位数(即二分位数)、四分位数、十分位数、百分位数等。
  
  定义:分位数指的就是连续分布函数中的一个点,这个点对应概率p 
  
  第一四分位数 ,又称 较小四分位数 ,等于该样本中所有数值由小到大排列后第25%的数字。
  
  第二四分位数 ,又称 中位数 ,等于该样本中所有数值由小到大排列后第50%的数字。
  
  第三四分位数 ,又称 较大四分位数 ,等于该样本中所有数值由小到大排列后第75%的数字。
  
 第三四分位数与第一四分位数的差距又称 四分位距 。
  
 
  
                                          
  定义:平均数 是统计学中最常用的统计量,用来表明资料中各观测值相对集中较多的中心位置。
  
 为 集中趋势 的最常用测度值,目的是确定一组数据的均衡点
  
 是表征数据 集中趋势 的一个统计指标。 它是一组数据之和,除以这组数据个数/项数。
  
 算术平均数在统计学上的优点,就是它较 中位数 、 众数 更少受到随机因素影响, 缺点是它更容易受到 极端值 影响。
  
 计算公式为:
                                          
  加权平均数 与 算术平均数 类似,不同点在于,数据中的每个点对于平均数的贡献并不是相等的,有些点要比其他的点更加重要。
  
 如果所有的权重相同且等于一,那么加权平均数与 算术平均数 相同
  
 加权平均数作为算术平均数的更广义的表现形式,加权平均数具有一些看起来违反常理的性质,例如 辛普森悖论 。
  
 术语 加权平均数 通常指的是加权算术平均数,但是其他平均数的加权版本也可以计算出来,例如 加权几何平均数 和 加权调和平均数 。
                                          
  辛普森悖论 :当人们尝试探究两种变量是否具有相关性的时候,会分别对之进行分组研究。然而,在分组比较中都占优势的一方,在总评中有时反而是失势的一方。
  
  辛普森悖论 
  
 在数学中, 几何平均数  是一种 均值 ,它通过使用它们的值的乘积(与使用它们的和的 算术平均数 相反)来指示一组数字的集中趋势或典型值。几何平均数定义为第n根个数的乘积的第n个根,即对于一组数字x1,x2,x3....xn, 几何平均数定义为:
                                          
 当每个项目具有多个具有不同数值范围的属性时, 几何平均数 经常使用在比较不同项目,为这些项目找到单个 品质因子 。例如,几何平均数可以给出有意义的“平均数”以比较两家公司的环境可持续性评分为0到5,并且其财务可行性评级为0到100。如果使用算术平均数而不是几何平均数,则财务可行性给予更多权重,因为其数值范围更大 - 因此财务评级的一小部分变化(例如从80变为90)会产生更大的差异。算术平均数比环境可持续性的大比例变化(例如从2到5)。使用几何平均数“归一化”被平均的范围,使得没有范围支配加权,并且任何属性中的给定百分比变化对几何平均数具有相同的影响。因此,没有范围控制加权, 和给定的百分比变化的任何属性对几何平均数有相同的影响。因此,从 4 到 4.8,20% 的环境可持续性变化对几何平均数的影响与从 60 到 72 的财务可行性的 20% 变化有同样的效果。
  
 几何平均数可以根据几何形状来理解。两个数字a和b的几何平均数是正方形一边的长度,其面积等于以a和b为两边的矩形的面积。同样, 三个数字, a、 b和c的几何平均数是立方体一个边的长度,其体积与以a、b和c为边的长方体的体积相同。
  
 几何平均数仅适用于 正数 。它也经常用于一组数位,它们的值是用来相乘的,或者是指数性质的.
  
 几何平均数也是三个最经典的 毕达哥拉斯平均 的其中一个,与前面提到的 算术平均数 和下边提到的 调和平均数 一起。对于包含至少一对不等数的所有正则资料集,调和平均数始终是三种方法中最小的,算术平均数始终是三中最大的,而几何平均数始终介于两者之间 。
  
  调和平均数: 是求一组数值的平均数的方法中的一种,一般是在计算平均速率时使用。
  
 调和平均数是将所有数值取 倒数 并求其 算术平均数 后,再将此 算数平均数 取 倒数 而得,其结果等于数值的个数除以数值 倒数 的总和。一组 正数 x1, x2 ... xn的调和平均数H其计算公式为:
                                          
 又称 全距 :用来表示统计资料中的 变异量数 ,为 最大值 与 最小值 之间的 差额 ,即 最大值 减 最小值 后所得 数值 。
  
  变异量数 :变异量数亦称差异量数,又称离散趋势量数,它是统计学的基本概念之一,是表示 样本数据 偏离中间数值的趋势的 量数 ,或者说它是反映样本频率分布 离散程度 的量数。差异量数大,表示各数值分布的范围广且参差不齐;差异量数小,表示各数值较集中、整齐,波动的范围幅度小。因此,集中量数的代表性如何,可由差异量数反映。差异量数愈大,则 集中量数 的代表性愈小;差异量数愈小,则 集中量数 的代表性愈大
  
  方差 :在概率论和统计学中,一个 随机变量 的 方差 描述的是它的离散程度,也就是该变量离其 期望值 的距离
  
 将各个误差将之平方(而非取绝对值,使之肯定为正数),相加之后再除以总数,透过这样的方式来算出各个数据分布、零散(相对中心点)的程度。
  
  特性: 
  
 1.方差不会是负的,因为次方计算为正的或为零
  
         Var(x)  >=  0
  
 2.一个常数随机变量的方差为零,且当一个资料集的方差为零时,其内所有项目皆为相同数值
  
         P(X = a) = 1 Var(X) = 0
  
 3.方差不变于定位参数的变动。也就是说,如果一个常数被加至一个数列中的所有变量值,此数列的方差不会改变
  
         Var(X + a) = Var(X)
  
 4.如果所有数值被放大一个常数倍,方差会放大此常数的平方倍
  
         Var(aX) = a^2Var(X)
  
 5.两个随机变量和的方差为
  
         Var(aX + bY) = a^2Var(X) + b^2Var(Y) + 2abCov(X,Y)
  
         Var(X - Y) = Var(X) + Var(Y) - 2Cov(X,Y)
  
         Cov代表协方差
  
 在概率统计中最常使用作为测量一组数值的 离散程度 之用。标准差定义:为 方差 开 算术平方根 ,反映组内个体间的离散程度;标准差与 期望值 之比为 标准离差率 。测量到分布程度的结果,原则上具有两种性质:
  
         1.为非负数值(因为开平方后再做平方根);
  
         2.与测量资料具有相同单位(这样才能比对)。
  
 简单来说,标准差是一组数值自 平均值 分散开来的程度的一种测量观念。一个较大的标准差,代表大部分的数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。例如,两组数的集合{0, 5, 9, 14}和{5, 6, 8, 9}其平均值都是7,但第二个集合具有较小的标准差。
  
 又称 全距 :用来表示统计资料中的 变异量数 ,为 最大值 与 最小值 之间的 差额 ,即 最大值 减 最小值 后所得 数值 
  
 定义:平均差是总体所有单位与其算术平均数的离差绝对值的算术平均数
  
 描述:平均差异大,表明各标志值与算术平均数的差异程度越大,该算术平均数的代表性就越小;平均差越小,表明各标志值与算术平均数的差异程度越小,该算术平均数的代表性就越大。因离差和为零,离差的平均数不能将离差和除以离差的个数求得,而必须将离差取绝对数来消除正负号。平均差是反应各标志值与算术平均数之间的平均差异。
  
 公式:
                                          
 四分位数中第三四分位数与第一二分位数的差,又称四分位距。
  
 异众比率是统计学名词,是统计学当中研究现象离中趋势的指标之一。异众比率指的是总体中非众数次数与总体全部次数之比。换句话说,异众比率指非众数组的频数占总频数的比例。
  
  标准离差率 (变异系数或单位风险或离散系数):
  
 定义:是 概率分布 离散程度的一个 归一化 量度,其定义为 标准差 与 平均值 之比
  
 变异系数(coefficient of variation)只在平均值不为零时有定义,而且一般适用于平均值大于零的情况
  
 变异系数只对由 比率标量 计算出来的数值有意义。举例来说,对于一个气温的分布,使用开尔文或摄氏度来计算的话并不会改变标准差的值,但是温度的平均值会改变,因此使用不同的温标的话得出的变异系数是不同的。也就是说,使用 区间标量 得到的变异系数是没有意义的
  
 优点:
  
 比起标准差来,变异系数的好处是不需要参照数据的平均值。变异系数是一个 无量纲量 ,因此在比较两组 量纲 不同或均值不同的数据时,应该用变异系数而不是标准差来作为比较的参考。
  
 缺点:
  
 1.当平均值接近于0的时候,微小的扰动也会对变异系数产生巨大影响,因此造成精确度不足。
  
 2.变异系数无法发展出类似于均值的 置信区间 的工具。
  
 
  
     
  
 定义:偏态系数以 平均值 与 中位数 之差对 标准差 之比率来衡量偏斜的程度,用 SK 表示 偏斜系数 :偏态系数小于0,因为平均数在众数之左,是一种左偏的分布,又称为负偏。偏态系数大于0,因为均值在众数之右,是一种右偏的分布,又称为正偏。
  
 描述:偏态系数是根据 众数 、 中位数 与 均值 各自的性质,通过比较众数或中位数与均值来衡量偏斜度的,即偏态系数是对分布偏斜方向和程度的刻画
  
 三种情况:
  
 零值:偏态系数的取值为0时,表示数据为完全的对称分布
  
 正值:偏态系数的取值为正数时,表示数据为正偏态或右偏态
  
 负值:偏态系数的取值为负数时,表示数据为负偏态,或左偏态
  
 注意:偏态系数的绝对数值越小,表示数据偏倚的程度越小;偏态系数的绝对数值越大,表示数据偏倚的程度越大
  
 峰度又称 四阶标准矩 ,通常被定义为 四阶累积量 除以 二阶累积量 的平方,它等于 四阶中心矩 除以概率分布 方差 的平方再减去3。
  
 公式:
                                          
 这也被称为超值峰度。“减3”是为了让 正态分布 的峰度为0。
  
 如果超值峰度为正,称为尖峰态;如果超值峰度为负,称为低峰态。

3. 数据的描述性统计

 在实际工作中,对于刚接手的数据集,在正式处理需求前,除了需要梳理清楚数据上报及转发环节,还需要对数据集进行质量评估和了解数据集的描述性统计特征。在很多公司里,数据分析师「触手可及」的便是数据开发工程师处理过后的数据,在上述环节中,分析师尤其需要重点关注数据集的描述性统计特征,了解不同类型的数据的集中、离散和分布程度,以便在业务提数时,补充合理的筛选条件,避免计算出来的指标有误导性。
   所有的结构化数据都可以从三个维度进行描述,这三个维度就是:
   寻找反映数据集某一特征的代表值或中心值,表明所研究的对象在一定的条件下的共同性质和一般水平。
     
     
   概念:对于数据集合,将所有的数值按照它们的大小,从高到低进行排序,如果数据集合包含的数值个数是奇数,那么排在最中间的数值就是该数据集合的中位数,如果数据集合的数值为偶数,那么取最中间两个数值的算术平均值作为中位数。   应用:中位数能够避免数据的平均水平受到异常值的影响,因此在做数据分析时,不仅要计算算数平均数,也计算中位数,若两个数字差距很大,就用中位数作为平均数。
   概念:数据集合中出现次数最多的数值。   应用:众数真正的价值在于类别型数据,用于统计各类别的数量。
   概念:数据集合中最大值与最小值的差值,表示整个数据集合能够覆盖的数值距离。   应用:极差虽能表示数据集合的波动大小,但没有提供两个极值以外的数值的信息,且对极值非常敏感,不太可靠,需要结合其他离散程度描述指标来描述数据集合的离散程度。
     
   概念:数据集合的所有数值与平均值的偏差(取绝对值)之和,除以数值个数。
     
   概念:描述数值与均值的偏离程度的指标。方差是各个数据分别与其平均数之差的平方的和的平均数。而标准差则是方差的算术平方根。   应用:方差/标准差值越大,代表大部分数值和其平均值之间的差异较大,数据离散程度也就越大。在处理风险评估模型时,一个数据的波动性,说明它涵盖的信息量越大,信息量越大,不可知的因素越多,因此风险会更大。
     
     
   概念:从数据总体中随机抽取一定数量的样本数值,然后用样本数值的方差和标准差来估计总体的方差和标准差。
     
   总体方差公式的分母就是数据集合的总数量 N,而样本方差公式的分母却是 n-1,即抽取样本量 n 减去 1。主要是因为用样本方差估计总体方差总有一定的偏差所在。
   概念:数据集合的标准差与算术平均值的比值。   应用:无单位指标,不仅可以说明同类事物的相对离散程度,也可以说明不同类型事物的相对离散程度。
   概念:对于数据集合,将所有的数值按照它们的大小,从高到低进行排序,排在四分之一位置的数值即为第一四分位数 Q1,以此类推,分别有有第二、三、四四分位数,Q2,Q3,Q4。四分位极差等于第一四分位数与第三四分位数的差值(Q3-Q1),这个差值区间包含了整个数据集合 50% 的数据值。
    概率    概念:度量随机事件中某一个结果发生的可能性大小的数值。
   1)古典概率法:事件结果数目已知,且每种结果对应的发生概率相等。   2)统计概率法:需要统计过往事件发生的结果频数来确定。   3)主观概率法:分析者对预测事件发生的概率做出主观估计。
    概率分布    概率分布是指事件的不同结果对应的发生概率所构成的分布,可以利用二维坐标进行形象的解释。   
                                           
   二项分布的试验结果只有两个(成功和失败,0 和 1),而多项分布的试验结果则多于两个,多项分布试验的特点如下:
   假设某个多项分布试验有 k 个结果,每种结果发生的概率分别为 p1,p2…,pk(概率之和为 1)现在进行 n 次多项分布试验,假设观测结果为 a1 的次数为 x1 次,结果为 a2 的次数为 x2 次,…,结果为 ak 的次数为 xk(n=x1+x2+…+xk),多么多项分布的联合概率函数为:
     
   而二项分布中,只有    和    (记为 q)两种概率,因此二项分布的概率函数为:     
   上述公式里,P(X=x) 表示特定事件的概率,在实际工作中,常结合数学期望一起使用。
    数学期望 
   数学期望是对随机变量中心位置的一种度量,是试验中每次可能结果的乘以其结果的总和。
     
   假设一等奖成本 1000 元,二等奖成本 500 元,三等奖成本 100 元,欢迎下次再来当然没钱,而用户参加一次抽奖需要 10 元。我们将概率问题转换成运营方的收益和成本计算期望
   下面从公司角度分析活动的盈亏成本:
   A 方案的数学期望:
     
   B 方案的数学期望:
     
   A 方案能否期望没抽奖运营方亏损 110 元,B 方案则是亏损 150 元。
   而从用户的角度分析活动的收益成本:
   A 方案的数学期望:
        B 方案的数学期望:
     
   在二项/多项分布试验中,每次试验结果的发生概率是不变的,而超几何分布试验结果的概率会随着每一次试验的发生而改变(无放回抽样)。
   假设有限数据总体包含 N 个数值,其中符合要求的个案数量为 m 个,如果从该数据总体中抽取 n 个个案,其中有 k 个是符合要求个案的概率计算公式为:
     
   基于过去某个随机事件在单位时间内的平均发生次数,预测该随机事件在未来同样单位时间内发生不同次数的的概率。
     
   根据随机事件发生一次的平均等待时间来推断某个时间段内,随机事件发生的概率。
                                           是古典概率分布的连续形式,是指随机事件的可能结果是连续型数据变量,但所有的变量对应的概率都相等。
   正态分布的数据特点:
   偏态分布的数据有什么特点?

数据的描述性统计

4. 数据分析1-描述性统计分析

 通过根据随机变量的分布状况、可以分为 离散概率 和 连续概率 。
   我们通常用集中趋势、离散程度、分布形态去描述一组样本数据。
             将一组计量资料按观察值大小分为不同组段,然后将各观察值归纳到各组段中,最后清点各组段的 观察值 个数(称 频数 ),以表格形式表示之,称为频数分布表又称"频次分布表",简称“ 频数表 ”
                                           转化为频次直方图
                                            用途 
   在统计学中是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。
   根据应用场景又可以分为    算术平均数  使用场景十分广泛、很容易受极值影响
                                                                                                                           
   对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个,通常取最中间的两个数值的 平均数 作为中位数
   在统计分布上具有明显集中趋势点的数值,代表数据的一般水平(众数可以不存在或多于一个)。 修正定义:是一组数据中出现次数最多的 数值 ,叫众数,有时众数在一组数中有好几个。用 M 表示。 理性理解:简单的说,就是一组数据中占比例最多的那个数。
   众数算出来是销售最常用的,代表销售的最多
   在统计学上描述观测值偏离中心 位置 的趋势,反映了所有观测值偏离中心的分布情况
    极差 又称范围误差或 全距 (Range),以R表示,是用来表示统计资料中的 变异量数 (measures of variation),其 最大值 与最小值之间的 差距 ,即最大值减最小值后所得之数据.
   variance)是在概率论和统计方差衡量 随机变量 或一组数据时离散程度的度量。概率论中方差用来度量 随机变量 和其 数学期望 (即 均值 )之间的偏离程度。统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的 平均数 。在许多实际问题中,研究方差即偏离程度有着重要意义。
                                           当数据分布比较分散(即数据在平均数附近波动较大)时,各个数据与平均数的差的平方和较大,方差就较大;当数据分布比较集中时,各个数据与平均数的差的平方和较小。 因此方差越大,数据的波动越大;方差越小,数据的波动就越小 。
   标准差 ,中文环境中又常称 均方差 ,是离均差平方的算术平均数的平方根,用σ表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组数据,标准差未必相同
   由于 方差 是数据的平方,与检测值本身相差太大,人们难以直观的衡量,所以常用方差开根号换算回来这就是我们要说的标准差。
   在统计学中样本的均差多是除以自由度n,它是意思是样本能自由选择的程度。当选到只剩一个时,它不可能再有自由了,所以自由度是n-1。
    当标准差来描述本组样本离散程度时,分母为n,当标准差通过样本来描述总体离散情况时,分母选用n-1 
   变异系数:当需要比较两组数据 离散程度 大小的时候,如果两组数据的测量尺度相差太大,或者数据 量纲 的不同,直接使用 标准差 来进行比较不合适,此时就应当消除测量尺度和量纲的影响,而变异系数可以做到这一点,它是原始数据标准差与原始数据 平均数 的比。CV没有量纲,这样就可以进行客观比较了。事实上,可以认为变异系数和极差、标准差和 方差 一样,都是反映数据离散程度的绝对值。其数据大小不仅受变量值离散程度的影响,而且还受变量值平均水平大小的影响。
    变异系数的计算公式为:变异系数 C·V =( 标准偏差 SD / 平均值Mean )× 100%   在进行数据统计分析时,如果变异系数大于15%,则要考虑该数据可能不正常,应该剔除。 
   四分位数( Quartile )是指在统计学中把所有 数值 由小到大排列并分成四等份,处于三个分割点位置的 数值 。多应用于统计学中的 箱线图 绘制。
    第一四分位数 (Q1) ,又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。
    第二四分位数 (Q2) ,又称“ 中位数 ”,等于该样本中所有数值由小到大排列后第50%的数字。
    第三四分位数 (Q3) ,又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。
    第三四分位数与第一四分位数的差距又称 四分位距 (InterQuartile Range,IQR) 
   "盒式图"或叫" 盒须图 ""箱形图"boxplot(也称箱须图(Box-whiskerPlot)须图又称为箱形图,其绘制须使用常用的 统计量 ,能提供有关数据位置和分散情况的关键信息,尤其在比较不同的母体数据时更可表现其差异。   
                                           
   我一般用户 峰值 和 偏度 来描述分布的形态
   表征 概率 密度分布曲线在 平均值 处 峰值 高低的特征数。直观看来,峰度反映了峰部的尖度。样本的峰度是和正态分布相比较而言统计量,如果峰度大于三,峰的形状比较尖,比正态分布峰要陡峭。反之亦然。
   峰度以bk表示,Xi是样本测定值,Xbar是样本n次测定值的平均值,s为样本 标准差 。 正态分布 的峰度为3。以一般而言,正态分布为参照,峰度可以描述分布形态的陡缓程度,若bk3,则称分布具有过度的峰度。若知道分布有可能在峰度上偏离正态分布时,可用峰度来检验分布的 正态性    
                                           
   表征 概率 分布密度曲线相对于 平均值 不对称程度的特征数。直观看来就是密度函数曲线尾部的相对长度。
   两侧尾部长度对称。若以bs表示偏度。bs0称分布具有正偏离,也称右偏态,此时数据位于均值右边的比位于左边的少,直观表现为右边的尾部相对于与左边的尾部要长,因为有少数变量值很大,使曲线右侧尾部拖得很长;而bs接近0则可认为分布是对称的。若知道分布有可能在偏度上 偏离  正态分布 时,可用偏离来检验分布的 正态性 。右偏时一般算术平均数>中位数>众数,左偏时相反,即众数>中位数>平均数。正态分布三者相等。   
                                           

5. 描述性统计分析怎么写?

描述统计是将研究中所得的数据加以整理、归类、简化或绘制成图表,以此描述和归纳数据的特征及变量之间的关系的一种最基本的统计方法。描述统计主要涉及数据的集中趋势、离散程度和相关强度,最常用的指标有平均数()、标准差(σx)、相关系数(r)等。
所谓描述性统计分析,就是在表示数量的中心位置的同时,还能表示数量的变异程度(即离散程度)。描述性统计分析一般有二种方法可以进行:
1、频数分布分析
2、列联表分析

综述
描述性研究利用常规检测记录或通过专门调查获得的数据资料(包括实验室检查结果),按不同地区、不同时间及不同人群特征进行分组,描述人群中有关疾病或健康状态以及有关特征和暴露因素的分布状况,在此基础上进行比较分析,获得疾病三间(人群、地区、时间)分布的特征,进而获得病因线索,提出病因假设和线索。是流行病研究工作的起点。
以上内容参考:百度百科-描述性统计

描述性统计分析怎么写?

6. 到底什么是描述性统计分析?定义是怎样?

第一章—第四节—常用描述性统计概念

7. 描述性统计表结果怎么分析

描述统计是将研究中所得的数据加以整理、归类、简化或绘制成图表,以此描述和归纳数据的特征及变量之间的关系的一种最基本的统计方法。描述统计主要涉及数据的集中趋势、离散程度和相关强度,最常用的指标有平均数()、标准差(σx)、相关系数(r)等。
 65     评论 分享 举报【摘要】
描述性统计表结果怎么分析【提问】
描述统计是将研究中所得的数据加以整理、归类、简化或绘制成图表,以此描述和归纳数据的特征及变量之间的关系的一种最基本的统计方法。描述统计主要涉及数据的集中趋势、离散程度和相关强度,最常用的指标有平均数()、标准差(σx)、相关系数(r)等。
 65     评论 分享 举报【回答】

描述性统计表结果怎么分析

8. 到底什么是描述性统计分析?定义是怎样?

所谓描述性统计分析,就是对一组数据的各种特征进行分析,以便于描述测量样本的各种特征及其所代表的总体的特征。描述性统计分析的项目很多,常用的如平均数、标准差、中位数、频数分布、正态或偏态程度等等。这些分析是复杂统计分析的基础。 
例如:对我国城镇军民的医疗保健消费情况进行统计分析,数据如下:
588.8 407.75 376.71 300.81 287.03 252.2 336 341.85 500.86 294.39 541.06 181.23 266 148.8 322.6 280.78 208.78 208.96 270.24 346.56 228.01 247.31 293.23 266.07 233.27 291.76 264.8 336.24 272.44 307.24 327.05 330.54
进行描述性统计分析结果为:
平均数 308.1053125
标准差 95.06485331
中位数 292.495
最小值 148.8
最大值 588.8
峰度 2.375103692
偏度 1.347690777