回归模型指标(Logistic回归分析指标重要程度的主要过程是什么?)

案例 2020-02-01 09:12:21

excel回归分析中的指标代表什么意义

       统计学中的回归预测分析具有普遍的实用意义,但变量之间关系分析及计算繁杂,而借助Excel可方便高效地研究其数量变动关系,完成其繁杂的计算分析过程。
  根据回归预测中的实例,借助Excel进行相关分析,判断出其相关程度,并在此基础上建立回归模型,最后用Excel完成计算分析、统计检验及预测,使回归预测分析的计算过程更简捷,统计预测方法更为实用。
  直线回归分析是研究一个应变量与一个自变量间呈直线趋势的数量关系。在实际中,常会遇到一个应变量与多个自变量数量关系的问题。一个应变量与多个自变量间的这种线性数量关系可以用多元线性回归方程来表示。                              

 
  式中b0相当于直线回归方程中的常数项a,bi(i=1,2,……m)称为偏回归系数,其意义为当其它自变量对应变量的线性影响固定时,bi反映了第i个自变量xi对应变量y线性影响的度量。
    〔例〕财政收入多因素分析
  在一定时期内,财政收入规模大小受许多因素的影响,如国民生产总值大小、社会从业人员多少、税收规模大小、税率高低因素等。本例仅取四个变量作为解释变量,分析它们对财政收入的影响程度。
  t: 年份,y: 财政收入(亿元),xl: 税收(亿元),x2: 国民生产总值 (亿元),x3:                                  其他收入(亿元),x4: 社会从业人数(万人)。
  数据来自中国统计出版社出版的《中国统计年鉴》,数据时限为1978-1995年,见下图1所示。按下列步骤使用Excel“回归”分析工具:
     1. 输数据: 将数据输入A1:F19单元格。数据为19行6列,分别记每列变量名为t、y、x1、x2、x3、x4                                  

  2.   相关分析:
  (1)选择Excel“工具”菜单之“数据分析”选项, 在分析工具框中选“相关系数”。相关系数对话框将显示为图2所示,它带输入输出的提示。                                                             

  1)输入
  输入区域:$B$1:$F$19                                
  分组方式:⊙逐列
  选择标志位于第一行
  2) 输出选项
  ⊙输出区域: $A$21
  (2)单击“确定”,Excel将计算出结果显示在输出区域中。                              

     3. 回归分析:
  (1) 选择Excel“工具”菜单之“数据分析”选项, 在分析工具框中“回归”。回归对话框将显示为图4所示,                                                               

  1) 输入
  Y值输入区域:$B$1:$B$19                                
  X值输入区域:$C$1:$F$19                                
  标志
  常数为零:只有当用户想强制使回归线通过原点时才选此框
  置信度: Excel自动包括了回归系数的95%置信区间。要使用其他置信区间,选择该框并在“置信度”框中输入置信水平
  2) 输出选项
  ⊙ 输出区域: $H$1
  3) 残差
  残差(R):选择此框可得到预测值和残差(Residual),见图7。
  残差图(D):选择此框可得到残差和每一x值的图表,见图6。
  标准残差(T):选择此框可得到标准化的残差(每一残差被估计标准误差除)。这一输出可使曲线较容易分层。
        线性拟合图(I):选择此框可得到一含有y输入数据和与拟合的y值的散点图,见图7。
  4)  正态概率图: 绘制应变量的正态概率图。
  (2).单击“确定”,Excel将计算出结果显示在输出区域中。                                
     4.回归输出的解释
  (1)回归方程:
  参考图5所示单元I17:I21中的系数,回归方程为:                                
  y=767.7742+0.0543x1
  +0.3680x2+1.1013x3-0.0037x4
  在多元回归模型中,系数称为偏回归系数。例如,如果“税收”、“国民生产总值”和“社会从业人数”为固定常数,而“其他收入”允许变化,那么单位“其他收入”的变化引起“财政收入”的变化是1.1013亿元。
  (2)系数的显著水平
  “税收”系数的t统计值大于4,p<0.01,表示拒绝在此模型中“税收”与“财政收入”无关的原假设,而得出二者间有明显关系存在的结论。
  “国民生产总值”系数的t统计值大于2,p<0.05, 说明“国民生产总值”与“财政收入”间存在明显线性关系。
  而“其他收入”和“社会从业人数”系数的t值较小,p>0.05, 不能拒绝在此模型中“其他收入”和“社会从业人数”与“财政收入”无关的原假设,而得出二者间无明显关系存在的结论。
 (3)回归统计值的解释
  参考图5第7行,多元回归模型的标准误差是138.86亿元,第5行的R Square值说明“财政收入”变化的99%可以用“税收”、“国民生产总值”、“其他收入”和“社会从业人数”为解释变量的线性回归模型来解释。
  (4)方差分析的解释
  图5中从第10行到第14行的方差分析输出是检验所有回归系数同时等于零的原假设得出的结果。最终的结果是P值,在输出中的标记为“SignificanceF”。这里的P值约为6.04E-14,是从“财政收入”与解释变量之间无关系的总体随机样本中得到这些结果的概率。这个P值说明要从这样总体的随机样本中看到这些结果是极不可能的,从而得出至少有一个显著关系存在的结论。
  5.残差分析
  残差图对查看线性关系和常数方差的假设是否正确十分有用。Excel提供了残差与每一解释变量间关系的图形,如图6所示。
    如果“财政收入”与“税收”间的关系是线性的(考虑其它因素后),那么残差图应是显随机图形。另一方面,如果能看到曲线或者其他对称图形,那么就应改变模型来加入非线性关系。
  大多数观测者会得出残差图基本上是随机的这一结论,所以不需要附加的模型化处理。因为所用的样本较小(只有18个观察对象),所以很难查出非线性模式。
  观察图6所示的残数—税收估值图,该图显示基本,且样本很小,使检测非线性模式十分困难。                              
     6.拟合效果考察
  将财政收入原始值与估计值做线图,Excel步骤为:
  (1)选数据:选B1:B19,按Ctrl选I27:I45
  (2)点击“图表向导”,选择“折线图”,按“完成”按钮执行,结果见图7
  7.预测:通过前面对回归方程及回归系数的检验知所建立的方程有意义,同时通过上图也看到,该模型的拟合效果很好,今用该方程对1996、1997、和2000年财政收入进行预测,结果见下图8。                              

   下面各步骤描述了如何用TREND函数预测“财政收入”:
  (1)按图1所示,在工作表(C28:F30)中输入解释变量的值
  (2)选取将要包含预测值的单元(B28)。
  (3)从Excel“插入”菜单中选择“函数”命令,选取函数分类列表框中的统计,并选取“函数名”列表柜中的TREND,然后单击“确定”。TREND函数的语法为:
  TREND(原y’s,原x’s,新x’s, 常数项)
  本例 B28 =TREND($B$2:$B$19,$C$2:$F$19,C28:F28,1)
  (4)将单元B28的拷贝到B29:B30中,得结果见上表
  (5)预测的解释
  对2000情况来说,对于“税收”为68043.28、“国民生产总值”为8571.70,“其他收入”为652.99,“社会从业人数”为72361.00的财政收入的最佳预测值是8069.13,与实际值的8075.38相差很小。                              
   从上述的分析计算过程中可以看出,Excel在回归预测应用中,其分析计算简捷,检验结果准确方便,使统计预测分析更具实用价值。


回归分析因变量有多个指标怎么办?

回归分析有多个因变量就需要用结构方程模型或者通径分析来解决。

不可能通过回归,

除非将因变量一个一个的分析,这样的话,中间有很多交互的东西就没有办法分析,而且解释的时候很麻烦。

如果用通径分析或结构方程模型,这些问题都解决了。

Z20-0512现代工业风饮品店奶茶甜品蛋糕房店Z20-0512现代工业风饮品店奶茶甜品蛋糕房店


Logistic回归分析指标重要程度的主要过程是什么?
Logistic回归:实际上属于判别分析,因拥有很差的判别效率而不常用。
1. 应用范围:

① 适用于流行病学资料的危险因素分析

② 实验室中药物的剂量-反应关系

③ 临床试验评价

④ 疾病的预后因素分析

2. Logistic回归的分类:

① 按因变量的资料类型分:

二分类

多分类

其中二分较为常用

② 按研究方法分:

条 件Logistic回归

非条件Logistic回归

两者针对的资料类型不一样,后者针对成组研究,前者针对配对或配伍研究。

3.Logistic回归的应用条件是:

① 独立性。各观测对象间是相互独立的;

② LogitP与自变量是线性关系;

③ 样本量。经验值是病例对照各50例以上或为自变量的5-10倍(以10倍为宜),不过随着统计技术和软件的发展,样本量较小或不能进行似然估计的情况下可采用精确logistic回归分析,此时要求分析变量不能太多,且变量分类不能太多;

④ 当队列资料进行logistic回归分析时,观察时间应该相同,否则需考虑观察时间的影响(建议用Poisson回归)。

4. 拟和logistic回归方程的步骤:

① 对每一个变量进行量化,并进行单因素分析;

② 数据的离散化,对于连续性变量在分析过程中常常需要进行离散变成等级资料。可采用的方法有依据经验进行离散,或是按照四分、五分位数法来确定等级,也可采用聚类方法将计量资料聚为二类或多类,变为离散变量。

③ 对性质相近的一些自变量进行部分多因素分析,并探讨各自变量(等级变量,数值变量)纳入模型时的适宜尺度,及对自变量进行必要的变量变换;

④ 在单变量分析和相关自变量分析的基础上,对P≤α(常取0.2,0.15或0.3)的变量,以及专业上认为重要的变量进行多因素的逐步筛选;模型程序每拟合一个模型将给出多个指标值,供用户判断模型优劣和筛选变量。可以采用双向筛选技术:a进入变量的筛选用score统计量或G统计量或LRS(似然比统计量),用户确定P值临界值如:0.05、0.1或0.2,选择统计量显著且最大的变量进入模型;b剔除变量的选择用Z统计量(Wald统计量),用户确定其P值显著性水平,当变量不显者,从模型中予以剔除。这样,选入和剔除反复循环,直至无变量选入,也无变量删除为止,选入或剔除的显著界值的确定要依具体的问题和变量的多寡而定,一般地,当纳入模型的变量偏多,可提高选入界值或降低剔除标准,反之,则降低选入界值、提高删除标准。但筛选标准的不同会影响分析结果,这在与他人结果比较时应当注意。

⑤ 在多因素筛选模型的基础上,考虑有无必要纳入变量的交互作用项;两变量间的交互作用为一级交互作用,可推广到二级或多级交互作用,但在实际应用中,各变量最好相互独立(也是模型本身的要求),不必研究交互作用,最多是研究少量的一级交互作用。

⑥ 对专业上认为重要但未选入回归方程的要查明原因。

5. 回归方程拟合优劣的判断(为线性回归方程判断依据,可用于logistic回归分析)

① 决定系数(R2)和校正决定系数( ),可以用来评价回归方程的优劣。R2随着自变量个数的增加而增加,所以需要校正;校正决定系数( )越大,方程越优。但亦有研究指出R2是多元线性回归中经常用到的一个指标,表示的是因变量的变动中由模型中自变量所解释的百分比,并不涉及预测值与观测值之间差别的问题,因此在logistic回归中不适合。

② Cp选择法:选择Cp最接近p或p+1的方程(不同学者解释不同)。Cp无法用SPSS直接计算,可能需要手工。1964年CL Mallows提出:

Cp接近(p+1)的模型为最佳,其中p为方程中自变量的个数,m为自变量总个数。

③ AIC准则:1973年由日本学者赤池提出AIC计算准则,AIC越小拟合的方程越好。

在logistic回归中,评价模型拟合优度的指标主要有Pearson χ2、偏差(deviance)、Hosmer- Lemeshow (HL)指标、Akaike信息准则(AIC)、SC指标等。Pearson χ2、偏差(deviance)主要用于自变量不多且为分类变量的情况,当自变量增多且含有连续型变量时,用HL指标则更为恰当。Pearson χ2、偏差(deviance)、Hosmer- Lemeshow (HL)指标值均服从χ2分布,χ2检验无统计学意义(P>0.05)表示模型拟合的较好,χ2检验有统计学意义(P≤0.05)则表示模型拟合的较差。AIC和SC指标还可用于比较模型的优劣,当拟合多个模型时,可以将不同模型按其AIC和SC指标值排序,AIC和SC值较小者一般认为拟合得更好。

6. 拟合方程的注意事项:

① 进行方程拟合对自变量筛选采用逐步选择法[前进法(forward)、后退法(backward)、逐步回归法(stepwise)]时,引入变量的检验水准要小于或等于剔除变量的检验水准;

② 小样本检验水准α定为0.10或0.15,大样本把α定为0.05。值越小说明自变量选取的标准越严;

③ 在逐步回归的时可根据需要放宽或限制进入方程的标准,或硬性将最感兴趣的研究变量选入方程;

④ 强影响点记录的选择:从理论上讲,每一个样本点对回归模型的影响应该是同等的,实际并非如此。有些样本点(记录)对回归模型影响很大。对由过失或错误造成的点应删去,没有错误的强影响点可能和自变量与应变量的相关有关,不可轻易删除。

⑤ 多重共线性的诊断(SPSS中的指标):a容许度:越近似于0,共线性越强;b特征根:越近似于0,共线性越强;c条件指数:越大,共线性越强;

⑥ 异常点的检查:主要包括特异点(outher)、高杠杆点(high leverage points)以及强影响点(influential points)。特异点是指残差较其他各点大得多的点;高杠杆点是指距离其他样品较远的点;强影响点是指对模型有较大影响的点,模型中包含该点与不包含该点会使求得的回归系数相差很大。单独的特异点或高杠杆点不一定会影响回归系数的估计,但如果既是特异点又是高杠杆点则很可能是一个影响回归方程的“有害”点。对特异点、高杠杆点、强影响点诊断的指标有Pearson残差、Deviance残差、杠杆度统计量H(hat matrix diagnosis)、Cook 距离、DFBETA、Score检验统计量等。这五个指标中,Pearson残差、Deviance残差可用来检查特异点,如果某观测值的残差值>2,则可认为是一个特异点。杠杆度统计量H可用来发现高杠杆点, H值大的样品说明距离其他样品较远,可认为是一个高杠杆点。Cook 距离、DFBETA指标可用来度量特异点或高杠杆点对回归模型的影响程度。Cook距离是标准化残差和杠杆度两者的合成指标,其值越大,表明所对应的观测值的影响越大。DFBETA指标值反映了某个样品被删除后logistic回归系数的变化,变化越大(即DFBETA指标值越大),表明该观测值的影响越大。如果模型中检查出有特异点、高杠杆点或强影响点,首先应根据专业知识、数据收集的情况,分析其产生原因后酌情处理。如来自测量或记录错误,应剔除或校正,否则处置就必须持慎重态度,考虑是否采用新的模型,而不能只是简单地删除就算完事。因为在许多场合,异常点的出现恰好是我们探测某些事先不清楚的或许更为重要因素的线索。

7. 回归系数符号反常与主要变量选不进方程的原因:

① 存在多元共线性;

② 有重要影响的因素未包括在内;

③ 某些变量个体间的差异很大;

④ 样本内突出点上数据误差大;

⑤ 变量的变化范围较小;

⑥ 样本数太少。

8. 参数意义

① Logistic回归中的常数项(b0)表示,在不接触任何潜在危险/保护因素条件下,效应指标发生与不发生事件的概率之比的对数值。

② Logistic回归中的回归系数(bi)表示,其它所有自变量固定不变,某一因素改变一个单位时,效应指标发生与不发生事件的概率之比的对数变化值,即OR或RR的对数值。需要指出的是,回归系数β的大小并不反映变量对疾病发生的重要性,那么哪种因素对模型贡献最大即与疾病联系最强呢? (InL(t-1)-InL(t))三种方法结果基本一致。

③ 存在因素间交互作用时,Logistic回归系数的解释变得更为复杂,应特别小心。

④ 模型估计出OR,当发病率较低时,OR≈RR,因此发病率高的疾病资料不适合使用该模型。另外,Logistic模型不能利用随访研究中的时间信息,不考虑发病时间上的差异,因而只适于随访期较短的资料,否则随着随访期的延长,回归系数变得不稳定,标准误增加。

9. 统计软件

能够进行logistic回归分析的软件非常多,常用的有SPSS、SAS、Stata、EGRET (Epidemiological Graphics Estimation and Testing Package)等。