一、多重共线性的诊断方法(论文文献综述)
肖霞,伍兴国[1](2021)在《线性回归中多重共线性的几何解释》文中研究指明在多元线性回归模型中,分解定理的代数式解释了一元回归系数与偏回归系数的关系,文章用几何学描述分解定理,发现是将一元回归系数按照平行四边形法则进行分解得到各自的偏回归系数。并借助分解定理分析了多重共线性的现象,发现其产生原因可能在于因变量与自变量之间的总体结构,也可能是样本选择的结果。目前一些诊断多重共线性的方法仅仅单独考虑自变量的相关性,因此这些方法基本上是不可靠的,在未区分产生的原因之前,对多重共线性的处理都是盲目的。
曹幸运[2](2021)在《偏正态数据下众数、均值和中位数回归模型的统计推断》文中提出偏斜或非对称数据经常出现在金融、经济、生物医学、工程技术和社会科学等研究领域,具有对称数据所没有的独特性质特征。然而,目前分析偏态数据的方法大多数都集中于均值回归模型,这样常常忽略数据的偏斜特征会导致一些不合理,甚至错误的结论。因此,本文根据均值、众数和中位数在偏正态(SN)数据中所表现出来的特性,建立了均值、众数和中位数回归模型,并研究了模型参数估计,进一步探究数据存在多重共线性情况下的参数估计和统计诊断问题。本文主要研究了以下三方面的内容:第一,为捕捉偏正态数据中的“平均”、“中等”、“最多”水平,同时构建均值、中位数和众数回归模型,利用基于牛顿-拉弗森迭代的期望最大化(EM)算法来估计模型的未知参数。第二,针对偏正态数据,当数据存在多重共线性情况下,借助EM算法和岭估计方法,研究了均值和众数回归模型的参数估计方法以及收缩参数的选取方法。第三,利用Pena距离统计量对偏正态数据下均值、中位数和众数回归模型进行统计诊断研究,获得各模型的Pena距离表达式以及高杠杆异常点的诊断方法。利用EM算法与梯度下降法,并结合数据删除模型,获得似然距离、Cook距离和Pena距离统计量。通过Monte Carlo模拟研究和实例分析的结果都表明,在偏正态数据下,众数回归模型参数估计的效果优于均值和中位数回归模型的参数估计;岭估计方法对具有多重共线性的偏正态数据的回归模型的估计起到了良好的调整作用;Pena距离的诊断效果优于似然距离和Cook距离的诊断效果。
高英力[3](2020)在《良性前列腺增生症并发膀胱结石老年男性膀胱出口梗阻预测模型的建立与验证》文中研究说明目的探究膀胱出口梗阻和良性前列腺增生症合并膀胱结石的关系,并筛选其他危险因素;建立良性前列腺增生症并发膀胱结石老年男性膀胱出口梗阻预测模型。方法回顾性收集2018年1月至2018年12月367例良性前列腺增生症患者的病历资料,包括年龄、体重、身高(由此计算体重指数BMI)、前列腺体积(PV)、残余尿量(PVR)、有无膀胱结石、最大尿流率(Qmax)、尿流动力学检查、前列腺特异性抗原(PSA)、血清尿酸、尿液PH、尿比重、尿亚硝酸盐、尿隐血、尿白细胞、尿培养。单因素及多因素logistic回归筛选良性前列腺增生症老年患者结石形成的独立危险因素。回顾性收集2014年10月至2018年12月303例良性前列腺增生症合并膀胱结石患者的病历资料,包括年龄、BMI、PV、PVR、膀胱结石形态、结石的最大长径、Qmax。筛选良性前列腺增生症伴膀胱结石老年患者膀胱出口梗阻的独立预测因素。建立预测膀胱出口梗阻的列线图,并进行内部验证及模型评价。结果膀胱结石危险因素分析,单因素显示膀胱出口梗阻(OR=0.829,95%置信区间:0.4021.709,P=0.611)不具有显着的统计学意义,尿白细胞(OR=1.188,95%置信区间:0.9991.413,P=0.051)和尿隐血(OR=1.165,95%置信区间:0.9851.378,P=0.075)具有显着的统计学意义。多因素logistic回归筛选发现,尿白细胞(OR=1.240,95%置信区间:1.0251.500,P=0.027)为结石形成的独立危险因素。在研究的第二部分建立了一个预测膀胱出口梗阻的列线图,纳入了年龄、BMI、残余尿量和膀胱结石形态四个指标。偏倚校正的C指数为0.658(0.5870.729),P<0.001,预测模型具有良好的区分度。通过Hosmer and Lemeshow检验发现,P>0.05,提示模型诊断正确率良好。结论膀胱出口梗阻不是BPH患者膀胱结石并发的独立危险因素,尿白细胞为其独立危险因素。本研究创新地建立了针对膀胱结石患者的无创简单列线图,来预测BPH合并膀胱结石患者膀胱出口梗阻的患病风险。在实际应用中,此模型是管理BPH合并膀胱结石患者时在手术治疗决策过程中,若不适合或者无法进行侵入性尿流动力学检查时评估B00的良好工具。
张萌[4](2020)在《基于深度学习的森林火险预测研究》文中认为森林资源作为人类的重要资源之一,不仅为人类的生产生活提供了大量的资源,同时也维持了地球的生态平衡。但当前森林火灾频发,造成大量人员和财产损失,已经成为威胁森林资源最主要的自然灾害之一。因此,研究森林火险预测的方法,对规避森林火灾的发生和保护森林资源具有重要的现实意义。本文主要对影响森林火灾发生的驱动因子进行分析,并从森林火灾发生规律、森林火灾发生概率、森林火灾发生规模三个方面入手,利用深度学习相关算法进行建模分析,最终形成较为全面的森林火灾预测方法。本文首先介绍相关基础数据获取方式和处理方法,为后续的实验分析形成数据基础,并从时间维度、空间维度、气象分布三个角度对加拿大阿尔伯塔省森林火灾的发生规律进行分析;其次,分别制作气象因子和综合因子两种样本集,利用二项逻辑斯蒂模型和随机森林模型对两类样本集进行训练,建立森林火灾发生预测模型,通过对比分析,利用综合因子建模的随机森林预测模型准确度最高,达到91.49%;然后,本文提出融合过火面积和火灾持续时间共同作为判断森林火灾发生规模大小的指标,定义森林火灾规模指数,并利用BP神经网络算法、循环神经网络算法(RNN)以及长短时记忆网络算法(LSTM)进行建模分析,实验对比发现,LSTM模型在预测森林火灾规模上具有最高的准确度90.9%,RNN模型、BP模型的准确度次之;最后,对LSTM模型进行进一步分析,分别绘制模型测试集样本和全样本ROC曲线,ROC曲线对应的AUC值分别为0.918、0.942,说明利用LSTM模型进行森林火灾规模预测具有一定的科学性。
王慧[5](2020)在《交互作用分析与Ⅰ型错误控制中的若干问题》文中研究说明第一部分介绍了交互作用的定义、分类、研究意义和国内外相关研究进展,讨论了相加交互作用和相乘交互作用的关系,详细综述了相乘和相加交互作用分析相关的技术细节,包括交互作用的研究设计、分析模型、分析程序、结果报告和解释;讨论了分析中模型和程序的选择、分析中评价指标的选择、可信区间计算方法的选择。随后,通过一个实例分析,展示了交互作用分析过程和结果报告的格式。本文旨在帮助研究者深入理解医学研究中的交互作用,并为在分析中选择合适的模型和方法提供参考。接着,进一步综述了交互作用分析中的常用技术和常见问题,常用技术包括数据变换和分析方法,交互作用分析中的常见问题包括多重共线性问题、正确使用标准化回归系数、交互作用与非线性效应的区分、缺失值填补。最后,综述了交互作用筛选中涉及的统计方法。此外,在附录中推导了基于Wald检验的广义线性模型中交互作用分析的样本量估计公式。第二部分首先从一个假设检验中的各种错误指标的基本定义与关系出发,推及多个假设检验下Ⅰ型错误控制,回顾了 Ⅰ型错误控制指标总Ⅰ型错误率(FWER)和错误发现率(FDR)的发展历史,二者之间的联系与区别。系统综述了 Ⅰ型错误控制中的常用公式、常用指标、常用软件(SAS和R)及其软件实现细节。随后,介绍了 Ⅰ型错误控制中的一类方法:闭包检验与分层分析,并介绍了常见FWER控制方法与闭包检验相结合的例子。最后,综述了处理多个假设检验之间相关的方法,其中最着名的方法是Candes等(2018)提出的基于Lasso惩罚的Model-X knockoff框架。第三部分探讨了 Model-X knockoff框架用于高维变量选择中的Ⅰ型错误控制,把Model-X knockoff框架推广到MCP和SCAD两种非凸正则化方法和极高维变量选择方法SIS中。模拟研究显示:采用Model-X knockoff框架结合正则化方法和SIS后,能降低单用正则化方法和SIS的FDR,并有效控制到指定水平附近,筛选变量个数显着降低,但是功效会下降,FNR和FPR水平差异不大,三种正则化方法和SIS结合knockoff框架的方法筛选的变量个数、功效、FNR和FPR非常接近,只在个别情况下,Lasso的功效稍高。探索了把Model-X knockoff框架用于二阶段交互作用筛选方法中主效应的FDR控制,模拟结果显示,控制主效应的FDR,可以降低主效应和交互效应的筛选个数,筛选出主效应的功效和筛选出交互效应的概率仍然很高。此外,附录中列出了Ⅰ型错误控制的相关专着和国内外综述。最后总结了前面两部分需要特别注意的地方,讨论了第三部分模拟研究中发现的问题,最后,提出了本研究进一步的研究方向。
孙嘉聪[6](2020)在《岭估计法解决线性回归模型的多重共线性问题》文中进行了进一步梳理在如今这个大数据时代,回归分析在各个领域中的应用是越来越广泛,经济、社会、医学、生物信息学等都有它的身影。但在研究回归分析中的线性模型时,会因为自变量之间存在多重共线性的现象从而导致模型的不稳定,甚至会出现回归系数与实际意义不相符的问题。这就需要找到解决线性模型中的多重共线性问题的方法。本文从理论和实验模拟两个方面介绍了用岭估计法解决线性模型的多重共线性问题,首先介绍了多重共线性的诊断方法,如:直观判定法、特征根判定法、方差膨胀因子法、条件数判别法等,用来得知哪些模型是存在多重共线性的,并列举了具体实例,其次介绍了解决的方法,如:剔除不重要的变量、增加样本量、回归系数的有偏估计等,着重介绍的是岭估计法,本文介绍了岭估计的概念、基本思想、性质、岭参数k的选择方法,特别地把广义岭估计、泛岭估计也应用到解决多重共线性问题中来。最后通过实例来验证本文的理论,通过数据利用SAS编写程序,发现变量之间存在多重共线性,并利用岭估计方法建立模型并使模型优化从而解决问题,本文列举了医学方面血红蛋白与微量元素的含量之间的关系,通过对数据的分析及与逐步回归分析的结果分析比较得出岭估计法更加优异;通过考察进口额与国内总产值、储蓄、总消费之间的关系发现原模型由于变量之间的多重共线性而与经济理论不符,用岭估计法解决多重共线性问题之后回归系数的符号与经济理论相一致,并且与偏最小二乘法比较,结果显示岭估计法是优于偏最小二乘法的,验证了岭估计法的优越性;同时用岭估计法也可以预测民航客运量的变化趋势。从几个应用的结论得出,岭估计法能更好的减小多重共线性问题对模型的影响,直观的看出改进的地方,从而使模型更加的稳定。
刘芳,董奋义[7](2020)在《计量经济学中多重共线性的诊断及处理方法研究》文中指出多元线性回归模型的经典假定之一是解释变量之间不存在线性关系。但在实际应用中,多元线性回归模型中的解释变量之间往往存在近似的线性关系,如果仍然用最小二乘法估计模型,会造成分析结果不准确甚至严重偏离变量间本来的依存关系。为此,首先总结了多重共线性的检验方法,然后探讨了多重共线性常用的修正方法,最后结合实例演绎了逐步回归法和主成分回归法的具体应用,为现实经济问题中多重共线性的检验与处理提供一定借鉴。
李天渝[8](2019)在《成年人心肌肌钙蛋白Ⅰ和血清胆红素参考值的地理环境分布》文中提出心肌肌钙蛋白Ⅰ(cTnⅠ)和血清胆红素(SBIL)参考值都是临床医学上重要的医学检测指标。心肌肌钙蛋白Ⅰ参考值常常是作为心脏方面疾病的诊断指标之一,是具有高灵敏度且能够反映机体心肌细胞损伤程度的参考值指标。而血清胆红素参考值是作为肝胆疾病的诊断指标之一,且目前越来越多的用于辅助诊断心脏方面重要疾病。关于心肌肌钙蛋白Ⅰ和血清胆红素参考值的影响因素的研究主要是基于生理因素方面,但是其与地理环境之间仍有着密不可分的关系,所以本文从地理环境影响的角度思考,探寻地理环境因素与心肌肌钙蛋白Ⅰ和血清胆红素这两项医学参考值的联系和机制,并建立与之相关的预测模型,进一步对其机理进行深入探讨和为医学诊断提供便利。本篇研究通过搜集全国范围内的286个市县26759例健康成年人心肌肌钙蛋白Ⅰ实测值和267个市县26980例健康成年人血清胆红素实测值,对其加以统计整理,在此基础上建立预测模型对全国范围内的其他市(县)进行预测;选取地理位置指标、地势指标、气候指标和土壤指标四大类地理指标。其中包括经度、纬度、海拔和年平均气温等25项亚指标。运用相关分析定量研究心肌肌钙蛋白Ⅰ和血清胆红素参考值与地理环境因素的关系。分别采用线性和非线性模型共两种方法3种模型进行预测。通过多重共线性检验,选取适宜方法作为单一预测模型,根据对模型的精度进行比较,分别选出心肌肌钙蛋白Ⅰ和血清胆红素参考值的最优预测模型;利用最优预测模型预测全国范围内2322个地区的两项医学参考值,选择适当的方法进行插值出图。最后通过机理分析探讨地理环境因素与心肌肌钙蛋白Ⅰ和血清胆红素参考值之间的关系。使用统计学方法探索两项医学参考值与地理环境因素的相互关系,主要得出以下结论:(1)结果表明心肌肌钙蛋白Ⅰ和血清胆红素参考值实测值均具有很强的空间自相关性,并非独立和随机分布的。(2)中国健康成年人心肌肌钙蛋白Ⅰ参考值水平与7项地理指标呈现显着相关关系;中国健康成年人血清胆红素参考值水平与10项地理指标呈现显着相关关系。两项医学指标均与海拔等地理环境因素呈现显着的相关性。(3)分别对其心肌肌钙蛋白Ⅰ和血清胆红素参考值医学指标参考值建立三种预测模型,并通过计算均方根误差等方法进行模型择优,最终确定预测模型为岭回归模型。(4)健康成年人心肌肌钙蛋白Ⅰ参考值和血清胆红素参考值整体均呈现明显的从西北向东南递减的趋势。两项医学参考值水平值高的地区主要集中我国西北部如西藏,新疆部分等地区,两项医学参考值水平值较低的地区主要集中在我国东部及东南部地区如广东、江苏、福建等地。本文以中国健康成年人作为研究对象,分析了心肌肌钙蛋白Ⅰ参考值和人血清胆红素参考值与地理环境因素之间的关系,并且得到两项医学参考值与海拔、经纬度等地理环境因素的相关程度。通过建立多种预测模型,对两项医学指标参考值数据进行预测,得出空间分布图并分析地理分布规律,最终分析并解释两项医学参考值受到影响的机理和原因。
魏红燕[9](2019)在《回归分析中多重共线性的诊断与处理》文中研究说明在进行回归分析时,经常会遇到回归模型的自变量之间存在着相关关系,这就是多重共线性.当模型存在多重共线性问题,这时用最小二乘法估计参数时得到的模型精度降低,从而模型的稳定性遭到破坏.因此,解决多重共线性是非常必要的.论述了线性回归模型中的多重共线性问题,探讨了多重共线性的诊断方法,然后给出了处理多重共线性的解决办法,并针对岭回归法和主成分回归法结合实例进行说明.
张雷雨,杨毅,梁霄,赵毅[10](2018)在《GWR-CIVDP多重共线性诊断方法研究》文中研究表明使用地理加权回归模型进行回归分析时,设计矩阵可能存在多重共线性,从而导致估计结果不准确甚至严重偏离实际情况。因此,在探讨全局模型多重共线性诊断方法的基础上,重新构建了地理加权回归模型的条件指标—方差分解比公式;并以加拿大卡尔加里地区的房价数据为例,通过实验验证了该方法对于诊断地理加权回归模型多重共线性问题的有效性。
二、多重共线性的诊断方法(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、多重共线性的诊断方法(论文提纲范文)
(2)偏正态数据下众数、均值和中位数回归模型的统计推断(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究的问题 |
1.2 国内外研究现状 |
1.3 模型概论 |
1.3.1 偏正态分布 |
1.3.2 众数回归模型 |
1.3.3 均值回归模型 |
1.3.4 中位数回归模型 |
1.4 本文的组织结构 |
第二章 偏正态数据下的众数、均值和中位数回归模型的估计及应用 |
2.1 基于EM算法的极大似然估计 |
2.1.1 偏正态分布的混合表达 |
2.1.2 EM算法 |
2.1.3 Bootstrap置信区间 |
2.2 Monte Carlo模拟 |
2.3 实例分析 |
2.4 小结 |
第三章 偏正态数据下众数和均值回归模型的岭估计及其应用 |
3.1 偏正态下的岭估计 |
3.2 岭参数 |
3.3 Monte Carlo模拟 |
3.4 实例分析 |
3.5 小结 |
第四章 基于Pena距离的偏正态数据下众数、均值和中位数回归模型的统计诊断 |
4.1 偏正态分布下回归模型的Pena距离 |
4.2 偏正态数据下回归模型的统计诊断 |
4.2.1 似然距离及其计算 |
4.2.2 Cook距离及其计算 |
4.2.3 Pena距离及其计算 |
4.3 Monte Carlo模拟 |
4.4 实例分析 |
4.4.1 儿童紫绀型心脏病 |
4.4.2 1 周内损坏的电子元件数 |
4.5 小结 |
第五章 结论与展望 |
5.1 研究总结 |
5.2 研究展望 |
致谢 |
参考文献 |
附录 A 攻读学位其间发表论文目录 |
附录 B 第三章的Monte Carlo模拟结果 |
(3)良性前列腺增生症并发膀胱结石老年男性膀胱出口梗阻预测模型的建立与验证(论文提纲范文)
摘要 |
Abstract |
缩略词表 |
第1章 绪论 |
1.1 引言 |
1.2 膀胱结石 |
1.2.1 膀胱结石简介 |
1.2.2 膀胱结石危险因素 |
1.3 膀胱出口梗阻(BOO) |
1.3.1 BOO与BPH和LUTS的关系 |
1.3.2 通过尿流动力学诊断BOO |
1.3.3 列线图在BOO诊断的应用 |
1.4 本课题的主要意义以及研究内容 |
1.4.1 本课题的主要研究意义 |
1.4.2 本论文的主要研究内容 |
第2章 良性前列腺增生症老年患者结石形成危险因素分析 |
2.1 背景介绍 |
2.2 研究方法 |
2.3 数据分析 |
2.3.1 缺失值分析与处理 |
2.3.2 正态性检验 |
2.3.3 变量的描述与组间比较 |
2.3.4 自变量多重共线性诊断 |
2.3.5 回归分析 |
2.4 研究结果 |
2.5 讨论 |
2.6 结论 |
第3章 良性前列腺增生症并发膀胱结石老年患者膀胱出口梗阻预测模型的建立与验证 |
3.1 背景介绍 |
3.2 研究方法 |
3.3 数据分析 |
3.3.1 缺失值分析与处理 |
3.3.2 正态性检验 |
3.3.3 变量的描述与组间比较 |
3.3.4 自变量多重共线性诊断 |
3.3.5 回归分析 |
3.3.6 模型表现评价 |
3.4 研究结果 |
3.5 讨论 |
3.6 结论 |
第4章 总结与展望 |
4.1 本研究主要内容总结 |
4.2 未来研究的展望 |
参考文献 |
致谢 |
攻读博士学位期间发表或撰写的论文 |
(4)基于深度学习的森林火险预测研究(论文提纲范文)
摘要 |
abstract |
1 绪论 |
1.1 研究背景 |
1.2 研究目的及意义 |
1.3 国内外研究现状 |
1.3.1 国外研究现状 |
1.3.2 国内研究现状 |
1.4 研究方案 |
1.4.1 研究目标 |
1.4.2 研究内容 |
1.4.3 研究方法 |
1.4.4 拟解决关键问题 |
1.4.5 技术路线 |
1.5 论文组织结构 |
2 研究区域概况及数据处理 |
2.1 研究区域概况 |
2.2 数据来源 |
2.2.1 气象数据 |
2.2.2 非气象数据 |
2.2.3 森林火灾数据 |
2.3 数据预处理 |
2.3.1 数据清洗 |
2.3.2 多重共线性检验 |
2.3.3 数据归一化 |
2.3.4 Kennard-Stone(K-S)算法 |
2.4 本章小结 |
3 森林火灾发生规律及分析 |
3.1 森林火灾时间分布规律 |
3.1.1 森林火灾年际变化 |
3.1.2 森林火灾月际变化 |
3.1.3 森林火灾季节变化 |
3.2 森林火灾空间分布规律 |
3.2.1 森林火灾坡度分布规律 |
3.2.2 森林火灾坡向分布规律 |
3.2.3 森林火灾海拔分布规律 |
3.3 森林火灾气象分布特征分析 |
3.3.1 森林火灾温度分布特征 |
3.3.2 森林火灾降水分布特征 |
3.3.3 森林火灾风速分布特征 |
3.4 本章小结 |
4 森林火灾发生预测模型建立与分析 |
4.1 常用林火预测模型的比较 |
4.2 二项逻辑斯蒂模型 |
4.2.1 二项逻辑斯蒂回归模型的定义 |
4.2.2 二项逻辑斯蒂回归模型的公式推导 |
4.2.3 二项逻辑斯蒂回归模型的参数估计 |
4.3 随机森林算法 |
4.3.1 随机森林算法的定义 |
4.3.2 随机森林算法的流程 |
4.3.3 随机森林算法数据量的设置 |
4.3.4 随机森林算法变量的评价 |
4.4 基于气象因子林火预测模型建立 |
4.4.1 气象因子多重共线性检验 |
4.4.2 二项逻辑斯蒂模型对林火的预测 |
4.4.3 随机森林算法模型对林火的预测 |
4.5 基于综合因子林火预测模型建立 |
4.5.1 综合林火因子多重共线性检验 |
4.5.2 二项逻辑斯蒂模型对林火的预测 |
4.5.3 随机森林算法模型对林火的预测 |
4.6 结果与分析 |
4.6.1 气象因子模型比较 |
4.6.2 综合因子模型比较 |
4.7 模型预测准确率分析 |
4.8 本章小结 |
5 森林火灾发生规模预测模型建立与评价 |
5.1 森林火灾发生规模预测模型建立 |
5.1.1 BP神经模型 |
5.1.2 循环神经网络模型 |
5.1.3 长短时记忆模型 |
5.1.4 模型参数设置 |
5.2 森林火灾发生规模计算 |
5.3 结果与分析 |
5.3.1 森林火灾发生规模等级分类 |
5.3.2 预测模型分析 |
5.4 本章小结 |
6 总结与展望 |
6.1 研究结论 |
6.2 研究展望 |
参考文献 |
个人简介 |
第一导师简介 |
第二导师简介 |
获得成果目录 |
致谢 |
(5)交互作用分析与Ⅰ型错误控制中的若干问题(论文提纲范文)
摘要 |
Abstract |
常用缩写词中英文对照表 |
前言 |
第一部分 交互作用分析 |
1.1 交互作用概述 |
1.1.1 交互作用的定义 |
1.1.2 交互作用的分类 |
1.1.3 相加交互作用与相乘交互作用的关系 |
1.1.4 交互作用的研究意义 |
1.1.5 交互作用的国内外研究进展 |
1.2 交互作用分析过程 |
1.2.1 研究设计 |
1.2.2 分析模型 |
1.2.3 评价指标 |
1.2.4 程序实现 |
1.2.5 结果报告 |
1.2.6 实例分析 |
1.3 交互作用分析中的常用技术和问题 |
1.3.1 常用数据变换 |
1.3.2 多重共线性问题 |
1.3.3 常用分析技术 |
1.3.4 标准化回归系数 |
1.3.5 交互效应与非线性效应 |
1.3.6 缺失值 |
1.4 交互作用的筛选 |
1.4.1 一阶段法 |
1.4.2 多阶段法 |
1.4.3 其他 |
第二部分 Ⅰ型错误控制 |
2.1 Ⅰ型错误控制概述 |
2.1.1 一个假设检验中的基本概念 |
2.1.1.1 一个假设检验中错误控制 |
2.1.1.2 从诊断试验看Ⅰ型错误 |
2.1.2 m个假设检验中的Ⅰ型错误控制 |
2.1.2.1 FWER控制 |
2.1.2.2 FDR控制 |
2.1.2.3 FDR(或pFDR)、local FDR与q值估计 |
2.1.2.4 小结 |
2.1.3 常用公式 |
2.1.4 常用指标 |
2.1.5 π0或m0的估计与自适应方法 |
2.1.6 常用软件及其实现 |
2.2 闭包检验与分层分析 |
2.2.1 闭包原理与闭包检验 |
2.2.2 闭包检验与序贯法 |
2.2.3 闭包检验与P值合并方法 |
2.2.4 闭包检验与固定顺序检验、守门法 |
2.2.5 闭包检验与组间比较 |
2.2.6 截尾闭包检验与序贯法 |
2.2.7 截尾闭包检验与两两比较 |
2.3 相关的处理 |
2.3.1 传统方法与相关 |
2.3.2 对相关结构建模 |
2.3.3 保留数据的相关结构 |
2.2.3.1 重抽样技术 |
2.2.3.2 伪变量 |
第三部分 Model-X knockoffs框架用于高维变量选择中的Ⅰ型错误控制 |
3.1 Model-X knockoffs框架结合不同正则化方法控制FDR的模拟研究 |
3.2 Model-X knockoffs框架结合SIS控制FDR的模拟研究 |
3.3 Model-X knockoffs框架结合两阶段方法在交互作用筛选中Ⅰ型错误控制的探讨 |
总结与讨论 |
参考文献 |
附录 |
附录1 交互作用分析 |
附录1.1 logisitc回归中基于Wald检验的样本量计算推导 |
附录1.2 logisitc回归中相乘交互作用和相加交互作用的样本量计算推导 |
附录1.3 常用分析模型(binary exposure and binary confounder)基于Wald检验的样本量计算公式中V的计算 |
附录1.4 线性回归模型的样本量计算的推导 |
附录1.5 McClelland等(2017)模拟数据的分析程序与结果 |
附录1.6 线性回归中模型总的多重共线性诊断指标汇总 |
附录1.7 线性回归中单个变量多重共线性的诊断指标汇总 |
附录2 Ⅰ型错误控制 |
附录2.1 多重检验相关的专题着作列表 |
附录2.2 多重检验相关的综述(不完整收集) |
附录2.3 多重检验相关书籍的书评(不完整收集) |
附录2.4 国内多重检验相关的综述与标准(不完整收集) |
附录2.5 Model-X knockoffs框架结合正则化方法的模拟结果1线性回归,A=4 |
附录2.6 Model-X knockoffs框架结合正则化方法的模拟结果2线性回归,A=6 |
附录2.7 Model-X knockoffs框架结合正则化方法的模拟结果3 logistic回归,A=8 |
附录2.8 Model-X knockoffs框架结合正则化方法的模拟结果4 logistic回归,A=14 |
附录2.9 Model-X knockoffs框架结合SIS的模拟结果 |
附录2.10 Model-X knockoffs框架结合Lasso用于两阶段交互作用筛选方法模拟结果,强边际原则 |
附录2.11 Model-X knockoffs框架结合Lasso用于两阶段交互作用筛选方法模拟结果,弱边际原则 |
综述 高维变量选择中的Ⅰ型错误控制综述 |
致谢 |
个人简介 |
(6)岭估计法解决线性回归模型的多重共线性问题(论文提纲范文)
摘要 |
abstract |
1 绪论 |
1.1 选题背景及意义 |
1.2 线性回归模型 |
1.3 线性回归发展状况 |
1.3.1 最小二乘估计的研究与发展 |
1.3.2 有偏估计的研究与发展 |
1.4 本文研究内容 |
2 基础知识 |
2.1 预备知识 |
2.1.1 矩阵论 |
2.1.2 均方误差 |
2.2 多重共线性 |
2.2.1 多重共线性给回归模型带来的问题 |
2.2.2 多重共线性的诊断方法 |
2.2.3 多重共线性的解决方法 |
3 岭估计法解决多重共线性问题 |
3.1 岭估计 |
3.1.1 基本概念 |
3.1.2 典型回归系数 |
3.2 岭参数选择的几种方法 |
3.3 广义岭估计 |
3.4 泛岭估计 |
4 应用实践 |
4.1 岭估计法解决微量元素和血红蛋白含量的关系 |
4.2 岭估计法确定经济量之间的数量关系 |
4.3 岭估计法预测民航客运量的变化趋势 |
总结与展望 |
参考文献 |
论文发表情况 |
致谢 |
(7)计量经济学中多重共线性的诊断及处理方法研究(论文提纲范文)
1 多重共线性的诊断方法 |
1.1 经验方法 |
1.2 简单相关系数检验法 |
1.3 辅助回归模型检验[1] |
1.4 方差膨胀因子检验[2] |
1.5 特征值、病态数与病态指数检验[2] |
2 多重共线性的解决方法 |
2.1 排除引起共线性的解释变量 |
2.2 改变参数的约束形式 |
2.3 变换模型的形式 |
2.4 减少参数估计量的方差 |
2.4.1 增大样本容量 |
2.4.2 岭回归法 |
2.5 主成份回归 |
3 实践应用 |
3.1 逐步回归法 |
3.1.1 一元回归模型 |
3.1.2 最优回归模型的选择 |
3.2 主成分回归 |
4 结语 |
(8)成年人心肌肌钙蛋白Ⅰ和血清胆红素参考值的地理环境分布(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景与研究意义 |
1.1.1 研究背景 |
1.1.2 两项医学参考值研究价值及意义 |
1.2 心肌肌钙蛋白Ⅰ、血清胆红素医学指标参考值及研究 |
1.2.1 心肌肌钙蛋白Ⅰ及其研究现状 |
1.2.2 血清胆红素及其研究现状 |
1.3 研究目标与思路 |
1.3.1 研究目标 |
1.3.2 研究思路及技术路线图 |
第二章 资料的获取 |
2.1 医学指标参考值数据的获取 |
2.1.1 样本选取 |
2.1.2 心肌肌钙蛋白Ⅰ和血清胆红素数据获取、来源及分布 |
2.2 地理指标的选取 |
2.2.1 空间地势指标的选取 |
2.2.2 气候指标的选取 |
2.2.3 土壤指标的选取 |
第三章 医学指标与地理指标的相关分析 |
3.1 空间自相关 |
3.1.1 空间自相关方法简介 |
3.1.2 心肌肌钙蛋白Ⅰ样本数据的空间自相关结果 |
3.1.3 血清胆红素样本数据的空间自相关结果 |
3.2 相关分析 |
3.2.1 相关分析简介 |
3.2.2 心肌肌钙蛋白Ⅰ样本数据与地理指标的相关分析 |
3.2.3 血清胆红素样本数据与地理指标的相关分析 |
3.3 本章小结 |
第四章 建立预测模型 |
4.1 多重共线性诊断 |
4.1.1 多重共线性诊断概述 |
4.1.2 心肌肌钙蛋白Ⅰ参考值解释变量的共线性诊断 |
4.1.3 血清胆红素参考值解释变量的共线性诊断 |
4.2 支持向量机预测模型 |
4.2.1 支持向量机模型简介 |
4.2.2 健康成年人心肌肌钙蛋白Ⅰ参考值的SVM预测模型 |
4.2.3 健康成年人血清胆红素参考值的SVM预测模型 |
4.3 岭回归模型 |
4.3.1 岭回归模型简介 |
4.3.2 心肌肌钙蛋白Ⅰ样本数据的岭回归分析预测模型 |
4.3.3 健康成年人血清胆红素参考值的岭回归分析预测模型 |
4.4 人工神经网络模型 |
4.4.1 人工神经网络模简介 |
4.4.2 心肌肌钙蛋白Ⅰ样本数据的神经网络预测模型 |
4.4.3 血清胆红素参考值的神经网络预测模型 |
4.5 最优模型选取 |
4.5.1 评价方法简介 |
4.5.2 心肌肌钙蛋白Ⅰ参考值与地理因素的最优模型选取 |
4.5.3 血清胆红素参考值地理因素的最优模型选取 |
4.6 小结 |
第五章 空间分布趋势图的构建 |
5.1 空间统计分析简介 |
5.2 空间插值简介 |
5.3 探索性空间数据分析 |
5.3.1 心肌肌钙蛋白Ⅰ预测数据正态性检验 |
5.3.2 血清胆红素预测数据正态性检验 |
5.4 趋势效应分析 |
5.4.1 趋势效应简介 |
5.4.2 心肌肌钙蛋白Ⅰ参考值空间趋势分析 |
5.4.3 血清胆红素参考值空间趋势分析 |
5.5 空间插值出图 |
5.5.1 健康成年人心肌肌钙蛋白Ⅰ参考值空间分布规律 |
5.5.2 健康成年人血清胆红素参考值空间分布规律 |
第六章 分析与讨论 |
6.1 人体健康与地理环境 |
6.2 健康成年人心肌肌钙蛋白Ⅰ参考值与地理环境因素的关系 |
6.3 健康成年人血清胆红素参考值与地理环境因素的关系 |
第七章 总结与展望 |
7.1 结论 |
7.2 创新点 |
7.3 不足与展望 |
参考文献 |
致谢 |
攻读硕士期间的研究成果 |
(9)回归分析中多重共线性的诊断与处理(论文提纲范文)
1 基础知识 |
1.1 多元线性回归模型 |
1.2 多重共线性 |
2 多重共线性的诊断 |
2.1 方差扩大因子法 |
2.2 特征根判别法 |
3 多重共线性的处理 |
3.1 剔除一些不重要的解释变量 |
3.2 增大样本量 |
3.3 岭回归 |
3.4 主成分回归 |
4 实例分析 |
4.1 岭回归分析法 |
4.2 主成分回归法 |
5 结语 |
(10)GWR-CIVDP多重共线性诊断方法研究(论文提纲范文)
1 GWR模型 |
2 全局模型多重共线性诊断方法 |
3 GWR模型的CIVDP多重共线性诊断方法 |
4 实验分析 |
5 结语 |
四、多重共线性的诊断方法(论文参考文献)
- [1]线性回归中多重共线性的几何解释[J]. 肖霞,伍兴国. 统计与决策, 2021(21)
- [2]偏正态数据下众数、均值和中位数回归模型的统计推断[D]. 曹幸运. 昆明理工大学, 2021(02)
- [3]良性前列腺增生症并发膀胱结石老年男性膀胱出口梗阻预测模型的建立与验证[D]. 高英力. 上海交通大学, 2020(01)
- [4]基于深度学习的森林火险预测研究[D]. 张萌. 北京林业大学, 2020(02)
- [5]交互作用分析与Ⅰ型错误控制中的若干问题[D]. 王慧. 山西医科大学, 2020(11)
- [6]岭估计法解决线性回归模型的多重共线性问题[D]. 孙嘉聪. 渤海大学, 2020(12)
- [7]计量经济学中多重共线性的诊断及处理方法研究[J]. 刘芳,董奋义. 中原工学院学报, 2020(01)
- [8]成年人心肌肌钙蛋白Ⅰ和血清胆红素参考值的地理环境分布[D]. 李天渝. 陕西师范大学, 2019(01)
- [9]回归分析中多重共线性的诊断与处理[J]. 魏红燕. 周口师范学院学报, 2019(02)
- [10]GWR-CIVDP多重共线性诊断方法研究[J]. 张雷雨,杨毅,梁霄,赵毅. 地理空间信息, 2018(07)