• 图纸下载
  • 专业文献
  • 行业资料
  • 教育专区
  • 应用文书
  • 生活休闲
  • 杂文文章
  • 范文大全
  • 作文大全
  • 达达文库
  • 文档下载
  • 音乐视听
  • 创业致富
  • 体裁范文
  • 当前位置: 达达文档网 > 应用文书 > 正文

    高维单变点分位回归的贝叶斯分析

    时间:2020-05-18 03:44:37 来源:达达文档网 本文已影响 达达文档网手机站

    慕娟

    摘要:随着计算机技术的不断发展,越来越多的高维数据产生,且在许多应用中,所调查的数据集显示的是异方差的状态。另一方面,模型中存在异常值可能会导致最小二乘估计量产生较大误差,特别是当误差不是高斯分布且分布尾部足够大时,不清楚变点前后两个时刻误差发生的变化,这时更适合考虑分位数回归。因此尝试利用贝叶斯方法建立贝叶斯单变点分层分位回归模型。利用shrinkage 和 diffusion先验,我们对变点进行了充分的后验推断,通过高效的Gibbs取样,同时得到了每段变量选择的后验概率。使用该方法,在计算上更加便捷有效。

    Abstract:
    With the continuous development of computer technology, a large amount of high-dimensional data is generated. And in many applications, the data set has heteroscedastic characteristics. On the other hand, if the assumptions on the first two moments of the model error are not satisfied, then the LS framework breaks down. The quantile regression is robust and allows relaxation of the two first moment conditions of the model error, especially when the error is not a Gaussian distribution and the tail of the distribution is large enough. So we try to use Bayesian method to establish Bayesian single-change point hierarchical quantile regression model. Using shrinkage and diffusion priors, we have performed sufficient posterior inference on the change points, and obtained the posterior probability of each segment variable selection at the same time through efficient Gibbs sampling. This method is more convenient and effective in calculation.

    关键词:高维数据;分位回归;贝叶斯方法

    Key words:
    high-dimensional data;quantile regression;Bayesian method

    中图分类号:O212.8                                     文献标识码:A                                  文章编号:1006-4311(2020)10-0268-03

    0  引言

    复杂数据集的出现使得现代统计建模和推理不断地发展与更新。其中,数据集中的观测数据的维数超过了数据集的大小时则称为高维数据集。由于科技的发展,使得数据的获取来源更广且更容易,这种高维数据集现在普遍存在于各种不同的领域,包括生物学、天文学、经济和社会科学,因此我们也不能使用传统统计工具研究这些数据集。

    在许多应用中,获得的数据集显示的是异方差的状态,这时使用变点线性模型将更为便捷和准确,变点线性回归模型是一个变点问题的子类,其中将响应与预测变量相关的线性模型表示为不同的数据段上发生变化。另一方面,模型中存在异常值可能会导致最小二乘估计量产生较大误差,特别是当误差不是高斯分布且分布尾部足够大时,不清楚变点前后两个时刻误差发生的变化,这时更适合考虑分位数回归。数据集的分割通常基于阈值变量的未知变点,如时间或年龄,或者数据中观察到的其他相关变量的综合影响。经济数据集是变点线性模型应用的主要领域。许多经济时间序列数据集可以在不同的政治和金融体制下收集,可以通过变点的判断分析政策效应。在低维背景下,Carlin等人[1](1992)使用Gibbs抽样利用贝叶斯推断变点线性模型中每段的变点位置和回归系数。盡管有关高维回归和变化点模型的贝叶斯文献很多,但关于高维变点模型的贝叶斯方法很少。

    目前对于低维情况下的变点线性回归已经做了大量的工作,但是高维变化点回归严重不足。惩罚最小二乘方法,如Lasso(Tibshiani [2]1994)、SCAD(FAN和Li[3]2001),弹性网(Zou和Hastie[4]2005)、自适应Lasso(Zou[5]2006)等被广泛应用于高维回归分析。贝叶斯方法通常通过对回归系数使用分层先验来进行变量选择。贝叶斯变量选择方法包括随机搜索变量选择(George和McCulloch[6]1993),spike and slab先验(Ishwaran和Rao[7]2005),Bayes Lasso(Park和Casella[8]2008),shrinkage and diffusion先验(Narisetty和He[9]2014年)。贝叶斯对于变点问题的研究我们参考了龙振环,张飞鹏,周小英[10](2017),他们先通过Lasso和广义贝叶斯信息准则确定变点个数,再通过线性化技巧来估计变点的位置与回归系数,且周小英[11](2018)探索单变点和多变点的逐段连续线性分位回归模型,研究模型中变点的存在性、变点的个数以及参数的估计与统计推断问题。

    本文在贝叶斯的框架下来拟合高维变点的分位回归模型,利用分段shrinkage and diffusion先验,我们对变点进行了充分的后验推断,通过高效的Gibbs取样,同时得到了变点参数及每段变量选择的后验概率。

    1  贝叶斯分位数回归模型Gibbs抽样方法

    普通回归模型表示为:
    ,在经典分位回归模型文献中,误差密度fp(·)往往是不确定的。因此,参数βp的分位数回归估计是通过最小化下式得到

    式中ρp(·)是损失函数,且定义为:ρp(u)=u{p-1(u<0)}。并假定εi具有密度不对称拉普拉斯分布

    由上述分布性质我们可以得到误差分布的均值和方差为并将误差项进行改写

    其中?准(x)表示标准正态分布的密度。我们观察到,βk,Zkj和σ2的全条件服从共轭分布,很容易通过Gibbs抽样更新。只有p(τ|·)不符合任何标准可能性,我们在Gibbs“采样器”内使用随机行走Metropolis-Hastings步骤来更新。

    3  总结

    本文首次将贝叶斯推断方法引入到高维变点分位回归中,利用shrinking 和 diffusio先验进行降维判断不同阶段变点的存在,利用贝叶斯分位分层模型其特有的性质,更加简便快速的估计出变点参数及分位系数。

    参考文献:

    [1]Narisetty N N , He X . Bayesian variable selection with shrinking and diffusing priors[J]. The Annals of Statistics, 2014, 42(2):789-817.

    [2]Carlin B P, Smith G A F M. Hierarchical Bayesian Analysis of Changepoint Problems[J]. Journal of the Royal Statistical Society. Series C (Applied Statistics), 1992, 41(2):389-405.

    [3]Tibshirani R . Regression Shrinkage and Selection Via the Lasso[J]. Journal of the Royal Statistical Society Series B (Methodological), 1996, 58(1):267-288.

    [4]Fan J, Li R. Variable Selection via Nonconcave Penalized Likelihood and its Oracle Properties[J]. Publications of the American Statistical Association, 2001, 96(456):1348-1360.

    [5]George, E. I. and McCulloch, R. E. Variable Selection via Gibbs Sampling[J]. Journal of the American Statistical Association, 1993, 88, 881-889.

    [6]Ishwaran H, Rao J S. Spike and slab variable selection:
    Frequentist and Bayesian strategies[J]. The Annals of Statistics, 2005, 33(2):730-773.

    [7]Park, T. and Casella, G. The Bayesian Lasso[J]. Journal of the American Statistical Association, 2008, 103, 681-686.

    [8]Narisetty, N. N. and He, X. Bayesian Variable Selection with Shrinking and Diffusing Priors[J]. The Annals of Statistics, 2014, 42, 789-817.

    [9]龍振环,张飞鹏,周小英.带多个变点的逐段连续线性分位数回归模型及应用[J].数量经济技术经济研究,2017(08):151-162.

    [10]周小英.逐段连续线性分位数回归模型的统计推断及其应用[D].湖南大学,2018.

    相关热词搜索: 回归 分析 高维

    • 生活居家
    • 情感人生
    • 社会财经
    • 文化
    • 职场
    • 教育
    • 电脑上网