复旦大学郁文:迈进人工智能时代的统计学

2023-11-07 703 0

统计学本质上研究的是数据分析问题,加之几乎任何领域都涉及数据分析,因此或多或少都能与统计学挂上钩。事实上,很多现代工业的发展与科学研究的突破都离不开统计学在其中的推动。随着大数据和人工智能时代的到来,统计学作为人工智能重要的支撑性学科,其研究热点也与人工智能有着相当密切的联系。随着传统的学科藩篱被打破,迈进人工智能时代的统计学如何书写新的图谱?我以统计学经典分支“生存分析”中的一个研究工作为例展开讨论。


复旦大学郁文:迈进人工智能时代的统计学

复旦大学管理学院统计与数据科学系教授、系主任 郁文


生存分析包含了一系列处理持续时间相关数据的分析方法。它的主要起源之一是统计学在医药研发领域的应用。医药开发离不开临床试验,由于临床试验中,分析的持续时间常常是患者的“生存时间”,因此这些以分析生存时间为主要目的的方法被统称为“生存分析”。最近,我与研究团队共同完成了该方向的一个研究,提出了一种基于深度神经网络的生存时间回归方法。回归模型是统计学中最常用的模型之一,主要用于寻找变量间的关系,还可用于预测。其中最常用的是线性回归模型,因为线性结构相对简单,又比较容易解释和计算,但线性结构的简单特征使得它在很多实际问题中的表现有较大提升空间,因为现实世界比“线性”模式要复杂得多。


随着人们可获得的数据规模和数据形态大量增加以及算力的大幅提升,越来越多的学者希望突破线性结构来进行建模。深度学习是人工智能的热门话题,其中最重要的技术叫“神经网络”,特别是深层次的神经网络在足够数据量的支撑下可以用来逼近相当复杂的非线性函数。在此背景下,我们思考能否将神经网络这一工具引入生存分析的回归建模中,以提升模型的预测效果。


“Cox 模型”是历史上最经典的生存分析回归模型,它的重要特征是假设了自变量 X 对危险率函数的影响结构是一个线性结构。在经典模型基础上,我们提出了一种新模型,其在两个方面做了重要的改进,一是把自变量 X 的线性部分延拓成一个任意的函数m(X),即不给它加上所谓线性的限制;二是引入一个随机效应,来刻画那些没有被数据收集到但对危险率存在潜在影响的因素。我们使用多层的前馈神经网络来估计模型当中的函数 m(X), 推导了估计方法的理论性质,并验证了新模型在实际应用中会有更好的预测效果。


近年来,从统计学视角研究深度学习和神经网络的工作原理成为统计学领域一个备受关注的研究方向,不少国际顶尖统计学者关注深度学习、预训练技术,甚至大型模型的运作机理等,试图从统计学角度提供理论依据,以寻找人工智能算法表现出众的原因。还有很多统计学者致力于将深度学习、神经网络技术与传统的统计模型和方法进行结合,希望提升传统统计方法的性能和表现。上述我的研究工作就是将神经网络与生存分析当中的回归模型进行结合与拓展,也属于这一范畴。这些都是迈入人工智能时代的统计学研究所展现出来的重要特征。


作者系复旦大学管理学院统计与数据科学系教授、系主任郁文

来源 | 《商学院》杂志2023年11月刊


我也说一句

已经有条评论

全部评论

    上一篇:六赴进博之约,强生骨科升级“创新密度”

    下一篇:打造中国特色ESG,企业应该怎么做?

    QQ空间 新浪微博 豆瓣网 微信

    请先来登录吧

    没有经营者账号?立即注册
    忘记密码?

    请先来注册吧

    已有经营者账号?立即登录

      报名成功!

      请保持手机正常使用,我们会随时与你联系确认

      知道了

      加入班级成功!

      请保持手机正常使用,我们会随时与你联系确认

      知道了