巨鲸写作: 写论文从未如此简单
回归分析写作
论文实证写作
论文写作误区规避

回归分析结果怎么写?避开这几个误区轻松搞定

2026-03-29 18:01:13

做过实证研究的同学应该都有过这种经历:跑了几十组回归,模型显著性也不错,系数符号也符合预期,但一坐到电脑前写回归分析结果,就半天挤不出来一个字——要么不知道该从什么顺序写,要么只会抄系数,要么漏了关键信息导致审稿人质疑,一篇几千字的论文卡一个星期都写不完结果部分。

其实写回归分析结果是有固定逻辑和步骤的,只要掌握了正确的框架,避开常见误区,哪怕是第一次做实证分析的本科生,也能在1-2小时内写出规范清晰的回归结果。本文整理了从描述性统计到稳健性检验的完整写作步骤,还整理了学生最容易踩的8个误区,跟着一步步写就可以了。

一、先搞懂:回归分析结果的写作顺序逻辑

很多同学写出来的回归结果混乱不堪,核心问题是没搞懂实证论文的结果部分应该按什么逻辑排布。正规实证论文的回归分析结果,一定是从浅到深、从基础到进阶的,我们整理了标准顺序,你可以直接套用:

内容模块核心作用写作顺序是否必须
描述性统计展示所有变量的基本特征,让读者快速了解数据分布1
相关性分析初步展示核心变量的关系,提前排除多重共线性疑虑2大部分期刊要求
基准回归结果展示核心假设的验证结果,回答论文的核心研究问题3
异质性分析展示不同情境下核心关系的差异,提升研究深度4推荐加分项
机制检验解释核心关系“为什么会发生”,揭示内在逻辑5推荐加分项
内生性处理应对“因果倒置”“遗漏变量”等质疑,提升结果可信度6中高级研究要求
稳健性检验证明结果不是偶然得到的,提升结论可靠性7几乎所有期刊要求

接下来我们就一步步拆解,每个部分该写什么,该注意什么,怎么操作。

二、手把手:分步写好每一部分回归结果

:第一步:写描述性统计结果

描述性统计是回归分析的第一步,相当于给你的数据“拍个全家福”,读者第一眼就能知道你的变量是什么、样本量多少、取值范围是什么样的。

:操作步骤:

1. 打开你的计量软件(以Stata为例,SPSS操作逻辑一致):

输入命令 `sum 变量名1 变量名2 变量名3, detail` ,回车之后就会得到每个变量的观测数、均值、中位数、标准差、最小值、最大值。

如果你用Python做分析,调用`df.describe()`就可以直接导出结果。

2. 接下来,把结果整理成标准三线表,表格第一列是变量名称,然后依次放观测数、均值、中位数、标准差、最小值、最大值。

3. 写作描述性统计的文字说明:

这里不需要太复杂,核心说清楚两个点:

  • 说明样本量和核心变量的整体情况:比如“本次研究共获取了2013-2022年中国A股上市公司的12568个观测样本,对所有连续变量进行了1%的缩尾处理以避免极端值影响,描述性统计结果如下表所示”。
  • 重点解释核心解释变量和被解释变量的特征:比如“被解释变量企业创新的均值为2.36,标准差为1.78,说明不同企业之间的创新投入水平差异较大,符合我们的研究预期;核心解释变量数字化转型的均值为0.82,说明样本中约82%的企业已经开展了不同程度的数字化转型,和当前我国企业数字化转型的现实情况一致”。

:常见误区提醒:

❌ 误区1:不放观测数,很多同学只放均值标准差,漏了观测数,读者根本不知道你每个变量有多少样本,这是非常基础的错误。

❌ 误区2:不说明数据处理过程,比如有没有缩尾、有没有剔除缺失值、怎么对分类变量编码,这些不说清楚,结果就是不透明的。

这里有个小技巧:如果你有很多控制变量,不用每个控制变量都一一解释,只要说“其余控制变量的分布均在合理范围之内,没有极端异常值影响后续回归”就可以了。

:第二步:写相关性分析结果

相关性分析是在回归之前初步验证你的核心假设,同时提前告诉读者你的变量不存在严重的多重共线性问题,打消审稿人的疑虑。

:操作步骤:

1. 在Stata中输入命令 `corr 变量名列表, star( 0.1 0.05 0.01)` ,回车就能得到带显著性星标的相关系数矩阵。

2. 整理表格的时候,如果变量不多,可以放完整的矩阵;如果变量超过10个,只放核心变量(被解释变量、核心解释变量)和主要控制变量的相关系数就行,不用放完整的大矩阵。

3. 文字说明分两部分写:

第一部分说核心变量的相关性方向:比如“表2汇报了主要变量的Pearson相关系数结果,核心解释变量数字化转型和被解释变量企业创新的相关系数为0.24,在1%的水平上显著为正,初步说明数字化转型能够促进企业创新,和本文的核心研究假设一致”。

第二部分说明多重共线性情况:比如“所有变量之间的相关系数绝对值都小于0.7,只有少数控制变量之间的相关系数超过0.5,后续我们进一步报告了方差膨胀因子(VIF),所有VIF值均小于5,说明不存在严重的多重共线性问题,不会影响回归结果的稳定性”。

:常见误区提醒:

❌ 误区3:只放系数不说共线性,多重共线性是实证分析最常见的问题之一,你主动说明,就能提前避开这个质疑,比审稿人问起来再补好得多。

❌ 误区4:把相关性当因果说,这里一定要注意,相关性只是初步验证,你只能说“初步支持研究假设”,绝对不能说“证明了假设”,因果关系要靠回归之后才能说。

:第三步:写基准回归结果

基准回归是整篇论文的核心,所有研究假设都在这里验证,这部分也是最容易写乱的地方,只要记住一个逻辑:先看整体,再看核心,最后说控制变量。

:操作步骤:

1. 先跑基准回归,如果你是做面板固定效应,Stata命令是 `xtreg 被解释变量 核心解释变量 控制变量 i.year i.industry, fe r` ,跑完之后把结果整理成三线表,表格要包含:核心解释变量系数、控制变量系数、标准误(放在系数括号里)、R²、样本量、固定效应控制情况。

2. 文字写作按这个顺序来:

第一步:说明模型设定和整体显著性:比如“本文首先检验数字化转型对企业创新的影响,基准回归采用双向固定效应模型,控制了年份固定效应和行业固定效应,回归结果如下表3所示”。

第二步:讲核心解释变量的结果,这是你要花最多篇幅说的:

要把系数、显著性、经济含义、和假设的关系都说清楚,比如“从表3可以看到,核心解释变量数字化转型的回归系数为0.123,在1%的统计水平上显著为正,说明在控制了其他影响企业创新的因素之后,企业数字化转型程度每提升1个单位,企业创新产出平均提升12.3%,本文的核心研究假设H1得到验证”。

👉 这里一定要记住:必须解释系数的经济含义,不能只说“系数显著为正,假设成立”,很多同学只会抄系数,不解释经济意义,这是很大的扣分项。

第三步:说控制变量的结果:不用每个控制变量都解释,挑几个重要的说,剩下的一笔带过就行。比如“控制变量方面,企业规模的系数在1%水平上显著为正,说明规模越大的企业创新投入越高,符合现有研究的结论;资产负债率的系数显著为负,说明负债越高的企业创新投入越低,和预期一致;其余控制变量的结果也和现有文献基本一致,此处不再赘述”。

:常见误区提醒:

❌ 误区5:核心变量不显著硬洗,很多同学跑出来核心变量不显著,就硬说“接近显著”“符号符合预期就算支持”,这是绝对不行的,如果不显著,要如实报告,分析为什么不显著,是不是数据问题,是不是模型错了,存不存在异质性,硬洗只会让审稿人反感。

❌ 误区6:所有控制变量都详细解释,把表格里所有控制变量的系数都抄一遍,凑字数不说,还显得你抓不住重点,只要说重要的几个,剩下的一句话带过就够了。

标准基准回归表示例
标准基准回归表示例

上图为CSSCI期刊常用的基准回归结果格式,你可以参考这个格式整理

:第四步:写异质性分析结果

异质性分析是提升你论文深度的关键,同样的一个核心关系,在不同的样本里肯定不一样,把这个差异说清楚,研究内容就丰满了很多,绝大部分期刊都非常喜欢异质性分析。

:操作步骤:

1. 首先你要根据研究主题确定分样本的依据,常见的异质性划分有三种:

  • 按企业/研究对象特征划分:比如分为国有企业和民营企业,大型企业和中小型企业;
  • 按时间划分:比如分为政策冲击前和政策冲击后;
  • 按地区划分:比如分为东部地区和中西部地区。

2. 操作上,你可以用两种方法:一种是分样本回归,Stata命令是 `xtreg 被解释变量 核心解释变量 控制变量 i.year i.industry if 分组变量==1, fe r` ,然后再跑一次分组变量==2的;另一种是加入交互项,核心是看交互项的系数显著性。

3. 写作怎么写?记住这个逻辑:先列结果,再解释差异,最后说这个差异说明了什么。比如:

接下来本文进一步分析数字化转型对企业创新的异质性影响,按照企业所有制性质将样本分为国有企业和民营企业两组,分组回归结果如表4所示。
从结果可以看到,在民营企业样本中,数字化转型的系数为0.187,在1%水平上显著为正;而在国有企业样本中,系数为0.042,且不显著。这说明数字化转型对企业创新的促进作用主要体现在民营企业中,国有企业因为创新激励不足、组织僵化等问题,数字化转型并没有显著带动创新产出提升,这一异质性结果符合我们的理论预期。

:常见误区提醒:

❌ 误区7:异质性分组没有理论依据,随便找个变量就分组,结果出来也不解释为什么会有这个差异,只是说“XX组显著,XX组不显著”,这样的异质性分析是没有意义的,一定要从理论逻辑出发,提前说清楚你为什么要做这个分组,预期会有什么差异,再放结果。

:第五步:写机制检验结果

做完异质性,如果你想进一步提升论文的质量,就要做机制检验,回答“核心解释变量为什么会影响被解释变量”,也就是打开黑箱,说清楚传导路径。

:操作步骤:

目前常用的机制检验有两种,写法也略有不同:

1. 逐步回归法(中介效应)

第一步跑Y对X的基准回归(已经做完了),第二步跑M对X的回归,第三步跑Y对X和M的回归,写作的时候:

上文已经验证了数字化转型能够促进企业创新,接下来本文进一步检验其作用机制,理论分析指出,数字化转型会通过降低企业信息不对称程度提升创新产出,因此我们用分析师关注度衡量信息不对称程度,进行中介效应检验,结果如表5所示。
列(2)的结果显示,数字化转型对分析师关注度的系数显著为正,说明数字化转型确实能够提升企业信息透明度,降低信息不对称;列(3)的结果显示,加入中介变量之后,数字化转型的系数依然显著为正,分析师关注度的系数也显著为正,说明信息不对称是数字化转型促进企业创新的中介变量,本文的机制假设H2a得到验证。

2. 调节效应法

调节效应是看X对Y的影响会不会受到M的影响,操作就是在基准回归里加入X和M的交互项,看交互项的系数,写作的时候:

本文进一步检验产权性质对数字化转型创新效应的调节作用,在基准模型中加入数字化转型和国有企业虚拟变量的交互项,回归结果如表6所示。可以看到,交互项的系数在5%水平上显著为负,说明国有企业性质显著抑制了数字化转型对创新的促进作用,和本文异质性部分的结论一致,调节效应假设成立。

这里有个小技巧:不管你用哪种方法,机制检验的表格一定要和基准回归格式保持一致,控制变量和固定效应都不要变,这样结果才有可比性。

:第六步:写内生性处理结果

做实证研究绕不开内生性问题,如果你投核心期刊,内生性是必须处理的,哪怕是本科毕业论文,主动处理内生性也会让你的论文加分很多。

:操作步骤:

常见的内生性来源有三个:遗漏变量、反向因果、测量误差,最常用的解决方法是工具变量法,写作的时候:

1. 先说明你为什么要处理内生性:比如“上述基准回归结果可能存在内生性问题:一方面,创新能力更强的企业本身就更有资金和能力开展数字化转型,存在反向因果问题;另一方面,尽管我们控制了一系列企业层面特征和固定效应,仍然可能存在不可观测的遗漏变量影响回归结果,因此本文采用工具变量法缓解内生性问题”。

2. 然后说明你的工具变量是什么,为什么符合工具变量的要求:比如“本文参考现有文献的做法,采用企业所在城市的互联网宽带用户数作为数字化转型的工具变量,该变量满足相关性:宽带用户数越多说明当地数字基础设施越好,越有利于企业开展数字化转型,满足相关性;同时城市层面的宽带用户数不会直接影响单个企业的创新产出,满足外生性要求”。

3. 然后放结果说结论:比如“工具变量法的回归结果如表7所示,第一阶段回归中,工具变量的系数在1%水平上显著为正,F值大于10,排除了弱工具变量问题;第二阶段回归中,数字化转型的系数仍然在1%水平上显著为正,说明在缓解内生性问题之后,本文的核心结论仍然成立”。

如果你的数据没有办法找工具变量,也可以用固定效应+滞后核心解释变量的方法,把核心解释变量滞后1-3期再回归,写作的时候说“本文将核心解释变量滞后三期回归,缓解反向因果问题,结果依然稳健”,也是可以接受的。

:第七步:写稳健性检验结果

稳健性检验的目的就是告诉读者:我的结论不是偶然得到的,不管你怎么换方法、换变量、换样本,我的结论都成立,这样结论的可信度就大大提高了。

:操作步骤:

常见的稳健性检验有5种,你做个2-3种就够了,写作都非常简单:

1. 替换核心变量:换一个衡量被解释变量或者核心解释变量的指标,再跑一次回归:比如“本文替换被解释变量,用专利申请总数衡量企业创新,重新回归,结果如表8列(1)所示,核心解释变量的系数仍然显著为正,结论不变”。

2. 更换模型方法:如果你原来用的是固定效应,换成混合OLS或者随机效应再做一次:比如“本文更换回归模型,采用随机效应模型重新估计,核心结论没有发生变化”。

3. 剔除特殊样本:比如剔除直辖市的样本,剔除ST企业,剔除缺失严重的年份:比如“本文剔除2020年及之后新冠疫情期间的样本,重新回归,结果仍然稳健,说明结论不受新冠疫情冲击的影响”。

4. 更换标准误聚类层级:原来聚类到企业层面,换成聚类到行业或者省份层面:比如“本文将标准误聚类到省份层面重新估计,核心系数的显著性没有变化,结论仍然成立”。

5. placebo检验(安慰剂检验):如果是DID模型,或者工具变量模型,可以做安慰剂检验,随机分配核心解释变量再回归,看系数是不是还显著:比如“本文通过1000次随机分配核心解释变量进行安慰剂检验,随机回归得到的系数均值接近0,和基准回归的系数有显著差异,说明本文的基准结果不是偶然得到的,结论稳健”。

写作的时候,你只要把每种检验的做法说清楚,然后说“核心结论仍然成立”就可以了,不用太复杂,把结果放在表格里就行。

三、8个最常见的写作误区,一定要避开

我们整理了学生写回归分析结果最常踩的8个坑,你可以对照检查自己有没有中招:

2. ❌ 星标标注错误:不同显著性水平的星标要标注清楚,一般p<0.1, p<0.05, p<0.01,一定要在表格下方注明,星标标错了会让审稿人觉得你不认真。

3. ❌ 不报告关键统计量:漏了R²、样本量、固定效应控制情况,这些是判断模型好坏的关键信息,一定要放在表格里。

4. ❌ 过度解释不显著的结果:核心变量不显著的时候,不要硬洗,如实报告,分析原因,反而会让审稿人觉得你客观。

5. ❌ 因果颠倒表述:相关性阶段就说“证明了X影响Y”,一定要记住,只有基准回归+内生性处理之后,才能说结论支持因果假设。

6. ❌ 结果和理论脱节:所有回归结果出来之后,都要对应你之前提出的理论假设,不能放完结果就不管了,一定要说结果和你的假设是不是一致,为什么一致。

7. ❌ 结果重复表述:把表格里的系数一字不差抄到文字里,完全没必要,文字是解释结果的含义,不是抄表格,只要说核心系数的显著性和符号,解释经济意义就可以了。

8. ❌ 稳健性检验乱做:不管做什么稳健性,都不说为什么做,只是堆结果,你做的每一个检验都是为了打消某一种疑虑,要简单说一下你为什么做这个检验,比如“为了避免核心变量测量误差影响结果,本文替换核心解释变量重新回归”。

四、最后:给新手的快速 checklist

写完之后,你可以按照这个清单检查一遍,所有点都做到了,就是一篇合格的回归分析结果:

✅ 描述性统计有观测数,说明了数据处理过程

✅ 相关性分析说了共线性情况,没有把相关性当因果

✅ 基准报告说了核心系数的显著性、符号、经济含义,对应了研究假设

✅ 异质性分析有理论依据,解释了差异的原因

✅ 内生性处理说明了内生性来源,工具变量说了外生性和合理性

✅ 稳健性检验做了至少2种,核心结论没有变化

✅ 所有结果都整理成三线表,标注清楚显著性和标准误,有样本量和R²

✅ 避开了上面说的8个常见误区

其实写回归分析结果一点都不难,核心就是逻辑清晰,从浅到深,如实报告,该说的说到,不该凑的字数不凑,按照上面的步骤一步步来,哪怕是第一次写实证论文,也能轻松搞定。