



加强数字政府建设已成为创新政府治理理念和方式、形成数字治理新格局、推进国家治理体系和治理能力现代化的重要举措,对于加快转变政府职能,建设法治政府、廉洁政府和服务型政府意义重大。如何衡量数字政府建设程度?传统词典法能数出“数字化”相关表述出现了几次,却难以区分不同推进程度之间的差异。因此,需要采取更科学、合理的方式衡量数字政府建设水平,以揭示其在推动治理创新等方面的具体路径与积极成效。
本刊最新发表的论文《数字政府建设何以赋能企业全要素生产率——基于生成式人工智能的证据》用一套“词典筛选+大语言模型打分”的创新方案,将难以量化的政府数字化建设水平转化为可用于计量分析的指标,这对从事文本量化研究的学者具有一定参考价值。
一、为什么不能只用词典法?
过去,经济学者常用“词典法”处理文本数据:预先整理一张关键词表,然后在文本中数这些词出现的次数,词频越高视为程度越深。这套方法简单粗暴,但问题也显而易见:
● 识别不了语义深度:“我们研究推进智慧城市建设”与“我们已全面完成智慧城市建设”的词频相差无几,含义天差地别。
● 无法理解上下文:同一个词在不同语境下意图迥异,词典法对此束手无策。
● 忽视执行潜力:“表态支持”和“成效显著”在遣词上可能只有细微差别,词频统计无能为力。
论文作者们指出,词典法“仅做简单词汇提取,忽略了语句中传递的深层意图与执行潜力”。这也是他们引入生成式人工智能的根本动因。

二、解决方案:
词典“预筛” + LLM“精评”两步走
第一步:构建双词典,精准圈定相关语句
作者团队构建了两套词典:
● “数字化”词典:覆盖APP、区块链、云服务、物联网、智慧、数据、智能、移动端等数字技术相关词汇。
● “政务行为”词典:覆盖审批、政务、监管、放管服、协同、平台、治理、服务等政府行为相关词汇。
筛选逻辑:在地级市政府工作报告中,只保留同时包含两个词典中至少各一个词的句子,剔除其他与数字政府建设无关的语句。这一步解决的是“信噪比”问题——大量无关内容被直接过滤,确保喂给大模型的每一句话都是“有效信息”。
对研究者的启示
词典法并不过时,它的价值在于高效预处理、降低大模型的分析成本。将词典法定位为“粗筛工具”而非“最终量化工具”,是一种务实且高效的组合策略。
第二步:设计Prompt,让LLM充当“专业评审”
这是整个方法论的核心创新。作者将大语言模型的角色定义为LLM-as-a-Judge(大模型作为评审者)。System Prompt直接引用《国务院关于加强数字政府建设的指导意见》首段原文作为评分参照,并给定1—5分的李克特量表。
分值 | 含义 |
1 | 尚未表现 |
2 | 表态阶段 |
3 | 初步执行 |
4 | 持续推进 |
5 | 成效显著 |
输出格式要求极为简洁,仅让大模型输出1—5中的单个数字。通过这种方式,大模型被赋予一个具体的、有参照标准的评判任务,其输出不再是模糊的文字,而是可直接纳入计量分析的数值评分。

三、关键工程细节:重复5次调用,取均值
即便将采样温度设为0(最大确定性),大语言模型的输出仍存在细微随机性。为此,作者对每个“城市—年度”独立重复调用API 5次,将5次输出的均值作为最终得分,同时以改变聚合口径(众数、最高值)等方法作为稳健性检验。
对研究者的启示
“重复调用取均值”是降低随机误差的标准操作,建议至少重复3—5次。此外,锁定模型版本是保证研究可复现性的必要条件。

四、为什么选择DeepSeek,而不是GPT?
论文给出了三个层次的理由:
1. 语言适配性:DeepSeek在中文语境任务中表现出一定的优势,对政府工作报告这类政策文本的语义把握更精准。
2. 性能优势:DeepSeek-V3拥有671B参数的混合专家(MoE)架构,能更好地捕捉文本中的非线性高维语义信息,远超传统BERT(参数不足0.5B)等“小”模型。
3. 开源可复现:DeepSeek系列基于MIT许可证完全开源,权重开源后即锁定。在指定模型版本、固定提示词和参数条件下,可以实现结果的稳定复现。
相比之下,GPT等模型会因API版本迭代影响研究可复现性,这在学术研究中是致命硬伤。

五、这套方法能用在哪些研究场景?
这一方法论框架具有相当强的通用性,适用于需要对大规模政策文本、企业文件或新闻语料进行“有标准的量化评级”的研究场景。
应用场景 | System Prompt参照标准 | User Prompt输入 |
企业ESG信息披露质量 | ESG披露国际标准/政策文件 | 年报ESG相关段落 |
地方营商环境评估 | 世界银行营商环境指标 | 政府工作报告 |
企业战略激进程度 | 行业最优实践描述 | 管理层讨论与分析 |
政策文件执行力度 | 中央政策文件原文 | 地方配套文件 |
金融监管合规分析 | 监管法规关键条款 | 合规报告/年报 |

六、操作指南:手把手告诉你怎么做
如果你想在自己的研究中复用这套方法,以下是可操作的步骤清单:
1. 准备词典
构建覆盖研究主题的关键词表,分为“主题词典”和“行为词典”两类,通过交集筛选定位有效语句。
2. 预处理文本
以句号切分原文,过滤掉不包含有效词汇的句子,控制每次提交给模型的文本长度。
3. 设计System Prompt
引用权威标准文件作为评分参照;设计清晰的李克特量表(通常3—5档);明确输出格式,避免模型“发散”。
4. 质量检验
多次调用API,评估模型稳定性;对不同模型版本进行交叉验证。
5. 锁定版本,存档提示词
在论文方法部分完整报告模型版本号、System Prompt全文和参数设置,以便他人复现。

结语
大语言模型正在深刻改变经济学研究的文本分析范式。《数字政府建设何以赋能企业全要素生产率——基于生成式人工智能的证据》提供的不仅是一个关于数字政府与企业生产率的实证发现,更是一套“词典预筛+ LLM精评”的可操作模板。
工具本身不是目的,清晰的研究问题与严谨的方法设计才是根本。但在这个前提下,会用大语言模型的研究者,确实能够触及此前无法触及的数据领域。

论文信息
张希羚、于昊平、徐龙炳、卞子咏:《数字政府建设何以赋能企业全要素生产率——基于生成式人工智能的证据》,《财经研究》2026年第2期,第94—108页。
《财经研究》创刊于1956年,是上海财经大学主办、面向国内外公开发行的综合性经济类理论刊物。《财经研究》为高校经济学龙头期刊,是全国高等学校文科学报研究会财经高校联络中心的主任单位,入选国家新闻出版广电总局“百强报刊”和中宣部国家社科基金资助期刊,成为“教育部经济学专业期刊示范基地”并进入教育部名栏。
《财经研究》是国内三大核心期刊检索“中文社会科学引文索引(CSSCI)”(南京大学)、“中文核心期刊要目总览”(北京大学)和“中国人文社会科学核心期刊要览”(中国社会科学院)的入选期刊。《财经研究》设有公共经济与管理、金融研究、财务与会计研究、经济史·经济思想史研究、区域经济研究、产业经济研究、国际经济研究等栏目。

关于我们
