选这个题主要是因为现在财务造假的事儿时不时就冒出来,传统审计方法有点跟不上趟了。大数据不是火嘛,就琢磨能不能用这新工具来当个“侦探”,看看它到底能不能更早、更准地揪出问题,顺便想想怎么从根儿上防。
我先去翻了最近五年A股市场上那些被*正式处罚了的财务舞弊公司,总共挑了120家当“坏样本”。然后又按行业和规模差不多,选了240家没出过事的公司当“好样本”。数据主要从CSMAR数据库和公开财报里扒,整理了三年的财务数据,还加了一些非财务指标,像股权结构、管理层背景、审计意见这些。
具体怎么干呢?第一步,特征工程。我把可能相关的指标都过了一遍,比如毛利率异常波动、应收账款周转率突然下降、经营现金流和净利润长期对不上、其他应收款占比畸高、管理层频繁变动、审计费用异常增加等等,初步筛了三十多个特征变量。第二步,建模。用了三种机器学习算法来对比:逻辑回归、随机森林和XGBoost。把样本数据分成训练集和测试集,用训练集去教模型,再用测试集看看它学得怎么样。第三步,结果。发现随机森林和XGBoost这类集成学习模型确实厉害,预测准确率能到89%以上,比传统的逻辑回归模型(大概82%)强不少。特别是,模型识别出了一些关键红灯信号:比如“销售毛利率增长但经营现金流净额持续为负”、“应收账款增长幅度远超营业收入增幅”、“董事、监事、高管年内集中减持”这几个组合特征,出现的时候公司出问题的概率特别高。
基于这个结果,防范策略那块我就聚焦在怎么用活大数据上。一是企业自己得建个“财务健康监测系统”,不是代替审计,而是当个实时警报器,把上面那些关键风险指标做成仪表盘,一旦有指标连续异常就自动预警,内部审计和风控部门马上跟进。二是外部审计师可以引入这种分析模型作为辅助工具,在制定审计计划时,快速扫描客户海量数据,精准定位高风险领域,把审计资源用在刀刃上。三是监管层可以考虑搭建一个行业级的风险数据共享与分析平台,把企业报的数、舆情信息、供应链数据甚至水电数据这些跨领域信息融合起来,用监管科技(RegTech)模型进行扫描,提高监管的主动性和覆盖面。
研究过程中也碰到些坎儿,比如非结构化数据(像舆情文本)处理起来挺麻烦,模型虽然准但有点像“黑箱”,怎么把它的判断说得让人明白也是个问题。再有就是数据可得性和质量,有些关键信息企业不一定披露。但这方向应该是对的,把大数据分析和传统财务知识结合,相当于给企业体检多了个“CT机”,看得更深更早。关键是把工具用好,还得配着公司治理、内部控制这些老办法一起使劲,防假的效果才能扎实。