首页
>审计动态>审计天地
浅谈文本类数据处理
发布日期:2024-10-22 14:52 访问次数: 信息来源:威海市审计局 字号:[ ]


文本类数据是各类审计项目中最为常见的数据类型,一般包含excel、数据库等结构化数据和word、pdf等非结构化数据,本次要谈的主要是从文本类数据处理角度提升审计质效。

结构化文本数据具有明确的字段和属性,数据结构较为规范、清晰,具备较高的可读性和可操作性,便于数据分析,而数据质量对数据分析结果影响较大,校验、清洗等前期数据处理环节不可或缺,可通过SQL语句对各类结构化数据进行校验、清洗、修正,如涉及证件号码则可通过trim函数处理元素前后空格并用len函数校验长度,涉及公司名称、日期可使用replace等函数将格式统一以便不同表间关联。充分校验数据真实性、准确性和完整性,提升数据质量,保障数据分析结果的可靠性,提高审计准确性。

非结构化文本数据缺少固定结构,可操作性较弱,直接分析难度较高,可基于python的文本处理技术,根据需求将非结构化文本数据提取、转化为结构化文本数据,使数据便于直接分析,同时降低大量文档阅读的难度和时间成本。通过os、os.path、re、docx、pdfplumber等库生成非结构化文本类型数据分析代码,os、os.path库用于遍历文件信息,re库用于生成正则表达式结合docx或pdfplumber库提取word或pdf文件指定信息,如在乡村建设专项审计调查中,依托此类代码遍历、解析1161个厕所改造维修台账,提取村名、维修时间、维修地点、维修内容等关键信息,为分析改厕后续管护情况提供支撑,提升审计效率。杨雨昂










打印本页 关闭窗口