威海市审计局审计天地浅谈文本类数据处理

浅谈文本类数据处理

发布日期：2024-10-22 14:52

访问次数:

信息来源：威海市审计局

字号：[ 大中小 ]

文本类数据是各类审计项目中最为常见的数据类型，一般包含excel、数据库等结构化数据和word、pdf等非结构化数据，本次要谈的主要是从文本类数据处理角度提升审计质效。

结构化文本数据具有明确的字段和属性，数据结构较为规范、清晰，具备较高的可读性和可操作性，便于数据分析，而数据质量对数据分析结果影响较大，校验、清洗等前期数据处理环节不可或缺，可通过SQL语句对各类结构化数据进行校验、清洗、修正，如涉及证件号码则可通过trim函数处理元素前后空格并用len函数校验长度，涉及公司名称、日期可使用replace等函数将格式统一以便不同表间关联。充分校验数据真实性、准确性和完整性，提升数据质量，保障数据分析结果的可靠性，提高审计准确性。

非结构化文本数据缺少固定结构，可操作性较弱，直接分析难度较高，可基于python的文本处理技术，根据需求将非结构化文本数据提取、转化为结构化文本数据，使数据便于直接分析，同时降低大量文档阅读的难度和时间成本。通过os、os.path、re、docx、pdfplumber等库生成非结构化文本类型数据分析代码，os、os.path库用于遍历文件信息，re库用于生成正则表达式结合docx或pdfplumber库提取word或pdf文件指定信息，如在乡村建设专项审计调查中，依托此类代码遍历、解析1161个厕所改造维修台账，提取村名、维修时间、维修地点、维修内容等关键信息，为分析改厕后续管护情况提供支撑，提升审计效率。杨雨昂

打印本页关闭窗口