随着8月中下旬中报披露高峰期的到来,众多上市公司公布了其2024年上半年度的财务业绩,海量的财报文件涌现,给金融行业从业者带来了巨大的工作挑战。面对海量的数据报告,部分前瞻性的企业和个人开始探索利用大模型进行财务报表分析,以提升效率与精准度。然而,大模型在初始阶段常遭遇数据读取错误、版面理解不足等难题,限制了其分析能力的充分发挥。
为助力大模型更好地“理解”财报,合合信息大模型“加速器”方案对PDF文档解析技术进行了深度优化与升级,通过将非结构化的PDF内容转化为结构化数据,极大提升了大模型在图表类数据提取及版面理解方面的准确性,实现了从“泛读”到“精读”的质的飞跃。
PDF作为财报的主要载体,其复杂多变的版面布局往往成为大模型解析的拦路虎,合合信息PDF文档解析技术,能够实现将PDF、图片等多种格式的财报文件转换为Markdown或JSON格式,以一种更易于大模型处理的方式呈现,有效降低了文档识别失败率,提升了复杂版面下的解析精度。特别是针对财报中常见的无线表、合并单元格、不规则行距等复杂元素,该技术展现出强大的版面分析和元素识别能力,确保了大模型在提取细节信息时的准确无误,避免了回答错误、段落语义划分错误及总结性偏差等问题。
同时,该技术还具备模拟人类阅读顺序的能力,能够依据PDF文档的布局和格式,智能判断阅读顺序,推断出人类阅读时的顺序,而非机械地判定为从左至右排序,避免把完整的段落文字“拦腰斩断”,真正做到了“所见即所得”。
据合合信息技术团队成员介绍,上市公司年报页数大多集中在200至300页的范围内,一个熟练的分析师可能在几天到一周的时间内完成对年报的基本分析,PDF文档解析工具最快能在1.5秒完成百页文档的解析,按8小时为一天工作时间计算,解析工具可帮助大模型在一日内对数千家企业的年报数据进行精准分析。在数字化、无纸化办公趋势日益明显的今天,这一技术的应用前景无疑更加广阔,有望为更多领域的文档处理与分析带来革命性的变革。