报销季一到,成摞的纸质与电子发票总能把财务拖进“手工地狱”:版式五花八门、抬头税号易错、重复报销难排查。好消息是,借助 Dify 的低门槛工作流与多模态大模型能力(看图读表、识别章码与二维码),可以快速实现更高效、更精准的发票识别。 告别人工繁琐录入,Dify 可快速识别各种类型发票,并提取关键信息,助力企业财务管理自动化,提升工作效率。
1. 环境准备
- 已搭建并配置dify服务
- 安装并配置硅基流动api key
- 准备至少一张发票(测试数据)
2.WorkFlow展示

用户上传预先准备好的发票文件,等待多模态大模型的识别结果即可,这里选用的大模型需要支持Vision,且Dify的大模型视觉功能需要手动开启。
3.搭建WorkFlow
3.1 配置开始节点

在开始节点添加一个单文件类型的字段,用于接受用户上传的发票,出于兼容性思考要同时支持pdf或图片。
3.2 配置大模型节点

选择一个支持Vision的大模型,来识别图片或pdf的信息,列如Qwen-2.5vl或者GLM-41v,这里需要手动开启视觉功能,否则无法识别图片或pdf中的图片。
3.3 直接回复

直接将大模型识别的的信息展示给用户,数据格式在大模型节点已经做Markdown格式的JSON数据输出限制。
4. 测试WorkFlow
测试数据:

识别结果:

可以看到,多模态大模型准确提取到了发票的发票类型、发票号码、开票日期”、购买方信息、销售方信息、项目明细等所有信息。
© 版权声明
文章版权归作者所有,未经允许请勿转载。





唉,我用coze也能实现,而且我还把采集的信息保存到飞书多维表格里了
视觉模型最难的是每次识别结构不统一的问题
invoice NO
收藏了,感谢分享