Dify实现基于多模态模型的发票识别

内容分享5小时前发布

报销季一到，成摞的纸质与电子发票总能把财务拖进“手工地狱”：版式五花八门、抬头税号易错、重复报销难排查。好消息是，借助 Dify 的低门槛工作流与多模态大模型能力（看图读表、识别章码与二维码），可以快速实现更高效、更精准的发票识别。告别人工繁琐录入，Dify 可快速识别各种类型发票，并提取关键信息，助力企业财务管理自动化，提升工作效率。

1. 环境准备

已搭建并配置dify服务
安装并配置硅基流动api key
准备至少一张发票（测试数据）

2.WorkFlow展示

Dify实现基于多模态模型的发票识别

用户上传预先准备好的发票文件，等待多模态大模型的识别结果即可，这里选用的大模型需要支持Vision，且Dify的大模型视觉功能需要手动开启。

3.搭建WorkFlow

3.1 配置开始节点

Dify实现基于多模态模型的发票识别

在开始节点添加一个单文件类型的字段，用于接受用户上传的发票，出于兼容性思考要同时支持pdf或图片。

3.2 配置大模型节点

Dify实现基于多模态模型的发票识别

选择一个支持Vision的大模型，来识别图片或pdf的信息，列如Qwen-2.5vl或者GLM-41v，这里需要手动开启视觉功能，否则无法识别图片或pdf中的图片。

3.3 直接回复

Dify实现基于多模态模型的发票识别

直接将大模型识别的的信息展示给用户，数据格式在大模型节点已经做Markdown格式的JSON数据输出限制。

4. 测试WorkFlow

测试数据：

Dify实现基于多模态模型的发票识别

识别结果：

Dify实现基于多模态模型的发票识别

可以看到，多模态大模型准确提取到了发票的发票类型、发票号码、开票日期”、购买方信息、销售方信息、项目明细等所有信息。

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

聊聊usbcan怎么用这个问题

聊聊usbcan怎么用这个问题

1周前

000

科普！人工智能术语AGI、AIGC、Deepseek、ChatGPT都是什么意思？

新科普！人工智能术语AGI、AIGC、Deepseek、ChatGPT都是什么意思？

2小时前

000

开源向量检索实战：用FAISS+Python构建本地智能搜索引擎

新开源向量检索实战：用FAISS+Python构建本地智能搜索引擎

5天前

100

UWP开发入门（十七）–判断设备类型及响应VirtualKey

新UWP开发入门（十七）–判断设备类型及响应VirtualKey

3天前

010

4 条评论

电影读者

唉，我用coze也能实现，而且我还把采集的信息保存到飞书多维表格里了

13小时前无记录

回复
雪加读者

视觉模型最难的是每次识别结构不统一的问题

13小时前无记录

回复
辽宁读者

invoice NO

13小时前无记录

回复
杨正东读者

收藏了，感谢分享

13小时前无记录

回复