- Document AI 将非结构化内容转化为结构化数据,使其更易于理解、分析和使用。
- Document AI 处理器是文档文件与机器学习模型之间的接口,该模型专为文档相关的任务而设计。
Google Docs AI 是一款强大的工具,可帮助您轻松创建、编辑和协作处理文档。通过使用内置的人工智能,用户可以利用自动语法和拼写检查、智能建议和语音输入等功能。
什么是 Document AI
Document AI 将非结构化内容转化为结构化数据,使其更易于理解、分析和使用。它从非结构化文档中提取和分类信息。
它是一个端到端的云端文档处理平台。
除了读取和摄取用户文档外,它还能理解文档的空间结构。例如,如果有人通过解析器运行客户反馈表(问答类型),Document AI 会识别出反馈表中有问题和答案,并将它们作为键值对返回。由于这些数据是结构化的且以键值对形式提供,它变得更加有用。例如:用户可以通过这些数据运行快速分析,了解客户反馈中的情绪。他们可以通过调用 API 轻松地将输出整合到自己的应用程序中。
另请阅读:Autify 推出 Zenes,一款用于软件质量保证的 AI 代理
另请阅读:Google Play 在 deepfake 裸照丑闻中收紧 AI 应用规则
Document AI 处理器的功能
Document AI 处理器是文档文件与机器学习模型之间的接口,该模型专为文档相关的任务而设计。以下是 Document AI 处理器的功能:
- OCR:文档 OCR 可用于识别和提取不同类型文档中的文本。
- 表单解析:表单解析器可用于提取表单元素,如文本和复选框。
- 质量分析:文档质量处理器可用于智能化的文档质量处理。
- 拆分:文档拆分器可用于识别文档边界,以便拆分大型文件。
- 分类:例如,贷款文档拆分器/分类器可用于识别大型文件中的文档,并对已知的贷款文档类型进行分类。
- 实体提取:例如,发票解析器可用于从发票中提取 30 多个字段:ID、金额、行项目等。
评估处理器性能
Document AI 会生成评估指标,如精确率和召回率,以帮助用户确定其处理器的预测性能。
这些评估指标是通过将处理器返回的实体(预测结果)与测试文档中的标注进行比较而生成的。
如果处理器没有测试集,则必须首先创建数据集并标注测试文档。
每次训练或更新处理器版本时,都会自动运行评估。
用户也可以手动运行评估。当您修改测试集后,或者正在评估预训练处理器版本时,需要这样做以生成更新的指标。
这里需要注意的一点是,如果处理器版本无法提取某个标签(例如,在训练时该标签被禁用),或者测试集中不包含该标签的标注,Document AI 不会也无法计算该标签的评估指标。这些标签不会被纳入汇总指标中。

