乐趣区

关于人工智能:使用生成式-AI-增强亚马逊云科技智能文档处理

数据分类、提取和剖析对于解决大量文档的组织来说可能具备挑战性。传统的文档解决解决方案是手动的、低廉的、容易出错的, 并且难以扩大。利用 Amazon Textract 等 AI 服务, 亚马逊云科技智能文档解决 (IDP) 容许您利用业界当先的机器学习 (ML) 技术来疾速精确地解决任何扫描文档或图像中的数据。生成式人工智能 (生成式 AI) 补充了 Amazon Textract, 以进一步自动化文档解决工作流程。诸如标准化关键字段和汇总输出数据等性能反对更快地治理文档流程工作流程, 同时缩小谬误的可能性。

亚马逊云科技开发者社区为开发者们提供寰球的开发技术资源。这里有技术文档、开发案例、技术专栏、培训视频、流动与比赛等。帮忙中国开发者对接世界最前沿技术,观点,和我的项目,并将中国优良开发者或技术举荐给寰球云社区。如果你还没有关注 / 珍藏,看到这里请肯定不要匆匆划过,点这里让它成为你的技术宝库!

生成式 AI 由称为根底模型 (FMs) 的大型 ML 模型驱动。FMs 正在扭转您能够解决传统上简单文档解决工作负载的形式。除了现有的性能之外, 企业须要汇总来自诸如财务报告和银行对账单等文档的特定类别的信息。FMs 使从提取的数据中生成此类见解变得更加容易。为了优化人工审核所破费的工夫并进步员工的工作效率, 能够以自动化的形式标记诸如电话号码中短少数字, 短少文档或地址中短少门牌号等谬误。在以后场景中, 您须要投入资源通过人工审核和简单的脚本来实现这些工作。这种办法既乏味又低廉。FMs 能够帮忙以更快的速度、更少的资源实现这些工作, 并将不同的输出格局转换为能够进一步解决的规范模板。在亚马逊云科技, 咱们提供诸如 Amazon Bedrock 等服务, 这是应用 FMs 构建和扩大生成式 AI 应用程序的最简略办法。Amazon Bedrock 是一个齐全托管的服务, 通过 API 提供来自当先的 AI 守业公司和 Amazon FMs, 以便您能够找到最适宜您要求的模型。咱们还提供 Amazon SageMaker JumpStart, 它容许 ML 从业人员从宽泛的开源 FMs 中进行抉择。ML 从业人员能够将 FMs 部署到专用 Amazon SageMaker 实例中从一个网络隔离的环境中, 并应用 SageMaker 定制模型进行模型训练和部署。

Ricoh 提供旨在帮忙客户治理和优化业务信息流的工作场合解决方案和数字化转型服务。产品组合解决方案开发副总裁 Ashok Shenoy 说:“咱们正在将生成式 AI 增加到咱们的 IDP 解决方案中, 以帮忙客户利用诸如问答、汇总和标准化输入等新性能更快、更精确地实现工作。亚马逊云科技容许咱们在放弃每个客户的数据拆散和平安的同时利用生成式 AI。”

在本文中, 咱们将分享如何应用生成式 AI 加强亚马逊云科技上的 IDP 解决方案。

改良 IDP 流程

在本节中, 咱们将回顾如何通过 FMs 加强传统的 IDP 流程, 并通过 Amazon Textract 与 FMs 的示例用例进行演练。

Amazon IDP 由三个阶段组成: 分类、提取和裁减。无关每个阶段的更多详细信息, 请参阅应用亚马逊云科技 AI 服务进行智能文档解决: 第 1 局部和第 2 局部。在分类阶段,FMs 当初能够在没有任何额定训练的状况下对文档进行分类。这意味着即便模型之前没有见过相似的示例, 也能够对文档进行分类。提取阶段的 FMs 能够标准化日期字段、验证地址和电话号码, 同时确保统一的格局。丰盛阶段的 FMs 容许推理、逻辑推理和总结。当您在每个 IDP 阶段应用 FMs 时, 您的工作流程将更加晦涩, 性能也会失去改良。下图阐明了具备生成式 AI 的 IDP 流程。

IDP 流程的提取阶段

当 FMs 无奈间接以原生格局 (如 PDF、img、jpeg 和 tiff) 作为输出来解决文档时, 须要一种机制将文档转换为文本。为了从文档中提取文本而后将其发送到 FMs 进行进一步解决, 您能够应用 Amazon Textract。应用 Amazon Textract, 您能够提取行和单词, 并将它们传递给上游的 FMs。以下架构应用 Amazon Textract 从任何类型的文档中精确提取文本, 而后将其发送到 FMs 进行进一步解决。

通常, 文档蕴含结构化和半结构化信息。Amazon Textract 可用于从表格和表单中提取原始文本和数据。表格和表单中的数据关系在自动化业务过程方面施展着至关重要的作用。某些类型的信息可能无奈由 FMs 间接解决。因而, 咱们能够抉择将此信息存储在上游存储中或将其发送到 FMs。下图是一个例子, 展现了 Amazon Textract 如何从文档中提取结构化和半结构化信息, 以及须要由 FMs 解决的文本行。

应用亚马逊云科技无服务器服务利用 FMs 进行总结

咱们后面演示的 IDP 流程能够应用亚马逊云科技无服务器服务无缝自动化。大型企业中存在高度非结构化的文档。这些文档可能逾越从银行业的证券交易委员会 (SEC) 文件到医疗保险行业的保障文件等多个行业。随着亚马逊云科技上生成式 AI 的倒退, 这些行业的人们正在寻找以自动化和经济高效的形式从这些文档中获取摘要的办法。无服务器服务提供了一种疾速构建 IDP 解决方案的机制。诸如 Amazon Lambda、Amazon Step Functions 和 Amazon EventBridge 等服务能够帮忙构建与 FMs 集成的文档解决流程, 如下图所示。

上述架构中应用的示例应用程序是事件驱动的。事件 被定义为最近产生的状态变动。例如, 当对象被上传到 Amazon Simple Storage Service (Amazon S3) 存储桶时,Amazon S3 会收回对象创立事件。来自 Amazon S3 的此事件告诉能够触发 Lambda 函数或 Step Functions 工作流程。这种类型的架构称为事件驱动架构。在本文中, 咱们的示例应用程序应用 事件驱动架构 来解决示例病人入院小结, 并总结文档的详细信息。工作流程如下:

  1. 当文档上传到 S3 存储桶时,Amazon S3 会触发对象创立事件。
  2. EventBridge 默认事件总线依据 EventBridge 规定将事件流传到 Step Functions。
  3. 状态机工作流程开始解决文档, 从 Amazon Textract 开始。
  4. Lambda 函数转换通过剖析的数据以用于下一步。
  5. 状态机调用托管 FM 的 SageMaker endpoint, 通过间接的 Amazon SDK 集成。
  6. 摘要 S3 指标存储桶接管从 FM 收集的摘要响应。

咱们应用示例应用程序及 flan-t5 Hugging face 模型来总结以下应用 Step Functions 工作流程的示例病人入院小结。

Step Functions 工作流程应用 Amazon SDK 集成调用 Amazon Textract AnalyzeDocument 和 SageMaker 运行时 InvokeEndpoint API, 如下图所示。

此工作流程生成存储在指标存储桶中的摘要 JSON 对象。JSON 对象如下所示:

{
  "summary": ["John Doe is a 35-year old male who has been experiencing stomach problems for two months. He has been taking antibiotics for the last two weeks, but has not been able to eat much. He has been experiencing a lot of abdominal pain, bloating, and fatigue. He has also noticed a change in his stool color, which is now darker. He has been taking antacids for the last two weeks, but they no longer help. He has been experiencing a lot of fatigue, and has been unable to work for the last two weeks. He has also been experiencing a lot of abdominal pain, bloating, and fatigue. He has been taking antacids for the last two weeks, but they no longer help. He has been experiencing a lot of abdominal pain, bloating, and fatigue. He has been taking antacids for the last two weeks, but they no longer help. He has been experiencing a lot of abdominal pain, bloating, and fatigue. He has been taking antacids for the last two weeks, but they no longer help. He has been experiencing a lot of abdominal pain, bloating, and fatigue. He has been taking antacids for the last two weeks, but they no longer help."],
  "forms": [
    {
      "key": "Ph:",
      "value": "(888)-(999)-(0000)"
    },
    {
      "key": "Fax:",
      "value": "(888)-(999)-(1111)"
    },
    {
      "key": "Patient Name:",
      "value": "John Doe"
    },
    {
      "key": "Patient ID:",
      "value": "NARH-36640"
    },
    {
      "key": "Gender:",
      "value": "Male"
    },
    {
      "key": "Attending Physician:",
      "value": "Mateo Jackson, PhD"
    },
    {
      "key": "Admit Date:",
      "value": "07-Sep-2020"
    },
    {
      "key": "Discharge Date:",
      "value": "08-Sep-2020"
    },
    {
      "key": "Discharge Disposition:",
      "value": "Home with Support Services"
    },
    {
      "key": "Pre-existing / Developed Conditions Impacting Hospital Stay:",
      "value": "35 yo M c/o stomach problems since 2 months. Patient reports epigastric abdominal pain non- radiating. Pain is described as gnawing and burning, intermittent lasting 1-2 hours, and gotten progressively worse. Antacids used to alleviate pain but not anymore; nothing exacerbates pain. Pain unrelated to daytime or to meals. Patient denies constipation or diarrhea. Patient denies blood in stool but have noticed them darker. Patient also reports nausea. Denies recent illness or fever. He also reports fatigue for 2 weeks and bloating after eating. ROS: Negative except for above findings Meds: Motrin once/week. Tums previously. PMHx: Back pain and muscle spasms. No Hx of surgery. NKDA. FHx: Uncle has a bleeding ulcer. Social Hx: Smokes since 15 yo, 1/2-1 PPD. No recent EtOH use. Denies illicit drug use. Works on high elevation construction. Fast food diet. Exercises 3-4 times/week but stopped 2 weeks ago."
    },
    {
      "key": "Summary:",
      "value": "some activity restrictions suggested, full course of antibiotics, check back with physican in case of relapse, strict diet"
    }
  ]
 }

应用 IDP 与无服务器实现在大规模上生成这些摘要, 能够以高效的形式为组织提供有意义、简洁和可出现的数据。Step Functions 不限于一次解决一个文档的形式来解决文档。它的分布式映射性能能够按计划总结大量文档。

示例应用程序应用 flan-t5 Hugging face 模型; 然而, 您能够抉择本人的 FM endpoint。模型的训练和运行超出了示例应用程序的范畴。请遵循 GitHub 仓库中的阐明来部署示例应用程序。上述架构提供了如何应用 Step Functions 编排 IDP 工作流的领导。无关应用亚马逊云科技 AI 服务和 FMs 构建应用程序的具体阐明, 请参阅 IDP 生成式 AI Workshop。

设置解决方案

依照 README 中的步骤设置解决方案架构(SageMaker endpoint 除外)。在您领有本人的 SageMaker endpoint 后, 能够将 endpoint 名称作为参数传递给模板。

清理

为了节俭费用, 请删除教程中部署的资源:

  1. 依照 README 中的清理局部的步骤进行操作。
  2. 从 Amazon S3 控制台中删除 S3 存储桶中的任何内容, 而后删除存储桶。
  3. 通过 SageMaker 控制台删除您可能创立的任何 SageMaker endpoint。

论断

生成式 AI 正在扭转您能够如何应用 IDP 来洞察文档。Amazon Textract 等亚马逊云科技 AI 服务以及 Amazon FMs 能够帮忙精确解决任何类型的文档。无关在亚马逊云科技上应用生成式 AI 的更多信息, 请参阅公布在亚马逊云科技上构建生成式 AI 的新工具。

文章起源:https://dev.amazoncloud.cn/column/article/64e5fcaa5cf85603849…

退出移动版