Anterior が Amazon Bedrock と Llama で臨床レビュー時間を 75% 短縮

このコンテンツはいかがでしたか?

Anterior は、医療費支払者 (保険会社) 向けに自動化を構築する臨床医主導の AI 企業で、医療で最も難しいデータ問題の 1 つを解決しようと試みました。それは、数百ページにも及ぶ非構造化記録として届くことが多い臨床文書の識別と構造化です。顧客の Amazon Web Services (AWS) 内での文書識別を強化するために、Amazon Bedrock 上に Meta の Llama モデルを実装した後、Anterior は厳しい医療データガバナンス要件を満たしながら、本稼働グレードのパフォーマンスを実現しました。このアプローチにより、Anterior は完全な文書抽出、メタデータの精度の向上、ダウンストリームの自動化を実現し、手作業による臨床レビューを 75% 削減しました。

医療機関の文書識別の課題への対処

米国の医療管理費は、5 兆 USD 規模の産業のうち、年間 9,500 億 USD を超えています。この負担の多くは、医療プラン内の臨床レビューワークフローによるものです。このワークフローでは、医師や看護師が大量の医療記録を手作業で確認して、治療の承認、補償範囲の検証、患者ケアの管理を行います。Anterior は臨床医主導の AI 企業で、医療提供者と患者が交差する組織である医療費支払者のために、これらのワークフローの自動化に注力しています。

これらのワークフローの中心にあるものは、一見単純そうに聞こえるタスクです。AI が臨床事例について推論する前に、 AI が何を見ているのかを理解する必要があります。文書識別は、すべてのダウンストリームの自動化の前提条件です。Anterior では、受信する各臨床パケットを構成文書に分割し、それぞれの開始点と終了点を特定し、文書タイプ、タイトル、作成者、作成日などの構造化されたメタデータを抽出する必要があります。そうして初めて、MRI レポートを事前の承認レビューの正しいステップにルーティングしたり、臨床医に最新の画像を提供したり、その文書が推奨される治療方針をサポートしていることを確認したりする場合でも、臨床自動化を進めることができます。ただし、臨床パケットは数百ページにも及ぶこともあり、ファックス、スキャンされた PDF、および結合された複数文書ファイルとして届きます。従来の AI や ML のアプローチでは本稼働規模での確実な処理が長い間困難であった方法では、画像、表、形式、さらには手書きのメモを組み合わせることもあります。

これを間違えることの危険性は高くなります。「不完全または不正確な情報に基づいて臨床上の意思決定を行っているため、文書の識別における小さな誤りでも下流に波及する可能性があります」と、Anterior の臨床医科学者である Khadija Mahmoud 医学博士は述べています。文書の境界を誤って特定すると、患者記録の間違った部分から臨床情報が提供され、ページを見落とすとコンプライアンスギャップが生じる可能性があります。本稼働グレードの文書識別に対応できるモデルはすべて、厳格な医療データガバナンス要件を満たす必要もあります。Anterior の大手顧客の多くは、保護対象医療情報 (PHI) に関する LLM 推論を含むすべての AI 処理をすべて自社の AWS 環境内で行うことを求めているため、外部 API やサードパーティのインフラストラクチャは受け入れられません。

臨床自動化のためのスケーラブルなパイプラインの構築

Anterior は、Amazon Bedrock 上で実行されている Meta Llama モデルを利用したドキュメント識別ワークフローを実装しました。このアーキテクチャは、複雑な臨床文書パケットを顧客の AWS 環境内でエンドツーエンドで処理するため、患者データがその境界を離れることはありません。このワークフローは 2 段階のパイプラインとして動作します。第 1 段階では、大規模な臨床用 PDF が光学式文字認識 (OCR) とレイアウト対応解析を使用して処理されます。各ページは、ページ参照と一意の識別子を保持したまま、構造化されたテキスト抽出に変換されます。第 2 段階では、言語モデルがこれらの解析された抽出物を分析して、文書の境界を決定し、文書タイプを分類し、タイトル、作成者、作成日、臨床説明などのメタデータを抽出します。この段階では、Amazon Bedrock 上で Llama モデルが作業を行います。

Anterior は、同一のプロンプト、データセット、および評価基準を使用して、Llama 4 Maverick 17B と Llama 4 Scout 17B をフロンティアスケールの独自のマルチモーダルモデルに照らして評価しました。評価は完全に AWS インフラストラクチャ内で行われ、正確性、完全性、一貫性、レイテンシーの観点から本稼働の準備状況が測定されました。データセットは Anterior の合成データパイプラインを通じて生成され、あいまいなフォーマット、複数文書のパケット、エッジケースといった現実世界の複雑さを反映するように臨床研究医によってキュレーションされました。Llama が有力候補だった理由はいくつかあります。マルチモーダルインプットをサポートし (臨床データに本質的にマルチモーダルな性質がある)、ハイスループットワークロードの効率的な推論を可能にし、長い臨床パケットを快適に処理できる大きなコンテキストウィンドウを提供することなどです。また、Anterior は利用可能な最も調整可能なオープンウェイトモデルの 1 つでもあります。これにより、Anterior はプロンプトやシステムレベルの制約を通じてモデルの動作を調整したり、フロンティアスケールのモデルだけに頼るのではなく、特定の臨床タスクに合わせて調整された小規模で特殊なモデルを探索したりできます。

Amazon Bedrock で Llama を実行することで、同社の臨床医とエンジニアのチームは、インフラストラクチャの管理ではなく、臨床問題の解決に集中できるようになりました。Bedrock は、AWS 環境と直接統合しながら、基盤モデルの評価とデプロイを行うための統一されたインターフェイスを提供します。「私たちが協力している多くの主要な医療保険では、『私たちの AWS 環境内の PHI で AI を実行できますか?』という同じ質問が寄せられています。Bedrock ホスト型の Llama モデルでは、パフォーマンスを犠牲にすることなく、はい、と言えるでしょう」と、Anterior で応用 AI リーダーを務める Anuj Iravane 氏は述べています。Bedrock は柔軟性も維持します: Anterior は、アーキテクチャを再構築しなくても、臨床要件の変化に応じて追加のモデルを評価したり、カスタムで微調整したバージョンをデプロイしたりできます。

臨床上の意思決定と業務効率の促進

臨床医がキュレーションした合成臨床症例のデータセット全体で、Llama 4 Maverick 17B と Llama 4 Scout 17B の両方が、臨床文書の識別において本稼働グレードのパフォーマンスを発揮しました。これらのモデルは、大規模なモデルアーキテクチャ内で 17B のアクティブパラメータを使用しているにもかかわらず、より効率的に実行されながら、数千億のパラメータを持つフロンティアスケールのモデルと一致していました。それらは完全なページカバレッジを実現しました。つまり、臨床パケットの各ページが 1 回だけ割り当てられ、コンテンツが見落とされたり重複したりすることはありませんでした。その結果は、特にメタデータの抽出で顕著でした。Llama モデルは、文書の作成者や説明などの重要な情報を特定した際に、フロンティアの基準値と同等か、それを上回りました。作成者識別の精度は、フロンティアモデルの 93.5% と比較して 97% にも達し、記述の忠実度は 98.4% に達しました。「私たちは感銘を受けました」と、Iravane 氏は述べています。「Bedrock の Llama モデルは、わずかなコストで当社の最前線のベースラインに一致し、メタデータの抽出では実際にそれを上回りました。医療の最も困難な問題を解決するのに、最大規模のモデルは必要ありません」。

レイテンシーはモデル間で同等でしたが、Bedrock コンパウンドで大規模に実行する小型の Llama モデルの効率上の利点がありました。文書量が増えるにつれ、Anterior は精度を犠牲にすることなく、1 文書あたりのコストを下げながら、計算単位あたりの処理件数を増やすことができます。医療ワークフローへのダウンストリームの影響は非常に大きくなります。事前の承認審査では、Anterior プラットフォームは 99.24% の臨床精度を維持しながら、手作業による臨床レビューの時間を 75% 短縮します。KLAS Research の導入事例によると、このシステムにより、がん治療承認までの患者さんの待ち時間が数日から数週間かかっていたものが、わずか 155 秒に短縮されました。対象とする約 100 万人の生命にサービスを提供している地域の医療機関にとって、これらの改善は年間約 3,000 万 USD の運用コスト削減につながります。文書の理解が早まることで、最終的には臨床上の意思決定が迅速になり、患者のケアに迅速にアクセスできるようになります。

Anterior は、6 週間で初期統合からデプロイに移行しました。Llama モデルは現在、同社の本稼働の文書識別ワークフローの一部となっており、複数の企業顧客にサービスを提供しています。この結果は、Amazon Bedrock 上でホストされている小型のオープンウェイトモデルが、医療ワークフロー全体でフロンティアスケールの汎用モデルと競合する可能性があるという、より広範なアーキテクチャアプローチも検証しました。「米国の医療機関の多くは AWS を利用しています」と、Iravane 氏は述べています。「Bedrock 上の Llama モデルが最前線のパフォーマンスに匹敵することを証明すれば、お客様はより迅速にデプロイし、より適切にコストを管理し、必要なセキュリティ体制を維持できるということです」。

Harshvardhan Chunawala

Harshvardhan Chunawala is a Solutions Architect at AWS and AWS Academy Authorized Educator, based in the United States. He partners with large enterprise leaders, startup founders, and C-suite executives globally to architect scalable, secure cloud infrastructure on AWS across industries. He is an AWS Golden Jacket awardee and collaborates across multiple Amazon teams to shape and deliver frontier cloud capabilities across security, satellite, and trustworthy agentic AI services. Outside of his work at AWS, he is a globally recognized technologist and expert in cloud security with over a decade of experience. He is also affiliated with Carnegie Mellon University, where he contributes to research and mentorship in cloud computing and emerging technologies. Away from the keyboard, he enjoys skydiving and flying planes.

Chakravarthy Nagarajan

Chakravarthy Nagarajan は、機械学習を専門とするプリンシパルソリューションアーキテクトです。現在の役職では、機械学習と生成 AI ソリューションを使用して、顧客が現実世界の複雑なビジネス上の問題を解決できるよう支援しています。モデルのカスタマイズに注力し、企業がカスタマイズの力で LLM の真の可能性を実現できるよう支援しています。

Khadija Mahmoud

Khadija Mahmoud 医学博士は、Anterior に所属する応用 AI 分野の臨床研究医であり、実際の医療システム全体で臨床データセット、ベンチマーキング、モデル評価に取り組んでいます。AI における臨床的推論、偏見と公平性、およびヘルスケア分野における機械学習の安全なデプロイに焦点を当てた研究に取り組んでいて、研究成果が査読付きジャーナルに掲載されています。ヘルスケア分野で人工知能の修士号を、Imperial College London で医学博士号を取得しています。

Anuj Iravane

Anuj Iravane 氏は Anterior で AI 部門を率いており、研究と実運用の両面にまたがって、信頼性が高く、ポリシーに準拠し、継続的に自己改善できる臨床推論向けエージェントの開発に取り組んでいます。Anterior 入社以前は、Amazon でレコメンデーションシステムの開発に従事していました。Northwestern University でコンピューターサイエンスの学士号を取得しています。AI 分野以外では、インドのインディペンデント映画シーンにおいて、プロデューサーおよび映画監督としても活動しています。

このコンテンツはいかがでしたか?