社内の技術情報で、書式の一部に画像(図面)を張り付ける欄がある書類(PDF)があり、
で、画像の部分をAzure-AI-OCRでOCRしたPDF(ファイル名例:A_ocr.pdf)と、
オリジナルの書類PDF(ファイル名:A/pdf)が存在します
エージェントのナレッジには、OCRのファイルだけ登録しています
理由:オリジナルの書類の書式には、共通は文言が大量にあり、それは除外したい(HITする為)
やりたいこと:
検索ワードにHITしたOCRのファイル(ファイル名例:A_ocr.pdf)から、ナレッジに登録していない(SPOにはある)オリジナルの書類PDF(ファイル名:A/pdf)
をエージェントに回答させたい(ファイルへのリンクを付けて)