Excel・PDF・PowerPointをAIに渡す前に壊れやすい資料を直す¶
対象 / ポイント
対象: Excel、PDF、PowerPointをAIに読ませたいが、表、脚注、図表、レイアウト崩れで失敗したくない実務者。
ポイント:
- AIに渡す前の資料修復は、見た目ではなく構造の修復だ
- 表、脚注、図表、読み順、分割単位の5点を先に見る
- アクセシビリティの作法は、AIが読める入力設計にも流用できる
会議後に配られたPowerPoint、計算式が残るExcel、脚注だらけのPDFをそのままAIに渡すと、要約は一見それらしく返ってくる。 ただし、表の単位、図表の凡例、注釈の適用範囲が落ちると、結論だけが静かにずれる。 この記事の問いは、Office/PDF資料をAIに渡す前に、どこを直せば回答事故を減らせるかである。
OpenAIのFile SearchはPDF、DOCX、PPTX、XLSXなどを対応形式に含める1。 形式が対応していることと、意味が壊れずに読めることは別問題だ。 AI入力の品質は、アップロード後のモデル性能だけでなく、アップロード前の資料構造で決まる。
まず「見える資料」と「読める資料」を分ける¶
AIに渡す資料は、見た目の整った資料ではなく、順序と意味が取り出せる資料に寄せる必要がある。
人間はスライド上の位置関係や色を補って読める。 AIや検索基盤は、抽出されたテキスト、表のセル、画像の説明、PDFタグ、ファイル名、ページ順に依存する。 見た目だけで意味を持たせた資料は、この変換で壊れやすい。
壊れ方はファイル形式ごとに少し違う。
| 形式 | 壊れやすい場所 | AIに渡す前の修復 |
|---|---|---|
| Excel | 結合セル、空白行、単位が別セル | 1表1目的に分け、見出しと単位を表内に戻す |
| 脚注、段組み、ヘッダー/フッター | 読み順、タグ、注釈の対応範囲を確認する | |
| PowerPoint | 図表、矢印、重なったテキスト | スライドタイトル、読み順、代替テキストを整える |
ここでの修復は、美しい資料に作り替える作業ではない。 AIが取り出した断片を見ても、人間が元の意味を復元できる状態に近づける作業だ。
次に、事故の多い5点を順に見る。
表は「表だけで意味が閉じる」形にする¶
ExcelやPDFの表は、表だけを切り出しても意味が通る状態にする。
よくある失敗は、表の外に単位や前提が置かれている状態だ。 「単位: 百万円」がタイトル横にあり、表の列名は「売上」「費用」だけになっている。 AIが表だけを抽出すると、金額の単位が抜け、比較の意味も薄くなる。
修復の基準は単純だ。
- 見出し: 列名と行名だけで何を比較しているか分かる
- 単位: 円、件、%、期間などが表内か直前の一文にある
- 粒度: 月次、部門別、製品別を同じ表で混ぜない
- 結合: 結合セルで階層を表現せず、列を増やして明示する
- 注釈: 例外条件を脚注任せにせず、該当行の近くに置く
MicrosoftのOfficeアクセシビリティ文書は、見出しを単なる太字や大きな文字で作らず、構造として扱うことを勧める2。 これはスクリーンリーダー向けの話だが、AI入力にも同じ含意がある。 見た目ではなく構造に意味を持たせるほど、抽出後の情報は壊れにくい。
表を直したら、次は「表の外」に逃げた情報を見る。
脚注と注釈は近くに戻す¶
PDFで最も危険なのは、本文と脚注の対応が曖昧なままAIに渡すことだ。
契約書、調査レポート、営業資料では、重要な条件が小さな脚注に逃げている。 人間はページ下部を見て補えるが、AIが本文と脚注を別々の断片として扱うと、条件のない強い結論だけが残る。 これは要約事故になりやすい。
PDFでは、文書構造タグが読み順を定義し、見出し、段落、表などの要素を識別する3。 Adobe AcrobatのReading Order toolも、PDF内の見出しや背景要素などを調整する用途で説明されている4。 つまりPDFは「見えている順」だけでなく、「読まれる順」を持つ。
AIに渡す前の実務では、完全なPDF/UA準拠まで毎回やる必要はない。 ただし、重要な脚注は本文の近くへ戻す。 「キャンペーン対象外」「税抜」「一部地域を除く」のような条件は、要約対象の文と同じチャンクに入るように置く。
脚注の次に壊れやすいのは、PowerPointの図表だ。
PowerPointの図表は、画像ではなく文章に戻す¶
PowerPointの図表は、AIにとって画像、テキスト、配置情報が混ざった入力になりやすい。
たとえば、左に「現状」、右に「目標」、中央に矢印があるスライドを考える。 人間は矢印を見て変化の方向を読む。 AIがテキストだけを拾うと、「現状」「目標」という単語は残っても、どちらへ移行する話なのかが薄くなる。
MicrosoftはPowerPointでAccessibility CheckerとReading Order paneを使い、スクリーンリーダーが読む順序を設定できると説明している5。 また、画像やグラフィックには代替テキストを付けることが推奨されている2。 AIに渡す資料でも、この2点はそのまま効く。
図表をAI向けに直すなら、各スライドに短い説明文を置く。
- 図が何を比較しているか
- 矢印が何の変化を表すか
- 色や太さが何の重要度を示すか
- 例外条件がどこにあるか
この説明文はスライドの美観を少し損なうかもしれない。 だがAI入力では、図の意味を言語化した一文が保険になる。
最後に、ファイル全体をどう渡すかを決める。
1ファイル丸投げではなく、判断単位で分ける¶
AIに渡す単位は、元ファイル単位ではなく判断単位に合わせる。
200ページのPDF、30シートのExcel、120枚のPowerPointを一括で渡すと、AIは全体像を拾える一方で、問いに関係ない断片も大量に抱える。 その結果、根拠が遠いページから混ざったり、古い前提と新しい数値が同じ回答に入ったりする。 大きなファイルは、便利だが危険でもある。
分割の目安は、次の3つだ。
- 問いで分ける: 市場調査、料金表、導入手順を同じ入力にしない
- 更新頻度で分ける: 月次更新資料と固定仕様書を混ぜない
- 責任者で分ける: 営業、法務、開発の根拠を同じ束にしない
これはRAGでも同じだ。 検索対象が大きすぎると、正しい情報を持っていても、質問に合う根拠が上位に来ない。 資料修復は、検索精度を上げる前の入力設計でもある。
まとめ:AIに読ませる前に、人間にも読める構造へ戻す¶
AI入力前の資料修復は、AI専用の特殊作業ではない。 表の見出しを明示し、脚注を近くに置き、図表の意味を文章に戻し、読み順を整え、判断単位で分ける。 これは人間にも読みやすい資料に戻す作業だ。
新しい示唆はここにある。 AIに読める資料を作る組織は、AI活用だけでなく、引き継ぎ、監査、検索、レビューにも強くなる。 資料構造を直す投資は、AI導入費ではなく、情報運用の負債返済として扱うほうが長く効く。