社内フォルダの闇 —— AI導入がうまくいかない本当の理由

AIを企業に導入するとき、いちばん地味なのに本質的な論点が「非構造化データをどうするか」だと思います。

モデル選定やベンダー比較の資料は山ほどあるのに、社内ファイルサーバーやメール、議事録、画像・音声ログのカオスにはあまり光が当たらない。けれど、現場が日々つくっている「生の情報」はほぼすべて非構造化で、その整理を飛ばしてAIを入れても、きれいに壊れたダッシュボードしか出てこない。

非構造化データというのは、ざっくり言えば「行と列にきれいに並ばないデータ」だ。メール本文、チャットログ、PDFの企画書、パワポの提案資料、紙をスキャンしただけの画像、録音された会議音声、UXインタビューの動画、ソースコード、システムログのフリーテキストなど。多くの調査で、企業の保有データの大半がこの「形の定まらない情報」だと言われているが、その多くが検索しにくく、読み返されず、死んだままサーバー容量だけを食っている。

なぜ、AI導入の前にこれを処理しておく必要があるのか。

ひとつは「AIに聞いても答えが返ってこないから」だ。モデルは賢くても、与えられていない情報は出せない。RAG(検索+生成)のような仕組みを前提にするなら、モデルが引用できる単位に文書を分割し、どの文書が何について書かれているか、誰が読んでよいか、最低限の手がかりをつけておく必要がある。もうひとつは「間違った答えを堂々と返すリスク」があるからだ。古い仕様書と新しい仕様書が同じフォルダに雑然と並んでいる状態でAIに要約させると、「混ざるべきでない情報」が気持ちよく混ざる。人間ならファイル日付やファイル名のニュアンスで避けられる地雷を、モデルは平然と踏む。

さらに、非構造化データをそのまま投げ込むと「お金がかかりすぎる」という問題もある。埋め込み生成や全文検索の対象が増えるほどインフラコストはじわじわ効いてくるが、AIプロジェクトの見積もりではここが軽く扱われがちだ。「とりあえず全部ベクトル化」は一見未来志向だが、だいたい途中で予算と権限設計の壁に激突する。根っこにあるのは、誰がどの文書の生死を決めるのかという組織の意思決定の問題だ。

現場でよく見る風景はこんな感じだ。華やかなPoCデモでチャットボットが流暢に話しているが、裏側で参照しているのは数十本だけの「きれいなFAQ」だ。その横には、共有フォルダの深層に眠る何十万ファイルもの議事録と資料があり、誰も手を付けていない。PoCは成功したことにされるが、本番展開フェーズで「では全社データをつなぎましょう」となった瞬間、数十年分の文書の地層があらわれ、プロジェクトは急に沈黙する。

では、今の時点での「現実的なベスト」は何か。フルスクラッチでDWHに押し込んで完璧なスキーマを設計するやり方は、もはや王道ではない。逆に、「未加工のままエンドツーエンドの大規模モデルに全部食べさせる」やり方も、セキュリティとコストで厳しい。現在うまくいっているところは、「ゆるく構造化してRAGにつなぐ」という中間路線を取っているように見える。すなわち、非構造化データを削ぎ落としすぎずに、AIが扱いやすい粒度とメタデータだけを足すという発想だ。

具体的には、まず「どこに、どんな種類の非構造化データが眠っているか」を棚卸しする。共有フォルダ、クラウドストレージ、グループウェア、チャット、録音置き場などを洗い出し、業務領域ごとにざっくり分類する。その次に、機械的にできる前処理を機械に任せる。文字起こし、OCR、文字コードや改行コードの統一、不必要なノイズの削除。ここまではツールの仕事だ。その上で、AIに「読み解かせて構造化する」段階に入る。文書を節単位に分割し、各チャンクごとに要約、タグ付け、関係するシステム名や商品名、人名などの抽出を行う。これを「準構造化」としてデータベースやベクトルストアに蓄える。大事なのは、業務側が「あ、このタグ設計なら使える」と納得できるラインを見つけることで、ここはドメイン知識を持った人間との対話が欠かせない。

こうしたパイプラインを組んでしまえば、以後は新規に流入してくる文書も自動的に同じルートで処理できるようになる。過去分は「掘るほど価値がある領域」から優先して処理する。全社一気にではなく、たとえばカスタマーサポート、営業提案書、開発仕様書といった単位で、小さな成功事例をつくり、その中でチャンクの粒度やタグの設計をチューニングしていく。ここで得られるのは単なるAI検索の改善ではなく、「会社の頭の中がどんな形で保存されているのか」という、少し気味が悪いほど生々しい自己認識だ。

非構造化データへの向き合い方は、AI導入の「前準備」であると同時に、その会社の知性の輪郭を描き直す作業にもなる。AIがもたらす未来が希望か絶望かは、モデルの性能そのものより、こうした地味な準備をどこまでやり切れるかでだいぶ変わってくる。

(了)

Scroll to Top