ワカリタイムズ

🌍 海外ニュースを「わかりやすく」

Karpathy提唱「LLMナレッジベース」、テキストファイルだけでRAGを超える

ChatGPTに社内資料を読み込ませたい。自分の研究ノートをAIに整理させたい。そんなとき、多くの企業や開発者が頼ってきたのが「RAG」と呼ばれる技術です。しかし、元テスラAI部門責任者のアンドレイ・カーパシーが「もっとシンプルな方法がある」と提案し、話題になっています。「KarpathyがRAGを迂回するLLMナレッジベース・アーキテクチャを公開」とVentureBeatが報じたこのアプローチは、AIを「検索エンジン」ではなく「常駐の司書」として使うという発想の転換です。

「検索して答える」から「まとめて育てる」へ

現在主流のRAG(検索拡張生成)は、ユーザーの質問に対してベクトルデータベースから関連文書を検索し、見つかった断片をAIに渡して回答を生成させる仕組みです。企業での導入も進んでいますが、検索精度の低さ、関連情報の取りこぼし、メンテナンスの手間といった課題が指摘されてきました。

カーパシーが提案する「LLMナレッジベース」は、この仕組みを根本から変えます。ベクトルデータベースも複雑な検索パイプラインも使いません。代わりに、AIがMarkdown形式のテキストファイルを読み、整理し、相互にリンクさせたWiki型のナレッジベースを自動で構築・維持します。

つまり、AIの役割が「質問されたら検索して答える」から「日常的に知識を整理し、育て続ける」へと変わるのです。

4つのフェーズで回る知識の歯車

このシステムは4つのフェーズで動きます。

取り込み(Ingest)

論文、GitHubのコード、ウェブ記事などの素材を raw/ フォルダに集めます。Obsidian Web Clipperというツールで記事をMarkdownに変換し、画像もローカルに保存します。ポイントは、すべてをAIが読みやすいテキスト形式にそろえることです。

編纂(Compile)

ここがこのシステムの核心です。AIが素材を読み込み、概念ごとの百科事典的な記事、要約付きの索引ファイル、概念間の相互リンクを自動生成します。カーパシーの実践では約100件の記事、約40万語の構造化されたWikiが構築されました。AIは単なる検索係ではなく、知識を「著述」する存在として機能します。

質問と拡張(Query & Enhance)

ユーザーはObsidianでWikiを閲覧したり、Q&Aエージェントに複雑な調査を依頼したりできます。重要なのは、質問への回答がWikiに書き戻される点です。調べるたびにナレッジベースが自動的に充実していきます。

点検と保守(Lint & Maintain)

AIが定期的にWikiの「健康診断」を行います。矛盾の検出、リンク切れの修復、不足情報のウェブ検索による補完、概念間の新たなつながりの発見を自動で実行します。知識ベースが自律的に不備を補いながら成長していくイメージです。

なぜMarkdownファイルなのか

RAGで使われるベクトルデータベースは、テキストを数値の羅列に変換して保存します。検索は高速ですが、中身は人間には読めません。AIがどの情報を根拠にしたのかを追跡するのも困難です。

一方、Markdownファイルはただのテキストです。誰でも読め、編集でき、削除できます。AIの主張がおかしければ、元のファイルを開いて確認すればいい。この透明性こそが、カーパシーが「ファイル・オーバー・アプリ」と呼ぶ設計思想の根幹です。

さらに、プレーンテキストは特定のサービスに依存しません。ベクトルデータベースの提供元がサービスを終了しても、Markdownファイルは手元に残ります。データの主権がユーザー側にあるのです。

記者の視点:「小さな知識」にこそ価値がある

このアプローチには明確な弱点があります。数百万件の文書を扱う大企業のナレッジ管理には向きません。そうした規模では、ベクトル検索の高速性が不可欠です。

しかし、個人の研究プロジェクトや部署単位のナレッジベースなど「中小規模」の知識管理では、RAGのインフラはかえって過剰です。検索ノイズや構築コストが、得られる利便性を上回ることも少なくありません。

カーパシーは将来的に、このWikiを学習データとしてAIモデルをファインチューニングする可能性も示唆しています。汎用のAIに毎回説明する代わりに、自分だけの専門知識を持ったAIを育てるという構想です。

日本でもAIの業務活用が進むなか、「とりあえずRAGを導入する」ことが目的化しているケースは少なくありません。シンプルなテキストファイルとAIの組み合わせで十分な場面は、思っている以上に多いのかもしれません。

「AIの記憶」を自分の手に取り戻す

カーパシーの提案は、AIとの付き合い方の転換点を示しています。AIを「質問に答えてくれる便利な箱」としてではなく、「一緒に知識を育てる長期的なパートナー」として位置づける。そのために必要なのは、巨大なインフラではなく、人間が読めるテキストファイルとAIの根気強い作業でした。AI時代の知識管理は、意外にもシンプルな「ファイル管理」から始まるのかもしれません。