リサーチ手法 AI×専門家 2026.05.31 VRI INSIGHTS / PILLAR

AIリサーチはどこまで信頼できるか — 出典捏造の実証と、専門家検証という解

AIはリサーチの入口を変えた。だが出典の捏造は設計上の性質で、専門領域ほど悪化する。査読論文と裁判所記録が示すのは、真偽はモデルの外側——人間と一次情報——でしか担保できないという一点だ。速さはAIに、検証と翻訳は人間に。その役割設計を解く。

VVRI リサーチ・メソドロジー・デスク/編集部 | 読了 22分 | リサーチ変革 × AI×専門家
2/3 FIGURE — AIが生成した引用の約3分の2が捏造または不正確(GPT-4o/JMIR 2025)

AIはリサーチを速くしたのではない。誰が・どうやって調べるのかという、調査の構造そのものを書き換えた。商談前ブリーフを納品してきたこの数年、私たちがいちばんはっきり観測したのは、納品物の精度でも分量でもなく、調査の入口が移ったことだ。かつてアナリストが有料データベースの検索窓やレポートの目次から始めていた一次収集の最初の一手は、いまや生成AIへの問いかけから始まる。本稿は、その転換を前提に、では貴社はAIにどこまで調べさせてよいのか、という問いへ正面から答える。勝敗を分けるのは「AIを持っているか」ではない。それを「どこに適用するか」だ。そして本稿が一貫して着地させたいのは、AIを使うな、ではない。AI単独で調べきるな、である。

生成AIは、調査業界の標準工程に入った

網羅と速さはAIに任せてよい。だが、その出力の真偽と、それが貴社の商談で何を意味するかという読み解きは、人間の手元に残さなければならない。理由は後の章で実証データを並べて示す。先に、なぜこの留保がいま必要なのかを腑分けしておきたい。

AIは「バズワードからベースライン」になった

AIをリサーチに使うかどうかは、もう論点ではない。Greenbookが毎年発表するGRIT(調査業界の最大級の実態調査)の2025年版では、調査サプライヤーの67%が、生成AIをクライアントへの納品物そのものに直接組み込んでいると答えた。調査設計からクロス集計の分析、レポートのドラフトまでが対象だ。同じ年のQualtricsの市場調査トレンド調査では、研究者の89%がAIツールを定常的または実験的にすでに使っていると回答している。AIは一部の先進企業の実験ではなく、業界の標準工程に入った。

生成AIを納品物に直接組み込むサプライヤー(GRIT 2025)
67%

調査設計から分析・レポート作成までを含む。この数字が意味するのは「業界の入口がAIに移った」ことであって、「AIの出力をそのまま顧客に渡してよい」ことではない。組み込みの普及度と、その出力の信頼性は別の問題である。出所:Greenbook『2025 GRIT Business & Innovation Report』。

これは調査業界に限った話でもない。McKinseyの『State of AI 2025』では、組織のAI利用率が88%(前年比約10ポイント増)、生成AIを定常業務に組み込んでいる割合が71%に達した。ナレッジワーク全体で、AIは「導入するか」ではなく「すでに使っている前提で、どう統制するか」のフェーズに入っている。ただし、この普及率の高さは、AIに調べさせて大丈夫だという答えにはならない。広く使われていることと、使った結果が正しいことは、別の事実だ。むしろ普及が進むほど、検証されないままの出力が意思決定に紛れ込む経路が増える。後の章で見るとおり、採用が普遍化する一方で、調査の買い手側の満足度はわずか13%にとどまり、データ品質への懸念は前年比で約40%増えている。普及と信頼は、同じ速さでは進んでいない。

念のため一点、断り書きを置く。リサーチの起点がAIへ移った流れは、当面は反転しにくい。ただし「不可逆」と言い切るのは早い。後段で見る満足度13%・品質懸念+40%という数字は、品質バックラッシュによる揺り戻しの圧力が同時に存在することを示してもいる。起点の移行は強い。だが一本道ではない。

誠実な前置き — 本稿はAI否定論ではない

二つ、開示しておく。一つは留保だ。本稿はAIを使うなと説く記事ではない。私たち自身が、一次情報の収集にAIを日常的に使っている当事者である。網羅的に集める、要約する、論点の候補を出す——この速さと規模は、人間だけでは到底再現できない。だから本稿の主張は「AI単独で完結させるな」という一点に絞られる。AIを入口に置き、その上に人間のアナリストによる検証・出典確認・自社文脈への翻訳という層を重ねる。私たちが商談前ブリーフを作るときも、まさにこの二層で動いている。

もう一つは利益相反だ。私たちは、ここで論じる「AI×専門家」という立て付けを商品として提供している側である。本稿が人間の検証を必須だと結論づけるとき、それは自社のサービスを正当化する都合のいい主張に見えるかもしれない。その警戒は健全だ。だからこそ本稿では、主張を支えるのに、自社の体験談ではなく、査読論文・裁判所記録・法令条文・第三者の業界統計といった、私たちの利害から独立した一次情報を主軸に置く。数字には必ず出所と、その数字が何を意味し何を意味しないのかという一文を添える。これは第1ピラー『日本の営業生産性はなぜ低いのか』から引き継いだ作法であり、売り手が出すリサーチが額面どおり受け取られるための、最低限の条件だと考えている。

この記事が比べるもの — 精度・コスト・期間・信頼性の4軸

本稿は三つの問いに答える。順に、(1)AIによる調査はどこまで精度を信頼できるのか、(2)調査会社・コンサルティング・完全内製・AI単独・AI×専門家という五つの選択肢を、どんな場面でどれを選ぶべきか、(3)なぜ専門家のレビューは「あれば良い」ではなく「必須」なのか。五つの選択肢を比べるときの物差しは、次の四つに揃える。

  • 精度。出力がどれだけ事実に即しているか。とりわけ、出典が本当に存在し、内容を正しく引いているか。
  • コスト。一回あたり、あるいは継続したときの費用感。
  • 期間。問いを立ててから使える読み解きが手元に届くまでの速さ。
  • 信頼性。その結果に誰が責任を負い、誤りをどう検証できるか。精度が単発の正しさなら、信頼性は仕組みとしての検証可能性に近い。

この四軸で見ると、各選択肢の得手不得手はきれいには重ならない。AI単独は速さとコストで圧倒するが、精度と信頼性に構造的な穴がある。従来の調査会社やコンサルティングは信頼性が高い一方で、期間とコストが重い。どれか一つが全勝するのではなく、強みの形が違う。だからこそ「どこに適用するか」という設計が効いてくる。

第1ピラーとの住み分け — WHYではなくHOW/比較を論じる

第1ピラー『日本の営業生産性はなぜ低いのか』が論じたのは、日本のB2B営業がなぜ低ROIに沈むのかという課題の構造だった。売る時間が社内業務に溶けて残らないこと、その低い投資効率が能力ではなく構造に起因すること、担当業界を読み解く知的労働が個人の頭の中に閉じ込められて組織に積み上がらない属人化。そこから、外部レポートでもカスタムリサーチでも完全内製でもない第三の道として、自社専用のシンクタンクが要る、という結論に至った。あれはWHYの記事だ。なぜ準備が要るのか、なぜ内製化が要るのかを論じた。

本稿が引き受けるのは、その先のHOWである。その自社専用のシンクタンクは、実際にどうやって調べ、どこまで信頼できるのか。AIをどこに使い、人間がどこを検証するのか。五つの選択肢のなかで、なぜAI×専門家という形が「どちらか単独」に勝つのか。第1ピラーが解の存在を論じたのに対し、本稿は解の中身と、その精度の構造を論じる。第1ピラーの数字(マッキンゼーの1/2〜1/4、HubSpotの54%など)は、ここでは背景として最小限引くにとどめ、主役は調査の方法論そのものに置く。問いは「AIを持っているか」ではなく「どこに適用するか」だ。そして、その『どこに』を誤った瞬間から、危険は静かに始まる。

AI単独で調べきるのが危険な理由 — 精度の構造とハルシネーションの仕組み

集める速さが上がったことと、集めた中身が正しいことは、別の話だ。この二つを混同したまま「AIに調べさせれば足りる」と踏み込むと、リサーチが本来いちばん価値を持つはずの場所で、いちばん大きく外す。なぜそうなるのか。AI自身の研究と査読論文だけで押さえておきたい。これは「AIを使うな」という話ではない。AI単独で完結させるな、という構造の話である。

AIは「正しさ」でなく「それらしさ」に最適化されている(OpenAIの自認)

大規模言語モデルがもっともらしい嘘をつく現象は、長く「ハルシネーション」と呼ばれ、モデルが未熟だから起きる一時的なバグのように語られてきた。だが2025年9月、OpenAI自身の研究者を含むチーム(Kalaiら『Why Language Models Hallucinate』arXiv:2509.04664)が、その見立てを内側から正した。論文の主張は精密で、ここは正確に引く必要がある。彼らが言うのは「ハルシネーションは原理的に絶対不可避だ」ではない。標準的な訓練と評価のやり方が、不確実性を表明することよりも当てずっぽうの断定を高く評価するため、モデルは良い「受験者」のように振る舞い、分からないときでも自信ありげに答えを埋めてしまう——という構造的な誘因の指摘だ。

試験で空欄に0点がつき、当てずっぽうにも部分点の可能性があるなら、受験者は埋める。それと同じ報酬構造が、いまのAIに組み込まれている。「分かりません」と正直に言うより、それらしい答えを出すほうが、評価指標の上では得をする。だからモデルは推測する。AIを作っている当事者が、誤りの源泉は能力不足だけでなく訓練と評価の設計そのものにあると認めた。この一点は重い。

訓練・評価の報酬構造(OpenAIら 2025)
推測 > 不確実性の表明

標準的な訓練・評価が、不確実性の表明より当てずっぽうの断定を高く評価するため、モデルは推測するよう仕向けられている、と同社研究が結論。「数学的に絶対不可避」という意味ではない点に注意。出典:Kalai, Nachum, Vempala, Zhang『Why Language Models Hallucinate』(arXiv:2509.04664, 2025年9月)。

ソースを与えても逸脱する — ハルシネーションは設計上の性質だ

ここで反論が一つ予想される。「元の文書を渡して要約させるだけなら、捏造のしようがないだろう」。残念ながら、そうではない。Vectaraが公開しているハルシネーション・リーダーボードは、短い文書を与えて要約させるという、もっとも捏造の余地が小さいはずのタスクで各モデルの逸脱率を測っている。それでも、与えた文書には書かれていない内容を、Gemini-2.0-Flashは約7.6%、GPT-4.5-Previewは約12%の割合で生成した。これは短文要約という限定条件下の値であり、絶対視はできない(信頼度は中程度)。だが方向は明確だ。出典を手元に置いた状態ですら、数%から十数%は事実から滑り落ちる。

含意は実務的だ。リサーチでは、AIが「これは渡された資料に基づいています」と言っても、それを真に受けて引き写すわけにはいかない。原典との人手照合という、地味で省きたくなる工程が、省けない工程として残る。ハルシネーションはじきに消える不具合ではなく、現行アーキテクチャに織り込まれた性質として扱うのが正しい。

要約タスクでの逸脱率(Vectara HHEM)
7.6% / 約12%

与えた文書を要約させるだけでも、Gemini-2.0-Flashが約7.6%、GPT-4.5-Previewが約12%、文書にない内容を生成。短文要約という限定条件下の評価値(信頼度: medium)。ソースを渡しても逸脱は消えない。出所:Vectara Hallucination Leaderboard(HHEM評価モデル使用)。

逆説 — ありふれた話題ほど正確、専門的な話題ほど捏造する

そしてここからが、この章のいちばん深いところだ。AIの誤りは、どの話題でも一様に散らばるわけではない。専門的でニッチな話題に近づくほど、捏造は増える。Deakin大学のLinardonらがJMIR Mental Health(2025年11月12日)で報告した検証が、これを鮮明に示した。GPT-4oに精神医療の文献レビューを6本書かせ、本文に現れた176件の引用を一つずつ照合したところ、19.9%(35件)が完全な架空文献——存在しない論文だった。残る141件の実在引用のうちでも45.4%に誤りがあり(最多はDOIの取り違えで37.8%)、結果として全引用の約3分の2が「捏造または不正確」。完全に正確だった引用は54.6%、半分強にすぎない。

この研究が捏造の要因として特定したのは、二つだ。一つはトピックの知名度。研究者が豊富にいて文献も多い大うつ病では捏造率は6%にとどまったのに対し、むちゃ食い症(binge eating disorder)で28%、症例も論文も少ない身体醜形障害では29%まで跳ね上がった。AIの信頼性は訓練データの厚みに依存する。話題がありふれているほど、参照すべき本物の文献がデータの中に大量にあり、それらしい記述が本物と一致しやすい。逆に、希少で専門的な話題では本物の文献が薄く、モデルは空白を「それらしい平均」で埋めにかかる——つまり、でっち上げる。

もう一つの要因を、本稿は見落とさずに書いておきたい。同研究のタイトルそのものが示すとおり、捏造率を左右したのは知名度だけでなく「プロンプトの具体性(prompt specificity)」でもあった。漠然と尋ねるか、具体的に問いを絞るかで、結果は動く。これは重要な含意を持つ。捏造は「対象が専門的だから」だけで決まるのではなく、「問いの立て方」でも抑えられるということだ。つまりAI運用の改善余地は、まだ残っている。後段で触れるVRIの工程の第一段——「問いの圧縮」——は、この知見をそのまま実務に移したもので、ハルシネーション抑制策でもある。

捏造率はトピックの知名度とプロンプトで変わる(Deakin大/JMIR 2025)
6% → 29%

GPT-4oによる引用の捏造率は、高知名度の大うつ病6%から、低知名度の身体醜形障害29%へ。全176件の引用のうち19.9%が架空文献、約3分の2が捏造または不正確だった。同研究はトピックの知名度に加え「プロンプトの具体性」も捏造率を左右すると報告している。出典:Linardon et al., JMIR Mental Health(2025年11月12日)。

この逆説の刃が向く先を、はっきり言葉にしておきたい。AIが信頼に足るのは、ありふれた話題——誰でも調べられ、すでに何度も語られてきた領域だ。ところが、リサーチが本来お金を払う価値を持つのは、その正反対の領域である。希少で、専門的で、最新で、一次情報に依存し、まだ誰も整理していないテーマ。第1ピラーで触れた「網羅性・即時性・深掘りの三重苦」でいえば、担当替えで踏み込む未知の業界、表面のデータより一段深い読み解き——まさにそこでこそ、AIは取りこぼし、でっち上げる。AIがいちばん安心して任せられるのは、わざわざ任せる必要のない話題だ。任せたい難所ほど、AIは静かに捏造する。

AIに欠けているのは、文脈・判断・一次情報へのアクセスだ

なぜそうなるのかを、能力ではなく構造の言葉で言い直す。AIが生成しているのは、訓練データという巨大な平均場から引き出された「もっともらしい中央値」だ。だから、平均から遠いものほど苦手になる。リサーチの現場で本当に効く情報の多くは、まさにその平均の外側に散らばっている。Webに公開されていない有料データベースの中身、未公開の一次資料、特定の業界に身を置いた者しか持たない現場の文脈、そして「この当事者にとってこの変化は機会なのか脅威なのか」という利害の判断。これらにAIは構造的にアクセスできない。

具体例を一つ挙げる。2023年に手がけたある物流案件で、AIが出してきた市場規模の根拠データに、3つの調査機関名が並んでいた。アナリストが一つずつ当たったところ、うち1つは——もっともらしい社名と発行年つきで——実在しない機関だった。残り2つは実在したが、片方は数値の出典ページが原典に存在しなかった。商談相手に出す前に、この工程で止められた。AIに「この出所は本物か」と聞き返しても意味はない。原典に当たる人間の手が、唯一の関門だった。

営業同行で商談前ブリーフを納品してきたなかで繰り返し直面したのも、この距離だ。AIに業界の市場規模や成長率を吐き出させること自体は、いまや数分で済む。だが営業が本当に欲しがるのは、その数字ではない。「この稟議の決裁者が何を気にしているか」「相手のこの業務フローのどこに摩擦があるか」という、一社に降りた読み解きだ。三重苦の枠組みに戻せば、網羅と即時はAIに渡せる。だが深掘りと真偽——情報を自社の文脈へ翻訳し、それが本物かを保証する工程——は、人の側に残る。

OpenAIの研究が示すのは、出力の真偽がモデル内部の最適化だけでは保証されないという事実だった。Vectaraが示すのは、出典を渡しても逸脱が消えないという事実。Deakinが示すのは、専門領域ほどそれが悪化するという事実だ。三つを重ねると、結論は一つに収束する。AIの出力が正しいかどうかは、モデルの内側では決して担保できない。担保できるのは、モデルの外側——人間と、権威ある一次情報だけである。もっともらしさは、正しさではない。

出典は本当に存在するのか — 捏造率の実証データ

前章で「危険だ」と書いた。だが、危険という言葉は、それ自体が一般論の匂いを帯びる。だから本章では一切の形容を引っ込めて、査読を通った実証研究の数字だけを並べる。問いはひとつ——AIが脚注に並べてくる出典は、本当にこの世に存在するのか。先に結論の骨格を言えば、存在しないことがある。それも、誤差では片づけられない頻度で。ただし、これから挙げる数値はいずれも特定のタスク・特定のモデルを測ったものであって、すべてのAI出力が同じ率で破綻するという意味ではない。その線引きは、各数字の脇に毎回引いていく。

学術 — 全引用の約3分の2が捏造または不正確(GPT-4o)

最も精密に測った例は、前章でも引いたディーキン大学のLinardonらの研究(JMIR Mental Health, 2025年11月12日)だ。GPT-4oに6本の文献レビューを書かせ、176件の引用を一件ずつ人手で照合した。完全な架空文献が19.9%、35件。残る141件の実在引用についても、その45.4%に誤りがあった。両者を足すと、全引用の約3分の2が捏造または不正確という勘定になる。逆に言えば、引用元も中身も完全に正確だったのは54.6%、半分強でしかない。

この数字が意味しないことも書いておく。これはGPT-4oという一モデルに、出典付きの文献レビューという、最もハルシネーションを誘発しやすいタスクをやらせた測定だ。要約や下訳のように、与えた資料の内側で完結する作業まで3分の2が破綻するという話ではない。意味するのは一点——AIに「出典を付けて調べさせる」と、その脚注は独立に裏取りしない限り信じてはならない、ということである。

医療・法律 — 専用ツールでも6回に1回〜3回に1回はハルシネーション

領域を医療に移しても、桁は変わらない。同じJMIRが2024年に載せた比較研究は、システマティックレビュー用に生成させた引用のハルシネーション率を、GPT-4で28.6%、GPT-3.5で39.6%、Google Bardに至っては91.4%と報告した。最高性能のGPT-4でさえ、生成した引用のおよそ3割が捏造である。医療という、誤りが患者に直結しうる領域でこの水準だという事実は、率そのもの以上に重い。

ここで多くの人が抱く期待を先回りして潰しておきたい。「ならば、外部資料を検索して根拠に当てる仕組み(RAG)を積んだ専用ツールを使えば消えるのではないか」。スタンフォード大学RegLab/HAIのMageshらが、Lexis+ AIとWestlaw AI-Assisted Researchという、まさにその設計の法律専用商用ツールを200超の事前登録クエリで採点した(プレプリント2024年、Journal of Empirical Legal Studies 2025年に査読掲載)。結果、ハルシネーション——事実誤りか、実在ソースを誤って引きつける誤接地——はLexis+ AIで17%、Westlawで33%。専用ツールですら6回に1回から3回に1回は起こる。汎用LLMに同じ法律クエリを投げた場合は58〜80%だったから、RAGは率を下げはする。だが、消さない。

AIが生成した引用の捏造・誤り率(複数の査読研究)
約2/3

主数値はディーキン大学の検証(GPT-4o)で、全引用の約3分の2が捏造または不正確(捏造19.9%+実在引用の45.4%に誤り、完全に正確は54.6%)。医療のシステマティックレビューではGPT-4の引用ハルシネーション率28.6%(JMIR 2024)、RAG搭載の法律専用ツールでもLexis+ AI 17%・Westlaw 33%(Stanford RegLab/HAI, Mageshら, J. Empirical Legal Studies 2025)。いずれも特定タスク・特定モデルの測定であり、全AI出力が同率という意味ではない。

RAGがハルシネーションを消さない理由は、構造を見れば腑に落ちる。検索で実在の資料を引いてきても、その資料に書いていない主張を、引いてきた資料の脚注を付けて言い切ってしまう——誤接地——余地が残るからだ。出典が実在することと、その出典がその主張を支えていることは、別の問いである。だから専用ツールを入れても、弁護士はなお全引用・全命題を独立に検証しなければならない。検索を足すことは、検証を省く理由にはならない。

専門家の査読すら、AIの捏造を取りこぼす

では、出力を一人の専門家が最後に目視で確認すればよいか。ここに本章で最も重い事実がある。トップ会議NeurIPS 2025の採択論文をめぐっては、2026年初頭に二つの分析が相次いだ。一つは大規模解析のGhostCite(Xuら, arXiv:2602.06718)で、AI/MLとセキュリティのトップ会場の論文56,381本・220万件の引用(2020〜2025年)を調べ、1.07%(604本)に無効または捏造された引用が混入し、2025年だけで前年比80.9%増だったと報告した。もう一つは別系統の検出で、GPTZeroによる走査をまとめた分析(Compound Deception, arXiv:2602.05930)が、NeurIPS 2025の採択論文のうち51本に計100件の捏造引用、別集計では53本に捏造引用が残っていたとした。出所の異なる二つの数字だが、指している事実は同じだ——3〜5名の専門研究者が査読を通したトップ会場の論文ですら、捏造引用はゼロにならない。

この1%という数字を過大に読んではいけない。99%の論文は無事だった、とも読める。だが本章の文脈で効くのは比率ではなく事実の方だ。専門家の目を、それも複数の目を通しても、AIの捏造引用はゼロにならない。理由は単純で、もっともらしく整った脚注は、人間が「これは怪しい」と感じる手がかりを与えないからだ。著者名も、年も、誌名も、自然に見える。だからこそ照合されずに通る。AIの誤りは、最終工程に専門家を一人置けば防げるという種類のものではない。問題は率ではない。もっともらしい嘘は、最後に一人が見直すだけでは漏れる。だから検証は、確認という作業ではなく、プロセスとして設計するしかない。

だから、専門家のレビュー・検証・監修が「必須」になる

前章までで見たのは、生成AIが「もっともらしさ」を最適化するよう設計されており、専門領域ほど出典を捏造するという、機構そのものの危うさだった。ここから先は、その危うさが机上の懸念ではなく、すでに現実の代償として支払われていることを確認する。論点は四つ。検証を放棄した者がいくらの制裁を受けたか(裁判所記録)、AIに「これは本物か」と確認する自己検証がなぜ無意味なのか(Mata v. Avianca)、人間の監督を法がどう義務づけたか(EU AI Act 第14条)、そして学術出版界がなぜそろって「AIは責任を負えない」と明文化したか(ICMJE)。結論を先に置けば、専門家による検証は「あれば望ましいもの」ではなく、構造上「なければ成立しないもの」だ。

検証を放棄した代償 — 世界で1,500件超の裁判所制裁

AIの捏造を「いずれ問題になるかもしれない」と語る段階は、もう過ぎた。法律研究者のDamien Charlotin氏が公開するAI Hallucination Cases Databaseには、AIが生成した捏造引用が原因で裁判所から指摘・制裁を受けた事案が、2026年5月時点で世界1,500件超、登録されている。データベースの性質上この件数は日々更新されるため、時点を添えた概数として読んでほしい。内訳を見ると、約69%が米国に集中し、カナダ、オーストラリア、英国、イスラエルと続き、確認されているだけで30か国を超える。最も頻発している類型は、もっともらしい書式で書かれた「架空判例」の引用だ。実在しない判決を、実在する判決のように準備書面へ差し込んでしまう。

代償は金額として現れている。米国で報じられた最大級の制裁は、オレゴンの連邦地裁が弁護士2名に科した合計11万ドルだ。ただし負担は等分ではない。ABA Journalの報道によれば、主たる責任を問われた弁護士に弁護士費用8万ドルと制裁金約1.5万ドル、もう1名に追加の弁護士費用1.4万ドルという内訳で、書面の作成・署名に直接関与した側に重く配分されている。共通するのは、いずれも「AIが間違えたこと」そのものではなく、「人間が検証を怠ったこと」が咎められている点だ。AIは道具であり、提出物に責任を負うのは署名した人間である——裁判所はこの一線を、繰り返し確認している。

Mata v. Avianca — AIに「本物か」と聞いて「本物」と嘘をつかせた話

この一連の事案の象徴的な発端が、2023年にニューヨーク南部地区連邦地裁で起きたMata v. Aviancaだ。航空会社を相手取った訴訟で、原告側の弁護士はChatGPTを使って準備書面を作成し、6件の判例を引用した。問題はその先にある。弁護士は不安を覚えたのか、ChatGPTに「これらの判例は本物か」と確認した。ChatGPTは「実在する」と答え、しかも「WestlawやLexisNexisといった信頼できるデータベースで見つかる」とまで保証した。

その6件は、すべて架空だった。判決を書いた裁判官も、引用された判例文も、存在しなかった。Castel判事は連邦民事訴訟規則Rule 11に基づき、関与した弁護士2名と所属事務所に、それぞれ5,000ドルの制裁を科した。ここで注目すべきは金額の小ささではなく、検証の構造的な失敗のかたちである。弁護士は確かに「確認」を行った。だが確認した相手が、捏造の当事者であるAI自身だった。嘘をついた者に「いま言ったことは本当か」と尋ね、「本当だ」という返事を信用したに等しい。

ここに、本章の核心の一つがある。AIにAIの出力を検証させる「自己検証」は、原理的に無意味だ。前章で見たとおり、生成的な誤りはモデルの設計に根ざした統計的性質であり、同じ機構が「これは正しい」という判定にも同じ自信で働く。検証の主体は、生成したシステムの外側になければならない——すなわち、外部の人間か、一次情報そのものでなければならない。Mata v. Aviancaが30か月で少なくとも十数件の同種制裁を呼び寄せたという事実は、この教訓がいかに反復されているかを示している。

EU AI Act 第14条は、人間の監督と「過信」対策を法が義務化した(高リスクAI限定)

検証を人間に委ねるべきだという要請は、いまや業界の作法を超えて、法の条文に書き込まれている。EU AI Act 第14条は、高リスクAIシステムについて「使用期間を通じて、自然人が実効的に監督できるよう」設計・開発することを義務づける。監督を担う人間には、(a) システムの能力と限界を理解し動作を監視できること、(b) AIの出力に自動的に・過度に依存する傾向——いわゆるautomation bias——に常に留意すること、(c) 出力を正しく解釈できること、(d) 状況によっては「AIを使わない」「出力を無視する」と判断できること、が求められる。

高リスクAIへの人間監督義務(EU AI Act 第14条)
義務化

高リスクAIシステムには「自然人が実効的に監督できる」設計が法的に義務づけられ、条文はautomation bias(AI出力への自動的・過度な依存)への留意を明示的に要求する。出力を無視し、AIを使わないと判断する権限を人間に残すことまで求める。義務の対象は「高リスクAI」に限定される点に注意。出典:EU AI Act Article 14(Human Oversight)。

注目したいのは (b) だ。法が、automation biasという人間側の心理的な弱さを名指しで警告している。技術の欠陥ではなく、「AIだから正しいだろう」と人間が無批判に寄りかかってしまう傾向そのものを、リスクとして条文に書き込んでいる。これは本稿が一貫して懸念してきたもの——前章の「もっともらしさ」に人が説得されてしまう構造——と、まっすぐ重なる。ただし二重に留保が要る。第14条の義務は「高リスクAIシステム」に限定され、一般的な商談前リサーチでのLLM利用は通常その分類に当たらない。そしてEU AI Actは日本企業に直接適用される法律でもない。それでも、人間の最終責任を制度として要請するという設計思想は、法域や用途を超えて参照に値する規範的な趨勢だ。AIの出力に最終的な責任を負うのは人間だ、という方向性が、ここにある。

医学・学術出版界は「AIは責任を負えないので著者になれない」で一致した

同じ結論に、もう一つ別の道筋からたどり着いている界隈がある。学術・医学出版だ。国際医学雑誌編集者委員会(ICMJE)は、2025年4月に更新した勧告で、AIツールについて「内容の正確性・完全性・独自性に責任を負えないため、著者になり得ない」と明記した。世界医学雑誌編集者協会(WAME)も「チャットボットは著者になれない」と述べ、出版倫理委員会(COPE)や国際STM出版社協会も同趣旨を示している。

この一致が含意するのは、単なるクレジット表記のルールではない。論点はaccountability——説明責任の帰属先である。AIは文章を生成できても、その内容が正しいことの責任を引き受けられない。責任は、検証し、署名し、撤回や訂正の義務を負える人間にしか帰属しない。だからAIの生成物は、人間の検証・監修を経て初めて公表に値する、という規範が業界横断で成立している。これは出版という説明責任の極めて重い領域での規範ではあるが、誰が間違いを引き受けるのかという問いの構造は、ベンダーが作るリサーチにもそのまま効く。法律の世界でRule 11が署名者に責任を負わせるのと、寸分違わず同じだ。

専門家1人のレビューでも漏れる — だから検証は「プロセス」で設計する

ここまでで「人間が検証すべきだ」という結論は固まった。だが、その人間検証を「最後に専門家が一人、目を通す」という運用に矮小化すると、もう一段の落とし穴がある。前章で触れたNeurIPSの事例が、それを示している。分野で最も訓練された複数の目が査読しても、捏造引用は素通りした。これは査読者の怠慢ではない。書誌情報の真偽の確認は、論文の中身を評価する専門性とは別の作業であり、「内容を読み込む」という査読の主目的の死角に落ちるからだ。ここから導かれる帰結は明快だ。検証を個人の注意力に委ねてはならない。検証は、人が「気をつける」ことではなく、工程として設計されるべきものである。

  • ソースの階層を決める。一次情報・官公庁統計・査読済み研究・第三者レビューを区別し、何をどの階層の根拠で裏づけるかをあらかじめ定める。AIの出力は、それ自体を根拠にしない。
  • 命題ごとに一次照合する。出力された主張を分解し、一つひとつを元の一次資料に当たって確認する。要約タスクですら数%〜十数%は元文書にない内容を生む以上、「出典が付いている」ことと「出典が裏づけている」ことは別物として扱う。
  • 出典の書誌を独立に検証する。引用された文献・判例・統計が実在するか、識別子(DOI・事件番号・調査名)まで含めて、生成元とは別の経路で突き合わせる。これがMata v. Aviancaで抜け落ちた工程だ。

ここで、自社の打ち手にいちばん鋭い反証を先回りで引き受けておく。「専門家を介しても捏造率はゼロにならないなら、検証を足す意味はどこにあるのか」。正当な疑問だ。そして本稿は、検証プロセスが捏造率を「ゼロにする」とは主張しない。主張するのは、向きと度合いの話だ。NeurIPSの事例が示したのは、内容評価が主目的の査読では書誌の真偽が死角に落ちる、ということだった。裏を返せば、書誌の独立照合を「内容評価とは別の独立した工程」として明示的に組み込めば、その死角は埋められる。実際に私たちの納品工程では、AIが出した出典のうち一定割合を、原典に当たる段で差し止めている——前述の物流案件で架空の調査機関名を止めたのも、その一例だ。一人の専門家が最後に眺めるだけでは漏れる誤りを、階層化・命題照合・独立検証という別々の工程で重ねて捕まえる。人間が間違える可能性を、人間一人に頼らない仕組みで引き下げる。ここに、検証規律の値打ちがある。

VRIが立て付けの核に置く「AI×専門家」の二層分業は、この要請に直接応える設計だ。第1ピラーで「AIは答えを出さない。専門家が読み解く」と述べたことを、本章は方法論として裏打ちしている。AIは網羅的な収集と速さを担う。人間のアナリストは、その出力を検証し、出典を一次資料に当たって確認し、貴社の商談文脈へ翻訳する。前章の逆説——ありふれた話題ほどAIは正確で、希少・専門・最新の話題ほど捏造に走る——は、まさにリサーチが本来の価値を持つ領域でこそ、人間の検証が必須になることを意味する。加えて、第三者データを正しく引き、自社製品に触れない一次情報の比率を保つという中立性の引用規律も、この検証規律の一部だ。検証とは、真偽を確かめることであると同時に、結論ありきの牽強付会を自ら戒めることでもある。AIにAIをチェックさせても、嘘は嘘のまま残る。検証は、外の人間と一次情報にしか宿らない。

AI×専門家は、なぜ「どちらか単独」に勝つのか

前章までで、AI単独で調べきることの危うさと、専門家の検証・監修が「あれば良い」ではなく「必須」であることを見た。ここで素直に進めば、結論は「だから人間とAIを組ませればいい」になる。だが、その一歩を急ぐと足を踏み外す。「人間+AIは常に最良の単独に勝つ」という直観は、実は研究の蓄積によって反証されている。この章は、その反証を先に正面から引き受けたうえで、それでも増強が効くのはどういう条件かを切り分ける。結論を先取りすれば、価値は「混ぜること」ではなく「役割を設計すること」にある。

「人間+AIが常に勝つ」は誤りだ — MIT 106研究が示す条件

最初に、自分たちの立て付けにとって最も都合の悪い証拠を置く。マサチューセッツ工科大学のミシェル・ヴァッカロらが2024年にNature Human Behaviour誌へ発表したメタ分析は、人間とAIの協働を扱った106件の実験を統合した。手法はメタ分析、つまり個別実験の効果量を束ねて平均的な傾向を推定するものである。得られた結論は身も蓋もない。人間-AIチームは、平均すれば、人間単独・AI単独のうち優れたほうに勝てていなかった。

ただし、これを「協働は無意味」と読むのは早い。同じメタ分析は、タスクの性質で結果がきれいに割れることも示している。正解が一つに収束する決定タスク——診断や分類のような収束的な問い——では、すでにAIが人間を上回っている領域に人間を足すと、しばしば精度がむしろ下がった。一方、決まった正解のない創造タスク——文章生成やアイデア出しのような発散的な問い——では、有意な正の相乗効果が観測された。役割が本当に補い合う場面でだけ、足し算がプラスに転じる。

ここで、この反証の刃が自社に返ってくる可能性を、正面から引き受けておきたい。リサーチの出典照合は、「実在するかどうか」という正解が一意に決まる、どちらかと言えば決定タスク寄りの作業だ。メタ分析のロジックに素直に従えば、AIが優位な照合作業に人間を足すと精度がむしろ落ちかねない領域に近い。では、なぜ人間を残すのか。答えは、人間の役割を「照合の最終判定者」に置かないからだ。前章で見たとおり、AIが構造的にアクセスできない情報がある——Webに出ない有料データベース、未公開の一次資料、現場の文脈。人間の本当の仕事は、AIの判定に屋上屋を架すことではなく、AIが触れられない一次情報への独立したアクセス経路になることである。同じ問いをAIにもう一度確認させるのではなく、AIが見ていない原典に人間が当たる。この役割定義であれば、決定タスクの刃と矛盾しない。

念のため、しばしば引かれるバージニア大学の診断研究にも触れておく。AI単独の診断精度が約92%だったのに対し、医師は約76%。AIに医師を加えると精度はむしろ下がった、という報告だ。ただしこの数値は二次的な要約を経由した引用であり、出典を逐一確かめる本サイトの方針に照らせば、原典の条件設定までは押さえ切れていない。控えめに、傾向を示す一例として読んでほしい。

人間-AIチームと、優れた単独との比較(MIT・Nature Human Behaviour 2024)
106研究

ヴァッカロらのメタ分析。平均では人間-AIチームは最良の単独に勝てず、創造タスクでは正の相乗効果、決定タスクではしばしば負の効果。手法はメタ分析(個別実験の効果量を統合)。だからこそ役割設計が要る。出所:Vaccaro, Almaatouq & Malone, Nature Human Behaviour, 2024。

なぜ効くのか — 相補的な誤りと、情報の非対称性

では、効く場合は何が効かせているのか。鍵は二つある。誤りパターンの相補性と、情報の非対称性だ。AIはスケール——膨大な文献を一息に走査するパターン認識と、疲れても気が散ってもブレない一貫性——に強い。人間は、AIが構造的に触れられないものを握っている。社外に出ない私的な文脈(この稟議の決裁者が何を気にしているか)、因果と倫理の判断、そして「この状況は学習データの分布の外だ」と気づく嗅覚である。相乗効果が生まれるのは、二者の弱点が相関していないとき、つまり一方が外す場面でもう一方が外さないときに限られる。逆に、AIが圧倒的に正しい収束的判断では、人間の弱点だけが純増する。MIT 106研究が決定タスクで負の効果を見たのは、この理屈の裏返しだ。

この相補性を作業の言葉に落とすと、役割分担は素直に決まる。AIが収集・要約・草案・選択肢の生成を担い、人間が一次情報への独立アクセスと検証・自社文脈への翻訳・意思決定を担う。前章で見たとおりAIは出典を捏造し、ニッチな専門領域ほどその確率が跳ね上がる。だから、AIの出力をそのまま納品物にはしない。人間が原典に当たって真偽を確かめ、相手の文脈へ翻訳して初めて、量が意味に変わる。これは本サイトが繰り返し述べてきた二層分業——前に立つ営業と、その背後で弾を磨く後方のアナリスト——の、理論的な裏打ちでもある。

増強は確かに効く — ただし「フロンティアの内側」で

反証を先に置いたうえで、増強の実証を見る。ナレッジワークでの旗艦的な証拠が、ファビオ・デラックア、イーサン・モリック、カリム・ラカニらがボストン コンサルティング グループと組んで行った実験だ。デザインは事前登録された無作為化比較試験(RCT)。BCGのコンサルタント758名を無作為に割り付け、片方にGPT-4を与えた。AIの能力の内側にあるタスクでは、AIを使ったコンサルタントは完了タスク数が約12%多く、約25%速く、人間評価による品質が約40%高かった。より示唆的なのは、伸びの偏りだ。成績下位半分が約43%伸びたのに対し、上位半分は約17%。AIは底上げの装置として働き、技能の差を均す方向に作用した。

フロンティア内タスクでの増強効果(BCG×ハーバード, GPT-4, n=758)
約40%品質向上

事前登録RCT。完了タスク数+約12%、約25%高速、品質は人間評価で約40%向上。下位層+約43%に対し上位層+約17%と、伸びは下位ほど大きい。数値はソース間で多少振れ、本稿は丸めて表記。出所:Dell'Acqua et al.『Navigating the Jagged Technological Frontier』(2023)。

同じ実験は、最良の警告でもある。フロンティアの外側——一見似ているが、実はAIの真の能力の外にあるよう設計されたタスク——では、AIを併用したコンサルタントのほうが正答率が約19ポイント低かった。仕組みは単純で、かつ恐ろしい。AIが自信たっぷりに、もっともらしく、しかし誤った答えを差し出すと、人間がそれを過信する。研究者はこれを「ハンドルを握ったまま居眠りする」と表現した。検証と文脈翻訳という人間の役割は、形式的なお飾りではない。それが抜けた瞬間に、増強は劣化へ反転する。これこそ、価値が「混ぜること」ではなく「役割の設計」にあることの、最も鮮やかな証拠だ。

AIは量・人間は判断 — 乳がん検診MASAIが示す分業(ただし外挿には注意)

相補的な分業が現実の現場で結実した、クリーンな例が医療にある。スウェーデンで10万人超の女性を対象に行われた乳がん検診の無作為化比較試験、通称MASAI試験だ。AIが低リスク症例を選り分けて読影をシングル化し、疑わしい所見を放射線科医に回す。量の振り分けはAI、最終的な判断は人間、という役割分担である。

結果は段階を分けて正確に読む必要がある。2023年の初期・安全性解析(Lancet Oncology)では、放射線科医の読影負荷が約44%減り、がん検出も増えた。そして2025年の最終RCT(Lancet)が確認したハードエンドポイントは、中間がんの約12%減と、安全性・非劣性である。検出増の数字は解析段階によって振れるため、ここでは確かめられた範囲——「読影負荷を大きく下げ、検出の質を落とさずに、人間が見るべき症例に集中できた」——として読んでほしい。AIにトリアージを任せ、人間が読影を握る構成は、片方単独より良く出た。

ただし、ここで外挿の妥当性に釘を刺しておく。MASAI・乳がん検診・法律審査・カスタマーサポートは、いずれも正解が明確に定義され、大量の構造化データと確立した評価指標が揃った領域だ。それに対して商談前リサーチの「この稟議の決裁者が何を気にするか」には、その条件が揃わない——むしろ本稿が「分布外・正解なし・一次情報依存」と認めてきた領域である。だからこれらの実証が支えるのは『役割分担という設計思想の妥当性』までであって、『営業リサーチでの具体的な効果量』まではない。設計思想の根拠として読み、効果は控えめに見積もるのが正しい。

AIトリアージ+人間読影の乳がん検診(MASAI試験, スウェーデン)
読影負荷-44%

10万人超を対象とした、この種で初の無作為化比較試験。初期解析(Lancet Oncology 2023)で放射線科医の読影負荷が約44%減・検出増を確認。最終RCT(Lancet 2025)のハードエンドポイントは中間がん約12%減と非劣性・安全性。「AIが量・人間が判断」の分業の実例だが、構造化された医療領域の知見であり営業リサーチへの外挿には留保が要る。

生産現場の量的増強としては、エリック・ブリニョルフソンらが米国の大手企業で行ったカスタマーサポートの研究も外せない。5,179名のサポート担当に生成AIアシスタントを段階的に展開した結果、1時間あたりの処理件数が平均14%上がった。ここでも伸びは新人に偏り、新人・低スキル層では34%伸びた一方、熟達層への効果はわずかだった。AIが上位者の暗黙知を写し取り、それを全員に配ったからだと著者らは読む。人間+AIの系は、人間だけより速く熟練を伝播させた。

専門サービスでは、人間の価値が「生産」から「監督」へ移る

法律のような専門サービスでは、AIはすでに、狭く定義されたタスクで若手人間に並ぶか、上回る。GPT-4は米国の統一司法試験(UBE)で約297点を取り、全実施法域の合格圏に入った。契約審査では、LawGeexのベンチマークが、NDAの論点抽出で経験豊富な弁護士に匹敵する精度を——弁護士の平均約92分に対し、数秒で——出している。

ここで誠実な留保を置く。これらはベンダー発、あるいは狭いタスクに限ったベンチマークであり、信頼度はmediumと扱うべきだ。だから言えるのは「狭く定義されたタスクで」に限る。法実務の全体をAIが置き換えるという話ではないし、前章で見たとおり、RAGを積んだ法律専用ツールですら6回に1回から3回に1回はハルシネーションを起こす。だが、この限定つきの事実が指し示す方向ははっきりしている。第一稿の量産がほぼゼロコストになるなら、専門家の価値は「生産」から「監督・説明責任・判断」へ移る。シニアの専門家が正解の基準を定め、出力を監査し、結果の責任を負う。AIが量をさばき、人間が信頼と説明責任の層を載せる。これが「専門家が監修したAI」の商業的価値であり、前章で見たEU AI Act第14条が人間監督を要請し、医学雑誌の編集者団体が「AIは責任を負えないので著者になれない」と明文化したのと、同じ方向を向いている。

実装の作法 — タスクごとの配置と、検証の組み込み

以上を踏まえると、2025年に各所の研究と現場の知見が収れんしつつある実装の作法は、次の三つに要約できる。

  • 一律禁止でなく、タスクごとに配置する。「AIは使う/使わない」を組織全体の方針で決めるのは粗すぎる。ワークフローを工程に分解し、それぞれにAI主導か人間主導かを割り当てる。フロンティアの内側はAIに任せ、外側は人間が握る。
  • 検証と、確信度に応じたルーティングを組み込む。ボトルネックは「AIにできるか」から「正しくできたかをどう確かめるか」へ移った。MASAIが低リスク症例を選り分けたように、AIの確信度が低い案件ほど人間へ回す経路を、仕組みとして設計する。
  • 「Xには使わない」ルールを、定期的に見直す。フロンティアは動く。今日AIが外す領域も、半年後のモデルでは内側に入りうる。境界の固定は、機会損失か事故のどちらかを生む。境界そのものを、継続して測り直す。

もう一つ、組織にとって見落とせない論点がある。BCG実験の後続研究は、働き手をおおむね三つの型に分けた。AIと深く融合する「サイボーグ型」、人間とAIの役割を明確に分けて人間が主導権を握る「ケンタウロス型」、そしてAIの出力を受け身で丸呑みする「自動化丸投げ型」だ。別の実験では、ケンタウロス型が最も高い精度を出した。さらに重要なのは、時間軸での違いである。ケンタウロス型は領域の専門性を深め続けるのに対し、丸投げ型は専門性もAI活用スキルも育たない。受け身の「AIに任せる」採用は、短期の楽さと引き換えに、組織から判断力を抜き取っていく。役割を明確に分け、人間が判断と検証を握る——それは、高精度であると同時に、専門性が持続的に育つ唯一の形でもある。人間とAIを混ぜれば勝てるのではない。役割を正しく分けたときだけ、勝てる。

5つの選択肢を比べる — 調査会社・コンサル・完全内製・AI単独・AI×専門家

「AIに専門家を足せばいい」という結論は、それだけでは宙に浮く。貴社が明日、担当業界の構造変化を商談に翻訳した一行を欲しいとき、現実に取りうる手段は限られている。調査会社にレポートを買う、コンサルに発注する、社内にアナリストを抱える、AIに自分で調べさせる——そして、それらの間に立つ第五の形。本章は、この五つを精度・コスト・所要期間・汎用性と専有性・属人性・説明責任の所在という六つの軸で並べる。先に断っておくが、どれかを断罪するための章ではない。各モデルはそれぞれの経済合理性の上に立っており、強みも本物だ。問題はむしろ、どれもが営業現場の欲しいものの一部しか満たさない、という構造のずれにある。

調査会社 — 汎用・低単価・反復課金、または専有・高額・長期

市場調査会社のモデルは、内部で二つに割れている。一つはシンジケート(既製)調査。一本のレポートを多数の顧客で費用分担するため単価は低く、データは収集済みだからその日に手元へ届く。市場規模、成長率、主要プレイヤーの動向——「業界の地図」を素早く掴むには有効だ。だが多数で共有する前提が、そのまま汎用性に跳ね返る。シンジケートで得られるのは、突き詰めれば「他社がすでに聞いた質問の答え」であり、貴社固有の稟議や競合状況には踏み込めない。もう一つはカスタム調査。単一クライアントが全費用を負担するため専有でき、固有の問いに深く答えられるが、設計から納品まで数日から数カ月、案件によっては数年を要し、価格も一桁上がる。トレードオフは〈汎用・速い・安い〉対〈深い・専有・遅くて高い〉で、きれいに対称的だ。

このモデルの経済的な強さが最も見えるのは、Gartner型のリサーチ・サブスクリプションだ。年額はおおむね2万5,000〜15万ドルが中心帯で、全社契約になると50万ドルを超える。課金は座席(named user)単位で、座席あたり平均はおよそ3万ドルとされる。注目すべきは収益の質だ。Gartnerは研究セグメントだけで総収入の約81%を占め、複数年契約で予測可能性が高く、顧客維持率は約85%、既存顧客の支出増を示すウォレット維持率は100%を超える。「売り切り」ではなく、毎年積み上がる反復課金で、しかも特定の個人に依存しない。誰が担当でも同じ調査基盤から同じ品質が出る——この低属人・高粗利のSaaS的な経済性こそが、調査会社モデルの当面の防壁である。汎用ゆえに薄いが、汎用ゆえに何度でも、安定して売れる。

Gartner型サブスクの料金帯と収益構造(Vendr / 各社開示ベース)
年$25K〜$150K

中心帯。全社契約は$500K超、座席平均は約$30,000。研究セグメントが総収入の約81%を占め、顧客維持率約85%・ウォレット維持率100%超。反復課金・低属人・高粗利という調査会社モデルの構造的強みを示す。出所:Vendr「Gartner Software Pricing 2026」、Latterly「Gartner Business Model」ほか。

コンサル — カスタム・高単価・属人・高粗利

コンサルティングは、調査会社とちょうど対極にある。徹底してカスタム、深い、そして高い。MBB(McKinsey・BCG・Bain)の課金は週次の固定フィーが基本で、米連邦調達リストなど公開実勢を代理指標として読むと、McKinseyの中規模チームでおよそ週15万ドル、アソシエイトを足すと週18万ドル前後、Bainは小チームの週11万ドルからフルチームの週16万ドルまで。標準的な8週間の案件で約120万ドル、本格的な戦略案件はおおむね50万〜125万ドルに着地する。これはレートカードそのものではなく公開調達ベースの目安だが、桁感は掴める。

なぜこれが成立するのか。利益構造はピラミッド・レバレッジにある。少数のパートナーが売り、マネージャーが監督し、広いアナリスト層が手を動かす。12週・100万ドルのモデルケースでは、人件費32万4,250ドルに出張・間接費23万5,578ドルを乗せて総コスト約56万ドル、利益率48.5%が立つ。深さと高粗利を同時に取れるのがこのモデルの本物の強みだ。一方で弱みも構造に埋まっている。クライアントとの関係が一握りのシニアパートナーに依存する属人性、キーパーソンが抜ければ関係ごと揺らぐリスク。ただし公平を期せば、ファーム側もこれを放置してはいない。「個人ではなくチーム一体で仕えている」と顧客が感じる設計——複数名で関係を持ち、忠誠を個人ではなくファームに帰属させる仕組み——で属人性を緩和しようとしている。属人性は弱みだが、緩和への意図的な設計もまた、このモデルの一部だ。

単価差を一点だけ刺しておく。McKinsey単独の2024年売上は約188億ドル。これは大手市場調査会社のトップであるIQVIAの2024年通期売上、約154億ドルを、1社で上回る。BCG約135億ドル、Bain約70億ドルを足せばMBBだけで年約390〜400億ドル規模だ。ただし、両者は売っているものが違う。コンサルが売るのは戦略提言という意思決定支援であり、IQVIAが売るのはヘルスケアのデータ・アナリティクス事業である。隣接するが性質の異なる知的サービスだ。だからこの比較は「同じものを売って単価が違う」のではなく、「深く狭く高単価で稼ぐコンサル」と「データ基盤を薄く広く反復課金で稼ぐ調査会社」という、稼ぎ方の構造差を象徴するものとして読んでほしい。

MBB戦略案件の課金水準(RocketBlocks / Slideworks、公開調達ベース)
$500K〜$1.25M

標準8週案件で約$1.2M。週次フィーはMcKinsey $150K〜$180K、Bain $110K〜$161K。12週・$1M案件のモデルで利益率48.5%(人件費$324,250+間接費$235,578)。McKinsey単独売上$18.8Bは、IQVIAの2024年通期総売上$15.4Bを上回る。出所:RocketBlocks、Slideworks、Management Consulted。

完全内製 — 理想的だが、人材コストの壁で止まる

三つ目は、社内に専任アナリストを抱える完全内製だ。理想としては最も筋がいい。自社業務に最適化され、意思決定のスピードが速く、読み解きが組織に蓄積されていく。前章までで論じてきた「自社の文脈に翻訳された読み解き」を、最も純度高く実現できるのは、本来この形のはずだ。だが入口で壁に突き当たる。海外の試算では、フルロードで稼働する社内専任アナリスト1名のコストは年15万〜17.5万ドル(シニア相当・総コストベース)とされる。これは給与だけでなく、福利・採用・育成・設備までを含んだ数字だ。日本の相場感はこれと母集団が異なり、賃金構造基本統計など公的統計で見るリサーチ・企画系職の給与水準はこれより低めに出ることが多いが、採用・育成・設備・機会費用まで載せた総コストで考えれば、専任1名を抱える負担が小さくないことは変わらない。そして、本稿が出発点に置いた人を増やせない時代——正社員不足の企業が5割を超え、情報サービス業では7割に達する現実——のなかで、専任のリサーチ人材を採り、育て、定着させるという前提そのものが崩れている。完全内製の理想は、人材コストと採用難という二重の壁の手前で止まる。これは第1ピラーで論じた『完全内製の壁』と、同じ壁である。

AI単独 — 速くて安いが、精度と説明責任に穴がある

四つ目は、生成AIに自分で調べさせる道だ。速い、桁違いに安い、そしてスケールする。合成データ(synthetic respondents/合成ペルソナ)の登場は、この変化を非連続にした。従来は週・月単位を要した調査が、日・時間単位に縮む。象徴的なのがEYの事例で、通常6〜8週間かかる年次CEOブランド調査を、検証パートナー(Evidenza社)とともに約1,000体の合成ペルソナで再現し、実調査と95%の相関を数日で、しかも従来の数分の一のコストで達成したと報告している。ベンダー発の「最大70%のコスト削減」「100倍安い」といった数字も流通しているが、こちらは出所が供給側に偏るため「〜と報じられている」の域を出ない、と留保しておく。それでも、EYの95%相関のような検証事例とGartnerの予測(合成データは2030年までにAIモデル学習で実データを凌駕する見込み)を主軸に置けば、速度とコストの地殻変動が起きていること自体は疑う余地がない。

だが、本稿がここまで積み上げてきた通り、AI単独には精度と説明責任に構造的な穴がある。出典の捏造率は学術リサーチで全引用の約3分の2に及び、専用の法律AIですら6回に1回から3回に1回のハルシネーションを起こす。しかも知名度の低い専門領域ほど捏造率は跳ね上がる——まさに営業のリサーチが価値を持つ希少なテーマほど、AIは取りこぼし、でっち上げる。加えて合成回答者は、感情のニュアンス、文化的文脈、まったく新しい製品の需要検証に弱い。だからこそ業界のコンセンサスは一貫して「人間調査の代替ではなく補完」に落ち着いている。そして説明責任の所在が宙に浮く。医学・学術出版界がそろって「AIは内容の正確性に責任を負えないので著者になれない」と明文化し、EU AI Act第14条が高リスクAIに人間の実効的な監督を義務づけたのは、この穴を制度の側から塞ぐためだ。速くて安い。だが、その出力に誰が責任を負うのかが、AI単独では空白のままになる。

比較表 — 六つの軸で並べると、欠けているものが見える

比較の物差しは、思いつきで選んだものではない。第1ピラーで論じた営業現場の「三重苦」——網羅性・即時性・深掘り——と、買い手が商談相手に何を求めるかという外部の調査(後段で引くGartnerの買い手データ)から、六つの軸を引き出している。精度・信頼性は深掘りと真偽に、所要期間は即時性に、汎用性↔専有性は自社文脈の有無に、属人性と説明責任の所在は「組織に積み上がるか・誰が責任を負うか」に、それぞれ対応する。最右列のAI×専門家は、次章で詳述する第五の形——AIが網羅収集の速さを担い、専門家が意味の読み解きと自社文脈への翻訳、そして説明責任を担う二層分業——を先取りして置いている。

  • 精度・信頼性。調査会社=確立した手法で安定的だが汎用の範囲に限る/コンサル=深く高精度だが担当チーム次第/完全内製=自社最適だが人材の力量に依存/AI単独=速いが捏造と説明責任の穴/AI×専門家=AIの一次案を人間が一次資料に当たって検証・出典確認することで穴を構造的に塞ぐ。
  • コスト水準。調査会社=サブスクで予測可能(年$25K〜$150K中心)/コンサル=高額(戦略案件$500K〜$1.25M)/完全内製=専任1名で海外試算は年$150K〜$175K(日本相場は別途要確認)/AI単独=桁違いに安い/AI×専門家=完全内製とコンサルの間で、月額の運用費として平準化。
  • 所要期間。調査会社=既製は即時・カスタムは数カ月/コンサル=数週間〜数カ月/完全内製=速いが採用に時間/AI単独=日・時間単位/AI×専門家=AIの速さを保ちつつ検証工程の分だけ足す。
  • 汎用性と専有性。調査会社=既製は汎用・カスタムは専有/コンサル=完全に専有/完全内製=完全に専有/AI単独=学習データの平均=汎用に寄る/AI×専門家=AIの汎用収集を専門家が貴社専有の読み解きへ翻訳。
  • 属人性。調査会社=低い(仕組み化)/コンサル=高い(キーパーソン依存、ただし緩和設計あり)/完全内製=高い(一人のエースに集約)/AI単独=ない(が、それは責任主体がいないとも言える)/AI×専門家=AIで底上げしつつ読み解きを組織に残す設計。
  • 説明責任の所在。調査会社=調査会社/コンサル=ファーム/完全内製=自社/AI単独=空白(誰も負えない)/AI×専門家=検証した人間の専門家が負う。
市場規模(広義/狭義で振れる・confidence: medium)
MR $93B〜$140B / コンサル $358B〜$492B

市場調査市場は保守推計の$93B(2025)から広義の$140B(2024)まで、マネジメントコンサル市場は$358B〜$492B(2025)まで、定義差で大きく振れる。CAGRはいずれも約3.6〜4.7%。インサイト産業全体は約$1,500億超(2024、ESOMAR/Research World)。単一値の断定はミスリードになるため幅で示す。出所:Statista、Fortune Business Insights、Maximize Market Research、ESOMAR。

こうして並べると、各モデルが何を得て何を欠くかが見えてくる。調査会社は安定と反復課金を得るが、汎用の壁で貴社の一社に降りられない。コンサルは深さを得るが、高額と属人性が伴う。完全内製は最適化を得られるはずだが、人材コストの入口で止まる。AI単独は速さと安さを得るが、精度と説明責任を欠く。どれも本物の強みを持ちながら、営業が本当に欲しいもの——自社文脈に最適化された読み解きを、間に合う速さで、組織に積み上がる形で、しかも誰かが責任を負える状態で——のいずれかを、必ず一つ欠いている。次章では、産業の重心がサービス型からソフト・AI型へどう動いているかを確かめたうえで、この空白を埋める第五の形、すなわちAI×専門家のバーチャル・シンクタンクという新形態を解いていく。

産業の重心は動いている — サービス型調査からソフト/AI型へ

ここまでの議論は、一企業の言い分にすぎないのではないか——という疑いは当然ある。だから本章では、自社の現場観察をいったん脇に置き、リサーチ業界そのものの収益データを並べる。お金がどこへ流れているかは、業界が次にどこへ動くかを、どの宣言よりも正直に語るからだ。結論を先に言えば、インサイト産業の重心は、人手をかけて調べるサービス型から、ソフト/AI起点の生産へと、すでに大きく傾いている。そして同じデータは、傾けば傾くほど、翻訳と検証という人間の層に価値が逃げていくことも示している。

リサーチソフトは市場調査本体の2倍速で伸びる

ESOMARの集計をResearch World経由で読むと、2024年のインサイト産業は全体で約1,500億ドルを超えた。注目すべきは総額ではなく、内訳の伸び方の差である。三つの柱のうち、リサーチソフト(調査の設計・集計・分析を担うツール群)が約620億ドルで前年比およそ+11.5%。これに対し、人手を介する市場調査本体は約560億ドルで+4.8%にとどまる。レポーティングが約350億ドルで+8%前後。つまり最大の塊であるソフトが、調査サービス本体の2倍を超える速さで伸びている。

この数字を、本サイトが先に引いたESOMARの2023年データ(産業全体約1,420億ドル、ソフト+12.4%)と並べると、一過性ではないことが分かる。2年続けて、最も速く伸びる区画はソフトだった。市場調査を主業とする企業の世界売上シェアは、ここ1年で約3ポイント沈んでいる。重心は、人が時間をかけて聞き取り集計する営みから、ツールが処理する営みへ、静かに、しかし継続的に移っている。

リサーチソフトと市場調査の成長率(ESOMAR・2024年、Research World経由)
+11.5% vs +4.8%

リサーチソフト部門(約620億ドル)が、人手を介する市場調査本体(約560億ドル)の2倍超の速さで伸びた。インサイト産業の重心がサービス型からソフト/AI型へ移っていることを示す、最も明確な定量証拠。出所:ESOMAR『Inside the $153bn Insights Industry』(Research World)。

ただし、ここで因果を急がないでおきたい。ソフトが速く伸びることは、調査という仕事が要らなくなることを意味しない。後述するように、業界の内側ではむしろ「調べた結果を誰が信頼できる形に仕立てるか」という、人手の付加価値をめぐる綱引きが激しくなっている。重心が動いた、という事実と、人がいらなくなる、という結論のあいだには、まだ距離がある。

二極化は鮮明 — 同じ「AI採用」でも、健全さが3倍ちがう

重心の移動は、供給側の財務体力の差として、もっと生々しく現れている。Greenbookが毎年実施する業界調査GRITの2025年版は、サプライヤーの収益健全性を指数化している。テクノロジー先行型のサプライヤーがおよそ98.2を記録したのに対し、従来型のフルサービス調査会社は34.0。同じ「AIを使っている」と答える会社のあいだで、稼ぐ力が3倍近く開いた。同じGRITが、AIの組み込みはもはや例外ではないとも記す。サプライヤーの67%が生成AIをクライアントへの納品物に直接組み込み、Qualtricsの2025年調査でも研究者の89%がAIツールを使い、83%の組織が2025年にAI投資を大幅に増やすと答えた。採用そのものは、もう差別化要因ではない。

サプライヤーの収益健全性スコア(GRIT 2025)
98.2 vs 34.0

テクノロジー先行型サプライヤー98.2に対し、フルサービス調査会社34.0。AI採用が普遍化した後に開いたのは「持っているか」ではなく「どこに適用したか」の差だった。出所:Greenbook『2025 GRIT Business & Innovation Report』。

採用は普遍化、しかし満足度はわずか13%という分断

ここからが、本サイトの主張にとって最も重要な数字だ。採用は普遍化したのに、満足度は伸びていない。むしろ割れている。GRIT 2025によれば、AIに高い満足を示すのはツールを作り売るテック側のサプライヤーで、買い手であるブランド側の研究者の満足度は、わずか13%にとどまる。なぜ採用率と満足度がこれほどずれるのか。同じ調査が、その隙間を埋める数字を並べている。

  • データ品質への懸念が前年比+40%。主因として名指しされたのは、合成回答者(AIが生成した架空の回答者)の濫用と、Z世代を中心とした調査疲れだ。集める速度が上がるほど、集めたものが本物かという不安が増している。
  • 調査予算が経営の意思決定を支えていると答えた買い手は34%。前年の65%から、わずか1年でほぼ半減した。調べてはいるが、その結果が経営の判断に効いている実感が急速に薄れている。
  • インサイト専門職の50%が、AIとの協働のためにリスキリング中。買い手の33%は、従来の調査専門性よりAIリテラシーを重視すると答えた。専門家の役割が、調べる人から、AIの出力を使いこなし検証する人へと書き換わりつつある。
AI採用後のブランド側研究者の満足度(GRIT 2025)
13%

AI採用は普遍化したが、買い手側の満足度は13%。一方でデータ品質への懸念は前年比+40%、調査予算が経営判断を支えると答えた買い手は34%(前年65%)へ急落した。出所:Greenbook『2025 GRIT Business & Innovation Report』。

この乖離をどう読むか。GRITの分析が示す手がかりは明快だ。目標を超過達成したサプライヤーは、AIを思い切って中核機能——レポート作成や調査設計——に当てていた。勝敗を分けたのは、AIを持っているかどうかではなく、どこに適用するかを知っているかどうかだった。速く集める部分にAIを置き、集めたものの意味を読み解き、品質を保証する部分に人を残す。満足度13%という低さは、AIが役に立たない証拠ではなく、適用箇所の設計を誤った組織が多い、ということの裏返しと読むのが妥当だろう。

ディープリサーチが、調べる行為をコモディティ化する

重心の移動は、専門のリサーチ会社の外でも進んでいる。ChatGPT、Perplexity、Claudeに実装された「Deep Research」機能は、数分から15分ほどかけて数十のソースを自律的に参照し、出典付きの調査ドシエを書き上げる。かつてアナリストが半日かけた一次的な情報収集の相当部分が、待つだけで出力されるようになった。McKinseyの『State of AI 2025』では、AIを使う組織は88%(前年比+10ポイント)、生成AIの定常業務利用は71%に達した。米国では従業員の56%が業務で生成AIを使っている。調べるという行為そのものが、特別な技能ではなく、誰の机にも載った標準機能になりつつある。

ここに、本サイトの立論を支えるねじれがある。調べることがコモディティ化すればするほど、希少になるのは「調べた中身を信用してよいか」「これは自社の商談で何を意味するか」を見極める層だ。安く速く大量に集まる時代の隘路は、入手ではなく検証と翻訳に移る。GRITが記録した満足度13%とデータ品質懸念+40%は、まさにこの隘路が業界全体で詰まりはじめた音である。リサーチソフトのDIY化が最速で伸びているのに買い手が満たされないのは、ツールが情報を増やす一方で、混乱を引き算する人間の層が追いついていないからだ。重心はソフトへ動いた。だが満足は動いていない。空席になったのは、速さではなく、信用と翻訳のほうだ。

この先の予測 — 合成データとエージェントの台頭(二次ソース経由・要留保)

将来予測についても触れておくが、ここは出所の質を区別したい。以下のGartner予測は、本稿が直接確認できた一次のプレスではなく二次ソースを経由した引用であり、上で並べた実績値(ESOMAR・GRIT・McKinsey)より一段低い信頼で扱う。Gartnerは、2030年までにAIモデルの学習で合成データが実データを量的に凌駕すると見込み、エンタープライズアプリケーションの40%が2026年末までにタスク特化型のAIエージェントを搭載する(2025年は5%未満)と予測している。方向としては、調査を含むナレッジワーク全般のエージェント化が進む、という本章の流れと整合する。

だが、留保は本サイトの規律として明示しておく。合成データの威勢のいいコスト削減数字の多くは、ツールを売る側の発信であり、学術筋のトーンとは温度が違う。EYが年次CEOブランド調査を約1,000の合成ペルソナで再現し、実調査と95%相関を数日で得たという検証事例は信頼に足るが、それでも各社が一貫して付すのは「人間調査の代替ではなく補完」という留保だ。感情の機微、文化的文脈、まだ世に出ていない新製品の需要——こうした領域で合成回答者はなお弱く、放っておけばバイアスを増幅し、もっともらしい嘘を量産しうる。速く安く合成できることと、その合成が正しいことは、別の話である。

こうして産業データを並べ直すと、本サイトの立ち位置の市場的な裏づけが見えてくる。重心はソフト/AI型へ大きく傾き、採用は普遍化した。にもかかわらず、買い手の満足度は13%、品質への不安は+40%、調べた結果が経営判断に効いている実感は34%まで落ちた。つまり市場には、AIが速く集めた情報と、それを信頼できる読み解きへ仕上げる人間の層とのあいだに、はっきりとした空席が生まれている。第三の道が狙うのは、ツールをもう一つ売り足すことではなく、まさにこの空席に座ることだ。

速さ×深さ×継続×自社文脈×専門家検証 — AI×専門家のバーチャル・シンクタンク

ここまでの章を一本の線に結ぶ。問いは単純だ。営業の商談前ブリーフが満たすべき要件を並べたとき、それを同時に満たせる調査の形はどれか。速いだけでは浅く、深いだけでは間に合わず、安いだけでは捏造が混じる。一つひとつの要件なら、既存のどのプレイヤーも満たせる。問題は、五つを同時に背負える形が、これまで市場に存在しなかったことにある。

5つの要件を、同時に満たせるのは何か

五つの要件は、VRIの商品設計から逆算したものではない。買い手である営業が、商談前ブリーフに何を求めるかから演繹している。速さ——担当業界の動きを、四半期を待たずにその週のうちに拾えること(第1ピラーの三重苦の「即時性」)。深さ——拾った情報が、市場規模の紹介ではなく「この顧客のこの稟議で何を意味するか」まで降りていること(「深掘り」)。継続——年度計画時にまとめて調べるのではなく、変化が起きたその時点で更新されること。自社文脈——汎用の業界地図ではなく、貴社の事業・顧客・競合の言葉に翻訳されていること。専門家検証——その読み解きの土台にある数字や出典が、実在し、正しく引かれていること(後述するGartnerの買い手データが「人間に確認したい」と裏づける要件)。この五つである。既存のプレイヤーを、この物差しで当ててみると、それぞれがどこで欠けるかがはっきりする。

  • 既製シンジケートレポート。速い・継続(更新版が出る)の二つは満たすが、汎用に書かれているため深さと自社文脈を欠く。検証は出版社が担うが、貴社の商談に降りた読み解きはそもそも守備範囲の外にある。
  • カスタムリサーチ。深さと自社文脈は満たし、専門家検証も効く。だが調査設計から納品まで数カ月を要し速さを欠き、一回完結のため継続を持たない。来週の商談には間に合わず、四半期ごとに発注すれば単価が積み上がる。
  • AI単独(ディープリサーチの自前運用)。速さは圧倒的で、数分で数十のソースを束ねる。だが前章で見たとおり検証を欠く——GPT-4oに文献レビューを書かせた検証では全引用の約3分の2が捏造または不正確だった(Linardonら、JMIR Mental Health、2025年11月)。自社文脈への翻訳も、現場の暗黙知に触れられないAIには荷が重い。
  • 完全内製。理想形であり、五つすべてを原理的には満たす。だが入口で人材コストの壁に突き当たる。専任アナリストを採り、育て、定着させるという前提が、正社員不足が5割を超える日本ではすでに崩れている。

ここで正直に勝ち幅を縮めておく。もし「継続」を要件から外せば、優れたカスタムリサーチを単発で発注するだけでも、速さ以外の四つはおおむね満たせる。逆に言えば、第三の道の本質的な差別化は「五つを同時に、しかも継続運用の経済性のなかで」成り立たせる点に絞られる。欠けているピースを足し算で埋める発想ではない。AIに速さと網羅収集を担わせ、人間に深さ・翻訳・検証を担わせ、その分業を月額で継続運用する——この役割の組み替えによって、五つを同時に、無理のないコストで成立させる。これがバーチャル・シンクタンクという新しい形態の中身だ。

AI収集情報を人間に確認したい買い手(Gartner)
69%

Gartnerは2027年までに売り手の調査ワークフローの95%がAI起点になると予測する一方、2030年までにB2Bバイヤーの75%がAIより人間との対話を重視し、69%はAIが集めた情報を人間に確認したいと答えている。リサーチの入口がAI化しても、最後の確認は人間に残る。出所:Gartner。

前に立つ営業と、後ろで読み解くアナリスト(二層分業)

この「役割の組み替え」を、もう一段具体に降ろす。VRIが立て付けの核に置く「AI×専門家」は、抽象的なスローガンではなく、二つの層に分かれた具体的な分業である。第一の層は、買い手の前に立つ貴社の営業だ。Gartnerの75%・69%が指しているのは、この層である。買い手はAIが要約を出す時代になってなお、最終的には人間との対話を求め、AIが集めた情報を人間に確かめたがる。つまり買い手が対話したい相手は、貴社の営業であり、ここはAIに代替させてはいけない接点だ。第二の層は、その営業の背後にいるVRIのアナリストである。AIが速く広く集めてきた情報を、「貴社のこの商談で何を意味するか」へと翻訳し、土台の数字が実在するかを照合するのが、この後方の人間の仕事だ。

分担を一言で言えば、AIは網羅と速さを、人間は意味の読み解きと真偽の判定と翻訳を担う。なぜこの線で割るのか。理由は前章までの実証が示している。AIは大量のソースを横断する規模・一貫性・速さで人間を凌ぐが、知名度の低い専門領域ほど捏造に走る(同じLinardonの検証で、高知名度トピックの捏造率は6%、低知名度では29%)。希少で専門的で最新の情報ほどAIは取りこぼす——それはまさに、貴社の商談で差がつく情報だ。だから網羅はAIに任せ、その出力が本物かの判定と、一社に降ろす翻訳は人間に残す。役割を強みの相補で割るからこそ、足し算ではなく掛け算になる。

一点、自社の弱みも公平に置いておく。この二層分業のうち後方の人間に依存する部分には、コンサルの属人性とまったく同じリスクが当然ある——後方アナリストの力量、その採用と育成、スケールの難しさだ。VRIはそれを免れる魔法を持っているわけではない。緩和の手立ては二つだ。一つは、AIが網羅と下ごしらえを担うことで、一人のエースの暗黙知に全面依存しなくて済む構造をつくること(BCG実験で下位層ほど伸びたのと同じ底上げ)。もう一つは、検証を個人の良心ではなくプロセスとして設計し、誰が担当しても同じ階層・同じ照合工程を踏むようにすること。コンサルが「チーム一体で仕える設計」で属人性を緩和したのと、発想は同じだ。属人性が消えるとは言わない。仕組みで引き下げる、と言うにとどめる。

リサーチの工程設計 — 問い・ソース階層・検証・翻訳

二層分業を、実際の調査の手順に落とすとどうなるか。VRIが商談前ブリーフを組み立てるとき、工程はおおむね四つの段に分かれる。一般のリサーチ作法と重なる部分も多いが、商談という出口に最適化している点が肝になる。

  • 問いを立てる。最初にやるのは情報集めではなく、問いの圧縮だ。「この業界を調べる」ではなく、「相手のどの業務の、どの判断を、どれだけ圧縮できるか」という問いの立て方を、商談ごとに据える。これは精度面でも効く。前章で見たLinardon研究が「プロンプトの具体性」を捏造率の要因に挙げたとおり、問いを絞ることはハルシネーションを抑える工程でもある。集める前に、何を探すかを一行に絞り込む。
  • ソースを階層で扱う。集めた情報は、信頼の段で序列をつける。一次情報(企業の開示・IR・特許・現場の声)を上位に、官公庁・統計(人手不足倒産342件のような帝国データバンクの実数)を次に、第三者レビューを参考に、専門家インタビューを補助線に置く。AIが返す要約は、この階層のどこに位置づくかを必ず人間が確認する。出典のない「〜と言われている」は、そのまま使わない。
  • 網羅はAI、深掘りと真偽は人。広く拾う工程はAIが速い。だが拾ってきた数字の一つひとつについて、人間のアナリストが原典に当たる。前章の弁護士の事例が示すとおり、AIに「これは本物か」と聞いて「本物だ」と返ってきても、それは検証ではない。検証主体は外部の人間と一次資料でなければならない。
  • 出力を貴社の文脈へ最適化する。最後に、検証を通った読み解きを、貴社の提案資料や稟議の言葉に組み替える。同じ業界変化でも、荷主に売るのか3PLに売るのかで意味が反転する以上、出力は「業界レポート」ではなく「この商談で使える一行」の形に整える。

この四段は、一度回して終わりではない。継続モニタリングで回し続けることに意味がある。同じ顧客・同じ業界を月次で追えば、前回どの読み解きが商談で効き、どれが空振りしたかが蓄積される。問いの立て方が貴社の勝ち筋に寄り、ソースの当たりどころが定まる。年度計画時にまとめて環境分析を行う従来型では変化に追いつけない、というのは三菱総合研究所も同じ指摘をしている。常時型で回すほど、出力は使うほど貴社らしくなる。これが、一回完結のカスタムリサーチには構造的に持てない継続の価値だ。

DIY化が進むほど、混乱を引き算する人間が要る

自社の立ち位置に対する反証を先回りで引き受けておく。インサイト産業の重心は、サービス型の調査からソフト・AI型へ移っている。リサーチソフトウェア部門は前年比+11.5%で、市場調査本体の+4.8%の二倍超の速さで伸びている(ESOMAR/Research World、2024年)。この最速で伸びる層の中心は、専門家を介さず自前で済ませるDIY型のツールだ。だとすれば、人間の翻訳層を掲げるVRIは、潮流に逆らっているのではないか。逆である。DIY化が進むほど、人間の翻訳層はかえって必要になる。

理由は、前章までで見たセンスメイキングの問題に直結する。AIで誰もが速く情報を集められるようになると、買い手の手元には矛盾する情報と過剰な情報が積み上がる。情報が増えること自体が、後悔のない意思決定にたどり着く確率をむしろ下げる。ツールのDIY化だけが進めば、この混乱は悪化しこそすれ、解消はされない。そこで要るのが、AIで集めた情報の上に人間の翻訳を載せ、混乱を引き算する層だ。VRIが立つのは、まさにその層である。そして、ここに「ツールを配って終わり」にならない設計の核がある。ツールを買っても、現場の多くは使いこなせない。だからVRIは、AIツールそのものを売るのではなく、情報・インテリジェンス面のイネーブルメントを運用ごと外部委託で内製化する形をとる。現場が自分でツールを操作しなくても、後方の専門家が成果物を出し切る。情報を足すのではなく、混乱を引き算する。これがDIY化の時代に、人間の層が消えるどころか厚みを増す理由だ。

リサーチソフト部門の成長率 vs 市場調査本体(ESOMAR/Research World・2024年)
+11.5%

リサーチソフトウェアは+11.5%で、市場調査本体(+4.8%)の二倍超の速さで伸びる。重心はソフト・AI起点へ移るが、その中心はDIY型ツールであり、情報過多の混乱はむしろ増す。だからこそ、その上に人間の翻訳を載せる層に価値が残る。出所:ESOMAR/Research World。

中立であることが、歓迎される条件になる

五つの要件のうち、最後の「専門家検証」には、出典照合だけでは尽きない側面がある。中立性の規律だ。当然の疑問として、売り手であるVRIが作った読み解きを、なぜ買い手が額面どおり受け取ると言えるのか、という問いが立つ。洗練された調達担当ほど、売り手の出すリサーチを「結論ありきのポジショントーク」と割り引く。これは健全な警戒であり、無視してはならない。だからこそ、検証規律と中立性は一体で運用する。第三者データを正しく引き、出典をたどれる形で示す。自社製品に触れない一次情報の比率を保つ。そして、自社を売り込むのではなく、買い手自身の選定基準を整理し、判断軸を助ける。前章で見た学術出版界の規範——責任は人間にしか帰属できない——は、ベンダーの作るリサーチにもそのまま効く。誰が検証し、誰が責任を負うかが見える読み解きだけが、売り込み色を脱いで信頼される。中立であることは倫理である前に、ベンダー製の手土産が商談卓で歓迎されるための、実務上の条件なのだ。

誠実な留保 — この形態も、万能ではない

最後に、自社の打ち手の適用限界を正直に書いておく。AI×専門家のバーチャル・シンクタンクが効くのは、購買関与者が多く検討が長期化する高関与・複雑購買の局面だ。会える時間が短く、その数分の密度が勝敗を分ける商談ほど、磨かれた読み解きは決定打になる。逆に、定型的で低単価のトランザクショナルな商材では、作り込んだインサイト提案はむしろ過剰投資になりやすい。商談前リサーチの投資対効果は、購買の複雑さが下がるほど逓減する。合成回答者や生成AIに一貫してつきまとう留保——感情のニュアンスや文化的文脈、新製品の需要検証には弱く、人間調査の代替ではなく補完である——も、この新形態が無効化するわけではない。AIで速くなった分、人間が検証と翻訳に時間を回せるようになる、というだけだ。誇大な約束はしない。五つの要件を同時に満たすこと自体に価値があるのであって、どんな商材にも一律に効く魔法ではない。誰に効いて誰に効きにくいかをはっきりさせておくことが、結局はこの形態への信頼を担保する。情報は、AIが速く集める。だが、それが自社にとって何を意味するかは、人間が検証して、はじめて言える。

始め方 — まずは一つの問いから

残るのは一つ、では明日、貴社は何から始めるのか、という問いだ。過大な約束をせず、入口と適用限界、そして本稿そのものをどう作ったかまで、正直に開示しておきたい。

まずは一つの問い、一人の営業から

全社一斉に変える必要はない。それは失敗のいちばん多い始め方ですらある。入口は、担当業界の動きを提案に翻訳しきれていない一つの問い、あるいはその翻訳に手こずっている一人の営業で足りる。たとえば「来週の商談相手は組込型金融に動こうとしているが、うちはそれを機会として語るべきか、守りとして語るべきか分からない」。この粒度の問い一つが、貴社専属シンクタンクの最初の依頼になる。

進み方は決まっている。ヒアリングで貴社の事業・顧客・競合と、いま詰まっている判断を聞き取る。次に既存のCRMや提案資料、過去の勝ち筋といったデータを連携させ、AIが集めた汎用情報を貴社の文脈へ寄せる足場を作る。そのうえで貴社専属シンクタンクを構築し、運用しながら出力を貴社の稟議や提案の言い回しへ近づけていく。使うほど貴社らしくなる、というのはこの運用改善の積み上げのことだ。この流れは導入フローに図解してある。小さく始めることには、もう一つ実利がある。最初の一問の出力が、貴社の商談で本当に効いたかどうかを、貴社自身が短期間で検証できる。AI×専門家という立て付けを、貴社の現場という最も厳しい審査にかけてから広げられる。

効く相手と、効きにくい相手を正直に書く

この手法が誰にでも効くとは言わない。効くのは、購買関与者が多く検討が長期化する高関与・複雑購買の局面だ。逆に、定型的で低単価のトランザクショナルな商材では、作り込んだ業界インサイトはむしろ過剰投資になりやすく、商談前リサーチの投資対効果は逓減する。もう一本、より本質的な線がある。AIで十分に賄える領域と、AIが危うい領域の境目だ。ありふれた汎用情報、すなわち訓練データに豊富に存在する話題は、AIが速く正確にさばける。問題はその逆側にある。希少で、専門的で、最新で、一次情報に依存するテーマほど、AIは「もっともらしい平均」を生成しに行き、捏造に近づく。本稿の前半で見たメンタルヘルス研究の検証はこの構造を端的に示していた。知名度の高いテーマでは捏造はごく少なく、知名度の低いニッチなテーマでは捏造が跳ね上がる。

AIの出典捏造率(高知名度テーマ/低知名度テーマ)
6% → 29%

Deakin大学のLinardonらがGPT-4oの生成した引用を検証(JMIR Mental Health, 2025)。大うつ病など高知名度テーマで約6%だった捏造率が、身体醜形障害など低知名度の専門テーマでは約29%へ上昇した。皮肉なことに、専門リサーチが本来いちばん価値を持つ領域こそ、AIが最も危うい。出所:JMIR Mental Health(2025年11月)。

この逆説が、貴社の打ち手の線引きにそのまま使える。AIで十分なところは迷わずAIに任せ、希少・専門・最新・一次情報依存の領域でだけ人間の検証を厚く置く。だからこそ効果は、断定ではなく「方向性の根拠」として控えめに読んでほしい。リサーチが速く深くなることは確かだが、何%売上が伸びると保証する類のものではない。境目を一緒に引くこと、それ自体が最初の価値になる。

本稿そのものが、AI×専門家でできている

ここで一つ、自分たちに最も厳しい問いを引き受けておく。AIを語るこの記事は、まさかAIに量産させたものではないのか。正直に書く。本稿の一次情報の収集には、私たちもAIを使っている。査読論文や裁判所記録、業界統計を広く速く集める網羅の工程は、AIが圧倒的に速い。だが、その先がこの記事の本体だ。集まった出典を人間のアナリストが一本ずつ開き、その論文が実在するか、引用された数値が原典のどこにあるか、二次要約が一次資料を歪めていないかを確かめる。

具体的に書く。本稿の制作過程でも、AIが当初示した数字には誤りが混じっていた。たとえば、ある調査会社の売上を「会社全体の総売上」として提示してきた数字が、実際には一事業セグメント単体の値だった。原典(同社の通期決算開示)に当たって初めて、比較の土台が二倍以上ずれていたことに気づき、主張のトーンを修正した。本稿で示した捏造率や制裁件数に、調査主体・対象・公表年を逐一添え、ベンダー発の景気のいい数字とアカデミックな検証を区別し、出典の存在しない断定を一行も置かないようにしているのは、その検証の痕跡である。そして最後に、それを「だから貴社の商談では、この情報を信じ、ここを人間が確かめるべきだ」という貴社文脈への翻訳に組み替える。集めるのはAI、読み解いて検証して翻訳するのは人間。本稿の主張と、本稿の作り方は、同じ二層分業でできている。Mata v. Aviancaで、弁護士がAIに「この判例は本物か」と尋ね「本物だ」と嘘の保証を得て制裁を受けたように、AIにAIを検証させる自己点検は意味をなさない。検証の主体は、外側の人間と一次情報でなければならない。本稿はその規律を、自らに対して先に適用した一例である。

手法は、各業界の読み解きへつながる

本稿は方法論、すなわちHOWの記事だ。なぜ営業の準備が割に合わないのか、なぜ自社専用のシンクタンクが要るのかというWHYは、第1ピラーの『日本の営業生産性はなぜ低いのか』に譲った。両者は相互に補い合う関係にある。WHYで課題の輪郭を掴み、本稿で調べ方と検証の作法を掴む。そして、ここで示した検証と翻訳の手法が現場でどんな読み解きを生むのかは、抽象論より実例が早い。製造・物流・金融という三つの業界を例にとると、本稿の手法が具体的な業界でどう機能するかが見えてくる。

  • 製造。生成AIが基幹プロセスに降りる、という汎用の見出しを、検証のうえで「相手のどの検査工程の、どの判断を圧縮できるか」という業務介入の提案へ翻訳する例。
  • 物流。輸送能力不足という見出しを、値上げ正当化ではなく密度・距離・時間で共有する再設計の対話へ翻訳する例。
  • 金融。組込型金融という同じ一つの変化を、相手の立ち位置に応じて機会にも防衛にも翻訳し分ける例。

費用と性格の違いも正直に置いておく。社内に専任アナリストを一人抱える場合、海外の試算ではフルロードで年15万〜17.5万ドル(シニア相当の総コスト)かかる。月額のシンクタンクはこの水準に収まりうるが、これは「安い」というより「性格が違う」と読むべきだ。社内の一名は一つの機能の代替にすぎないが、月額のシンクタンクは営業組織全体の翻訳機能として働く。費用の内訳は料金プランに、期待できる範囲は導入期待効果に、対応業種×テーマの組み合わせは対応領域のマトリクスにまとめてある。

始め方は、結局のところ問い一つに尽きる。貴社のどの調査、どの判断で、何を信じ、どこを人間が確かめるべきか。その輪郭を一緒に描くところから始められる。まずはお問い合わせから、貴社の文脈に置き換えて話してみてほしい。ほかのナレッジは、すべてのナレッジから辿れる。調べることは、もう誰でもできる。読み解いて、検証して、自社の一行に翻訳することだけが、価値になる。

よくある質問

AIだけでリサーチを完結させてはいけないのですか。

完結させてはいけない、というより、構造上できないと考えたほうが正確です。生成AIの出典捏造は使い方の巧拙だけでなく設計に由来します。Deakin大学のLinardonらがGPT-4oに6本の文献レビューを書かせ176件の引用を検証したところ、完全な架空文献が19.9%、実在した引用の45.4%にも誤りがあり、結果として全引用の約3分の2が捏造または不正確でした(JMIR Mental Health, 2025年11月)。完全に正確だったのは54.6%にすぎません。しかも捏造率はトピックの知名度で動き、大うつ病のような高知名度領域では6%、むちゃ食い症で28%、身体醜形障害のような低知名度領域では29%まで上がります。同研究はプロンプトの具体性も捏造率を左右すると報告しており、問いの立て方によっても結果は動きます。つまりAIは、訓練データが薄いニッチで専門的なテーマ——専門リサーチが本来価値を持つ領域——ほど捏造に走ります。ありふれた話題ならAIで足りますが、希少で最新で一次情報に依存するテーマほど、AI単独では信頼できません。だから人間の専門家による検証と一次情報の照合を前提に置きます。

AIは本当に出典を捏造するのですか。

します。汎用モデルだけの話ではありません。検索拡張生成(RAG)を組み込んだ法律専用ツールですら、StanfordのRegLabが200を超える事前登録クエリで採点した結果、Lexis+ AIが17%、Westlaw AI-Assisted Researchが33%でハルシネーション(事実誤り、または実在ソースへの誤った紐づけ)を起こしました。汎用LLMに法律クエリを投げると58〜80%に達します(Journal of Empirical Legal Studies, 2025年査読掲載)。実在文献を参照させるRAGですら、誤りを消しはしません。ここで肝心なのは、AIにAIを検証させる自己検証は無意味だということです。象徴的なのが2023年のMata v. Avianca事件で、弁護士がChatGPTで作った準備書面に実在しない6判例を引用し、念のため「これらは本物か」とChatGPTに確認すると「実在し、WestlawやLexisNexisで見つかる」と保証されました。すべて虚偽で、Castel判事はRule 11に基づき関係者に各5,000ドルの制裁を科しました。検証の主体は、AIの外側にいる人間か、権威ある一次情報でなければなりません。

専門家が検証すれば、必ず正しくなりますか。

単一の目視確認では漏れます。トップ学会NeurIPS 2025の採択論文ですら、3〜5名の専門研究者が査読を通したにもかかわらず、複数の分析で数十本に捏造引用が混入していました(GhostCite arXiv:2602.06718、およびGPTZeroの走査をまとめたarXiv:2602.05930)。専門家が一人で最後に目を通せば安心、という発想自体が危ういのです。だから私たちは検証を担当者の良心ではなく『プロセス』として設計します。具体的には、情報源を一次情報・官公庁統計・第三者レビュー・専門家ヒアリングの階層に分けて格付けし、主要な命題は必ず一次情報へ遡って照合し、出典の書誌(著者・媒体・発表年・該当箇所・識別子)を生成元とは別の経路で独立に裏取りします。これで捏造がゼロになると約束はしません。書誌の真偽確認を『内容評価とは別の独立した工程』として明示的に組み込むことで、内容査読の死角に落ちる誤りを構造的に減らす、という考え方です。検証は一回の確認ではなく、複数の独立した工程の積み重ねだと捉えています。

既存の調査機関やコンサルと何が違うのですか。

速さ×深さ×継続×自社文脈×専門家検証という五つの軸を、同時に満たそうとする点です。既製のシンジケート型レポートは安価で速いが、業界一般に向けて書かれているため自社の問いには答えません。カスタム調査やコンサルは深いが、戦略案件で概ね50万〜125万ドル、標準的な8週間案件でも約120万ドルと高額で時間もかかります。AI単独は速いが、前述のとおり検証がありません。完全内製は理想ですが、正社員不足を訴える企業が5割を超える人材コストの壁にぶつかります。正直に言えば、『継続』を要件から外せば優れたカスタムリサーチでも四つは満たせるので、私たちの本質的な差別化は『五つを継続運用の経済性のなかで同時に成り立たせる』点に絞られます。速さはAIの網羅収集で、深さと自社文脈への翻訳は人間の専門家で、継続は常時型のインテリジェンス基盤で、検証は前項のプロセスで担保します。

合成データ(合成回答者)は実調査の代わりになりますか。

補完であって代替ではありません。EYは通常6〜8週間かかる年次CEOブランド調査を検証パートナーとともに約1,000の合成ペルソナで再現し、実調査と95%の相関を、わずか数日と従来の数分の一のコストで達成したと報告しています。速度を週・月単位から日・時間単位へ縮め、コストを大きく下げる効果は本物です。ただし留保が一貫して付いています。合成回答者は感情のニュアンス、文化的文脈、新製品の需要検証に弱く、バイアスの増幅や同調(sycophancy)のリスクも抱えます。『最大70%のコスト削減』『100倍安い』といった数字の多くはツールベンダー発の主張で、学術筋のトーンとは温度差があります。業界のコンセンサスは一貫して『人間調査の代替ではなく補完』です。速さを取りに合成データを使うほど、最後に人間が意味を読み解く層がいよいよ必要になります。

AI生成物の責任は、誰にありますか。

人間です。これは私たちの主張というより、規制と業界規範が明文化しています。EU AI Act第14条は、高リスクAIシステムについて、使用期間中に人間が実効的に監督できるよう設計することを義務付けています。監督者にはAIの能力と限界を理解すること、そしてAI出力に自動的に依存・過信する傾向(automation bias)に常に留意し、状況によっては『AIを使わない』『出力を無視する』と判断できることが求められます。法が名指しで、人間側の過信という心理的リスクを警告しているのです。ただしこの義務は『高リスクAIシステム』に限定され、EU AI Act自体も日本企業に直接適用されるわけではありません。それでも『最終責任は人間』という設計思想は、法域や用途を超えて参照に値します。学術出版の側も足並みがそろっています。ICMJE(国際医学雑誌編集者委員会)は2025年4月の更新で『AIツールは内容の正確性・完全性・独自性に責任を負えないため著者になり得ない』と明記し、WAME・COPE・STMも同旨を示しています。説明責任(accountability)は人間にしか帰属しません。AIに集めさせた素材は、人間の検証と監修を経て初めて、貴社の稟議や提案に載せる価値を持ちます。

AIに何を任せ、どこを人間が確かめるか。
貴社の調査で、その線を一緒に引きませんか。

問い合わせ
← ナレッジ一覧へ © 2026 VRI VIRTUAL RESEARCH INSTITUTE