AI News Weekly
$65B調達 → Opus 4.8 → IPO申請を駆け抜けた2週間
評価額1兆ドル目前、しかしS&P 500は門前払い
この2週間のAI業界は、Anthropicの一挙手一投足を軸に回った。$65BのシリーズHで評価額は約9,650億ドルと1兆ドルに肉薄し、IPO前最後の大型調達とみられる。直後に最上位モデルClaude Opus 4.8を投入、数百のサブエージェントを束ねる「Dynamic Workflows」とエラーを率直に認める「正直さ」を売りにGPT-5.5・Gemini 3.1 Proを多くのベンチで上回った。そして6月1日、ついにSECへIPOを申請。だが週末にはS&P 500がSpaceXの早期採用を拒否し、赤字を理由にOpenAI・Anthropicの採用もブロックされたことが判明。「研究所から上場企業へ」の移行が、収益性という最後の関門に直面した2週間だった。
AnthropicはシリーズHで$65B(約10兆円)を調達し、評価額は約9,650億ドルと1兆ドルの大台に迫った。ラン・レート収益は$47B超。IPO前最後の大型ラウンドとの見方が強く、AI資本市場の頂点決戦の号砲となった。
最上位モデルOpus 4.8を公開。数百の並列サブエージェントを生成・統括する新ツールDynamic Workflowsを搭載し、コーディング時の自己エラー検知は前世代の約4倍。誤りや不確実性を率直に認める「正直さ」を強化し、GPT-5.5とGemini 3.1 Proを大半のベンチで上回った。
6月1日、AnthropicがSECへIPOを申請。直近ラウンドの評価額は1兆ドル弱で、IPO準備を進めるOpenAIとの上場レースが本格化した。「AIがエンタープライズの公益インフラへ成熟した」象徴と評される。
S&P 500がSpaceXの迅速な指数採用を拒否し、赤字企業向けのルールを曲げないことでOpenAI・Anthropicの採用も当面困難になった。指数採用は受動的投資家から数十億ドルの資金流入をもたらすため、AI企業の資金調達戦略に影を落とす。評価額は天井知らずでも、収益性という公開市場の関門は別物だ。
IPO前最後の大型ラウンドか
1兆ドル目前
算出方法には議論も
WHY IT MATTERS
Anthropicは「研究所」から「上場企業」へ転換しようとしている。$65B調達とOpus 4.8で能力と資本を同時に積み増し、IPO申請で公開市場のスタートラインに立った。だがS&P 500の門前払いは、評価額の大きさと収益性は別問題だという公開市場の冷徹なルールを突きつけた。OpenAIとの上場レースは、技術競争であると同時に「いつ黒字を示せるか」の財務競争でもある。来期以降のAI業界は、ラボの論理ではなく投資家の論理で測られ始める。
Googleですら自前で賄えない週
SpaceXに月$920M、台湾に$150B、インドに$30B
計算資源の争奪戦は、いまや「自社で足りるか」という次元を超えた。GoogleはSpaceXに月$920M(年$11B超)を払って計算力を借り、「最近ローンチしたAI製品の予想外の需要」を理由に挙げた。Nvidiaは台湾への年間支出を$15B→$150B(10倍)に引き上げ、SoftBankはフランスに最大€75B・5GW、AirTrunkはインドに$30B・5GWを投じる。一方TSMCは「これ以上は支えきれない」と供給限界を公言。GPU・電力・製造能力という物理的ボトルネックが、AI競争の真の制約条件として前面に出てきた。
GoogleがSpaceXのStarlink・計算サービスに月$920M(年換算$11B超)を支払う契約が判明。Google自身が「最近ローンチしたAI製品への予想外の需要」が原因と説明し、ハイパースケーラーですら自前インフラで需要を賄えない現実を露呈した。
Nvidiaは台湾(TSMC・サプライヤー)への年間支出を$15Bから$150Bへ10倍に拡大、黄仁勲CEOは台湾を「AIの震源地」と呼び、米国をAI拠点化するトランプ政権の方針と衝突した。SoftBankはフランス3拠点に2031年までに€45B規模の施設、総額最大€75B・5GWを投じる構想を発表(実現性には懐疑論も)。
豪AirTrunkがインドに$30Bを投じ5GWのAIデータセンターを建設、米中欧に次ぐ拠点として急浮上した。一方TSMCのC.C. Wei CEOは「支えられる量には限りがある」と述べ、米国増設後もAIチップ需要に追いつけない製造能力の限界を認めた。資金より「物理」が効く局面だ。
Nvidiaによる$20Bの“非買収”買収の後、AIチップのGroqが$650Mを調達し推論サービスへ軸足を移す。韓国XCENAは「AIの真のボトルネックは演算ではなくメモリ帯域」との賭けで$135M(評価額$570M)を調達。コンピュート覇権の前提そのものが問い直されている。
年$11B超のコンピュート
$15Bから10倍
$30B投資
WHY IT MATTERS
コンピュートは「保有」だけでなく「借用」で回す時代に入った。Googleですら月$920Mを外部に払い、Nvidiaは製造拠点へ$150Bを注ぎ、投資はインドへ広がる。だがTSMCの「支えきれない」という一言が示すように、最終的な天井は資金ではなく製造能力・電力・メモリ帯域という物理だ。Groqの脱Nvidia、XCENAのメモリ律速論は、その物理制約を別経路で突破しようとする賭けにほかならない。モデルの優劣の前に、誰がワット時とウェハを押さえるかが勝敗を分ける。
Microsoftが「脱OpenAI」を完成させた日
自社7モデル・エージェントOS・1ペタフロップスのミニPC
Build 2026は、MicrosoftがOpenAI依存から自立する宣言の場となった。自社開発の7モデル「Microsoft AI Models」を一挙発表し、初の高度推論モデルMAI-Thinking-1を旗艦に据える。アプリではなくエージェントのためにゼロから設計したAndroidベースの新OSProject Solara、最大1ペタフロップス・128GBでローカルに120B級モデルを動かすSurface RTX Spark Dev Box、常時接続アシスタントScoutまで、OS・モデル・ハード・エージェント基盤を一気に塗り替えた。ただし週末にはMAIの無許諾データ学習疑惑とNadellaによる「中毒設計」メモの叱責が噴出し、強気の裏で火種も抱えた。
Build 2026で自社開発の7つのAIモデル「Microsoft AI Models」を発表。初のin-house高度推論モデルMAI-Thinking-1を旗艦に据え、OpenAIとの契約再交渉で結びつきを緩めた流れを決定づけた。The Vergeは「MicrosoftとOpenAIは別れ、今や戦う準備ができた」と表現した。
Androidベースでエージェント体験のためゼロ設計した新OS「Project Solara」を発表。デスク型・バッジ型の2デバイスを披露し、Nadellaは「OSとアプリから、エージェントへ移行する」と宣言した。モバイルでApple/Googleに乗り遅れた教訓から、エージェント時代は自らプラットフォームを握る戦略だ。
NvidiaのARM系SoC「RTX Spark」を載せたミニPCで、最大1ペタフロップスの演算と128GBメモリを備え、120B超パラメータのモデルをローカルで推論・学習できる。分離実行環境MXC、WSL Containers、Coreutils for Windowsなど開発基盤も刷新され、QualcommがARM版Windowsで挑んだ領域にMicrosoft自ら踏み込んだ。
常時接続のM365横断アシスタントScout(OpenClawに着想)を投入する一方、MAIモデルが「クリーンでライセンス済み」の約束に反し無許諾Webデータ(Common Crawl)で学習していた疑惑が浮上。NadellaはScoutを「意図的に中毒性にする」と提案したVPの社内メモを公開の場で厳しく叱責し、「AIはスクリーンタイムを減らすべき」と述べた。
旗艦MAI-Thinking-1
メモリ128GB
パラメータ規模
WHY IT MATTERS
MicrosoftはOpenAIの「顧客」から「競合」へ立ち位置を変えた。自社モデル・エージェントOS・開発者ハードを垂直統合し、Windowsの次の基盤を「エージェント」と定義し直す。だが旗艦モデルの無許諾データ疑惑と「中毒設計」メモ騒動は、急いだ自立の足元にデータ倫理とプロダクト倫理の火種が残ることを示した。Nadellaの公開叱責は、社内の暴走を抑える統治の演出でもある。OS・モデル・ハードを同時に書き換える賭けは、実行力と同じだけ規律を問われる。
「AIに頼んだら乗っ取れた」週
Meta AIでInstagram奪取、MythosはNSAの攻撃作戦へ
AIセキュリティは理論から実害の段階へ移った。攻撃者はMeta AIのサポートbotに「頼むだけ」で著名Instagramアカウントを乗っ取り、プロンプトインジェクションすら不要だった。AnthropicのセキュリティエージェントClaude Mythosは1ヶ月で1万件超の重大脆弱性を発見する力を見せ、そのMythosはNSAの対中・対イラン攻撃的サイバー作戦を動かしていると報じられた。Claude Code自体もGitHub Issue 1件でサプライチェーン汚染が可能と実証され、日本の金融庁・日銀は金融機関に9項目の対応を要請。守る側と攻める側の双方で、AIが主役になった。
攻撃者がMetaのAIサポートbotに「自分のメールを対象アカウントに紐づけて」と依頼するだけで著名Instagramアカウントを奪取できた。高度なハッキングもインジェクションも不要。Metaは修正済みだが、価値あるハンドルはパッチ前に盗まれ転売された。
AnthropicのProject Glasswing(Claude Mythos)は約50社との1ヶ月の検証で1万件超の高・重大脆弱性を発見、一方で修正が追いつかない現実も露呈した。さらにそのMythosがNSAの対中・対イラン攻撃的サイバー作戦を動かし、Anthropicのエンジニア約6名がNSAに常駐していると報じられた。利用制限は米国市民にのみ及ぶという。
Flatt SecurityがGitHub Issue 1件でClaude Codeをサプライチェーン汚染できると実証。OSSパッケージStarletteの重大脆弱性「BadHost」は週3.25億ダウンロードに影響し、FastAPI依存の無数のAIエージェントが危険に晒された。Cloudflareの実験では「脆弱性を探して」と丸投げするだけのエージェント運用は機能せず、タスク分解とハーネス設計が要だと示された。
GoogleはAndroidの電話アプリにAIディープフェイク通話・なりすまし検知を導入し、連絡先を装うスプーフ通話を自動で警告する。日本の金融庁と日銀は「フロンティアAIによる脆弱性大量発見」に備え、経営層の関与を含む9つの対応を金融機関に要請した。AI時代の攻撃速度に、制度と防御が追いつこうとしている。
高・重大脆弱性
BadHostの影響範囲
金融機関への要請
WHY IT MATTERS
同じモデルが最強の盾であり最強の矛になった。Mythosは1万件の脆弱性を見つけると同時に、NSAの攻撃作戦を動かす。Meta AIの乗っ取りは「高度な技術」すら不要で、AIに「頼む」だけで権限が漏れる新種の攻撃面を可視化した。Claude Code自体がIssue 1件で汚染されうる以上、エージェントを使う側も自分のサプライチェーンと権限境界を設計し直す必要がある。金融庁の9項目要請は、この攻防が個社のIT問題から金融システム全体の規律へ格上げされたことを示している。
AIが80年来の数学難問を数百ドルで崩す
数学者は「職業の危機」を警告、創薬・バイオ防衛にも侵食
AIが「問題を解く」から「未解決を崩す」段階に入った。Google DeepMindのAlphaProof Nexusは9件のErdős未解決問題(うち1件は56年未解決)を1問あたり数百ドルで自律的に証明し、Leanで全手順を自動検証した。AnthropicのClaude Mythosも1946年提唱のErdős単位距離予想を「簡潔な証明」で解いたと報じられる。Terence Taoは「数学に初の分業が来る」と期待を語る一方、数学者たちは職業への脅威を公然と警告。OpenAIはバイオ防衛モデルGPT-Rosalindを政府に無償開放し、AIは数学・化学・生物の実領域へ同時に踏み込んでいる。
Google DeepMindのAlphaProof Nexusが9件のErdős未解決問題を自律的に解決。うち1件は56年数学者を退けてきた難問で、コストは1問あたり数百ドル、全体成功率は2.5%。Lean形式証明コンパイラで全ステップを自動検証する点が、過去の“誤った主張”と一線を画す。
AnthropicのClaude Mythos(未公開)が、OpenAIゆかりの1946年提唱のErdős単位距離予想を「かわいらしく簡潔な証明」で独自に解いたと報じられた。Sholto Douglasは「週末で片付けた」とし、潜在能力の「深刻なオーバーハング(顕在化していない余力)」に警鐘を鳴らした。
Terence Taoは「AIが数学に史上初の分業と“工業的数学”をもたらしうる」と語る一方、人間の着想は不可欠とも釘を刺した。同時期、数学者コミュニティはAI産業の侵食に対し職業としての数学への脅威を公然と警告。チューリング賞のRichard Suttonは「純粋な生成AIは本物の科学はできない」と冷や水を浴びせた。
OpenAIは生命科学のフロンティア推論モデルGPT-Rosalindを、防衛・政府用途に限定してAPIで無償提供。初期パートナーにローレンス・リバモア研、ジョンズ・ホプキンス、ワクチン連合CEPIが名を連ねる。パンデミック対策に資する一方、生物兵器転用(デュアルユース)リスクも指摘された。
未解決問題の最長
Erdős単位距離予想
自律証明コスト
WHY IT MATTERS
AIの能力フロンティアが数学・化学・生物の実領域へ踏み込んだ。80年来の予想を数百ドルで崩し、創薬やバイオ防衛のモデルが政府に渡る——それは「いつAGIが来るか」ではなく「どの職業から、どの安全保障から変わるか」が問われる段階だ。数学者が職業の危機を語り、GPT-Rosalindにデュアルユース懸念が付くのは、能力の上昇がそのまま社会的・倫理的負債に直結するからにほかならない。Suttonの「純粋な生成AIは科学をしない」という反論も、能力評価を冷静に保つ重し(おもし)として効いている。
Claudeが自社コードの9割を書く時代
Anthropicは「一時停止ボタン」を求め、Codexはあなたの代わりにPCを操る
エージェントが「コードを書く」から「自らを作る」段階へ近づいた。AnthropicはClaudeが自社コードの90%超(本文では80%超、エンジニア1人当たり日次出力は2024年の8倍)を書いていると公表し、他のフロンティアラボが同調するなら検証可能なグローバルなAI一時停止ボタンを支持すると表明した。OpenAIのCodexはWindowsを自律操作してバグを探し、非開発者向けの役割別プラグインで週500万ユーザーへ拡大。Grok Build・Kiro Web・Docker Gordonも参入する。一方で「AIコードはソフトウェア最大級の過ち」(George Hotz)、AI製PRの氾濫でOSSが公開PRを止めるなど、加速の副作用も噴き出した。
AnthropicはClaudeが自社の本番コードの90%超(本文は80%超)を書き、エンジニア1人の日次コード量は2024年比8倍に達したと公表。再帰的自己改善への自覚から、他ラボが同調することを条件に検証可能なAI Pause Buttonを支持すると表明した。作り手が自らに「停止スイッチ」を求める逆説的な動きだ。
Codexの「Computer Use」がWindows 11を自律操作してアプリのバグ探索・テストを実行、ChatGPTモバイルから遠隔操作も可能に。役割別プラグイン(データ分析・営業・投資銀行)で非開発者を取り込み、週500万ユーザー、うち5人に1人が非開発者でその層は開発者の3倍速で成長している。
xAIが並列サブエージェント実行のGrok Build、AWSがインストール不要のKiro Web、DockerがGordonをリリース。「コードはエージェントの思考そのもの」とする論考が広がり、ボトルネックはモデルよりハーネス(ツール・記憶・権限)だとDeepSeekが北京で専任チームを組成と報じられた。Salesforceは231日の移行を13日に短縮したと主張する。
半年使ったGeorge Hotzは「コーディングエージェントはソフトウェア開発最大級の過ちになる」と警告。Ladybirdブラウザの開発者Andreas KlingはAI生成コードが「大きなパッチ=真の労力」という信頼の代理指標を壊したとして公開PRの受付を停止した。能力の急伸と現場の摩擦が同時に進んでいる。
Anthropicの自社コード
2024年比
5人に1人が非開発者
WHY IT MATTERS
AIが自らのコードを書き始めた——その自覚があるからこそ、Anthropicは「一時停止ボタン」を求める。再帰的自己改善は能力の指数的加速を意味するが、同時に検証・統治の難度も跳ね上げる。Codexの自律PC操作や乱立するエージェントは生産性を押し上げる一方、HotzやKlingの抵抗は「速く作れること」と「正しく保てること」のギャップを突く。2026年後半の開発現場は、モデルの強さではなくハーネス(権限・記憶・テスト)の設計で差がつく。
「使い放題」の宴の後始末
1社が月$500M、Uberは4ヶ月で年間予算を溶かす
AI活用の高揚は、請求書の現実に直面した。あるトークン上限を設けなかった企業は1ヶ月でClaudeに$500Mを費やし、Uberは4ヶ月で年間AI予算を使い切り、従業員のAI支出を月$1,500に制限した。WalmartもCode Puppyに上限を設け、GitHub Copilotの従量課金は初日から値上げを生んだ。Bainの調査では951社の約40%がコスト削減目標を未達で、原因は「完全自律エージェント」を前提にした事業計画——だが実際に自律運用しているのは7%だけ。業界の合言葉は「トークンを最大化せよ」から「ガードレールが要る」へ反転した。
あるトークン上限を設けなかった企業が1ヶ月でClaudeに$500Mを費やしたと報じられた。Amazonは社内AIリーダーボードを、従業員が無意味なタスクで順位を稼ぎクラウド費を膨張させたため廃止。「使えば使うほど偉い」文化のコストが可視化された。
Uberは4ヶ月で年間AI予算を使い切り、従業員のAIツール(Claude Code等)支出を1人月$1,500に制限した。Walmartも社内アシスタント「Code Puppy」に月次クレジット上限を導入。GitHub Copilotのトークン従量課金は初日から実質値上げとなり、開発者の反発を招いた。
Bainの951社調査では約40%がコスト削減目標を未達(11〜20%削減見込みに対し実績10%未満)。最大の原因は事業計画が完全自律エージェントを前提にしたこと——だが実際に自律運用しているのはわずか7%。「人間が介在し続ける」現実がROIを削った。
BoxのAaron Levieは「大半のCEOはAI精神病だ」と指摘し、AI能力の過大評価が意思決定を歪めているとの議論が広がった。CognitionのScott Wuは「コーディングエージェントは人間を置き換えるべきでない」と反論。熱狂とコスト現実の落差が、経営の論点として表面化した。
Claudeに支出
年間AI予算枯渇
している企業
WHY IT MATTERS
「プロダクト・マーケット・フィットは見つかった」が、「採算が合うか」は別問題だ。$500Mの暴走やUberの4ヶ月枯渇は、トークン消費が想定外の速度で膨らむことを示す。Bainの「自律運用は7%」という数字は、削減効果の前提が崩れていることの証左だ。業界は「使い放題で速く」から「上限・監視・ガードレール」へ舵を切った。AIの価値は否定されないが、これからはFinOps(コスト運用設計)がAI導入の成否を分ける。
フロリダ州がOpenAIとAltman個人を提訴
「欠陥製品」論、トランプ大統領令は“任意”、英国は記事のオプトアウトを命令
AIへの法的包囲網が一段と狭まった。フロリダ州はOpenAIとSam Altman個人を提訴し、83ページの訴状でChatGPTを「欠陥製品」かつ「公的迷惑(public nuisance)」と位置づけ、ChatGPT関連の複数の殺人事件や年齢確認の不備を列挙、数十億ドルの制裁を求めた。トランプ大統領は“任意”でのモデル提出を求める大統領令に署名したが、審査を担うはずのセキュリティ部隊はDOGEに削られて空洞化。英CMAはGoogleにAI検索での出典明示と記事のオプトアウトを命じ、AI大手は超党派でバイオ兵器規制の強化を議会に求めた。
フロリダ州司法長官がOpenAIとAltman個人を提訴。83ページの訴状はChatGPTを「欠陥製品」「公的迷惑」とし、ChatGPT関連の複数の殺人、年齢確認・未成年保護の欠如、安全投資の不足を指摘。Altmanが人命に「全くの無頓着」を示したとし、数十億ドルの制裁を求めた。
トランプ大統領はAI企業に対し、フロンティアモデルを政府の安全審査へ任意で提出するよう求める大統領令に署名。国防総省・CISAに30日以内のサイバー防御強化も命じた。だが義務的な事前承認はなく、審査を担うはずのセキュリティ部隊はDOGEに削減され空洞化しているとの批判が相次いだ。
英国CMAはGoogleに対し、AI検索(AI Overviews / AI Mode、合計月35億人超)で出典リンクの明示と、出版社がオプトアウトできる仕組みの提供を命じた。Googleは「ユーザーは出典リンクを望んでいない」と主張していた。世界展開の試金石と見られるが、多くの出版社に「他に行き場はない」現実も残る。
競合するAIリーダーらが珍しく足並みを揃え、AI支援によるバイオ兵器への保護強化を米議会に求める公開書簡を提出。「バイオセキュリティの穴」をめぐり、競争を超えて連携する構図が生まれた。GPT-Rosalindのデュアルユース懸念とも地続きの動きだ。
「欠陥製品・公的迷惑」
対象ユーザー
モデル安全審査
WHY IT MATTERS
AIの法的リスクが「製品責任」と「公的迷惑」へ拡張した。フロリダ州がAltman個人を名指しで訴えたことは、経営者の人的責任にまで射程が及ぶ前例になりうる。一方、連邦の大統領令は“任意”で実効部隊も空洞、英国は記事オプトアウトを命じる——規制は単一の条文ではなく、州・連邦・他国・訴訟が押し引きする多層構造へ移った。企業のガバナンス担当は「どの法域のどのルールがいつ動くか」を常時監視するしかない。AI政策は、立法より訴訟と政治で動く局面に入っている。
フロンティアAIが16GBのノートPCへ降りてくる
Gemma 4・Nemotron 3 Ultra・RTX Sparkでオープン化と個人化が加速
メガクラウドの軍拡競争の裏で、AIは「手元」へ降りてきた。Google DeepMindのGemma 4 12Bはエンコーダ不要のマルチモーダルモデルで16GB RAMのノートPCで動き、256Kトークン文脈・140言語超・Apache 2.0。NVIDIAはオープンな550Bモデル Nemotron 3 Ultra(55Bアクティブ、Mamba-Transformer、1M文脈)を、Ideogram 4.0やMiniMax M3もオープンウェイトで投入した。ハード側ではNVIDIAがRTX SparkでWindows PCに再挑戦し$200B規模のCPU市場を狙い、Perplexityはタスクを自動でローカルとクラウドに振り分けるハイブリッド基盤を発表。巨大化と小型化が同時に進んでいる。
Google DeepMindのGemma 4 12Bはエンコーダ不要の統合マルチモーダルモデルで、16GB RAMのノートPCで動作。256Kトークン文脈、140言語超、Dense/MoEの両系統、Apache 2.0で、26B級に迫るベンチを示す。週内にQATチェックポイントも公開され、端末メモリをさらに圧縮した。
NVIDIAがオープンな550BパラメータのMoE(55Bアクティブ)「Nemotron 3 Ultra」を公開。Mamba-Transformerハイブリッドで100万トークン文脈、同等のオープンLLM比で最大約6倍の推論スループット。重み・学習データ・レシピを公開するOpenMDW-1.1ライセンスを採用した。
Ideogram 4.0がネイティブ2K解像度とテキスト描画改善でオープンウェイト公開され、DesignArenaでオープン首位に(上位はOpenAI/Googleのクローズドのみ)。MiniMax M3はMSA構成で100万トークン文脈とエージェント的コーディングを備える。クローズド勢に対し、オープン陣営が画像・マルチモーダル領域でも肉薄してきた。
NVIDIAはRTX SparkでMicrosoft・Dell・HPと組みWindows PCに再挑戦し、$200B規模のCPU市場を狙う(「WindowsのM1モーメント」とも、ただし高価)。Perplexityはタスクの複雑さに応じてローカルとクラウドへ自動で振り分けるハイブリッド基盤を発表し、「全クラウドか全ローカルか」の二択を終わらせる。
ノートPCのRAM
オープン・55Bアクティブ
CPU市場
WHY IT MATTERS
AIの主役はクラウドだけではない。Gemma 4が16GBのノートで、Nemotronがオープンに550Bで動く——巨大化と端末化・オープン化が同時進行している。これはコスト・プライバシー・主権の観点で重い意味を持つ。月$920Mを払えない組織や個人でも、手元で「自分のフロンティア」を持てるからだ。Perplexityのローカル/クラウド自動振り分けは、その二項対立を解消する実装の先駆け。「誰のデータが、どこで、いくらで動くか」の選択肢が、ようやくユーザー側に戻り始めた。
賢くなるほど露わになる「空約束」
医療論文に捏造引用、検索エージェントは“調べない”、ウェブは「クロール課金」へ
能力の急伸と裏腹に、AIの「自信ある間違い」と社会的反発が同時に膨らんだ。コロンビア大の監査ではAI捏造引用を含む生物医学論文が3年で12倍、277本に1本に達し、臨床ガイドラインを汚染しつつある。AI検索エージェントは新しい出来事だけのベンチでは実際にはウェブを調べず学習データを確認しているだけと判明。「役に立つよう調教する」ほど人間行動の模倣は劣化する(20.8万人・2,600万回答の研究)。一方Cloudflareは「ボットが人間トラフィックを超えた、ウェブの未来はクロール課金」と宣言、ニューヨーク州はデータセンター新設を1年凍結。賢さの指標と、社会が払うコストが同じ速度で並走している。
コロンビア大主導の250万本の生物医学論文監査で、AIが捏造した引用を含む論文が2023年比12倍超に急増、2026年には277本に1本(2,810本)に。臨床ガイドラインを形成する論文にまで侵入し、影響を受けた論文の98%は出版社が無対応だった。米連邦裁では本人訴訟の5件に1件がAI生成テキストを含む。
ハルビン工大の「LiveBrowseComp」(直近90日の出来事に限定)で、GPT-5.4やKimi K2.6など主要AI検索エージェントは実際にはウェブを調査せず学習データを確認しているだけと判明。最新情報に絞ると既存ランキングが大きく入れ替わった。北京大は正答でも出典が支持しない「帰属幻覚」を指摘しベンチCiteVQAを公開した。
20.8万人・2,600万回答の大規模研究で、RLHF的な「役立つ」調教が人間行動のシミュレーション能力を弱め、世代ごとに悪化することが判明。ペルソナ指定でも個人予測はほとんど改善しない。Geminiの追従(sycophancy)も6系統の縦断監査で露わになった。「賢さ」と「人間理解」は別軸だと示された。
Cloudflareはボットが人間トラフィックを超えたとし、ウェブの未来は「明らかにクロール課金(pay to crawl)」と宣言。「AIスロップを自分でフィルタさせろ」とThe Vergeは要求し、DuckDuckGoの“ノーAI”検索は急成長。ニューヨーク州はデータセンター新設の1年凍結を可決し、K. O'Learyはユタの計画を約50%縮小した。
生物医学論文
2,600万回答
新設モラトリアム
WHY IT MATTERS
能力スコアが伸びるほど、正確性・信頼・社会的コストの請求書も厚くなる。医療や司法という「間違えてはいけない領域」に捏造引用が侵入し、検索エージェントは“調べたふり”をし、調教するほど人間理解が痩せる——これらは個別のバグではなく、現行アーキテクチャの構造的な性質だ。Cloudflareの「クロール課金」やNYのモラトリアムは、社会がAIの外部不経済を価格と規制で内部化し始めた合図。フロンティアの華やかさの足元で、「誰が正確性と footprint のコストを払うのか」という問いが、今期も解かれないまま積み上がった。
今週のキーワード
この2週間はAnthropicが軸だった。$65B調達で評価額1兆ドルに迫り、Opus 4.8を投入し、ついにSECへIPOを申請——だがS&P 500は赤字を理由に門前払いした。コンピュート争奪は次元を超え、GoogleですらSpaceXに月$920Mを払い、Nvidiaは台湾に$150B、AirTrunkはインドに$30Bを投じる。MicrosoftはBuild 2026で7つの自社モデル・エージェントOS・1ペタフロップスのミニPCを一挙投入し「脱OpenAI」を完成させた。セキュリティではMeta AIが“頼むだけ”で乗っ取られ、AnthropicのMythosは1万件の脆弱性を見つける一方NSAの攻撃作戦も動かす。AIは80年来の数学難問を数百ドルで崩し、Claudeは自社コードの90%超を書いて「一時停止ボタン」を求めた。請求書も届いた——ある社は月$500M、Uberは4ヶ月で予算枯渇。法廷ではフロリダ州がOpenAIとAltman個人を提訴。その裏でGemma 4は16GBのノートPCへ降り、医療論文には277本に1本の割合で捏造引用が忍び込む。資本・コンピュート・プラットフォーム・セキュリティ・科学・自己改善・コスト・規制・端末化・信頼のすべてが、同じ2週間で一斉に動いた。