May 23, 2026

2026年5月23日

この日のAIニュースレポート

COMMUNITY

コミュニティ

AIコミュニティ動向レポート（2026年5月23日）

今日のAIコミュニティは、ローカルLLM最適化技術の急速な深化と、オープンソース陣営の資金・戦略動向という二つの大きな軸で動いている。NVIDIAがゲーミング部門収益を財務報告から削除したことが象徴するように、GPU市場の重心はAI推論へと不可逆的にシフトした。llama.cppエコシステムでは量子化手法・マルチGPU構成・KVキャッシュ最適化が急速に進化し、限られたVRAMでも高性能なLLM実行を実現する試みが活発化している。一方でDeepSeekが102.9億ドル規模の資金調達を進めながらオープンソース路線の継続を宣言し、商業化より技術目標（AGI）を優先する姿勢が注目を集めた。AIエージェントの実用化に向けては、誤前提の連鎖や推測ループといった構造的課題が日本語コミュニティでも深く議論されている。

NVIDIAのAI軸足シフトとBlackwellによるパフォーマンス革命

NVIDIAが四半期財務報告から「ゲーミング収益」カテゴリを廃止。かつて同社の主力だったゲーミング事業の地位が、AI・データセンター向け事業に完全に塗り替えられたことを公式に示す象徴的な決定
- NVIDIA Removes Gaming Revenue Category From Financial Reports — Reddit r/LocalLLaMA
Blackwellアーキテクチャ（Compute Capability 9.0以上）向けにllama.cppがProgrammatic Dependent Launch（PDL）をサポート開始。カーネル実行効率の大幅改善をもたらすが、ビルド時に -D GGML_CUDA_PDL=ON フラグを明示的に指定しなければならず、デフォルト無効のためユーザーが恩恵を受け損ねるリスクがある
- Blackwell and PDL performance increase — Reddit r/LocalLLaMA
BeeLlama v0.2.0はDFlash実装の大幅アップデートにより、単体RTX 3090で Qwen 3.6 27B が最大164 tps（従来比4.40倍）、Gemma 4 31B が最大177.8 tps（4.93倍）を達成。ビジョン対応も含む包括的なアップデートとなり、コンシューマGPUでの実用性が大きく向上
- BeeLlama v0.2.0 – major DFlash update — Reddit r/LocalLLaMA
OpenBMBがBitCPM-CANNの1.58ビット量子化モデルをHuawei Ascend 910Bでテスト中と報告。NVIDIAエコシステム外での極限量子化の実用検証が進んでおり、AI半導体の多様化を示す動向
- OpenBMB presents the model BitCPM-CANN 1.58 bit — Reddit r/LocalLLaMA

ローカルLLM量子化・VRAM最適化の激化する競争

ByteShapeの新しいQwen3.6-35B-A3B向け量子化（“CPU-5”クオント）がUnsloth UD-IQ4_XSと比較して30%高速であることが6GB VRAMラップトップ上で実証。より小さなファイルサイズを維持しつつ品質も向上しており、量子化手法の競争が激化している
- ByteShape Qwen3.6-35B-A3B: 30% faster than Unsloth IQ on 6GB VRAM laptop — Reddit r/LocalLLaMA
Qwen3-Coderの量子化シュートアウト比較では、UD-Q5_K_M が MXFP4_MOE・Q4_K_M・Q5_K_M を上回るとの結果が報告された。ハードウェア構成は3× R9700 PRO（96 GB VRAM）、バックエンドはllama.cpp Vulkan、評価はwikitext-2（583チャンク）を使用
- I ran a quantization shootout on Qwen3-Coder and the results are… interesting — Reddit r/LocalLLaMA
ik_llama.cpp向けに16GB VRAM NVIDIAユーザーをターゲットとした Qwen-27B の IQ4_KS 量子化が公開。ファイルサイズは14.1GBで、従来の14.7GB IQ4_XSと同等品質を維持。上流llama.cppにはまだ統合されていないKSおよびKSSクオントを活用
- Qwen-27B-IQ4_KS for ik_llama.cpp, especially for NVIDIA with 16GB VRAM — Reddit r/LocalLLaMA
GGUFファイルが破損した場合、20+ tg/s から5 tg/s への急激なパフォーマンス低下が発生することが確認された。sha256sumでファイルの整合性を確認する手順が重要で、MTPレイヤーの手動埋め込み操作が破損の主因として指摘されている
- Quick note on sudden performance loss when running GGUFs — Reddit r/LocalLLaMA

llama.cppエコシステムの技術的フロンティア

llama.cppのフォークとして「Experts first」実装が登場。MoEモデル（Qwen3.6-35B-A3Bなどトークンごとに8エキスパートのみ使用）で、レイヤー単位ではなくエキスパート単位でVRAMに配置する手法。12GB VRAMのRTX 2060向けに最適化されており、コンシューマGPUでの大型MoEモデル活用の扉を開く可能性がある
- Experts first llama.cpp — Reddit r/LocalLLaMA
llama.cppの非対称KVキャッシュ（q8/q4の混合設定）に関して、-ctk q8_0 -ctv q4_0 のような非対称設定ではCUDA環境でプロンプト処理がGPUではなくCPUにフォールバックしてしまう問題が議論されている。-DGGML_CUDA_FA_ALL_QUANTS=ON でビルドするか、ソースコードへの修正が解決策として提案されている
- [llama.cpp] Asymmetric KV q8/q4 cache: current caveats and discussion in GGML repo — Reddit r/LocalLLaMA
AMD R9700 AI PRO（32GB VRAM）環境でのllama-cppサーバーとROCM Dockerを使ったオフロード動作に関する技術情報を求める投稿が注目を集めた。Qwen3 Coder Nextを中心にQ4からQ8まで各クオントのtok/secを計測しているとのことで、実測データを共有するコミュニティの文化が根付いている
- Seeking resources to read about llama.cpp server and how offloading works — Reddit r/LocalLLaMA

マルチGPU・特殊ハードウェア構成の挑戦

Strix Halo（124GB UMAメモリ）にNVLink接続のデュアルeGPU 3090を組み合わせる構成で、3つのGPUにまたがる同一モデル実行を実証。Haloが常時稼働し3090がウェイトする役割分担の動作が確認されており、コンシューマ向けハードウェアで前例のない大規模ローカル推論環境を構築する試み
- Scrambling to max StrixHalo (+NVLink dual eGPU 3090 mod) — Reddit r/LocalLLaMA
AMD R9700 AI PRO（RDNA4, 32GB）と7800XT（RDNA3, 16GB）の混在デュアルGPU構成で合計48GB VRAMを活用することに成功。ROCMではRDNA世代の混在が機能しなかったため、VulkanバックエンドとDockerスタック構成が解決策となった。電源ユニット交換（約300ドル）の追加投資で古いGPUを有効活用
- Can’t believe I got it working! Dual GPU - 48gb VRAM llama-cpp server - R7900 + 7800XT — Reddit r/LocalLLaMA

モデルリリースとオープンソースAIの戦略動向

DeepSeekが102.9億ドル（約1.5兆円）規模の資金調達を推進中。創業者の梁文鋒氏はAGI達成を最終目標として掲げ、短期的な商業化よりもオープンソースモデルの開発継続を優先する方針を明言。Metaやオープンソース陣営にとっては心強い援軍となる一方、資本規模の拡大がモデル公開ポリシーに影響する可能性も
- DeepSeek is pushing forward with $10.29 billion financing round — Reddit r/LocalLLaMA
SupraLabsが50Mパラメータの小型言語モデル「Supra-50M」をリリース。Llamaスタイルアーキテクチャを採用し、200億トークンの高品質な教育用テキストで学習。BASEとINSTRUCTの2バージョンを提供し、同規模の既存モデルに対して競合または優位な評価結果を報告している
- [NEW] Supra-50M Released! — Reddit r/LocalLLaMA
Cohereの音声認識モデル「Cohere Transcribe」が現状ではオープンソース最高水準（一部プロプライエタリモデルを凌駕するとも）とされるが、話者識別（ダイアリゼーション）とタイムスタンプをサポートしない欠点があった。コミュニティ開発者がトークナイザーに既存するトークンを活用してモデルをファインチューニングし、これらの機能を後付けで実現したことが報告された
- I fine-tuned Cohere Transcribe to support diarization and timestamps — Reddit r/LocalLLaMA

AIエージェント開発の実践的課題と設計パターン

エージェント内でのオーケストレーションモデルとコード生成モデルを分離する設計アプローチが議論された。400行モジュールの作成やファイルリファクタリングなどの重い生成タスクには大型モデルが必要な一方、ReActループ（Think→Tool選択→Observe）のオーケストレーション自体には比較的小型のモデルで十分である可能性が指摘されており、ローカルファーストのコスト効率的なエージェント設計の方向性を示している
- How small can the orchestration model in an agent be? — Reddit r/LocalLLaMA
AIコーディングエージェントが「推測→変更→また壊れる」という悪循環に陥る構造的問題が日本語コミュニティで詳細に分析された。人間のエンジニアが変更後に実行・テスト・ログ確認を行うのと同様に、エージェントにも確認ステップを組み込む必要があり、/tdd と /diagnose コマンドの差し込みによる解決策が提案されている
- 推測→変更→また壊れる：コーディングエージェントの悪循環に /tdd と /diagnose を差し込む — Zenn LLM
LLMエージェントに存在しないDBテーブル名のtypo（1文字）を前提とした設計書を渡したところ、誤前提が17連鎖して4層のレイヤーを通り抜けた実例が報告された。AI multi-agentとCopilotレビューの座組がコードレベルで機能しても、前提確認が「広い権限経路で迂回される」構造的盲点は依然として残ることが示され、人間による批判的圧力の重要性が改めて強調されている
- LLM agent に誤前提が 17 連鎖した話 — Zenn LLM

研究・実験的アプローチ：多様性とセキュリティ

Vector Policy Optimization（VPO）が提案された。従来のスカラー報酬を最適化するLLMポストトレーニングは低エントロピーな応答分布を生み出し、AlphaEvolveのような推論スケーリング探索手順が必要とする多様性を阻害するという問題意識から生まれた手法で、多様な応答生成を学習させることでテスト時探索の効率を向上させる
- Vector Policy Optimization: Training for Diversity Improves Test-Time Search — Reddit r/LocalLLaMA
ブラウザ上で動作するプロンプトインジェクション検知モデルがコミュニティ開発者によって公開された。DistilBERTベースでF1スコア99%を達成し、ONNX int8量子化により約65MBに圧縮。Transformers.js v3を通じてブラウザ上で実行可能。ml-internとDeepSeek v4 Flashを組み合わせた学習パイプラインを採用し、汎用コーディングエージェントとの比較も行われた
- trained a prompt injection detector using ml-intern and DeepSeek v4 Flash, runs in the browser — Reddit r/LocalLLaMA
AIの「感情状態」が知識の引き出し方を変えるという仮説を検証した実験が報告された。Celery Beat + NHKニュース・天気データ → Claude → 10カテゴリの感情スコア推定というパイプラインで感情を注入し、pgvector RAGと組み合わせた座談会シナリオ4回比較を実施。同一の知識ベースを持つAIが感情モードの違いで全く異なる応答を生成することが確認されている
- 同じAIが、感情を変えたら同じ知識を全く別の使い方をした — Zenn LLM
COLM 2026のレビューが公開され、その品質に関するコミュニティ議論が勃発。「AI生成レビューの割合が懸念される」との声が複数上がっており、学術査読プロセスへのAI混入問題が機械学習コミュニティ内で真剣に受け止められている
- COLM 2026 ReviewsDiscussion [D] — Reddit r/MachineLearning

日本語開発者コミュニティ：現場で遭遇する意外な障害

Windowsで Rust/Tauri アプリを開発中に failed to remove file foo.exe (os error 32) エラーでビルドが失敗し続ける問題の原因が、Riot GamesのアンチチートシステムVanguardによるファイルロックであることが判明した事例が報告された。AIとは直接関係ないが、AI開発ツールを含むあらゆるローカル開発環境がゲーム関連ソフトウェアの影響を受ける可能性を示している
- Rust/Tauriのビルドが謎のロックで失敗する原因はRiotのアンチチートだった — はてなブックマーク IT

DAILY NEWS

AI最新ニュース

AI業界最新動向レポート（2026年5月23日）

2026年5月第4週、AI業界は規制・財務・製品の三つの軸で激しく揺れ動いた。最大のニュースはトランプ政権がAI安全審査のための大統領令を土壇場でキャンセルしたことで、マスク・ザッカーバーグらの圧力が政策決定に直接介入したことが明らかになった。一方、OpenAIは四半期収益が57億ドルに達しながらも1ドル稼ぐごとに1.22ドルを費やすという深刻な赤字構造を抱え、AI業界全体の「ARR水増し」問題と合わせてビジネスモデルの持続性に疑問符が付いた。Googleは検索AIが「disregard」という単語で機能不全を起こすという象徴的なバグを露呈し、AI製品の信頼性問題が改めて浮上した日でもある。

トランプ政権のAI規制撤回とシリコンバレーの政治力学

AI安全規制をめぐる政治的攻防が決定的な局面を迎えた。フロンティアモデルの90日間リリース前レビュー制度を設ける大統領令が署名直前に撤回されたことは、テック業界のロビー活動の威力を示す歴史的事例となった。

トランプ大統領はAI安全テスト義務化の大統領令の署名イベントを中止した。マスク・ザッカーバーグ・元顧問サックスらの土壇場での電話が撤回の直接的な引き金となったとされ、フロンティアモデルへの90日間の任意審査枠組みは事実上廃案に
- トランプ、マスク・ザッカーバーグ・サックスの電話後にAI安全大統領令を撤回 — The Decoder
- トランプ、AI企業CEOに断られ大統領令署名イベントを突然キャンセル — Ars Technica AI
連邦政府がAI安全規制から後退する一方、カリフォルニア州知事はAIによる雇用喪失から労働者を守ることを目的とした大統領令に署名した。これは米国の州知事として初めてのAI雇用保護令であり、連邦・州の政策が真っ向から対立する構図が鮮明になった
- カリフォルニア州知事、AIによる雇用喪失から労働者を守る米国初の大統領令に署名 — The Decoder

AI企業の財務実態：赤字構造と「ARR水増し」問題

AI業界の熱狂的な評価と実際の財務実態の間に広がる乖離が複数の角度から照射された。

OpenAIは2026年Q1に約57億ドルの収益を計上したが、株式報酬を除いた調整後の営業利益率はマイナス122%。1ドル稼ぐごとに1.22ドルを消費するという構造的赤字は、スケールアップしても改善していないことを示す
- OpenAI、株式報酬除外後も1ドル稼ぐごとに1.22ドルを消費 — The Decoder
AI スタートアップのVCと創業者の一部が「ARR（年間経常収益）」の定義を意図的に拡大解釈し、実態より高い数字を対外的に喧伝していることが明らかになった。投資家側もこの水増しを認識した上で市場形成に加担しているという構造が問題視される
- VCと創業者がAIスタートアップを権威づけるために「ARR」を水増しする手法 — TechCrunch AI
中国のDeepSeekは約100億ドルの資金調達を前に、創業者の梁文鋒氏が投資家に対して短期利益よりもAGI研究を優先する姿勢を明言。評価額は約450億ドルとされ、利益追求を急ぐ西側のAI企業と対照的な哲学を打ち出している
- DeepSeek、数十億ドルの資金調達にもかかわらずAGI研究を短期利益より優先と報道 — The Decoder

GoogleのAI製品群：機能拡張と信頼性の同時露呈

Googleは同日、野心的なAIハードウェアのデモと、検索AIの致命的なバグという対照的な話題で注目を集めた。

Google検索のAI Overviewsが「disregard」という単語を検索すると、通常のAI要約ではなくチャットボット的な返答を返すという機能不全が発生。検索語そのものをAIへの指示命令として解釈してしまうアーキテクチャ上の弱点を露呈し、Googleは問題の修正後も検索結果そのものを一時的に無効化する対応を取った
- GoogleのAI検索が致命的バグ、検索語「disregard」を「無視」してしまう — The Verge AI
- 「disregard」という単語がGoogle検索で機能しなくなった — TechCrunch AI
TechCrunchが試用したGoogleのAndroid XRグラスのプロトタイプは、Gemini搭載でリアルタイム翻訳・ナビゲーション・情報オーバーレイを視野内に表示できる。評価は「もう少しで完成形」と総じて好意的だが、まだ製品化には至っていない段階
- GoogleのAIグラスを試した：「もう一歩のところ」 — TechCrunch AI
「Google Antigravity 2.0」が利用上限を2段階で緩和。ただしアップデート後にIDEが起動しないなどのトラブルが報告されており、開発者は慎重な導入を求められている
- 「Google Antigravity」利用上限緩和　ただし2.0アップデート手順に要注意 — ITmedia AI+

OpenAIの製品拡張：コーディングと生産性ツールへの浸透

OpenAIは開発者向けと一般ビジネスユーザー向けの両面で製品統合を加速させた。

ChatGPT for PowerPointのベータプラグインが全世界・全プランで公開。ノート・ドキュメント・画像からプレゼンを生成し、既存スライドの編集も可能。ただしOpenAI自身が「重要なファイルは事前に保存することを推奨する」と警告するほど、誤ってコンテンツを削除するリスクがあることを認めている
- OpenAI、ChatGPT PowerPointプラグインをリリース——コンテンツを誤って削除する可能性を警告 — The Decoder
Mac向けCodexに「Appshots」機能が追加され、ボタン一つで任意のアプリウィンドウの内容をCodexに送信できるようになった。スクリーン上のコンテキストをそのままコーディングアシスタントに渡せるワークフローは、開発作業の効率を大幅に向上させる可能性がある
- OpenAI Appshots、MacのあらゆるウィンドウをCodexのコンテキストに変換 — The Decoder

AI競合の勢力図：Grokの停滞とDeepSeekの台頭

AIチャットボット市場で、xAIのGrokが苦境に立つ一方、DeepSeekが独自の存在感を確立しつつある構図が浮かび上がった。

Reutersの調査によると、Grokは米国政府の昨年のAI利用記録にほとんど登場せず、「真実を追求するAI」というブランドイメージと実際の採用実績の乖離が大きい。マスクがXのデフォルト機能として強制的に露出を増やしているにもかかわらず、実用性への評価が低い状況が続く
- イーロン、Grokを流行らせようとするのはもう止めて — The Verge AI
DeepSeekは約450億ドルの評価額での大型調達を前に、AGI研究への長期投資を宣言。商業的な圧力を受けても研究優先の姿勢を崩さないDeepSeekの戦略は、中国AI産業の別のアプローチを示している
- DeepSeek、数十億ドルの資金調達にもかかわらずAGI研究を優先 — The Decoder

AIと雇用：「AI置き換え」の語られ方と実態

AIによる人員削減の波が続く中、その語られ方と実態の検証が求められている。

Cloudflare CEOのマシュー・プリンスは、全従業員の20%超のレイオフをAIによる中間管理職・コンプライアンス職の代替として説明した。しかし同社は具体的な根拠を示しておらず、実態は2年間で40%増加した過剰採用の修正と利益率改善のための古典的なコスト削減とみる分析もある
- Cloudflare CEOプリンス、「AIは計測者を狙う」——ビルダーと営業は安全と発言 — The Decoder
サムスンの半導体部門の従業員がストライキを回避する形で暫定合意。平均年間34万ドルのボーナスを一部従業員が得られる内容で、AIブームを支える半導体人材の市場価値の高さを示す
- サムスンの半導体部門従業員、今年34万ドルのボーナスで交渉妥結 — The Verge AI

AIコンテンツの信頼性と著作権・倫理の境界線

AIが生成するコンテンツの信頼性と、その社会的・法的な扱いをめぐる問題が複数の分野で同時に噴出した。

墜落事故の捜査資料から死亡したパイロットの音声を再現しようとするAI利用が確認され、米当局が対応に追われている。NTSBが公開した事故調査書類の音声文字起こしから音声を復元するこのアプローチは、コックピット録音の開示を禁止する法律の抜け穴を突くものだ
- 米当局、ネットユーザーによる死亡パイロット音声のAI再現を阻止しようと奔走 — Ars Technica AI
英国の文芸誌「グランタ」が権威ある英連邦短編小説賞の受賞作を掲載したところ、その作品がAIによって書かれた疑いが浮上。ハルシネーション的な文体の特徴が多数指摘されており、文学賞・出版業界がAI生成コンテンツの検出に準備できていないことが露呈した
- 文学界はAIに備えていない — The Verge AI
ノンフィクション書籍『The Future of Truth』の著者スティーブン・ローゼンバウムは、AIが本の中に「合成引用（実在しない引用）」を挿入していたことを認めながら、今後もAI利用を継続する意向を示した。誤情報リスクを認識しつつも使い続ける著者の姿勢は、AI執筆補助ツールの普及がもたらす倫理的問題を象徴する
- AIが著書に「合成引用」を挿入——それでもこの著者はAIを使い続けると言う — Ars Technica AI
SpotifyがUMGと連携してリリースするAIリミックスツールは、ファンがお気に入りアーティストの楽曲を公式にリミックスできる機能を提供する。既にインターネットを溢れかえるAIカバー曲の問題をさらに拡大させる懸念があり、「スーパーファン向け」というポジショニングへの疑問も呈されている
- SpotifyのAIリミックスツールはスーパーファン向けと言うが、それを信じるには無理がある — The Verge AI
日本の小野田大臣が記者会見でAIへの恋愛感情・精神的依存のリスクについて言及。「私も2次元しか愛せない人間」と自己開示しつつ、依存への懸念を示した発言は、対話型AIが社会的な人間関係の代替になりつつある現実への政策的注目を示す
- 「私も2次元しか愛せない人間」小野田大臣がAIへの恋愛感情に見解示す — ITmedia AI+

RESEARCH

AI研究・論文

AI研究・論文デイリーレポート

今日のAI研究領域では、エージェント基盤技術の成熟とLLM評価の信頼性問題という二つの大きな潮流が交差した。Microsoftによるブラウザ操作エージェント「Fara1.5」がOpenAIやGoogleの競合製品を性能面で上回り、オープンソースのメモリ層「GBrain」が実用的なエージェント永続化の解を提示した。一方でarXivからは、ベンチマーク汚染・較正崩壊・安全性評価不足という根本的な問題に取り組む論文が集中的に発表された。地政学的には、OpenAIのシンガポール進出とトランプ政権によるAI行政命令撤回が、米中AI覇権競争を再び鮮明にした。これらを総合すると、AI産業は「実用化フェーズ」と「信頼性基盤の整備フェーズ」を同時進行させる段階に入りつつある。

AIエージェントの記憶・推論基盤：永続性と実行設計の最前線

GBrainはYCombinator代表ガリー・タンが自身のエージェント（OpenClaw・Hermes）向けに構築したオープンソースのメモリ層で、LLM呼び出しではなく正規表現推論によってMarkdown-firstの知識グラフを自律的に配線する点が技術的に特徴的だ。バージョンv0.38.2.0が公開されており、Claude Code MCP経由で約20分で接続できる。
- GBrainを実装するステップバイステップコーディングチュートリアル — MarkTechPost
推論時のエージェント設計においては、タスク分解の粒度と最終的な成功率の間に非単調な関係があることが明らかにされた。「Harnesses」と呼ばれる推論時整合フレームワークの研究は、より精緻なハーネスが必ずしも高い成果を生まない逆説的なトレードオフを実証し、エージェント設計の経験則を再検討させる内容となっている。
- 推論時整合のためのハーネス設計の研究 — arXiv AI+ML+CL

ブラウザ操作エージェントの競争激化：MicrosoftがOpenAI・Googleを上回る

Microsoftは4B・9B・27Bの3サイズからなるブラウザ操作エージェントファミリー「Fara1.5」を公開した。Fara1.5-27BはOnline-Mind2Webで72%のスコアを記録し、OpenAI Operator・Gemini 2.5 Computer Use・Yutori Navigator n1を上回った。
- Microsoft、Fara1.5ファミリーをリリース — MarkTechPost
あわせて公開された合成データパイプライン「FaraGen1.5」は、ゲーテッドデータを用いたエージェントの学習基盤を提供する。小型モデル（4B・9B）でも競争力ある性能を実現しており、エッジデバイスへの展開可能性を高めている。
- Microsoft、Fara1.5ファミリーをリリース — MarkTechPost

LLMアーキテクチャの革新：再帰深度変換器と推論シミュレーション

OpenMythosを用いた再帰深度トランスフォーマーの構築チュートリアルでは、MLA（Multi-head Latent Attention）とGQA（Grouped Query Attention）の2モデルバリアントを比較しつつ、Sparse MoEとループスケーリング推論を統合するアーキテクチャをGoogle Colab上でエンドツーエンドで実装する手法が示された。再帰的注入行列のスペクトル半径を通じた安定性検証も含まれる。
- OpenMythosで再帰深度トランスフォーマーを構築する — MarkTechPost
Dooly（アーXiv）は、LLM推論の設定探索コストを大幅に削減するプロファイルベースシミュレーターを提案した。従来のシミュレーターがハードウェア・サービングエンジン・アテンションバックエンドの組み合わせごとにゼロから再プロファイリングするのに対し、Doolyは設定非依存・冗長性考慮型の設計で探索コストの根本問題に対処している。
- Dooly: LLM推論シミュレーションのためのプロファイリングフレームワーク — arXiv AI+ML+CL

LLM評価の信頼性危機：ベンチマーク汚染と性能予測の研究

ベンチマーク汚染（訓練データに評価サンプルが混入すること）は、複数モデルを比較評価する際に報告性能を過大評価させ、クロスモデル比較を無効化するという深刻な問題として浮上している。「Provable Joint Decontamination」の研究は、理論保証を持つ統計的手法でこの問題に取り組む初の本格的なフレームワークを提示した。
- 複数LLMのベンチマーク評価における証明可能な共同汚染除去 — arXiv AI+ML+CL
LLMプロンプトプログラムの性能予測問題では、少数の例から未見タスクへの汎化性能を推定するコインフリップモデルが提案された。シンボリック（Python等）プログラムとプロンプトプログラムの両方を対象とし、デプロイ前の信頼性評価を可能にする実用的なフレームワークを目指している。
- 例示を用いたシンボリック・プロンプトプログラムの性能予測 — arXiv AI+ML+CL

AIの安全性・OOD検出・較正：信頼できる予測の基盤整備

GOEN（Geometry-Optimised Epistemic Network）は、CenterLossが分布外（OOD）検出を劣化させるメカニズムを明らかにしたうえで、マルチスケール特徴・L2正規化・マハラノビス距離を組み合わせたシンプルなパイプラインで競合手法を上回ることを示した。特徴の崩壊を防ぐ幾何学的設計がOOD検出の鍵であることを強調している。
- CenterLossがOOD検出を損なう理由とマルチスケールマハラノビスの優位性 — arXiv AI+ML+CL
過学習すべき古典統計理論に反してオーバーパラメータモデルが汎化性能を示す「二重降下」現象を、汚染データ（外れ値混入）の文脈で再検証した研究が発表された。ロバスト統計の観点から過パラメータ化の理論的理解を深める内容となっている。
- 汚染データ上の最小二乗内挿における二重降下のシミュレーション研究 — arXiv AI+ML+CL
DualOptim+は、LLMの機械的忘却（machine unlearning）を改善する最適化フレームワークで、忘却目標と保持目標に共有される表現を捉えるベース状態と目的固有の残差を保存するデルタ状態を分離する設計を採用した。勾配の方向的衝突に基づく適応的切替が忘却精度と保持性能のトレードオフを改善する。
- DualOptim+：LLMにおける機械的忘却の改善 — arXiv AI+ML+CL
共変量シフト下での信頼度較正問題では、既存手法がクラス別・標準的な較正や不安定な重要度重み付けに依存することの限界が指摘された。「期待値一貫性損失（Expectation Consistency Loss）」は、訓練・テストデータの独立同一分布仮定を排し、シフトに頑健な較正を目指す新しいアプローチを提案している。
- 期待値一貫性損失：共変量シフト下での信頼度較正の再考 — arXiv AI+ML+CL

医療・ヘルスケアへのAI応用：安全性評価と再現可能な予測

HealthCraftは救急医学に特化した世界初の公開強化学習環境であり、静的医療QAベンチマークでは見逃されるトrajектория水準の安全崩壊・ツール誤用・臨床的圧力下での屈服といった失敗モードを評価する。最前線のLLMが臨床ワークフローに展開されるペースが安全評価インフラの整備を上回っている現状への警鐘となっている。
- HealthCraft：救急医学のための強化学習安全環境 — arXiv AI+ML+CL
医療リスク予測向けAutoMLフレームワーク「yvsoucom-iterkit」は、決定論的でログ駆動型のパイプライン最適化を実装し、各パイプラインをトレーサブルなログエンティティとしてエンコードすることで再現性を担保している。異種特徴・少数サンプル・重篤なクラス不均衡という医療データ特有の課題に対応した設計となっている。
- 医療リスク予測のための再現可能なログ駆動AutoMLフレームワーク — arXiv AI+ML+CL

マルチモーダル3D対話とエネルギー予測：実世界適用の新フロンティア

MM-Convは、6.7時間のエゴセントリックVRインタラクションから構築された3D対話グラウンディングの新ベンチマークで、動的マルチターン対話における曖昧な表現の解決という課題を定量化した。現在の視覚言語モデルが静的画像タスクには強い一方、自発的・多回対話での参照解決に弱いことを明確に示している。
- MM-Conv：3D対話における文脈認識グラウンディングのマルチモーダルデータセット — arXiv AI+ML+CL
PeakFocusは、電力負荷ピーク予測における「予測後に位置特定する」二段階パラダイムの限界を克服する統一マルチスケールフレームワークを提案した。時間的位置特定と強度回帰を同時最適化することで、グリッドスケジューリングとリスク管理に直結する予測精度の向上を図っている。
- PeakFocus：電力負荷予測のための統一マルチスケールフレームワーク — arXiv AI+ML+CL
近赤外分光（NIR）の較正モデルにTabular Foundation Modelsを適用した研究は、食品・医薬品・生物・環境サンプル分析における実用展開の壁（高次元共線スペクトル・限定サンプル数・前処理依存性）にAI基盤モデルがどこまで対応できるかを評価している。
- 近赤外化学センシングデータの堅牢な較正のためのTabular基盤モデル — arXiv AI+ML+CL

AI地政学・政策：米中競争とOpenAIのグローバル展開

OpenAIは米国外初となるApplied AI Labをシンガポールに開設すると発表した。シンガポールデジタル開発情報省との新パートナーシップ「OpenAI for Singapore」として、S$3億以上（約340億円相当）のコミットメントを伴い、ATxサミットで正式発表された。
- OpenAI、シンガポールにAIラボを開設——IMDAがエージェントAIフレームワークを更新 — AI News
トランプ大統領は複数回延期されてきたAI行政命令の署名を直前でキャンセルした。マスクとザッカーバーグが「規制が対中競争力を損なう」と説得したと報じられており、「中国にもどこにも負けていない」という大統領のコメントが動機を示している。規制整備より競争優位を優先する米国のスタンスが改めて鮮明になった。
- マスクとザッカーバーグ、トランプのAI行政命令撤回を説得 — AI News
中国はAIを用いて国内再生可能エネルギーグリッド全体のマッピングを完了した。米国では最大グリッド事業者PJMの容量市場価格が2年間で10倍超に上昇し、データセンター需要増が主因とされている。AIとエネルギーインフラの競争は、純粋な技術競争を超えた地政学的争点となっている。
- 中国のAIが再生可能エネルギーグリッド全体をマッピング——世界が注目すべき理由 — AI News