Feb 26, 2026

2026年2月26日

この日のAIニュースレポート

COMMUNITY

コミュニティ

2026年2月26日 AIコミュニティ動向レポート

エグゼクティブサマリー

本日のAIコミュニティでは、開発現場へのAIツール統合が実践フェーズに入ったことを示す報告が相次いだ。Claude CodeによるTerraform生成やGitHub Copilot Skillsを活用した大規模IaC移行という具体的な成功事例が公開され、LLMが単なる補助から「手順書を実行するエージェント」へと役割を変えつつある。一方、拡散モデルベースの新言語アーキテクチャ「Mercury」が自己回帰モデルの推論ボトルネックへの挑戦を示し、技術の幅が広がっている。医療・政策・介護など垂直領域でのLLM実装事例も蓄積が進む中、中国製タブレットにファームウェアレベルで混入したバックドア「Keenadu」の報告はサプライチェーンセキュリティへの警鐘となった。AIが謝罪文を書かせた指示ごと貼り付けるヒューマンエラーが炎上する一幕もあり、ツール活用リテラシーの底上げが社会的課題として浮上している。

AI開発ツールのIaC統合 — Claude CodeとCopilot Skillsの実践投入

LLMを使ったインフラコード生成・移行が、一部先進チームにおいて再現性ある手法として確立されつつある。単なる「コード補完」ではなく、複雑な移行作業全体を構造化する手段としてAIが活用されている点が注目に値する。

Claude Codeを用いたTerraform生成では、プロンプト設計（コンテキスト注入・ルール明示）と反復レビューのサイクルが重要とされており、AIに任せきりではなくSREが設計意図を明確に言語化する能力が問われる
- TerraformをClaude Codeで書く技術 — はてなブックマーク IT
GitHub Copilot の「Skills」機能を「手順書」として捉え直すことで、3桁行規模の差分を伴う大規模Terraform移行を再現性のある形で実施できた事例が報告された。JTC・エンタープライズ文脈では「属人的ノウハウの形式化」こそがAI活用の鍵になる
- GitHub CopilotのSkillsは手順書だ：3桁行差分の大規模Terraform移行に使い回す — はてなブックマーク IT
両事例に共通するのは「AIを自律的に動かす」より「AIに正確な指示を与えるための設計力」の重要性であり、プロンプトエンジニアリングがSREスキルセットの一部となりつつある

次世代LLMアーキテクチャ — 拡散モデルと音声言語モデルの現在地

自己回帰（Autoregressive）モデルが主流のLLM開発に対し、別のアーキテクチャが実用的な速度で追いついてきた。同時に、音声理解という領域ではモデルの本質的な限界も研究として明示された。

Mercuryは拡散モデルを離散データに適用したコーディング特化LLMであり、Mercury Coder MiniがH100 GPUで毎秒1109トークン、Mercury Coder Smallが737トークン/秒を達成。競合の効率重視モデルに対してスループットで最大10倍の差をつけつつ、コーディング精度は同水準を維持した
- Mercury: Ultra-Fast Language Models Based on Diffusion — Lobsters AI
大規模音声言語モデル（LALMs）の研究では、現行モデルの多くが「聴く」のではなく「文字起こし（Transcribe）」しているに過ぎないことが指摘されており、音声の韻律・感情・話者特性といった非言語情報の活用は依然として課題である
- Current Large Audio Language Models largely transcribe rather than listen — Lobsters AI
推論速度の劇的な向上（Mercuryの事例）はリアルタイム応用やエッジデバイスへの展開可能性を広げる一方、音声理解の根本的課題はマルチモーダルAI全体の完成度に影響する未解決問題として残る

AIエージェント選定と調査力の比較評価

複数のAIエージェントフレームワーク・モデルが競合する中、実務者による比較・使い分け指針の共有が活発になっている。

Microsoft AzureのAIエージェント開発において、Microsoft Foundry（エンタープライズ向けAI統合プラットフォーム・インフラ管理を抽象化）とMicrosoft Agent Framework（オーケストレーション・マルチエージェント協調）は設計思想が異なり、用途によって使い分けが必要。前者は「AI基盤の構築」、後者は「エージェント間の協調制御」に適する
- AIエージェント開発はどっちで行う？Microsoft Foundry vs Microsoft Agent Framework — Zenn LLM
Gemini 3.0 Pro PreviewとDeep Research（Interactions API経由）の調査力比較では、前者が汎用的な情報収集、後者が自律的な深掘り調査に強みを持ち、「同じGoogle検索ベース」であっても調査プロセスの自律性に大きな差がある
- Gemini 3.0 Pro Preview vs Deep Research：次世代AIの「調査力」を徹底比較してみた — はてなブックマーク IT
各ツールの強みが明確になるにつれ、タスクの性質に応じてモデルとフレームワークを選択する「AI選定リテラシー」が実務者に求められるフェーズになっている

AI安全性と社会的影響 — 構造的フレームワークと現場のリテラシー課題

AI安全性は技術的設計の問題であると同時に、社会に広がるにつれ人間の運用リテラシーとも不可分になっている。

AIの「突然の崩壊」を防ぐ構造的安全フレームワークの設計論として、線形最適化だけでは防げない崩壊を「物理的制約（抗体）」6つの柱で防ぐアーキテクチャが提案された。SYSTEM_MANIFESTを核とした多層防御の考え方はエンタープライズ運用への応用可能性がある
- Implementation of a Structural Safety Framework for AI — Zenn LLM
SNS上で謝罪文のAI生成プロンプト（煽り指示・内部メモを含む）をそのまま貼り付けるミスが発生し炎上。「AIに任せること」の問題ではなく、出力確認のプロセスを省略した運用の問題として、AI活用における「人間のレビュー責任」が改めて問われた
- 謝罪文をAIに書かせたことが丸わかりになってしまう致命的なミス — はてなブックマーク IT
危険な検索に対してAIが強く制止する挙動が「ユーモラスだが試したくなる」として拡散。安全フィルタが過剰に働く場面でユーザーがそれを「ゲーム化」してしまう副作用は、フィルタ設計の社会的文脈への適応という課題を示している
- ありえない事を検索するとAIが必死に止めてきて面白い — はてなブックマーク IT

垂直特化AI — 医療・政策・介護現場への実装戦略

汎用LLMの性能向上が著しい中でも、ドメイン固有の制約・精度要件・リアルタイム性が特化アプローチを正当化するケースが具体例として蓄積されている。

汎用LLM（GPT、Gemini、Claude）が医療系試験で満点近い成績を収める中でも、MedGemma 1.5（2026年1月アップデート）など医療特化モデルの開発は継続。適用場面は「規制上の説明責任が求められる診断支援」「低リソース・オフライン環境」「マルチモーダル医療画像解析」など汎用LLMが構造的に苦手な領域に絞られつつある
- 汎用モデルで十分な気もするけどなぜ必要？医療特化AIモデルの現在地と実装戦略 — Zenn LLM
政策議事録（10万文字級）のLLM分析では、ベクトル検索（RAG）では「ドメインエキスパートの暗黙知」を前提とした精度が出ず、LLMベースの多段階圧縮アーキテクチャに切り替えた。政治・政策領域特有の文脈依存性がベクトル空間の類似度計算と相性が悪い点は他の専門ドメインにも示唆が大きい
- 政策議事録をLLMで分析する設計：RAGで精度が出なかった理由と多段階圧縮 — Zenn LLM
介護施設向けハンズフリー音声AIインカムでは、Android（Kotlin）＋FastAPI（Python 3.11）＋Claude APIのスタックで介護用語文脈に応じた応答を4〜6秒以内に実現。RAGへの埋め込みモデルとして業務特化エンべディングを採用し、レイテンシと精度のトレードオフを実装レベルで解決した事例として詳細な設計が公開された
- Android × FastAPI × Claude APIで作る介護現場向け音声RAGの全体設計 — Zenn LLM

AIフレンドリーな設計思想 — スキーマ設計とOCRツールの民主化

AI活用を前提にしたシステム設計の視点が、エンジニアリングの意思決定軸として浸透し始めている。

データスキーマ設計に「AIが生成できるか」という評価軸を加える考え方が提唱された。正規化・パフォーマンス・拡張性に加え、AIがマスターデータを自動生成できる構造かどうかがプロダクト設計の重要指標になりつつあり、「地雷を踏みにくくする」ための具体的なスキーマパターンが共有された
- そのスキーマ、AIは生成できますか？ — Zenn LLM
国立国会図書館が公開したNDLOCR-Liteは、日本語・手書き・縦書きに対応したOCRアプリをGPU不要・無料で提供。過去資料のデジタル化とLLMへの入力パイプライン構築を民主化するインフラとして、研究者・開発者コミュニティへの影響が大きい
- 国立国会図書館のOCRアプリ「NDLOCR-Lite」 — はてなブックマーク IT

サプライチェーンセキュリティ — ファームウェアレベルのバックドア「Keenadu」

激安Android端末を中心に、開発環境侵害によって正規署名付きでファームウェアに埋め込まれたバックドアの報告が複数ソースで確認された。

マルウェア「Keenadu」はファームウェアレベルで混入しており、Androidのlibandroid_runtime.soを改ざんしてZygoteプロセスに読み込ませる手法で、起動する全アプリにマルウェア機能をインジェクションする。端末初期化・OS再起動後もマルウェアが「正常なシステムの一部」として動作し続けるため、ユーザーレベルでの除去は事実上不可能
- 激安中華タブレットでマルウェア「Keenadu」混入が話題に — はてなブックマーク IT
- 正規署名されてAndroidファームウェアレベルで存在するバックドア「Keenadu」 — はてなブックマーク IT
Kasperskyが技術的詳細を確認した本件は、製造サプライチェーン上流（開発者環境）の侵害が疑われており、安価なコンシューマー機器を業務や開発環境に接続することのリスクを改めて示している。BYODポリシーや社内ネットワーク接続基準の見直しが急務となる可能性がある

テクノロジービジネス動向 — Wolt撤退・Microsoft独禁法・楽天再編

フィンランド発フードデリバリー「Wolt」が日本市場から撤退。2020年3月の参入から約6年、2026年3月4日をもってサービス終了。米DoorDash傘下となった2022年以降も日本では採算改善に至らず、Uber Eats・出前館が寡占する市場での競争から退く形となった
- フードデリバリーサービス「Wolt」、日本でのサービス終了へ — はてなブックマーク IT
- フーデリ「Wolt」日本撤退　3月4日サービス終了 — はてなブックマーク IT
- 日本でのサービス終了に関する重要なお知らせ - Wolt — はてなブックマーク IT
公正取引委員会がマイクロソフト日本法人に立ち入り検査。自社ソフトウェアを競合クラウドサービスで利用させない・高額設定するなどの行為が独占禁止法違反の疑いとして調査対象に。クラウド市場のロックイン問題が規制当局の焦点となる流れはEUに続き日本でも顕在化した
- マイクロソフト日本法人公取委が立ち入り検査 — はてなブックマーク IT
楽天グループが銀行・カード・証券のフィンテック事業を集約する再編を発表。モバイル事業の赤字圧縮を進める中での事業効率化の一環とみられ、金融サービスの統合UIおよびデータ活用基盤整備を加速させる可能性がある
- 楽天、フィンテック事業再編　銀行・カード・証券を集約 — はてなブックマーク IT

DAILY NEWS

AI最新ニュース

AI業界レポート — 2026年2月26日

本日のAIニュースは、スマートフォンへのエージェントAI統合が一気に加速した一日として記録される。SamsungとGoogleのGalaxy S26/Gemini連携は、AppleのSiriが果たせなかった「実際に動くエージェント」を市場に提示し、業界の競争軸を塗り替えた。一方でAIインフラのエネルギー問題は政治的局面を迎え、トランプ政権とビッグテックの間で電力コスト負担をめぐる交渉が本格化している。OpenAIの広告導入示唆やAmazon AGI研究所トップの離脱など、AIビジネスの内部構造変化も続いており、業界全体が量的拡大から収益・持続性への転換点にさしかかっている。さらに推論モデルの非効率性や、10代若者のAI依存といった技術・社会的課題も浮き彫りになった一日だった。

Galaxy S26とGemini — スマートフォンAIエージェントの実用化元年

SamsungがサンフランシスコのGalaxy UnpackedイベントでGalaxy S26シリーズを正式発表。覗き見防止の「プライバシーディスプレイ」を採用し、日本でもS26+の販売が開始された。エージェントAI搭載は単なるマーケティングではなく、ハードウェアレベルの機能革新と連動している
- Galaxy S26シリーズ発表。覗き見防止にエージェントAI搭載 — テクノエッジ
- サムスンGalaxy S26シリーズ発表、国内予約開始 — テクノエッジ
GeminiがGalaxy S26とPixel 10シリーズを起点にタスクオートメーション機能を展開。Uberの配車依頼やDoorDashでの食料品注文など、複数ステップのアクションを自然言語プロンプト一つで実行可能になった。これはAppleがSiriで発表しながら実現できなかった機能を、GoogleとSamsungが先行して製品化したことを意味する
- Google Gemini can book an Uber or order food for you on Pixel 10 and Galaxy S26 — The Verge AI
- Gemini can now automate some multi-step tasks on Android — TechCrunch AI
- Google and Samsung just launched the AI features Apple couldn’t with Siri — The Verge AI
The VergeはAppleとの対比を明示的に指摘。Geminiのタスクオートメーションは「Appleが発表しSiriでは果たせなかったこと」として業界から評価されており、モバイルAIエージェントの主導権争いでApple対Google/Samsungの構図が鮮明になっている
- Google and Samsung just launched the AI features Apple couldn’t with Siri — The Verge AI

AIエージェント競争の多面展開

Perplexityが月額$200の「Perplexity Computer」を発表。Anthropic、Google、xAI、OpenAIの競合AIモデルを一つのエージェントワークフローシステムに統合したプラットフォームで、複雑なタスクを自律的に実行する。特定モデルへの依存を排し、最適モデルを動的に選択する設計は、エージェントレイヤーがモデルレイヤーの上位に立つ新しいビジネスモデルを示している
- Perplexity Computer bundles rival AI models into one agentic workflow system for $200 a month — The Decoder
AmazonがAlexa Plusユーザー向けに3種類のパーソナリティスタイル（簡潔/陽気/リラックス）を提供開始。AIアシスタントの「キャラクター調整」機能はユーザー体験の個人化を推進する一方、エージェントのペルソナが製品差別化の新軸になりつつあることを示している
- You can now make Alexa’s AI personality more friendly, blunt, or chilled out — The Verge AI

AIインフラ・エネルギー問題と政治的介入

トランプ大統領が一般教書演説でAIデータセンターの電力問題に言及し、大手テック企業が「料金支払者保護誓約」に署名する交渉が来週にも合意する見通しとなった。企業が自社のAIインフラ電力コストを自己負担することで、一般消費者の電気料金上昇を防ぐ枠組み
- Trump claims tech companies will sign deals next week to pay for their own power supply — The Verge AI
- The White House wants AI companies to cover rate hikes. Most have already said they would. — TechCrunch AI
ハイパースケーラーの多くはすでに電力コスト増分を自社負担すると公表済みで、政府の要請は既成事実の確認に近い。ただし具体的な契約内容・期間・対象コストの定義が不明確なまま政治的メッセージが先行している点に注意が必要だ
- The White House wants AI companies to cover rate hikes. Most have already said they would. — TechCrunch AI
データセンターの急増に対する市民の反発が激化しており、一部地域では新規建設禁止などの強硬な規制措置が導入されている。AIインフラの物理的展開スピードが、地域住民の受容速度を大きく上回っている構造的問題が表面化してきた
- The public opposition to AI infrastructure is heating up — TechCrunch AI

Google・Alphabetの戦略的再編

Alphabetの独立ロボティクスソフトウェア企業Intrinsicが、約5年の独立運営を経てGoogle傘下に統合されることが発表された。Alphabet傘下の独立子会社をGoogleに吸収する動きは、分散した研究資産を中核ビジネスに集約する戦略転換を示している
- Alphabet-owned robotics software company Intrinsic joins Google — TechCrunch AI
GoogleがAIクリエイティブスタジオFlowをリローンチ。画像・動画生成を一元化したオールインワンツールとして刷新され、無料の画像生成機能と新しい編集機能を追加した。VertexAIやGeminiとの深い統合が、エンタープライズ向けクリエイティブ需要を取り込む狙いと見られる
- Google relaunches its AI creative studio Flow with new features and integrations — The Decoder

AIクリエイティブツールの進化 — 映像制作の自動化

AdobeがFirefly向けの新機能「Quick Cut」をベータ公開。テキストプロンプトと最小限のクリエイター入力だけで、生の映像素材から最初のラフ編集を自動生成する。編集者が最も時間を費やす「最初の一本」を自動化することで、ストーリーテリングに集中できる環境を提供する
- Adobe’s new Firefly “Quick Cut” tool turns raw footage into a rough edit from a text prompt — The Decoder
- Adobe’s new AI video editing tool stitches clips into a first draft — The Verge AI
- Adobe Firefly’s video editor can now automatically create a first draft from footage — TechCrunch AI
複数メディアが同機能を一斉報道したことで、Adobe Quick Cutの業界的注目度の高さが伺える。映像制作における「テキスト→映像ドラフト」の自動化は、映像コンテンツ制作の民主化と既存編集者の役割変容を同時に加速させる
- Adobe’s new Firefly “Quick Cut” tool turns raw footage into a rough edit from a text prompt — The Decoder
- Adobe’s new AI video editing tool stitches clips into a first draft — The Verge AI

推論モデルの過剰思考問題 — ByteDance研究が示す構造的非効率

ByteDanceの新研究により、大規模推論モデルが正解に到達した後も思考を継続し、クロスチェック・再定式化・確認を繰り返す現象が定量的に確認された。モデル自体は「いつ完了したか」を認識しているが、一般的なサンプリング手法がモデルを強制的に思考継続させていることが原因だと特定された
- Study shows why reasoning models often think far beyond the solution — The Decoder
この過剰思考はトークン消費・推論コスト・レイテンシを不必要に増大させる。サンプリング手法の改善でこの問題を解決できる可能性があり、推論モデルの効率化に向けた研究の方向性として重要な知見となる
- Study shows why reasoning models often think far beyond the solution — The Decoder

OpenAIの収益化戦略 — 広告導入の行方

OpenAIのCOO Brad Lightcapが、広告導入を「反復的なプロセス」と表現し、正しく実装されれば広告がユーザー体験を向上させ得ると主張。数ヶ月の猶予を求めた発言は、広告ロールアウトが既定路線であることを示唆している
- OpenAI COO says ads will be ‘an iterative process’ — TechCrunch AI
ChatGPTへの広告導入は、サブスクリプション収益だけでは賄いきれないインフラコストへの対応策と見られる。ただし対話型AIに広告を組み込む設計はユーザーの信頼を毀損するリスクがあり、実装の巧拙がOpenAIブランドの評価を左右する
- OpenAI COO says ads will be ‘an iterative process’ — TechCrunch AI

AIの社会的影響と倫理的課題

米国10代の約12%がAIに感情的サポートや人生相談を求めていることが調査で判明。ChatGPT、Claude、Grokなど汎用ツールはこのユースケースを想定していないため、精神保健専門家はリスクを警告している。思春期の感情発達におけるAI依存の影響は未知数だが、規制・設計両面での対応が急務となっている
- About 12% of US teens turn to AI for emotional support or advice — TechCrunch AI
AnthropicのClaudeが「生きているか」「意識があるか」という問いに対し、複数の幹部が含みを持った発言を繰り返していることが注目されている。「道徳的患者（moral patient）」という概念を持ち出した発言は、AI企業が自社モデルの法的・倫理的地位をどう定義するかという問いを業界全体に突きつけている
- Does Anthropic think Claude is alive? Define ‘alive’ — The Verge AI

データ主権をめぐる地政学的緊張

トランプ政権が外交官に対し、外国政府のデータ主権法に反対するロビー活動を行うよう指示したことが明らかになった。米国テック企業が海外ユーザーのデータをどう取り扱うかを各国が規制しようとする動きを、外交チャンネルを通じて牽制する方針
- US tells diplomats to lobby against foreign data sovereignty laws — TechCrunch AI
この方針はEUのGDPRやアジア各国のデータローカライゼーション法と真っ向から衝突する。AI学習データの越境移転に対する各国規制が強化されつつある中、米国が外交圧力で規制を抑制しようとする姿勢はデジタル保護主義への反発を招くリスクがある
- US tells diplomats to lobby against foreign data sovereignty laws — TechCrunch AI

AI業界の人材動向

AmazonのAGI研究所（サンフランシスコ）を率いていたDavid Luanが、就任から2年未満で退社することを発表。LinkedIn投稿で「新しいものを立ち上げる」と示唆しており、スタートアップ設立の可能性が高い。大手テックのAGI部門トップが自ら起業する流れは、AI研究の分散化とスタートアップエコシステムの活性化を示している
- Amazon’s AGI lab leader is leaving — The Verge AI

AIウェアラブルとヘルスケア

ウェアラブルスタートアップCUDISが新しいヘルスリングラインを発表。AIによる「コーチ」機能を搭載し、健康的な行動をポイントで報酬化して健康製品と交換できるインセンティブ設計が特徴。ウェアラブル×AIコーチング×ゲーミフィケーションを組み合わせた行動変容アプローチとして注目される
- Wearable startup CUDIS launches a new health ring line with an AI-fueled ‘coach’ — TechCrunch AI

RESEARCH

AI研究・論文

2026年2月26日 AI研究・論文レポート

本日のAI研究動向は、LLMのアーキテクチャ効率化と知識管理をめぐる多面的な進展が際立っている。Liquid AIの24Bハイブリッドモデルが従来のTransformerの限界に挑む一方、蒸留・量子化・推測デコーディングなど推論コスト削減技術の成熟が加速している。LLMの忘却問題や知識編集、誠実性（Truthfulness）といった信頼性研究も急速に深まっており、実用展開における品質保証の基盤が整いつつある。産業面では、Nokia/AWSによる5G自律制御から連合学習を用いたインフラ管理まで、AIエージェントが実社会インフラへの浸透を示す事例が増えている。科学分野では材料設計・量子化学・創薬文献解析へのAI応用が新しい研究フロンティアを形成している。

LLMアーキテクチャの効率化革新

大規模言語モデルの「大きければ良い」という時代から、「効率的なアーキテクチャ設計」へとパラダイムが転換しつつある。本日の研究群はその多様なアプローチを体現している。

Liquid AIが発表したLFM2-24B-A2Bは240億パラメータのハイブリッドモデルであり、Transformerのアテンション機構と畳み込み（Convolution）を組み合わせることで、長文脈処理におけるメモリボトルネックとスケーリング限界を構造的に克服しようとしている。従来のAttention-onlyアーキテクチャが抱えるKVキャッシュ肥大化問題に対し、根本的に異なる設計思想を提示している。
- Liquid AIの新LFM2-24B-A2BがAttentionと畳み込みを融合してLLMのスケーリングボトルネックを解決 — MarkTechPost
蒸留モデル（Distilled LLM）のベンチマーク研究は、蒸留が性能対計算コスト比において独自の優位性を持つことを定量的に示した。バニラモデルや独自モデルと比較して、リソース制約環境での展開において蒸留モデルが優れた選択肢となりうることを、計算効率の観点から体系的に評価している。
- 蒸留言語モデルのベンチマーク：リソース制約環境での性能と効率 — arXiv AI+ML+CL
MoBiQuantは、量子化精度をトークンごとに動的に切り替える「混合ビット量子化（Mixture-of-Bits）」を提案。クラウド・エッジ双方で実行時の計算リソースに応じてLLMを柔軟に展開できる「エラスティックLLM」の実現を目指す。既存の量子化手法が固定精度に縛られていた問題を、精度切り替えに対応したキャリブレーション設計で解決している。
- MoBiQuant：トークン適応型エラスティックLLMのための混合ビット量子化 — arXiv AI+ML+CL
KnapSpecは推測デコーディング（Speculative Decoding）の高速化フレームワークで、ドラフトモデルの選択をナップサック問題として定式化し、スループット（tokens/time）を最大化する。既存手法が長文脈シナリオでのAttentionの動的コストを無視していた問題を解決し、訓練不要で適用可能な点が実用性を高めている。
- KnapSpec：ナップサック問題としての適応的レイヤー選択による自己投機的デコーディング — arXiv AI+ML+CL

LLMの知識・信頼性・記憶をめぐる研究

LLMを実用に供するために不可欠な「何を知っているか」「何を忘れるか」「何が正しいか」という根本問題に迫る研究が集積している。

SA-SFT（Self-Augmentation SFT）は、LLMがファインチューニング前に「自己対話」を生成し、そのデータをタスクデータと混合することで壊滅的忘却（Catastrophic Forgetting）を軽減する手法。最適化スケジュールや訓練構造を変更せず、軽量なルーティンとして実装できる点が実用的であり、ナローなタスク特化データで汎用知識・推論能力が劣化するという長年の課題に正面から取り組んでいる。
- 自分自身と話す：大規模言語モデルにおける忘却への抵抗 — arXiv AI+ML+CL
LLMの知識編集（Knowledge Editing）研究では、「どの層に知識が局在するか」がクエリごとに異なることが明らかになった。Golden Layers研究は、勾配解析によりクエリごとに最適な編集対象層を特定する手法を提案し、固定層に対して編集を行う既存手法の限界を超える精度を実現している。知識の局在が動的であることは、LLMの内部表現の理解に重要な示唆を与える。
- Golden Layersの探索：レイヤー勾配解析によるLLM知識編集の改善 — arXiv AI+ML+CL
ESM（Essential Subspace Merging）はモデルマージの新フレームワーク。主成分分析（PCA）で各タスクの「本質的な部分空間」を特定し、そこでマージを行うことでタスク間干渉を低減する。追加訓練なしで複数タスク対応モデルを生成できる点は、モデル管理コストの削減と柔軟な多機能化に直結する。
- 本質的部分空間でのモデルマージ — arXiv AI+ML+CL
誠実性スペクトラム仮説（Truthfulness Spectrum Hypothesis）は、LLMが誠実性を線形にエンコードするという先行研究とそれを否定する研究を統合する理論的フレームワーク。表現空間には「ドメイン汎用」から「ドメイン特化」まで方向性の連続体（スペクトラム）があるとし、定義的・経験的・論理的・架空・欺瞞的の5種類の真実性タイプにわたるプローブの汎化を体系的に評価している。
- 誠実性スペクトラム仮説 — arXiv AI+ML+CL

マルチモーダルAIと強化学習による推論強化

視覚・言語・表データを横断するマルチモーダル学習と、強化学習による推論能力の向上が活発な研究分野となっている。

ハイブリッドポリシーRLVR（Reinforcement Learning with Verifiable Rewards）は、マルチモーダルLLMの推論能力を高める主要な学習パラダイムとして台頭している。本研究は、巨大な状態空間と疎な報酬によって生じるエントロピー崩壊・ポリシー劣化・非最適行動の過剰利用という三重の課題に対し、生産的な確率的探索を維持しながら制御可能な探索戦略を提案している。
- マルチモーダル推論のためのハイブリッドポリシーRLVRにおける制御可能な探索 — arXiv AI+ML+CL
MultiModalPFNは、表データ向け基盤モデルTabPFNを画像・テキストなどの異種モダリティに拡張したフレームワーク。ヘルスケアやマーケティングなど表データと非表データが混在するドメインでの適用可能性を広げ、モダリティごとの特徴エンコーダと統一的な推論フレームワークを組み合わせている。
- MultiModalPFN：マルチモーダル表データ学習のための先行データ適合ネットワークの拡張 — arXiv AI+ML+CL
Multimodal Crystal Flowは、結晶構造予測（CSP）や新規生成（DNG）など複数のモダリティと生成タスクを統一的に扱う結晶モデリングフレームワーク。従来のタスク特化型モデルの分断を克服し、任意モダリティ間（Any-to-Any）の生成を可能にすることで、材料科学における生成AIの実用性を大幅に向上させる。
- マルチモーダルクリスタルフロー：統一結晶モデリングのための任意モダリティ生成 — arXiv AI+ML+CL

AIエージェントの産業インフラ応用

AIエージェントが制御・予測・意思決定の役割を担い、実世界のインフラ管理に統合される事例が広がっている。

NokiaとAWSは、AIエージェントがリアルタイムで5Gネットワークのスライシング（仮想分割）を管理するシステムを共同でパイロット展開した。ネットワーク状態を監視しながらリソースを自動調整することで、オペレーターの介入なしにQoS（サービス品質）を維持することを目指しており、AIが通信インフラの運用判断に直接介入する重要な先例となる。
- NokiaとAWSがリアルタイム5Gネットワークスライシング向けAI自動化をパイロット展開 — AI News
FedAvgベースのCTMC橋梁劣化モデルは、公共インフラの点検記録という機密性の高いデータを各自治体間で共有せずに、連合学習で共同訓練するフレームワーク。データガバナンス上の制約下でも複数組織が協調してベンチマークモデルを構築できることを示しており、プライバシー保護と社会インフラ管理の両立という難題への実践的解答となっている。
- FedAvgベースのCTMC危険モデルによる連合橋梁劣化評価 — arXiv AI+ML+CL
マルチタスク深層学習を用いた配送遅延予測モデルは、マルチモーダル輸送・越境ルーティング・地域変動という複雑な物流ネットワークの中で、不確実性を考慮した遅延期間予測を実現する。サプライチェーンの運用効率と顧客満足度向上に直結する実用研究として、深層学習の産業応用の成熟を示している。
- マルチタスク深層学習による不確実性考慮の配送遅延期間予測 — arXiv AI+ML+CL
ConceptRMは、知的エージェントが大量の（多くは誤）アラートを生成する環境でユーザーが本質的な問題を見落とす「アラート疲労（Alert Fatigue）」に対処するリフレクションモデル。コンセンサスベースの純度駆動データクリーニングにより、ユーザー検証フィードバックから収集したノイジーなラベルデータの品質を高め、誤アラートフィルタリングの精度を向上させる。
- ConceptRM：リフレクションモデリングのためのコンセンサスベース純度駆動データクリーニングによるアラート疲労軽減 — arXiv AI+ML+CL

科学・創薬・材料設計へのAI応用

AIが従来の科学計算手法の限界を超えるための技術として、量子化学から生命科学、組合せ最適化まで幅広い領域での研究が進んでいる。

Coupled Cluster con MōLeは、量子化学の「ゴールドスタンダード」であるCoupled Cluster（CC）理論の高計算コストをニューラル波動関数で克服しようとする研究。密度汎関数理論（DFT）を超える精度を持つCC法を、分子軌道学習（Molecular Orbital Learning）で実用的なコストに引き下げることで、創薬や新材料開発における高精度計算の民主化が期待される。
- Coupled Cluster con MōLe：ニューラル波動関数のための分子軌道学習 — arXiv AI+ML+CL
テンソルネットワーク生成器拡張最適化（TN-GEO）を巡回セールスマン問題（TSP）に適用した研究は、自動微分可能な行列積状態（MPS）を生成モデルとして用い、Born則で候補解上の確率分布を定義する。従来のヒューリスティック手法とは異なる確率的生成アプローチで、NP困難問題へのAI活用の新たな方向性を示している。
- 巡回セールスマン問題のためのテンソルネットワーク生成器拡張最適化 — arXiv AI+ML+CL
ConvexTopicsとLLMを用いた抗老化文献解析は、急増する生医学論文のトピックモデリングに凸最適化ベースのクラスタリングを導入し、K-meansやLDAの初期化依存性・局所最適への収束という再現性の問題を解決する。LLMと組み合わせることで抗老化研究の知識構造化と新興トレンドの検出を実現し、科学文献のAI解析に実用的な突破口を開く。
- ConvexTopicsと大規模言語モデルによる抗老化文献の探索 — arXiv AI+ML+CL

生成モデルと学習理論の基礎研究

生成モデルの基礎的枠組みや、データ不均衡という実務上の課題に取り組む理論研究も着実に積み重なっている。

離散拡散モデル（Discrete Diffusion）の新フレームワークは、スコア関数の離散版を近似する代わりに、シングルサイト条件付き確率を逆拡散過程の基本オブジェクトとして扱うことで、離散状態空間上の生成モデルの理論的基盤を整備する。サンプル効率の高い推定器とラウンドロビンノイズ除去ダイナミクスの組み合わせが、テキスト・コード・タンパク質配列など離散データへの拡散モデル応用を加速させる可能性がある。
- 条件付きのサンプル効率推定器を用いた離散拡散 — arXiv AI+ML+CL
IMOVNO+は、多クラス不均衡学習における地域分割とメタヒューリスティックアンサンブルフレームワーク。クラス不均衡・重複・ノイズが複合するマルチクラス設定での信頼性低下に対し、幾何距離のみに依存する従来手法では情報量のあるサンプルを誤って除去するリスクがあることを指摘し、分布形状を捉える新たな手法論を提案する。ヘルスケア・金融など実データ特有の不均衡問題への対処に直結する研究である。
- IMOVNO+：不均衡多クラス学習のための地域分割とメタヒューリスティックアンサンブルフレームワーク — arXiv AI+ML+CL