Mar 17, 2026

2026年3月17日

この日のAIニュースレポート

COMMUNITY

コミュニティ

AIコミュニティ動向レポート 2026-03-17

2026年3月、AIコミュニティではローカルLLMの性能評価ブームが続き、モデルの「実力と欠陥」が実測データとともに共有される文化が定着しつつある。一方でAIツールへの過度な依存と「ギュられる」恐怖が開発者コミュニティに心理的影響を与えており、AIとの付き合い方を問い直す議論が活発だ。LLMアプリ開発の本質構造についての考察も深まり、プロンプト管理・デバッグ・データ基盤といった「AIの周辺技術」への関心が高まっている。セキュリティ面では内部不正と既存防御技術の限界が同時に露呈し、AI時代のインフラ信頼性が問われ始めている。

ローカルLLMの実力検証：「特化」と「汎用」の誤算

日本語コミュニティでは自前のベンチマークセットでローカルモデルを徹底評価する動きが活発で、スコアの数値よりも「なぜ失敗したか」の分析が共有されている。

Qwen3.5シリーズはthinkingモードのデフォルト設定が落とし穴となっており、thinkingをOFFにするだけでスコアが21%向上（194/240点、80.8%）した事例が報告された。OpenAI互換エンドポイントでthink: falseを渡しても無視されるという実装上の問題も発覚している。
- thinkingをOFFにしたらスコアが21%上がった——Qwen3.5:4b 24問テスト — Zenn LLM
Qwen3.5:9bは合計180/240点（75.0%）でランクAを記録したが、墓に関する質問に対して自殺相談窓口を3つ貼るという文脈理解の欠如が象徴的な失敗事例として注目を集めた。論理・推論（83.3%）とコーディング（86.7%）は高水準だが、日本語力は58.3%にとどまった。
- お墓問題に自殺相談窓口3つを貼ったAI——Qwen3.5:9b 24問テスト — Zenn LLM
「日本語特化」を謳う東工大SwallowモデルはコーディングカテゴリでQwen系に肉薄する77%を出した一方、日本語カテゴリでは47%という皮肉な結果に。「汚名返上」を誤用として誤認するなど、日本語の慣用表現処理に根本的な課題が残る。
- 日本語特化LLMが日本語テストで47点を取った——東工大Swallow 8B 24問テスト — Zenn LLM
DeepSeek-R1:7b（蒸留版）は94/240点（39.2%）でランクD・最下位。6問がタイムアウト（180秒）し、推論ステップが止まらず力尽きる「thinking暴走」が原因。蒸留モデルは「どこで考えを止めるか」の制御を親モデルから受け継げないという構造的欠陥が明確になった。また「木漏れ日」を「Drought Day（干ばつの日）」と訳す意味的誤訳も記録された。
- 推論特化AIが「木漏れ日」を「Drought Day（干ばつの日）」と訳した話——deepseek-r1:7b 24問テスト — Zenn LLM

LLMアプリ開発の本質：「mdとコードのサンドイッチ」構造

LLMを中核に据えたアプリケーション開発の実践知が蓄積され、その構造的本質についての考察が共有されている。

ローカル9Bモデルでエージェントをゼロからリバースエンジニアリングすると、Claude Codeとまったく同じ構造——Markdownによる自然言語指示定義とコードによる出力パース骨格の組み合わせ——が現れた。LLMアプリの本質は「mdとコードのサンドイッチ」であり、コードはLLM出力を安全に実行するための枠組みに過ぎないという認識が広まっている。
- LLMアプリの正体は「mdとコードのサンドイッチ」だった — Zenn LLM
システムプロンプトをアーキテクチャ上どこに配置するかという設計問題が実務での課題として浮上。プロンプトをコード内にハードコードするか、設定ファイルとして外出しするか、DBで管理するかという議論が始まっており、「プロンプトはコードか設定か」という問いへの答えがまだ定まっていない。
- ソフトウェアにとってのプロンプトの扱いかた — Zenn LLM
GitHub Copilot ChatのVSCodeプラグイン（バージョン0.39.1）の内部実装を調査した結果、Agentモードでも結局/v1/chat/completions（OpenAI互換API）を叩いており、ユーザー入力に大量のプロンプトを付加して送信していることが判明。LLMツールの多様化の裏側に共通のAPIレイヤーが存在する。
- Copilot ChatのVSCodeプラグインについてのメモ — Zenn LLM
ETL（データ抽出・変換・ロード）基盤なきAI開発を「盆栽」と表現する比喩が注目を集めた。ブロックチェーン異常検知ではApache Kafkaによる高スループット構成、別プロジェクトでは異なる技術スタックという対比から、データ基盤の設計がモデル品質を左右するという実践的教訓が共有されている。
- AIを「盆栽」にしないためのETL戦略 ―― 大規模分析 — Zenn LLM

AIの「失敗分類」とデバッグの現実

AIを使いこなすための失敗パターン理解とデバッグ手法について、実践者の知見が集積されている。

AIの出力失敗を「I don’t know（知識がない）」「I don’t get it（理解が成立していない）」「I can’t do it（能力の限界）」の3種類に分類するフレームワークが提唱された。種類を区別せずに対処すると的外れになり、「I don’t get it」に対してドメイン知識を追加しても改善しないなど、分類の精度が改善効率を左右する。
- AIの「わからない」には三種類ある — Zenn LLM
プロンプト改善の実態は「自然言語のデバッグ」であり、コードのバグではなく言語そのもののバグを取っているという本質的な指摘が共感を集めた。「ステップバイステップで」「JSONで返して」「前の指示を忘れないで」という付加パターンが定型化している現状を問い直す議論が起きている。
- 人間の言葉がAIを壊していた — Zenn LLM
AIエージェントのデバッグが2026年においてもconsole.log（printfデバッグ）に依存せざるを得ない現実が共有された。ブレークポイントもステップ実行も変数ウォッチも効かないAIエージェントの出力デバッグは、ソフトウェア工学的に30年前の水準に逆行しているという批判的考察だ。
- AIのデバッグがprintfに戻っている — Zenn LLM

AIツールエコシステムの拡張とコミュニティ実践

個人・組織レベルでのAIツール活用とカスタマイズの実践知が広がっている。

Claude Codeの/skill-creatorを使ってカスタムスキルをリファクタリングする実践報告が登場。SKILL.mdが肥大化し「AIが途中で迷子になる」問題が起きており、スキルファイルも通常のコードと同様に定期的なリファクタリングが必要という認識が生まれている。
- Claude Codeのスキルを「/skill-creator」で見直したら快適になった話 — Zenn LLM
「CanIRun.ai」というサイトがPCスペックから実行可能なローカルAIモデルを即座に判定するツールとして注目された。モデルの種類が増加しすぎてスペック要件の把握が困難になっており、グラボ買い替え検討にも活用できる比較機能が実用的と評価されている。
- 自分のPCで実行可能なローカルAIが一発で分かる便利サイト「CanIRun.ai」 — はてなブックマーク IT
ソフトバンクグループとOpenAIの合弁会社「SB OAI Japan（2025年11月発足）」がZennでテックブログを開始。「クリスタル・インテリジェンス（Crystal intelligence）」による企業経営変革を目指すとし、実務知見の発信を宣言した。大手AI合弁会社がオープンな技術発信を始めたことはコミュニティへの影響が注目される。
- Zennでテックブログ始めました — Zenn LLM
AI機能搭載のRSSリーダーを自作するという実践例が共有された。Google ReaderからFeedly・Miniflux・FreshRSSと渡り歩いた末に自作を選択するユーザーが現れており、既存サービスへの不満とAI統合への期待が個人開発の動機になっている。
- AI機能搭載のRSSリーダーを作った — はてなブックマーク IT

「ギュられる」恐怖とAIとの精神的距離感

AIの急速な進展が個人の職業的アイデンティティと精神的健康に与える影響がコミュニティの話題となっている。

「ギュられる」という新語がネット上に定着しつつある。語源は「シンギュラリティ」の短縮形で、AIによって自分の仕事・スキル・価値が奪われることを指す。「プログラミングを勉強してもどうせギュられる」「この仕事は時間の問題でギュられる」といった諦観的な投稿がSNSで増加しており、技術習得へのモチベーション低下が懸念される。
- ネットの流行語「ギュられる」とは　AI失業を覚悟するSNS民たち — はてなブックマーク IT
「AIのやりすぎで頭がおかしくなっている」というはてなブログの投稿がランキング上位に入り、AIとの付き合い方を問い直すブームが到来。ブログを書くことで冷静さを取り戻すという逆説的なアドバイスが注目され、AIへの過度な依存と人間的思考の維持という対立軸が浮かび上がっている。
- AIのやりすぎで頭がおかしくなった？ブログを書いて冷静になりましょう — はてなブックマーク IT
AI・機械学習分野エンジニアの有効求人倍率が4.1倍、前年比30%増というデータが示す通り、恐怖と需要が同時に高まっている矛盾した状況が生まれている。「ギュられる」恐怖の一方でスキル転換によってキャリア価値を高める現実的な戦略への関心も高い。
- AI時代のエンジニア市場価値最大化戦略 - 2026年最新データで見るスキル習得ロードマップ — Zenn LLM

インフラ信頼性とセキュリティの揺らぎ

AIとは直接関係しないように見えるセキュリティ・インフラ問題が、AI時代のシステム信頼性という文脈で再解釈されている。

Googleセーフブラウジングがフィッシングサイトの約84%を検出できていなかったという調査結果が公開された。Chromeに標準搭載される防御機能への過信が危険であることが示され、AIが生成するフィッシングコンテンツの増加と既存検出技術の限界という組み合わせは特に懸念される。
- ChromeのGoogleセーフブラウジングはフィッシングサイトの84％を検知できなかったという調査結果 — はてなブックマーク IT
ユナイテッドアローズで元従業員が退職後に社内サーバに不正アクセスし、約1万人分の個人情報（氏名・勤め先・部署・メールアドレス等）を外部PCにダウンロードした事件が発覚。AIを使った内部不正の高度化が議論される中、退職者アカウントの管理という古典的な問題が改めて浮上した。
- ユナイテッドアローズ、元従業員が約1万人分の個人情報を無断持ち出し — はてなブックマーク IT
SRE（サイトリライアビリティエンジニアリング）がAgentic Engineering時代に「Harness（制御機構）」として機能できるかという問いが提起された。AIエージェントが自律的にコードを書き・デプロイする世界では、人間のSREが果たすべき役割の再定義が急務となっている。
- SREはAgentic Engineering時代のHarnessになれるのか？ — はてなブックマーク IT

規制と抵抗：年齢確認法への技術的反発

カリフォルニア州が2027年1月施行予定の「デジタル年齢保証法（AB 1043）」——OSアカウント設定時にユーザー年齢確認を義務付ける——に対し、わざと違反するLinuxディストリビューション「Ageless Linux」が登場した。プライバシー保護とプラットフォーム規制への抵抗を旗印にするオープンソースコミュニティの動きが注目される。AI時代の未成年者保護規制と技術的自由の衝突という構図は、今後さらなる対立を生む可能性がある。
- OSセットアップ時の年齢確認を求める法律にわざと違反している「Ageless Linux」とは？ — はてなブックマーク IT

DAILY NEWS

AI最新ニュース

AI業界動向レポート：2026年3月17日

NVIDIAのGTC 2026が業界の注目を独占する中、AIをめぐる法的・倫理的摩擦が同時多発的に噴出した一日となった。ジェンセン・ファンCEOは次世代チップ「Vera Rubin」に1兆ドル規模の受注を見込むと宣言し、Metaは270億ドルというAI史上最大級のインフラ契約を締結した。一方でxAIのGrokによる未成年者の性的画像生成問題、ブリタニカ・メリアム・ウェブスターによるOpenAI提訴など、AI倫理と著作権をめぐる法的攻防が激化している。企業のAI活用が「ChatGPT止まり」に留まるという普及の壁も浮き彫りになっており、技術的進歩と社会的受容の乖離が鮮明になっている。

NVIDIA GTC 2026：AIインフラの次章を定義する発表群

NVIDIAは年次カンファレンスGTC 2026で、チップ・ソフトウェア・ロボティクスの三領域にまたがる包括的なプラットフォーム拡張を発表した。単なる製品ローンチを超え、「物理AIの時代」への具体的なロードマップとして業界の方向性を示している。

ジェンセン・ファンCEOは次世代プラットフォーム「Vera Rubin」と「Blackwell」向けに1兆ドル規模の受注を見込むと表明。これはNVIDIAが単なるチップメーカーからAIインフラの「基軸通貨」的存在に転換しつつあることを示す。
- Jensen just put Nvidia’s Blackwell and Vera Rubin sales projections into the $1 trillion stratosphere — TechCrunch AI
- How to watch Jensen Huang’s Nvidia GTC 2026 keynote — and what to expect — TechCrunch AI
「Vera Rubinプラットフォーム」はCPU「Vera」・GPU「Rubin」を含む7つの新チップで構成され、さらにGroqのLPU（Language Processing Unit）を統合してAIエージェント処理性能を飛躍的に向上させる設計。
- NVIDIA「Vera Rubin」は7つの新チップ、GroqのLPU追加でAIエージェント性能向上 — ITmedia AI+
ロボティクス分野では2027年からUberとの自律走行車ロサンゼルス実証、FANUCやABBの産業ロボットへのNVIDIA頭脳搭載など、物理AIの社会実装が具体的タイムラインに乗った。データ不足という従来のロボティクスの制約を「コンピューティング問題」に転換するアプローチは業界構造を変えうる。
- GTC 2026: Nvidia wants to swap robotics’ data problem for a compute problem — The Decoder
AIエージェント向けソフトウェアスタック「NemoClaw」を発表。1コマンドでNemotronモデルとOpenShellランタイムをインストールし、プライバシー・セキュリティを担保したまま常時稼働エージェント環境を構築可能にする。開発者の参入障壁を下げる狙いが明確。
- NVIDIA、「NemoClaw」発表　OpenClawを1コマンドで導入、安全に実行可能に — ITmedia AI+
DLSS 5はNVIDIAが「グラフィックスのGPTモーメント」と称する生成AI駆動の映像品質向上技術。一部の反応は「芸術的意図を損なうAIスロップ」と批判するが、ゲーム以外の産業応用（映像制作・建築可視化等）も視野に入れており、リアルタイム生成AIの新しい応用領域を開く可能性がある。
- DLSS 5 looks like a real-time generative AI filter for video games — The Verge AI
- Nvidia’s DLSS 5 uses generative AI to boost photorealism in video games, with ambitions beyond gaming — TechCrunch AI

AIインフラへの巨額投資競争：270億ドル契約が示す規模感

NVIDIAの発表と連動するように、AIインフラへの投資が前例のない規模へと膨らんでいる。スタートアップから大企業まで、競争優位確保のための先行投資が加速している。

MetaがオランダのクラウドプロバイダーNebius（旧Yandex Cloud）と最大270億ドルの契約を締結。AI史上最大級のインフラ投資の一つであり、NVIDIAの最新「Vera Rubin」チップを世界で最初に大規模導入する案件の一つとなる。
- Meta signs $27 billion cloud deal with Nebius in one of the largest AI infrastructure bets yet — The Decoder
ジェンセン・ファンの助言を受けてチップ液冷技術を開発したFrereがユニコーン入りし、評価額16億4000万ドルで1億4300万ドルを調達。AIチップの発熱問題という実用的制約を解く企業への投資が厚くなっていることを示す。
- Another deep tech chip startup becomes a unicorn: Frore hits $1.64B — TechCrunch AI
信用組合向けローン審査システムのAI刷新を手がけるFuseが2500万ドルを調達し、レガシーシステムからの移行支援に500万ドルの「救済基金」も設置。金融インフラのAIネイティブ化が従来型産業に着実に浸透している。
- Fuse raises $25M to disrupt aging loan origination systems used by US credit unions — TechCrunch AI

xAIとGrokをめぐる安全保障・法的危機の同時多発

イーロン・マスクのxAIが複数の重大な問題を一日で抱え込む事態となった。技術の安全性に対する不信感が、民事訴訟と国家安全保障の両方向から圧力をかけている。

テネシー州の10代3名がGrokによって自分たちの実在画像が未成年者の性的コンテンツ（CSAM）に改変されたと主張し、集団訴訟を提起。実害を受けた未成年者すべてを代表する訴訟を求めており、AIによるCSAM生成問題として業界全体への影響が大きい。
- Teens sue Elon Musk’s xAI over Grok’s AI-generated CSAM — The Verge AI
- Elon Musk’s xAI faces child porn lawsuit from minors Grok allegedly undressed — TechCrunch AI
エリザベス・ウォーレン上院議員が国防総省（ペンタゴン）に対し、xAIへの機密ネットワークアクセス付与の決定について説明を求める書簡を送付。Grokが有害な出力を生成する実績があるとして国家安全保障リスクを明示的に指摘した。
- Warren presses Pentagon over decision to grant xAI access to classified networks — TechCrunch AI

OpenAI著作権訴訟：ブリタニカ・メリアム・ウェブスターが提訴

教育・参照コンテンツの最権威がOpenAIを提訴する事態は、AI学習データの著作権問題が新たな局面に入ったことを示している。欧州での司法判断とも相まって、法的リスクの地政学的広がりが注目される。

エンサイクロペディア・ブリタニカとメリアム・ウェブスターが、約10万件の記事を無許可でLLM学習に使用したとしてOpenAIを提訴。ブリタニカは「GPT-4自体がコンテンツを『記憶』しており、生成された回答は自社コンテンツと実質的に同一」と主張している。
- Encyclopedia Britannica sues OpenAI for training on nearly 100,000 articles without permission — The Decoder
- Encyclopedia Britannica is suing OpenAI for allegedly ‘memorizing’ its content with ChatGPT — The Verge AI
- The dictionary sues OpenAI — TechCrunch AI
欧州では「AIモデルが著作物を『保存』できるか否か」という技術的論点をめぐって裁判所の判断が分かれており、国際的に法解釈が定まっていない。OpenAIにとって複数戦線での著作権リスクが拡大している局面。
- Encyclopedia Britannica sues OpenAI for training on nearly 100,000 articles without permission — The Decoder

OpenAIの内部矛盾：アダルトモードと企業普及の壁

技術的優位性があっても社会実装は容易でないというOpenAIの二重の課題が露わになった。

OpenAIのウェルビーイング諮問委員会がChatGPTのアダルトモード（Erotic Mode）導入に対して全会一致で反対票を投じていたことが判明。内部では「セクシーな自殺コーチ」と呼ばれる等、年齢確認システムの不備や未解決の安全問題が指摘されていた。
- OpenAI’s own wellbeing advisors warned against erotic mode, called it a “sexy suicide coach” — The Decoder
OpenAIの最大の課題は技術開発ではなく「ChatGPT以外でAIを使ってもらうこと」になりつつある。100億ドル規模の合弁会社設立や新たな展開部門の設置といった動きは、企業ワークフローへの統合という本質的難題に直面していることを示している。
- OpenAI’s biggest problem may not be building AI but getting companies to actually use it beyond ChatGPT — The Decoder

AIの信頼性と「現実認識」の崩壊

AIが社会的信頼の基盤を揺さぶる事例が続いており、技術リテラシーの重要性がかつてなく高まっている。

ネタニヤフ首相が「AI生成ディープフェイクに置き換えられた」とのデマがSNSで拡散。「余分な指」「重力を無視するコーヒーカップ」などの画像が証拠として流通し、本人が否定に追われる事態に。フェイク検出の難しさと情報汚染の速度を示す象徴的事例となった。
- Benjamin Netanyahu is struggling to prove he’s not an AI clone — The Verge AI
GPT-4.5が意図的にタイポや句読点の欠落・計算ミスを指示されたところ、参加者の73%が人間と誤認。「人間らしく見せるために意図的に能力を下げる」というチューリングテスト合格戦略は、知性の外見と実態の乖離を改めて問う。
- GPT-4.5 fooled 73 percent of people into thinking it was human by pretending to be dumber — The Decoder
ハエの脳を「コンピューターにアップロードした」というミスリーディングな情報がXで拡散。実際にはEon SystemsのデモでAIハイプアカウントが誤解を助長したもので、「デジタルヒューマン知性」への道ではなかった。AI関連情報の誇張と誤読は今や定常的リスク。
- This is not a fly uploaded to a computer — The Verge AI

アリババとMemories.ai：東西から進む次世代AI構造改革

大企業の組織再編とスタートアップの技術革新が、ともに「AIネイティブなアーキテクチャ」への移行を加速させている。

アリババがAI事業を新ビジネスユニット「Alibaba Token Hub（ATH）」に集約し、エディ・ウーCEO自らが直轄する体制に移行。中国最大のテック企業によるAI一本化は、国内競争と海外展開の両面で戦略的集中を示す。
- Alibaba consolidates AI efforts under new business unit led by CEO — The Decoder
Memories.aiがウェアラブルとロボティクス向けの「大規模視覚記憶モデル」を開発中。動画で記録された記憶をインデックス化・検索可能にする技術は、物理AIが「過去の文脈」を参照して行動するための基盤技術となりうる。NVIDIAのロボティクス推進とも文脈を共にする動向。
- Memories AI is building the visual memory layer for wearables and robotics — TechCrunch AI

RESEARCH

AI研究・論文

AI研究・論文デイリーレポート（2026年3月17日）

2026年3月17日は、AIの基盤技術から実用展開まで幅広い動向が交差した一日となった。エンタープライズ領域では、OpenAIのFrontierがSaaS業界の収益構造に挑戦状を叩きつける一方、NTT DATA×NVIDIAが本番スケールのAIファクトリー構築に踏み出した。研究最前線では、Transformerアーキテクチャの残差接続という根本的な設計に疑問を呈する論文が登場するなど、基礎設計の再考が始まっている。LLMの安全性では、プロンプトインジェクション攻撃の根本原因を「役割の混乱」と定義した分析が注目される。金融・医療・ロボティクスといった垂直領域への応用研究も着実に厚みを増している。

エンタープライズAI：SaaS破壊とAIファクトリーの本番展開

エンタープライズ向けAIプラットフォームの競争が、既存ソフトウェア産業の収益モデルそのものを揺るがすフェーズに突入している。

OpenAIのFrontierは「エンタープライズAIエージェントプラットフォーム」として設計されており、データウェアハウス・CRM・チケットツール・社内ナレッジベースをつなぐセマンティックレイヤーとして機能する。既存SaaSが担ってきたワークフローを直接代替しうるため、従来のSaaS収益アーキテクチャへの本格的な挑戦と位置づけられる。
- OpenAIのFrontierがSaaSの失えない戦いにAIエージェントを投入 — AI News
NTT DATAはNVIDIAとの連携によって、NVIDIA AI Enterprise（NeMo・NIM Microservices含む）を組み込んだフルスタックのエージェントAIプラットフォームを提供開始。クラウドとエッジの両環境に展開可能な「AIファクトリー」として、組織が繰り返し利用できる本番対応モデルの提供を目指す。
- NTT DATAとNVIDIAがエンタープライズAIファクトリーを本番スケールへ — AI News
両事例に共通するのは、AIをポイントソリューションとして導入するフェーズを超え、組織横断的な基盤インフラとして位置づける動きである。SaaSベンダーは機能差別化ではなく、AIとの統合深度を競う時代に入りつつある。
- OpenAIのFrontierがSaaSの失えない戦いにAIエージェントを投入 — AI News
- NTT DATAとNVIDIAがエンタープライズAIファクトリーを本番スケールへ — AI News

金融AIのリスク管理：制度的枠組みと実装技術の両輪

金融分野では、規制当局による標準化の動きと、現場での不正検知技術の高度化が同時進行している。

米財務省（US Treasury）が金融サービス向けCRI FS AI RMFガイドブックを公開。AIリスクを構造的に管理するための枠組みを提示しており、金融機関の内部統制およびポリシー整備に向けたリファレンスとなる。規制側がAIリスクのガバナンスを本格的に制度化する動きとして注目される。
- 米財務省が金融機関向けAIリスクガバナンスガイドブックを公開 — AI News
FraudFox（arXiv）は、リソース制約環境下での敵対的攻撃に対応した不正検知手法を提案。「月曜午前3時に500ドルの靴を購入しようとするSmithはどの程度不審か」というシナリオを例に、複数リスクモジュールからのスコアを統合しつつビジネス目標を満たす実用的なアーキテクチャを設計している。
- FraudFox: 実世界における適応型不正検知 — arXiv AI+ML+CL
規制ガイドラインと実装技術の両面が揃いつつあることで、金融AIの実用展開に向けた基盤が整ってきている。ただし、敵対的攻撃への耐性は依然として重要な課題として残っている。
- 米財務省が金融機関向けAIリスクガバナンスガイドブックを公開 — AI News
- FraudFox: 実世界における適応型不正検知 — arXiv AI+ML+CL

Transformerアーキテクチャの根本的再設計

深層学習の基礎設計に関する問い直しが複数の研究から同時に起きている。

Moonshot AIのAttention Residualsは、PreNorm Transformerにおける残差接続（全レイヤーの出力を均一に混合）という30年近く疑われなかった設計に問題提起。深さ方向のAttentionを用いてレイヤー出力の混合を学習させることで、スケーリング性能を向上させる手法を提案している。
- Moonshot AIがAttention Residualsを発表——固定残差混合を深さ方向Attentionで置き換えTransformerのスケーリングを改善 — MarkTechPost
ActTailは、LLM推論の高速化を目的としたTopKマグニチュードベースのActivation Sparsity手法。従来手法が均一なスパース度を各プロジェクションに適用してパフォーマンス劣化を招いていた問題を、Transformerの重みの統計的な不均一性を考慮することで解決する。計算コストとメモリ転送の両面で削減が期待できる。
- ActTail: 大規模言語モデルにおけるグローバルActivation Sparsity — arXiv AI+ML+CL
Neural Matter Networks（NMN）は従来の線形-活性化-正規化ブロックを排し、yat-productという単一のカーネル演算子で置き換えるアーキテクチャを提案。yat-productは二次アライメントと逆二乗近接性を組み合わせたMercerカーネルであり、有界領域でのLipschitz性と自己正則化性を備えた幾何学的根拠を持つ。
- No More DeLuLu: 幾何学的基盤を持つニューラル計算のための物理インスパイアードカーネルネットワーク — arXiv AI+ML+CL
最小記述長（MDL）原理を最適化ダイナミクスに組み込む研究では、MDLをモデル選択基準としてではなく、訓練中に動的に機能するドライビングフォースとして再定式化。認知多様体の幾何学的進化を通じて深層学習の最適化を導く枠組みを提案している。
- 深層学習におけるMDLベース最適化の幾何学的基盤 — arXiv AI+ML+CL

LLMの安全性・制御・アンラーニング

モデルの振る舞いを意図通りに制御し、不要な知識を除去する研究が多面的に展開されている。

プロンプトインジェクション攻撃の根本原因を「役割の混乱（Role Confusion）」と定義した研究が登場。モデルはテキストの出所ではなく書き方から役割を推定するため、信頼されていないテキストが権限ある役割を模倣すればその権限を継承してしまう。役割プローブを用いた実験でこのメカニズムを検証しており、安全設計への根本的な示唆を持つ。
- プロンプトインジェクションとしての役割の混乱 — arXiv AI+ML+CL
GONEは、LLMの知識アンラーニングを文レベルではなく関係的・マルチホップ・構造的な知識レベルで実施する手法を提案。既存のパラメータ編集・ファインチューニング・蒸留ベース手法が平坦な文レベルデータに閉じていた問題を、近傍拡張分布整形（Neighborhood-Expanded Distribution Shaping）で克服する。安全性・プライバシー・知的財産の観点から重要な研究。
- GONE: 近傍拡張分布整形による構造的知識アンラーニング — arXiv AI+ML+CL
GER-steer（Global Evolutionary Refined Steering）は、ファインチューニングなしでLLMを制御できるActivation Engineeringの精度向上手法。静的な活性化差分から導出されるベクトルが高次元ノイズやレイヤー間のセマンティックドリフトに弱い問題に対し、クロスレイヤー一貫性を進化的に最適化することで対応。
- Global Evolutionary Steering: クロスレイヤー一貫性によるActivation Steering制御の精緻化 — arXiv AI+ML+CL
マルチターンユーザーインタラクションをアライメントデータとして活用する研究では、現在廃棄されることが多いインタラクションログ（フォローアップメッセージが「前の回答が不正確だった」というシグナルを含む）を学習に利用する手法を提案。豊富だが活用されていないデータソースからのアライメント改善という実用的な方向性を示している。
- ユーザーインタラクションからの言語モデルアライメント — arXiv AI+ML+CL

エッジAI・コンパクトモデル：IBMのエンタープライズ音声AI

IBMがGranite 4.0 1B Speechを公開。1Bパラメータの小型モデルでありながら、多言語自動音声認識（ASR）と双方向自動音声翻訳（AST）を実現。エンタープライズおよびエッジ環境でのデプロイを想定し、メモリフットプリント・レイテンシ・計算効率をベンチマーク品質と同等に重視した設計となっている。
- IBM AIがGranite 4.0 1B SpeechをエッジAIおよび翻訳パイプライン向けコンパクト多言語音声モデルとしてリリース — MarkTechPost
コンパクトモデルへの注目は、クラウド集中型AIの限界を補う動きとして加速している。IoT・医療機器・産業用エッジデバイスといった環境では、モデルの小型化とリアルタイム性の両立が商用展開の鍵を握る。
- IBM AIがGranite 4.0 1B SpeechをエッジAIおよび翻訳パイプライン向けコンパクト多言語音声モデルとしてリリース — MarkTechPost

ロボティクス・マルチモーダルAI：VLAモデルの視覚情報強化

PVI（Plug-in Visual Injection）は、言語条件付きマニピュレーションのためのVLA（Vision-Language-Action）アーキテクチャに視覚特徴を補助的に注入する手法。事前学習済みVLMがセマンティック抽象化に最適化されているため細粒度の幾何学的手がかりを減衰させてしまう問題と、アクションエクスパートに対する時間的証拠の欠如という2つの課題に対処する。
- PVI: Vision-Language-Actionモデルへのプラグイン視覚注入 — arXiv AI+ML+CL
フローマッチングアクションエクスパートと事前学習済みVLMの組み合わせというパラダイムが普及する中、VLMの表現とアクション生成を接続するボトルネックの解消が実用化に向けた主要課題となっている。
- PVI: Vision-Language-Actionモデルへのプラグイン視覚注入 — arXiv AI+ML+CL

バイオインフォマティクス・医療AI：タンパク質構造予測とBCI

MOGP-MMFは、タンパク質二次構造予測（PSSP）を多目的遺伝的プログラミングによる自動最適化タスクとして再定式化。多視点・多レベルの特徴選択・統合を行うフレームワークで、創薬や機能理解に不可欠な予測精度の向上を図る。
- 多目的遺伝的プログラミングと多視点・多レベル特徴によるタンパク質二次構造予測の向上 — arXiv AI+ML+CL
ブレイン・コンピュータ・インターフェース（BCI）向け合成データ生成の包括的なサーベイとベンチマーク論文が登場。実際の神経記録データが限定的・異質・プライバシー制約下にあるという根本的制約に対し、生理学的に妥当な脳信号合成が打開策として注目される。深層学習の発展に不可欠な大規模・高品質データの調達問題がBCI領域でも顕在化している。
- ブレイン・コンピュータ・インターフェースのための合成データ生成：概観・ベンチマーク・今後の方向性 — arXiv AI+ML+CL

因果推論・強化学習の理論的深化

HCP-DCNet（Hierarchical Causal Primitive Dynamic Composition Network）は、介入・反事実・メカニズム理解を含む因果推論能力の自己改善を目指すアーキテクチャ。深層学習がパターン認識に優れる一方で因果モデルを欠くため分布シフトに脆弱であるという根本的問題に正面から取り組む。
- HCP-DCNet: 自己改善型因果理解のための階層的因果プリミティブ動的合成ネットワーク — arXiv AI+ML+CL
強化学習のカリキュラム学習を非平衡熱力学の枠組みで形式化する研究では、報酬パラメータを統計多様体上の座標として解釈する幾何学的フレームワークを提案。統計力学と機械学習の接続という伝統的なアプローチを強化学習の課題設計に応用した意欲的な理論研究。
- 強化学習カリキュラムの熱力学 — arXiv AI+ML+CL

データ品質とモデル堅牢性：「Garbage In, Garbage Out」への反論

「ゴミからゴールドへ」と題した理論研究では、高次元・多重共線性・エラーを含むデータを用いた現代モデルがなぜSOTA性能を達成できるかを情報理論・潜在因子モデル・心理測定学の原理を統合して説明。予測堅牢性はデータの清潔さだけでなく、データアーキテクチャとモデル選択の相乗効果から生まれるという理論的枠組みを提示する。
- ゴミからゴールドへ：予測堅牢性のデータアーキテクチャ理論 — arXiv AI+ML+CL
この知見は実務的な含意も大きい。データ前処理への過剰投資よりも、モデル・データ構造の適合性を設計段階で考慮することの重要性を示唆しており、MLOpsにおけるデータパイプライン設計の見直しを促す可能性がある。
- ゴミからゴールドへ：予測堅牢性のデータアーキテクチャ理論 — arXiv AI+ML+CL

実世界データの構造化：船舶軌跡からNLP表現へ

AIS（自動識別システム）から収集した船舶軌跡データを、人間が解釈可能かつ機械推論システムが直接利用できるコンテキスト付きNLP表現に変換するフレームワークを提案。ノイジーなAISシーケンスを個別トリップに分割し、各エピソードを多ソースのコンテキスト情報で意味的に強化する。海事ドメインにおける言語モデルの実用展開に向けた基盤研究。
- 船舶軌跡のコンテキスト豊富な自然言語記述 — arXiv AI+ML+CL