May 25, 2026

2026年5月25日

この日のAIニュースレポート

COMMUNITY

コミュニティ

AIコミュニティ動向レポート（2026年5月25日）

2026年5月25日時点のAIコミュニティでは、ローカルLLM運用の民主化と高度化が同時進行する動きが鮮明だ。GTX 1060 6GBという旧世代GPUでも最新MoEモデルを動かせる事例が登場する一方、AIチップのメモリコストが全体の3分の2を占める構造変化も明らかになった。AIエージェントの設計論・記憶管理・LLMOps可観測性といったソフトウェア側の成熟も加速しており、DeepSeekによる75%永続割引がAPIコスト競争に新たな圧力をかけている。セキュリティ面では100万以上の公開AIサービスの脆弱性が指摘され、急速な普及に伴うリスク管理の遅れが浮き彫りになった。

ローカルLLMのハードウェア選択と運用実践

旧世代GPU（GTX 1060 6GB VRAM）でもQwen3.6-35B-A3B-MTPをQ4_K_XLクオント・コンテキスト長131,072・GPU offload 41層という構成でWindows+LMStudio上で動作させた事例が報告された。CPU（E5-2698v3、16コア32スレッド）と32GB DDR3RAMを組み合わせることでVRAM不足を補うハイブリッドオフロードが実用段階に入っている
- qwen3.6-35b-a3b-mtp running on GTX 1060 6GB — Reddit r/LocalLLaMA
2枚のRTX 3060 12GB（合計24GB VRAM）と単体24GBカードの比較議論が活発化。デュアルGPU構成はNVLink非対応のため実効帯域が下がるが、トータルVRAM容量で大型クオントモデルを完全VRAM内に収める選択肢として検討されている
- What would 2x RTX 3060 12GB get me? — Reddit r/LocalLLaMA
小型モデル（Qwen3.5-9Bクオント等）を完全VRAM内で動かす方法の探求が続く。4070 12GB VRAM環境でGemma4-26BおよびQwen3.6-35B MoEを高クオントで約40 t/s実行できる一方、小型モデルをホストRAMに触れさせずに実行する設定がllama.cpp側で曖昧だという指摘がある
- GPU VRAM only for small models with llama.cpp: is it possible? — Reddit r/LocalLLaMA
Epoch AIの分析でAIチップのコンポーネント構成比においてメモリが約3分の2を占めるまでに拡大したことが判明。HN上で251件のコメントが集まり、今後のGPU調達コスト・設計優先度に対する議論が広がっている
- Memory has grown to nearly two-thirds of AI chip component costs — Hacker News (100pt+)
2026年時点でのNVIDIA優位性への問いかけが増加。AMD Radeon 9070 XTでQwen3.6-35BとGemma4-26Bを最新llama.cppで比較したユーザーが「Gemma4の方が速い」と報告しており、GPU選択の判断軸が単純なVRAM容量から推論速度とエコシステム対応幅へ移行しつつある
- Is NVIDIA still the default best choice for local LLMs in 2026? — Reddit r/LocalLLaMA
- Qwen3.6-35B-A3B vs Gemma4-26B-A4B — Reddit r/LocalLLaMA

推論高速化技術：MTP・超低ビット量子化・非CUDAエコシステム

llama-benchでのMTP（Multi-Token Prediction）スペキュラティブデコーディング有効化に失敗する報告が上がっており、llama-serverとllama-benchの設定インターフェースの非対称性が現場の障壁になっている。MTP対応モデルの恩恵を測定段階で確認できないのはコミュニティにとって再現性の問題
- magic incantation to get llama-bench to work with MTP ? — Reddit r/LocalLLaMA
Qwen3.6-35B-A3B-MTPのMTPバージョンでツールコールのバグが確認された。出力がtool/thinkingブロックにまみれ、誤ったツールコールが繰り返されてMTPによる速度向上が相殺されるという問題が実用シーンで観測されている
- Qwen Plays DCSS — Reddit r/LocalLLaMA
OpenBMBがHuawei Ascend NPU向けに1.58ビット（三値）量子化認識訓練（QAT）の体系的研究「BitCPM-CANN」を発表。CUDAエコシステム外での極低ビットLLM訓練を実現し、エッジ・オンデバイス向けの推論コスト削減の選択肢として注目される
- BitCPM-CANN: Native 1.58-Bit Large Language Model Training on Ascend NPU — Reddit r/LocalLLaMA
GoでのcgoフリーCUDAバインディング開発プロジェクトが3週目に突入。Rustには既存のDriver APIバインディングがあるがGoには不在で、cgoを排除することでクロスコンパイルの維持とDockerイメージの軽量化を両立させる狙い。ML開発ツールをGoで構築したい層の需要を反映している
- Working on a cgo-free CUDA binding in Go for ML stuff Week 3 — Reddit r/MachineLearning

ローカルLLM開発ツールとフロントエンド・MCPエコシステム

ローカルLLMフロントエンドの多様化が進む。vim＋カスタムプラグイン、llama-server WebUI、その他GUI等がコミュニティ内で混在しており、「llama-serverはデフォルトとしては合理的だが機能が限られる」との評価が典型的。用途に応じた棲み分けが明確になりつつある
- What frontend do you guys use? — Reddit r/LocalLLaMA
llama.cppにネイティブツール機能が追加され、get_datetimeやexec_shell_commandといったコマンドをllama-server WebUIから直接利用できるようになった。exec_shell_command有効化にはサンドボックス環境の整備が不可欠で、先行するpiコーディングエージェントのサンドボックス知見が流用されている
- How I do use the recent llama.cpp native tools to do web RAG — Reddit r/LocalLLaMA
MCPへの理解が「ただのツールコール」「リモートリンク経由のスキル」という認識にとどまる初学者の疑問が続いている。プライバシー・認証の仕組みが不透明であることが試用ハードルになっており、コミュニティによる入門コンテンツの需要が高い
- Can someone help me understand MCP? — Reddit r/LocalLLaMA
GitHub Copilot CLIとOpenCode Goを連携させる方法が紹介された。OpenCode GoはOSSモデル系の定額アクセスを提供し、初回登録で$5クレジットが付与される。コスト上限を気にせずエージェント開発できる環境として注目されている
- GitHubCopilot(CLI)でOpenCode Goを使う — Zenn LLM

AIエージェント設計・記憶管理・LLMObs可観測性

AIエージェントを「補完スタック」として捉える設計論が提唱された。エンジン（モデル）・車体・タイヤ・計器盤・安全装備という自動車メタファーを通じ、5種の設計型が競合せず相互補完する関係を持つという整理は、エージェント設計の共通言語形成に貢献する
- AIエージェント設計の5つの型は、どう噛み合うのか — Zenn LLM
要約ベースの長期記憶（summary memory）が精度を損なう問題に対し、TiDB Cloudを使った「Breadcrumb Memory」設計が提案された。重要な値（正規表現等）を要約から再生成せず、パンくずリスト的な軌跡ポインタとして保存することで、エージェントが正確な過去情報に戻れるようにするアーキテクチャ
- AIエージェントの記憶を要約で壊さない：TiDB Cloudで作るBreadcrumb Memory — Zenn LLM
Hermes Agent（NousResearch/hermes-agent）とLangfuseを連携させるLLMOps可観測性の実践例が公開された。ツールコールを伴う自律型エージェントではLLM API呼び出し単位のログだけでは挙動追跡が不十分で、ネイティブプラグインによるトレース・スパン管理が実運用に必要だという知見が共有されている
- Hermes Agent × Langfuse で LLMOps の観測性を高める — はてなブックマーク IT
GeminiのCLIツールが「Antigravity CLI」にブランド移行するというGoogle開発者ブログの告知が、IntelliJ IDEA上のIDE通知として届いた事例が報告された。Fedora Linux環境でのセットアップ方法が詳述されており、CLI型エージェント開発環境の整備が加速している
- Fedora Linux × IntelliJ：新世代AIエージェント Antigravity 導入・連携ガイド — Zenn LLM

API価格競争とOSSコミュニティツールの整備

DeepSeekがフラッグシップAIモデルの75%割引を永続化すると発表。HN上でも高く注目され、APIコスト競争の新たな基準点を作ることでOpenAI・Anthropicへの価格圧力が強まる構図が鮮明になった
- DeepSeek to Make Permanent 75% Discount on Flagship AI Model — Hacker News (100pt+)
Hugging FaceオープンソースチームのNiels氏がPapersWithCodeの復活版（paperswithcode.co）を立ち上げ、1週目でベンチマーク複数メトリクス対応などの新機能を追加。エージェント・コンピュータビジョン・時系列予測など複数ドメインのSOTA追跡プラットフォームとして再始動している
- PapersWithCode new features - week 1 — Reddit r/MachineLearning
IBM製OCRモデル「granite-docling-258m」と「granite-docling-2stage-258m」の改善効果についてコミュニティで検証が行われている。2stageモデルはレイアウト解析結果をダイナミックプロンプトに組み込む方式で分布外データへの耐性を高めており、実運用における差異の定量評価が求められている
- OCR, granite-docling-258m vs granite-docling-2stage-258m — Reddit r/LocalLLaMA

AIセキュリティ：急速普及に伴うリスクの顕在化

セキュリティ企業Intruderが200万台以上のホストをスキャンし、100万個の公開AIサービスを発見。OllamaやN8Nなどのセルフホスト型AIツールが認証なしでインターネットに公開されているケースが多数あり、「史上最悪のセキュリティ」と形容されるほど深刻な状態であることが明らかになった
- 100万台のAIサービスをスキャンしたら「史上最悪のセキュリティ」だった件 — はてなブックマーク IT
技術評論社から生成AIのリスクと対処法を体系化した書籍「生成AIの安全性入門」が刊行。エンジニア・研究者向けに有害コンテンツ生成・意図しない挙動・セキュリティ脆弱性を整理した入門書として、急速に高まる安全性教育ニーズに応える動きが出てきている
- 生成AIの安全性入門 | 技術評論社 — はてなブックマーク IT

DAILY NEWS

AI最新ニュース

AI最新動向レポート — 2026年5月25日

AIセキュリティの脆弱性が業界全体の課題として浮上する一方、AGIの到来時期をめぐる専門家間の見解は真っ二つに割れている。コーディングエージェントはすでに人間設計を超えるアルゴリズムを発見しており、開発現場への実装競争が加速している。ウェアラブルAIデバイスはメガネ・リストバンド・外骨格まで多様化し、「常時接続AI」の実用フェーズに突入しつつある。GoogleはDart/FlutterエコシステムにAIエージェントを組み込み、フルスタック開発の再定義を試みている。

AIセキュリティの攻防——誰もがリアルタイムで手探りしている

GoogleでさえAIセキュリティを「移行期のリアルタイム航行」と表現せざるを得ない状況。業界標準となるべき防御策が未確立のまま、全プレイヤーが実運用しながら学んでいる段階にある。
- Everyone is navigating AI security in real time — even Google — TechCrunch AI
ハッカーはチャットボットの「キャラクター・パーソナリティ」を悪用する手口を習得しつつある。初期のAIへの単純なジェイルブレイクから、モデルの価値観や応答傾向を分析した高度な攻撃へと進化している。
- Hackers are learning to exploit chatbot ‘personalities’ — The Verge AI
AnthropicはNSAへのClaude供給を継続する見込み。Pentagonから「サプライチェーンリスク」と認定されたにもかかわらず、情報機関がNvidiaの最新Grace Blackwellチップを持たないため旧来ハードウェア上で動く「Mythos」モデルへの需要が優先された。問題視されていた「あらゆる合法的利用」条項は今回の契約には含まれない。
- Anthropic may keep supplying Claude to the NSA despite being flagged as a supply chain risk by the Pentagon — The Decoder

AGI論争——「シンギュラリティの麓」か「まだ知性ではない」か

DeepMindのDemis Hassabisは人類が「シンギュラリティの麓に立っている」と述べ、到来が近いとの楽観的立場をとる。一方Meta AIのYann LeCunは「現在のAIシステムは真の知性ではない」と明言し、根本的な設計の限界を指摘する。
- Deepmind’s Hassabis sees humanity “in the foothills of the singularity” while LeCun says current AI isn’t intelligent — The Decoder
Gemini共同リードのOriol Vinyalsは中間的な評価を示す。「7年前の基準ならAGIに見えた」が、現状では経験から学習したり真のブレークスルーを生み出したりできない点が課題とし、連続的な進化の中での位置づけを強調した。
- Deepmind’s Hassabis sees humanity “in the foothills of the singularity” while LeCun says current AI isn’t intelligent — The Decoder

AIコーディングエージェントの実力と課題

UMD・Google・MetaらがClaude Codeを使ったAutoTTSで、AI推論のスケーリングアルゴリズムを自律的に発見させた実験が注目を集めた。発見されたアルゴリズムは標準的なself-consistencyと比較して計算コストを約70%削減しつつ同等精度を達成。探索コストはわずか$40・160分で完了した。
- Researchers let Claude Code discover AI scaling algorithms that humans probably wouldn’t have designed — The Decoder
開発現場でのAIコーディングツール（Gemini・Claude Code・Codex）は「コード補完の域を出ない」「特定個人のスキル依存」という課題が顕在化。チーム定着・全社展開・本番実装まで展開するには、モデル特性の理解・プロンプト設計・ガバナンス整備の5つのポイントが鍵になると整理されている。
- 「Gemini」「Claude Code」「Codex」　全社展開・本番実装に役立つ5つのポイント — ITmedia AI+
Flaskの作者Armin Ronacherが指摘する「LLMが書いたIssue報告の害」が共感を呼んでいる。ユーザーが自分の言葉でなくLLMに要約させたバグ報告は、根本原因の推測が誤っていても自信満々に書かれており、偽の再現手順や誤ったアナロジーを含むことが多い。エージェント時代における人間の「声」の重要性が再認識されている。
- Quoting Armin Ronacher — Simon Willison

ウェアラブルAIデバイスの多様化——メガネ・リストバンド・外骨格

GoogleはGoogle I/O 2026でSamsungと協業した「Intelligent Eyewear」を2026年秋に発売すると発表。Geminiエージェント機能を音声で操作でき、常時接続AIアシスタントをフレームに搭載する形態は、スマートフォン依存を減らす次のプラットフォームとして位置づけられている。
- GoogleのAIメガネは今秋発売、サムスン協業の「インテリジェント・アイウェア」　Geminiのエージェント機能を音声で指示・確認 — テクノエッジ
Amazonの「Bee」ウェアラブルは「便利さとプライバシー不安の奇妙な組み合わせ」と評された。常時録音・AI解析によるライフログ機能はユーザーに実用的価値を提供する一方、データ収集範囲への懸念が付きまとう点はAmazon Echoの登場時と同じ構図を繰り返している。
- I tried Amazon’s Bee wearable and am both intrigued and slightly creeped out — TechCrunch AI
HypershellがAI動作制御アルゴリズム「HyperIntuition」搭載の外骨格新シリーズ「New Hypershell Xシリーズ」3モデルを米国など9か国で発売開始。TUV認証取得の世界初モデルも含まれ、産業・医療・スポーツ分野での実用ウェアラブルAIの裾野が拡大している。
- AI搭載のエクソスケルトン「Hypershell Xシリーズ」新型3モデルが発売　TUV認証取得の世界初モデルも — テクノエッジ

LLMの信頼性——デフォルト設定の罠と学習手法の進化

Microsoft CopilotはデフォルトモデルでデータをAIが分析する際、存在しない「国別の違い」を捏造した事例が報告された。数学者Adam Kucharskiが同一データに異なる国名ラベルを貼ると、Copilotはステレオタイプに沿った「詳細な分析」を提示した。「思考モデル（Thinking Models）」に切り替えれば騙されないが、ユーザーが適切なモデルを選ぶ知識を持つ必要がある。
- Why you shouldn’t leave model selection on default in Copilot, Gemini and other AI tools — The Decoder
ByteDance Seedの研究で、長文書のLMM（大規模マルチモーダルモデル）訓練において「テキストをそのまま転記させる」手法より「質問に答えさせながら関連箇所を特定させる」手法が優れると判明。7Bモデルが、訓練時の4倍の長さのドキュメントでも、より大規模なモデルを上回る精度を達成した。
- ByteDance study finds that asking LMMs questions beats making it transcribe text for long document training — The Decoder

GoogleのDart/Flutterエコシステム——フルスタック言語への進化

Google I/O 2026でDartがCloud Functions for Firebaseへの実験的対応を発表。事前コンパイル（AOT）によりコールドスタートが10ミリ秒を実現し、Node.jsやPythonが主流だったサーバーレス領域にFlutter開発者が参入できる環境が整った。Dartが真のフルスタック言語として機能し始める転換点となりうる。
- DartがサーバレスのCloud Functions for Firebaseに対応、Dartはフルスタック言語へ。事前コンパイルでコールドスタートが10ミリ秒 — Publickey
同イベントで「Dart & Flutter Agent Skills」もリリース。AIエージェントがDart/Flutterの最新ベストプラクティスを参照できるようにするもので、エージェントによるコード生成の品質向上を狙う。開発ツールのAI化において「エージェントに何を知らせるか」という知識設計層の競争が始まったことを示している。
- Google、「Dart＆Flutter Agent Skills」リリース。DartとFlutter開発の最新ベストプラクティスをAIエージェントに提供 — Publickey

生成AI技術の最前線——軽量化・高精度化の競争

完全ローカル・CPU動作の日本語対応軽量TTSモデル「Supertonic 3」が登場。クラウド不要で高品質な音声合成が手元のハードウェアで完結するアーキテクチャは、プライバシーとコストの両面で実用的な価値を持つ。
- 完全ローカルかつCPUで動く日本語対応の軽量TTSモデル「Supertonic 3」、元の写真に忠実な3Dモデルを生成するAIモデル「Pixal3D」など生成AI技術5つを解説 — テクノエッジ
元の写真にピクセル単位で忠実な3Dモデルを生成する「Pixal3D」と、Nano Banana 2.0に匹敵する80億パラメータの画像生成AI「HiDream-O1-Image」も注目。モデルの小型化と品質の両立が続いており、エッジ・ローカル実行の現実味が増している。
- 完全ローカルかつCPUで動く日本語対応の軽量TTSモデル「Supertonic 3」、元の写真に忠実な3Dモデルを生成するAIモデル「Pixal3D」など生成AI技術5つを解説 — テクノエッジ

RESEARCH

AI研究・論文

Webエージェントの設計哲学を再定義するWebwright

Microsoftが公開したWebwrightは、従来のクリックトレース型Web自動化から脱却し、再利用可能なPlaywrightスクリプトを中心に据えた設計思想の転換を体現している。

従来のブラウザエージェントが「操作を1ステップずつ追跡する」方式に対し、Webwrightは再利用可能なPlaywrightスクリプトを生成・実行する方式を採用。一時的な操作ではなくプログラム的な抽象化によって、長期タスクへの耐性を高めた
- Microsoft Research Releases Webwright — MarkTechPost
ベンチマーク性能は顕著で、長期的推論が必要なOdysseyベンチマークで60.1%を達成。ベースモデルであるGPT-5.4単体の33.5%から約+26.6ポイントの改善であり、フレームワーク設計そのものがベンチマーク性能を大きく左右することを示した
- Microsoft Research Releases Webwright — MarkTechPost
Online-Mind2Webでは86.7%のAutoEvalスコアを記録し、オープンソース公開済みのハーネスレシピの中で最高スコアを達成。評価指標の多様性がエージェント能力の多面的な把握に不可欠であることも示している
- Microsoft Research Releases Webwright — MarkTechPost
実装規模は約1,000行のコードと単一エージェントループで構成された3モジュール構造。小規模・透明性の高い設計は、研究者が実装を追跡・改変しやすい環境を提供し、オープンソース戦略としても有効である
- Microsoft Research Releases Webwright — MarkTechPost

線形注意機構の根本的な制約を解消するGated DeltaNet-2

NVIDIAのGated DeltaNet-2は、KVキャッシュを固定サイズの再帰的状態に圧縮する線形注意機構において、「既存の記憶を消去する操作」と「新しい情報を書き込む操作」を独立して制御することで、従来手法の本質的な限界を打破した。

従来のGated DeltaNetやKDAは1つのスカラーゲートで「消去」と「書き込み」を同時制御していたため、一方の調整が他方に干渉する問題があった。Gated DeltaNet-2はキー軸にチャンネルワイス消去ゲート b_t、バリュー軸にチャンネルワイス書き込みゲート w_t を分離し、この結合を構造的に切り離した
- NVIDIA AI Releases Gated DeltaNet-2 — MarkTechPost
1.3Bパラメータのモデルを100BトークンのFineWeb-Eduデータで学習し、既存の線形注意モデルを上回る性能を示した。この規模感は実用的な研究再現性を担保しており、学術・産業双方での追試を促進する
- NVIDIA AI Releases Gated DeltaNet-2 — MarkTechPost
線形注意機構の最大の利点である推論時のKVキャッシュ削減を維持しつつ、メモリ内容の精密な更新が可能になった。これはトランスフォーマーとRNNの中間的ポジションを占める「状態空間モデル」系アーキテクチャの競争力を高める研究として位置付けられる
- NVIDIA AI Releases Gated DeltaNet-2 — MarkTechPost
NVIDIAがアーキテクチャレベルの基礎研究をオープンリリースする動きは、ハードウェアベンダーがソフトウェアスタック全体の最適化に関与する戦略的意図を反映している。自社GPUに適した推論効率の高いアーキテクチャを業界標準に育てる狙いが読み取れる
- NVIDIA AI Releases Gated DeltaNet-2 — MarkTechPost