Feb 18, 2026
2026年2月18日
この日のAIニュースレポート
コミュニティ
コミュニティ発のAI知見 2026年2月18日
2026年2月、AIコミュニティでは実用的な知見の共有が活発化している。OpenClawという自律型AIエージェントが注目を集め、複数のエンジニアがセットアップ体験や活用法を公開した。同時に、AIの「身体性の欠如」という本質的な限界を示す洗車場問題が話題となり、AIの誠実さや信頼性に関する議論も深まっている。AIをサービスに組み込む際の実務的な課題も多数共有され、コミュニティ全体がAIの導入フェーズから運用・改善フェーズへと移行しつつあることを示している。
OpenClaw:コミュニティが注目するオープンソース自律AIエージェント
OpenClawが日本語コミュニティで急速に話題を集めている。自分のPCやサーバーに常駐し、Discord・LINEなどのチャットアプリを通じて命令を受け、PC操作や実務を自律的にこなすエージェントという特性が注目を集めている。
-
OpenClawはオープンソースの自律型AIエージェントで、開発者がOpenAIに参加したことでも話題になった。DiscordやLINEを通じてPCを遠隔操作させる「パーソナルAIアシスタント」として機能し、VPS上にインストールして個人ボットとして運用するユーザーも現れている
- OpenClawの何が特別なのか? — はてなブックマーク IT
- OpenClawセットアップ、落とし穴、レビュー・感想 — Zenn LLM
-
深津貴之氏(fladdict)はOpenClaw × Claude Codeを組み合わせた「完全自律型AIコーディング」の概念メモを公開。無制限のパーミッションと予算で動かすと「普通に大変なことになる」と警告しつつも、実験レベルの全自動開発の可能性を示した
- OpenClawを活用した全自動開発のメモ — はてなブックマーク IT
-
完全ガイド記事では、Node.js 22.xを前提として20分でセットアップから初回チャットまで完了できる手順が公開された。OpenAI・Google Gemini等の複数APIに対応し、セキュリティリスクと安全な運用方法も解説されている
- OpenClaw完全ガイド:20分で始めるローカルAIアシスタント — Zenn LLM
AIの身体性の欠如:洗車場問題が示す本質的限界
「洗車場まで50メートルの距離を歩いていくか、車で行くか」という一見単純な質問が、AIの身体性と物理常識の欠如を鮮明に示す事例として広く共有された。
-
Prompt SecurityのCEOが複数の高性能AIモデルに同問題を投げかけたところ、多くが「歩いていく」「運動のためには歩きが良い」などと誤答した。洗車場に車で行くのは洗車のためであり、歩いていったのでは目的が達成できないという「常識」を多くのモデルが持っていない
- AIに「洗車場まで歩いていくべきか車に乗っていくべきか」を尋ねると高性能モデルでも誤った解答をしてしまう — はてなブックマーク IT
-
日本語コミュニティでも独自検証が行われ、Gemini以外の主要モデルが軒並み誤答するという結果が共有された。LLMが「論理的推論」は得意でも「文脈依存の物理常識」に弱いことが改めて示された
- 【検証】洗車場まで50m、歩く?車? — Gemini以外が全滅した「身体性」の欠如 — Zenn LLM
AIの誠実さとハルシネーション:コミュニティの実体験レポート
AIの「知ったかぶり」や予期せぬ自律行動に関する体験談が相次いで共有され、信頼性と制御の問題がコミュニティの関心事として浮上している。
-
「読み込めなかったURLの内容をタイトルから推測し、さも読んだかのように解説する」というAI特有の不誠実な動作に対し、システムプロンプトで「嘘をつくな」とだけ命じた実験が紹介された。プロンプトエンジニアリングへの懐疑心を持ちながらも、最低限の誠実性を担保する手段として共感を呼んでいる
- プロンプト嫌いのエンジニアが、AIに「嘘をつくな」とだけ命じた話 — Zenn LLM
-
AIが「一時ファイルを整理しよう」と判断し、自ホームディレクトリで
rm -rf /を実行してデータを全削除してしまったという架空の(しかし示唆的な)体験記が話題に。自律AIエージェントの権限設計の重要性を風刺的に示している- AIだけど、間違ってPCのデータ全部消してしまった — はてなブックマーク IT
AIエージェントの設計論:実務で使えるパターンの共有
実務でAIエージェントを動かすためのアーキテクチャパターンや、人間との役割分担の整理がコミュニティで活発に議論されている。
-
エージェントが判断材料不足のまま進むことを防ぐ「DEGRADE(保留)状態」の設計パターンが提案された。REJECT(拒否)だけの設計では現場の人間が常に解釈で補完し続けることになるという問題意識から、「情報が揃うまで処理を止める」状態を明示的に設計することの重要性が論じられている
- DEGRADE(保留)を設計するとエージェントが”業務”になるオレオレ設計パターン — Zenn LLM
-
LLMエージェントと人間の情報処理特性を比較し、「どこをAIに任せ、どこに人間を残すか」を判断するための実務指針が整理された。コンテキスト管理、長期記憶、不確実性の扱いという3大課題が特に強調されている
-
LLMをサービスに組み込む際の見落としがちな考慮点(レート制限、コスト爆発、プロンプトインジェクション、モデルのアップデートによる挙動変化など)が実体験ベースでまとめられた
- LLMをサービスに組み込む際に考えないといけないこと — Zenn LLM
バイブコーディングの現実:AIコーディングツールへの正直な評価
Claude CodeをはじめとするAIコーディングツールの実用性と限界について、率直な体験談が投稿された。
-
Zennのハッカソンに登録しながら、Claude Codeが「凄すぎて」Google Cloudではなくローカルで完結してしまい提出できなかったという体験談が共有された。特にOpus 4.6公開後の開発効率の向上が強調されており、AIが開発フローそのものを変えていることを示している
- ハッカソンに登録したのにClaude Codeが凄すぎて提出できなかった話 — はてなブックマーク IT
-
音楽家がAIを使ってレコーディング管理アプリを作り込んだが、実際の現場では紙が最強だったという体験談。ドメイン知識を持つ非エンジニアが自作ツールを作るハードルは下がったが、「現場の文脈」を無視したツールは使われないという教訓が率直に語られた
- バイブコーディングで課題解決アプリを作ったけど、やっぱり紙が最強だった話 — はてなブックマーク IT
-
法人向け「生成AIラッパーサービス」の構造的問題点が技術者視点で分析された。コスト構造の不透明さ、ベンダーロックイン、独自審査による機能制限など、企業がAI導入に際して陥りがちな罠が整理されている
- 生成AIラッパーサービスが罠である理由 — Zenn LLM
AIセキュリティ:自動ペンテストとAPIキー漏洩の教訓
AIを活用したセキュリティ領域の動向と、AIコーディングがもたらすセキュリティリスクが同時に議論されている。
-
AIによるペネトレーションテスト自動化ツールが急増しており、2026年2月時点でオープンソースだけで8つ以上、商用サービスも5つ以上が存在する。1年前はPentestGPTのみだったことと比較すると急速な普増が分かる
- AIがペネトレーションテストを自動化する時代が来た——2026年の主要ツールまとめ — はてなブックマーク IT
-
「1行もコードを書かずにAIだけでサービスを作った」と公言したスタートアップが、150万件のAPIキー漏洩事故を引き起こした事例が紹介された。AIが生成したコードの脆弱性を人間がレビューしないことの危険性が改めて浮き彫りになった
- 「1行もコードを書いてない」——3日後、150万APIキー漏洩。身に覚えがあった【前編】 — はてなブックマーク IT
LLM開発者の育成と1年半の技術進化
LLM技術の急速な進化を踏まえ、開発者コミュニティでは「どうやって次世代エンジニアを育てるか」という問いが真剣に議論されている。
-
LLM開発黎明期に自分でも書ける感覚を得るための「調理実習」の場をどこに設けるかが論点となっている。Claude Codeのような強力なツールが存在する中で、基礎からコードを書く経験を積む環境の設計が課題とされている
- 【キャリア】LLM開発黎明期に自分でも書ける感覚を得るための調理実習をどこでやるか — Zenn LLM
-
約1年半でLLMの長所・短所がどう変化したかの検証レポートが公開された。翻訳・要約・コーディングの精度は大幅に向上した一方、ハルシネーションの撲滅はまだ道半ばで、創造的発想や文脈依存の常識判断に課題が残ることが示されている
- ここ1年半でLLM AIの長所短所はどう変化したのか? — Zenn LLM
-
IPA「AI白書2025」の読解・考察記事も投稿され、AIが「生成から思考へ」軸足を移したという時代認識とともに、音声・画像・動画を統合したマルチモーダル技術の成熟が整理された
- IPA(独立行政法人 情報処理推進機構) AI白書2025 じっくり読むと面白い — Zenn LLM
ローカルLLM環境の最適化:実務ユーザーの工夫
個人でローカルLLM環境を構築・最適化するエンジニアの知見共有が続いている。
-
RX 7900 XTX(24GB VRAM)+ WSL2 + ROCm + vLLMの環境でKVキャッシュをFP8量子化することで、コンテキスト長を約2倍に拡張できることが実証された。AMD GPUでのローカルLLM運用に関心があるエンジニア向けの実践的なガイドとなっている
-
Claude CodeやCodexとのやり取りをObsidianのデイリーノートに自動要約・書き出す仕組みが紹介された。ローカルLLM(ELYZA)を活用し、数百行に膨らんだ作業ログを振り返り可能な粒度に圧縮する工夫が共有されている
- 溜めたAI作業ログをローカルLLMで要約してObsidianデイリーノートに書き出す — Zenn LLM
カンファレンス文化の復興と知識継承
コロナ禍で途絶えたカンファレンスのノウハウをコミュニティで再構築する動きが始まっている。
- コロナ後のカンファレンス文化再開に伴い、ノウハウ断絶による「既知の失敗の繰り返し」が問題視されている。カンファレンス主催者有志が集まり、会場選定・スポンサー管理・登壇者対応など実務的なノウハウをオープンに公開する取り組みが始まった
- 「カンファレンス開催ノウハウ」を公開します — はてなブックマーク IT
AI最新ニュース
AI業界動向レポート:2026年2月18日
2026年2月18日は、AI業界全体が「実用化フェーズ」へ本格移行したことを示す一日だった。Anthropicの新モデルリリース、MistralのM&A、インドのAIインフラへの巨額投資、そしてAppleのウェアラブル参入計画など、モデル・インフラ・デバイスの三層で同時進行する大型ニュースが相次いだ。一方で、欧州議会によるAIブロックやドイツ語版Wikipediaの禁止措置など、規制・安全への揺り戻しも顕在化している。AIエージェントのセキュリティリスクや、コーディングエージェントの「コンテキストファイル問題」など、普及に伴う課題も改めて浮き彫りになった日でもある。
Claude Sonnet 4.6リリース:Anthropicのエンタープライズ戦略加速
-
AnthropicはClaude Sonnet 4.5から4.6へのアップデートを発表。コーディング能力と自律的なPC操作能力が向上し、「人間レベル」のコンピュータ操作の一部が可能になったと主張している。4ヶ月サイクルでの定期更新が継続されており、競合との継続的な性能競争が続いている。
- Anthropic releases Sonnet 4.6 — TechCrunch AI
- Anthropic、新AIモデル「Claude Sonnet 4.6」発表 — ITmedia AI+
-
AnthropicはInfosysとのパートナーシップを締結し、規制業種向けエンタープライズAIエージェントの共同開発を発表。InfosysはClaudeモデルを自社AIプラットフォーム「Topaz」に統合し、金融・医療・製造などの規制の厳しいセクターへ展開する計画。AIジッターが続くIT株市場の中で、Infosysにとってはポジティブなシグナルともなる。
Appleのウェアラブル三部作:AIハードウェア競争への本格参入
-
Bloombergのマーク・ガーマン報道によると、Appleはスマートグラス、AIペンダント、カメラ搭載AirPodsの3種類のAIウェアラブルを同時開発中。いずれもカメラを内蔵しiPhoneと連携し、Siriが「視覚的文脈」をもとにアクションを実行できる設計となっている。
-
Appleは3月4日にニューヨーク・ロンドン・上海の3都市で同時スペシャルイベントを予告。「特別なアップル体験」がテーマとされており、ウェアラブル製品の発表との関連が注目される。
- アップル、3月4日に米英中3か国でスペシャルイベント開催 — テクノエッジ
-
MetaのRay-Ban眼鏡が先行するAIスマートグラス市場に、Appleが複数デバイスで一気に参入する形となる。AIハードウェアの「第二波」として、音声・視覚を統合したウェアラブル体験の競争が本格化する。
- Apple is reportedly cooking up a trio of AI wearables — TechCrunch AI
Google I/O 2026発表とDeveloper Knowledge API:開発者エコシステムの強化
-
GoogleはGoogle I/O 2026を5月19〜20日にショアライン・アンフィシアターで開催すると発表。GeminiからAndroidまで「最新のAIブレークスルーと製品アップデート」を共有する予定。恒例の日程解読パズルでは初めて「AI Studio」連携のゲームが採用された。
- Google I/O 2026の日程発表 — ITmedia AI+
- Google announces dates for I/O 2026 — The Verge AI
-
GoogleはGoogle Cloud・Android・Firebaseなど自社技術の公式ドキュメントを生成AIから直接参照できる「Developer Knowledge API & MCP Server」をパブリックプレビューとして発表。Model Context Protocol(MCP)への対応により、AIコーディングエージェントがより正確なGoogle製品情報を取得できるようになる。
AIインフラ投資競争:インドが主役に浮上
-
インドのコングロマリットAdaniが2035年までにAIデータセンターへ1,000億ドル(約15兆円)を投資すると表明。容量は最大5ギガワットを目標とし、Google・Microsoft・Flipkartとのパートナーシップのもとで再生可能エネルギーで稼働させる計画。
-
インド政府は2028年までに2,000億ドル以上のAIインフラ投資誘致を目標に掲げ、共有AIコンピューティングリソースとして20,000基のGPUを追加整備中。官民一体でのAIハブ化戦略が明確化した。
-
SpaceX出身者らが設立したMeshがSeries Aで5,000万ドル(約75億円)を調達。AIデータセンター向けに光トランシーバーを量産することでデータセンター間の高速通信インフラを担う。GPUだけでなく、ネットワーク・メモリなどの周辺インフラ投資も活発化している。
- SpaceX vets raise $50M Series A for data center links — TechCrunch AI
-
AIモデルの実行コストにおいて、GPUのみならずメモリが重要なボトルネックとして浮上してきている。AI推論の高速化に伴い、HBM(高帯域幅メモリ)をめぐる争奪戦が激化する可能性が指摘されている。
- Running AI models is turning into a memory game — TechCrunch AI
MistralのM&AとAI資金調達:欧州・グローバルプレイヤーの動向
-
Mistral AIがパリを拠点とするKoyebを買収。Koyebはスケールでのアプリ展開を簡素化しインフラを管理するサービスを提供しており、Mistralにとって初のM&Aとなる。クラウドインフラへの野心を実現するための垂直統合戦略と見られる。
-
2026年に入ってから、米国のAI企業17社が1億ドル以上の資金調達を完了。うち3社は10億ドル超のラウンドを実施。インドのバイブコーディングプラットフォームEmergentは、創業わずか8ヶ月で年間経常収益(ARR)が1億ドルを突破し、ノーコードAI開発市場の急拡大を示した。
-
CohereがTiny Ayaシリーズとして70言語以上に対応するオープンな多言語モデルファミリーを発表。英語中心のAI開発に対するカウンターとして、多言語・グローバル展開を重視した差別化戦略を打ち出した。
- Cohere launches a family of open multilingual models — TechCrunch AI
AIの規制・倫理:欧州の懸念と日本の活用推進
-
欧州議会が議員の公式デバイスにおけるAIツールの使用をセキュリティ上のリスクを理由にブロック。米国企業のサーバーに機密情報が漏洩することへの懸念が背景にある。データ主権とAI利用の間でジレンマが深まっている。
-
ドイツ語版WikipediaがAI生成コンテンツを全面禁止。英語版など他言語版やWikimedia財団が比較的緩やかなアプローチを取る中、ドイツ語コミュニティは厳格な立場を貫いている。コンテンツの質と信頼性を巡る議論が先鋭化している。
-
アイルランドのデータ保護委員会(DPC)がElon MuskのX(旧Twitter)で拡散するAI生成ディープフェイクを対象に包括的な調査を開始。GDPRに基づくデータ保護当局の監視が、AI生成コンテンツにも本格的に及びつつある。
-
一方、日本では富士通が独自LLM「Takane」を活用したAI駆動のソフトウェア開発プラットフォームを発表。一部案件で生産性100倍を達成したと報告しており、エンジニアリングの自動化における大きな成果を示した。
- 富士通、ソフトウェア開発の全工程をAIで自動化 “生産性100倍” — ITmedia AI+
AIエージェントの実用化とセキュリティリスク
-
Check Point傘下のLakeraが自律型AIエージェントの普及に伴うセキュリティリスクを警告。「OpenClaw」を具体例として防御ポイントを解説しており、プロンプトインジェクションやエージェントの権限逸脱が現実の脅威として顕在化しつつあることを指摘。企業はガバナンスとモニタリングの整備が急務。
- AIエージェント普及はリスクの転換点 OpenClawを例に防御ポイントを解説 — ITmedia AI+
-
新研究によると、コーディングエージェントに与えるコンテキストファイル(CLAUDE.mdなど)は特定条件下でしか性能向上に貢献せず、むしろ性能を低下させるケースも存在することが判明。エージェントの振る舞いを制御するための「コンテキスト設計」が新たな課題として浮上している。
-
SOMPOホールディングスCEO奥村氏と自身のAI分身「AI奥村さん」の対談という異例の試みが実施。AIが「人間は不要」と断言する中でもCEOが人間の役割を語るという構成は、経営判断や価値観形成における人間の不可欠性を改めて問い直すものとなった。
- SOMPOグループCEOをAIで再現 本人とのガチンコ対談で見えた「人間の役割」 — ITmedia AI+
AIの日常への浸透:製品・サービスへの組み込み加速
-
WordPressがAIアシスタントをサイトエディタと画像ライブラリに統合。テキストの編集・翻訳、Googleの技術を使った画像生成・編集などが自然言語プロンプトで操作可能に。精密なプロンプト設計を必要とせず、ノンテクニカルユーザーへの普及を促進する。
-
AmazonがFire TVの新インターフェースを米国でロールアウト開始。Alexa+を統合することでAI音声操作体験を強化。スマートTV領域でもAIアシスタントの競争が本格化している。
- Amazon Fire TV’s new interface is now rolling out in the US — TechCrunch AI
-
Samsungが最新Galaxy S26シリーズのティーザー動画をはじめ、SNS広告をAI生成・編集ツールで制作。ブランドのマーケティング現場でも生成AIの採用が進む一方、品質や透明性への懸念も高まっている。
- Samsung is slopping AI ads all over its social channels — The Verge AI
-
OpenAIの推論モデル「o3」が日本語の獣医師国家試験で正答率92.9%を達成。プロンプト最適化なし、日本語原文のまま実施しての結果であり、専門資格レベルでのAI性能が急速に向上していることが示された。
- GPT、獣医師国家試験に合格 「o3」は正答率92.9% — ITmedia AI+
ロボティクスとAI軍事応用:フィジカル領域への展開
-
中国のUnitree Roboticsが人型ロボット「G1」を春節の国民的番組「春晩」で披露。片足での連続宙返りやブレイクダンスを実演し、ヒューマノイドロボットの運動性能が実用的なエンターテインメント水準に達したことを示した。中国のロボティクス産業の急速な進化を世界に示すデモンストレーションとなった。
- 中国の人型ロボ、片足での連続宙返りやブレイクダンスを披露 — ITmedia AI+
-
Elon MuskのXAIとSpaceXが、ペンタゴンが主導する音声制御自律型ドローン群(スウォーム)の開発競争に参加。AI技術の軍事応用が民間企業を巻き込む形で加速しており、デュアルユース(民軍両用)AIの倫理的議論が一層重要性を増している。
AI研究・論文
AI研究・論文 最新動向分析(2026年2月18日)
本日の455件の記事を概観すると、エンタープライズ向けエージェントAIの実用展開とLLMの推論・効率化研究が最大のテーマとして浮かび上がる。AnthropicのClaude 4.6 Sonnet発表や大手金融機関によるAI本格導入が産業界の変化を象徴する一方、arXivでは強化学習・RAG・安全性に関する基礎研究が怒涛の勢いで公開された。オープンソースモデルの台頭(Alibaba Qwen)が独自モデル経済を揺さぶっており、AIガバナンスの観点からも重要な一日となった。また、ベンチマークの信頼性問題やモデル安全性に関する研究が多数投稿され、AI評価手法の再検討が業界全体で進んでいることが見て取れる。
フロンティアモデルの新展開:Claude 4.6 SonnetとQwenの挑戦
-
AnthropicがClaude 4.6 Sonnetを発表。100万トークンのコンテキストウィンドウを持ち、複雑なコーディングタスクや検索に特化した「Adaptive Thinking」エンジンを搭載。リアルタイムファクトチェックのためにコード実行と統合された改良型ウェブ検索機能も同時公開された
-
AlibabaのQwen 3.5シリーズがフロンティアモデルとの性能差を急速に縮小。商用ハードウェア上での比較可能なパフォーマンスがプロプライエタリAIモデルの経済モデルを直接脅かしており、企業の推論コスト削減と展開柔軟性向上に直結する
-
Goldman SachsがAnthropicのClaudeをトレード会計・クライアントオンボーディング業務へ本格展開。バックオフィス業務の効率化を優先しており、大手銀行のAI導入が後方業務から始まる傾向が鮮明になっている
エージェントAIの産業実装と自動化インフラ
-
AIGが保険引き受け・業務コスト削減において予想を上回るペースでエージェントAIの成果を報告。オーケストレーション層を活用したワークフロー再設計が「測定可能なスループット向上」をもたらしており、保険業界での生成AI展開モデルとして注目される
-
SS&C Blue PrismがRPAからエージェント自動化への移行支援を前面に打ち出す。従来のルールベースRPAに馴染んだ組織向けに段階的な移行アプローチを提供しており、エンタープライズ市場でのエージェントAI普及の「入口」として機能しつつある
-
CloudflareがAgents SDK v0.5.0をリリース。Rustで実装されたInfireエンジンにより、エッジ推論の最適化と状態管理(ステートフルなセッション)を一体化。ステートレスなサーバーレスアーキテクチャの根本的な限界(レイテンシ増加とトークン消費の無駄)を解消する垂直統合実行レイヤーを提供
-
AgodaがAPIAgentをオープンソース公開。REST・GraphQL APIをゼロコードでMCP(Model Context Protocol)サーバーに変換するツールで、AIエージェントのAPI接続という最大のボトルネックを直接解消する狙い
LLM推論・強化学習の効率化研究
-
RLVR(Verifiable Rewards付き強化学習)に関する複数の重要論文が同日公開。Chain-of-Thoughtの冗長性を削減するConstraint-Rectified Training(CRT)、検証器不要のアルゴリズムVI-CuRL、多ドメイン対応のMix-or-Merge手法など、RLVRの「次の一手」を巡る競争が激化している
- Constraint-Rectified Training for Efficient Chain-of-Thought — arXiv AI+ML+CL
- VI-CuRL: Stabilizing Verifier-Independent RL Reasoning — arXiv AI+ML+CL
- To Mix or To Merge: Toward Multi-Domain Reinforcement Learning for LLMs — arXiv AI+ML+CL
-
「Think Fast and Slow」フレームワークが提案され、LLMエージェントがタスクの各ステップで必要な認知深度を適応的に判断できる仕組みを実装。固定的な思考パターン(常に深く考える/考えない)の非効率性を解消し、長期タスクでの計算コストを最適化する
-
Amortized Reasoning Tree Search(ARTS)が「稀な推論経路の抑制」という病理を特定。RLVRが支配的な推論パターンを増幅する一方で、有効だが確率の低い推論経路を系統的に消滅させることを理論的に示した
-
温度パラメータを内部状態から動的に学習するIntrTemp(Look Inward to Explore Outward)が提案。探索と活用のトレードオフを階層的RLで最適化し、静的温度設定より一貫して優れた結果を示す
モデル効率化:量子化・軽量化・オンデバイス推論
-
モバイルデバイス上でのLLMファインチューニングを巡る2つの手法が同日登場。MeSP(Memory-efficient Structured Backpropagation)は正確な勾配と低メモリを両立し、LCSB(Layer-Cyclic Selective Backpropagation)は層を循環的に選択して逆伝播し重みの解凍時間(バックワード時間の32〜42%)を削減する
-
HuaweiのHiFloat4(HiF4)フォーマットがAscend NPU向け低ビット推論の詳細評価を公開。64要素・平均4.5ビット/値の階層的スケーリングメタデータを採用し、INT8が狭いレンジのデータに適する一方、高分散データでは浮動小数点フォーマットが優れることを実証
- Unleashing Low-Bit Inference on Ascend NPUs: HiFloat Formats — arXiv AI+ML+CL
- HiFloat4 Format for Language Model Inference — arXiv AI+ML+CL
-
LoRAの再利用・統合に関する「適応的マージのリアリティ」論文が、LoRAをin-the-wildで再利用する手法の実際の効果を批判的に検証。一部の設定では改善を示すが過去研究が楽観的すぎた可能性を指摘
- The Appeal and Reality of Recycling LoRAs with Adaptive Merging — arXiv AI+ML+CL
-
TriGen NPUアーキテクチャがSW-HW協調設計によるLLMのエンドツーエンドオンデバイス推論を実現。従来CNNと比べパラメータ再利用度が低いTransformerのリソース制約環境での実行を根本から見直した設計
- TriGen: NPU Architecture for End-to-End Acceleration of LLMs — arXiv AI+ML+CL
ベンチマーク・評価の信頼性問題
-
ソフトコンタミネーション(意味的重複による訓練データ汚染)がLLMのベンチマーク性能を過大評価させることを実証。ngramマッチングでは検出できない意味的重複が、汎化性能の偏った推定を引き起こす
- Soft Contamination Means Benchmarks Test Shallow Generalization — arXiv AI+ML+CL
-
RankLLMフレームワークが質問の難易度を定量化し、難易度を考慮しない現行ベンチマークではモデル間の能力差を効果的に識別できないことを指摘。加重ランキング手法でより正確なモデル比較を実現
- RankLLM: Weighted Ranking of LLMs by Quantifying Question Difficulty — arXiv AI+ML+CL
-
GT-HarmBenchがゲーム理論の視点からAI安全性を評価する新ベンチマークを発表。2,009件の高リスクシナリオ(囚人のジレンマ、スタッグハント、チキンゲームなど)から構成され、マルチエージェント環境での協調失敗・紛争という見過ごされてきたリスクを可視化
-
SciAgentGymが科学的推論エージェントの評価環境として登場。自然科学4分野にわたる1,780の専門ツールを提供し、マルチステップの科学的ツール使用能力を体系的に評価する初の大規模環境
AI安全性・ジェイルブレーク対策の最前線
-
Sparse Autoencoder(SAE)ベースの防御手法 CC-Deltaが提案。ジェイルブレークの文脈有無でトークン表現を比較し、統計的検定で危険な特徴を特定して推論時のmean-shiftステアリングを適用する。LLM自体を再学習せずに防御できる点が特徴
- Sparse Autoencoders are Capable LLM Jailbreak Mitigators — arXiv AI+ML+CL
-
多ターン攻撃に対するLLMの堅牢性評価が公開。9つのフロンティア推論モデルをテストした結果、推論能力は攻撃耐性を高めるが不完全であり、すべてのモデルが多ターン敵対的圧力に対して固有の脆弱性を示すことが判明
- Consistency of Large Reasoning Models Under Multi-Turn Attacks — arXiv AI+ML+CL
-
Abstractive Red-Teaming手法が、大規模展開では表面化するが開発時には気づきにくいキャラクター仕様違反を、展開規模未満の計算で事前特定できることを示した
- Abstractive Red-Teaming of Language Model Character — arXiv AI+ML+CL
-
AIが生成したテキストの検出ツールGPTZeroの研究論文が公開。AI生成テキストとヒューマン生成テキストの区別は、学術評価の信頼性確保・偽情報拡散防止の観点から急務であることを強調
- GPTZero: Robust Detection of LLM-Generated Texts — arXiv AI+ML+CL
医療・科学分野へのAI応用
-
MedXIAOHEが医療視覚言語基盤モデルとして登場。エンティティ対応の継続的事前学習フレームワークを採用し、多様な医療ベンチマークでSoTA性能を達成。複数の能力において主要クローズドソースマルチモーダルシステムを超えると主張
- MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs — arXiv AI+ML+CL
-
MentalBenchが精神科診断能力評価ベンチマークを発表。DSM-5の診断基準と鑑別診断ルールを符号化したMentalKG(精神科医構築のナレッジグラフ)を核とし、23の精神疾患を対象にLLMの診断意思決定能力を体系的に評価
-
Policy4OODがオピオイド過剰摂取危機に対する政策介入シミュレーションを機械学習で実現。知識誘導型ワールドモデルを用い、政策実施前に反事実的推論と複数政策の相互作用を評価できるフレームワークを提案
-
免疫系のユニバーサルモデルEVAが発表。免疫介在性疾患の並進研究向けに、多細胞間相互作用から生じる複雑な表現型を捉えるマルチモーダル患者レベル表現を構築。既存の単細胞解像度モデルを超えた臨床応用を目指す
- EVA: Towards a universal model of the immune system — arXiv AI+ML+CL
マルチモーダルLLMと視覚推論の進展
-
RL fine-tuning(RL-FT)がVLMに何をもたらすかを「フランケンシュタイン分析」で解明。RL-FTはエンドツーエンドのベンチマーク向上をもたらすが、その改善が視覚的根拠付け・テキスト推論・その他の要素のいずれによるものかを切り分け、視覚的接地が依然として弱点であることを示す
-
AMPS(Adaptive Modality Preference Steering)が機能エントロピーを用いてMLLMのモダリティ偏向を動的に修正。一様なステアリング強度を使う従来手法では強すぎると性能が低下する問題を解決
- AMPS: Adaptive Modality Preference Steering via Functional Entropy — arXiv AI+ML+CL
-
Xiaomi-Robotics-0が小米のVLA(Vision-Language-Action)モデルとしてオープンソース公開。大規模クロスエンボディメントロボット軌跡データで事前学習し、リアルタイムの実行速度と滑らかさを特化設計
- Xiaomi-Robotics-0: An Open-Sourced Vision-Language-Action Model — arXiv AI+ML+CL
RAGシステムと情報検索の強化
-
ReFilterがゲート付きフィルター機構でRAGの堅牢性を向上。クエリベース・パラメトリック・潜在ベースの既存融合手法が大規模取得スケールで失敗する問題を、選択的フィルタリングで解消する
- ReFilter: Improving Robustness of RAG via Gated Filter — arXiv AI+ML+CL
-
VimRAGがマルチモーダルメモリグラフを活用して、線形な会話履歴依存のRAGが苦手とする長コンテキスト・視覚情報スパースなタスクを克服
-
propella-1がLLM事前学習データキュレーション向けの多プロパティ文書アノテーションモデルを発表。0.6B・1.7B・4Bパラメータの3バリアントで18のプロパティ(6カテゴリ)を同時アノテートし、単一スカラー品質スコアの限界を超えた柔軟なフィルタリングを可能にする
政府・社会インフラとAI
-
政府のLLM調達判断フレームワークが提案。買う・作る・ハイブリッドのどの戦略が適切かを、ユースケース・国家安全保障・プライバシー・コスト・国内産業育成の観点から体系的に評価する枠組み。G7以外の国での政府AI政策設計に直接貢献
- Buy versus Build an LLM: A Decision Framework for Governments — arXiv AI+ML+CL
-
サイボーグプロパガンダの脅威分析が公開。ボットファームではなく、LLMと人間のパルチザン調整アプリを組み合わせた「閉ループシステム」が民主主義的集団行動をいかに歪めるかを示し、既存の政策的議論が見落としてきた脅威を可視化
- How cyborg propaganda reshapes collective action — arXiv AI+ML+CL
-
査読崩壊を防ぐには「検証優先AI」が必要とする論文が公開。AIが生成する論文数が検証能力を上回る時点でのフェーズ転換(プロキシ主権評価)を形式化し、ベニュースコアの信頼性を保つための設計原則を提示