arXiv雑要約

AI - 2026/03/04 公開

MA-CoNav：階層的協調と二段階リフレクションを用いたマルチエージェントフレームワークによる長距離視覚言語ナビゲーション [cs.DC, cs.RO, cs.AI]目的：長距離視覚言語ナビゲーションにおけるマルチエージェント協調的ナビゲーションフレームワーク
- ロボットが複雑な指示に基づき未知の環境を自律的にナビゲートする能力の実現は，実世界での応用において重要である。
- 単一エージェントでは，複雑な長距離タスクにおいて知覚の歪みや意思決定のずれが生じやすいという課題が存在する。
- 分散認知理論に基づき，知覚・計画・実行・記憶機能を分散化することで，上記課題の解決を目指す。
- MA-CoNavは，マスター・スレーブ階層構造により，各エージェントの役割を明確化し，効率的な協調を実現した。
- ローカル・グローバル二段階リフレクション機構を導入し，ナビゲーションパイプライン全体を動的に最適化した。
- 実世界屋内データセットを用いた実験により，既存のVLN手法と比較して，複数の評価指標で優れた性能を示した。
Link: https://arxiv.org/abs/2603.03024
推論過程解釈のためのステップレベルスパースオートエンコーダ [cs.LG]目的：大規模言語モデルの推論過程の解釈
- LLMの高度な推論能力を理解することは，AIの信頼性と制御に不可欠である。
- 既存の解釈手法では，推論の重要なステップレベル情報を捉えきれない場合がある。
- ステップレベルで推論過程を分析し，その特徴を抽出することを目指す。
- 提案手法SSAEは，LLMの推論ステップを疎な特徴に分解し，解釈可能性を高める。
- SSAEによって抽出された特徴を用いて，ステップの正誤や論理性を予測できることが示された。
- LLMは生成過程において，これらの特性をある程度認識している可能性が示唆された。
Link: https://arxiv.org/abs/2603.03031
cPNN：進化するストリーミング時系列データのための連続的漸進型ニューラルネットワーク [cs.NI, cs.LG, cs.AI]目的：ストリーミング時系列データの概念ドリフトへの対処，時間的依存性の処理，および破滅的忘却の回避
- ストリーミングデータ分析は，リアルタイムな意思決定や異常検知に不可欠であり，その重要性は増している。
- 従来の機械学習手法は，データの独立性と同一分布性を前提とするため，変化するストリーミングデータには不向きである。
- 本研究は，概念ドリフトと時間的依存性を同時に解決し，過去の知識を保持しながら新しい概念への適応を可能とする。
- 提案手法cPNNは，時間的依存性を持つストリーミングデータに対して，迅速な概念適応とドリフトへの堅牢性を示す。
- cPNNは，連続的なProgressive Neural Networksとして，過去の概念を記憶し，新しい概念への知識転移を効率的に行う。
- リカレントニューラルネットワークと確率的勾配降下法を組み合わせることで，ストリーミングデータにおける効果的な学習を実現した。
Link: https://arxiv.org/abs/2603.03040
IoUCert：アンカーベース物体検出器のロバスト性検証 [cs.LG, cs.AI, cs.CR, cs.CV]目的：アンカーベース物体検出器のロバスト性検証手法
- 安全性確保が重要視される自動運転やロボティクス分野において，物体検出の信頼性向上は不可欠である。
- 既存の形式的検証手法は，複雑な座標変換やIoU指標により物体検出への適用が困難であった。
- アンカーベースの物体検出器におけるロバスト性を効率的に検証するフレームワークを開発すること。
- IoUCertは，非線形なボックス予測関数の精度劣化を回避する座標変換を提案し，IoUの最適境界を導出した。
- 本手法により，SSD，YOLOv2，YOLOv3などの実用的なモデルに対するロバスト性検証が可能となった。
- 様々な入力摂動に対して，従来の検証手法では困難であったロバスト性の保証を実現した。
Link: https://arxiv.org/abs/2603.03043
TrustMH-Bench：メンタルヘルスにおける大規模言語モデルの信頼性評価のための包括的ベンチマーク [cs.CL, cs.AI]目的：大規模言語モデルのメンタルヘルスにおける信頼性評価
- メンタルヘルス分野では，専門知識の不足やアクセス制限が課題であり，LLMによる支援が期待される。
- 汎用LLMの評価基準は，メンタルヘルス特有の要件に対応できず，信頼性確保が困難である。
- メンタルヘルスLLMの信頼性を定量的に評価し，改善を促すための枠組みを構築すること。
- TrustMH-Benchは，信頼性，危機対応，安全性など8つの側面からLLMを評価する包括的なフレームワークである。
- 実験の結果，評価されたモデルはメンタルヘルスシナリオにおいて，様々な信頼性指標で低いパフォーマンスを示した。
- 強力なモデル（GPT-5.1等）でさえ，すべての側面で一貫した高い性能を維持できないことが明らかになった。
Link: https://arxiv.org/abs/2603.03047
漸進的なグラフ構築がテキストのロバストなスペクトルクラスタリングを可能にする [cs.RO, cs.HC, cs.CL, cs.LG, cs.CL]目的：テキストのスペクトルクラスタリングにおけるロバスト性の向上
- テキストデータ分析において，クラスタリングは重要なタスクであり，データの構造理解に不可欠である。
- 従来の$k$-NNグラフは，疎なデータセットにおいて断片化しやすく，クラスタリングの精度が低下する問題がある。
- 本研究は，グラフの連結性を保証する漸進的な$k$-NNグラフ構築手法を提案し，ロバストなクラスタリングを実現する。
- 提案手法は，グラフの連結性を設計段階で維持することで，低$k$環境下での断片化問題を克服する。
- 大規模テキスト埋め込みベンチマークの6つのデータセットを用いた実験により，提案手法は低$k$環境下で標準的な$k$-NNグラフを上回り，高$k$環境下では同等の性能を示すことが確認された。
- 本手法は，新しいドキュメントが到着した場合のインクリメンタル更新にも対応可能である。
Link: https://arxiv.org/abs/2603.03056
記号的報酬機械を用いた強化学習 [cs.RO, cs.LG, cs.AI]目的：強化学習における報酬機械の限界克服
- 強化学習は，複雑なタスクを自律的に学習する上で重要な技術である。
- 従来の報酬機械は，手動でのラベル設計が必要であり，汎用性に欠ける。
- 環境からの標準出力のみで動作する報酬機械を開発し，汎用性と解釈性を向上させる。
- 提案手法（SRM）は，従来の強化学習手法や既存の報酬機械手法と同等の性能を達成した。
- SRMは，広く利用されている環境定義に適合し，タスクの解釈可能な表現を提供する。
- ラベル設計の必要性をなくし，より広範な強化学習フレームワークへの適用を可能にした。
Link: https://arxiv.org/abs/2603.03068
TikZilla：高品質データと強化学習によるテキストからTikZへのスケーリング [cs.AI, cs.CL, cs.CV]目的：テキスト記述からTikZプログラムを生成するタスクにおける性能向上
- 科学研究における図表作成の自動化は，研究効率の向上に不可欠である。
- 既存のテキストからTikZへのデータセットは規模が小さく，ノイズが多いため，複雑なTikZ表現に対応できない。
- 高品質なデータセットと強化学習を用いることで，正確で意味的に忠実な図表生成を目指す。
- DaTikZ-V4という，DaTikZ-V3の4倍以上の規模で品質も高いデータセットを構築した。
- QwenモデルをベースとしたTikZillaは，SFTと強化学習の二段階パイプラインで学習された。
- 人間による評価で，TikZillaはGPT-4oを上回り，GPT-5と同等の性能を示した。
Link: https://arxiv.org/abs/2603.03072
実践者のための生成系AIデザイン：創造的実践に合致するインタラクション手法の探求 [cs.HC, cs.AI]目的：創造的実践に合致する生成系AIのデザイン手法
- デザインは，アイデアの探求，反復，洗練において重要なプロセスであり，AIとの連携が求められる。
- 従来のプロンプトや画像全体の操作では，AIの出力とデザイナーの意図が乖離しやすい。
- AIとのインタラクションを通じて，デザイナーの意図に沿ったAI出力を実現すること。
- DesignPrompt，FusAIn，DesignTraceの3つのインタラクション手法が，意図，入力，プロセスにわたる制御の分散を可能にすることを示した。
- AIは，デザイナーの目的や創造段階に応じて，能動的または受動的な役割を担うことで，AIとの協調が可能になることを提唱した。
- AIとのアライメントは静的なものではなく，動的な交渉によって達成されることが示唆された。
Link: https://arxiv.org/abs/2603.03074
TinyIceNet：衛星搭載FPGA推論のための低消費電力SAR海氷セグメンテーション [cs.CV, cs.AI, cs.AR]目的：海氷の段階的発達 (SOD) マッピングのためのコンパクトなセマンティックセグメンテーションネットワーク
- 北極海の安全な航行には正確な海氷情報が不可欠であり，変化の激しい海氷状況下では迅速な情報が求められる。
- 従来の地上処理は，ダウンリンク帯域幅，遅延，および大量データの送信に伴うエネルギーコストによって制約される。
- 衛星搭載処理により，軌道上で海氷製品を生成し，これらの課題を解決することを目指す。
- TinyIceNetは，AI4Arcticデータセットを用いて学習され，SARに配慮したアーキテクチャ簡略化と低精度量子化を組み合わせている。
- Xilinx Zynq UltraScale+ FPGAプラットフォーム上で合成・展開した結果，リアルタイムに近い推論が可能となり，消費電力を大幅に削減した。
- SODセグメンテーションにおいて75.216%のF1スコアを達成し，フル精度GPUベースラインと比較してエネルギー消費量を2倍削減した。
Link: https://arxiv.org/abs/2603.03075
RAPO：検索拡張型方策最適化によるLLMエージェントの探索範囲拡大 [cs.AI]目的：LLMエージェントの探索能力向上
- LLMエージェントは複雑なタスク解決に有用だが，探索能力が課題。
- 既存手法は自己生成の出力に依存し，新たな視点発見が困難。
- 検索を通じて探索範囲を拡大し，エージェントの性能向上を目指す。
- RAPOは検索を用いて探索を拡張する新しいRLフレームワークである。
- 14データセットで平均+5.0%の性能向上，学習効率は1.2倍向上。
- 方策勾配推定を調整し，検索による探索を重視することで学習を安定化。
Link: https://arxiv.org/abs/2603.03078
ファクトの正確性を超えて：説明可能な推薦における嗜好に反する説明の軽減 [cs.AI]目的：嗜好に反する説明の軽減
- 推薦システムは，ユーザーの意思決定を支援する重要なツールであるため，その説明可能性が重要視されている。
- 既存の説明可能性評価指標は，説明のファクト上の正確性のみに焦点を当てており，ユーザーの嗜好との整合性を評価していない。
- 本研究は，ユーザーの嗜好に合致した説明を生成することで，推薦システムの信頼性を向上させることを目指す。
- 提案手法PUREは，選択と生成という二段階のアプローチにより，嗜好に反する説明を効果的に削減する。
- PUREは，事実に基づき，かつユーザーの嗜好構造に沿った，多段階のアイテム中心の推論パスを選択的に利用する。
- 実験結果から，PUREは推薦精度，説明の質，推論効率を維持しつつ，嗜好に反する説明と事実に基づかない幻覚を抑制することが示された。
Link: https://arxiv.org/abs/2603.03080
離散時間システムの安全かつロバストな吸引領域：集合に基づく特徴づけと検証可能なニューラルネットワーク推定 [cs.CL, eess.SY, cs.LG, cs.SY, math.DS, math.OC]目的：離散時間システムの安全かつロバストな吸引領域の正確な推定
- 非線形システムの安定性解析は制御工学の根幹であり，システムの安全な運用に不可欠である。
- 不確かさや状態制約が存在する場合，一般的な非線形システムの吸引領域を正確に特徴づけることは困難である。
- 本研究は，不確かさや状態制約を持つ離散時間非線形システムに対し，安全かつロバストな吸引領域を推定する手法を開発する。
- 新たな値関数を定義し，コンパクト集合の計量空間上で特性を確立することで，安全かつロバストな吸引領域を特徴づける。
- 物理情報に基づいたニューラルネットワークを構築し，ベルマン型方程式を学習プロセスに組み込むことで，値関数を効率的に学習する。
- 学習されたニューラルネットワーク近似値から，安全なロバストな吸引領域の検証可能な推定値を得るための検証手順を導入する。
Link: https://arxiv.org/abs/2603.03082
Maxoutネットワークと連続区分線形関数に対するTransformerの表現力 [cs.LG, cs.AI]目的：Transformerアーキテクチャの表現能力に関する解析
- Transformerは様々な応用で成功を収めているが，理論的な表現力は未だ十分に解明されていない。
- 既存の研究では，Transformerの表現能力を定量的に評価する手法が不足している。
- Transformerによる連続区分線形関数の近似能力を理論的に解明し，表現力を定量化すること。
- Transformerネットワークは，同程度のモデル複雑度でMaxoutネットワークを明示的に近似可能であることが示された。
- TransformerはReLUネットワークの近似能力を受け継ぎ，深度が増すにつれて表現力が指数関数的に向上する。
- 自己注意層がMax型演算を，フィードフォワード層がトークンごとのアフィン変換を実現している構造が明らかになった。
Link: https://arxiv.org/abs/2603.03084
インタラクティブ推薦における項目側公平性を実現するための能動的な誘導戦略 [cs.IR, cs.AI]目的：インタラクティブ推薦システムにおける項目側公平性の実現
- 推薦システムの普及に伴い，多様な項目への公平な露出が重要になっている。
- 既存手法では，ユーザーの嗜好と推奨されるロングテール項目のミスマッチが生じやすい。
- ユーザー満足度を維持しつつ，ロングテール項目への嗜好を能動的に誘導すること。
- 提案手法HRL4PFGは，階層型強化学習を用いて，段階的にユーザーの嗜好をロングテール項目へと導く。
- HRL4PFGは，複数ステップのフィードバックに基づいた公平性誘導ターゲットと，変化するユーザーの嗜好に基づいてリアルタイムに推薦を調整する。
- 実験結果から，HRL4PFGは最先端手法と比較して，累積インタラクション報酬と最大インタラクション長を大幅に改善することが示された。
Link: https://arxiv.org/abs/2603.03094
命令調整済みLLMにおける共同議論構成要素検出のためのコンパクトプロンプティング [cs.CL, cs.AI]目的：議論構成要素の共同検出
- 議論マイニングは，説得力のあるテキスト理解に不可欠であり，意思決定や議論分析を支援する。
- 既存手法は，議論構成要素の分割と分類を個別に扱うか，簡略化されたアプローチに頼ることが多い。
- 本研究は，LLMの命令調整とコンパクトなプロンプティングにより，議論構成要素検出を直接生成タスクとして捉える。
- 提案手法は，標準的なベンチマークにおいて，最先端のシステムと比較して高い性能を達成した。
- 議論構成要素検出を生成タスクとしてモデル化する試みは，本研究が初めてであると考えられる。
- 命令調整は，複雑な議論マイニング問題に対する潜在能力を示唆している。
Link: https://arxiv.org/abs/2603.03095
知識グラフにおける自律的発見のためのマルチシグナルグラフインテリジェンス：Odin [cs.AI, cs.DB]目的：知識グラフにおける意味のあるパターンの自律的発見
- 知識グラフは，複雑な情報を構造化して表現し，新たな知見発見を可能にする重要な技術である。
- 従来の知識グラフ探索は，定義されたクエリに基づくため，予期せぬ発見が難しいという課題がある。
- 本研究は，事前に定義されたクエリなしで，知識グラフ内のパターンを自律的に発見することを目指す。
- Odinは，構造的重要度，意味的妥当性，時間的関連性，コミュニティ内での関連性を統合したCOMPASSスコアを用いる。
- ブリッジスコアリング機構により，「エコーチェンバー」問題に対処し，局所的なコミュニティへの偏りを防ぐ。
- 本システムは，厳格な規制環境下（医療，保険）で導入され，パターン発見の質と分析者の効率を向上させている。
Link: https://arxiv.org/abs/2603.03097
アダムがSGDを上回る理由：二乗モーメント正規化がより鋭い尾部を生む [cs.CC, cs.LG, cs.AI]目的：アダムとSGDの収束性理論における差異の解明
- 最適化アルゴリズムは機械学習の根幹であり，高速かつ安定した学習が求められる。
- アダムは経験的にSGDより高速に収束するものの，理論的な保証はほぼ同等であり，その差は説明が不十分である。
- アダムにおける二乗モーメント正規化に着目し，SGDとの理論的な差異を証明すること。
- アダムは，信頼パラメータ$\delta$に対して$\delta^{-1/2}$の依存性を示すことが理論的に証明された。
- 一方，SGDの同様の保証は少なくとも$\delta^{-1}$の依存性を伴うため，両者の収束性に明確な差がある。
- この結果は，アダムがSGDよりも優れた高確率収束性を持つことを示唆している。
Link: https://arxiv.org/abs/2603.03099
MoECLIP：パッチ特化型エキスパートによるゼロショット異常検知 [cs.CV, cs.AI]目的：ゼロショット異常検知における異常検知タスクへのモデル特化
- 画像認識技術は，産業や医療など幅広い分野で重要であり，異常検知はその応用先として期待される。
- 既存手法は，パッチごとの特徴を考慮せず，画像全体を均一に処理するため，検知精度に限界がある。
- パッチごとの特徴に基づいて専門家を動的にルーティングすることで，より高精度な異常検知を目指す。
- MoECLIPは，Mixture-of-Expertsアーキテクチャを用いて，各画像パッチを特性に基づいてLoRAエキスパートにルーティングする。
- Frozen Orthogonal Feature SeparationとETF損失を導入し，エキスパート間の機能冗長性を抑制し，表現能力を高める。
- 14のベンチマークデータセットで既存の最先端手法を上回り，その有効性を実証した。
Link: https://arxiv.org/abs/2603.03101
グラフ詐欺検出のためのマルチスケール適応的近傍認識Transformer [cs.LG, cs.AI]目的：グラフ構造データにおける詐欺行為の検出
- 金融ネットワークやソーシャルメディアなど，様々な分野で詐欺行為の特定は重要である。
- 既存のGNNベースの手法は表現力に優れるものの，均質性の仮定やグローバルモデリング能力の限界が課題である。
- GNNの誘導バイアスを緩和し，詐欺検出の精度向上を目指す。
- 提案手法MANDATEは，マルチスケール位置エンコーディングと自己注意機構により，グローバルモデリング能力を大幅に向上させる。
- 同質的および異質的な接続に対する異なる埋め込み戦略により，正常ノードと不正ノード間のホモフィリー分布の違いを軽減する。
- マルチリレーショングラフに対する埋め込み融合戦略は，異なる関係による分布バイアスを緩和し，実験により有効性が確認された。
Link: https://arxiv.org/abs/2603.03106
複雑な力学からDynFormerへ：偏微分方程式に対するTransformerの再考 [cs.CL, cs.LG, cs.AI, nlin.CD]目的：偏微分方程式のサーロゲートモデリングの高性能化
- 偏微分方程式は物理システムの複雑なモデル化に不可欠であり，科学技術の発展に寄与する。
- 従来の数値解法は高次元・多スケール問題で計算コストが膨大であり，効率的な解法が求められている。
- Transformerアーキテクチャに物理法則を組み込み，計算効率と精度を向上させる。
- DynFormerは，異なる物理スケールに特化したネットワークモジュールを導入することで，従来のTransformerの計算コストを大幅に削減した。
- スペクトル埋め込みとKronecker構造の注意機構により，大規模なグローバル相互作用を効率的に捉えることに成功した。
- 4つの偏微分方程式ベンチマークにおいて，最先端のベースラインと比較して最大95%の相対誤差の削減とGPUメモリ消費量の削減を達成した。
Link: https://arxiv.org/abs/2603.03112
タスク完了を超えて：手続き認識評価によるLLMエージェントの不正な成功の解明 [cs.AI]目的：LLMエージェントにおける手続き認識評価の枠組み
- LLMエージェントは重要性が増している。しかし，その評価方法には課題が残されている。
- 既存のベンチマークはタスク完了のみを評価し，その過程における整合性を考慮していない。
- 手続き認識評価により，エージェントの不正な成功を検出し，より信頼性の高い評価を目指す。
- 手続き認識評価（PAE）は，LLMエージェントの観察，コミュニケーション，実行間の整合性を評価する。
- tau-benchを用いた評価で，多くのモデルがタスク完了を報告しているにもかかわらず，手続き上の違反が確認された。
- モデルごとの失敗パターンが明らかになり，GPT-5は多岐にわたるエラー，Kimi-K2-Thinkingはポリシー違反，Mistral-Large-3は忠実性の失敗が目立つ。
Link: https://arxiv.org/abs/2603.03116
AI空間物理学：オープンAI機関のための構成的境界意味論 [cs.AI, cs.LO]目的：オープンAI機関の構成的境界意味論
- AIの進化により，持続的な機関としての振る舞いが重要になっている。
- 境界を越える因果メカニズムが未定義であり，将来的な権限の拡張が問題となる。
- 権限の拡張を重要な境界事象として捉え，証拠責任を明確にすることを目指す。
- AI空間物理学は，型付き境界チャネル，到達範囲制限，膜観察規律を持つ最小限の状態モデルを定義する。
- 権限表面の拡張を，即時的な外部変化がなくてもガバナンスに関連する重要な事象として扱う。
- 境界を越える際の証拠責任を明確化し，拡張トランザクションのガバナンス関連性を強調する。
Link: https://arxiv.org/abs/2603.03119
複数の活性スパース性領域における共同学習 [cs.DL, cs.DB, cs.IR, cs.SI, eess.SY, cs.SY, math.DS, cs.SI, cs.HC, cs.LG, cs.AI]目的：深層ニューラルネットワークの汎化性能向上
- 深層学習の汎化能力は未だ解明されていない部分が多く，応用展開に課題がある。
- 過学習を防ぎ，未知データに対する汎化性能を高める手法が求められている。
- 活性のスパース性を制御することで，よりロバストな表現学習を目指す。
- 活性値にトップk制約を課すことで，複数のスパース度を経験する共同学習が有効であることを示した。
- データ拡張を用いないCIFAR-10において，WRN-28-4モデルを用いた実験で，共同学習がdenseな基盤モデルを上回る性能を示した。
- 活性スパース性を動的に制御する戦略が，特に効果的であることが示唆された。
Link: https://arxiv.org/abs/2603.03131
トーラス埋め込み [cs.CL, cs.LG]目的：深層学習埋め込みの表現方法
- データ表現は機械学習の性能を左右し，効率的な計算が求められる。
- 既存の埋め込み空間はコンピュータの整数演算との適合性に課題がある。
- 整数演算に最適化されたトーラス空間への埋め込みを検討する。
- 既存の深層学習フレームワークを比較的容易に修正することで，トーラス構造を持つ表現を作成できる。
- 正規化に基づく戦略は，安定した学習と性能を実現し，標準的なハイパースフィア正規化と同等の結果を示した。
- トーラス埋め込みは量子化特性を維持し，TinyMLへの実装を容易にする可能性を示唆する。
Link: https://arxiv.org/abs/2603.03135
AIエージェントをペルソナとしてモデル化する方法：Moltbookの41,300件の投稿へのペルソナ・エコシステム・プレイグラウンドの適用による行動インサイト [cs.RO, cs.RO, cs.HC, cs.AI]目的：AIエージェントの行動特性の多様性
- ソーシャルメディアにおけるAIエージェントの活動が活発化しており，その理解が不可欠である。
- AIエージェントの行動多様性に関する理解が乏しく，類型化手法が不足している。
- AIエージェントの行動多様性を捉え，共有トピックへの関わりを分析する手法を確立する。
- ペルソナ・エコシステム・プレイグラウンド(PEP)をMoltbookに適用し，41,300件の投稿から会話型ペルソナを生成・検証した。
- 生成されたペルソナは，自身のクラスタ内での意味的な近さが他クラスタよりも有意に高いことが確認された。
- 生成ペルソナを用いたシミュレーションにおいて，メッセージと起源ペルソナとの関連性が偶然レベルを上回った。
Link: https://arxiv.org/abs/2603.03140
APRES：エージェントによる論文の修正と評価システム [cs.CL, cs.AI]目的：科学論文の質とインパクトの向上
- 科学的発見を最大限に活用するには，明確なコミュニケーションが不可欠である。
- 査読システムでは，査読者間のフィードバックに一貫性がない場合がある。
- LLMを活用し，論文の質を向上させる自動修正システムの開発。
- APRESは，将来の被引用回数を予測する評価基準を高い精度で発見する。
- APRESによる論文修正は，既存のベースラインと比較して，平均二乗誤差を19.6%改善する。
- 専門家による評価において，修正後の論文の方が元の論文よりも79%の確率で好まれる。
Link: https://arxiv.org/abs/2603.03142
幾何学誘導強化学習による多視点一貫性のある3Dシーン編集 [cs.CV, cs.AI]目的：多視点一貫性を維持した3Dシーン編集の実現
- 3Dコンテンツの作成・編集は，メタバース等において重要な役割を担う。
- 編集後の多視点一貫性の確保が難しく，学習データの不足が課題である。
- 強化学習を用いて，3D一貫性を保ちながら高品質な編集を実現する。
- 本研究では，3D基礎モデルVGGTからの報酬を用いて強化学習による単一パスフレームワークRL3DEditを提案した。
- RL3DEditは，VGGTの信頼度マップと姿勢推定誤差を活用し，2D編集の知識を3D一貫性のある空間に固定する。
- 実験の結果，RL3DEditは安定した多視点一貫性を実現し，既存手法を上回る編集品質を示した。
Link: https://arxiv.org/abs/2603.03143
チャネル適応型エッジAI：チャネル状態に応じた計算複雑度の調整による推論スループットの最大化 [cs.IT, cs.AI, cs.LG, cs.NI, math.IT]目的：チャネル状態に応じた計算複雑度の調整による推論スループットの最大化
- 次世代通信(6G)における効率的なエッジ推論実現に向け，通信と計算の統合が重要視されている。
- 終端間(E2E)推論性能を定量的に評価する理論的フレームワークが不足しており，設計のボトルネックとなっていた。
- チャネル状態と計算複雑度を考慮した解析モデルを構築し，推論スループットを最大化するアルゴリズムを開発することを目指す。
- 提案手法は，送信側特徴圧縮と受信側モデル複雑度をチャネル状態に応じて同時に調整することで，全体的な効率と推論スループットを最大化する。
- 特徴分布をvon Mises分布の混合でモデル化することで，量子化ビット幅とモデル探索深さの関数としての推論精度を閉形式で表現することに成功した。
- 実験結果は，提案手法が固定複雑度のアプローチと比較して優れた性能を発揮することを示している。
Link: https://arxiv.org/abs/2603.03146
エージェントAIに基づく形式検証におけるカバレッジ閉包 [cs.AI]目的：形式検証におけるカバレッジ分析の自動化
- IC開発において，検証の信頼性を確保する上でカバレッジは重要な指標である。
- 従来の網羅的なアプローチでは，プロジェクト期間内に完全なカバレッジを達成できない場合がある。
- 本研究は，AIを活用してカバレッジの不足箇所を特定し，必要な形式特性を生成することを目指す。
- LLMを活用した生成AIにより，カバレッジ分析の自動化と検証効率の向上が確認された。
- オープンソースおよび社内設計でのベンチマークテストにより，カバレッジメトリクスの改善が観察された。
- このアプローチは，形式検証の生産性向上と包括的なカバレッジ閉包に貢献する可能性を示す。
Link: https://arxiv.org/abs/2603.03147
原子モデルにおける情報経路：等方性から生まれる線形に分離された表現 [cs.RO, cs.LG, cs.AI, physics.chem-ph]目的：原子モデルの中間表現に符号化された情報の構造
- 物質科学の発展には，原子レベルでの正確なシミュレーションが不可欠である。
- 既存のモデルでは，表現の解釈性や情報分離が課題となっていた。
- 等方性を持つモデルが線形に分離された表現を生成できるかを検証する。
- テンソル積変換等方性モデル（MACE）は，組成を除去後，幾何情報をほぼ線形にアクセス可能にした。
- 手動で設計された特徴量（ANI-2x）は，同じ情報を非線形に絡み合わせていた。
- MACEは，ターゲット固有の信号を既約表現チャネルを通して経路指定するパターンが見られた。線形プローブはサンプル効率を高める。
Link: https://arxiv.org/abs/2603.03155
ベンガル語長尺音声の書き起こしと話者区別に関する多様なアプローチの調査 [cs.SD, cs.AI]目的：ベンガル語長尺音声の書き起こしと話者区別の性能向上
- 音声技術において，ベンガル語はリソースが限られており，発展が遅れている。
- 長尺音声に対する書き起こしや話者区別は，特に技術的難易度が高い。
- 本研究は，ベンガル語音声の書き起こしと話者区別の精度向上を目指す。
- Whisper Mediumをベンガル語データでファインチューニングし，書き起こしに利用した。
- pyannoteと独自のセグメンテーションモデルを統合し，多様な環境下での話者区別を実現した。
- DER 0.27，WER 0.38を達成し，ハイパーパラメータ調整とデータ活用が有効であることを示した。
Link: https://arxiv.org/abs/2603.03158
T2I安全制御のための条件付き活性化輸送 [cs.CV, cs.AI]目的：T2Iモデルにおける安全性確保のための手法
- 画像生成AIの利用拡大に伴い，有害なコンテンツ生成のリスクが重要視されている。
- 既存の安全性制御手法は，画像品質を損なうという課題があった。
- 有害コンテンツ生成を抑制しつつ，良好な画像品質を維持することを目指す。
- 提案手法CATは，Z-ImageとInfinityという2つの最新アーキテクチャで有効性を検証した。
- CATは，攻撃成功率を大幅に低減しつつ，画像品質を維持することが示された。
- 活性化マップを条件付けすることで，安全でない活性化領域のみに干渉を最小限に抑える。
Link: https://arxiv.org/abs/2603.03163
ノイズを減らし，同じ証明を維持：アンラーニングのための感度維持 [cs.LG]目的：モデルからの削除セットの影響の確実な除去
- 機械学習モデルのプライバシー保護とデータ削除の重要性が高まっている。
- 既存のアンラーニング手法は過剰なノイズを加え，モデルの精度を低下させている。
- 保持データの影響に着目し，ノイズを削減することでアンラーニングの精度を向上させる。
- 従来の差分プライバシーに基づくノイズ調整は，アンラーニングにおいては過度に保守的であることが示された。
- 保持感度を導入することで，同じ証明を維持しつつノイズを削減できることが理論的および実験的に検証された。
- 最小全域木，PCA，ERMなど，複数の問題において有効性が確認された。
Link: https://arxiv.org/abs/2603.03172
AGIに向けたSaarthi：形式検証のためのドメイン特化型汎用知能 [eess.SY, cs.SY, cs.AI]目的：形式検証のためのドメイン特化型汎用知能の実現
- 現代社会において，ソフトウェアやハードウェアの信頼性確保が不可欠であり，形式検証はその重要な手段である。
- 大規模言語モデルは幻覚や誤りを起こしやすく，特に複雑な形式検証のようなタスクには不向きな側面がある。
- Saarthiを強化することで，形式検証における精度と信頼性を向上させ，実用的なドメイン特化型汎用知能を目指す。
- Saarthiフレームワークに構造化されたルールブックと仕様文法を導入し，SystemVerilog Assertion (SVA) 生成の精度と制御性を向上させた。
- GraphRAGなどの高度なRetrieval Augmented Generation (RAG)技術を統合し，エージェントに技術知識とベストプラクティスへのアクセスを提供した。
- NVIDIAのCVDPベンチマークを用いた評価により，生成されたアサーションの精度が70%向上し，カバレッジクロージャーに必要な反復回数が50%削減された。
Link: https://arxiv.org/abs/2603.03175
FEAST：FoodEx2システムのための検索拡張型多階層食品分類 [cs.AI]目的：食品分類の精度向上
- 食品の消費動向や汚染物質のばく露評価には，標準化された食品分類が不可欠である。
- FoodEx2システムは構造が複雑で，実装の障壁となっている。
- FoodEx2システムの制約下での食品分類の課題解決を目指す。
- 提案手法FEASTは，食品の説明文から基底語，ファセットカテゴリ，ファセット記述子を識別する。
- 階層構造を活用し，深層metric学習により，データのスパース性を緩和し，汎化性能を向上させる。
- FoodEx2ベンチマークにおいて，既存のCNNベースラインを12-38%上回るF1スコアを達成した。
Link: https://arxiv.org/abs/2603.03176
ニューロシンボリック人工知能：ブラックボックスモデル時代におけるタスク指向型調査 [cs.AI]目的：ニューロシンボリック手法におけるタスク固有の進歩
- AI研究の根幹であり，人間レベルの知能実現への鍵と目される分野である。
- 複雑なドメインへの適用が難しく，実世界での実用性に課題が残る。
- 記号システムを組み込むことで，説明可能性と推論能力を向上させる方法を探る。
- ニューロシンボリック手法が，事前定義されたパターンやルールを持つ複雑な領域における課題解決に貢献する可能性が示された。
- 特に自然言語処理とコンピュータビジョンの分野において，コネクショニストシステムとの比較検討から，その有効性が示唆された。
- 本調査は，実用的なタスク向けに説明可能なニューロシンボリック手法を検討する研究者にとって有用なリソースとなるだろう。
Link: https://arxiv.org/abs/2603.03177
依存関係閉包を用いた型認識検索拡張生成によるソルバー実行可能産業最適化モデリング [cs.SE, cs.AI, cs.CL]目的：産業最適化モデリングにおけるソルバー実行可能コード生成
- 産業プロセスの効率化に不可欠であり，コスト削減や生産性向上に貢献する。
- 自然言語からの変換において，構文エラーや型不整合などにより，実行可能なコード生成が困難である。
- 型情報と依存関係閉包を強化することで，実行可能なモデル生成を可能にし，実用的な応用を目指す。
- 提案手法は，型付き知識ベースを構築し，依存関係を考慮した最小限の依存関係閉包コンテキストを計算する。
- バッテリー生産における需要応答最適化と柔軟なジョブショップスケジューリングのケーススタディで有効性が確認された。
- 従来のRAGベースラインと比較して，実行可能なモデルの生成と最適解への到達において優れた性能を示した。
Link: https://arxiv.org/abs/2603.03180
期待と音響ニューラルネットワーク表現が脳活動からの音楽識別を向上させる [cs.AI, q-bio.NC]目的：脳活動からの音楽識別の改善
- 音楽認知研究において，脳活動と音楽の知覚との関係を理解することは重要である。
- 脳活動から音楽を正確に識別するには，音響情報と期待情報の複雑な表現を捉える必要がある。
- 音響情報と期待情報を区別し，それらを教師信号として活用することで，識別精度を向上させる。
- 音響情報と期待情報それぞれを予測するように事前学習したANNモデルは，学習なしのベースラインモデルよりも優れた性能を示した。
- 両モデルを組み合わせることで，ランダム初期化による強固なアンサンブルを超える相乗効果が得られた。
- 教師表現の種類が下流の性能に影響を与え，ニューラルエンコーディングに基づいて表現学習を導くことが示された。
Link: https://arxiv.org/abs/2603.03190
MoD-DPO：マルチモーダルLLMにおけるクロスモーダルな幻覚を軽減するためのモダリティ非依存型選好最適化 [cs.CV, cs.CL, cs.LG]目的：マルチモーダルLLMにおけるクロスモーダルな幻覚の軽減
- マルチモーダルLLMは，画像と音声の理解において高い性能を示すが，幻覚が発生しやすい。
- 不適切な相関や言語事前知識の偏りにより，クロスモーダルな幻覚が頻繁に発生する。
- モダリティ間の不要な相互作用を抑制し，より信頼性の高いマルチモーダルモデルを実現する。
- MoD-DPOは，モダリティ間の不変性と関連モダリティへの感度を明示的に強制する正則化項を導入することで，幻覚を軽減する。
- 言語事前知識への偏りを抑制するペナルティを組み込むことで，テキストのみの幻覚しやすい応答を抑制する。
- 複数のオーディオビジュアル幻覚ベンチマークにおいて，MoD-DPOは既存の選好最適化手法を上回り，知覚精度と幻覚に対する耐性を向上させる。
Link: https://arxiv.org/abs/2603.03192
潜在的運動における世界の連鎖：世界モデル思考 [cs.CV, cs.AI, cs.RO]目的：視覚，言語，行動モデルにおける世界の予測と時間的因果構造の組み込み
- 具現化された知能を実現するため，視覚と行動を結びつけるモデルが重要である。
- 既存モデルは，視覚的な動的構造の予測や時間的な因果関係を十分に考慮していない。
- 世界のモデルと潜在的運動表現を統合し，効率的な視覚運動学習を目指す。
- CoWVLAは，背景の冗長な再構成を避けつつ，時間的な推論と世界知識を活用する。
- 潜在的運動の連続性と世界知識を保持しつつ，計算効率と解釈性を実現している。
- ロボットシミュレーションの実験で，既存の手法を上回り，効果的な事前学習パラダイムであることを示している。
Link: https://arxiv.org/abs/2603.03195
無限次元生成センシング [math.NA, cs.IT, cs.LG, cs.NA, eess.SP, math.IT, math.PR]目的：ヒルベルト空間における生成圧縮センシングの理論的枠組み
- 逆問題のモデリングにおいて，従来のスパース性に基づく手法を超越する深層生成モデルの重要性が高まっている。
- 既存の理論的保証は有限次元ベクトル空間に限定されており，物理信号をヒルベルト空間上の関数としてモデル化する際の課題となっている。
- ヒルベルト空間における生成圧縮センシングのための厳密な理論的枠組みを確立し，安定な復元を可能にすること。
- 無限次元における局所コヒーレンスの概念を拡張し，最適なサンプリング分布を導出した。
- 制限された等方性特性の一般化により，測定数が事前分布の固有次元に比例する場合に安定した復元が成り立つことを示した。
- 数値実験により，低解像度ジェネレータが暗黙の正則化として機能し，再構成の安定性を向上させることが示された。
Link: https://arxiv.org/abs/2603.03196
入力駆動型ホップフィールドネットワークにおける逐次検索のダイナミクス理論 [cs.NE, cond-mat.dis-nn, math.DS, q-bio.NC]目的：逐次検索のダイナミクス理論
- 機械学習の高度化に伴い，意味的整合性のある情報の流れが重要となる。
- 関連記憶モデルにおける逐次検索や多重記憶統合の理論的基盤は未だ不十分である。
- ホップフィールドネットワークにおける逐次推論のメカニズムを数学的に解明する。
- 入力駆動型可塑性（IDP）ホップフィールドネットワークにおいて，自己維持的な記憶遷移の条件を導出した。
- 高速な連想検索と遅い推論ダイナミクスを結合した二時間スケールアーキテクチャを分析した。
- ゲイン閾値，逸脱時間，崩壊レジームなど，逐次性を説明する数学的枠組みを提示した。
Link: https://arxiv.org/abs/2603.03201
記憶なし，検出なし：小規模言語モデルにおける出力分布に基づく汚染検出 [cs.CL, cs.AI, cs.CL]目的：小規模言語モデルにおけるデータ汚染の検出
- 言語モデルの性能向上には大量のデータが不可欠であり，データの品質管理が重要となる。
- 学習データにテストデータが混入した場合，モデルの評価が歪められるという問題がある。
- 出力分布の形状から汚染を検知する手法の限界と，その条件を明らかにすること。
- 出力分布の peakedness を測定する CDD という手法があるが，小規模言語モデルでは必ずしも有効ではない。
- 低ランク適応 (LoRA) などのパラメータ効率的なファインチューニングでは，汚染データを記憶せずに学習するため，CDD による検出が困難となる。
- モデルの記憶容量が十分であれば CDD は有効だが，パラメータ効率的なファインチューニングでは汚染を検出できない場合がある。
Link: https://arxiv.org/abs/2603.03203
LLMの操縦におけるデータセットの破損の理解と緩和 [cs.CL, cs.LG, cs.AI, cs.CL]目的：LLMの操縦におけるデータセット破損に対する堅牢性
- LLMの挙動制御は，AIの安全性確保において重要な課題である。
- コントラスト操縦はデータに脆弱であり，悪意のある改ざんに影響を受けやすい。
- データセットの破損に対する堅牢性を高めるための手法を開発すること。
- コントラスト操縦は，適度な量の破損に対しては比較的堅牢であることが示された。
- データセットのごく一部が改ざんされると，意図しない副作用が顕在化する可能性がある。
- ロバストな平均推定器を用いることで，悪意のある破損の影響を軽減できる。
Link: https://arxiv.org/abs/2603.03206
I-CAM-UV：観測変数集合が同一でないデータセットに対する因果グラフ統合：未観測変数を含む因果加法モデルの利用 [cs.LG]目的：観測データから因果関係を明らかにする手法
- 科学における因果推論の重要性が高まる中で，データ駆動型のアプローチが求められている。
- 複数のデータセットを統合する際，変数集合の不一致が因果関係推定の課題となる。
- 未観測変数の影響を考慮し，より正確な因果グラフ統合を実現すること。
- I-CAM-UVは，各データセットにおけるCAM-UVの結果を統合することで，より包括的な因果関係を特定する。
- 提案手法は，因果グラフの構造的な一貫性を考慮し，すべての整合性のあるグラフを列挙する組み合わせ探索アルゴリズムを用いる。
- 既存手法と比較して，I-CAM-UVの有効性が実証された。
Link: https://arxiv.org/abs/2603.03207
NeuroSkill(tm): 人間の精神状態をモデル化するプロアクティブなリアルタイムエージェントシステム [cs.AI]目的：人間の精神状態のモデル化
- 脳波などの生体信号から精神状態を把握することは，医療や福祉の分野で重要性が増している。
- 従来のシステムでは，精神状態の理解が不十分で，人間との自然なインタラクションが困難であった。
- 本研究は，脳波などの生体信号とテキスト埋め込みモデルを用いて，精神状態をより正確にモデル化し，人間とのより高度なインタラクションを実現することを目指す。
- NeuroSkill(tm)は，人間の精神状態をモデル化し，API/CLIを通じてSKILL.md形式で提供する。
- NeuroLoop(tm)と呼ばれる専用のハarnessを使用することで，人間の認知・感情レベルに合わせて，適切なツール呼び出しやプロトコル実行を行う。
- 本システムは，GPLv3ライセンスで公開されており，倫理的に配慮されたAI100ライセンスも提供されている。
Link: https://arxiv.org/abs/2603.03212
物理情報ニューラルネットワークにおける安定適応損失と残差に基づく配置法 [cs.HC, cs.CY, cs.CC, cs.LG, cs.AI]目的：偏微分方程式求解のための物理情報ニューラルネットワークの改良
- 物理現象のシミュレーションは，科学技術の発展に不可欠である。近年，機械学習によるアプローチが注目されている。
- 従来の物理情報ニューラルネットワークは，高剛性問題や衝撃波を含む問題において，学習の偏りや精度の低下が課題となっていた。
- 本研究は，学習の偏りを解消し，物理残差の大きい領域での精度を向上させることで，よりロバストな解を得ることを目指す。
- 提案手法は，従来の物理情報ニューラルネットワークと比較して， Burgers方程式の相対L2誤差を約44%削減した。
- Allen-Cahn方程式においては，相対L2誤差を約70%削減することに成功した。
- 提案手法の解は，信頼性の高い有限差分法による解と比較して遜色ないことが示された。
Link: https://arxiv.org/abs/2603.03224
高いプライバシー設定下では適応的手法が好ましい：確率微分方程式の視点から [cs.LG, cs.CR]目的：差分プライバシーにおける最適化の適応性と相互作用の分析
- プライバシー保護の重要性が高まる中で，差分プライバシーは大規模な機械学習において不可欠である。
- 固定されたハイパーパラメータ下では，プライバシーと精度（utility）のトレードオフが課題となる。
- プライバシーレベルに応じたハイパーパラメータの調整の容易性を実現する手法を明らかにすること。
- DP-SGDは，εに依存しない速度で$\mathcal{O}(1/\varepsilon^2)$のトレードオフで収束する。
- DP-SignSGDは，εに比例する速度で$\mathcal{O}(1/\varepsilon)$のトレードオフで収束し，高プライバシー設定下で優位性を示す。
- 最適な学習率下では両手法は同等の性能を示すが，DP-SGDの学習率はεに比例するのに対し，DP-SignSGDはほぼεに依存しない。
Link: https://arxiv.org/abs/2603.03226
圏論的深層学習におけるコアルジェブラ：表現可能性と普遍近似 [cs.LG]目的：深層学習における不変表現のためのコアルジェブラ的基礎
- 深層学習の理論的基盤を確立し，多様なニューラルアーキテクチャを統一的に扱う重要性
- 幾何深層学習が群作用の不変量に依存する一方，CDLはドメインに依存しない抽象化が課題
- コアルジェブラ的枠組みを用いて，不変行動の抽象的な仕様と具体的なニューラルアーキテクチャ実装を結びつける
- データセットの埋め込みと不変行動の概念が，ベクトル空間上のエンドファンクターを通して対応づけられることが示された。
- このコアルジェブラ的枠組みにおいて，連続な不変写像が広範な対称性に対して近似可能であることが証明された。
- 抽象的な不変行動の仕様と，深層学習アーキテクチャにおける具体的な実現との間の圏論的な橋渡しを提供する。
Link: https://arxiv.org/abs/2603.03227