arXiv雑要約

AI - 2026/04/22 公開

CASS：NvidiaからAMDへのトランスパイル：データ，モデル，ベンチマーク [cs.RO, eess.SP, cs.AR, cs.AI, cs.CL, cs.LG, cs.PL]目的：GPUコードのクロスアーキテクチャ変換
- GPUのハードウェア移植性を高めるためには不可欠な研究分野である。
- スケーラブルな変換ソリューションが存在しないという課題がある。
- 学習ベースの翻訳によるGPUコード変換の性能向上を目指す。
- CASSデータセットとモデル群により，CUDA-HIP間，SASS-RDNA3間の変換精度がそれぞれ88.2%，69.1%と高い性能を示した。
- 生成されたコードは，85%のケースでネイティブコードと同等の性能を達成し，実行時間とメモリ使用量を維持した。
- データ，モデル，評価ツールはオープンソースとして公開され，GPUコンパイラツールやバイナリ互換性の進歩を支援する。
Link: https://arxiv.org/abs/2505.16968
MRS：階層型強化学習エージェントのためのマルチ解像度スキル [cs.RO, cs.CL, cs.AI, cs.LG, cs.RO]目的：階層型強化学習におけるサブゴール選択の精度向上
- 複雑なタスクを効率的に解決するため，長期的な計画が必要であり，階層型強化学習はその有効な手法の一つである。
- 従来の階層型強化学習では，サブゴールの到達可能性や現在状態からの距離が考慮されず，性能向上のボトルネックとなっていた。
- 状態に応じて適切な時間的解像度のサブゴールを選択することで，精密な制御と滑らかな動作を両立し，性能向上を目指す。
- 提案手法MRSは，複数の時間的解像度を持つ予測モジュールを学習し，メタコントローラーが状況に応じて最適なモジュールを選択する。
- MRSは，固定解像度のベースラインと比較して一貫して優れた性能を示し，DeepMind Control Suite等でHRLと非HRLの性能差を大幅に縮小した。
- 特に，アジリティが求められるタスクにおいて，MRSは高い有効性を示すことが確認された。
Link: https://arxiv.org/abs/2505.21410
PuzzleWorld：パズルハントにおけるマルチモーダル，オープンエンドな推論のためのベンチマーク [cs.CL, cs.CL, cs.SI, cs.CY, cs.CL, cs.AI, cs.CV]目的：パズルハント形式の問題を用いた，段階的，オープンエンド，そして創造的なマルチモーダル推論の評価
- 現実世界の問題解決を模倣した評価環境が必要とされている。科学的発見やデータ分析など，定義が曖昧な問題への対応が求められる。
- 既存の推論ベンチマークは指示が明確で環境が限定されているため，複雑で多段階なパズルハントのような問題に対応できない。
- マルチモーダルな証拠から問題構造を発見し，反復的な推論を行う能力を評価するためのベンチマークを構築すること。
- PuzzleWorldは，667個のパズルハント形式の問題を含む包括的なベンチマークであり，詳細な推論トレースと認知スキルラベルが付属している。
- 最先端モデルの正答率はわずか1〜4％であり，人間の初心者レベルには匹敵するものの，パズル愛好家には及ばない。
- 推論トレースによるファインチューニングにより，段階的精度が4%から11%に向上し，視覚推論タスクにも波及効果が認められた。
Link: https://arxiv.org/abs/2506.06211
隠れた攻撃者に対する誤用軽減策のベンチマーク評価 [cs.CR, cs.AI]目的：隠れた攻撃者に対する誤用軽減策の評価
- 言語モデルの安全性確保は重要であり，社会への影響を考慮する必要がある。
- 既存の安全性評価は直接的な攻撃に焦点を当て，巧妙な攻撃を捉えきれない。
- 一見無害な小さなタスクの組み合わせによる巧妙な攻撃への対策を評価する。
- 既存の安全対策は，複数の独立したクエリに分割された巧妙な攻撃に対して脆弱である。
- Stateful Defenses（状態保持型防御）は，このような攻撃に対する有望な対抗策となる可能性が示唆された。
- 新しいデータセットを構築し，最先端モデルとオープンウェイトモデルの評価を可能にした。
Link: https://arxiv.org/abs/2506.06414
LPO：位置優先度最適化による高精度なGUIエージェントインタラクションへ [cs.LG, cs.AI, cs.CV]目的：GUIインタラクションの精度向上
- GUIとの対話において，自然言語による自動エージェントの活用が重要性を増している。
- 既存のGUIエージェントは，位置情報の正確な認識に課題があり，精度が制限されている。
- 位置情報を活用し，インタラクションの優先度を最適化することで精度向上を目指す。
- 提案手法LPOは，情報エントロピーを用いてインタラクション位置を予測し，情報量の多い領域に焦点を当てる。
- 物理距離に基づく動的な位置報酬関数を導入することで，インタラクション位置の重要度を反映している。
- オフラインベンチマークとオンライン評価において，LPOが最先端の結果を達成している。
Link: https://arxiv.org/abs/2506.09373
SEAT：知識適応における疎なエンティティ認識チューニング - 認識的棄権の維持 [cs.AI]目的：知識適応における認識的棄権の維持
- 大規模言語モデルの応用拡大に伴い，新しい知識の迅速な習得が重要となっている。
- 標準的なファインチューニングは，モデルが知らないと判断する能力（認識的棄権）を損なう可能性がある。
- SEATは，知識獲得を維持しつつ，認識的棄権を保護することで，安全な知識適応を実現する。
- SEATは，既存のベースラインと比較して，未知のクエリに対する人間の評価による棄権率を18%～101%向上させる。
- SEATは，高い精度で目的知識を獲得すると同時に，認識的棄権を維持する。
- 分析の結果，SEATは表現空間において既知と未知のクエリを明確に分離し，下流タスクの有用性を維持することが示された。
Link: https://arxiv.org/abs/2506.14387
非定常遷移カーネルを持つレストレスバンディットに対するウィトル指数のオンライン学習 [cs.LG, stat.ML]目的：非定常な動的環境下におけるレストレス多腕バンディット問題の最適資源配分
- ネットワークシステムにおける資源配分問題の解決に，レストレス多腕バンディット枠組みは広く用いられている。
- ウィトル指数に基づく方策は計算コストが低いが，遷移カーネルが定常であるという現実的でない仮定を必要とする。
- 時間変動するカーネルに適応しながら計算効率を維持する，オンラインウィトル方策の開発。
- 提案手法であるスライディングウィンドウオンラインウィトル（SW-Whittle）方策は，エピソード数に対して亜線形動的リグレットを達成する。
- バジット（変動予算）が事前に不明な場合でも，バンディット・オーバー・バンディットフレームワークと組み合わせることで対応可能である。
- 数値実験の結果，提案手法は様々な非定常環境において，ベースライン手法を上回り，累積リグレットを最小限に抑えることが示された。
Link: https://arxiv.org/abs/2506.18186
OmniGen2：指示応答型マルチモーダル生成へ [cs.CV, cs.AI, cs.CL]目的：多様な生成タスクに対する統合的な解決策
- マルチモーダルな情報処理は，人間のように多様なデータ形式を理解し，活用するために重要である。
- 既存モデルは，テキストと画像の処理能力を統合する際に，既存の知識を再学習する必要がある場合がある。
- テキストと画像の生成能力を向上させ，既存のマルチモーダル理解モデルを有効活用することを目指す。
- OmniGen2は，テキストと画像の独立したデコーディング経路を採用することで，既存モデルの知識を活かすことに成功した。
- 画像編集や文脈内生成を含む複数のタスクベンチマークにおいて，競争力のある結果を達成した。
- 特に，文脈内生成タスク（subject-driven tasks）において，一貫性の面で最先端のオープンソースモデル性能を示した。
Link: https://arxiv.org/abs/2506.18871
ASVSim（Surface Vehicle用AirSim）：自律型水上車両研究のための高忠実度シミュレーションフレームワーク [cs.RO, cs.LG]目的：自律型水上車両研究のための高忠実度シミュレーションフレームワーク
- 水上輸送の効率化と安全性向上への関心が高まっており，特に内水路輸送におけるグリーンディール等の施策推進が重要。
- 自律水上車両の開発・評価に必要な，オープンソースかつ高忠実度のシミュレーション環境およびデータセットが不足している。
- 内水路や港湾環境における自律運航研究を支援し，データセット生成による深層学習応用の促進を目指す。
- ASVSimは，水上車両のダイナミクスと海洋センサー（レーダー，カメラ等）のシミュレーションを組み合わせた包括的なプラットフォームである。
- 水路セグメンテーションや自律航行実験を通じて，本シミュレータの能力が実証された。
- MITライセンスのもとオープンソースとして公開されており，海洋工学研究コミュニティへのアクセスが容易になっている。
Link: https://arxiv.org/abs/2506.22174
汎用ゲームプレイにおける最良エージェントの特定 [cs.CL, cs.LG, cs.AI, cs.DS, cs.IT, math.IT, stat.ML]目的：複数問題領域における各サブタスクの最良（またはそれに近い）性能を示すアルゴリズムの特定
- 汎用ゲームプレイは，多様なゲームに対応可能なAI開発の重要な研究分野である。
- ゲームの種類が多い場合，最適なエージェントを効率的に特定することが課題となる。
- 限られた試行回数で，各ゲームに適した高性能エージェントの選択を目指す。
- 提案手法は，GVGAIやLudiiといった汎用ゲームプレイ環境で，既存手法よりも低い単純後悔と誤り確率を示すことが確認された。
- エージェント評価における精度と効率を向上させ，アルゴリズムの実行時間が長いマルチタスク領域への応用が期待される。
- 各タスクを多腕バンディット問題として捉え，信頼区間に基づく楽観的な選択プロセスを用いることで，高い性能を実現している。
Link: https://arxiv.org/abs/2507.00451
重要度を考慮した活性空間の再構成 [cs.AR, cs.LG, stat.ML]目的：大規模言語モデルの圧縮手法
- 大規模言語モデルは多様な分野で高性能だが，サイズが大きいためリソース制約のある環境での利用が困難である。
- 従来の重み圧縮は低ランク性を仮定するが，大規模言語モデルでは必ずしも成立しない。
- 活性化の低ランク構造に着目し，重要度を考慮した圧縮により，精度低下を抑制することを目指す。
- IMPACTは，活性化構造と勾配に基づく重要度を統合した最適化問題を提示し，閉形式解を得た。
- IMPACTは，重要度加重活性化共分散行列から再構成基盤を導き出し，精度維持に最適化された低ランク圧縮を実現する。
- 実験により，IMPACTは最先端のベースラインと同等かそれ以上の精度を維持しながら，最大55.4%のモデルサイズ削減を達成した。
Link: https://arxiv.org/abs/2507.03828
野生火災セマンティックセグメンテーションのための集中型コピー＆ペースト：データ拡張戦略の強化 [cs.CV, cs.LG]目的：野生火災セマンティックセグメンテーションのためのデータ拡張手法
- 野生火災の被害軽減には，正確な火災域の特定が不可欠であり，画像セグメンテーション技術が重要な役割を果たす。
- セグメンテーションモデルの学習には大量の注釈付き画像が必要だが，野生火災のデータセットは入手困難で，アノテーションコストも高い。
- 限られたデータセットでも効果的に火災領域のセグメンテーション精度を向上させるための新しいデータ拡張手法を提案する。
- 提案手法である集中型コピー＆ペーストデータ拡張（CCPDA）は，火災領域の多様性を保ちながらデータセットを拡張し，セグメンテーション性能を向上させる。
- CCPDAは，他のデータ拡張手法と比較して，特に火災クラスのセグメンテーション性能において優れた結果を示すことが数値実験により確認された。
- 本研究は，小規模な手動アノテーションデータセットの課題を緩和し，野生火災セマンティックセグメンテーションの精度向上に貢献する。
Link: https://arxiv.org/abs/2507.06321
MLLMベースのビジュアルリッチな文書理解：手法，課題，そして新たな動向 [cs.CV, cs.AI]目的：ビジュアルリッチな文書理解におけるMLLMの進展と課題
- 文書内の視覚的，テキスト的，構造的要素を自動解釈する需要が高まっているため。
- 既存手法では，複雑な文書構造や多言語対応が課題となっている。
- MLLMを活用し，文書理解の拡張性と信頼性を向上させるための指針を示す。
- MLLMベースのVRDUにおいて，テキスト，視覚，レイアウト特徴の表現と統合に関する技術が注目されている。
- 事前学習，命令チューニング，学習戦略を含む様々なトレーニングパラダイムが研究されている。
- データ不足，複数ページ文書，多言語文書への対応，RAGやエージェントフレームワークの統合が今後の課題である。
Link: https://arxiv.org/abs/2507.09861
VoteGCL：大規模言語モデルによる多数決リランキング拡張を用いたグラフベース推薦の強化 [cs.RO, cs.CL, cs.IR, cs.LG]目的：グラフベース推薦におけるデータ拡張手法
- 推薦システムは，実用上不可欠な技術であり，情報過多な現代社会においてユーザーに適切な情報を提供する。
- ユーザーとアイテムのインタラクションが限られており，データスパースネスや人気バイアスが課題となっている。
- 大規模言語モデルを活用し，高品質な合成インタラクションを生成することで，上記の問題を解決する。
- 提案手法では，大規模言語モデルによる複数回のアイテムリランキングと多数決を用いたデータ拡張を行う。
- 生成された合成インタラクションをグラフ対照学習に統合し，分布シフトの軽減と人気バイアスの緩和を実現した。
- 実験の結果，提案手法は既存手法と比較して，推薦精度を向上させ，人気バイアスを低減することが示された。
Link: https://arxiv.org/abs/2507.21563
クロス言語バグ検出のためのコード言語モデルのファインチューニング [cs.SE, cs.AI]目的：クロス言語バグの検出
- 多言語プログラミングの普及に伴い，異なる言語間の相互作用から生じるバグの検出が重要になっている。
- 従来の単一言語のバグ検出ツールでは，複数の言語が絡むクロス言語バグの検出が困難である。
- コード言語モデルを活用し，クロス言語バグを効果的に検出する手法を確立することを目指す。
- 13種類のコード言語モデルをファインチューニングした結果，全てモデルにおいて性能向上が見られた。
- 特にUniXcoder-baseがF1スコア0.7407で最も高い性能を示し，小規模モデルの方が大規模モデルよりも優れる傾向があった。
- 単一言語バグデータセットでファインチューニングされたモデルはクロス言語バグ検出性能が低く，データセットサイズの拡大が性能向上に寄与した。
Link: https://arxiv.org/abs/2507.21954
重みを見守る：ファインチューニングされたLLMの監視と制御 [cs.LG, cs.CL]目的：ファインチューニングされたLLMの監視と制御手法
- LLMの能力向上は著しいが，その安全性や意図しない挙動への懸念が生じている。
- 従来の解釈可能性手法は，訓練データに類似したデータが必要であり，未知の脅威の検出が困難。
- 重みを解析することで，訓練データに依存せず，新たな挙動や潜在的なリスクを検出・制御すること。
- ファインチューニング後のモデルとベースモデルの重みの差の特異ベクトルが，新たに獲得された挙動に対応することが示された。
- バックドア攻撃に対して100%の阻止率，偽陽性率1%以下を達成し，安全性を高めることが可能である。
- 忘れられたトピックに関する推論を95.42%の精度で検出し，失われた情報を復元することもできる。
Link: https://arxiv.org/abs/2508.00161
スマートコントラクトに対する攻撃自動生成：プロンプトによる脆弱性悪用 [cs.CR, cs.AI, cs.ET]目的：スマートコントラクトの脆弱性に対する攻撃の自動生成
- デジタル金融におけるスマートコントラクトの重要性が増す中，セキュリティ確保は不可欠である。
- 一度デプロイされたスマートコントラクトは修正が困難であり，脆弱性が残存しやすい。
- LLMを活用した攻撃自動生成の可能性を探り，脆弱性への対策を強化することを目指す。
- 最新のLLMは，単一コントラクトの脆弱性に対する決定的なPoCを生成できる場合があることが示された。
- しかし，複数コントラクトに跨る攻撃に関しては，依然として弱点が見られる。
- LLMによる攻撃自動生成には限界があり，現実的な経済的攻撃との乖離や，より強固な防御策の必要性が示唆された。
Link: https://arxiv.org/abs/2508.01371
GRAIL：検索拡張推論のための大規模知識グラフとのインタラクション学習 [cs.AI]目的：検索拡張推論のための知識グラフとのインタラクション
- 大規模言語モデルの性能向上に，知識グラフの活用が不可欠である。
- 既存のグラフ検索手法は，グラフ構造の全体像把握と検索精度のバランスが課題である。
- 知識グラフの構造を考慮した，精度の高い情報検索による推論能力の向上を目指す。
- GRAILは，LLMによる探索とパスフィルタリングを組み合わせたデータ合成パイプラインを確立した。
- このパイプラインにより，タスクごとに詳細な推論軌跡が自動生成される。
- 3つの知識グラフQAデータセットで，平均精度が21.01%，F1スコアが22.43%向上した。
Link: https://arxiv.org/abs/2508.05498
GeoLaux：補助線が必要な長ステップ問題におけるMLLMの幾何学的性能を評価するためのベンチマーク [cs.AI]目的：マルチモーダル大規模言語モデル(MLLM)の幾何学的能力の評価
- 幾何学問題解決は，MLLMにとって図の理解，知識の応用，長ステップ推論の重要な課題である。
- 既存のベンチマークは，補助線構築を必要とする長ステップ問題に対する詳細な評価が不足している。
- 補助線構築を含む長ステップ問題に特化した評価基準を提示し，MLLMの改善を促す。
- 本研究で構築したGeoLauxは，2186の計算・証明問題を収録し，平均6.51ステップという長ステップ推論と，41.8%の問題で補助線構築が必要となる。
- 主要な23のMLLMを評価した結果，長ステップ問題において短ステップ問題と比較して性能が大幅に低下し，18モデルで50%以上の低下が見られた。
- 補助線構築の理解・認識・習熟度が幾何学的推論全体に不可欠であり，わずかな回答ヒントがプロセス正答率を向上させる一方で，明示的な回答は中間推論ステップの省略につながる。
Link: https://arxiv.org/abs/2508.06226
条件分位数の解釈可能な予測のための記号回帰 [cs.LG, cs.NE, stat.AP]目的：条件分位数の予測
- 予測モデルの解釈性は，特に安全性が重要な分野において不可欠である。
- 従来の記号回帰は平均値の推定に優れるが，分位点における関係性の推定は未解明である。
- 条件分位数を記号回帰で予測し，特徴量の影響を理解することを目指す。
- 提案手法Symbolic Quantile Regression (SQR) は，透明なモデルを上回り，ブラックボックスモデルと同等の性能を示す。
- SQRは，航空機の燃料消費量事例において，極端な値と中央値の予測モデルを比較することで，標的分布の変化を説明できる。
- SQRは，条件分位数の予測と，異なる分位点における特徴量の影響の理解に適している。
Link: https://arxiv.org/abs/2508.08080
再帰型ニューラルネットワークにおける状態とパラメータの時間スケール結合 [cs.SI, cs.HC, cs.LG, math.DS]目的：再帰型ニューラルネットワークにおけるゲート機構が誘起する学習率の依存性
- 深層学習は，画像認識や自然言語処理など，多くの分野で高い性能を発揮しており，その重要性は増している。
- 再帰型ニューラルネットワークの学習は，勾配消失や爆発の問題，および最適化の困難さが課題となっている。
- ゲート機構が最適化に与える影響を解析し，学習の安定化に貢献することを明らかにする。
- ゲート機構は，状態空間の時間スケールとパラメータ空間のダイナミクスの間の結合によって，ラグ依存かつ方向依存的な有効学習率を引き起こす。
- ゲートは，情報フローのフィルターとしてだけでなく，データ駆動型の最適化事前条件付けとして機能し，学習率スケジューリングやAdamなどの適応的メソッドとの関連性を示す。
- 実験シミュレーションの結果，ゲートはラグ依存的な有効学習率を生み出し，Adamによって誘起される異方性構造に匹敵する低次元部分空間に勾配フローを集中させる。
Link: https://arxiv.org/abs/2508.12121
耐障害性下水圧送管管理のための組込みFPGAにおけるエネルギー効率を考慮した時系列モデルの自動展開 [cs.LG]目的：下水圧送管のオーバーフロー管理における，エネルギー効率の良い時系列モデルの組込みFPGAへの自動展開
- 気候変動による異常気象の激化により，老朽化した下水システムの管理が重要になっている。
- 従来の物理モデルは拡張性に乏しく，AIモデルは通信障害時の信頼性に課題があった。
- エッジデバイス上での効率的な推論を可能にし，通信障害に強い下水システムを構築すること。
- Transformerモデルは高い予測精度(MSE 0.0376)を示したが，LSTMモデルより消費電力が大きい。
- LSTMモデルはTransformerモデルより40倍以上低消費電力(0.009mJ)だが，予測精度は14.89%低下した。
- 本研究は，ローカルかつエネルギー効率の良い予測を可能にし，より強靭な下水システムに貢献する。
Link: https://arxiv.org/abs/2508.13905
Eコマース領域におけるWebエージェント評価のための機能に基づいたベンチマーク [cs.CL, cs.CY, cs.CL, cs.AI]目的：Eコマース領域におけるWebエージェントの能力評価
- Eコマースは現代社会において不可欠であり，自動化されたWebエージェントの重要性が増している。
- 既存のベンチマークは製品検索に偏っており，Eコマースの多様な機能を網羅できていない。
- 安全性評価を欠いており，ユーザーアカウントへの潜在的な悪影響を見過ごしている。
- 新しいベンチマーク「Amazon-Bench」を提案し，多様な機能に基づいたユーザークエリを生成するパイプラインを開発した。
- Webエージェントの性能と安全性を評価する自動化されたフレームワークを導入した。
- 現在のWebエージェントは複雑なクエリに苦戦し，安全上のリスクを抱えていることが示された。
Link: https://arxiv.org/abs/2508.15832
BED-LLM：LLMとベイジアン実験計画法による知的な情報収集 [cs.CL, cs.AI, stat.ML]目的：LLMを用いた知的な情報収集能力の向上
- LLMの性能向上が求められる中，ユーザーとのインタラクションを最適化する技術が重要である。
- LLMは，効率的な情報収集戦略を持つことができず，対話的な環境での利用に課題がある。
- LLMがベイジアン実験計画法を用いることで，情報収集の効率化と対話的性能の向上を目指す。
- 本研究で提案するBED-LLMは，情報獲得量の期待値を最大化する質問選択を繰り返すことで，効果的な情報収集を実現する。
- 20の質問ゲームやユーザーの嗜好推測といった実験において，既存の手法と比較して大幅な性能向上を確認した。
- LLMの予測分布に基づく確率モデルの構築と更新が，BED-LLMの鍵となる。
Link: https://arxiv.org/abs/2508.21184
VideoAgent：科学ビデオの個別化合成 [cs.AI]目的：科学ビデオの個別化合成手法
- 研究成果の普及には，専門知識を持たない層への分かりやすい情報伝達が不可欠である。
- 既存の自動生成手法はテンプレートに依存し，非線形なナラティブや多様なメディアの同期が課題である。
- 視聴者に合わせた動画構成により，複雑な研究内容の理解を促進し，知識伝達効果を高めることを目指す。
- VideoAgentは，ナレーションのセマンティック密度に応じて，静止画スライドと動的アニメーションを適応的に挿入する。
- 提案手法は，複雑な技術的ロジックを高いナラティブ忠実度とコミュニケーション効果で伝えることが示された。
- SciVidEvalベンチマークにより，マルチモーダル品質と教育的有用性を自動評価し，知識伝達効果を検証した。
Link: https://arxiv.org/abs/2509.11253
波動散乱における物理情報ニューラルネットワークと境界要素法のベンチマーク [cs.LG]目的：波動散乱問題における境界要素法と物理情報ニューラルネットワークの性能評価
- 波動現象の解析は，工学，医学，地球物理学など幅広い分野で重要である。
- 従来の数値解析手法は計算コストが高く，複雑な形状への適用が困難な場合がある。
- 物理情報ニューラルネットワークは，少ない計算資源で高精度な解を得る可能性を秘めている。
- 境界要素法と物理情報ニューラルネットワークの計算時間を比較した結果，境界要素法の方が学習時間は短い。
- 学習済みの物理情報ニューラルネットワークは，境界要素法よりも内部点での評価時間が大幅に短い。
- 本研究は，波動伝播問題における両手法の利用を支援し，今後の研究の方向性を示す。
Link: https://arxiv.org/abs/2509.12483
RepIt：概念特有の拒否ベクトルを用いた言語モデルの制御 [cs.AI, cs.CL]目的：言語モデルにおける概念特有の表現の分離
- 言語モデルの安全性評価は重要であり，社会への影響を考慮する必要がある。
- 従来の評価は脆弱性を見逃しやすく，局所的な問題への対応が課題である。
- 評価を回避するような挙動を引き起こす，見つけにくい改変を明らかにすること。
- RepItは，わずかな例数で概念特有のベクトルを抽出し，言語モデルの安全性を損なう改変を可能にする。
- RepItは，特定の概念に関する拒否を抑制しつつ，他の概念に対する拒否は維持するという，懸念される能力を実証した。
- この研究は，現在の安全性評価方法の脆弱性を明らかにし，より包括的な評価の必要性を示唆する。
Link: https://arxiv.org/abs/2509.13281
ORCA：ビジョン言語モデルにおける幻覚と敵対的ロバスト性のためのエージェント的推論フレームワーク [cs.CV, cs.AI, cs.MA]目的：ビジョン言語モデルの事実精度と敵対的ロバスト性の向上
- 大規模なビジョン言語モデルは多岐にわたる応用が期待されるが，その信頼性が課題となっている。
- 既存のビジョン言語モデルは，内部エラーや外部からの攻撃により幻覚を生じやすく，現実世界での利用が制限される。
- 推論時の構造化された推論を通じて，幻覚を軽減し，敵対的攻撃に対する堅牢性を高めることを目指す。
- ORCAは，複数の小規模なビジョンモデルを活用し，Observe-Reason-Critique-Actループを通じて推論を行う。
- 幻覚ベンチマークにおいて，ORCAは既存のビジョン言語モデルの性能を+3.64%から+40.67%向上させた。
- 敵対的摂動下においても，ORCAは平均で+20.11%の精度向上を示し，防御機構との組み合わせで更なる性能向上が確認された。
Link: https://arxiv.org/abs/2509.15435
視覚的推論エージェント：推論時スケーリングによるリモートセンシングにおける堅牢な視覚システム [cs.CV, cs.AI, cs.MA]目的：リモートセンシングにおける堅牢な視覚システムの構築
- リモートセンシングは，災害監視や資源管理など，重要度の高い分野で活用されており，高精度な視覚システムが求められる。
- 既存の単一パス推論では十分な視覚的推論能力が得られず，再学習には膨大な計算資源とデータが必要となる。
- 大規模言語モデルと推論モデルを組み合わせ，自己批判と反復的な改善を通して視覚的推論能力を向上させる。
- VRAは，既存の大規模ビジョン言語モデルを上回り，VRSBench VQAデータセットで最大40.67%の性能向上を達成した。
- 複数の大規模ビジョン言語モデルをVRAに統合することで，単独モデルの精度を52.8%から78.8%に向上させ，エージェント的推論の有効性を示した。
- 推論時の計算コストを増加させることで，より高度な推論能力と精度向上が可能であることが示された。
Link: https://arxiv.org/abs/2509.16343
Text Slider：LoRAアダプターを用いた画像/動画合成における効率的でプラグアンドプレイな連続概念制御 [cs.GR, cs.AI, cs.CV, cs.LG, cs.MM]目的：画像や動画合成における連続的な概念制御手法
- 拡散モデルの発展により画像・動画合成の質が向上。テキストによる自由な制御が求められている。
- 既存手法は学習に時間とGPUメモリを要し，異なるモデルへの適用が困難である。
- 事前学習済みのテキストエンコーダー内の低ランク方向を特定し，効率的な概念制御を実現する。
- Text Sliderは，Concept Sliderと比較して5倍高速，Attribute Controlと比較して47倍高速に学習可能である。
- GPUメモリ使用量はそれぞれ約2倍，4倍削減され，学習パラメータ数も大幅に減少する。
- 入力画像の空間配置と構造を維持しつつ，特定の属性を滑らかかつ連続的に調整できる。
Link: https://arxiv.org/abs/2509.18831
インサイドアウト：インタビュー台本生成におけるインサイダー・アウトサイダーバイアスの測定と軽減 [cs.RO, cs.CL, cs.AI, cs.CY]目的：大規模言語モデルにおけるインサイダー・アウトサイダーバイアスの測定と軽減
- 言語モデルの進化は多様な応用を可能にしたが，生成されるコンテンツの文化的な公平性が課題となっている。
- 言語モデルは主流文化を自身の立場として捉え，他の文化を外部化する傾向があることが問題となっている。
- 文化的に位置づけられたインタビュー台本生成を通じて，インサイダー・アウトサイダーバイアスの定量化と軽減を目指す。
- 提案されたInsideOutベンチマークと評価指標により，言語モデルにおけるインサイダー・アウトサイダーバイアスを定量的に評価できることが示された。
- 実験の結果，最新の言語モデルはアメリカ文化においてはインサイダーの口調を取る一方，非西洋文化においてはアウトサイダーの立場に陥る傾向が明らかになった。
- 提案されたMFA（Mitigation via Fairness Agents）フレームワークが，特にLlamaやQwenモデルにおいて，バイアスを大幅に軽減できることが示された。
Link: https://arxiv.org/abs/2509.21080
線形プローブを超えて：言語モデルの動的安全性監視 [cs.LG]目的：言語モデルの安全性監視手法の開発
- 大規模言語モデルの普及に伴い，有害な応答の検出と抑制が重要な課題となっている。
- 従来の安全性監視は計算コストが固定されており，効率性と精度の両立が難しい。
- 入力の難易度に応じて計算コストを調整できる，柔軟な安全性監視手法の確立。
- Truncated Polynomial Classifiers（TPC）は，線形プローブの拡張として，活性化の動的監視を可能にする。
- TPCは，入力が難しい場合にのみ計算コストを増加させ，安全性と効率性のバランスをとることができる。
- 実験の結果，TPCは従来のMLPベースの手法と同等以上の性能を示し，かつ解釈可能性に優れていることが示された。
Link: https://arxiv.org/abs/2509.26238
最適化手法はモデル結合の損失地形をどのように暗黙的に偏らせるか [cs.LG, cs.AI]目的：モデル結合における損失地形の幾何学と最適化ダイナミクスとの関係
- モデル結合は，推論コストを維持しつつ，異なる能力を持つ複数の解を統合する有用な手法である。
- モデル結合が有効である理由を説明する理論的理解が不足している。
- モデル結合の成功に影響する「有効ノイズスケール」を特定し，その影響を分析する。
- 有効ノイズスケールは，様々な最適化手法の要素がモデル結合に及ぼす影響を統一的に説明する。
- モデル結合の成功は，有効ノイズスケールに関して非単調な関数であり，明確な最適値が存在する。
- 学習率，正則化，バッチサイズ，データ拡張などが有効ノイズスケールを独立して調整し，同様の傾向を示す。
Link: https://arxiv.org/abs/2510.04686
プラグアンドプレイ劇作家：協調的LLMエージェントによる反復的なナラティブスクリプト改良のための分割統治アプローチ [cs.CL, cs.AI]目的：反復的なナラティブスクリプト改良のための分割統治アプローチ
- LLMはコンテンツ生成に広く活用されているが，長編ナラティブの品質向上が課題である。
- ナラティブ全体の文脈理解と，多粒度・多地点での修正調整が困難である。
- LLMエージェントによる階層的な分割統治アプローチで，ナラティブスクリプトの一貫性を保ちつつ改善を目指す。
- Dramaturgeは，全体像把握，シーンレベルの分析，そして階層的調整という段階を経てスクリプトを改良する。
- 上位レベルの戦略が下位レベルの修正を導くことで，文脈の一貫性を維持している。
- 実験の結果，Dramaturgeは既存手法と比較して，スクリプト全体の品質とシーンレベルの詳細において顕著な改善を示した。
Link: https://arxiv.org/abs/2510.05188
重み付き有向非巡回マルチグラフ上のベクトル値関数に対するメビウス変換とシャプレー値 [cs.CL, cs.GT, cs.DM, cs.LG, math.CO]目的：複雑なシステムにおける高次の構造の特性評価と分解
- 複雑なシステムの理解とモデリングにおいて，高次の相互作用を定量化する数学的ツールが不可欠である。
- 既存のシャプレー値の定義は，格子構造に限定されており，より一般的なグラフ構造には適用できない場合がある。
- ベクトル値関数と一般的な有向非巡回マルチグラフに対するシャプレー値を一意に定義するための新しい公理を提案する。
- メビウス変換とシャプレー値を同時に一般化し，ベクトル値関数と重み付き有向非巡回マルチグラフを扱えるフレームワークを構築した。
- 弱要素とフラット階層という新たな公理を導入することで，シャプレー値を一意に決定する公式を導出した。
- このフレームワークは，既存の格子ベースの定義を特殊なケースとして包含し，これまで適用が困難だった設定にも対応可能である。
Link: https://arxiv.org/abs/2510.05786
グラフニューラルネットワークのAC最適潮流計算への汎化に関する研究 [cs.LG, cs.AI]目的：AC最適潮流計算におけるグラフニューラルネットワークの汎化性能向上
- 電力系統の規模拡大と複雑化により，AC最適潮流計算の高速化が喫緊の課題となっている。
- 既存の機械学習モデルは，電力系統の規模や構成の変化に対する汎化性能が不足している。
- 異なる系統構成や規模への対応可能な，汎用的な機械学習モデルの開発を目指す。
- 提案手法であるHH-MPNNは，14バスから2000バスまでの系統において，1%未満の最適解ギャップを達成した。
- 訓練データのみで，N-1 Contingencyに対するゼロショット汎化性能を示し，3%未満の最適解ギャップを維持した。
- 訓練データ拡張により，高影響Contingencyに対するロバストなN-1汎化性能を確保できることを示した。
Link: https://arxiv.org/abs/2510.06860
大規模マルチモーダルモデルへの新しいスキルの習得方法 [cs.CL, cs.CL, cs.AI, cs.CV, cs.LG]目的：大規模マルチモーダルモデルへの新しいスキルの習得における学習と忘却のトレードオフ
- マルチモーダルモデルは，画像やテキストなど多様な情報を処理できるため，応用範囲が広い。
- 新しいスキルを習得する際に，既存の能力が失われる「忘却」が課題となっている。
- 出力分布の変化を制御することで，忘却を抑制しつつ学習を促進することを試みる。
- 新しいスキルを習得する際，あるスキルでの性能低下が，次のスキルでの学習によって部分的に回復することが確認された。
- 特に，self-attention projection層のみの更新，またはMLP Gate&Upのみの更新が，全LLMのチューニングよりも学習と忘却のバランスに優れていることが示された。
- 出力トークン分布の変化と忘却との相関関係が明らかになり，選択的なチューニングが重要であることが示唆された。
Link: https://arxiv.org/abs/2510.08564
Flow-Opt：フローマッチングと微分可能最適化を用いたスケーラブルな集中型マルチロボット軌道最適化 [cs.RO, cs.LG]目的：マルチロボット軌道最適化の計算効率向上
- 複数ロボットの協調作業において，滑らかな軌道の生成が重要である。
- 集中型軌道最適化は計算コストが高く，ロボット数が増えると適用が困難である。
- フローマッチングと微分可能最適化により，大規模なロボット群での計算効率を高める。
- 提案手法Flow-Optは，数十機のロボットに対して数10ミリ秒で軌道を生成可能である。
- 既存の集中型最適化手法や拡散モデルと比較して，高速かつ滑らかな軌道生成を実現した。
- 複数の問題インスタンスを同時に処理でき，多様な衝突回避行動を捉えた軌道生成が可能である。
Link: https://arxiv.org/abs/2510.09204
StepFly：インシデント診断のためのエージェント型トラブルシューティングガイド自動化 [cs.AI]目的：大規模ITシステムにおけるインシデント診断の自動化
- 大規模ITシステムの安定稼働には，迅速かつ正確なインシデント管理が不可欠である。
- トラブルシューティングガイドの作成・実行は手作業に依存しており，時間と労力がかかる。
- LLMを活用し，トラブルシューティングガイドの品質向上と実行効率化を目指す。
- StepFlyは，トラブルシューティングガイドの品質向上を支援するツールTSG Mentorを備えている。
- StepFlyは，LLMを用いてトラブルシューティングガイドを構造化し，DAG（有向非巡回グラフ）を生成する。
- 実環境のデータを用いた評価で，StepFlyはGPT-4.1において約94%の成功率を達成し，既存手法を上回った。
Link: https://arxiv.org/abs/2510.10074
ReefNet：詳細なサンゴ礁認識のための大規模データセットとベンチマーク [cs.CV, cs.AI]目的：詳細なサンゴ礁認識のための大規模データセットと評価基準の提供
- サンゴ礁は生態学的，経済的に重要であり，そのモニタリングは海洋環境保護に不可欠である。
- 既存のサンゴ礁データセットは規模が小さく，分類体系が統一されていないため，高精度な分析が困難である。
- 本研究は，信頼性の高いラベルと大規模なデータ量を持つデータセットを構築し，サンゴ礁モニタリングの精度向上を目指す。
- ReefNetは，76のCoralNetソースと紅海からの画像データを統合し，約92万件のサンゴ属レベルのアノテーションを含む大規模データセットである。
- 専門家による検証とフィルタリングにより，39種類のサンゴラベルクラスで92%という高い専門家間一致率を達成し，信頼性の高いベンチマークを確立した。
- 最新のビジョン言語モデルやマルチモーダル大規模言語モデルを用いた実験により，ゼロショットや極めて少ないショットでの性能劣化が明らかになった。
Link: https://arxiv.org/abs/2510.16822
実走行条件下の確率的バッテリー容量予測のための注意機構付き条件付き拡散モデル [cs.LG]目的：リチウムイオンバッテリーの容量とその不確実性の正確な予測
- バッテリー管理システムにおいて，バッテリー残存容量の正確な把握は，安全性と効率性を高める上で不可欠である。
- バッテリーの劣化は確率的であり，その予測は依然として困難であるという課題が存在する。
- 実走行データに基づき，劣化の確率的性質を考慮した高精度な容量予測を実現することを目的とする。
- 提案手法CDUAは，実走行データを用いた実験において，0.94%の平均絶対誤差率と1.14%の二乗平均平方根誤差率を達成した。
- 95%信頼区間の相対幅が3.74%と狭く，高精度な容量推定と信頼性の高い不確実性定量化が可能であることを確認した。
- 既存手法との比較実験により，CDUAの頑健性と優位性が検証された。
Link: https://arxiv.org/abs/2510.17414
SpecAgent：コード補完のための投機的検索・予測エージェント [cs.SE, cs.AI]目的：コード補完における投機的検索と予測の改善
- 大規模言語モデルの活用が重要視される一方，実用的なソフトウェア開発環境での課題が存在する。
- 既存手法では，推論時の低遅延性と文脈の質の維持がトレードオフとなる。
- インデックス作成時に非同期処理を行うことで，遅延を隠蔽し，質の高いコード生成を実現する。
- SpecAgentは，既存の最良手法と比較して，9〜11%（相対的には48〜58%）の絶対的な性能向上を常に達成した。
- 推論遅延も大幅に削減された。
- 既存ベンチマークにおける将来の文脈漏洩問題を特定し，漏洩のない合成ベンチマークを構築した。
Link: https://arxiv.org/abs/2510.17925
剪定されたアテンションヘッドのアンサンブルによる不確実性認識型効率的Transformer [cs.LG, cs.CV]目的：不確実性定量のための効率的なTransformerアンサンブル
- 安全性重視の環境下で深層ニューラルネットワークを利用する上で，不確実性の定量は不可欠である。
- 既存のアンサンブル法は高性能だが，計算コストが高く，大規模モデルへの適用が難しい。
- アテンションヘッドの剪定による多様性と効率性を両立させ，不確実性定量性能を向上させる。
- Hydra Ensemblesは，アテンションヘッドの剪定とグループ化された全結合層により，計算コストを抑えつつ高い不確実性定量性能を実現した。
- 再学習なしでDeep Ensemblesと同等かそれ以上の性能を示し，特にゼロショット分類において最先端の結果を達成した。
- 単純な剪定手法がキャリブレーションを損なう可能性を示し，Hydra Ensemblesが堅牢な不確実性を維持することを確認した。
Link: https://arxiv.org/abs/2510.18358
日常家具における振動ベースのジェスチャ認識：エネルギー効率FPGAによる1次元CNN実装 [cs.LG, cs.AI]目的：日常家具における振動ベースのジェスチャ認識の実現
- スマートホーム需要の高まりから，非侵襲的なジェスチャ認識技術への関心が高まっている。
- 既存研究は，複雑な前処理や大規模なニューラルネットワークに依存し，高コストで消費電力も大きい。
- 低消費電力FPGAによる軽量なニューラルネットワーク実装により，実用的なジェスチャ認識を目指す。
- 提案手法では，複雑な前処理を省略し，1次元CNNや1次元SepCNNなどの軽量なネットワークをFPGAに実装した。
- 6ビット1D-CNNは平均精度0.970，8ビット1D-SepCNNは精度0.949を達成し，CPU比53倍以上の高速化を実現した。
- 両モデルともに，1回の推論あたり1.2mJ以下の低消費電力であり，エッジデバイスでの長期運用に適している。
Link: https://arxiv.org/abs/2510.23156
ジェンセン・シャノン距離を用いた多クラス局所的校正 [cs.LG, cs.AI]目的：多クラス分類における局所的校正の確立
- 機械学習モデルの信頼性向上は，現実社会での応用において不可欠である。
- 既存の多クラス校正手法は，入力間の距離を考慮せず，疎な領域で誤校正が生じやすい。
- 入力空間の近接性に基づく局所的校正により，疎な領域での誤校正を改善することを目指す。
- 本研究では，多クラス局所的校正の定義を提示し，強校正との関係性を理論的に明らかにした。
- 既存の評価指標が局所的校正に適用される際の課題を分析した。
- ジェンセン・シャノン距離を用いて，ニューラルネットワークにおける局所的校正を改善する手法を提案し，その有効性を検証した。
Link: https://arxiv.org/abs/2510.26566
決定論的世界の複製：長期的予測における潜在幾何学の重要な役割 [cs.LG, cs.AI, cs.CV]目的：決定論的3D世界の完全な複製
- 複雑な環境下での知的な行動には，環境の進化をシミュレートするワールドモデルが不可欠である。
- 既存のワールドモデルはランダムな環境生成に偏っており，決定論的な環境の高精度なモデリングが不足している。
- 潜在表現の幾何学的構造を改善し，長期的予測の精度向上を目指す。
- 診断実験により，高精度な複製が可能であり，長期的な予測精度のボトルネックはダイナミクスモデルではなく，潜在表現の幾何学的構造であることが定量的に示された。
- 時間的コントラスト学習を幾何学的正則化として適用することで，潜在空間が基礎となる物理状態多様体をより良く反映するようになり，安定したワールドモデリングのための強力な誘導バイアスとして機能することが示された。
- GRWM（幾何学的に正則化されたワールドモデル）は，表現の質に焦点を当てることで，ワールドモデルの精度を向上させるシンプルかつ強力なパイプラインを提供する。
Link: https://arxiv.org/abs/2510.26782
思考の連鎖をレンズとして：大規模言語モデルと人間の好みの間の構造化された推論のアライメント評価 [cs.RO, cs.AI]目的：大規模言語モデルと人間の好みの間の構造化された推論のアライメント
- 大規模言語モデルの能力向上は，人間との協調を円滑にする上で重要である。
- 大規模言語モデルの推論過程と人間の思考様式の乖離が課題となっている。
- モデルの推論過程と人間の好みの整合性を定量的に評価する方法を確立する。
- Alignment Scoreという新たな指標が，モデルの推論過程と人間の好みの間の整合性を評価する。
- Alignment Scoreは，タスク精度や推論の深さと相関し，特に2段階の推論でピークを迎える。
- 推論の深さが増すにつれて，テーマのずれや冗長な推論といったアライメントエラーが顕著になる。
Link: https://arxiv.org/abs/2511.06168
心臓電気生理学のための物理情報ニューラル演算子 [cs.RO, cs.LG]目的：心臓電気生理学における偏微分方程式問題の解法
- 心臓の電気活動の正確なモデル化は，不整脈の理解と治療に不可欠である。
- 従来の数値シミュレーションは計算コストが高く，深層学習はデータ量と予測の安定性に課題がある。
- 物理情報を組み込んだニューラル演算子を用いて，高精度かつ効率的なシミュレーションを実現する。
- 提案手法であるPINOモデルは，異なるメッシュ解像度や初期条件への汎化能力を示す。
- PINOモデルは，訓練データにないシナリオに対しても正確な心臓電気生理学的動態を再現する。
- 従来の数値解法と比較して，大幅な計算時間の短縮化を実現し，スケーラブルなシミュレーションを可能にする。
Link: https://arxiv.org/abs/2511.08418
多Modal埋め込みにおける敵対的錯覚に対するコンセンサスに基づく生成的緩和策 [cs.RO, cs.LG]目的：多Modal基礎モデルにおける敵対的錯覚の緩和
- 画像，テキスト等の多Modalデータを統合し，様々なタスクに応用できる点が重要である。
- 微小な摂動によってModal間の整合性が崩れ，下流タスクを誤らせる敵対的錯覚が脆弱性となる。
- 生成モデルを用いた入力の精製と，コンセンサスに基づく集約により，敵対的錯覚を抑制する。
- 本手法は，ImageBindにおける敵対的錯覚の成功率をほぼゼロにまで大幅に低減した。
- 摂動の有無にかかわらず，Modal間の整合性を向上させ，効果的な防御を実現した。
- タスクに依存しない汎用的な防御メカニズムを提供する。
Link: https://arxiv.org/abs/2511.21893
分解された信頼：低ランクLLMにおけるプライバシー，敵対的頑健性，倫理，公平性 [cs.LG, cs.AI]目的：低ランクLLMにおける信頼性の包括的な評価
- 大規模言語モデルは様々な分野で進歩をもたらしているが，その巨大なサイズが導入の障壁となっている。
- 低ランク分解はモデル圧縮に有効だが，信頼性に与える影響は未解明な点が多い。
- 低ランク分解がプライバシー，頑健性，倫理，公平性に与える影響を詳細に分析し，そのメカニズムを解明する。
- 低ランク分解は学習データのプライバシーは維持するものの，会話中の個人情報保護は弱まることが示された。
- 圧縮によって敵対的頑健性は一般的に向上する傾向が確認された。
- ゼロショットプロンプティングでは倫理性が低下するが，Few-shotプロンプティングでは部分的に回復する。
Link: https://arxiv.org/abs/2511.22099