arXiv雑要約

AI - 2026/05/07 公開

  • 文脈が邪魔になる時:マルチエージェント設計探索における知識伝達のクロスオーバー効果 [cs.AI, cs.SE]目的:マルチエージェントソフトウェア設計における知識伝達の影響
    • マルチエージェントシステムは複雑であり,効率的な設計手法の確立が重要である。
    • 既存研究では文脈情報が多いほど設計が向上すると考えられている。
    • 文脈情報が必ずしも設計を向上させない状況を明らかにすること。
    • 文脈情報がタスクによっては設計探索を改善する一方で,悪化させる場合があることが示された。
    • 改善効果は最大で20倍,悪化効果は最大で46%に及んだ。
    • 文脈情報の効果は,文脈情報なしでの初期探索性能によって予測可能であることが分かった。

    Link: https://arxiv.org/abs/2605.04361

  • テスト時事後確率調整による表形式インコンテキスト学習におけるラベルシフトの緩和 [cs.LG, cs.AI]目的:表形式データにおけるラベルシフト緩和手法
    • 表形式データの分析は,様々な分野で重要であり,その精度向上は不可欠である。
    • 既存の表形式モデルは,ラベルシフトに対して脆弱であり,性能劣化を引き起こす可能性がある。
    • 本研究は,ラベルシフト下での表形式モデルの性能を改善することを目的とする。
    • 提案手法DistPFNは,追加学習やアーキテクチャ変更なしに,テスト時に予測確率を調整することでラベルシフトを緩和する。
    • DistPFN-Tは,事前分布と事後分布の乖離度に応じて調整強度を適応的に制御する温度スケーリングを導入する。
    • OpenMLデータセットを用いた評価により,DistPFNおよびDistPFN-Tがラベルシフト下でのTabPFNベースモデルの性能を大幅に向上させることが示された。

    Link: https://arxiv.org/abs/2605.04363

  • オンライン非確率的予測:予測オンライン最小二乗法による対数的後悔 [cs.LG, cs.SY, eess.SY, math.OC]目的:限界安定部分観測線形動的システムにおける累積二乗予測損失の最小化
    • 動的システムの予測は,制御,推定,意思決定など,幅広い分野で不可欠である。
    • 限界安定システムでは,軌道が無限に発散する可能性があり,既存手法の保証が適用できない場合がある。
    • 本研究は,軌道が無限に発散する可能性のあるシステムでも対数的後悔を達成するオンライン予測手法を開発する。
    • モデル知識を利用することで,安定化ルエンバーガー予測器由来のヒントがヒント残差を均一に有界に保ち,対数的後悔を実現する。
    • モデルフリー予測についても検討し,対称システムに対して普遍的なヒントを導入することで,モデル知識なしでも対数的後悔を維持する。
    • 本研究の結果は,非確率的擾乱下における古典的な固定ゲインオブザーバーと比較して,適応的かつインスタンスごとに最適なオンライン予測器を提供する。

    Link: https://arxiv.org/abs/2605.04364

  • 安全重視型交通シナリオ生成のための条件付きフローVAE [cs.CE, cs.RO, cs.LG]目的:安全重視型交通シナリオの生成
    • 自動運転システムの開発において,安全性を検証するためのシナリオは不可欠である。
    • 現実の運転データからは,安全に関わる事例は稀にしか見つからないという課題がある。
    • 現実的かつ多様な安全重視型シナリオを効率的に生成することを目指す。
    • 本研究では,潜在フローマッチングを用いて,安全重視型シナリオを生成する手法を提案した。
    • シミュレーションと現実世界のデータ両方を取り入れることで,多様なデータ駆動型シナリオ生成を可能にした。
    • 実験結果から,提案手法が新しい安全重視型シナリオをより現実的に生成できることが示された。

    Link: https://arxiv.org/abs/2605.04366

  • エピソード問題に対する微分時間差分法の拡張 [cs.LG, cs.AI]目的:エピソード問題における微分時間差分法の適用範囲拡大
    • 強化学習は,自律的な意思決定を行うエージェントの開発に不可欠である。
    • 従来の微分時間差分法は無限地平問題向けであり,エピソード問題への適用に限界があった。
    • エピソード問題における報酬中心化の影響を分析し,汎用的な微分時間差分法を提案すること。
    • 提案手法は,終了条件を考慮しても方策の順序を維持し,微分時間差分法をエピソード問題に拡張する。
    • 線形時間差分法との等価性が証明され,既存の理論的保証を継承する。
    • 様々な強化学習アルゴリズムに提案手法を適用し,エピソード問題におけるサンプル効率の改善を実験的に確認した。

    Link: https://arxiv.org/abs/2605.04368

  • RLベースのネットワークコントローラにおける最悪ケースの発見と実行時保護 [cs.SI, cs.NI, cs.AI, cs.SY, eess.SY]目的:RLベースのネットワークコントローラの最悪ケースシナリオの発見と,リトレーニングなしでの実行時保護
    • ネットワーク制御におけるRLの活用が進む中で,平均的な性能向上は確認されている。
    • 特定のネットワーク環境下で性能が著しく低下するケースが存在するが,網羅的な検証は困難である。
    • 性能低下を引き起こす最悪ケースを特定し,リトレーニングなしで性能ギャップを縮小すること。
    • ReGuardは,与えられたRLコントローラの最悪ケースシナリオを発見し,推論時に保護するフレームワークである。
    • 発見されたシナリオは,性能ギャップの下限を保証し,軽量な論理ルールに変換してリスクを抑制する。
    • 実験により,ReGuardは既存手法よりも大きなギャップを発見し,79~85%まで性能を改善することを示した。

    Link: https://arxiv.org/abs/2605.04373

  • p-進多様体学習と不偏ゲームからのベンチマーク課題 [cs.LG, math.NT]目的:p-進多様体学習のアルゴリズムと,不偏ゲームに基づくベンチマーク課題
    • 多様体学習は,高次元データの構造解析に不可欠であり,機械学習の基盤技術である。
    • 従来の多様体学習は,実数空間を前提としており,p-進多様体のような非アーキメデス空間には適用できない。
    • p-進多様体学習を実現し,既存手法では困難な構造解析を可能にすること。
    • p-進多様体学習のためのアルゴリズムを提案し,その有効性を示した。
    • 不偏ゲームから,p-進多様体学習のベンチマーク課題を構築した。
    • 提案手法は,既存の多様体学習手法とは異なるアプローチを提供する。

    Link: https://arxiv.org/abs/2605.04374

  • 実験即コードラボ:AI駆動型科学的発見のための宣言的スタック [eess.SY, cs.AI, cs.SY]目的:AIによる科学的発見の可能性を最大限に引き出すためのシステム
    • 科学的発見において,物理的な実験環境は依然として不可欠である。
    • AIエージェントと自動化された実験装置間のギャップを埋める新たな技術が求められている。
    • 実験を宣言的な設定として記述し,AIエージェントによる実験を可能にすること。
    • 本研究では,「実験即コード (EaC) ラボ」という新しいパラダイムを提案する。
    • EaCラボは,実験をデバイスレベルAPIにコンパイル可能な宣言的な設定としてエンコードする。
    • これにより,物理,システム,知能の各層を統合し,AIによる科学的発見を加速させる。

    Link: https://arxiv.org/abs/2605.04375

  • GraphPI:グラフニューラルネットワークを用いた効率的なタンパク質推論 [cs.LG]目的:タンパク質推論の効率化
    • バイオメディカル研究における深層学習の重要性が増しており,様々な応用のブレークスルーに貢献している。
    • 正確なタンパク質アノテーションのコストと複雑さから,大規模なラベル付きデータセットの不足が課題となっている。
    • ラベル不足の状況下でも,汎用性の高いタンパク質推論モデルを構築し,計算効率を向上させる。
    • GraphPIは,タンパク質-ペプチド-PSMグラフをノード分類問題として扱うことで,タンパク質間の関係性を解明する。
    • 疑似ラベルと自己学習を用いることで,ラベル不足の問題を克服し,高い精度を実現する。
    • Percolator特徴量の正規化により,データセット固有のファインチューニングなしに汎用的な適用が可能であり,過学習リスクを軽減し,計算効率を向上させる。

    Link: https://arxiv.org/abs/2605.04376

  • 複雑性の制御における臨界的期間:Transformerが推論するか暗記するか [cs.LG, cs.AI]目的:Transformerにおける複雑性制御のタイミング
    • Transformerは自然言語処理の性能向上に不可欠であり,その汎化能力の理解が重要である。
    • Transformerの複雑性制御は静的なハイパーパラメータとして扱われており,訓練中の最適なタイミングが不明であった。
    • Transformerが推論と暗記のどちらを選択するかの臨界的な期間を特定し,最適な複雑性制御のタイミングを解明する。
    • 訓練の初期段階における正則化は,外挿性能に大きな影響を与えることが示された。
    • 臨界期間の位置は初期化スケールに依存するが,初期化スケールを小さくすると推論解の吸引領域が縮小することがわかった。
    • この臨界期間現象はタスクに依存し,モジュール式算術を用いたグロッキングには見られないことが示された。

    Link: https://arxiv.org/abs/2605.04396

  • 低S/N通信のための文脈記憶増強されたソース符号化 [cs.IT, cs.LG, math.IT]目的:低S/N環境におけるテキスト伝送の信頼性向上
    • 通信効率の向上は,情報伝達において不可欠であり,特に低S/N環境下では重要性が増す。
    • 従来のソース符号化は,ノイズの影響を受けやすく,わずかな誤りでも復号を困難にする場合がある。
    • 残差誤りに対するソースモデルの脆弱性を解消し,低S/N環境での伝送性能を改善すること。
    • 提案手法MASCは,送信側と受信側で共有する文脈記憶を用いてソースモデルを強化することで,ソース確率推定の精度を向上させる。
    • MMERにより,必要な記憶のみを動的に活性化することで,平均符号長を短縮し,残差誤りに対する感度を軽減する。
    • 実験結果から,MASCが既存手法と比較して,RayleighフェージングおよびAWGNチャネルにおいて優れた性能を示すことが確認された。

    Link: https://arxiv.org/abs/2605.04400

  • ハミルトニアン力学によるディープフェイク検出 [cs.CV, cs.AI]目的:ディープフェイクの検出
    • 生成AI技術の急速な発展に伴い,ディープフェイク検出の重要性は増している。
    • ディープフェイク検出器は,新しい偽造技術に対応するため,定期的な再調整が必要となる。
    • 静的パターン認識から動的安定性解析への転換による,ディープフェイク検出手法の確立。
    • 本研究では,画像潜在多様体をポテンシャルエネルギー表面としてモデル化し,ディープフェイクと本物の画像を区別する。
    • ハミルトニアン力学に着想を得たダイナミクスを用いて安定性を評価し,ディープフェイクが高いエネルギー状態に存在することを示す。
    • 提案手法HAADは,既存の最先端手法を凌駕し,クロスデータセット転送ベンチマークにおいて優れた性能を発揮した。

    Link: https://arxiv.org/abs/2605.04405

  • 剛直な幾何学を超えて:普遍的微分同相SPD表現学習のためのスプライン・プルバック計量 [cs.LG]目的:対称正定値行列の汎用的な幾何学的近似
    • 深層学習におけるSPD行列の活用は重要であり,表現力向上に不可欠である。
    • 既存の計量は静的で剛直な幾何構造を持ち,ネットワークの表現力と適応性を制限する。
    • スプライン・プルバック計量を用いて,柔軟で安定した幾何学的近似を実現し,勾配消失問題を解決する。
    • スプライン・プルバック計量は,既存のプルバック計量を包含し,局所的な非線形スペクトルモデリングを可能にする。
    • トポロジー的に,スプライン・プルバック計量は全単射なプルバック幾何構造を提供し,ランク交換による不連続性と勾配の不安定性を防ぐ。
    • 線形プローブ,SPDNets,深層リーマンResNetsを用いた実験で,最先端の性能を3つのデータセットで達成した。

    Link: https://arxiv.org/abs/2605.04406

  • XAI指標の評価カード [cs.CV, cs.AI, cs.CY, cs.LG]目的:XAI指標評価の標準化
    • AIの信頼性向上は重要であり,説明可能なAI(XAI)はその鍵となる。
    • XAI指標の定義や報告が一貫せず,検証も不十分な状況である。
    • 評価報告の透明性向上を目指し,XAI研究の信頼性を高める。
    • 本研究では,XAI評価指標を伴う研究に付随するドキュメントテンプレート「XAI評価カード」を提案した。
    • このカードは,評価対象特性,根拠レベル,指標の前提,検証証拠などを明示的に記述する。
    • 評価の断片化を減らし,メタ分析を支援し,XAI研究の責任追及を改善すると考えられる。

    Link: https://arxiv.org/abs/2605.04410

  • 反事実的識別可能性:大域的単調性の限界を超えて - 非単調三角形構造因果モデル [cs.LG, stat.ME]目的:非単調三角形構造因果モデルにおける反事実的識別可能性
    • 構造因果モデルは介入と反事実を統一的に扱うための枠組みであり,AIやロボティクスの分野で重要性が高まっている。
    • 従来の識別可能性の結果は,大域的単調性のような制約的な仮定に依存しており,現実の複雑なシステムへの適用が困難であった。
    • 大域的単調性を緩和した場合でも反事実的識別可能性が成立する構造を特定し,より広範なシステムのモデリングを可能にすること。
    • 非単調三角形構造因果モデル(NM-TM-SCM)は,大域的単調性の代わりにメカニズムごとの可逆性と文脈非依存の逆輸送を導入することで,反事実的識別可能性を達成する。
    • 合成データ実験では,非単調性が高まるにつれて,構造的なバイアスが系統的な反事実的利得をもたらすことが示された。
    • MuJoCo環境における実験では,提案モデルはTransformerベースラインを上回り,より安定した反事実的復元を実現した。

    Link: https://arxiv.org/abs/2605.04413

  • LLM事前学習における多様体制約の解明 [cs.LG, cs.AI, math.OC]目的:LLM事前学習における多様体制約の役割
    • 大規模言語モデルは自然言語処理の発展に不可欠であり,その性能向上が求められている。
    • 事前学習の安定化には経験則に頼る部分が多く,理論的な理解が不十分である。
    • 多様体制約が活性化スケールを制御し,回転平衡を安定化させるメカニズムを解明する。
    • 本研究で提案するMACROは,厳密なリーマン最適化の理論的保証を維持しつつ,競争力のある性能を達成する。
    • 多様体制約は,RMS正規化や重み減衰といった経験則による安定化手法の役割を包含することが示された。
    • 理論的解析と大規模な実験評価により,多様体制約が活性化スケールと回転平衡を独立して制御することが明らかになった。

    Link: https://arxiv.org/abs/2605.04418

  • FLUID:シンクフリー学習のための連続時間ハイパーコネクテッドスパースTransformer [cs.LG, cs.AI]目的:不連続なアテンション機構の課題克服と,連続時間Transformerにおける情報ダイナミクスの改善
    • 連続時間Transformerは,不規則で長距離の時系列モデリングにおいて,従来のCT-RNNsよりも優れた性能を示すことが期待されている。
    • 従来のTransformerの主要な構成要素であるスケールドット積アテンション(SDPA)は,本質的に不連続な処理を行うため,連続時間ダイナミクスとの整合性が課題となっていた。
    • 連続時間ダイナミクスをアテンション計算に直接組み込むことで,より効率的でロバストな連続時間Transformerの実現を目指す。
    • 提案手法FLUIDは,Liquid Attention Network(LAN)を用いることで,アテンションの計算を連続的な力学系として再解釈し,アテンションロジットを線形ODEで表現することに成功した。
    • 実験結果から,FLUIDは様々な学習タスクにおいて,既存の連続時間ベースラインを上回り,特に分布シフト下での汎化性能の向上が確認された。
    • FLUIDは,自律走行車のレーン維持制御において優れたノイズ耐性と自己修正の帰納的バイアスを示し,パラメータチューニングの指針も提供している。

    Link: https://arxiv.org/abs/2605.04421

  • 強化学習による大規模言語モデルのポストトレーニングの堅牢性向上:強化学習微調整における自動故障管理 [cs.SE, cs.AI]目的:強化学習微調整における故障管理の体系化
    • 大規模言語モデルの性能向上には強化学習微調整が不可欠であり,その重要性は増している。
    • 強化学習微調整のプロセスは不安定であり,熟練者による手動での検査・修正に依存している。
    • 強化学習微調整における故障の自動検出,診断,そして修復を実現し,安定性を高める。
    • 本研究では,強化学習微調整の故障を網羅するベンチマークRFT-FaultBenchを構築した。
    • 実験により,故障は訓練の動態から観察可能であり,故障の指紋を識別できることが示された。
    • 自動故障管理フレームワークRFT-FMを提案し,故障検出,診断,修復において高い能力を示した。

    Link: https://arxiv.org/abs/2605.04431

  • マルチUAV支援IoVのための軌跡制御,リソース割当,タスクオフローディングの同時最適化 [cs.NI, cs.AI]目的:マルチUAV支援IoVにおけるタスクオフローディングシステムの最適化
    • IoVは,安全性向上や交通渋滞緩和に貢献する重要な技術分野である。
    • 都市部では,通信インフラの制約からIoVシステムの遅延やエネルギー消費が大きい。
    • UAVを活用し,システムの遅延とエネルギー消費を最小化する手法が求められている。
    • 提案手法は,タスク成功率およびシステム効率において,従来のマルチエージェント強化学習ベースラインを大きく上回る。
    • UAVの3次元飛行軌跡を最適化することで,適応的なネットワークカバレッジを実現している。
    • 強化学習と大規模言語モデルを組み合わせた新しいハイブリッドリソーススケジューリングパラダイムを開発した。

    Link: https://arxiv.org/abs/2605.04436

  • 対話状態追跡のためのReActエージェントを用いたグラフ強化混合エキスパートモデル (GEM) [cs.NI, cs.SY, eess.SY, cs.CL, cs.AI]目的:マルチドメイン対話から構造化された情報を正確に抽出すること
    • 対話システム構築において,対話状態の正確な把握は不可欠であり,ユーザの意図を理解し,適切な応答を生成するために重要である。
    • 大規模言語モデルは汎用的な能力を持つものの,マルチドメイン対話における構造化情報の抽出は課題である。
    • グラフ構造とReActエージェントによる推論を組み合わせることで,対話状態追跡の精度向上を目指す。
    • GEMは,MultiWOZ 2.2において65.19%のJoint Goal Accuracyを達成し,既存の最先端手法やエンドツーエンドのLLMアプローチを大幅に上回った。
    • グラフニューラルネットワークとファインチューニングされたT5-Smallの動的なルーティングにより,対話構造とターンレベルの依存関係を効果的に捉えた。
    • 複雑な値生成タスクにおいて,ReActエージェントが構造化された推論を行うことで,精度向上に貢献した。

    Link: https://arxiv.org/abs/2605.04449

  • ワンプール・ツーキャッシュ:生成レコメンダー推論の高速化のための適応的HBM分割 [cs.DC, cs.IR, cs.LG]目的:生成レコメンダー推論におけるHBM分割の最適化
    • レコメンダーシステムは現代のインターネットサービスにおいて不可欠であり,高速な推論が重要である。
    • HBM容量は限られており,埋め込みキャッシュとKVキャッシュの間の効率的な資源配分が課題である。
    • ワークロードの変化に応じてHBM分割を動的に調整し,遅延を最小限に抑えることを目指す。
    • HELMは,HBM割当とリクエストルーティングを同時に管理することで,P99遅延を24-38%削減することに成功した。
    • 適応的メモリ割当は,オフライン最適解に近い比率を維持しつつ,32µsの決定遅延を実現した。
    • Steady,Trend,Burstワークロードにおいて,93.5-99.6%のSLO充足率を達成し,既存の最先端手法を凌駕した。

    Link: https://arxiv.org/abs/2605.04450

  • StableI2I:画像変換における意図しない変化の検出 [cs.CV, cs.AI]目的:画像変換における内容の忠実性と変換前後の整合性の評価
    • 画像変換技術は,多様な応用分野で不可欠であり,その性能評価が重要である。
    • 既存の評価指標は指示の遵守や美的品質に偏っており,意味的対応や空間構造の維持が評価されていない。
    • 入力画像の内容と構造が変換後も維持されているかを定量的に評価する手法を確立すること。
    • StableI2Iは,参照画像なしで,幅広い画像変換タスクにおける内容の忠実性と一貫性を評価する統一的なフレームワークである。
    • StableI2I-Benchは,大規模言語モデルによる忠実性と一貫性の評価精度を体系的に評価するためのベンチマークである。
    • StableI2Iの評価は,人間の主観的判断と強い相関があり,実用的な評価ツールとして機能する。

    Link: https://arxiv.org/abs/2605.04453

  • モデルレベル評価のみでは,実用的なアラインメントは推測できない [cs.AI, cs.HC, cs.LG, cs.SE]目的:機械学習におけるアラインメント評価の妥当性
    • AIの安全性と信頼性を確保するため,アラインメントの評価は不可欠である。
    • 既存のアラインメント評価はモデルレベルに偏っており,実世界での挙動との乖離が懸念される。
    • 評価レベル(モデル,応答,インタラクション,デプロイメント)を明確化し,実用的なアラインメント評価を確立する。
    • 既存の16個のアラインメントベンチマークを分析した結果,ユーザー検証のサポートが皆無であり,プロセス制御可能性もほとんど存在しないことが判明した。
    • 3つの最先端モデルと4つのスキャフォールドを用いたストレステストにより,スキャフォールドの有効性がモデルに依存することが示された。
    • アラインメント評価においては,単一のスコアではなくプロファイル,比較可能なインタラクショナル評価のための固定スキャフォールドプロトコルが必要である。

    Link: https://arxiv.org/abs/2605.04454

  • 調査データに基づくコミュニティ介入のための潜在的調整による疎な反事実的要因の発見 [cs.CL, cs.IR, cs.LG]目的:調査データからの疎な反事実的コミュニティ介入
    • 交通調査は旅行の嗜好や障壁を理解する上で重要だが,政策介入に繋がる分析は少ない。
    • 既存手法では,政策として実行可能な介入戦略の特定が困難である。
    • 調査変数の調整を通じて,特定のグループを目標とするグループへ移行させる介入策を提案する。
    • 提案手法は,実世界の交通調査データにおいて,簡潔で解釈可能な政策介入策を生成することを示した。
    • 生成された介入策は,集団レベルでの転換率を改善し,介入策の疎性を維持した。
    • 潜在表現と元の変数の間の安定したマッピングにより,介入の比較可能性を確保した。

    Link: https://arxiv.org/abs/2605.04460

  • 明示的な分布制御によるLLMの教師ありファインチューニングの安定化 [cs.PF, cs.DC, cs.LG, cs.AI, cs.CL]目的:LLMの教師ありファインチューニングにおける安定化手法
    • LLMは汎用的な能力を持つが,特定のタスクへの適応時に能力劣化が生じやすい。
    • ファインチューニングによって,LLMの出力分布が大きく変化し,既存能力が失われる。
    • 分布の変化を抑制し,既存能力を維持しつつ性能向上を図る手法を開発する。
    • Anchored Learningは,動的に変化するアンカーを用いて分布更新を制御するシンプルなフレームワークである。
    • アンカーは,現在のモデルと固定された参照モデルの間を補間し,分布空間における局所的な信頼領域更新を実現する。
    • iGSM,MedCalc,IFEvalにおける実験で,Anchored Learningは性能向上と安定性の両立に優れていることが示された。

    Link: https://arxiv.org/abs/2605.04468

  • CRAFT:運転ポリシーのための反実仮想からインタラクティブな強化学習による微調整 [cs.LG, cs.RO]目的:運転ポリシーの微調整手法
    • 自動運転技術は,安全性向上や効率化に不可欠であり,社会実装が期待されている。
    • 実環境での動作において,ポリシーの分布シフトが問題となり,性能低下を引き起こす。
    • 分布シフトに対するロバスト性を高め,実環境での性能を向上させる微調整手法を開発する。
    • CRAFTは,反実仮想と強化学習を組み合わせることで,効率的な微調整を実現した。
    • 密な反実仮想的利点と,相互作用による残差補正を組み合わせることで,安定した適応が可能になった。
    • Bench2Driveにおける実験により,CRAFTが既存手法を上回る性能を示すことが確認された。

    Link: https://arxiv.org/abs/2605.04470

  • ウィル夫・ツァイベルガー誘導とLLMによる組合せ恒等式の自動形式証明 [cs.LG]目的:組合せ恒等式の自動形式証明
    • 組合せ論は数学の基礎であり,様々な分野に応用される重要な研究領域である。
    • LLMによる組合せ恒等式の形式証明は,長期的計画が必要で探索空間が指数関数的に増加する難しさがある。
    • ウィル夫・ツァイベルガー法による証明計画をLLMに利用させ,証明の成功率向上を目指す。
    • 提案手法WZ-LLMは,LCI-Testにおいて34%の証明成功率を達成し,DeepSeek-V3やGoedel-Prover-V2等の強力なベースラインを上回った。
    • WZ-LLMは,CombiBenchおよびPutnamBench-Combにおいても一貫した改善を示した。
    • 本フレームワークは,WZの範囲外の恒等式に対する直接証明能力の向上と,WZスケッチによる誘導下での専門化された証明器の成功率向上という二つの強みを提供する。

    Link: https://arxiv.org/abs/2605.04472

  • 形状最適化と逆問題のための形状認識ニューラルオプティマイザー [cs.LG]目的:形状最適化と逆問題のためのフレームワーク
    • 偏微分方程式に基づいたシミュレーションにおいて,形状は重要な役割を果たすため,最適化と逆問題の重要性が高まっている。
    • 従来のパイプラインは計算コストが高く,専門知識が必要である。また,ニューラルサロゲートでは,形状への勾配が取得できない場合がある。
    • 形状の表現,場レベルの予測,自動最適化を統合し,安定した形状更新を実現すること。
    • 提案手法Geometry-Aware Neural Optimizer (GANO)は,形状の自己符号化とノイズ除去メカニズムにより,潜在空間における安定した更新を可能にする。
    • GANOは,形状注入サロゲートを用いて,形状更新のための信頼性の高い勾配経路を提供する。
    • 2Dヘルムホルツ,2D翼型,3D車両の3つのベンチマークテストで,最先端の精度と安定した制御可能な更新が確認された。

    Link: https://arxiv.org/abs/2605.04474

  • 人間からのフィードバックを用いたオンライン強化学習におけるデータ依存型探索 [cs.LG]目的:人間のフィードバックを用いたオンライン強化学習における探索戦略
    • 大規模言語モデルの性能向上には,人間とのインタラクションを通じた学習が不可欠である。
    • 限られたフィードバックデータから信頼性の高い探索を行うことが困難である。
    • 潜在的に価値の高い領域への探索を促し,サンプル効率を向上させることを目指す。
    • 提案手法DEPOは,過去のデータに基づいて不確実性の高い領域にボーナスを与え,探索を促進する。
    • 理論的には,学習タスクの難易度に適応するデータ依存型の後悔限界が示されている。
    • 実験結果から,DEPOは既存手法と比較してサンプル効率が向上することが確認された。

    Link: https://arxiv.org/abs/2605.04477

  • 大規模モデル学習における低速・ハング異常の精密診断システムCCL-D [cs.DC, cs.AI]目的:大規模モデル学習における低速・ハング異常の検出と特定
    • モデル規模の拡大に伴い,通信ライブラリの異常検出が重要になっている。
    • 従来の診断手法は精度と効率が悪く,原因究明に時間がかかる。
    • 低速・ハング異常の迅速かつ正確な原因特定を目指す。
    • CCL-Dは,リアルタイムプローブとインテリジェントな分析器を統合している。
    • 軽量な分散トレースフレームワークを用いて,クロスレイヤー異常メトリクスを測定する。
    • 4000 GPUクラスタで1年間運用した結果,既知の異常をほぼ完全に検出し,6分以内に問題のあるGPUを特定した。

    Link: https://arxiv.org/abs/2605.04478

  • LLMの道徳的判断における思考モードの変化:5つの最先端モデルを用いた即時応答と熟考の比較 [cs.AI]目的:LLMの道徳的判断に対する思考モードの影響
    • LLMは倫理的な意思決定を伴う様々な分野で利用が進んでおり,その判断の妥当性確認が重要である。
    • LLMの道徳的判断は,モデルのアーキテクチャや学習データに依存し,一貫性や透明性に課題が残る。
    • 異なる思考モードがLLMの道徳的判断に及ぼす影響を定量的に評価し,判断の一貫性向上を目指す。
    • 5つの最先端LLMにおいて,即時応答と熟考モード間での道徳的判断の一致率は統計的に有意な差は見られなかった。
    • しかし,モデル間で意見が分かれる21のシナリオにおいて,熟考モードは判断の一致率を高める傾向があった。
    • 熟考モードは,モデル間の判断のばらつきを減らすとともに,倫理的枠組みの自己認識の変化をもたらすことが示唆された。

    Link: https://arxiv.org/abs/2605.04488

  • 低リソース言語における固有表現認識のためのハイブリッド手法 [cs.CE, cs.AI, cs.CL]目的:低リソース言語,特にベトナム語の固有表現認識の性能向上
    • 自然言語処理において,固有表現認識は情報抽出や対話型AI等の多様な応用分野で不可欠な技術である。
    • 低リソース言語の固有表現認識では,アノテーション付きデータの不足やラベルセットの異質性が課題となる。
    • ルールベース処理と深層学習モデルを統合し,データ拡張戦略を用いることで,ベトナム語固有表現認識の課題解決を目指す。
    • 提案手法は,ロジスティクス,野生生物,医療を含む5つの特定ドメインのデータセットにおいて,RoBERTaベースのベースラインと比較して大幅な改善を示した。
    • 顧客サービスにおいてはF1スコアが83%から90%に,GAMにおいては73%から84%に,AI Fluentにおいては80%から83%に向上した。
    • PhoNER_Covid19では91%から94%,希少野生生物においては36%から60%という結果が得られ,ベトナム語の言語的複雑さと専門ドメインにおける文脈的ニュアンスを効果的に捉えていることが確認された。

    Link: https://arxiv.org/abs/2605.04489

  • ナッシュ均衡における拡散モデル:汎用的な嗜好性調整に向けて [cs.LG, cs.CV]目的:拡散モデルの汎用的な嗜好性調整
    • 画像生成AIの性能向上には,人間の嗜好に沿った調整が不可欠である。
    • 既存手法はBradley-Terryモデルに依存し,複雑な人間の嗜好を捉えきれない場合がある。
    • ゲーム理論的視点を取り入れ,自己対戦による改善を目指す。
    • 提案手法Diff.-NPOは,既存の嗜好性ベースの拡散モデル調整手法を様々な指標において上回る。
    • Diff.-NPOは,自己対戦を通じて,より良い嗜好性調整を実現する。
    • 拡散モデルの調整を,ゲーム理論的な枠組みで捉えることで,より汎用的なアプローチを可能にする。

    Link: https://arxiv.org/abs/2605.04494

  • クエリ誘導による確信度を考慮した再ランク付け:検索拡張生成のための手法 [cs.CL, cs.AI]目的:検索拡張生成における文書ランキングの改善
    • 検索拡張生成は,大規模言語モデルの知識を補完し,より正確な応答を生成するために不可欠である。
    • 従来の再ランク付け手法はクエリと文書の関連性に焦点を当てており,生成の質を直接最適化していない。
    • 生成モデルの確信度変化を指標として,文書の有用性を評価し,再ランク付けを行うことで改善を図る。
    • CARは,BEIRの4つのデータセットにおいて,スパース検索器と密検索器,LLMベースと教師あり再ランク付け器の両方でNDCG@5を改善した。
    • 特にContriever検索下では,YesNo再ランク付け器の性能を平均25.4%向上させ,ランキングの改善とダウンストリーム生成F1の改善との間に強い相関が認められた(Spearman rho = 0.964)。
    • CARは,クエリのみの条件とクエリ-文書条件下の複数回答の意味的一貫性から確信度を推定し,確信度を大きく向上させる文書を優先する。

    Link: https://arxiv.org/abs/2605.04495

  • 四分木SHAP:深さ非依存型TreeSHAPとShapley相互作用 [cs.CL, cs.LG]目的:木構造アンサンブルの予測説明におけるShapley値の計算効率化と高次相互作用のサポート
    • 機械学習モデルの説明可能性は,モデルの信頼性向上や意思決定支援に不可欠である。
    • 既存のShapley値計算手法は,計算時間,数値安定性,高次相互作用への対応に課題があった。
    • 本研究は,これらの課題を解決し,より高速で安定したShapley値計算手法を開発する。
    • Quadrature-TreeSHAPは,数値的に安定しており,任意の高次Shapley相互作用値を自然に拡張できる。
    • CPUおよびGPU実装をサポートし,XGBoostに統合されている。
    • 実験結果から,TreeSHAPと比較して,CPUで1.06~10.59倍,GPUで1.84~6.95倍高速にShapley値を計算できた。

    Link: https://arxiv.org/abs/2605.04497

  • Pen-Strategist: ペネトレーションテスト戦略の策定と分析のための推論フレームワーク [cs.CR, cs.AI]目的:ペネトレーションテスト戦略の策定と分析
    • サイバー脅威の増加に伴い,堅牢なセキュリティシステムの重要性が高まっている。
    • セキュリティ専門家の不足が課題であり,自動化による対策が求められている。
    • 既存の自動化フレームワークの戦略策定能力の限界を克服し,性能向上を目指す。
    • Pen-Strategistは,論理的推論に基づくドメイン固有の推論モデルと,戦略を行動可能なステップに変換する分類器で構成される。
    • データセットを用いた評価により,戦略策定性能がベースラインと比較して87%向上することが示された。
    • 脆弱なマシンに対する評価では,サブタスク完了率が47.5%向上し,GPT-5を上回る性能を示した。

    Link: https://arxiv.org/abs/2605.04499

  • 未学習低リソース言語への言語汎化における言語間の相違性の活用 [cs.CL, cs.AI]目的:未学習の低リソース言語品種における言語汎化
    • 多言語言語モデルの発展において,特定の集団で使用される低リソース言語品種は軽視されがちである。
    • 既存の研究は,近縁品種の整合性向上に焦点を当て,品種間の差異を最小化しようとする傾向がある。
    • 本研究は,低リソース言語品種において,言語間の相違性が汎化に重要な手がかりとなる点を解決する。
    • 提案手法は,低リソース言語品種に特化したソース選択法TOPPingと,品種固有・不変属性を学習する軽量アーキテクチャVACAI-Bowlで構成される。
    • VACAI-BowlとTOPPingの組み合わせにより,依存構造解析タスクにおいて平均54.62%の性能向上が確認された。
    • これは,他のダウンストリームタスクにおける性能の指標となり得る。

    Link: https://arxiv.org/abs/2605.04500

  • 事例に基づく物体検出 [cs.CV, cs.AI]目的:物体検出における誤検出・未検出の再発防止
    • 物体検出技術は近年目覚ましい進歩を遂げており,実用的な応用範囲が拡大している。
    • 既存手法では,誤検出や未検出が依然として発生し,特に同じ対象の誤り再発は許容されない。
    • 過去の誤検出・未検出事例を活用し,モデルの再学習コストを抑えつつ,検出精度向上を目指す。
    • 提案手法EBODは,プロンプトベース検出器SAM3と特徴量マッチングモジュールを組み合わせる。
    • EBODは,過去の誤り事例を活用することで,誤検出・未検出の再発を効果的に抑制する。
    • 追加のモデル再学習は不要であり,人的・計算資源のコスト削減に貢献する。

    Link: https://arxiv.org/abs/2605.04501

  • 強解性非線形常微分方程式に対する適応スペクトルPINNにおける勾配スケーリング効果 [cs.LG]目的:強解性非線形常微分方程式に対する適応スペクトルPINNにおける初期条件埋め込みの最適化への影響の解明
    • 物理現象をデータ駆動的に学習するPINNは,科学技術計算の分野で注目されている。
    • PINNは,強解性や振動性のあるシステムにおいて,最適化の条件が悪化しやすいという課題がある。
    • 初期条件ゲート関数の選択が勾配スケーリングに与える影響を明らかにすることで,最適化の安定性を向上させる。
    • 非線形強解性スプリング・ペンデュラム常微分方程式を用いて,指数関数的ゲートと線形ゲートの性能を比較した。
    • 適応PINNでは,剛性が中程度(k=20)の場合,指数関数的ゲートが低い誤差を示す一方,剛性が高い場合(k=60)は線形ゲートが好ましいことが示された。
    • 初期条件埋め込みはPINNの設計において中立ではなく,勾配スケーリングを介して最適化条件に影響を与えることが確認された。

    Link: https://arxiv.org/abs/2605.04502

  • DiffCap-Bench:画像差分キャプションのための包括的かつ挑戦的な堅牢なベンチマーク [cs.CV, cs.AI]目的:画像間の差異を正確に特定する自然言語記述の生成
    • 画像認識,自然言語処理の融合領域であり,AIの視覚的理解能力向上に不可欠である。
    • 既存のベンチマークは多様性と構成の複雑さに欠け,評価指標も不十分である。
    • より包括的かつ堅牢な評価を可能にするベンチマークと評価プロトコルの開発。
    • DiffCap-Benchは,10種類の差異カテゴリを網羅し,多様性と複雑性を確保したベンチマークである。
    • LLMを評価者として活用する評価プロトコルにより,モデルの視覚変化の捉え方と記述能力を評価する。
    • Proprietaryモデルとオープンソースモデルの性能差が明らかになり,推論能力の重要性が示された。

    Link: https://arxiv.org/abs/2605.04503

  • SpecPL:プロンプト学習におけるスペクトル粒度の分離 [cs.CV, cs.AI, cs.CL, cs.LG]目的:プロンプト学習のためのスペクトル粒度の分離
    • マルチモーダル大規模言語モデルの性能向上は,画像とテキストの融合に不可欠である。
    • 既存手法では,視覚エンコーダーが固定されており,画像の特徴量の粒度を十分に活用できていない。
    • スペクトル粒度の分離により,視覚情報の詳細な識別能力を向上させ,汎化性能を高める。
    • 提案手法SpecPLは,視覚信号を低周波と高周波に分解し,テキスト表現を低周波の普遍的な不変量に固定することで,過学習を抑制する。
    • 高周波信号を置換するカウンターファクチュアル粒度学習により,モデルは視覚的な粒度と意味的不変性の区別を明示的に学習する。
    • 11のベンチマークにおいて,最先端の性能を達成し,調和平均精度81.51%という新たな上限を確立した。

    Link: https://arxiv.org/abs/2605.04504

  • Ilov3Splat:ガウススプラッティングにおけるインスタンスレベルのオープンボキャブラリ3Dシーン理解 [cs.CV, cs.AI]目的:オープンボキャブラリ3Dシーン理解のためのフレームワーク
    • 3Dシーン理解はロボティクスや拡張現実など,多くの分野で不可欠な技術である。
    • 既存手法は2Dレンダリングに依存し,視点間の整合性やインスタンスレベルの推論が課題であった。
    • 自然言語による記述に基づいた3Dシーンのオブジェクト識別・セグメンテーションを可能にすること。
    • Ilov3Splatは,ガウススプラッティング上でシーンの幾何学とセマンティック表現を同時に最適化する。
    • マルチ解像度ハッシュ埋め込みを活用し,3D空間における言語と特徴量の密な対応付けを実現した。
    • 標準ベンチマークにおいて,既存のオープンボキャブラリ3D-GS手法をオブジェクト選択とインスタンスセグメンテーションの両方で上回る性能を示した。

    Link: https://arxiv.org/abs/2605.04506

  • DALight-3D:マルチモーダルMRIからの脳腫瘍セグメンテーションのための軽量3D U-Net [cs.CV, cs.LG, cs.NE]目的:マルチモーダルMRIからの脳腫瘍セグメンテーション手法
    • 脳腫瘍の早期発見と正確な診断は,治療成績向上に不可欠である。
    • 従来の3Dモデルは計算コストが高く,実用上の制約となる場合がある。
    • 計算コストを抑えつつ,セグメンテーション精度を維持することを目的とする。
    • DALight-3Dは,標準的な3D U-Netと比較して,パラメータ数を削減しつつ,同程度のDice係数(0.727 vs 0.710)を達成した。
    • 深さ方向分離畳み込み,識別子条件正規化,クロススライス注意機構,適応的スキップ融合が,性能向上に貢献している。
    • 各コンポーネントの除去実験により,提案手法の有効性が確認された。

    Link: https://arxiv.org/abs/2605.04518

  • FL-Sailer:適応的サンプリングによるスケーラブルなシングルセルエピジェネティックデータ分析のための効率的かつプライバシー保護された連合学習 [cs.LG, stat.ML]目的:シングルセルATAC-seqデータの連合学習のためのフレームワーク
    • シングルセルATAC-seqはクロマチンアクセス可能性を高分解能でマッピングするが,データ共有には課題が多い。
    • プライバシー規制やデータサイズ制限が,複数機関間のデータ共有を妨げている。
    • 高次元性,スパース性,機関間異質性といった課題を克服し,連合学習を可能とする。
    • FL-Sailerは,バイオロジカルに解釈可能な特徴を選択しつつ,次元削減を実現する適応的レバレージスコアサンプリングを統合している。
    • FL-Sailerは,変異情報最小化を通じて生物学的シグナルと技術的交絡因子を分離する不変VAEアーキテクチャを採用している。
    • 実験結果から,FL-Sailerは中央集権型手法を上回り,技術的ノイズを抑制する暗黙的な正則化効果も示された。

    Link: https://arxiv.org/abs/2605.04519

  • DAOを活用した分散型物理AI:人間と機械の協調のための新たなパラダイム [cs.MA, cs.AI, cs.CY, econ.GN, q-fin.EC]目的:人間と自律機械の協調および物理・デジタルシステムの運用・ガバナンスのための民主的なアーキテクチャ
    • 物理世界とデジタル世界が融合し,AIの活用が不可欠となる中で,分散型のシステム構築が重要視されている。
    • 既存のシステムは,中央集権的で透明性に欠け,コミュニティの参加が制限されているという課題がある。
    • DAOを活用することで,透明性,自律性,そしてコミュニティによるガバナンスを実現し,新たな協調の形を模索する。
    • DAO,ブロックチェーン,暗号経済学の基盤を統合し,分散型物理インフラネットワーク(DePIN)を構築する。
    • 機械の実行と人間の監督を組み合わせるワークフローを規定し,技術社会経済システムの自己組織化を強化する。
    • セキュリティ,集中化,インセンティブの失敗などのリスクを分析し,価値に基づいた設計と適応的なガバナンスを提唱する。

    Link: https://arxiv.org/abs/2605.04522

  • RaguTeam,SemEval-2026タスク8: 忠実な多岐応答生成のためのLLMアンサンブルにおけるMenoと仲間たち [cs.CL, cs.AI, cs.LG]目的:忠実な多岐応答生成のためのLLMアンサンブルシステム
    • 対話システムの品質向上は,人間との自然なコミュニケーションを実現する上で重要である。
    • 既存の応答生成モデルは,文脈に即さない,または事実に基づかない応答を生成する可能性がある。
    • 複数のLLMを組み合わせることで,応答の品質と忠実性を向上させることを目指す。
    • 本研究では,7つのLLMを組み合わせたアンサンブルシステムを開発し,SemEval-2026タスク8において1位を獲得した。
    • 提案手法は,条件付き調和平均0.7827を達成し,最強ベースライン(gpt-oss-120b, 0.6390)を上回った。
    • モデルの種類,規模,プロンプティング戦略の多様性が重要であり,アンサンブルが単一モデルよりも常に優れた性能を示した。

    Link: https://arxiv.org/abs/2605.04523

  • YOTOnet:ドメイン条件付きエキスパート混合によるゼロショットクロスドメイン故障診断 [cs.LG, cs.MA]目的:機械設備のクロスドメイン故障診断における汎化性能向上
    • 産業における機械設備の重要性が高く,安定稼働には故障診断が不可欠である。
    • 深層学習モデルはドメインシフトの影響を受けやすく,異なる環境での汎化性能が課題である。
    • 一度学習すれば複数のドメインで故障診断が可能となるモデルの開発を目指す。
    • YOTOnetは,物理情報を考慮した特徴抽出とドメイン条件付きの疎なエキスパート混合により,ドメインに依存しない表現を獲得する。
    • 5つのベアリングデータセットを用いた実験で,既存手法と比較して優位性が示された。
    • 学習データセット数が増加するにつれて平均F1スコアが向上し,汎化性能の向上が確認された。

    Link: https://arxiv.org/abs/2605.04528

  • SADE:LLMベースのネットワークトラブルシューティングにおける症状を考慮した診断エスカレーション [cs.NI, cs.AI]目的:LLMベースのネットワークトラブルシューティングにおける根本原因の特定
    • ネットワーク運用において,迅速かつ正確な障害切り分けは,サービス品質維持に不可欠である。
    • 既存のLLMエージェントは,体系的な診断手法を欠き,不確実な推論に陥りやすい。
    • シスコの古典的なトラブルシューティング手法を明示的なポリシーとしてLLMに組み込むことで,診断精度を向上させる。
    • SADEは,NIKAベンチマークの523件のインシデントにおいて,ReAct+GPT-5ベースラインと比較して,根本原因のF1スコアを37ポイント改善した。
    • SADEの診断ポリシーが,その改善の22ポイントを占め,モデルのアップグレードによる影響ではないことが示された。
    • SADEは,証拠収集と仮説検証を分離する段階的な診断ワークフローと,豊富なトラブルシューティングスキルを組み合わせる。

    Link: https://arxiv.org/abs/2605.04530

  • ソフトウェア工学における説明責任あるエージェント:利用規約の分析と研究ロードマップ [cs.SE, cs.AI]目的:AIを活用した開発ツール利用における説明責任の所在
    • ソフトウェア開発におけるAIの利用拡大に伴い,その安全性と信頼性の確保が重要となっている。
    • AIエージェントが生成・変更・提案したコードに関する責任の所在が不明確である。
    • AIエージェントによるソフトウェア開発における説明責任の枠組みを確立すること。
    • 主要なAIコーディングアシスタントの利用規約を比較分析した結果,責任の多くがユーザーに転嫁されていることが判明した。
    • プロバイダー間では,損害賠償,データ利用,許容可能な利用に関する規定に大きなばらつきが見られた。
    • 現在のポリシーフレームワークが,エージェントを介したソフトウェア開発に適応できていないため,説明責任に関する研究ロードマップを提示した。

    Link: https://arxiv.org/abs/2605.04532

  • ビデオから偏微分方程式へ:データ駆動型非線形染料プルームダイナミクスの発見 [cs.HC, cs.LG, cs.NA, math.NA, physics.comp-ph, stat.AP, stat.ML]目的:非線形染料プルームダイナミクスの発見
    • 流体現象の理解と予測には,正確なモデルが不可欠である。
    • ビデオデータからの連続体モデルの推論は,画像強度と物理状態の違い,ノイズによる数値微分不安定性から困難である。
    • ビデオデータから直接連続体モデルを発見し,精度と解釈性を向上させる。
    • ビデオデータを正規化されたスカラー場に変換し,漂流と拡散を分離する手法を開発した。
    • コンパクトな勾配ベースライブラリを用いた弱形式のスパース回帰により,有効な輸送則を特定した。
    • 発見,較正,不確実性の評価を段階的に行うことで,コンパクトで予測可能な連続体モデルが得られた。

    Link: https://arxiv.org/abs/2605.04535