arXiv雑要約

AI - 2026/06/17 公開

ReRAM特性を考慮したモデルファインチューニング：I-V非線形性と保持エラーへの対処 [cs.IR, cs.CY, cs.HC, cs.LG, cs.SY, eess.SY]目的：ReRAMの非理想性を考慮したDNN展開のロバスト性向上
- 従来の計算アーキテクチャの限界を打破するため，高密度かつ省エネルギーなIn-Memory Computingが注目されている。
- ReRAMは非理想的な特性（I-V非線形性，保持エラー等）が実用化の障害となっている。
- 既存の学習方法では，大規模モデルをReRAMに合わせて再学習する必要があり，計算コストが高いという課題を解決する。
- 提案手法は，I-V非線形性に対して範囲縮小されたsinh変換を適用し，保持エラーを正則化損失に組み込むことで，ロバストなDNN展開を可能にする。
- 画像分類や質問応答タスクにおける実験により，ResNet18やDeiT-Tinyといった大規模モデルでベースモデルと同等の精度を達成できることが示された。
- ImageNet (MobileNetV3) データセットでは2%未満の精度低下，SQuAD v2ではF1スコア1ポイントの低下で済むことが確認された。
Link: https://arxiv.org/abs/2606.17471
AIPatient Arena：電子診療録に基づいたエンドツーエンドの臨床相談ワークフローにおける大規模言語モデルの評価 [cs.CL, cs.AI]目的：臨床能力の8つの側面における大規模言語モデルの臨床有用性の評価
- 医療現場でのLLM活用が期待される中，その性能評価は医療の質に直結する。
- 既存の評価は静的，単一ターン，あるいは限定的なアウトカムに偏り，実際の臨床現場の複雑さを反映できていない。
- 電子診療録を活用し，実際の臨床相談の流れを再現する評価フレームワークを構築し，LLMの弱点を明らかにすること。
- LLMは，質問スキル，倫理的行動，臨床説明の明確さにおいて高いパフォーマンスを示した。
- 情報統合，薬剤安全性，判断の妥当性においては中程度のパフォーマンスであり，曖昧な患者の応答への対応，情報網羅性，診断精度には課題が残る。
- プロセスベースの評価では，反復的な質問や病歴の省略，不確実性への不適切な対応など，対話の失敗が繰り返し観察された。
Link: https://arxiv.org/abs/2606.17474
マルチアダプターPPO：LIBS定量分析のためのクロスアテンション強化波長選択フレームワーク [cs.LG]目的：LIBS定量分析における波長選択
- LIBSは元素組成分析に有用だが，高次元データ処理が課題である。
- 適切な波長選択が，分析精度と効率のトレードオフを生む。
- クロスアテンションとアダプターによる効率的な波長選択を目指す。
- 提案手法は，鋼材および石炭データセットにおいて，従来のPSOを平均28.4％上回る総合スコアを達成した。
- 予測精度も平均45.2％向上し，精度と特徴効率のバランスに優れる。
- LIBS定量分析において，解釈性と計算効率を維持しつつ，最先端の結果を達成した。
Link: https://arxiv.org/abs/2606.17476
強化学習最適化器を用いた分布外検出の理論的根拠 [cs.CV, cs.LG]目的：動的なオープンワールド環境における分布外検出の理論的基盤
- 現実世界のデータは常に変化するため，分布外検出はモデルの信頼性確保に不可欠である。
- 既存手法は現状の最適化に偏り，将来的な環境変化への対応が不十分である。
- 将来的な分布外検出性能を向上させるための理論的枠組みを構築すること。
- 強化学習によって更新を導くことで，分布外検出における偽陽性率を時間経過とともに低減できることを理論的に示した。
- 標準的な勾配降下法に強化学習による補正項を加えた新たな最適化器が，汎化性能と分布外拒否性能の両面で改善することを示した。
- モデル変化と環境変化の誤差分解を行い，勾配降下法と強化学習最適化器の汎化誤差を比較するための理論的枠組みを開発した。
Link: https://arxiv.org/abs/2606.17477
推論LLMにおける隠れた欺瞞の解読：欺瞞監査のための活性化説明器 [cs.CL, cs.AI]目的：LLMにおける欺瞞的行動の検出と説明
- LLMの能力向上に伴い，安全性確保が重要課題となっている。
- 既存の欺瞞検出手法は，根拠が不明確で解釈性に乏しい。
- LLMの内部状態を分析し，欺瞞の根拠を明らかにすること。
- STATEWITNESSは，既存のテキストベースの監視手法を大きく上回る精度で欺瞞を検出した。
- 活性化説明器を用いることで，欺瞞の兆候を示すLLM内部の具体的な箇所を特定することが可能になった。
- この技術は，LLMの解釈性と安全性の向上に貢献する可能性を秘めている。
Link: https://arxiv.org/abs/2606.17478
制約付きバンディット法による時間変動需要下でのオンラインLLM選択 [cs.LG, cs.AI]目的：多様なタスクに対する適切なLLMのオンライン選択
- LLMは様々なタスクで利用され，サービス品質とリソース効率が重要である。
- 静的な選択戦略では，モデルの異質性や需要変動に対応できない。
- リソース制約下で，報酬最大化と制約充足を両立するLLM選択手法を確立する。
- 提案手法は，信頼区間推定と需要予測を活用し，報酬最大化と長期的な制約充足を両立する。
- 理論的保証により，完全情報を持つオフラインベンチマークと比較して，後悔と制約違反がサブ線形に収束することが示された。
- 合成ワークロード実験により，動的でリソース制約のある環境における提案手法の有効性と堅牢性が実証された。
Link: https://arxiv.org/abs/2606.17489
再構成可能コンピューティングの課題：Versal AI Engineにおけるジェットタグ付けのためのTransformer [cs.LG, cs.AR]目的：ジェットタグ付けのためのTransformerのVersal AI Engineへの実装
- 高エネルギー物理実験において，リアルタイムでのイベント選別は重要であり，高速な処理が求められる。
- Transformerモデルは計算コストが高く，リソース制約のあるトリガーシステムへの実装が困難である。
- TransformerモデルをVersal AI Engine上で効率的に実行可能な形で実装し，低遅延化を目指す。
- 量子化された整数演算のみのTransformerをVersal AI Engineに実装し，密行列とマルチヘッドアテンション層をAIEタイルにマッピングした。
- Transformer層を構成可能なAIEのビルディングブロックとして表現する再利用可能なソフトウェアフレームワークを開発した。
- Pythonによる高レベルなモデル記述から，対応するVitisグラフコードを自動生成する仕組みを提供した。
Link: https://arxiv.org/abs/2606.17500
教育におけるLLM判定：カリキュラムに基づく採点パイプライン [cs.CL, cs.AI, cs.SE]目的：カリキュラムに基づいた採点パイプラインの構築
- 教育評価におけるAI活用は，学習の質向上や効率化に貢献しうる重要な課題である。
- LLMを試験採点に利用する場合，公平性や透明性の確保が課題となる。
- 公式カリキュラムと採点基準に沿った，信頼性の高い自動採点システムの開発。
- 本パイプラインは，質問の関連トピック，サブトピック，認知レベルを特定し，LLMによる客観的な判断を支援する。
- 生成された採点基準は，公式カリキュラムに根ざしており，透明性と一貫性を高める。
- 予備評価の結果，LLMによる採点結果は人間の採点者と同等であり，根拠もより明確であることが示された。
Link: https://arxiv.org/abs/2606.17507
次のステップが必ずしも1ステップとは限らない：並行Goプログラムの分布を考慮した実行モデリング [cs.LG, cs.DC, cs.PL, cs.SE]目的：並行プログラムの次のステップの予測モデル
- 並行プログラムのデバッグは困難であり，効率的なツールが求められている。
- スケジューラ非決定性により，同じ入力でも次のステップが複数存在し，予測が難しい。
- スケジューラの非決定性を学習信号として活用し，予測精度向上を目指す。
- 分布を考慮した学習により，798件のGoプログラムのバグ予測において36.2%の精度を達成した。
- これは，ゼロショットのGemini 3.5 Flash (34.8%) や，ファインチューニングなしのモデル (28.6%) よりも高い。
- 期待キャリブレーション誤差を0.205から0.169に低減し，モデルの信頼性を向上させた。
Link: https://arxiv.org/abs/2606.17508
MagicSim：実行可能な身体性相互作用のための統一的インフラストラクチャ [cs.RO, cs.AI, cs.CV]目的：身体性相互作用のための実行可能な環境構築と評価システムの統合
- ロボット学習において，シミュレーション環境は制御，スキル，計画を連携させる上で不可欠である。
- 既存のシステムは層が分断され，再現性や評価が困難な場合がある。
- 多様なタスクに対応可能な，統一的で再現性の高いシミュレーション環境の構築。
- MagicSimは，YAMLによる記述に基づき，多様な物理特性，レイアウト，センサーを備えた環境を構築可能である。
- 共通の実行インターフェースにより，高レベルな指示をロボットの行動に変換し，実行可能な世界を実現する。
- 言語，行動，視覚情報を統合した多Modalな軌跡を保存し，効率的な学習と評価を支援する。
Link: https://arxiv.org/abs/2606.17511
演算子学習における幾何学的考慮型事後不確実性定量化 [cs.HC, cs.LG, cs.AI]目的：演算子学習の不確実性定量化手法
- 偏微分方程式の高速な近似計算に有用なニューラル演算子だが，不確実性評価が課題である。
- 既存手法はネットワークパラメータに焦点を当て，演算子が学習する幾何学的表現を考慮していない。
- 学習済み演算子の内部表現を利用し，幾何学的な変動を考慮した不確実性定量化を実現する。
- 提案手法REFE-GPは，ニューラル演算子の残差にガウス過程を適合させることで，事後的な不確実性定量化を行う。
- REFE-GPは，演算子の内部埋め込み表現をカーネル特徴空間として利用し，幾何学的な知識を不確実性評価に組み込む。
- 5つの偏微分方程式ベンチマークで，REFE-GPは予測精度を維持しつつ，深層アンサンブルに匹敵する校正された不確実性推定を実現した。
Link: https://arxiv.org/abs/2606.17513
反復フィードバックループによるLLMコード修正の可能性の解明 [cs.SE, cs.AI]目的：LLMによる自己コード修正能力の評価
- ソフトウェア開発において，コード修正は不可欠であり，効率的な修正手法が求められている。
- 既存のLLM評価は単一試行の精度に焦点を当て，実際の開発における反復修正プロセスを考慮していない。
- LLMが実行フィードバックを通じてコードを修正する能力を評価し，改善点を見出す。
- 推論能力を持つモデルは反復を通じて一貫して性能が向上し，フィードバックの活用において推論能力を持たないモデルを大きく上回った。
- 構文エラーや実行時エラーは，論理的またはアルゴリズム的なエラーよりも修正が容易であった。
- 本研究は，LLMを活用したコード生成システムにおけるフィードバックループの理解と応用に関する洞察を提供する。
Link: https://arxiv.org/abs/2606.17514
観測データからの潜在的交絡因子の存在下での因果関係発見：FoundCause [cs.LG, cs.AI, stat.ME, stat.ML]目的：観測データからの因果グラフの発見
- 因果推論は，科学的発見や意思決定において重要な役割を果たす。
- 観測データのみでは，交絡因子の影響を除去し，真の因果構造を特定することが困難である。
- 潜在的交絡因子の影響を明示的にモデル化することで，より正確な因果関係発見を目指す。
- 本研究で提案するFoundCauseは，大規模な合成データを用いて学習を行うことで，データセットから直接因果グラフを推定する。
- FoundCauseは，既存の11種類の古典的アルゴリズムと4種類のamortizedアルゴリズムと比較して，F1スコア，AUROC，構造的ハミング距離において優れた性能を示した。
- 特に，潜在的交絡因子の明示的なモデル化により，従来のamortizedアプローチには見られなかった性能向上を実現した。
Link: https://arxiv.org/abs/2606.17516
企業向けエージェントルーティングの拡張性：劣化，診断，および回復 [cs.DC, cs.CL, cs.AI]目的：企業向けエージェントルーティングにおける拡張性に関する問題の調査
- LLMアシスタントの普及に伴い，適切なツールへのルーティングの重要性が増している。
- ツールカタログが大規模化すると，ルーティングの精度が低下する可能性がある。
- 大規模なツールカタログ下でのルーティング精度低下の原因を特定し，改善策を提案する。
- 大規模なカタログ(110エージェント，584ツール)におけるルーティングF1スコアが，モデル間で16～23パーセントポイント低下することが示された。
- 性能低下は，適切なツールの検索に失敗する「検索ギャップ」と，検索に成功しても精度が頭打ちになる「混乱ギャップ」に分解された。
- 埋め込みベースの絞り込みにより，全モデルでF1スコアが10～11パーセントポイント改善し，実際のトラフィックでも同様の効果が確認された。
Link: https://arxiv.org/abs/2606.17519
深層Transformerにおける階層的モデリングの表現力解析：有界深さ文法によるアプローチ [cs.MM, cs.CL, cs.LG]目的：深層Transformerの表現力の解析
- 深層学習は階層的な表現を通じて高度な機能を実現する。Transformerはその代表的なモデル。
- Transformerが階層構造をどのように表現するか，理論的な検証が不足している。
- 有界深さ文法を用いてTransformerの表現力を形式的に解析し，その構造的容量を評価する。
- 文法深さに応じて層の深さが線形に増加するTransformerを構築した。
- ニューロン数は派生木の形状数と生産規則数に依存して変化する。
- Transformerが抽象的な文法状態を低次元の線形分離可能な部分空間に符号化する能力が示された。
Link: https://arxiv.org/abs/2606.17522
LLMの推論における隠れ状態の洗練学習 [cs.LG]目的：LLMの推論における隠れ状態の安定性向上
- LLMは強力な推論能力を持つが，複雑な問題では不安定になりやすい
- 多段階推論において，初期の誤りが後続に伝播しやすい
- 隠れ状態を反復的に更新し，推論の安定性を高める
- ReLARは，隠れ状態を洗練する新しいフレームワークであり，推論の精度を向上させる。
- ステップごとの尤度改善に基づいて学習されるため，効率的な推論が可能である。
- 医療，数学，多段階推論などのベンチマークで，既存手法よりも優れた性能を示す。
Link: https://arxiv.org/abs/2606.17524
MGUP：確率的最適化のためのモーメンタム勾配アラインメント更新ポリシー [cs.LG]目的：大規模言語モデルの効率的な最適化
- 近年，大規模言語モデルの学習において，効率的な最適化手法の重要性が増している。
- レイヤー内選択的更新の研究はあるものの，収束性を保証するきめ細やかな制御機構が不足している。
- 本研究は，収束性を保証しつつ，きめ細やかな制御を可能にする選択的更新機構を提案する。
- 提案手法MGUPは，既存のモーメンタムベースの最適化手法に容易に組み込むことができる。
- MGUPは，AdamW，Lion，Muonなどの最適化手法と組み合わせることで，性能が向上することが実験的に示された。
- MGUP-AdamW（重み減衰なし）について，確率的最適化における理論的な収束性が証明された。
Link: https://arxiv.org/abs/2606.17526
ドメイン妥当性に基づいた科学的機械学習サロゲートのメタモルフィックテスト [cs.CE, cs.LG]目的：科学的機械学習サロゲートのテスト資産のドメイン妥当性の評価と活用
- 科学シミュレーションの高速化は重要であり，機械学習によるサロゲートモデルがその鍵となる。
- サロゲートモデルの検証にはオラクル問題があり，正確な出力が得られない場合がある。
- ドメイン妥当性に基づいたメタモルフィックテストによって，サロゲートモデルの信頼性を向上させる。
- 候補となるメタモルフィック関係の妥当性を評価するルブリックを提案し，許容誤差が数値的限界を超える場合や前提条件が満たされない場合は除外する。
- MeshGraphNetsのシリンダー流れサロゲートを用いたケーススタディで，ノード置換は機械精度レベルで成立し，ミラーリングは分布外のストレステストとして機能することが示された。
- 妥当性に基づいたメタモルフィックテストは，モデルレベルの違反とドメイン外の適用を分離し，科学的機械学習のテスト資産の監査可能性を高める。
Link: https://arxiv.org/abs/2606.17529
トポロジー正則化を用いた非負行列分解 [cs.LG, cs.CG, math.AT]目的：解釈可能な基底の学習
- データ解析において，データの構造を捉えた基底の抽出は重要である。
- 既存手法では，離散性や閾値依存性により連続最適化が困難である。
- 持続ホモロジーを用いて，安定かつ閾値に依存しない基底学習を目指す。
- 本研究では，持続ホモロジーを導入し，トポロジー正則化項をNMFの目的関数に組み込んだ。
- これにより，画像，時系列，グラフ構造など多様なデータに対し，統一的なモデルを適用可能となった。
- 空間的に一貫性のある画像成分や周期的な時系列構造，クリックス状のグラフ信号を抽出できることが示された。
Link: https://arxiv.org/abs/2606.17531
OmniDrive：LLMによるオーケストレーションを用いた多視点運転映像生成のための統一された潜在圧縮空間を持つマルチエージェントワールドモデル [cs.RO, cs.CV, cs.AI]目的：自動運転のための生成ワールドモデルにおける，異質な制御入力と後処理的なクロスビュー融合の問題解決
- 自動運転技術の発展には，現実世界の複雑さを再現する高精度なシミュレーション環境が不可欠である。
- 既存のワールドモデルは，言語，地図，軌跡などの異質な制御入力を統合できず，多視点間の一貫性を欠く。
- 言語，幾何学，ピクセルレベルでの共有のシンボリック表現を確立し，多視点映像の一貫性と実用性を向上させる。
- DRIVE-CHOREOは，LLMを活用してユーザーの意図を構造化されたWorldScriptに解析し，空間的に位置づけられたレイアウトトークンに変換する。
- 複数のカメラからの映像とトークンシーケンスを，3D VAEの畳み込み受容野内でカメラ間幾何学を強制するパーミュテーションを用いて共同圧縮する。
- nuScenesデータセットにおいて，最先端の多視点一貫性とBEV mAP（21.6）を達成し，合成データで学習した検出器は実データで+2.4 NDSの性能向上を示した。
Link: https://arxiv.org/abs/2606.17536
空間視覚言語モデルにおける二重経路推論の強化 [cs.CV, cs.AI]目的：空間的視覚言語モデルにおける二重経路推論の実現
- 空間認識はロボティクスや拡張現実など，様々な分野で重要性を増している。
- 奥行き，距離，シーンの関係性を考慮した複雑な空間推論は依然として困難である。
- 言語的推論と3D情報に基づく推論の双方を効果的に活用する手法を開発すること。
- SR-REALは，言語のみによる推論と，3D情報を検出・利用する推論という二つの経路を統合的に学習するフレームワークである。
- 強化学習により，精度とフォーマットを考慮した報酬を与えることで，両方の経路を最適化し，相互に強化する。
- SR-REALは，様々な空間ベンチマークにおいて，既存の空間視覚言語モデルを大幅に上回り，汎化性能も高い。
Link: https://arxiv.org/abs/2606.17539
オフラインにおける嗜好に基づく軌跡評価 [cs.LG, cs.AI]目的：エージェントシステムの軌跡評価における識別力の向上
- エージェントシステムの性能評価は，その発展に不可欠である。
- 従来の評価方法は，最終的な成功のみに焦点を当て，識別力に課題があった。
- 軌跡の進行状況や時間経過を考慮し，より正確な評価を実現する。
- 従来の成功に基づく評価では約75%が同率だったのに対し，本手法では約35%に同率を削減した。
- 識別力，ランキングの安定性，データ効率が向上した。
- ベンチマークの飽和は，評価指標の選択によっても説明できる可能性がある。
Link: https://arxiv.org/abs/2606.17541
深層強化学習による連続時間最適停止 [cs.CL, cs.LG, q-fin.CP, q-fin.PR]目的：連続時間最適停止問題における最適戦略の学習
- 金融工学等において，最適なタイミングで取引を停止する戦略は重要である。
- 従来の数値解法では，時間離散化の粗さが最適解の精度を損ねる問題があった。
- 深層強化学習を用いて，任意の時間分解能で最適停止戦略を学習し，その問題を解決する。
- 提案手法CARLOSは，既存のベルミュダオプション価格計算手法よりも高い価格を示し，アメリカンオプションの上限値に近づく。
- CARLOSは，非強化学習手法と比較して高い計算効率を実現する。
- CARLOSは，粗い時間グリッドから開始し，徐々に時間分解能を上げながら，深層ニューラルネットワークを訓練する。
Link: https://arxiv.org/abs/2606.17545
SEAGym：自己進化型LLMエージェントの評価環境 [cs.AI]目的：エージェントハーネスの更新評価
- LLMエージェントは進化を続ける。その性能向上には，ハーネスの改善が不可欠である。
- 既存の評価方法では，ハーネス更新の再利用性，過学習，コスト，過去の動作への影響が不明確である。
- ハーネス更新の訓練，検証，テスト，リプレイ，コストを包括的に評価する環境を提供する。
- SEAGymは，Harbor互換ベンチマークを自己進化タスクソースに変換し，多様な評価視点を提供する。
- ACE，TF-GRPO，AHEの比較から，更新頻度と保持性能，中間スナップショットの安定性，ソース多様性の影響が示された。
- 評価視点から得られる信号は相互補完的であり，ハーネスの信頼性向上に貢献する。
Link: https://arxiv.org/abs/2606.17546
逆Q学習 [cs.LG, cs.AI]目的：オフライン強化学習におけるフローベースの方策学習
- 複雑な行動のモデリングは，ロボット工学や自律システムの実現において不可欠である。
- オフライン強化学習では，既存のデータのみを利用するため，データ効率や汎化性能が課題となる。
- 既存データを用いたオフポリシー学習を可能にし，効率的な強化学習を実現すること。
- 提案手法RQLは，フローを逆向きにすることで仮想的なオンポリシー軌道を生成し，オフポリシー学習を可能にする。
- RQLは，従来のフローベースの手法と比較して，バックプロパゲーションの課題を回避し，学習された価値関数を有効活用する。
- シミュレーション実験の結果，RQLは最先端のオフライン強化学習アルゴリズムと比較して，最も優れた平均性能を示した。
Link: https://arxiv.org/abs/2606.17551
地理的転換点早期警戒のための時空間因果ネットワーク診断 [cs.LG]目的：地理的転換点早期警戒の確立
- 生態系，気候システム，氷床等の変化は深刻な影響を及ぼすため，早期警戒が重要である。
- 従来の空間指標は空間希釈，ユークリッド幾何学的仮定，相関ノイズの影響を受けやすい。
- データ駆動型の情報フローに基づき，脆弱なサブネットワークを特定し，誤報を抑制する。
- 時空間因果ネットワーク診断（ST-CND）は，空間構造を時間発展する有向因果ネットワークとして表現する。
- 合成データと海面水温，北大西洋のAMOCの観測データを用いた検証で，高い予測性能を示した。
- AMOCのタスクにおいて，AUROC 0.783，臨界サブネットワークIoU 0.378を達成し，既存手法を上回った。
Link: https://arxiv.org/abs/2606.17553
銀行向けAIセキュリティエージェント：小口・法人口座を対象とした不正検知とAML [cs.CR, cs.AI, cs.CE, cs.ET]目的：銀行における多岐にわたる不正行為とAML（アンチ・マネーロンダリング）の検知
- 金融機関は，常に高度化する不正手口から資産と顧客を守る必要があり，セキュリティ対策は不可欠である。
- 従来のルールベースのシステムでは，巧妙に隠蔽された不正行為や新しい手口への対応が困難である。
- 本研究は，高度なAI技術を用いて，より効果的かつ包括的な不正検知システムを構築することを目指す。
- 提案モデルは，取引データとセッションデータという二つの異なるストリームを統合し，不正検知精度を向上させた。
- 合成データによる実験の結果，提案モデルはルールベースやLSTM単独モデルと比較して高いF1スコアを示した。
- 顧客対応チャットボットとアナリスト支援機能も搭載し，迅速かつ正確な対応を実現した。
Link: https://arxiv.org/abs/2606.17555
多視点衛星画像における基盤モデル特徴の幾何学的整合性プロトコル [cs.CV, cs.AI]目的：衛星マルチビュー再構成における基盤モデル特徴の評価プロトコル
- リモートセンシング分野では，多様なセンサーや複雑な画像取得条件に対応した信頼性のあるベンチマークが不可欠である。
- 従来の2次元グローバルマッチングに基づく評価は，衛星画像の幾何学的な歪みを考慮せず，誤解を招く可能性がある。
- Rational Function Model (RFM)に適合した幾何学的に整合性のある評価プロトコルを提案し，評価の信頼性を高める。
- 提案手法では，RPC投影された3次元整合性指標と幾何学的制約のある高密度マッチングプロキシを統合し，類似度応答の局所性と一意性を評価する。
- 評価戦略の重要な発見として，意味的合意と幾何学的局在化の分離が挙げられる。投影された3D点での高いクロスビュー類似度だけでは，実用的な推論における信頼性の高いマッチングは保証されない。
- 本ベンチマークは，衛星画像における幾何学的制約の組み込みが問題定義の根幹であることを示している。また，最先端の2次元バックボーンモデルが，RPC整合性評価下で3次元認識モデルと競合できることを示す。
Link: https://arxiv.org/abs/2606.17564
AoiZora：拡散Transformerの推論のためのトポロジーを意識した自動並列最適化 [eess.SY, cs.SY, cs.DC, cs.LG]目的：拡散Transformerの推論における低遅延化のためのトポロジーを考慮した自動並列最適化手法
- 動画生成は重要な応用分野であり，低遅延な推論が求められている。
- 単一デバイスでは計算負荷が高く，複数アクセラレータへの分散が必須となる。
- TPUサブスライスにおける物理的なトポロジーを考慮した並列化により，性能向上を目指す。
- AoiZoraは，コンパイラを介して，論理的なシャーディングと物理的な配置を結びつける。
- 不要なシャーディング候補を早期に排除し，トポロジーを考慮した通信モデルを用いて配置を最適化する。
- TPU v5eサブスライス上で，既存手法と比較して最大1.42倍のワンステップデノイジングの低遅延化を実現した。
Link: https://arxiv.org/abs/2606.17566
ブースティングにおける学習者の冗長性の削減：残差直交化によるアプローチ [cs.LG]目的：ブースティングにおける学習者冗長性の軽減
- ブースティングは，高い予測精度を実現する強力な機械学習手法である。
- 従来のブースティングは，学習者が相関のある誤り成分を繰り返し学習するため，冗長性が生じやすい。
- 残差直交化を用いて，学習者の冗長性を制御し，より効率的なアンサンブル学習を目指す。
- 提案手法SCBoostは，残差を過去の予測空間の直交補空間に投影することで，学習者が新しい情報を捉えることを強制する。
- 検証データセット上で共分散ペナルティを導入した重み最適化により，残存する相関を軽減する。
- 実験結果から，SCBoostは高い精度とF1スコアを示すことが確認された。
Link: https://arxiv.org/abs/2606.17567
ダイナミクスモデルが誤ったタイムステップを読むとき：ラベルフリーイベント信用再固定によるロバストなグローバル読み出し [eess.SY, cs.SY, cs.LG, cs.SY, eess.SY]目的：ダイナミクスモデルにおける時間的信用問題の解決
- 物理現象の理解において，ダイナミクスモデルの精度向上が不可欠である。
- モデルが滑らかな相関関係に依存し，重要な物理イベントを見逃す場合がある。
- イベントに焦点を当てることで，モデルの汎化性能を向上させる。
- 提案手法CRESTは，学習データ外における誤差を低減し，イベントへの信用を回復させる。
- イベントコアの推定と再固定により，モデルはより正確な読み出しが可能となる。
- 安定ステップ選択や受容野縮小では得られない効果が確認された。
Link: https://arxiv.org/abs/2606.17572
DeepInsight：物理AIスタック全体を対象とした統一評価基盤 [cs.AI]目的：物理AIスタックの評価における課題解決
- 物理AIは，現実世界とのインタラクションにおいて重要な役割を担うため，その性能評価は不可欠である。
- 既存の評価フレームワークは，物理AIスタックの多様な要素を包括的に評価する能力に乏しい。
- 異なる層間の回帰分析を可能にする，統一された評価基盤の構築。
- DeepInsightは，物理AIスタック全体を単一の実行環境で評価可能な基盤を提供する。
- タスク，リソース，結果という3つの抽象化により，異種環境を維持しながら評価を可能にする。
- 層を跨いだ回帰の局所化が可能となり，各セグメントの評価を統合する従来の方法の限界を克服する。
Link: https://arxiv.org/abs/2606.17574
基礎モデルを活用した歩行者保護設計の代理モデル支援ワークフロー [eess.SY, cs.SY, cs.AI]目的：歩行者保護のための代理モデル支援設計
- 衝突安全設計は，自動車の安全性能向上に不可欠であり，社会的な要請も高い分野である。
- 衝突解析は非線形性が高く，データ駆動型代理モデルの構築が困難であった。
- 基礎モデルを活用し，代理モデルと物理シミュレーションの連携を可能にすることで，設計効率を飛躍的に向上させる。
- 本ワークフローは，歩行者負傷指標の予測精度が高く（平均$R^2=0.87$），設計探索時間を大幅に短縮した。
- 自動車フロントバンパーのケーススタディでは，従来のCAE反復設計では数週間かかる作業を，わずか1回の探索で35の安全基準適合案を生成した。
- 基礎モデルは，機械学習代理モデルと物理シミュレーション間の統合層として機能し，安全が重要な工学分野へのAI活用を促進する可能性を示唆する。
Link: https://arxiv.org/abs/2606.17577
LLMの特徴がGNNに悪影響を及ぼす可能性：ホモフィラスグラフベンチマークにおける連結干渉 [cs.LG, cs.AI, cs.CL, cs.SI]目的：LLM生成ノード特徴量をGNNに追加することの影響の評価
- グラフニューラルネットワークは，複雑な関係性を表現する上で重要な役割を担う。
- LLM特徴量の単純な連結が，必ずしもGNNの性能向上に繋がるとは限らない。
- LLM特徴量の連結がGNNに悪影響を及ぼす条件を特定すること。
- LLM特徴量の連結は，ホモフィラスなグラフベンチマークにおいて，精度低下を引き起こすことが示された。
- 精度低下の度合いは，LLM単独の識別力（Delta_sig）と相関関係があることが明らかになった。
- Delta_sigが低い場合，LLM特徴量の連結はGNNの性能を損なう可能性が高いことが示唆された。
Link: https://arxiv.org/abs/2606.17579
Visored：LLM生成数学に対する制御自然言語証明器 [cs.PL, cs.AI]目的：LLM生成数学の証明可能性検証
- 数学の自動化は，定理の発見や検証を加速し，研究効率を飛躍的に向上させる。
- 既存の証明システムは形式的すぎて，LLMや人間の数学記述との乖離が大きい。
- LLMが記述した数学の証明を形式的に検証可能なLeanコードへと変換すること。
- Visoredは，自然な数学言語に近い形式と，自動化された推論規則層を備えている。
- 実験の結果，特定のプロバー訓練データなしでも，LLMはminiF2Fベンチマークで効果的にVisoredを使用できることが示唆された。
- Visoredは，受け入れられた証明を検証済みのLeanファイルとして再出力できる。
Link: https://arxiv.org/abs/2606.17581
軌道直線性に基づく整流化フローに対する固定点反転の根選択 [cs.DB, cs.CV, cs.LG]目的：整流化フローにおける固定点反転の根選択メカニズム
- 画像編集などの下流アプリケーションにおいて，データ生成ノイズの特定は重要な役割を果たす。
- 既存の固定点反転法は，複数の固定点解が存在する場合，適切な解を選択する原理的な仕組みが不足している。
- 軌道直線性に着目し，より直線性のある逆軌跡を誘導する固定点解を選択することで，反転精度を向上させる。
- 提案手法SelFixは，FLUX.1-devおよびPIE-Benchにおいて，既存手法よりも高品質な画像再構成を実現した。
- SelFixは，プロンプトに基づく画像編集において，元の画像をより忠実に保持した結果を得ることに貢献する。
- SelFixは，標準的な局所的仮定の下で正確な逆根への収束を維持しつつ，直線性に基づく根選択を行う。
Link: https://arxiv.org/abs/2606.17584
論文タイトル・抄録スクリーニングにおけるLLMの理解：不一致から提言へ [cs.SE, cs.AI]目的：論文タイトルと抄録のスクリーニングにおける大規模言語モデル（LLM）の不一致とその要因分析
- システマティックレビューの質と効率を向上させる上で，情報検索の精度が重要である。
- LLMのスクリーニング精度にはばらつきがあり，信頼性に関する疑問が残されている。
- LLMと人間の不一致の原因を特定し，LLMの有効活用に向けた提言を行う。
- LLMと人間のスクリーニング結果のKappa値は0.52から0.77の範囲であった。
- 不一致の原因として，キーワードの過剰強調，曖昧な用語の解釈，誤ったトピック推論などが明らかになった。
- LLM導入前の意味理解の検証，複数LLMの実行，境界事例への検証注力などの提言を行った。
Link: https://arxiv.org/abs/2606.17588
フィードバックループの閉環：言語による強化学習における経験抽出から洞察の統治へ [cs.AI]目的：言語による強化学習における洞察の維持と活用
- 現実世界の複雑なタスクにおいて，強化学習エージェントの適応能力向上が求められている。
- 非定常的な環境下では，古い洞察の保持と破棄のバランスが課題となる。
- 経験からの洞察を効果的に管理し，エージェントのパフォーマンスを安定化させる。
- 本研究では，経験抽出だけでなく，抽出された洞察の統治が重要であると指摘する。
- ルール，証拠，スキルという三層アーキテクチャを提案し，フィードバック駆動型のキュレーションループを導入することで，洞察の統治ギャップを埋める。
- 金融予測のケーススタディにおいて，キュレーションループの有無でパフォーマンスが大きく変化することを示し，その有効性を実証した。
Link: https://arxiv.org/abs/2606.17591
SPHERE-JEPAの拡張：ハイパースフィアのための統計的正則化項のファミリー [cs.LG]目的：ハイパースフィア上での一様分布を明示的に強制することで表現崩壊を防ぐ自己教師あり学習における統計的正則化手法の開発
- 自己教師あり学習は，ラベルなしデータから有用な表現を獲得する上で重要な役割を担う。
- 既存のスライス型正則化項は，確率的な投影により最適化が不安定になり，収束が阻害される。
- 解析的な積分により，より安定した学習と収束速度の向上を目指す。
- 確率的な投影によるノイズを除去することで，最適化がより安定し，ImageNetとGalaxy10で既存手法を上回る性能が確認された。
- 統計的検定の選択によって，学習された潜在空間の幾何学的な構造が変化し，MMDとKSDはオブジェクト中心のドメインに適したクラスタリングを促進する。
- 一方，KLダイバージェンスは，よりきめ細かいインスタンス分離を促し，クラスタリングされていないプロシージャルテクスチャ検索において最も優れた結果をもたらす。
Link: https://arxiv.org/abs/2606.17603
SkillMoV：プロトタイプ条件付きゲーティングを用いた統一的なマルチビュー熟練度推定ルーティング [cs.DC, cs.CV, cs.AI]目的：マルチビュー動画からの人間の熟練度推定
- スポーツ指導，音楽教育，外科研修など，自動スキル評価の重要性が高まっている。
- 既存手法は特定のシナリオに限定されるか，カメラ視点や活動領域への適応性に課題がある。
- 異種カメラ視点と活動領域に対応できる汎用的な熟練度推定手法を開発する。
- SkillMoVは，EgoExo4Dにおける6つのスキル領域で，Exos設定において50.17%の全体精度を達成した。
- この結果は，比較対象手法におけるExos設定の最良結果を3.57%上回る。
- LoRA適応により，パラメータの23.32%のみを学習し，オーバーヘッドも抑制されている。
Link: https://arxiv.org/abs/2606.17615
分割，熟考，決定：ファーストパーソン視点のアクション認識のためのマルチエージェントフレームワーク [cs.CV, cs.AI]目的：ファーストパーソン視点ビデオにおける詳細なアクション認識
- 視覚情報と言語情報を組み合わせた認識技術は，ロボット工学やヒューマンコンピュータインタラクション等の応用において重要である。
- 既存のVision-Language Modelは，わずかな視覚的特徴の違いを見落とす傾向があり，特定のアクションに偏ることが課題である。
- 複数のモデルによる多様な視点を取り入れ，より正確なアクション認識を実現することを目的とする。
- 提案手法は，ファーストパーソン視点ビデオにおけるゼロショットアクション認識性能を向上させる。
- 性能向上は，追加の計算資源ではなく，異質なモデルの事前分布の相関を弱めることによってもたらされる。
- ビデオを分割し，複数の専門家モデルが熟考，意思決定を行うことで，よりロバストな認識が可能となる。
Link: https://arxiv.org/abs/2606.17627
Brick-DICL：自動Brickスキーマ分類のための動的インコンテキスト学習 [cs.CL, cs.RO, cs.HC, cs.CL, cs.AI]目的：建物管理システムのBrickスキーマへの自動分類
- 建物管理は，エネルギー効率と運用性能の最適化に不可欠である。
- 異なるメーカー間の建物管理システムポイントの標準化不足が，統合とデータ利用の障壁となっている。
- Brickスキーマへのマッピングにおける課題（クラス数，LLMの知識不足，検証作業）を解決する。
- Brick-DICLは，メーカーやメタデータ形式に関わらずあらゆる建物管理システムに適用可能である。
- 初の動的インコンテキスト学習アプローチとして，既存手法を凌駕する分類精度を実現した。
- 複数LLMフィルタリングにより，手動検証の労力を削減し，迅速な建物デジタル化を可能にした。
Link: https://arxiv.org/abs/2606.17637
FinAcumen：自己進化型経験記憶を活用した金融マルチモーダル推論 [cs.AI]目的：金融マルチモーダル推論のための自己進化型経験記憶
- 金融分野では，正確な意思決定が重要であり，多様な情報源を統合した推論が不可欠である。
- 既存のツール支援エージェントは，エピソード間の状態保持が不十分で，学習効果が低いという課題がある。
- 過去の推論経験を蓄積し，適切なタイミングで活用することで，推論の信頼性を向上させる。
- FinAcumenは，過去の推論軌跡から金融に関する経験を蓄積し，成功戦略と失敗事例を記憶する。
- 経験記憶は，意味的な関連性が閾値を超えた場合にのみ推論を条件付け，無関係な記憶は抑制される。
- 4つの金融マルチモーダル推論ベンチマークにおいて，FinAcumenは既存モデルを上回る性能を示した。
Link: https://arxiv.org/abs/2606.17642
ドキュメントレイアウト解析データセットの再アノテーションのためのバウンディングボックスラベル伝播 [cs.CV, cs.AI]目的：ドキュメントレイアウト解析におけるオブジェクト検出インスタンスの再分類
- 実用的なドキュメント処理ではデータセットが拡大し，アノテーションの精度向上が常に求められる。
- データセットの継続的な改善には，時間とコストのかかる再アノテーション作業が伴う。
- 少量のアノテーションデータで，半教師あり学習により効率的に再アノテーションを行う。
- 提案手法BBLPは，バウンディングボックスの高精度なクラスアノテーションを生成する。
- D4LAデータセットにおいて，10%のアノテーションデータで，フル教師あり学習の81.6%相当のmAP 54.0%を達成した。
- ラベル伝播がオブジェクト検出に有効であり，実用的なドキュメント処理におけるアノテーションコスト削減に貢献する。
Link: https://arxiv.org/abs/2606.17644
ドメインを超えて：転移可能なインタラクションパターンによるWebスキル再利用 [cs.AI, cs.CL, cs.LG]目的：Webスキル再利用の可能性
- WebエージェントはWebサイト操作の自動化に不可欠であり，その効率化が求められている。
- 既存のスキルライブラリはサイト固有の情報に依存するため，未知のサイトへの汎用性が低い。
- レイアウト構造の一致により，サイトを跨いでWebスキルを転移し，再利用性を高める。
- SkillMigratorは，Webサイトのレイアウト構造に基づいて再利用可能なWebスキルを学習し，異なるサイトへ転移させる。
- 誘導されたスキルは，誘導時のスナップショットの構造的スケッチとペアになった転移可能なインタラクションパターン（TIP）として保存される。
- 実験の結果，SkillMigratorはWebArenaとMind2Webの両方で，成功経路におけるLLMアクション数を8〜10％削減することに成功した。
Link: https://arxiv.org/abs/2606.17645
SketchXplain：スケッチを用いた画像分類器の直感的視覚的説明 [cs.HC, cs.AI]目的：画像分類器の説明における直感的視覚化
- AIの意思決定過程を理解することは，信頼性と透明性を高める上で重要である。
- 既存の説明手法は，解釈が難しく，意味が不明瞭な場合がある。
- スケッチを用いることで，より直感的で分かりやすい説明を可能にする。
- SketchXplainは，顔表情認識において，既存手法よりも迅速な解釈と，より適切な視覚化を実現した。
- 皮膚病変診断においては，SketchXplainは病気の症状をより一貫して視覚化し，一般の人々による診断を支援した。
- 本研究は，画像に基づくXAI視覚化において，スケッチの価値を実証した。
Link: https://arxiv.org/abs/2606.17646
醸造から解決へ：LLMにおけるコード推論の内部ライフサイクルを追跡する [cs.AI]目的：LLMにおけるコード推論の内部ライフサイクル
- LLMの能力評価は，その内部メカニズムの理解が不可欠である。
- 従来の評価指標では，LLMのコード推論における失敗原因を特定できない。
- LLMの推論プロセスを段階的に分析し，失敗パターンを明らかにすること。
- LLMはまず「醸造」段階で答えを生成し，その後「解決」段階で最終的な出力を決定する。
- 解決段階では，解決，過剰処理，誤解決，未解決の4つの結果が生じることが明らかになった。
- 「醸造」段階の安定性と「解決」段階の成功率がモデルの性能と関係することを示唆した。
Link: https://arxiv.org/abs/2606.17648
事前Fine-tuning予測のためのリスク分解フレームワーク [cs.LG, cs.AI]目的：事前Fine-tuningパフォーマンス予測のリスク分解
- 大規模言語モデルの活用は重要だが，学習コストが高い。
- 事前予測の理論的限界が未解明であり，精度の向上が課題。
- 情報制約下でのリスク分解により，予測の限界を明らかにすること。
- 予測リスクを，データモデル適合性に基づく本質的限界と最適化分散の二つに分解した。
- 最適化分散には，不確実性の消失速度に関する下限が存在することを示した。
- 予算最適化されたプロービング原理と，タスクを分類する予測可能性相図を導出した。
Link: https://arxiv.org/abs/2606.17649
認知モデルを用いた言語モデルによる人間説得ゲームのシミュレーション改善 [cs.NI, cs.NI, cs.NI, cs.AI]目的：人間説得ゲームにおける言語モデルのシミュレーション精度向上
- 戦略的相互作用において，人間の意思決定は多様であり，その理解はAI開発に不可欠である。
- 現在の言語モデルは，人間の意思決定の多様性を十分に捉えられていない。
- 認知科学と経済学のモデルを活用し，言語モデルの行動を人間により近づけることを目指す。
- プロンプティングにより，大規模言語モデルはベイジアン更新，動機づけられた更新などの認知モデルを近似できることが示された。
- 少規模モデルを強化学習で訓練することで，分布外パラメータにおける信念誤差を26.5%削減できることが確認された。
- 多様な意思決定者を考慮した訓練は，平均的な信念変化を2.5%–12%向上させ，より現実的なシミュレーションに貢献する。
Link: https://arxiv.org/abs/2606.17657
物理制約ニューラルネットワークによる短期天気予報の精度向上：南太平洋における事例研究 [cs.LG]目的：短期天気予報モデルの精度と安定性の向上
- 気象予測は，社会経済活動や人々の生活に不可欠であり，その精度向上は常に求められている。
- 従来の数値予報モデルは計算コストが高く，また，ニューラルネットワークのみのモデルは物理法則を十分に考慮できていない。
- 物理法則を組み込んだハイブリッドモデルを改良し，より正確かつ効率的な短期予報を実現すること。
- 物理制約ニューラルネットワークの数値ソルバーを改良し，積分時間ステップを4倍に増やし，平均二乗誤差を最大26%削減した。
- 自己回帰型ハイブリッドブロックを導入し，特定の予測時間への過学習を解消した。
- 最新のニューラルネットワークバックボーンと物理コアを統合し，予測精度を8-22%向上させ，物理的な整合性を改善した。
Link: https://arxiv.org/abs/2606.17659