arXiv雑要約

AI - 2026/04/29 公開

ViPO：大規模な視覚的嗜好度最適化 [cs.CV, cs.AI]目的：視覚的生成モデルの改善のための嗜好度最適化手法
- 視覚的生成モデルの性能向上には，人間の嗜好を反映した学習が不可欠である。
- 既存の嗜好度データセットには，矛盾した嗜好パターンが含まれている場合が多い。
- ノイズの多いデータセットに対するロバストな嗜好度最適化手法を開発すること。
- 提案手法Poly-DPOは，データセットの特性に基づいてモデルの確信度を動的に調整する多項式項を追加することで，ノイズに対するロバスト性を高める。
- 大規模な視覚的嗜好度データセットViPOを構築し，高品質なデータによって標準的なDPOでも良好な結果が得られることを示した。
- ノイズの多いデータセットでは，Poly-DPOがDiffusion-DPOを上回り，ViPOを用いた学習では既存のデータセットを上回る性能を達成した。
Link: https://arxiv.org/abs/2604.24953
Nemotron 3 Nano Omni：効率的でオープンなマルチモーダル知能 [cs.LG, cs.AI, cs.CV]目的：マルチモーダル知能モデルの性能向上
- AI技術の発展は，社会の様々な分野において革新をもたらす可能性を秘めている。
- 既存のマルチモーダルモデルは，計算コストが高く，推論速度が遅いという課題がある。
- 効率性と性能を両立する，新しいマルチモーダルモデルの開発が求められている。
- Nemotron 3 Nano Omniは，テキスト，画像，音声，動画の入力に対応し，既存モデルよりも高い精度を実現した。
- アーキテクチャの改良，学習データの拡充，推論最適化により，低遅延かつ高スループットな処理が可能となった。
- モデルチェックポイントや学習データの一部を公開し，今後の研究開発を促進する。
Link: https://arxiv.org/abs/2604.24954
BenchGuard：ベンチマークは誰が守るか？LLMエージェントベンチマークの自動監査 [cs.CL, cs.AI, cs.SE]目的：LLMエージェントベンチマークの評価インフラストラクチャの体系的な監査
- LLMの性能評価において，ベンチマークは重要な役割を担う。
- ベンチマーク自体の不備（仕様の誤り，暗黙の前提，厳格な評価基準）が，エージェントの誤った評価につながることがある。
- ベンチマークの信頼性を高めるため，LLMを活用した自動監査フレームワークを開発し，ベンチマークの問題点を検出すること。
- BenchGuardは，2つの主要なベンチマークにおいて，著者が確認した12件の問題点を発見した。
- BIXBench Verified-50のサブセットにおいて，専門家が特定した問題点の83.3%を正確に特定し，既存の人的レビューでは見逃されていた欠陥を捉えた。
- 50の複雑なバイオインフォマティクスタスクの完全な監査費用は15ドル未満であり，自動監査は実用的かつ価値のある補完策となる。
Link: https://arxiv.org/abs/2604.24955
計算量適応学習：推論時計算量最適化 [cs.LG, cs.AI]目的：推論時の計算量最適化
- 大規模言語モデルの性能向上において，推論時の計算量を増やす手法が有効であることが示されている。
- 既存の学習方法は個々のサンプルの尤度を最適化するため，推論時の集約・フィルタリング戦略と乖離が生じる。
- 推論戦略を考慮した学習目標を設定し，推論時の性能を最大限に引き出すことを目指す。
- 計算量適応学習は，推論戦略を基盤ポリシーに対する演算子として捉え，新たな損失関数を導出する。
- この損失関数をSFTおよびRLに適用し，一般的な推論戦略における性能向上を検証した。
- 実験結果から，本手法が従来の学習方法と比較して，推論時の計算量スケールアップにおいて大幅な改善をもたらすことが示された。
Link: https://arxiv.org/abs/2604.24957
CoreFlow：低ランク行列生成モデル [cs.HC, cs.LG, stat.ML]目的：高次元で不完全な訓練データからの行列値分布の学習
- 行列データは様々な分野で出現し，その解析は重要である。
- 高次元行列の学習には計算コストが高く，サンプル数が少ないと精度が低下する。
- 共有された低ランク構造を利用し，効率的な学習を実現することを目指す。
- CoreFlowは，行列分布における共有された行/列部分空間を学習することで，低次元コア上での連続正規化フローを可能にする。
- 限られたサンプル数や欠損データが存在する状況下においても，生成品質が大幅に向上することが示された。
- CoreFlowは，高次元行列の学習における効率性と精度を両立する新たなアプローチを提供する。
Link: https://arxiv.org/abs/2604.24959
オディッセイ：現実的な長期的タスクにおけるウェブエージェントのベンチマーク [cs.LG, cs.CL]目的：現実世界のブラウジングセッションから派生した200件の長期的ウェブタスクによる，ウェブエージェントの性能評価
- ウェブエージェントは，人間のコンピュータ利用を自動化する上で不可欠であり，その性能向上は生産性向上に繋がる。
- 既存のベンチマークは短期的タスクに偏っており，現実世界の複雑なウェブ利用を反映できていない。
- 長期的で複数サイトにわたるタスクにおいて，ウェブエージェントの能力を正確に評価する新しいベンチマークを構築すること。
- 既存の二値評価では長期的タスクの評価が不十分であり，ルーブリックベースの評価がより適切な評価指標となることが示された。
- 最先端モデルの成功率は44.5%であり，改善の余地が大きいことが明らかになった。
- 効率性も重要な課題であり，現在のエージェントはステップごとのルーブリックスコアが1.15%と低いことが示された。
Link: https://arxiv.org/abs/2604.24964
BEAGLE GPU遺伝的プログラミングにおける集団サイズの性能への影響 [cs.CY, cs.NE]目的：BEAGLE GPU遺伝的プログラミングにおける集団サイズの効果
- 遺伝的プログラミングは，複雑な問題解決に有効な手法であり，その性能向上は重要である。
- CPUによる計算能力の限界から，大規模な集団を用いた遺伝的プログラミングは困難であった。
- GPUを用いることで大規模集団が可能となり，その最適な集団サイズを探求する必要がある。
- GPUを利用することで，従来のCPUでは実現困難であった大規模集団による遺伝的プログラミングが可能となった。
- 問題によっては，狭く深い探索（1000個体程度）が有効である一方，広範囲かつ浅い探索（1000万個体程度）が有効な場合もある。
- 大規模集団から小規模集団へ段階的に集団サイズを変化させることで，探索の幅広さと深さを両立できる可能性が示唆された。
Link: https://arxiv.org/abs/2604.24968
PolyKV：複数エージェントLLM推論のための共有非対称圧縮KVキャッシュプール [cs.LG, cs.CL, cs.DC]目的：複数エージェントのLLM推論におけるKVキャッシュ共有システム
- 大規模言語モデルの利用拡大に伴い，メモリ消費量の削減が重要な課題となっている。
- 従来のLLM推論では，エージェントごとにKVキャッシュを確保するため，メモリ効率が低い。
- 本研究は，非対称圧縮KVキャッシュプールを共有することで，メモリ消費量を削減し，効率的な推論を実現する。
- PolyKVは，KVキャッシュを非対称圧縮し，複数のエージェントで共有することで，2.91倍の圧縮率を達成した。
- Llama-3-8Bにおいて，15エージェントが4Kトークンのコンテキストを共有する場合，KVキャッシュメモリを97.7%削減した。
- 性能劣化はわずか+0.57%であり，BERTScore F1は0.928を維持している。PPLの変化はエージェント数に依存せず，コンテキスト長に応じて改善される。
Link: https://arxiv.org/abs/2604.24971
LLMの脱獄に対する適応的プロンプト埋め込み最適化 [cs.HC, cs.AI]目的：LLMの脱獄攻撃に対するプロンプト埋め込みの最適化
- LLMの安全性確保は重要であり，悪意のある攻撃から保護する必要がある。
- 既存の脱獄攻撃は，プロンプトを目に見える形で変更してしまうという問題がある。
- プロンプトの意味を損なわずに，埋め込み空間を直接最適化することで脱獄を可能にする。
- プロンプト埋め込み最適化（PEO）は，元のプロンプトトークンの埋め込みを直接最適化する手法である。
- PEOは，プロンプト文字列を正確に保持しつつ，モデルの応答内容を維持できることが示された。
- 複数のベンチマークにおいて，既存の脱獄攻撃手法を上回る性能が確認された。
Link: https://arxiv.org/abs/2604.24983
Y軸の影響評価：グラフから表への翻訳における多言語モデルの偏り [cs.AI]目的：グラフから表への翻訳におけるY軸情報の偏り
- 多言語モデルの性能向上には，グラフ情報を正確に構造化データに変換する必要がある。
- 既存のグラフデータセットにY軸情報の偏りがあり，モデルの性能に悪影響を及ぼす可能性がある。
- Y軸に関する偏りを分析し，多言語モデルの公平性を高めることを目指す。
- Y軸の主要目盛りの桁数，目盛りの数，値の範囲，表示形式に有意な偏りが存在することが明らかになった。
- グラフ内の凡例やエンティティの数も，多言語モデルの性能に影響を与えることが示された。
- Y軸情報をプロンプトに含めることで，一部の多言語モデルの性能が大幅に向上することが確認された。
Link: https://arxiv.org/abs/2604.24987
ラプラスブリッジングによるランダム化スムージング：高速な認証ロバスト性の実現 [cs.LG]目的：認証ロバスト性の高速化
- 機械学習モデルの堅牢性は，悪意のある摂動に対する耐性を意味し，安全性や信頼性が求められる応用で重要である。
- 既存のロバスト性評価手法は計算コストが高く，特にエッジデバイスでの実用化が困難である。
- 認証ロバスト性の評価を高速化し，エッジデバイスでの実用化を可能にすること。
- 提案手法であるラプラスブリッジングスムージング（LBS）は，高次元空間でのモンテカルロサンプリングを低次元確率空間での効率的な計算に置き換えることで，計算コストを大幅に削減する。
- LBSは，ノイズオーギュメントされた学習を必要とせず，CIFAR-10やImageNetにおいて，従来のランダム化スムージングよりも高い認証ロバスト性を達成した。
- NVIDIA Jetson Orin NanoやRaspberry Pi 4などのエッジデバイス上で，最大494倍の速度向上を達成し，実用的な展開を可能にした。
Link: https://arxiv.org/abs/2604.24993
マルチトラジェクトリー推論による疎なパーソナライズされたテキスト生成 [cs.AI]目的：冷启动におけるLLMのパーソナライズ
- LLMの発展に伴い，個々のユーザーニーズに合わせた出力が重要になっている。
- 既存手法は豊富な対話履歴に依存するため，データが少ない場合のパーソナライズが困難である。
- 疎なデータ環境下におけるLLMのパーソナライズ問題を解決することを目指す。
- PATは，スタイルが類似するユーザーからの記述スタイルや，嗜好が一致するユーザーからのトピック固有のコンテキストを検索する。
- 強化学習に基づく反復的な二重推論メカニズムにより，これらの信号を統合し，生成品質と適合性を向上させる。
- 実世界のベンチマークで，PATは疎なデータ条件下で既存手法を上回り，効果的なパーソナライズを実現する。
Link: https://arxiv.org/abs/2604.24996
BifDet：気道樹モデリングのための3D分岐検出データセット [cs.CV, cs.AI]目的：3D気道分岐検出のためのデータセット
- 呼吸器疾患の理解に不可欠な気道樹の構造解析において，分岐点の分析が重要である。
- 分岐点検出のための注釈付きデータセットが不足しており，自動検出ツールの開発が阻害されている。
- 3D気道分岐検出に特化した公開データセットを提供し，関連研究の進展に貢献すること。
- 本研究で公開したBifDetデータセットは，気道分岐検出のための重要なリソースとなる。
- RetinaNetおよびDETRを微調整し，CTスキャンにおける3D気道分岐検出の性能を評価した。
- 様々な最小バウンディングボックスサイズで詳細な結果を提供し，今後の研究のベンチマークとして活用できる。
Link: https://arxiv.org/abs/2604.24999
意図の科学へ：オープンワールドAIエージェントにおけるクロージャギャップと委任エンベロープ [cs.AI, cs.SE]目的：オープンワールドAIエージェントにおける意図コンパイルの実現
- AIの能力向上は重要だが，実社会への応用が課題となっている。
- 既存手法では，モデルの堅牢性や説明可能性が不足している。
- 意図のクロージャギャップを解消し，より信頼性の高いAIエージェントを構築する。
- 意図コンパイルは，人間の意図を検証可能な実行に結びつける。
- クロージャギャップは，オープンワールドにおける検証の分散性を捉える。
- 委任エンベロープは，安全な行動範囲を定義し，追加の推論時間による探索との比較指標を提示する。
Link: https://arxiv.org/abs/2604.25000
検索ではなく転移：構造的事前知識からのエージェント型ワークフローの償却的設計 [cs.CL, cs.LG]目的：エージェント型ワークフローの償却的設計
- 複雑なタスク自動化において，ワークフロー設計は効率化が求められる重要な課題である。
- 従来のワークフロー設計はタスクごとに検索を繰り返すため，計算コストが高く非効率である。
- 既存のワークフローから学習した構造的知識を転移し，効率的なワークフロー設計を実現すること。
- SWIFTは，過去の探索履歴からワークフローの構造的特徴を抽出し，再利用可能な事前知識として活用する。
- SWIFTは，新たなタスクに対して，事前知識とタスク例に基づいて，反復的な探索なしにワークフローを生成する。
- 5つのベンチマークにおいて，SWIFTは既存手法を凌駕し，タスクごとの最適化コストを大幅に削減した。
Link: https://arxiv.org/abs/2604.25012
6G時代のあらゆるモノのインターネット：パラダイム，実現技術，可能性と今後の方向性 [eess.SY, cs.SY, cs.ET, cs.AI, cs.DC, cs.NI]目的：あらゆるモノのインターネットの概念と構成要素に関する構造化された概要
- 社会のデジタル化が加速し，あらゆるモノがネットワークに接続される環境が不可欠になっている
- IoTの普及に伴い，スケーラビリティ，セキュリティ，プライバシー等の課題が顕在化している
- 6G技術を活用し，これらの課題を克服することで，より高度なIoEシステムを実現すること
- 本研究は，IoEの構成要素，アーキテクチャ，実現技術，および主要な研究課題を体系的にまとめている。
- スケーラビリティ，セキュリティ，プライバシー，エネルギー効率といったIoE実現に向けた課題を特定している。
- 6G技術を活用したIoEシステムの今後の研究方向性を提示し，スマートシティ等への応用可能性を示唆している。
Link: https://arxiv.org/abs/2604.25018
RKHSにおけるオンライン回帰の動的後悔：割引VAWと部分空間近似 [cs.LG]目的：RKHSにおけるオンライン回帰の動的後悔に関する研究
- 機械学習において，データが逐次的に到着するオンライン学習は重要である。特に回帰問題では，予測精度が重要となる。
- オンライン回帰において，最適な予測器を追跡するための後悔を最小限に抑えることが課題である。動的に変化するデータへの適応も重要。
- RKHSという関数空間を利用し，割引VAWと部分空間近似によって動的後悔を制御する手法を提案する。
- 割引VAWに基づくアンサンブル手法と，幾何学的な割引係数のグリッドを用いることで，RKHSにおけるオンライン回帰を実現した。
- 特徴展開やMercer切断といった直交truncation法を導入し，部分空間近似による次元削減を行った。
- ガウス核や解析的ドット積核に対して，高速な後悔 bound を得られた。また，Matérn核にも適用可能である。
Link: https://arxiv.org/abs/2604.25021
VC学習における対称化界面での零測度性 [cs.HC, cs.LG, cs.LO, stat.ML]目的：VC次元からPAC学習可能性への対称化経路における測度性の仮説緩和
- 統計学習理論の基礎であり，学習アルゴリズムの理論的保証を与えるために重要。
- 既存の証明では，不必要なほど強い測度性の条件が課せられている。
- 対称化証明で使用される界面における測度性の必要条件を弱める。
- 悪事象が解析的であることが示され，完備化された有限ボレル測度上で測度可能であることが示された。
- 悪事象が零測度性を持つがボレル測度性を持たない概念クラスが構成された。
- パッチング，固定補間，ファイバー積アマルガムといった概念クラス構築子に対して安定性も証明された。
Link: https://arxiv.org/abs/2604.25028
往復検証と修正による忠実な自動形式化 [cs.CL, cs.AI]目的：自然言語の忠実な形式化の検証手法
- LLMによる自然言語処理の信頼性確保が重要視されている。
- LLMによる形式化の出力が元の意味を忠実に反映しているかどうかの検証が困難である。
- 形式化の忠実性を評価し，誤りを特定・修正する手法を確立すること。
- 往復検証により，2つのモデル（Claude Opus 4.6とGPT-5.2）で形式的同値性が45〜61％から83〜85％へと向上した。
- 診断に基づく修正は，ランダム修正よりも優れた性能を示した。
- 自然言語推論分析により，形式的同値性と意味のずれの減少が相関関係にあることが確認された。
Link: https://arxiv.org/abs/2604.25031
二重CoT：小規模LMのための予算を意識した段階的ガイダンス [cs.IR, cs.CL, cs.AI]目的：小規模言語モデルにおける推論能力の向上
- 複雑な推論タスク解決にはLLMが有効だが，計算資源に制約がある環境下では困難。
- 既存手法はトークン消費量が大きく，ステップレベルでの制御が難しい点が課題。
- 小規模LMでも，トークン数を抑えつつ，推論の信頼性を高めることを目指す。
- 本研究では，プロセス監視と単純なテスト時制御がモデル規模の代替となりうることを検証した。
- 提示手法は，固定コストで小規模LMの推論能力を向上させる可能性を示した。
- 限られた計算資源での利用に適した，効率的な推論手法の実現に貢献する。
Link: https://arxiv.org/abs/2604.25039
タスクごとのレバレッジ則：人間とエージェントの協調 [cs.AI, cs.CL]目的：人間とエージェントの協調におけるタスクごとのレバレッジ比率
- 人間とAIの協調は，生産性向上や新たな問題解決に不可欠である。
- 現在の協調システムでは，人間側の負担と情報伝達の効率性が課題である。
- タスク単位での効率性を定量化し，協調システムの設計指針を提示すること。
- タスクの指定，中断処理，結果の確認にかかる人間時間に対する，エージェントによる作業代替の割合をレバレッジ比率として定義した。
- 情報密度には方向性と上限が存在し，人間からエージェントへの情報伝達と，その逆で異なる上限があることが示された。
- レバレッジ比率の漸近的振る舞いは，能力とメモリという2つの軸に分解され，タスクの新規性による計画項目の下限が存在することが明らかになった。
Link: https://arxiv.org/abs/2604.25040
フィリピンにおけるホスピタリティ教育におけるオンライン授業の障壁と促進要因：探索的研究 [cs.CY, cs.AI]目的：フィリピンのホスピタリティ教育におけるオンライン授業の障壁と促進要因
- ホスピタリティ教育は，観光産業の発展に不可欠であり，質の高い教育が求められている。
- オンライン授業への移行に伴い，技術的・教育的な課題が顕在化している。
- オンライン授業の質を向上させるための具体的な課題と解決策を明らかにすること。
- インタビュー調査から，技術的障壁，教育的課題，機関・個人的サポート，AIの統合という4つの主要なテーマが抽出された。
- 教育的課題，特に実践科目の指導と学生の関心を維持することが最も重要な懸念事項として浮かび上がった。
- 本研究は，教育訓練の強化，明確な機関からのサポート，AI利用における責任ある能力育成の重要性を示唆する。
Link: https://arxiv.org/abs/2604.25047
LLMの推論分析による精神疾患に対するスティグマの解明 [cs.CY, cs.RO, cs.CL, cs.AI]目的：精神疾患に対するLLMのスティグマ
- メンタルヘルスケアにおけるLLM活用が期待される中で，潜在的な偏向の理解は重要である。
- 従来の評価手法では，LLMの推論過程に埋め込まれた偏見を捉えきれないという課題があった。
- LLMの推論分析を通じて，精神疾患に対するスティグマのパターンと原因を特定し，軽減を目指す。
- LLMの推論過程を分析することで，従来の選択式問題よりも多くのスティグマが明らかになった。
- 臨床専門家の知識に基づき，スティグマの言語パターンを分類し，その深刻度を評価した。
- LLMの推論における論理的欠陥や，精神疾患に対する理解の誤りを特定することができた。
Link: https://arxiv.org/abs/2604.25053
CiteRadar：研究者プロファイリングと地理的視覚化のための引用インテリジェンスプラットフォーム [cs.CY, cs.LG, cs.DL, cs.HC, cs.IR]目的：研究者の引用の地理的範囲とコミュニティ構造の把握
- 研究者のキャリア開発，助成金申請，共同研究の発見において，引用の地理的影響の理解は重要である。
- 詳細な引用メタデータなしに集計された引用数のみを提供する，高価な機関サブスクリプションが必要なツールが課題である。
- Google Scholar IDから研究者の引用情報を分析し，地理的視覚化を提供するオープンソースシステムの構築。
- CiteRadarは，Google Scholar IDを入力するだけで，研究者の論文リスト，引用論文，統計要約，インタラクティブな世界地図を生成する。
- Unicodeの改行文字問題を解決するメタ文字列パーサー，著者識別システムの改善により，h-indexの誤りを大幅に削減した。
- OpenAlexのURL変換修正により，都市レベルの研究者位置データの割合を大幅に向上させ，地理的視覚化を強化した。
Link: https://arxiv.org/abs/2604.25057
Spark Policy Toolkit：Sparkにおけるポリシー学習のための意味論的契約とスケーラブルな実行 [cs.DC, cs.DB, cs.LG, cs.PF, cs.SY, eess.SY]目的：Sparkにおけるスケーラブルなポリシー学習のためのシステムツールキット
- ビッグデータ処理において，機械学習によるポリシー学習は重要であり，その効率化が求められている。
- 従来のSparkにおけるポリシー学習パイプラインは，Python実行の非効率性や分割探索の不安定性により，大規模データへの適用が困難であった。
- 本研究は，これらの問題を解決し，Spark環境において効率的かつ安定したポリシー学習を実現することを目的とする。
- Spark Policy Toolkitは，Sparkネイティブなプリミティブを提供し，ベクトル化された推論と収集を伴わない分割探索を可能にする。
- mapInArrowは，1000万件のマッチング行で4.72M行/秒，5000万件で7.23M行/秒の処理速度を達成し，スケーラビリティを実証した。
- 固定入力制約を適用することで，データ再分割などの操作においてもポリシーの整合性が保たれることが確認された。
Link: https://arxiv.org/abs/2604.25061
最先端のコーディングエージェントがAlphaZeroの自己対戦機械学習パイプラインをConnect Fourに実装し，外部ソルバーと同等の性能を示す [cs.MA, cs.AI, cs.LG]目的：AI研究の加速を意味するAIシステムの能力を予測する指標の確立
- AIの安全性確保において，AIが自律的に研究開発を進める可能性を早期に把握することが重要である。
- 既存のベンチマークは，AIの総合的な能力向上を測るが，自己改善の兆候を早期に捉えるには不十分である。
- 過去のAI研究成果を参考に，AIが自律的に機械学習パイプラインを実装できるかを評価するベンチマークを提示する。
- 最先端のエージェントであるClaude Opus 4.7は，Pascal Pons Connect Fourソルバーに対し，先手で8回中7回勝利し，統計的に有意な差が見られた。
- 2026年1月に開発を開始した当初は信頼性の高い完了が困難だったタスクが，現在ではほぼ飽和状態に達している。
- GPT-5.4は他のエージェントと比較して，割り当てられた時間予算を大幅に下回る傾向が見られ，時間予算の使い方の違いが示唆された。
Link: https://arxiv.org/abs/2604.25067
補助識別子を必要としないスケーラブルな安全な生体認証 [cs.CR, cs.AI, cs.CV, cs.LG]目的：大規模生体認証システムの安全性確保
- 利便性から生体認証利用が増加しており，パスワード不要化が期待される。
- クラウドデータベースの漏洩は，登録された大量の生体情報を危険に晒す重大な問題である。
- データベース漏洩に対する安全性を保証しつつ，実用的なスケーラビリティと性能を実現すること。
- 本研究は，補助識別子なしで実用的なプライバシー保護生体認証が可能であることを初めて示した。
- AIと高度な暗号技術を組み合わせることで，データ漏洩に対する証明可能なセキュリティを確保した。
- 提案システムはスケーラブルかつ高性能であり，産業界での普及とさらなる研究を促進すると考えられる。
Link: https://arxiv.org/abs/2604.25071
制約下機械学習展開最適化のための，実行可能性優先探索 [cs.LG]目的：制約下機械学習展開における最適化手法の開発
- 機械学習モデルの産業利用が拡大する中で，効率的な展開が不可欠である。
- 展開環境の制約により，多くの設定が実行不可能となる場合がある。
- 無駄な試行を減らし，限られた評価予算で最適な設定を見つける。
- 提案手法Thermal Budget Annealing (TBA) は，実行可能な領域を事前に探索することで，初期の探索効率を改善する。
- TBAは，試行時間制限と部分空間のブラックリスト化により，ホステルなハードウェア環境でもロバスト性を維持する。
- ベンチマーク実験により，TBAは制約の厳しい環境下で，より良いモデルファミリーを発見し，無駄な予算を削減できることが示された。
Link: https://arxiv.org/abs/2604.25073
多様な報酬整形における疎な報酬タスクに対するゼロショット協調 [cs.LG]目的：異なる報酬整形を用いた疎な報酬タスクにおけるゼロショット協調
- マルチエージェント強化学習は，複雑なタスクを解決するための有望な手法である。
- 異なる学習条件のエージェント間での協調は難しく，既存手法では対応が不十分である。
- 報酬整形が異なるエージェント間での協調を可能にする手法を開発する。
- 報酬整形をランダム化して学習したアンサンブル手法が，ベースライン手法と比較して62.2%-119.2%の性能向上を示した。
- 報酬整形の違いを考慮することで，未知のエージェントとの協調が改善されることが示された。
- Overcooked環境において，提案手法が疎な報酬環境下で優れた協調能力を発揮することが確認された。
Link: https://arxiv.org/abs/2604.25076
弱対強アライメントにおけるリスク評価：バイアス・バリアンスの視点 [cs.AI]目的：弱対強アライメントにおけるリスクの評価
- スケーラブルな教師あり学習を目指す上で，弱対強アライメントは重要な手法である。
- 強モデルが，弱教師の苦手分野において誤った自信を持つ場合に失敗が起こりうる。
- 強モデルの信頼度と不確実性の分布に着目し，弱対強アライメントの失敗原因を特定する。
- 弱対強アライメントにおけるリスクの上限値を，ミスマッチ理論に基づいて導出した。
- 実験的に，強モデルのバリアンスが欺瞞を予測する最も強力な指標であることが示された。
- 盲点評価により，失敗が弱教師の限界に由来するのか，強モデルの不確実性によるのかを区別できる。
Link: https://arxiv.org/abs/2604.25077
エージェントアーキテクト：建築設計の探索と最適化のためのエージェントAIフレームワーク [cs.CY, cs.AI, cs.AR]目的：コンピュータアーキテクチャ設計の探索と最適化
- 高性能なコンピュータシステムの実現には，複雑なマイクロアーキテクチャ設計が不可欠である。
- 従来の設計手法では，広大な設計空間を効率的に探索することが困難であった。
- LLMを活用し，マイクロアーキテクチャ設計の自動探索と最適化を実現すること。
- エージェントアーキテクトは，LLMによるコード進化とサイクル正確なシミュレーションを組み合わせることで，最先端の設計に匹敵またはそれを上回る性能を達成した。
- キャッシュ置換においては，LRUに対して1.062倍のIPC速度向上，Mockingjayに対して0.6%の改善を達成した。
- 分岐予測器においては，Bimodalに対して1.100倍のIPC速度向上，Hashed Perceptronに対して1.5%の改善を達成した。
Link: https://arxiv.org/abs/2604.25083
敵対的エージェントの最適監査 [cs.GT, cs.AI, cs.CY]目的：不正行為の検出と抑制のための監査方針
- 資源配分における不正は，社会サービスや信用供与など様々な分野で問題となる。
- エージェントが自己の利益のために虚偽の報告を行うことが，資源配分の公平性を損なう。
- 最適な監査方針を設計することで，不正行為を検出し，資源配分の効率性を高める。
- 複数のエージェントが存在する状況下での監査方針設計を，プリンシパル・エージェントゲームとして定式化した。
- 監査方針がエージェントの報告分布に応じて変化する適応的設定と，変化しない非適応的設定の両方について検討した。
- 両設定において最適な監査方針を計算するための効率的なアルゴリズムを提示し，監査予算が限られた状況への拡張も行った。
Link: https://arxiv.org/abs/2604.25085
協力して競争：マルチエージェント制覇における戦略的協調 [cs.AI, cs.CL]目的：マルチエージェント環境における戦略的協調のメカニズム
- 現実世界の複雑な交渉場面をAIに学習させる上で，協調と競争が混在する環境の研究が重要である。
- 既存のAIエージェントは，短期的な協調と長期的な競争目標のバランスをうまく取ることが難しい。
- 言語モデルベースのAIが，複雑な協調的交渉を成功させるための条件を明らかにすること。
- 人間とAIの交渉行動には有意な違いがあり，人間はより単純な取引を好み，AIよりも協調性が低いことが示された。
- 人間はより積極的な交渉者であり，AIよりも反論なしに取引を受け入れる割合が低い。
- 人間交渉行動に着想を得たプロンプト調整により，AIの勝率が22.2%から32.7%に向上した。
Link: https://arxiv.org/abs/2604.25088
テスト時スケーリングにおけるLLMプルーニングの効果の再検討：より少ないリソースでより多くの成果を [cs.HC, cs.CL, cs.HC, cs.AI, cs.CL, cs.LG]目的：LLMプルーニングによるテスト時スケーリング性能の向上
- 大規模言語モデルの推論コスト削減は，実用化に向けた重要な課題である。
- 構造化プルーニングは，推論時の性能低下を引き起こすことが示唆されている。
- 非構造化プルーニングがテスト時スケーリング性能に与える影響を検証する。
- 非構造化プルーニングは，構造化プルーニングと比較してテスト時スケーリング性能を向上させる。
- 場合によっては，非構造化プルーニングが元のモデルを超える性能を示す。
- 層ごとの疎性割り当て戦略が，非構造化プルーニングの効果に影響を与える。
Link: https://arxiv.org/abs/2604.25098
信頼できないエージェントスキルの構造化セキュリティ監査と堅牢性の向上 [cs.CR, cs.AI]目的：信頼できないエージェントスキルのセキュリティ監査手法の確立と，その堅牢性の向上
- エージェントの能力拡張は，その利便性から急速に普及しているが，セキュリティ上の懸念が重要になっている。
- 既存のガードレールはリスクを検知するものの，意味を保ちながら書き換えられた悪意のあるコードを安定的に検出しにくい。
- エージェントスキルのセキュリティ監査を，より正確かつ堅牢な三方向分類タスクとして捉え，解決を目指す。
- SkillGuard-Robustは，SkillGuardBenchおよび2つのパブリックエコシステム拡張において，高い精度を達成した。
- 404パッケージの評価では，全体的な完全一致率が97.30%，悪意のあるリスクのリコールが98.33%，攻撃の一貫性に関する完全一致率が98.89%に達した。
- これらの結果は，パッケージの因子化された監査が，堅牢性を実質的に向上させることを示唆している。ただし，外部ソースからの転送に関する課題は残る。
Link: https://arxiv.org/abs/2604.25109
知識蒸留は，その喪失を考慮しなければならない [cs.LG, cs.AI]目的：知識蒸留における性能喪失の評価と可視化
- 大規模モデルの実用化には蒸留が不可欠であり，その信頼性確保が重要である。
- 従来の評価指標では，不確実性や安全性の低下など，潜在的な性能喪失が見過ごされがちである。
- 知識蒸留における性能喪失を明確化し，説明責任を果たすための枠組みを提案する。
- 知識蒸留は教師モデルの能力を完全に再現できず，情報が失われることを前提とすべきである。
- 既存研究を分析し，蒸留によって生じる性能喪失の具体的な種類を分類した。
- シナリオに応じた性能維持目標と，「蒸留損失記述書」の作成を提案し，透明性と説明責任を促進する。
Link: https://arxiv.org/abs/2604.25110
生成を伴わない評価：CSAMへの有害なモデル特化の非生成的評価と応用 [cs.HC, cs.GL, cs.LG, cs.CY]目的：有害なモデル特化の非生成的評価手法
- 公開されている生成モデルの悪用を防ぐことは，プラットフォーム運営において重要な課題である。
- 生成による評価はスケーラビリティに限界があり，特にCSAMのような法規制のある分野では適用が困難である。
- 出力生成を伴わずにモデルの有害な特化を検出し，プラットフォームレベルでの安全性を確保すること。
- Gaussian probingは，LoRAアダプターによる内部表現の摂動を，ガウス潜在アンサンブルへの応答を測定することで特徴づける。
- この手法は，出力サンプリングを必要とせず，有害な特化と無害な特化を確実に区別できる。
- CSAMに特化したモデルの検出など，高リスク領域における有効性が実証された。
Link: https://arxiv.org/abs/2604.25119
M$^3$-VQA：マルチモーダル，多エンティティ，多段階の視覚的質問応答のためのベンチマーク [cs.CL, cs.CV, cs.AI]目的：マルチモーダル大規模言語モデルにおける，詳細なマルチモーダルエンティティ理解と複雑な多段階推論の評価強化
- 視覚情報と言語情報を統合した理解は，AIの応用範囲を広げ，より高度な知能を実現する上で重要である。
- 既存のVQAデータセットは，粗いカテゴリと単一エンティティに関する単純な推論に焦点を当てており，複雑な状況への対応が困難である。
- 複数のエンティティと文書を対象とした，より高度な推論能力を必要とするVQAデータセットを構築し，評価すること。
- M$^3$-VQAは，マルチモーダル大規模言語モデルにおける知識獲得と推論に，依然として大きな課題が存在することを示した。
- 外部情報なしでは性能が低いものの，正確な証拠が与えられると大幅に向上し，構造化された推論の重要性が示唆された。
- 推論を意識したエージェントによる検索手法が，ヒューリスティックな手法を上回り，複雑なマルチモーダル理解には構造化された推論が不可欠であることが強調された。
Link: https://arxiv.org/abs/2604.25122
低ランク適応による統一的な多タスク脳波解析へ [cs.CL, cs.LG, cs.AI]目的：多タスク脳波解析のためのフレームワーク
- 脳波解析は，脳の活動を理解し，脳疾患の診断や脳コンピュータインターフェースの開発に不可欠である。
- 既存の脳波解析手法では，タスクごとにモデルを個別に調整する必要があり，計算コストが高い。
- 本研究は，複数のタスクを同時に適応させ，計算コストを削減しつつ高性能を達成することを目指す。
- 本研究で提案するMTEEGは，タスク固有の低ランク適応モジュールを組み込むことで，タスク間の競合を緩和する。
- 実験の結果，MTEEGは既存のシングルタスク手法を上回り，多くの評価指標で優れた性能を示した。
- MTEEGは，汎用的な脳コンピュータインターフェースの開発を促進する可能性を示唆している。
Link: https://arxiv.org/abs/2604.25131
LLMに対する摩擦的方策最適化：認識的介入，リスク感受性制御，そして内省的整合性 [cs.CL, cs.CL, cs.AI, cs.LG]目的：言語モデルの方策学習における，発言内容だけでなく，介入のタイミングと方法の制御
- 大規模言語モデルの利用拡大に伴い，安全性や倫理的な問題への対応が不可欠となっている。
- 従来の整合性手法は表面的な選好やタスクの有用性のみを最適化し，認識的・規範的リスクへの対処が不十分である。
- 認識的質を向上させる介入決定に基づき，リスクに配慮した制御を実現し，整合性の欠陥を解決する。
- 摩擦的方策最適化（FPO）は，明確化，検証，異議申し立て，誘導，拒否などの介入を明示的な制御アクションとして扱う。
- FPOは，下流の認識的品質への影響を予測し，介入決定を行うことで，リスク感受性を持つ認識的制御問題として整合性を形式化する。
- 評価フレームワークを通じて，明確化行動，キャリブレーション，矛盾修正，拒否の妥当性，情報効率などを測定し，認識的コンピタンスを直接評価する。
Link: https://arxiv.org/abs/2604.25136
UnIte：情報検索におけるドメイン適応のための不確実性に基づく反復ドキュメントサンプリング [cs.IR, cs.AI]目的：情報検索におけるドメイン適応のためのドキュメントサンプリング手法
- 近年，ニューラル情報検索の性能向上が期待される中で，異なるドメインへの適応が重要課題となっている。
- 従来のドキュメントサンプリングは多様性を重視するが，モデルの不確実性を考慮できていないという課題がある。
- モデルの不確実性を考慮したドキュメントサンプリングにより，少ない学習データで高い性能を実現することを目指す。
- 提案手法UnIteは，高い不確実性を持つドキュメントをフィルタリングし，学習効果の高いドキュメントを優先的に選択する。
- BEIRコーパスを用いた実験により，UnIteは既存手法と比較して，nDCG@10でそれぞれ+2.45，+3.49の改善が見られた。
- UnIteは，より少ないサンプルサイズ（平均4k）で，高い性能を達成できることが示された。
Link: https://arxiv.org/abs/2604.25142
勾配方向の感度分析から明らかになる線形重心結合：最適化手法の軌跡に隠されていたもの [cs.LG, cs.AI]目的：最適化手法の軌跡に隠されていた線形重心結合の存在
- 深層学習モデルの学習過程理解は，性能向上や汎化性能の改善に不可欠である。
- 既存の手法では，学習過程における特徴形成の場所特定が困難であった。
- 勾配方向の感度分析により，特徴形成が集中するパラメータ空間領域を特定する。
- AdamWの更新におけるローリングSVDを損失勾配のローリングSVDに置き換えることで，診断精度が1～2桁向上する。
- タスクの勾配を集約すると診断が困難になるが，タスクごとの勾配に対してSVDを行うことでこれを解決できる。
- 注意層の更新をランク3の部分空間に制約することで，grokkingが約2.3倍加速されることが示された。
Link: https://arxiv.org/abs/2604.25143
信頼性の高いLLMを活用したデータ分析のためのセマンティックレイヤー：3つの最先端モデルにおける精度と幻覚のペア比較ベンチマーク [cs.AI]目的：LLMを活用したデータ分析における精度と幻覚の問題解決
- データ分析において，自然言語による問い合わせは利便性が高く，普及が期待されている。
- LLMはスキーマのみではビジネスセマンティクスを推論する必要があり，誤りや幻覚を生じやすい。
- セマンティックレイヤーを提供することで，LLMの精度向上と幻覚の抑制を目指す。
- セマンティックレイヤーを追加することで，3つのモデル全てにおいて精度が17〜23%向上した。
- セマンティックレイヤーの有無でモデル間の性能差がほぼ解消されることが示された。
- モデル選択よりも，明示的なビジネスセマンティクスがエラー抑制に重要であることが示唆された。
Link: https://arxiv.org/abs/2604.25149
過パラメータ化ネットワークの最適化における対称性の役割 [cs.LG, cs.AI]目的：過パラメータ化ネットワークの最適化における対称性の影響
- 深層学習の成功には過パラメータ化が不可欠であり，その最適化メカニズムの理解が重要である。
- 過パラメータ化が最適化を改善する仕組みは十分に解明されていない。
- 過パラメータ化が最適化に有利に働く対称性の役割を明らかにすること。
- 過パラメータ化は，ヘッセ行列に対する対角事前条件化の役割を持つ対称性を生み出す。
- これにより，同等の機能を持つ解の中で，より条件数の良い極小値の存在が可能となる。
- 過パラメータ化は，典型的な初期化近傍における大域的最小値の確率質量を増加させ，到達可能性を高める。
Link: https://arxiv.org/abs/2604.25150
表形式基盤モデルのための事前整合型データクレンジング [cs.LG, cs.DB]目的：表形式基盤モデルにおけるデータクレンジング手法の確立
- 近年，小規模な表形式データセットで高いゼロショット精度を実現する表形式基盤モデルが注目されている。
- 現実世界のデータに含まれる欠損値，外れ値，重複は，モデルの事前分布とのずれを引き起こし，精度と信頼性を低下させる。
- モデルの事前分布とのずれを最小化する，データクレンジングのための強化学習フレームワークを開発する。
- L2C2は，表形式データのクレンジングを事前整合として捉える初の深層強化学習フレームワークである。
- 提案手法であるTFMAwareRewardは，4/10のデータセットで構造的に異なるパイプラインを選択し，TabPFN精度を向上させた（平均0.851 vs 0.843）。
- 単一のソースデータセットで事前学習されたポリシーは，他のデータセットでのファインチューニングにおいて，ゼロから学習するよりも優れた性能を示した。
Link: https://arxiv.org/abs/2604.25154
表形式ファウンデーションモデルを用いたデータスパース性と不均衡性の克服に向けた，正確かつ堅牢な生成アプローチ [cs.LG]目的：土石流モデリングにおけるデータスパース性と不均衡性の克服
- 土石流調査は，地質，水文，人為的要因に影響を受ける十分でバランスの取れた観測データに依存する。
- 既存の土石流インベントリは，多くの場合スパースかつ不均衡であり，トリガー条件と破壊メカニズムの理解を制限する。
- 本研究は，限られた観測データから特徴量間の依存関係を捉え，データ不足による課題を解決することを目指す。
- 提案手法は，表形式ファウンデーションモデルを活用することで，土石流発生に内在する多変量依存性と統計的特性を効果的に保持する。
- 20の土石流インベントリに対する比較実験により，生成されたデータセットが観測された分布と密接に一致し，現実的な特徴量間の依存関係を維持し，異なる環境状況下で堅牢性を示すことが示された。
- 本研究は，限られた観測下での土石流感受性モデリングとリスク評価を強化するための有効なアプローチを提供する。
Link: https://arxiv.org/abs/2604.25159
どこで間違ったのか？ビジョンと言語によるナビゲーションエージェントにおける能力指向の故障原因特定 [cs.MA, cs.AI]目的：ビジョンと言語によるナビゲーションエージェントの故障原因の特定
- 安全性が重要なアプリケーションにおいて，エージェントの信頼性向上は不可欠である。
- 既存のテスト手法はシステムレベルであり，故障原因の特定が困難である。
- 能力レベルでの故障特定と，エージェント改善のための指針の提供。
- 本手法は，最新のベースラインと比較して，より多くの故障事例を発見し，能力レベルの欠陥をより正確に特定する。
- 適応的なテストケース生成，能力オラクル，および故障原因を特定するフィードバックメカニズムを組み合わせることで，故障の検出と原因特定を可能にする。
- 故障原因の特定結果は，解釈しやすく，エージェント改善のための具体的な指針を提供する。
Link: https://arxiv.org/abs/2604.25161
Transformer を汎用コンピューターとして訓練 [cs.AI]目的：MicroPy プログラム実行能力
- 近年，大規模言語モデルは多様なタスクに対応可能となり，その汎用性が注目されている。
- 従来の言語モデルはプログラムの実行能力に限界があり，複雑な計算処理が困難であった。
- Transformer が汎用的な計算機として機能し，未知のプログラムを実行できるか検証する。
- Transformer は，簡略化されたプログラミング言語 MicroPy におけるプログラム実行を学習可能であることが示された。
- 学習済みモデルは，ビット操作や加算，SAT 問題の検証など，様々なプログラムに対して高い汎化性能を示した。
- MicroPy が任意の計算を表現できることから，標準的な Transformer を汎用コンピューターとして訓練できるという実証的証拠が得られた。
Link: https://arxiv.org/abs/2604.25166
洞察から行動へ：大規模言語モデルにおける解釈可能性に基づくデータ選択の新しいフレームワーク [cs.AI]目的：大規模言語モデルの解釈可能性に基づくデータ選択手法
- 大規模言語モデルの性能向上は重要であり，そのための効率的な学習方法が求められている。
- モデルの内部構造の解釈可能性と，それを活用したモデル最適化の間のギャップが存在する。
- モデルの内部タスク特徴に基づいたデータ選択により，効率的な学習と性能向上を目指す。
- 提案手法IGDSは，Gemma-2-2Bにおいて，全データでのファインチューニングを17.4%上回り，データ使用量を50%に抑えた。
- IGDSは，数学，要約，翻訳タスクにおいて，既存のデータ品質・多様性重視の手法よりも優れた性能を示した。
- タスク特徴の増幅とタスク性能の向上が正の相関関係にあることが確認された。
Link: https://arxiv.org/abs/2604.25167
マルチドメイン小売請求書デジタル化のための適応的改善を備えたOCRパイプラインのベンチマーク [cs.CV, cs.LG]目的：マルチドメイン小売請求書デジタル化のための知的な品質認識型適応的OCRパイプラインの提案とベンチマーク
- 小売業における請求書処理の自動化は，業務効率化とコスト削減に不可欠である。
- スキャン品質のばらつき，レイアウトの多様性，業界ごとの違いがデジタル化の課題となっている。
- 多様な小売業界の請求書に対し，高精度かつ高速なデジタル化を実現することを目指す。
- 提案システムは，18.4%の文字誤り率(CER)と27.6%の単語誤り率(WER)を達成し，Raw Tesseractと比較してそれぞれ26.4%と31.2%の改善を示した。
- テキスト密度は画像あたり108.3語，ノイズ比は2.3%であり，処理時間は画像あたり3.64秒で，EasyOCRと比較して6.4倍高速である。
- MEDIUMおよびLOW品質の画像に対する画像品質PSNR分析では，平均28.7dBの向上が確認され，有意な改善が示された。
Link: https://arxiv.org/abs/2604.25176