arXiv雑要約

AI - 2026/04/28 公開

MultiDx：診断推論に向けた多岐にわたる知識源統合フレームワーク [cs.CL, cs.AI]目的：診断推論のための知識源統合フレームワーク
- 医療現場では正確な診断が不可欠であり，臨床推論能力が重要視される。
- 既存手法は知識不足や適応性の低さから，診断推論の能力が制限されている。
- 複数の知識源からの証拠統合による，診断精度の向上と臨床推論経路との整合性。
- MultiDxは，ウェブ検索，SOAP形式症例，臨床症例データベースなど複数の知識源を活用して，鑑別診断を行う二段階のフレームワークである。
- 生成された仮説診断と推論経路を照合，投票，鑑別診断を通じて統合し，最終的な予測を導き出す。
- 公開ベンチマークにおける実験により，本手法の有効性が示された。
Link: https://arxiv.org/abs/2604.24186
もはや見ることを信じるな：最先端の画像生成モデル，合成された視覚的証拠，そして現実世界のリスク [cs.CL, cs.AI]目的：合成視覚的証拠のリスクに関する技術的および政策分析
- 視覚情報は社会における信頼の重要な近道である。画像生成技術の進歩は，この信頼を揺るがす可能性がある。
- 高精細な画像生成モデルの登場により，偽の情報が拡散されるリスクが高まっている。
- 画像生成モデルの能力と現実世界への影響を分析し，リスク軽減策を提案する。
- 最新の画像生成モデルの能力が詳細にまとめられ，その特性と潜在的な危険性が明らかになった。
- 偽の危機画像，有名人画像，医療スキャンなどの事例分析から，リスクは単に写真のリアルさだけでなく，テキストの可読性，個人識別，拡散速度などの要素が複合的に作用することが示された。
- モデル側の制限，暗号的証明，ラベル表示，プラットフォームでの摩擦，専門的な検証，インシデント対応など，多層的な制御策の必要性が提言された。
Link: https://arxiv.org/abs/2604.24197
科学的プロセスへの報酬：エージェント型データ分析のためのプロセスレベル報酬モデリング [cs.CL, cs.AI, cs.CE, cs.LG, cs.MA]目的：エージェント型データ分析におけるプロセスレベルの報酬モデリング
- データ分析の自動化は，複雑な問題解決や新たな発見を支援する上で不可欠である。
- 既存の報酬モデルは，データ分析における潜在的なエラーや試行錯誤を適切に評価できない場合がある。
- データ分析エージェントの性能向上を目指し，環境を考慮した報酬モデルを開発すること。
- DataPRMは，環境とのインタラクションを通じて中間実行状態を検証し，静的なエラーを検出する機能を備えている。
- DataPRMは，修正可能なエラーと回復不能なエラーを区別する反省的3値報酬戦略を採用し，より適切な評価を実現している。
- ScienceAgentBenchおよびDABStepにおいて，DataPRMを用いたポリシーLLMの性能がそれぞれ7.21%，11.28%向上した。
Link: https://arxiv.org/abs/2604.24198
ドリフトモデルに基づく音声強調 [cs.SD, cs.AI, eess.AS, eess.SP]目的：音声強調の新たな生成フレームワーク
- 現代社会において，音声通話や録音の品質向上は重要性が高い。
- 従来の音声強調は，計算コストの高い反復処理を必要とする場合が多い。
- 本研究は，一ステップで高品位な音声強調を実現する手法を提案する。
- 提案手法DriftSEは，ノイズ除去を平衡問題として定式化し，一ステップで推論を行う。
- DriftSEは，学習された補正ベクトルであるドリフト場により，高密度領域へサンプルを導く。
- VoiceBank-DEMANDベンチマークにおいて，拡散モデルを凌駕する性能を達成した。
Link: https://arxiv.org/abs/2604.24199
信頼度に基づくマルチオミクスグラフ学習による癌サブタイプ分類 [cs.LG, q-bio.GN, q-bio.MN]目的：癌サブタイプの分類
- 癌のサブタイプ分類は，個別化医療の実現に不可欠であり，より精密な診断と治療法の選択を可能にする。
- 既存手法では，各オミクスデータの信頼性を独立に評価できず，ノイズを含むデータが結果を歪める可能性がある。
- オミクスデータの信頼度を考慮したグラフ構築により，より正確な癌サブタイプ分類を目指す。
- 提案手法CMGLは，既存の最良手法と比較して，平均精度が4.03%向上した。
- CMGLは，乳癌のPAM50サブタイプを再現し，その表現能力の高さを示した。
- 乳癌で学習したモデルを腎癌に転移させた結果，予後が異なる患者群に分類できた。
Link: https://arxiv.org/abs/2604.24201
エージェントによる証言：実用的かつスケーラブルなTEEを用いたプライバシー保護監査 [cs.CE, cs.CR, cs.AI, cs.ET, cs.MA]目的：所有権のあるデータの意味的特性の監査
- データの信頼性確保は重要であり，特に機密性の高いデータにおいて，その検証方法が課題となる。
- 従来の検証手法は，データの開示を伴うため，プライバシー保護との両立が困難であった。
- TEEを活用し，データの開示なしに質的な検証を可能にする新しい監査フレームワークを提案する。
- 本研究で提案する「エージェントによる証言」フレームワークは，検証を信頼された実行環境(TEE)内のLLMによる推論に委ねることで，プライバシーを保護する。
- GitHub上の21の論文とそのコードベースを用いて実験を行った結果，コードベースが論文の内容と整合しているかどうかの検証が可能であった。
- TEEを用いたエージェントによる監査は，データ開示の必要なく質的な検証を行うための効果的なメカニズムを提供する。
Link: https://arxiv.org/abs/2604.24203
RefEvo：共進化検証によるエージェント設計を用いたアジャイル参照モデル生成 [eess.SY, cs.SY, cs.SE, cs.AI]目的：SoC設計における迅速な参照モデル開発
- SoCの複雑化に伴い，早期検証とアーキテクチャ探索が重要視されている。
- 既存の静的なワークフローは設計の複雑さに対応できず，LLMのコンテキストウィンドウ制限も課題である。
- 誤ったモデルを検証する検証失敗問題を解決し，信頼性の高い参照モデル生成を目指す。
- RefEvoは，動的な設計プランナーと共進化検証メカニズムにより，参照モデル生成の効率と信頼性を向上させる。
- 20のハードウェアモジュールで95%のパス率を達成し，既存手法を大幅に上回る性能を示した。
- コンテキスト最適化によりトークン消費量を平均71.04%削減し，仕様の再現性を100%維持した。
Link: https://arxiv.org/abs/2604.24218
適応的ToR：パレート最適マルチインテントNLUのための複雑度を考慮した木構造ベースの検索 [cs.AI]目的：マルチインテント自然言語理解のための，精度と計算効率を両立する検索システムの開発
- 自然言語理解は，人間とコンピュータ間のコミュニケーションを円滑にする上で不可欠である。
- 既存の検索システムは，再現率と遅延時間のバランスを取るのが難しい。
- クエリの複雑さに応じて検索構造を動的に調整することで，効率的な検索を実現する。
- NLU++ベンチマークにおいて，Subset Accuracyが29.07%，Micro-F1が71.79%を達成した。
- 固定深さベースラインと比較して，Subset Accuracyが9.7%向上し，遅延時間が37.6%削減された。
- LLMの呼び出し回数は43.0%，トークン消費量は9.8%削減され，効率的なシステムであることが示された。
Link: https://arxiv.org/abs/2604.24219
MEMCoder：プライベートライブラリ指向コード生成のための多次元進化型メモリ [cs.SE, cs.AI, cs.CL]目的：プライベートライブラリを活用したコード生成の性能向上
- 企業内システムでは，公開されていない独自のライブラリが頻繁に利用される。
- 大規模言語モデルは，これらの非公開ライブラリの知識が不足しているため，性能が低下する。
- API利用のパターンやパラメータ制約に関する知識を自動的に獲得・進化させる。
- MEMCoderは，静的ドキュメントと過去の利用実績から得られた知識を組み合わせることで，APIの理解を深める。
- 実行結果に基づき，自己学習ループを通して知識の衝突を解決し，メモリを動的に更新する。
- NdonnxEvalとNumbaEvalでの評価により，既存のRAGシステムを大幅に改善し，pass@1の平均絶対改善率は16.31%である。
Link: https://arxiv.org/abs/2604.24222
IMPA-Net：気象知識を考慮したマルチスケール注意機構と動的損失関数による，極端な対流レーダー短時間予報 [cs.SI, cs.LG]目的：極端な対流性降水に関するレーダー短時間予報の精度向上
- 短時間予報は，異常気象警報の発令に不可欠であり，その精度向上が社会に与える影響は大きい。
- 深層学習モデルは，ピクセル単位の誤差評価を用いるため，危険検知に重要な強烈なエコーを抑制する傾向がある。
- マルチスケール特徴量の相互作用不足と，異種地球物理学的入力の最適でない融合という問題を解決する。
- IMPA-Netは，東中国のマルチソースレーダーデータセットにおいて，45dBZ以上のHeidke Skill ScoreをSimVPベースラインの0.049から0.143へと大幅に向上させた。
- pySTEPSと比較して，IMPA-Netは，悪天候イベントの検知と誤報の抑制のバランスが改善された。
- スペクトル分析により，競合手法でみられる進行的な平滑化とは異なり，IMPA-Netはメソスケール帯域でのエネルギー保存が確認された。
Link: https://arxiv.org/abs/2604.24224
GeoEdit：拡散モデルにおける高速かつ学習不要なオン多様体編集のための局所フレーム [cs.LG]目的：拡散モデルにおけるオン多様体編集のための局所フレームの推定
- 拡散モデルはデータ生成において有力な手法であり，高品質な画像を生成可能。
- 編集強度ごとに全デノイジング軌跡を再実行するため，反復的な微調整にコストがかかる。
- 局所的な更新で編集を可能にし，反復的な再合成のコストを削減することを目指す。
- 摂動サンプルから局所多様体接空間を推定し，真の接空間を近似することを確認。
- 初期ノイズへの小さな摂動と拡散に基づく投影を交互に行うことで，ヤコビアンフリーなアルゴリズムを構築。
- 多様体上での方向への更新により，オフ多様体からのドリフトを抑制し，微細な編集を可能に。
Link: https://arxiv.org/abs/2604.24238
BitRL：リソース制約のあるエッジ展開のための1ビット量子化言語モデルによる強化学習 [cs.RO, cs.LG]目的：リソース制約下のデバイスにおける強化学習エージェントの構築
- 深層学習の発展は，知的なエージェントの実現に貢献する一方，計算資源を必要とする。
- 大規模言語モデルは強力だが，パラメータ数が多く，エッジデバイスへの搭載が困難である。
- 1ビット量子化言語モデルを用いることで，エッジデバイスでの強化学習を可能にすること。
- BitRLは，1ビット量子化言語モデルを用いて強化学習エージェントを構築するフレームワークである。
- BitRLは，フル精度ベースラインと比較して，メモリ使用量を10〜16倍削減し，エネルギー効率を3〜5倍向上させる。
- タスク性能は，85〜98％を維持し，商品ハードウェア上での有効性が示された。
Link: https://arxiv.org/abs/2604.24273
RAS：自動音声認識のための信頼性指向指標 [cs.SD, cs.AI]目的：自動音声認識システムの信頼性評価
- 音声認識は，様々なアプリケーションにおいて重要な役割を担う技術である。
- 従来の評価指標では，誤認識と信頼性の低さに十分に対応できていない。
- 不確実な箇所を回避し，信頼性と精度のバランスを取る指標を提案する。
- 本研究では，信頼性を考慮した新たな指標RASを提案し，人間の好みに基づいてパラメータを調整した。
- RASは，音声認識モデルが不確実な部分を適切に回避するよう促し，信頼性の高い転写を実現する。
- 実験の結果，RASを用いることで，精度の低下を抑えつつ，転写の信頼性が大幅に向上することが示された。
Link: https://arxiv.org/abs/2604.24278
モデルフリーな投資家選好の推論：相対エントロピー逆強化学習アプローチ [cs.LG]目的：投資家の報酬関数の復元
- 投資家の行動理解は，金融市場の効率性や安定化に不可欠である。
- 投資家の選好を直接観測することは難しく，行動データからの推論が必要となる。
- 遷移確率が不明な環境下での選好推論を可能にすること。
- 相対エントロピー逆強化学習（RE-IRL）を用いて，観測された投資行動と市場状況から投資家の報酬関数を復元する枠組みを提示した。
- データ不足に対応するため，$K$近傍法を用いて観測された行動ポリシーを推定した。
- 推定結果の妥当性と頑健性を評価するための統計的検定フレームワークを提案した。
Link: https://arxiv.org/abs/2604.24280
潜伏ヒステリシスグラフODE：連続相転移による結合トポロジー-特徴進化のモデリング [cs.LG, cs.AI]目的：グラフトポロジーと特徴量の進化を連続相転移を通じてモデル化すること
- グラフ学習は様々なタスクで高い性能を発揮しており，その重要性は増している。
- 従来のGraph ODEsは単一の安定状態に陥りやすく，情報漏洩が避けられないという課題がある。
- 本研究は，ヒステリシス機構を導入することで，この単一安定状態の問題を解決することを目指す。
- 提案手法HGODEは，潜在的なトポロジーポテンシャルと特徴進化を結合することで，より豊かなダイナミクスを実現する。
- エッジ間の相互作用を二重井戸型ポテンシャルで表現し，接続または絶縁状態への分極を可能にする。
- 理論的な解析と実験的な評価により，HGODEの有効性が確認された。
Link: https://arxiv.org/abs/2604.24293
SolarTformer：Transformerに基づく短期太陽光発電予測への深層学習アプローチ [cs.CL, cs.LG, cs.AI, physics.comp-ph]目的：短期太陽光発電量の予測
- 再生可能エネルギーの電力系統への効率的な統合には，正確な発電量予測が不可欠である。
- 既存のモデルは，太陽光発電量の時間的・空間的な変動を捉えるのが難しい場合がある。
- 異なる場所や構成の発電所でも汎化性能の高い予測モデルを構築すること。
- 提案モデルSolarTformerは，既存モデルと比較して，予測精度が大幅に向上した。
- 特に，晴天時と曇天時の両方で高い性能を示し，堅牢性と汎化性が確認された。
- 本研究は，太陽光発電予測の精度向上に，アテンション機構に基づくアーキテクチャが有効であることを示唆する。
Link: https://arxiv.org/abs/2604.24306
制約なし多視点人体姿勢推定における代数事前知識の活用 [cs.CV, cs.AI]目的：制約なし多視点画像からの3次元人体姿勢復元
- 現実世界の応用を考慮すると，正確なカメラキャリブレーションが困難な場合が多い。
- 既存手法は正確なカメラキャリブレーションに依存するため，汎用性に課題がある。
- カメラキャリブレーションなしで高精度な姿勢推定を実現し，汎用性を高める。
- 提案手法は，Transformer回帰と代数事前知識，時間的ダイナミクスを組み合わせたフレームワークである。
- Triangulation with Transformer Regressor (TTR)により，カメラパラメータに依存しない三角測が可能となった。
- Gröbner basis Corrector (GC)とTemporal Equivariant Rectifier (TER)により，幾何学的制約と時間的一貫性が保証され，性能が向上した。
Link: https://arxiv.org/abs/2604.24312
深層ニューラルネットワークの効率的かつ安定な学習のための自己抽象化学習 [cs.LG, cs.AI]目的：深層ニューラルネットワークの効率的かつ安定な学習法
- 深層学習は多様な分野で応用が広がっているため，その基盤となるニューラルネットワークの学習が重要である。
- 大規模ニューラルネットワークの学習では，勾配消失，過学習，学習の不安定性などの課題が存在する。
- 本研究は，上記課題を克服し，深層アーキテクチャの安定的な学習を可能にすることを目的とする。
- 自己抽象化学習（SAL）は，構造的複雑性に基づきネットワークを階層的に配置する新しいフレームワークである。
- SALでは，最も単純な上位ネットワークを最初に学習させ，その隠れ層と出力層を，下位のより複雑なネットワークの学習の指針として活用する。
- 実験の結果，SALはMLP，CNN，RNNなどの様々なアーキテクチャにおいて，従来の学習方法を安定的に上回り，データが限られた環境や複雑なネットワークにおいてもロバストな汎化性能を示すことが確認された。
Link: https://arxiv.org/abs/2604.24313
可逆ニューラルネットワークを用いたガスタービン燃焼器の生成設計 [cs.CL, cs.HC, q-bio.NC, cs.AI]目的：ガスタービン燃焼器の生成設計手法
- 高効率で低NOx燃焼を実現するためには，燃焼器設計が不可欠である。
- 100%水素燃焼に対応するためには，燃焼器の完全な再設計が必要となる。
- AI技術を用いて設計作業を効率化し，エンジンクラス間の知識転移を促進する。
- 可逆ニューラルネットワーク(INN)を用いて，性能目標を満たす燃焼器設計案を複数生成することに成功した。
- INNは，幾何学的パラメータ化された燃焼器設計データベースとシミュレーション結果に基づいて学習された。
- 本研究は，燃焼器の設計プロセスにおけるAI技術の応用可能性を示唆している。
Link: https://arxiv.org/abs/2604.24322
X-NegoBox：安全なピアツーピアエネルギーデータ交換のための説明可能なプライバシー予算交渉フレームワーク [cs.CR, cs.AI]目的：ピアツーピアエネルギーデータ交換における適応的なプライバシー予算と透明な意思決定
- エネルギーシステムの分散化が進み，消費者がデータ交換主体となりつつあるため，プライバシー保護が重要である。
- 既存のデータ共有メカニズムは固定的なポリシーに依存しており，データの機密性や要求の目的に対応できない場合がある。
- プライバシーを保護しつつ，データ共有の信頼性と参加率を向上させることを目指す。
- X-NegoBoxは，プライバシー予算を適応的に調整し，透明性の高い意思決定を実現する交渉フレームワークである。
- 実験により，プライバシー漏洩の低減，受諾率の向上，解釈可能性の改善が確認された。
- 各データはローカルに管理され，要求に応じてプライバシーを保護したカウンターオファーが生成される。
Link: https://arxiv.org/abs/2604.24326
高速敵対的学習における誤差増幅の緩和 [cs.LG, cs.CR]目的：モデルのロバスト性向上のための誤差増幅緩和戦略
- 近年，敵対的学習はモデルの頑健性を高める手法として重要視されている。
- 高速敵対的学習は過学習を起こしやすく，未知の攻撃への汎化性能が低いという課題がある。
- 提案手法は，サンプル信頼度に応じた動的なガイダンスにより，過学習とロバスト性・精度間のトレードオフを緩和する。
- 本研究では，ガイダンスの強度がモデル性能に及ぼす影響を詳細に分析した結果，低信頼度のサンプルが過学習と精度低下の主要因であることが明らかになった。
- 提案するDistribution-aware Dynamic Guidance (DDG) は，サンプル信頼度に基づき摂動予算と教師信号を動的に調整することで，過学習と精度低下を効果的に緩和する。
- 標準的なベンチマークを用いた実験により，DDGがロバスト性と精度のトレードオフを改善し，モデルの頑健性を向上させることが示された。
Link: https://arxiv.org/abs/2604.24332
強化学習による航空機操縦の最適化 [cs.CL, cs.LG]目的：航空機操縦における最適化手法の開発
- 航空機の安全性向上は，パイロットの訓練において不可欠であり，その効率化が求められている。
- パイロット訓練は時間とコストがかかる上，危険を伴うため，より安全かつ効率的な訓練方法が課題である。
- 特定の航空機操縦について，AIを活用した訓練モジュールを開発し，訓練の効率性と安全性を高める。
- 強化学習エージェントを用いて多数の航空機操縦をシミュレーションした結果，AIによる訓練ツールとしての有効性が示された。
- 本研究は，将来のパイロット訓練に活用できる，AI支援型訓練モジュールの開発に貢献する。
Link: https://arxiv.org/abs/2604.24338
より遠くを見て，より深く考える：低レベル視覚的手がかりと反省によるVLMの推論能力の向上 [cs.CV, cs.AI]目的：VLMの推論能力向上
- 視覚と言語を組み合わせるVLMは，多様なタスクに応用可能であり，AI研究において重要性が増している。
- 既存VLMは，低レベル視覚情報の活用不足や効果的な視覚的フィードバックの欠如により，推論能力に限界がある。
- 本研究は，低レベル視覚的手がかりと反省メカニズムを導入することで，VLMの推論能力を改善することを目指す。
- 提案手法ForeSightは，低レベル視覚ツールとマスクに基づく視覚的フィードバックにより，VLMの推論過程を強化する。
- ForeSightは，強化学習を用いてツール利用と回答検証を自律的に決定し，回答精度を向上させる。
- 新たなデータセットCG-SalBenchを用いた実験により，ForeSight-7Bが同規模モデルや既存SOTAモデルを上回る性能を示すことが確認された。
Link: https://arxiv.org/abs/2604.24339
SycoPhantasy: 小規模オープンウェイトVLMにおけるおべっか行為と幻覚の定量化 - ファンタジーキャラクターの視覚言語スコアリング [cs.CV, cs.AI]目的：視覚言語モデルにおけるおべっか行為と幻覚の定量化
- 画像理解を要するタスクで視覚言語モデルの利用が増加しているため，その信頼性評価が重要である。
- 画像とテキストの整合性評価において，視覚的根拠に基づかない高スコアを出す「おべっか行為」が問題となっている。
- 小規模VLMにおけるおべっか行為の度合いを定量化し，モデルサイズとの関係を明らかにすること。
- モデルサイズと「おべっか行為」の割合の間に強い負の相関関係が見られた(r = -0.96, p = 0.002)。
- 特に小型モデル(LFM2-VL, 450M)では22.3%のケースでおべっか行為が見られ，最大モデル(LLaVA-1.6, 7B)の6.0%と比較された。
- この結果は，属性が豊富な合成画像評価タスクにおいて，小型VLMを自動評価者として利用する際の注意点を示唆する。
Link: https://arxiv.org/abs/2604.24346
高速敵対的学習における壊滅的過学習の裏に隠されたバックドア機構の解明 [cs.CL, cs.LG, cs.AI, cs.CR]目的：高速敵対的学習における壊滅的過学習の解明と軽減
- ニューラルネットワークの頑健性は重要であり，敵対的攻撃への耐性を高めることが求められている。
- 高速敵対的学習は効率的だが，特定の攻撃に過学習し，汎化性能が低下する壊滅的過学習が発生しやすい。
- 本研究は，壊滅的過学習をバックドアの観点から解釈し，その軽減策を提案することを目指す。
- 壊滅的過学習を，学習不可能なタスクの一種である弱いトリガー変種として捉え，バックドア攻撃や学習不可能なタスクとの共通理論的枠組みを構築した。
- 壊滅的過学習の影響を受けたモデルパラメータを，ファインチューニングや線形プローブ，再初期化などの手法を用いて再調整する軽減策が有効であることを示した。
- モデルの重みにおける異常な逸脱を抑制する正則化制約を導入することにより，壊滅的過学習の軽減が可能であることを実証した。
Link: https://arxiv.org/abs/2604.24350
拡散テンプレート：制御可能な拡散のための統合プラグインフレームワーク [cs.LG, cs.AI, cs.CV, cs.SE]目的：制御可能な拡散モデルの統合と拡張性向上
- 拡散モデルは画像生成において高い性能を示すが，制御方法の多様性が課題となっていた。
- 制御手法が拡散モデルごとに異なり，再利用性や組み合わせが困難であった。
- 拡散モデルの制御機能を共通化し，柔軟な拡張と多様なタスクへの適用を目指す。
- 拡散テンプレートは，ベースモデルと制御機能を分離するプラグインフレームワークである。
- これにより，異なる制御方法を容易に組み合わせ，様々な拡散モデルに適用可能となる。
- 構造制御，明るさ調整，超解像など広範なタスクにおいて，高いモジュール性と拡張性を示した。
Link: https://arxiv.org/abs/2604.24351
ARETE：HSV変換されたクラウドソーシング車両隊データを用いたトポロジー推定のための注意機構に基づくラスタライズ化エンコーディング [cs.NI, cs.SY, eess.SY, cs.CV, cs.AI, cs.LG, cs.RO]目的：クラウドソーシング車両隊データからの中心線と車線境界線の生成
- 自動運転技術の発展は，安全性と効率性を確保するため，様々な分野に課題をもたらしている。
- 高精度なHDマップの維持・更新は重要だが，従来の作成方法はコストや時間，情報の鮮度が課題である。
- クラウドソーシングデータを活用し，効率的かつリアルタイムなHDマップの生成を目指す。
- 提案手法では，車両の走行軌跡をラスタライズ化し，DETRを用いてベクトル化された車線表現を予測する。
- 局所タイルから車両の走行軌跡を集約し，軌跡の存在と方向をエンコードしたラスタ表現を生成する。
- nuScenesやnuPlanを含むデータセットを用いた実験で，本手法の有効性が確認された。
Link: https://arxiv.org/abs/2604.24353
強化学習を用いた航空機異常姿勢回復システム [cs.LG]目的：航空機異常姿勢回復システムの開発
- 航空機の安全性が重要であり，パイロットの負担軽減が求められている。
- 異常姿勢からの回復は難易度が高く，パイロットの習熟度に依存する。
- AIを活用し，より効率的かつ安全な回復システムの実現を目指す。
- 本研究では，強化学習に基づく異常姿勢回復システムを開発した。
- 特に，ソフトアクタークリティック法とハイパーパラメータ最適化を活用した。
- 評価の結果，提案システムは従来の制御方法よりも望ましい挙動を示すことが示された。
Link: https://arxiv.org/abs/2604.24355
原始再帰の構成なし：ダイナミカルな特徴づけ - ニューラルネットワークから多項式ODEへ [cs.CC, cs.LG, cs.LO, cs.NE]目的：原始再帰のダイナミカルな特徴づけ
- 計算モデルの基礎理論を深める上で，再帰的関数論は重要な役割を果たす。
- 従来の再帰的関数論では，関数構成が基本的な操作として用いられる点が課題となる。
- 関数構成を用いずに，原始再帰をダイナミカルなシステムで表現することを目指す。
- 再帰型ニューラルネットワーク，多項式ODE，離散多項式写像の全てにおいて，原始再帰と同等の特徴づけが存在することが示された。
- 各形式は，時間制約が原始再帰的に定まる範囲で，ダイナミクスによって構成が実現される。
- 多項式ODEは，丸め誤差や位相選択を連続時間フローによってロバストに行うことができ，各形式の限界を補完し合うことが明らかになった。
Link: https://arxiv.org/abs/2604.24356
拡散言語モデルのためのDoob h変換誘導トークン順序化モジュールDPRM [cs.LG, cs.AI]目的：拡散言語モデルにおけるトークン順序化戦略の改善
- 拡散言語モデルは生成AIの重要な手法であり，その性能向上が求められている。
- 既存のトークン順序化手法には，訓練とテストの乖離や，探索不足の問題が存在する。
- Doob h変換に基づく新たなトークン順序化モジュールを導入し，性能向上を目指す。
- 提案手法DPRMは，既存の拡散言語モデルのアーキテクチャを変更することなく，トークン順序化ポリシーのみを改善する。
- DPRMは，自信度に基づく順序化から，Doob h変換による報酬誘導順序化へ徐々に移行することで，効率的な探索と高品質な生成を両立する。
- DPRMは，事前学習，後学習，テスト時スケーリング，シングルセルマスクド拡散など，多様な実験設定で既存手法を上回る性能を示した。
Link: https://arxiv.org/abs/2604.24357
SAGE：依存関係を考慮した疎な適応的ガイダンスによる表形式データ生成 [cs.CL, cs.LG]目的：プライバシー保護やリソース不足の状況下におけるデータ可用性向上のための高精度な合成表形式データの生成
- 表形式データは様々な分野で利用され，データ分析や機械学習の基盤となるため，その重要性は高い。
- 既存の手法では，特徴量間の依存関係を密にモデル化し，誤った相関関係を生み出す可能性がある。
- 特徴量の値に応じて変化する依存関係を考慮し，より正確で有用な合成データを生成することを目指す。
- SAGEは，特徴量を値に依存する疑似特徴量に離散化し，相互情報に基づいた疎な依存関係グラフを構築する。
- このグラフは，明示的なコンテキスト選択または暗黙的なロジット補正を通じて生成を適応的にガイドし，LLMが関連情報に集中することを可能にする。
- 実験の結果，SAGEは既存のLLMベースの手法と比較して，F1スコアを10%向上させ，ポリシー違反を減少させることを示した。
Link: https://arxiv.org/abs/2604.24368
PathMoG：多層オミクスデータを用いた生存予測のための経路中心モジュールグラフニューラルネットワーク [cs.LG, cs.AI]目的：多層オミクスデータからの癌生存予測
- 癌の予後予測は，個別化医療の実現に不可欠であり，その精度向上が強く求められている。
- 従来の解析では，遺伝子間の複雑な相互作用や経路情報を十分に活用できていない点が課題である。
- 遺伝子経路に着目し，多層オミクスデータを統合することで，より高精度な生存予測を目指す。
- PathMoGは，遺伝子発現量を，変異，コピー数変化，経路，臨床情報に基づいて調整する階層的オミクス変調モジュールを導入した。
- 10種類のTCGA癌患者5,650名を用いた評価の結果，既存の生存予測モデルと比較して一貫した改善が認められた。
- 遺伝子レベル，経路レベル，患者レベルでの解釈可能性を提供し，生物学的に妥当なリスク層別化を支援する。
Link: https://arxiv.org/abs/2604.24371
SeaEvo：戦略空間進化によるアルゴリズム発見の推進 [cs.CL, cs.AI, cs.NE]目的：アルゴリズム発見のための戦略空間進化
- 自動アルゴリズム発見は，複雑な問題解決に不可欠であり，計算資源の効率的な利用を可能にする。
- 従来の進化探索では，戦略の多様性を維持し，有望な探索方向を特定することが困難であった。
- 自然言語による戦略記述を導入し，探索過程における戦略の進化と保存を可能にすること。
- 本研究で開発されたSeaEvoは，LLMによるプログラム探索において，戦略空間を明示的に表現することで，探索の効率とロバスト性を向上させた。
- 数学的アルゴリズム発見，システム最適化，エージェント構築のベンチマークにおいて，既存の進化探索手法を上回る性能を示した。
- 特に，オープンエンドなシステム最適化タスクにおいて，21%の相対的な改善が見られ，長期的なアルゴリズム知識の蓄積への道筋を示唆している。
Link: https://arxiv.org/abs/2604.24372
認証済み幾何学的ロバスト性 -- Super-DeepG [cs.CL, cs.CL, cs.AI, cs.LG, cs.SC]目的：ニューラルネットワークの幾何学的摂動に対するロバスト性の検証
- 安全性が重要な応用分野では，期待通りの性能が不可欠であるため。
- 画像処理において，回転や拡大縮小などの微小な幾何学的摂動に対する頑健性が課題。
- 幾何学的摂動に対するロバスト性の検証精度と計算効率の向上を目指す。
- Super-DeepGは，線形緩和法やLipschitz最適化における推論を改善。
- GPUハードウェアを活用することで，既存手法を上回る精度と計算効率を実現。
- Super-DeepGは，GitHubでオープンソースツールとして公開されている。
Link: https://arxiv.org/abs/2604.24379
自己教師あり深層ReLUネットワークにおける線形領域の複雑性 [cs.RO, cs.LG, cs.CV]目的：自己教師あり学習モデルが生成する線形領域の局所分布
- 深層学習の性能向上には，表現空間の最適化が不可欠である。表現空間の構造理解が重要となる。
- 従来の線形領域の複雑性研究は，教師あり学習に限定されていた。自己教師あり学習における知見が不足している。
- 自己教師あり学習における線形領域の進化と表現品質の関係を解明し，表現学習の指標を確立する。
- 自己教師あり学習は，教師あり学習と同等の精度を達成するために，より少ない線形領域を生成することが示された。
- コントラスト学習は時間の経過とともに領域を急速に拡大する一方，自己蒸留法は隣接する領域を統合する傾向にある。
- 線形領域の幾何学的特性は，表現崩壊の早期検出や表現品質の信頼できる指標として活用できる可能性が示唆された。
Link: https://arxiv.org/abs/2604.24393
自らの声との整合：LVLMにおける幻覚軽減のための自己修正型嗜好学習 [eess.SY, cs.SY, cs.AI]目的：LVLMにおける幻覚軽減
- 大規模言語モデルの発展に伴い，画像とテキストの理解が重要視されている。
- LVLMは幻覚を起こしやすく，生成される情報の信頼性が課題となっている。
- モデル自身の知識を利用して幻覚を抑制し，より信頼性の高い出力を目指す。
- 提案手法AVES-DPOは，モデル自身の知識に基づいたデータを用いてLVLMを調整する。
- 合意に基づく検証メカニズムにより，多様な幻覚を診断し，自己修正を促す。
- 既存手法と比較して，わずか5.2kサンプルで幻覚軽減において優れた性能を示す。
Link: https://arxiv.org/abs/2604.24395
大域的文脈か局所的詳細か？幻覚軽減のための適応的視覚的接地 [cs.CV, cs.AI]目的：ビジョン-言語モデルにおける物体幻覚の軽減
- 視覚情報と言語情報を統合するモデルは，様々な応用において重要である。
- 既存モデルは言語的な事前知識に過度に依存し，視覚的事実と矛盾する幻覚を起こしやすい。
- 視覚的注意の偏りを修正し，より忠実な記述生成を目指す。
- 提案手法であるPNDは，モデルの再学習を必要とせずに推論時に幻覚を大幅に軽減する。
- PNDは，重要な視覚的証拠を増幅し，無根拠な生成を抑制する二重経路コントラストを用いる。
- POPE，MME，CHAIR等のベンチマークにおいて，最先端の性能を達成し，精度を最大6.5%向上させる。
Link: https://arxiv.org/abs/2604.24396
輝きは必ずしも音声ではない：音声言語評価におけるテキスト事前知識と音声依存性の再考 [cs.SD, cs.AI, cs.CL, eess.AS]目的：音声言語評価におけるテキスト事前知識と音声依存性の評価フレームワーク
- 音声言語モデルの性能向上は目覚ましいが，そのスコアが真の聴覚知覚を反映しているかは不明である。
- モデルが音声信号を処理せずに質問に答えられる場合，ベンチマークは聴覚理解の指標として機能しない。
- ベンチマーク性能と堅牢な音声理解との乖離を明らかにし，評価の信頼性とベンチマーク設計の改善を目指す。
- 大規模言語音声モデルは，音声なしでも高いスコアを維持しており，その割合は60〜72％に達する。
- 音声が必要な項目でも，完全な音声クリップが必要なものはわずか3.0〜4.2％に過ぎず，大部分は局所的な断片で解決可能である。
- ベンチマークの性能は，必ずしも堅牢な音声理解を意味しないことが示唆され，信頼性の高い評価のための指針が提示される。
Link: https://arxiv.org/abs/2604.24401
強化学習を用いた自動地上衝突回避システム [cs.LG, cs.RO]目的：自動地上衝突回避システムの設計
- 航空宇宙工学の進歩において，AI統合は運用効率とタイミングの向上に不可欠である。
- 限られた観測空間下での地上衝突回避システムの実現が課題となっていた。
- 高度なジェット練習機における安全性の向上と運用能力の拡大を目指す。
- 本研究では，高度なジェット練習機向けに特化したAI駆動の地上衝突回避システムを設計した。
- 地形サーバーの視線クエリを活用することで，精密かつ効率的な衝突回避を実現した。
- このシステムは，運用効果の向上に貢献し，安全性向上に寄与すると期待される。
Link: https://arxiv.org/abs/2604.24403
連続拡散音声言語モデルのスケール特性 [cs.CL, cs.AI, cs.LG]目的：音声言語モデルのスケール特性の定量化
- 音声認識技術は，人間と機械の円滑なコミュニケーションに不可欠であり，その性能向上は重要な課題である。
- 従来の音声言語モデルは，テキストやテキスト読み上げモデルに比べて性能が劣り，計算資源やデータ量も必要となる。
- 連続拡散音声言語モデルの有効性を検証し，効率的なモデルの構築を目指す。
- 連続拡散音声言語モデルも，自己回帰モデルと同様に，検証損失とpJSDに関してスケール則を示すことが明らかになった。
- 計算資源が増加するにつれて，最適なトークンとパラメータの比率が低下する傾向が確認された。
- 160億パラメータのモデルを構築し，多数の会話データを用いて多言語・多話者の感情豊かな音声生成が可能となった。
Link: https://arxiv.org/abs/2604.24416
Kwai Summary Attention に関する技術報告 [cs.CL, cs.CL, cs.AI, cs.IR, cs.LG]目的：長文コンテキストにおける注意機構の効率化
- 次世代大規模言語モデルにおいて，長文コンテキスト処理能力は重要な研究課題となっている。
- 標準的なsoftmax注意機構は，系列長に対して二次時間複雑度を持ち，計算コストが課題である。
- セマンティックレベルでの圧縮により，KVキャッシュと系列長の線形関係を維持しつつ効率化を目指す。
- 本研究では，過去の文脈を学習可能な要約トークンに圧縮する新しい注意機構Kwai Summary Attention (KSA)を提案する。
- KSAは，KVキャッシュのサイズを線形に保ちながら，長距離依存性の完全な保持と解釈可能性を重視する。
- これにより，計算コストを削減し，長文コンテキストモデリングの効率を高めることが期待される。
Link: https://arxiv.org/abs/2604.24432
PhysNote：ビジョン言語モデルにおける進化可能な物理推論のための自己知識ノート [eess.SY, cs.SY, cs.AI]目的：視覚と言語を扱うモデルにおける物理的推論能力の向上
- 物理現象の理解は，ロボット工学やAIの自律的な行動において不可欠である。
- 既存のモデルは，動的な現実世界のシナリオにおいて，時間的一貫性や因果関係の推論に課題がある。
- 時間的・空間的な一貫性を保ちつつ，推論結果を蓄積・再利用することで，物理的推論の精度を向上させる。
- PhysNoteは，自己生成された「知識ノート」を通じて物理的知識を外部化・洗練するエージェント的フレームワークである。
- このフレームワークにより，動的な知覚の安定化，知識の階層的な整理，そして視覚的証拠に基づいた反復的な推論が可能となる。
- PhysBenchを用いた実験の結果，PhysNoteは既存のベースラインを4.96%上回り，56.68%の全体精度を達成した。
Link: https://arxiv.org/abs/2604.24443
異種プロセッサにおける視覚言語行動モデルの特性評価：ロボット搭載に向けた制約と加速 [cs.CL, cs.RO, cs.AI]目的：汎用ロボット制御のための視覚言語行動モデルの低コスト展開
- ロボットの自律性を高める上で，環境を理解し，行動計画を立てるVLAモデルが重要である。
- 既存研究は高性能GPUに依存しており，省電力・低コストなエッジデバイスでの性能評価が不足している。
- エッジデバイスにおけるVLAモデルの性能ボトルネックを特定し，効率的な推論を実現することを目指す。
- モデルとハードウェアの組み合わせに関する評価ランキングを構築し，エッジデバイスがGPUよりもコスト効率が良い場合があることを示した。
- VLAモデルの推論過程を分析し，計算負荷の高いVLMとメモリボトルネックとなる行動予測モジュールという二相構造を明らかにした。
- DP-CacheとV-AEFusionという手法を提案し，GPUとエッジNPUで最大6倍の高速化を達成した。
Link: https://arxiv.org/abs/2604.24447
画像ベース触覚センサにおける潜在的演算による物理接触の分離 [cs.HC, cs.RO, cs.AI, cs.LG]目的：画像ベース触覚センサのシミュレーション手法
- ロボットの触覚センシングは，繊細な操作や環境認識に不可欠であり，ロボット工学の発展に寄与する。
- 実世界のインタラクションデータの取得は困難であり，機械学習モデルの学習を妨げる要因となっている。
- 多様なセンサへの適応性と高速な推論を可能にするシミュレーション手法を開発し，データ収集の課題を解決する。
- 提案手法SPLITは，接触形状とセンサ固有の光学特性を分離する潜在空間演算により，DIGITセンサのシミュレーションを実現した。
- SPLITは，センサの再校正を必要とせず，異なる背景やGelSight R1.5といった異なるセンサへのデータ転移が可能である。
- 可変解像度のFEMシミュレーションと双方向シミュレーション機能を持ち，速度と忠実度のバランス調整や多様な応用を可能にする。
Link: https://arxiv.org/abs/2604.24449
人間とAIのチームワークにおける成功する協調の測定：知覚される協調性とチームワーク知覚尺度開発と検証 [cs.HC, cs.AI]目的：人間とAIのチームワークにおける協調性の評価
- AIとの協調が重要性を増す中，主観的な協調性の質の評価手段が求められている。
- 人間とAI間の協調性を客観的に評価する信頼性の高い尺度が不足している。
- 人間とAIの協調性を測るための，信頼性と妥当性のある尺度の開発。
- 知覚される協調性尺度（PCS）とチームワーク知覚尺度（TPS）の2つの尺度を開発した。
- PCSとTPSは，協調性の異なるパートナーを識別し，期待通りの構成概念妥当性を示した。
- これらの尺度は，様々な人間とAIの協調の文脈における実証研究とシステム評価の基盤を提供する。
Link: https://arxiv.org/abs/2604.24461
LLMのファインチューニングにおける分割学習：モデル，システム，プライバシー最適化に関する調査 [cs.DC, cs.NI, cs.CR, cs.CL, cs.DC, cs.LG]目的：LLMのファインチューニングのための分割学習に関する研究動向の分類と評価
- LLMは高性能だが，計算資源が必要であり，小規模組織では利用が困難である。
- クラウド利用はプライバシーリスクを伴うため，機密データを共有することに懸念がある。
- 分割学習は，プライバシーを保護しつつ，計算資源を共有することでLLMの適応を可能にする。
- 本調査は，分割学習のモデル最適化，システム効率，プライバシー保護の3つの側面を体系的にレビューした。
- これにより，スケーラブルで堅牢かつ安全な協調的LLM適応のための基盤が確立された。
- 既存研究を分類・比較・批判的に評価することで，今後の研究の方向性を示した。
Link: https://arxiv.org/abs/2604.24468
生成推薦のための行動強度と遷移のモデリング [cs.CL, cs.IR, cs.AI, cs.LG]目的：複数行動推薦における行動強度と遷移の構造化モデリング
- ユーザー行動の多様性を考慮することで，推薦精度向上が期待される分野。
- 既存手法では，行動間の依存関係が均一に扱われ，行動の重要度や遷移パターンが捉えきれない。
- 行動強度と遷移を明示的にモデル化し，推薦性能の向上を目指す。
- 提案手法BITRecは，行動強度を捉えるための階層的行動集約（HBA）と，遷移構造を符号化する遷移関係エンコーディング（TRE）を導入する。
- RetailRocket，Taobao，Tmall，Insurance Datasetの4つの大規模データセットで，既存手法に対し15-23%の改善が確認された。
- 特にTmallデータセットではMRRが22.79%，TaobaoデータセットではHR@10とNDCG@10がそれぞれ17.83%，17.55%改善された。
Link: https://arxiv.org/abs/2604.24472
多発性骨髄腫の縦断的記録におけるエージェント型臨床推論：専門家合意に対する検証 [cs.AI, cs.CL]目的：多発性骨髄腫患者の縦断的臨床記録からの臨床推論
- 多発性骨髄腫の治療は長期にわたり，患者の病歴と臨床データが重要となる。
- 膨大な量の非構造化データから適切な情報を抽出することが課題である。
- 大規模言語モデルを用いた臨床推論の専門家レベルでの合意可能性を検証する。
- エージェント型推論システムは，既存のRAGベースラインを上回る合意率を示した。
- 質問の複雑さや記録の長さが増すほど，エージェント型システムの優位性は高まった。
- システムエラーの臨床的重大度は専門家の意見の相違とは逆転しており，臨床現場での検証が必要である。
Link: https://arxiv.org/abs/2604.24473
事前学習済み分子埋め込み距離を用いたリガンドベースバーチャルスクリーニングと分子生成の高度化 [cs.LG]目的：リガンドベース創薬における分子類似性評価手法の確立
- 創薬において，類似分子探索は効率的なリード化合物の発見に不可欠である。
- 従来の類似性指標は計算コストが高いか，手作業による特徴量設計に依存する。
- 事前学習済み分子埋め込み距離により，効率的かつ汎用的な類似性評価を目指す。
- 事前学習済み分子埋め込み距離は，従来の類似性指標と異なる相関を示すことが明らかになった。
- バーチャルスクリーニングにおける分子ランキング性能および分子生成の誘導において有効であることが示された。
- 事前学習済み分子埋め込みは，豊富な構造情報を捉え，AI創薬におけるスケーラブルな類似性評価となりうる。
Link: https://arxiv.org/abs/2604.24474
LLMマルチエージェントシステムにおけるグラフベース異常検知ベンチマーク共通フレームワークGAMMAF [cs.CR, cs.AI]目的：LLMマルチエージェントシステムにおける異常検知手法のベンチマーク環境
- LLMのMASへの統合が進み，協調問題解決能力が向上する一方，攻撃対象領域が拡大している。
- グラフベースの異常検知は有望だが，標準化された再現性のある評価環境が存在しない。
- 既存および将来の防御モデルの性能を評価するためのベンチマークプラットフォームを提供する。
- GAMMAFは，多様なネットワーク構成で多エージェント間のインタラクションをシミュレーションし，属性グラフとしてデータを生成する。
- 確立された防御基盤モデル(XG-Guard，BlindGuard)を用いた評価により，GAMMAFの有用性，拡張性，効率性が示された。
- 効果的な攻撃対策はシステム完全性を回復するだけでなく，早期合意形成により運用コストを大幅に削減する。
Link: https://arxiv.org/abs/2604.24477