arXiv雑要約

AI - 2026/05/07 公開

MixINN：混合モデルと深層学習を組み合わせた遺伝子型環境交互作用予測による植物育種加速 [cs.MA, cs.LG]目的：植物育種における遺伝子型環境交互作用の予測
- 食糧安全保障の維持には，作物の収量，品質，持続可能性の向上不可欠。育種はその鍵となる。
- 気候変動により生育環境が変化し，作物の遺伝子型性能が変動。その予測は困難である。
- 気候変動に適応した作物の開発を加速し，食糧安全保障を向上させることを目指す。
- MixINNは，混合モデルを用いて高品質な遺伝子型環境交互作用ラベルを抽出し，深層学習で予測する。
- アメリカ合衆国全土でのトウモロコシ多環境試験で，既存の育種手法を上回る予測精度を示した。
- 最も生産性の高いトウモロコシの遺伝子型20%を特定し，平均収量を5.8%向上，特定環境下では7.2%向上した。
Link: https://arxiv.org/abs/2605.04744
知識を必要としない相関合意による連合学習のインセンティブ設計 [cs.LG, cs.AI, cs.GT]目的：連合学習におけるクライアントの貢献度に対する報酬メカニズム
- 連合学習は，データプライバシーを保護しつつモデルを学習可能にする重要な技術である。
- 連合学習において，クライアントの貢献度を評価し，報酬を与える仕組みが課題となっていた。
- 真のラベルや公開テストセットを必要とせず，クライアントの貢献を公平に評価する。
- KFCAは，カテゴリカルな報告と誠実な多数派の仮定の下で，厳密な真実性を保証する。
- 既存の相関合意(CA)のラベル反転脆弱性を解決する。
- LLMアダプターのチューニングとPCB検査タスクで有効性が示され，分散型インセンティブ設計に適している。
Link: https://arxiv.org/abs/2605.04747
フロー誘導型注意と経験モード分解を用いたハイブリッド交通渋滞分類フレームワーク [eess.SY, cs.SY, cs.CV, cs.AI]目的：交通渋滞の正確な分類
- 交通渋滞の正確な把握は，交通管理や都市計画において不可欠である。
- 既存研究では，道路状況と交通流動の変化を同時に捉えることが課題であった。
- 空間情報と時間的変化を統合し，より精度の高い分類を実現すること。
- 提案手法FLO-EMDは，テストデータにおいて97.5%の総合正答率（重み付きF1スコア=0.9742）を達成した。
- 既存手法を上回り，様々な環境条件においても高い頑健性を示した。
- 経験モード分解（EMD）の貢献や，内在モード関数の数などが定量的に評価された。
Link: https://arxiv.org/abs/2605.04752
AxMoE：混合エキスパートDNNアーキテクチャにおける近似乗算器の影響の特性評価 [cs.LG, cs.AR]目的：混合エキスパートDNNアーキテクチャにおける近似乗算器の影響の評価
- エッジデバイスでの深層学習推論は，精度，計算効率，省電力性の向上が求められている。
- 近似計算と混合エキスパートはそれぞれ効率化の手法だが，両者の相互作用は未解明である。
- 近似乗算器が混合エキスパートDNNアーキテクチャに与える影響を明らかにすること。
- 再学習なしでは，DenseベースラインがCNNアーキテクチャにおいて最も堅牢であった。
- ViT-Smallにおいては，ルーティング戦略に関わらず，すべてのトポロジーで劣化率が同程度であった。
- 近似を考慮した再学習後，アーキテクチャ，トポロジー，乗算器によって回復度が大きく異なった。
Link: https://arxiv.org/abs/2605.04754
Gyan：説明可能なニューシンボリック言語モデル [cs.RO, cs.HC, cs.CL, cs.AI, cs.ET, cs.LG]目的：説明可能な言語モデルの構築
- 大規模言語モデルは普及しているが，人間のような文脈理解が不十分である。
- 既存モデルは幻覚を起こしやすく，解釈が難しく，計算資源を大量に消費する。
- 信頼性と透明性を備えた言語モデルアーキテクチャの開発を目指す。
- Gyanは，従来のTransformerアーキテクチャを用いず，説明可能な言語モデルを実現した。
- ３つの公開データセットで最高水準の性能を示し，２つの独自データセットでも優れた性能を発揮した。
- 言語モデルと知識獲得・表現を分離することで，信頼性と透明性を高めた。
Link: https://arxiv.org/abs/2605.04759
認知ツイン：人間協調型思考モデルの構築と性能向上に関する調査 [cs.LG, cs.AI, cs.HC]目的：学習者の思考モデルの構築と，その性能向上
- 教育分野において，学習者の思考プロセスを理解し，個別最適化された学習支援が重要視されている。
- 既存の学習モデルは，学習者の思考の複雑さを十分に捉えきれていない場合がある。
- 学習者の思考モデルを正確に再現し，より効果的な個別化学習支援を実現すること。
- 提案手法であるPTMは，学習者の思考を5層構造で表現し，高い再現性を示した（F1スコア74.57%→75.48%）。
- ユーザー評価では，PTMが学習者の思考を反映していると肯定的に評価された（平均4.26→4.30）。
- 層が深くなるにつれて，トピックの一貫性が向上し，学習日誌との語彙的重複が減少するという意味的な抽象化パターンが確認された。
Link: https://arxiv.org/abs/2605.04761
Gaze4HRI: 人間ロボットインタラクションのためのゼロショット視線推定ニューラルネットワークのベンチマーク [cs.CV, cs.HC, cs.LG, cs.RO]目的：人間ロボットインタラクションにおけるゼロショット視線推定の性能評価
- 人間とロボットの円滑な協調には，ロボットが人間の視線を正確に理解することが不可欠である。
- 既存のベンチマークは，動的な視点や移動する対象など，実際のHRI環境を十分に考慮していない。
- HRI環境における視線推定の信頼性を高めるための，より厳密な評価基準を確立すること。
- 大規模データセットGaze4HRIを用いた評価により，既存手法はいずれも特定の条件下で失敗することが明らかになった。
- 特に，下向きの視線推定が共通の課題であることが示された。
- ETH-X-Gazeで学習されたPureGazeが，他の条件下で高い堅牢性を示すことがわかった。
Link: https://arxiv.org/abs/2605.04770
AgentTrust：AIエージェントのツール利用における実行時安全性評価と遮断 [cs.AI, cs.CR]目的：AIエージェントのツール利用時の安全性確保
- AIエージェントの利用拡大に伴い，現実世界への影響が大きくなっているため，安全性確保が不可欠である。
- 既存の防御策では，実行後の評価，文脈の考慮不足，実行環境の制約といった課題が残されている。
- AgentTrustは，実行前にツール利用を遮断し，安全性評価を行うことで，これらの課題を解決する。
- AgentTrustは，ツール利用を「許可」「警告」「遮断」「レビュー」のいずれかで判定する実行時安全層である。
- 内部ベンチマークにおいて，95.0%の判定精度と73.7%のリスクレベル精度を低遅延で実現している。
- 630シナリオのベンチマークでは，96.7%の判定精度，特に難読化されたシェルコードに対して約93%の精度を示した。
Link: https://arxiv.org/abs/2605.04785
変動するダイナミクスに対する双線形Mamba-KoopmanニューラルMPC [eess.SY, cs.SY, cs.HC, cs.LG, math.OC]目的：変動するダイナミクスに対するニューラルMPCモデルの性能向上
- ロボット制御において，環境やシステムの変動に対応するロバスト性が重要となる。
- 従来のKoopman型ニューラルMPCは，制御入力に依存しないという制約により，時間変化への適応が限定的である。
- 本研究では，制御入力依存性を導入することで，時間変化するダイナミクスへの適応能力を高めることを目指す。
- 提案手法は，標準的な線形モデルの一般化であり，パラメータ数の増加もわずかである。
- CartPoleやRSCPベンチマークにおいて，予測精度が向上し，特に時間変化条件下で安定性が大幅に改善された。
- 遅延再計画実験では，既存手法よりも劣化が緩やかであり，ロバスト性を維持していることが示された。
Link: https://arxiv.org/abs/2605.04793
見るだけでは信じられない：オーディオビジュアルのディープフェイクのクラウドソーシング検出について [eess.SY, cs.SY, cs.IR, cs.AI]目的：オーディオビジュアル・ディープフェイク検出におけるクラウドワーカーの識別能力
- 誤情報の蔓延が社会問題化しており，人間の判断の信頼性が問われている。
- ディープフェイク技術の進化により，その検出が困難になっている。
- クラウドソーシングによるディープフェイク検出の有効性と課題を明らかにすること。
- クラウドワーカーは，本物の動画を改ざんされた動画と誤認することは稀である。
- しかし，改ざんを見逃すことが多く，動画間で意見の一致性は限定的である。
- 複数の判断を統合することで信頼性は向上するが，多くのワーカーが見逃す改ざんは検出できない。
Link: https://arxiv.org/abs/2605.04797
DecodingTrust-Agent プラットフォーム (DTap): AIエージェント向け制御可能・インタラクティブなRed Teamingプラットフォーム [cs.RO, cs.AI]目的：AIエージェントのセキュリティ評価
- AIエージェントの利用拡大に伴い，そのセキュリティと安全性の確保が重要課題となっている。
- 現実的な環境下での大規模なリスク評価環境が未だ十分に確立されていない。
- 制御可能かつ再現性のあるRed TeamingプラットフォームによるAIエージェントの脆弱性評価を実現する。
- DTapは，Google Workspace，Paypal，Slack等のシステムを模倣した14の領域と50以上の環境を提供する，初の制御可能・インタラクティブなRed Teamingプラットフォームである。
- DTap-Redは，多様な攻撃ベクトルを探索し，悪意のある目的に適応した攻撃戦略を自律的に発見する，初の自律型Red Teamingエージェントである。
- DTapを用いた大規模評価により，AIエージェントの脆弱性パターンが明らかになり，安全な次世代エージェント開発に貢献する。
Link: https://arxiv.org/abs/2605.04808
動的なQoS予測のための偏った非負ブロック項テンソル分解モデル [cs.RO, cs.MA, cs.LG]目的：QoS予測の精度向上
- クラウドコンピューティング等の発展により，サービスの選択・推奨においてQoSが重要視されている。
- 従来のCP分解やTucker分解では，複雑なユーザーとサービスの相互依存性を捉えきれない。
- ユーザーとサービスの動的な依存関係をより正確にモデル化し，QoS予測の性能を向上させる。
- 提案手法BNBTは，ブロック項テンソル分解により潜在的特徴の表現力を高める。
- 線形バイアス項を導入することで予測精度をさらに向上させている。
- 実世界のQoSデータセットを用いた実験により，提案手法が既存手法を上回る予測精度を示すことが確認された。
Link: https://arxiv.org/abs/2605.04813
節/リテラルハイパーグラフにおける偏光を意識した表現学習による不飽和コア予測 [cs.HC, cs.LG]目的：不飽和コアの予測
- SAT問題の効率的な解決は，様々な分野で重要であり，その性能向上は不可欠である。
- 既存手法は，リテラルと節の間の複雑な関係性を十分に捉えきれていないという課題がある。
- 偏光を考慮した表現学習により，SAT問題における構造的相互作用をより正確にモデル化することを目指す。
- 提案手法では，節/リテラルハイパーグラフを用いてSAT問題を表現し，高次の構造的相互作用を捉える。
- 偏光分解メカニズムにより，変数の正負リテラル間の関係性を明示的にモデル化し，表現の学習を行う。
- 実験結果から，提案手法が複数のSATデータセットにおいて有効であることが示された。
Link: https://arxiv.org/abs/2605.04819
ワンホット符号化における周辺ビットカバレッジを考慮した初期学習データ設計によるFMQAの改善 [eess.SY, cs.SY, cs.LG, cond-mat.stat-mech]目的：FMQAの性能向上
- 複雑な最適化問題に対し，効率的な探索手法が求められている。
- FMQAにおける初期学習データが不適切だと，パラメータ更新が偏る。
- 周辺ビットカバレッジを確保することで，学習効率と精度を向上させる。
- 提案手法（LHS-FMQA, Sobol'-FMQA）は，既存のFMQAよりも高い平均巡航速度を達成した。
- 特に，設計変数が32個の問題において，その利点が顕著に現れた。
- 初期学習データ設計の重要性が示された。
Link: https://arxiv.org/abs/2605.04825
アノテーション品質の不均衡下における信頼性の高い連合ラベル分布学習 [cs.LG]目的：アノテーション品質の不均衡下での連合ラベル分布学習における信頼性向上
- ラベル分布学習は，曖昧性を含むデータ学習に有効であり，幅広い応用が期待される。
- 連合学習では，クライアント間のデータ分離によりアノテーション品質が不均一になりやすい。
- クライアントごとのアノテーション品質を考慮し，信頼性の高い学習を実現する。
- 提案手法FedQualは，グローバルなセマンティックアンカーを用いた品質適応型クライアント学習と，信頼性に基づいたサーバー集約により，アノテーション品質の不均衡に対応する。
- 新たなFed-LDLベンチマークを構築し，品質の不均衡を制御した評価を行った。
- 理論的保証により，クライアント固有のキャリブレーションが，一様キャリブレーションよりも優位であることが示された。
Link: https://arxiv.org/abs/2605.04827
拡散モデルにおける対称性の破れと非局所性相転移の同時発生 [cs.NI, cs.LG]目的：拡散モデルの相転移現象に関する理解
- 画像生成AIの性能向上には，拡散モデルの内部メカニズムの理解が不可欠である。
- 拡散モデルの相転移時期の特定は難しく，モデルの効率的な利用を妨げていた。
- 拡散モデルにおける対称性の破れと非局所性の相転移が同時に起こるのかを検証する。
- 拡散トランスフォーマーにおいて，非局所性と対称性の破れの相転移がほぼ同時に発生することが確認された。
- 本研究は，拡散モデルが条件付けとグローバルなノイズ除去に依存する時期を特定する具体的な診断を提供した。
- モデル効率の評価や，不要な計算を避けるアーキテクチャ・サンプリング設計の指針となる。
Link: https://arxiv.org/abs/2605.04830
ストーリーアライン：ストーリー生成のための報酬モデルの評価と訓練 [cs.CL, cs.AI]目的：ストーリー生成における人間のストーリーに対する選好のモデル化
- 物語は，人間にとって重要なコミュニケーション手段であり，AIによる自動生成が期待される。
- 大規模言語モデルは文章生成が進んだが，複雑な構成や人間らしい選好の表現が課題である。
- 人間のストーリー選好を正確にモデル化し，より自然で魅力的な物語生成を目指す。
- 本研究では，ストーリー選好の評価ベンチマークStoryRMBを構築し，既存の報酬モデルの性能を評価した。
- 構築した大規模なストーリー選好ペアデータセットを用いて，高性能な報酬モデルStoryRewardを開発した。
- StoryRewardは，ベンチマークにおいて最先端の性能を示し，人間の選好に合致したストーリー選択を実現した。
Link: https://arxiv.org/abs/2605.04831
物理情報ニューラル演算子に対するリプレイベース継続学習 [cs.LG]目的：物理情報ニューラル演算子における継続学習戦略
- 物理現象の予測精度向上は，工学や科学の発展に不可欠である。
- 既存手法は，分布外データへの汎化性能が低いという課題がある。
- 分布外データに対する頑健性を持ちつつ，効率的な学習を可能とする。
- 提案手法は，過去データの活用により，忘却現象を効果的に抑制する。
- 新たなデータへの適応速度が速く，高い予測性能を維持する。
- 従来の共同学習と比較して，計算コストとメモリ使用量を削減する。
Link: https://arxiv.org/abs/2605.04832
グラフ基礎モデルに向けた入力特徴空間の橋渡し [cs.LG]目的：グラフデータセット間の入力特徴の差異による汎化性能の限界
- グラフ学習は，画像や言語分野と比較して共有入力空間が確立されておらず，汎化性能の向上が課題である。
- グラフデータセットごとに異なる特徴量や値の範囲，次元数により，モデルのデータセット間の転移学習が困難である。
- 異なる入力特徴を持つデータセット間での転移学習を可能にする入力に依存しないグラフモデルの開発を目指す。
- 提案手法ALL-INは，入力特徴を共通のランダム空間に投影し，共分散に基づく統計量を活用することで，入力特徴空間への依存性を排除する。
- 計算されたノード共分散演算子とそれから得られるノード表現は，入力特徴の順序に依存しない分布不変性を示す。
- 実験の結果，ALL-INは，新しい入力特徴を持つ未学習データセットにおいても，アーキテクチャ変更や再学習なしに優れた性能を発揮した。
Link: https://arxiv.org/abs/2605.04834
グラフニューラルネットワークにおける分位点不要な不確実性定量化 [cs.LG, cs.AI]目的：グラフニューラルネットワークにおける不確実性定量化手法
- グラフ構造データは現実世界の多くの問題を表現可能であり，その応用範囲は広い。
- グラフニューラルネットワークの不確実性定量化は，交換可能性などの強い仮定に依存し，信頼性が低い。
- 分位点回帰を利用し，追加の処理なしにカバレッジと区間幅を最適化する手法を開発する。
- QpiGNNは，予測と不確実性を分離するデュアルヘッドアーキテクチャを採用している。
- QpiGNNは，ラベルのみを用いた学習で効率的に訓練でき，理論的なカバレッジ保証と最適な区間幅を提供する。
- 合成データと実データを用いた実験の結果，QpiGNNはベースラインと比較して平均22%高いカバレッジと50%狭い区間幅を達成した。
Link: https://arxiv.org/abs/2605.04847
非線形分散方程式のためのハイブリッド反復ニューラル低正則性積分器 [cs.HC, cs.LG]目的：非線形分散偏微分方程式の数値解法における精度向上
- 現代科学技術において，複雑な物理現象のシミュレーションは不可欠である。
- 従来の数値解法では，高精度を達成するために計算コストが増大しやすい。
- ニューラルネットワークを用いて，数値解法の誤差を補正し，精度と効率を両立すること。
- 提案手法HIN-LRIは，従来の数値解法の構造的切断誤差を補正するニューラル演算子を組み合わせる。
- HIN-LRIは，解析的な手法では解決困難な残差欠陥を学習し，空間解像度に関わらず安定した計算を可能にする。
- 実験結果から，HIN-LRIは既存手法と比較して，精度，空間解像度，分布外データの汎化性能において優れていることが示された。
Link: https://arxiv.org/abs/2605.04853
第二言語イディオム処理における認知負荷の評価：眼球運動データセット [cs.CL, cs.AI, cs.CV]目的：第二言語イディオム処理における認知負荷の評価のための眼球運動データセット
- 言語習得研究において，イディオム処理は第二言語学習者の認知能力を測る上で重要な指標となる。
- 第二言語学習者は，ネイティブスピーカーと異なり，イディオムを逐語的に処理する傾向があり，認知コストが増大する。
- 本研究は，第二言語学習者のイディオム処理における認知負荷を客観的に測定するためのデータセットを構築・検証する。
- データセットは，英語を学習するポルトガル語話者を対象とし，CEFRレベルA1からC2までを網羅している。
- 予備分析の結果，言語能力と後戻り眼球運動の間には強い負の相関関係が認められた。
- 本データセットは，言語処理モデルや大規模言語モデルの評価基準として活用できる。
Link: https://arxiv.org/abs/2605.04857
マルチモーダル大規模言語モデルにおける不確実性に基づいた探索型直接選好最適化 [cs.CL, cs.LG, cs.CL, cs.CV]目的：マルチモーダル大規模言語モデルの幻覚軽減のための不確実性に基づいた学習戦略
- マルチモーダル大規模言語モデルは多様なタスクで活用されるが，幻覚が生じやすいという課題がある。
- 既存手法はモデル自身の感度推定に頼るため，学習済みの視覚的特徴を強化する傾向があり，重要な詳細を見落とす可能性がある。
- モデルが自身の認知的な弱点を特定し，不確実性に基づいて視覚的に困難なトークンに重点を置いて学習することで，幻覚を抑制する。
- 提案手法UE-DPOは，トークンレベルの認識論的確実性に基づいて，モデルが自己修正を行うことを可能にする。
- 不確実性に基づいた探索強度により，選好されるサンプル中の視覚的に欠損したトークンへの学習圧力を高め，望ましくないサンプルにおける過剰なペナルティを軽減する。
- 理論的な正当化と実験により，提案手法の有効性と頑健性が示された。
Link: https://arxiv.org/abs/2605.04874
大規模言語モデルを用いたイノベーションの予測 [cs.CL, cs.AI, cs.CY]目的：新規技術組み合わせの出現予測
- 科学技術政策において，将来の技術動向を把握することは重要である。
- イノベーションの予測は難しく，有効な手法が確立されていない。
- 特許情報の言語的変化から，将来の技術組み合わせを予測することを目指す。
- 特許における技術記述の変化は，イノベーションの兆候を decades 前から示していることが明らかになった。
- この信号は特定の inventors ではなく，数千件の特許にわたる集団的な言語変化として現れる。
- TechToken は，国際特許分類コードを「単語」として扱うことで，技術の言語を学習し，新規技術組み合わせの予測精度を向上させた。
Link: https://arxiv.org/abs/2605.04875
融合か放棄か：マルチモーダル感情認識における様相衝突の解決に向けた二重経路学習 [cs.MM, cs.HC, cs.LG]目的：マルチモーダル感情認識における様相衝突の解決
- 感情認識は，人間とコンピュータ間の自然な対話に不可欠であり，その精度向上は重要な課題である。
- 複数の様相を単純に統合するだけでは，様相間に矛盾が生じた際に，認識精度が低下する可能性がある。
- 本研究は，矛盾の性質に応じて，様相を融合するか，または放棄するかを学習することで，よりロバストな感情認識を目指す。
- 提案手法DCRは，テキスト，音声，視覚情報を効果的に統合し，衝突の解決を学習する二重経路フレームワークである。
- DCRは，教師あり蒸留とコンテキストバンディットを用いて，状況に応じた最適な様相選択を行う。
- 5つのベンチマークデータセットにおいて，既存手法を上回る，または同等の性能を達成し，ロバストな感情認識能力を実証した。
Link: https://arxiv.org/abs/2605.04877
SMDPにおける平均報酬強化学習の調和平均による定式化 [cs.LG, cs.AI]目的：SMDPにおける平均報酬率の最適化
- 継続的なタスクの学習において，割引報酬を用いない平均報酬強化学習は重要な手法である。
- 報酬と持続時間が非定常な場合，既存のアルゴリズムは報酬率を正確に計算できない問題がある。
- 非定常な状況下でも正確な報酬率を計算し，強化学習の安定性を高めることを目指す。
- 提案手法は，報酬と持続時間が非定常な場合でも，正しい報酬率を計算する新しい調和平均演算子を用いる。
- この演算子を用いることで，時間とともに変化する報酬と持続時間の分布に対してロバストなモデルフリー学習アルゴリズムが実現する。
- 理論的性質の証明と実験的検証により，提案手法の有効性が示された。
Link: https://arxiv.org/abs/2605.04880
FairEnc：緑内障検出のための公正なビジョン言語モデル [cs.CE, math.DS, physics.ao-ph, cs.CV, cs.AI, cs.LG, eess.IV, q-bio.QM]目的：緑内障検出における公平性を確保するためのビジョン言語モデルの公正な事前学習手法
- 視覚障害の進行を防ぎ，医療負担を軽減するため，緑内障の自動検出が重要である。
- 多様な患者集団間における公平性を確保することが，依然として大きな課題となっている。
- 人種，性別，民族，言語などの複数の機密属性にわたるバイアスを同時に軽減することを目指す。
- FairEncは，DPDおよびDEOddsという指標で測定される人口統計学的格差を効果的に低減できることが示された。
- ゼロショット評価と線形プローブ評価の両方において，高い診断性能を維持しながら公平性を実現している。
- クロスドメインおよびクロスモダリティ設定下でも一貫して公平性を保ち，競争力のある診断性能を維持する。
Link: https://arxiv.org/abs/2605.04882
自己注意を輸送と捉える：対称スペクトル診断の限界 [cs.CL, cs.CL, cs.CL, cs.CL, eess.SY, cs.SY, cs.LG, cs.CL, stat.ML]目的：注意メカニズムにおける情報の流れの方向性を識別するための限界と診断手法
- 大規模言語モデルの性能向上は重要だが，その幻覚発生メカニズムの解明が不可欠である。
- 既存のスペクトル診断法は，注意メカニズムにおける情報の流れの方向性を区別できないという課題がある。
- 注意メカニズムの対称スペクトル特性に基づき，情報の流れの方向性を定量化する指標を確立する。
- 対称スペクトル診断法が，注意メカニズムにおける情報の流れの方向性を識別できない構造的限界を持つことを証明した。
- 一方向性注意機構は，$n$に依存しない下限値を持つ一方，窓注意機構は$O(w/n)$で下限値を破ることを示した。
- 輸送特徴量は，最大80億パラメータまでのモデルで解釈可能なシグナルを維持し，HaluEvalとMedHallu間で予測されるように極性が反転した。
Link: https://arxiv.org/abs/2605.04893
条件付き評価が重要な多コンテキストベイズ最適化 [cs.LG, stat.ML]目的：多コンテキストベイズ最適化における条件付き効果の評価
- ベイズ最適化は，限られた評価回数で最適なパラメータを探索する手法であり，多くの分野で活用されている。
- 既存研究では，平均的な効果のみが評価されており，実際の利用者の状況に合わせた評価が不足している。
- 事前知識の質，予算，評価指標に応じた最適な獲得戦略を特定し，実用的な指針を提供する。
- 評価結果から，予算の変動が獲得戦略の優位性を左右することが示された。予算50ではGreedyが，予算100ではUCBが優位性を示す。
- 提案手法PRSは，事前知識の相関に基づいてこの転換を予測可能であり，過去の事例でもその予測精度が高いことが確認された。
- RegimePlannerは，オンラインで事前知識の相関を推定し，獲得戦略を切り替えることで，複数の探索空間で優れた性能を発揮した。
Link: https://arxiv.org/abs/2605.04895
ストレージは記憶ではない：エージェントの想起のための検索中心アーキテクチャ [cs.CL, cs.AI, cs.IR]目的：エージェントの想起のための検索中心アーキテクチャ
- 大規模言語モデルにおいて，長期的な文脈情報を効率的に保持し，活用することは重要である。
- 従来の記憶システムは，入力時に情報を抽出・要約するため，クエリ時に必要な情報が失われる可能性がある。
- 本研究では，入力されたイベントを逐語的に保持し，検索段階で情報を再構築するアーキテクチャを提案する。
- 提案手法True Memory Proは，LoCoMoデータセットにおいて93.0%の精度を達成し，既存手法を大きく上回った。
- LongMemEvalデータセットとBEAM-1Mデータセットにおいても，高い精度を示し，Hindsight等の既存手法を上回った。
- アブレーションスタディの結果，最良の構成における性能のばらつきは小さく，提案手法の頑健性が確認された。
Link: https://arxiv.org/abs/2605.04897
言語モデルの出力分布サンプリングによる誤差の幾何学的関係 [cs.LG]目的：言語モデルの内部状態に対する誤差の幾何学的関係
- 言語モデルの性能向上は，自然言語処理の発展に不可欠である。
- 言語モデルは，出力確率分布が分散する場合に，わずかな変化に敏感である。
- トークン埋め込みの幾何学に基づき，モデルの内部表現を解明すること。
- トークン埋め込みの幾何学のみに依存する$\mathfrak{so}(n)$-値の1形式を導出した。
- この1形式の曲率は意味的に有意であり，チェス推論タスクにおいて世界のモデルと関連性を示す。
- 曲率は，盤面領域ごとのクラスタリングと駒の重要性を尊重する。
Link: https://arxiv.org/abs/2605.04899
Transformerにおける安全な推論におけるシャッフル防御の（不）安全性について [cs.CR, cs.AI]目的：Transformerモデルの安全な推論におけるモデル重みの抽出攻撃手法
- Transformerモデルの安全な推論は，クライアントのプライバシー保護に不可欠であり，近年重要性が増している。
- 中間活性化値をクライアントに開示する手法は効率的だが，モデル重みの抽出攻撃のリスクを伴う。
- シャッフル防御の脆弱性を明らかにし，より安全な推論手法の開発に貢献することを目指す。
- シャッフル防御は，以前考えられていたよりも堅牢ではないことが示された。
- 提案手法により，異なるシャッフルされた活性化値を共通の順列に整列することが可能となった。
- Pythia-70mおよびGPT-2を用いた実験で，モデル重みを抽出できることが確認された。
Link: https://arxiv.org/abs/2605.04901
デルタに基づくニューラルアーキテクチャ探索：コード差分によるLLMのファインチューニング [cs.DB, cs.LG, cs.AI, cs.CV]目的：LLMを用いたニューラルアーキテクチャの生成
- LLMはアーキテクチャ生成に強い潜在力を持つが，計算コストが高い。
- 既存手法はモデル全体を最初から生成するため，冗長なコードとなる。
- ベースラインアーキテクチャをコード差分で効率的に改良する手法を提案する。
- 提案手法は，完全生成ベースラインよりも高い有効率と初期エポックの平均精度を達成した。
- DeepSeek-Coderは75.3%の有効率と65.8%の平均精度，Qwen2.5-Coderは72.1%/64.6%，Mistralは66.6%/66.1%を記録した。
- 出力コード量は，完全生成と比較して75-85%削減された。
Link: https://arxiv.org/abs/2605.04903
電気紡糸における特徴量の重要度のクロスモデル整合性：堅牢な特徴量とモデル依存的な特徴量の分離 [cs.LG, cs.DB]目的：電気紡糸における特徴量の重要度のモデル間の整合性の評価
- 電気紡糸は微細なパラメータ変化が材料特性に影響する精密なプロセスであり，理解が重要である。
- 従来の機械学習研究では単一モデルに依存し，特徴量の重要度の信頼性が不明確であった。
- 複数のモデルを用いた検証により，信頼性の高い特徴量重要度の特定を目指す。
- 予測性能と解釈の信頼性は異なる性質であり，高い予測精度でも特徴量の重要度にはばらつきが見られた。
- 溶液濃度は最も堅牢なパラメータとして一貫して高い重要度を示したが，流量と印加電圧はモデル依存性が高かった。
- 単一モデルからの特徴量重要度は信頼性が低く，クロスモデル検証が不可欠であることが示唆された。
Link: https://arxiv.org/abs/2605.04905
戦略的推論の強化: マルチエージェントゲームにおけるLLMの戦略的推論能力の向上 [cs.AI]目的：マルチエージェントゲームにおけるLLMの戦略的推論能力向上
- LLMは高度な推論能力を持つが，他エージェントとの相互作用が不可欠なゲームでは課題が多い。
- マルチエージェントゲームでは，他エージェントの非定常性が評価と報酬配分を困難にする。
- LLMの戦略的推論を向上させ，マルチエージェントゲームにおける性能を改善すること。
- 本研究では，LLMの戦略的推論能力を向上させるための新たなRLベースのフレームワーク「Strat-Reasoner」を提案した。
- Strat-Reasonerは，他エージェントの推論過程を統合する再帰的推論パラダイムと，中央集権的なCoT比較モジュールを採用している。
- 実験の結果，Strat-Reasonerは様々なマルチエージェントゲームにおいて，LLMの平均性能を22.1%向上させた。
Link: https://arxiv.org/abs/2605.04906
厳選されたAIが，医薬品探索において最先端LLMを凌駕 [cs.AI, q-bio.QM]目的：医薬品パイプラインの競合状況調査におけるAI性能の比較
- 医薬品開発は競争が激しく，迅速な情報収集が不可欠である。
- 既存のLLMはウェブ検索に依存し，専門的な情報を見つけにくい場合がある。
- 厳選されたデータを用いたAIが，情報探索の精度と網羅性を向上させる。
- 厳選された薬剤アセット注釈に基づくAIプラットフォームGossetが，最先端LLMを大きく上回る検証済み薬剤数を返した。
- Gossetは完璧な精度と100%のリコール率を達成し，ウェブ検索型のLLMの課題を克服する可能性を示唆した。
- 厳選されたインデックスをツールとしてLLMに提供することで，検索の網羅性を大幅に改善できることが示された。
Link: https://arxiv.org/abs/2605.04908
文脈学習による表形式データ生成における品質とプライバシーのトレードオフの打破 [cs.LG]目的：表形式データの高品質な生成とプライバシー保護
- データ分析における重要な課題であり，プライバシー保護とデータ活用を両立させる必要性が高まっている。
- 小規模データセットの場合，データ品質の向上はプライバシー侵害のリスクを高めるというトレードオフが存在する。
- 文脈学習を用いて，データセット特有のモデル構築ではなく，汎化構造を推論し，このトレードオフを改善すること。
- 提案手法DiffICLは，既存手法と比較して，データ品質とプライバシーの両方を向上させることを実証した。
- DiffICLは，大規模なデータセットから学習した事前知識を活用することで，小規模データセットでも高い性能を発揮する。
- 生成された合成データは，効果的なデータ拡張を可能にし，データ分析の精度向上に貢献する。
Link: https://arxiv.org/abs/2605.04911
ローカル学習の再考：LLMポストトレーニングのための，より安価で迅速なレシピ [cs.CL, cs.LG]目的：LLMポストトレーニングの効率化と性能維持
- 大規模言語モデル（LLM）の性能向上には，ポストトレーニングが不可欠である。
- 従来のポストトレーニングは，計算コストが高く，学習効率が低いという課題がある。
- ポストトレーニングにおける勾配の伝播範囲を局所化することで，効率と性能を改善することを目指す。
- LoPTは，勾配境界をトランスフォーマーの中間に設定することで，メモリコストを削減し，学習効率を向上させる。
- LoPTは，事前学習済みの能力を維持しつつ，タスクごとの適応を可能にする。
- 実験の結果，LoPTは従来のポストトレーニングと同等の性能を達成することが示された。
Link: https://arxiv.org/abs/2605.04913
ゼロショット論理ルール誘導のための基盤モデル [cs.AI, cs.LG, cs.SC]目的：ゼロショット論理ルール誘導
- 解釈可能なルール抽出は，AIの透明性向上に不可欠である。
- 従来のILPはタスクごとに再学習が必要で，汎用性に課題がある。
- 再学習なしに，新たなタスクへルールを適用することを可能にする。
- 本研究では，事前学習済みのNeural Rule Inducer (NRI)を提案する。
- NRIは，リテラルの統計的特性を用いることで，変数やカウントに依存せず汎化性能を高める。
- 実世界のベンチマークにおいて，ゼロショット転移の有効性が示された。
Link: https://arxiv.org/abs/2605.04916
非線形システムに対するリザバーリフティングによるクープマン同定 [cs.LG, cs.RO]目的：非線形動力系に対する扱いやすい線形表現の学習
- 複雑なシステムの解析・制御において，低次元の線形表現は不可欠である。
- クープマン演算子理論では辞書選択や時間記憶エンコードが課題となる。
- リザバーコンピューティングの枠組みを導入し，安定した近似を可能とする。
- 提案手法RC-Koopmanは，リザバーをクープマン辞書と解釈し，時間深度を制御する。
- エコー状態特性(ESP)により，クープマン近似の適切な設定と数値的安定性を保証する。
- 実験結果から，RC-KoopmanはEDMD等の既存手法と比較して，再構成精度と動的安定性のバランスに優れることが示された。
Link: https://arxiv.org/abs/2605.04917
結果レベル最適化による合成的汎化のための強化学習 [cs.LG, cs.CL]目的：合成的汎化の改善
- 複雑なタスクを効率的に学習するためには，未知の組み合わせへの対応が不可欠である。
- 既存手法は教師あり学習に依存しがちで，未知の構成への汎化が困難である。
- 最終的な出力に基づいた強化学習によって，合成的汎化能力の向上を目指す。
- 強化学習は，教師あり学習と比較して合成的汎化性能を向上させる。
- 教師あり学習モデルは頻繁な構成に過適合しやすいが，強化学習は出力分布を再構築することで，より複雑な構成への汎化を促進する。
- 単純な報酬と複合報酬の両方において，効果が確認された。
Link: https://arxiv.org/abs/2605.04920
学習可能な編集とコミットによるアイデアグラフの進化：マルチエージェント科学的発想 [cs.MA, cs.AI]目的：マルチエージェント科学的発想のためのアイデアグラフ進化
- 科学的発見の加速には新たな手法が求められる。LLMを活用したマルチエージェントシステムが有望視されている。
- 既存手法では，アイデアの弱点特定と改良過程の追跡が困難である。
- アイデアの弱点を明確にし，改良過程を可視化することで，より質の高い研究アイデアを生成することを目指す。
- 提案手法「Evolving Idea Graphs (EIG)」は，既存システムを上回る性能を示す。
- EIGは，新規性，実現可能性，明確性などの評価指標で優れた結果を達成した。
- 明示的なグラフ状態と学習された編集・コミット制御が，性能向上に大きく貢献していることが示された。
Link: https://arxiv.org/abs/2605.04922
遺伝子制御ネットワーク推論はいつ破綻するか：シングルセルデータを用いた因果的および相関的アプローチの制御された診断研究 [cs.CL, cs.LG, cs.AI, q-bio.GN, q-bio.QM, stat.ML]目的：シングルセルRNA-seqデータからの遺伝子制御ネットワーク（GRN）推論における，因果的アプローチの性能低下のメカニズム解明
- シングルセル解析は，細胞レベルの遺伝子発現の多様性を理解する上で不可欠であり，生命科学研究の進展に貢献する。
- GRN推論において，因果的アプローチは理論的に優れているにも関わらず，現実的なデータセットでは相関に基づく手法に匹敵しないことが課題となっている。
- 既存の評価基準の限界を克服し，各推論手法がどのような条件下で優位性や課題を示すかを明確にすること。
- 制御された実験により，因果的アプローチはクリーンで構造的に好ましい条件下では優れた性能を示すことが明らかになった。
- ドロップアウトや潜在的交絡因子などの特定の病理は，因果的アプローチの優位性を打ち消すことが示された。
- 複数の病理が同時に発生した場合，それらの複合的な影響は単独の場合よりも小さく，密度に依存した性能変化が明らかになった。
Link: https://arxiv.org/abs/2605.04930
協調スワームのためのモジュール型強化学習 [cs.RO, cs.AI]目的：協調スワームにおけるロボットの相互作用学習手法
- ロボットスワームは，複雑なタスクを分散的に達成可能にする重要な技術である。
- 個々のロボットの計算資源が限られているため，状態空間の表現が課題となる。
- モジュール化により状態表現の複雑さを軽減し，学習の効率化を目指す。
- 提案手法では，状態の各特徴を個別の学習モジュールで処理し，結果を集約する。
- シミュレーション実験により，提案手法がロボットスワームの採餌行動において有効であることが示された。
- モジュール化により，個々のロボットのメモリ制約下でも効果的な学習が可能となる。
Link: https://arxiv.org/abs/2605.04939
DART：包括的なロープ状態監視のためのビジョン-言語ファウンデーションモデル [cs.CL, cs.CV, cs.AI]目的：合成繊維ロープの状態監視における一連のタスクの実行
- 海洋，海事，産業におけるロープの安全な運用には，定期的な状態監視が不可欠である。
- 従来のロープの状態監視は，損傷の分類に留まり，詳細な評価や推奨事項が不足している。
- 単一の画像から，損傷の程度，メンテナンス推奨，異常検知などを包括的に提供すること。
- DARTは，損傷の分類において，ビジョンのみのベースラインと比較して大幅な精度向上（38.5%）を示した。
- 連続的な損傷度の回帰分析では，Spearmanの相関係数0.94という高い結果が得られた。
- DARTは，タスク固有のファインチューニングなしに，多様なダウンストリームタスクに対応できる汎用的なモデルである。
Link: https://arxiv.org/abs/2605.04943
訓練時のバッチ正規化が区分線形ネットワークにおける局所分割形状を再構築する [cs.LG, stat.ML]目的：訓練時バッチ正規化における分割形状の変化
- 深層学習の性能向上に不可欠なバッチ正規化の理論的理解は十分とは言えない。
- バッチ正規化がネットワークの関数表現に及ぼす影響の幾何学的解釈が不足している。
- バッチ正規化が局所的な分割形状に与える影響を幾何学的に解析し，そのメカニズムを解明する。
- 訓練時バッチ正規化は，各ニューロンに対し，ミニバッチの重心を通る参照平面を定義することが示された。
- バッチ正規化は，局所的な分割を洗練させ，ReLUネットワークを含む区分線形ネットワークにおいて，その効果が層を伝播することが示された。
- バッチ正規化は，データ近傍におけるバッチ条件付き中心化メカニズムとして機能し，関数レベルでの幾何学的説明を与える。
Link: https://arxiv.org/abs/2605.04946
きめ細かい専門家混合のための適応型転置インデックスルーティング [cs.CL, cs.IR, cs.LG]目的：きめ細かい専門家混合モデルにおけるルーティングコスト削減
- Transformerモデルの規模拡大には，専門家混合モデルが有効であり，近年注目されている。
- 専門家を細分化すると性能は向上するが，ルーティングコストが計算資源を圧迫する。
- 本研究は，ベクトル量子化に基づく転置インデックスルーティングにより，このコストを削減することを目指す。
- AIR-MoEは，粗い段階で候補となる専門家を絞り込み，次の段階で正確なルーティングスコアを計算する二段階の手法を用いる。
- これにより，完全な専門家スコアリングを避けつつ，真のトップkルーティングを近似する。
- 実験結果から，AIR-MoEは既存のルーティング手法と比較して，きめ細かいMoE設定で優れた性能を発揮することが示された。
Link: https://arxiv.org/abs/2605.04952
ブラックボックス最適化における特徴量計算予算がインスタンスごとのアルゴリズム選択に与える影響 [cs.NE, cs.LG]目的：ブラックボックス最適化におけるインスタンスごとのアルゴリズム選択の妥当性および最適化
- 最適化問題の解決には多様なアルゴリズムが存在し，問題ごとに最適なアルゴリズム選択が重要である。
- インスタンスごとのアルゴリズム選択では，特徴量計算に予算が必要であり，その予算配分が課題となる。
- 特徴量計算予算とアルゴリズム選択性能のトレードオフを明らかにし，適切な予算配分を提案する。
- 特徴量計算に総予算の最大25%を費やしても，インスタンスごとのアルゴリズム選択は多くのシナリオで有効である。
- 特徴量計算予算とインスタンスごとのアルゴリズム選択のメリット最大化は，アルゴリズム選択のシナリオに強く依存する。
- インスタンスごとのアルゴリズム選択における性能損失の平均20%は特徴量計算予算に起因することが示唆された。
Link: https://arxiv.org/abs/2605.04954
順序に基づくリハーサル学習 [cs.LG]目的：望ましくない事象の回避策の決定
- 機械学習において，将来の予測に基づいて行動を選択する重要性が増している。
- 望ましくない未来を回避する既存手法はグラフ構造に依存し，学習が困難である。
- 観測データから順序構造のみを用いて，効果的な回避策を決定することを目指す。
- 順序構造が，グラフ構造に匹敵する決定への影響の特定に十分であることが示された。
- 情報理論に基づく順序学習法が，構造関数やノイズ分布に制約を課さずに実現された。
- 提案手法は，グラフ構造や順序学習に依存する既存手法を上回り，オラクルベースラインに匹敵する性能を示した。
Link: https://arxiv.org/abs/2605.04955
KernelBench-X: LLM生成GPUカーネルの評価のための包括的ベンチマーク [cs.LG, cs.PF]目的：LLM生成GPUカーネルの性能評価
- GPUカーネルは高性能計算の基盤であり，その最適化は重要である。
- LLMによるカーネル生成は進展しているが，限界と原因が明確でない。
- LLM生成カーネルの課題を明らかにし，改善の方向性を示す。
- KernelBench-Xを用いた評価の結果，タスク構造が正誤よりも大きく影響することが示された。
- 反復改善は正誤率を向上させるものの，性能改善には繋がらないことが判明した。
- 正誤と性能は必ずしも一致せず，特に量子化処理は依然として課題が残る。
Link: https://arxiv.org/abs/2605.04956