arXiv雑要約

AI - 2026/05/14 公開

サブワード正則化による言語モデルの事前学習：低リソースNLPにおけるBPEドロップアウトの実証研究 [cs.CL, cs.LG]目的：低リソースNLPにおけるBPEドロップアウトの事前学習への適用効果の検証
- 自然言語処理において，事前学習済み言語モデルは性能向上に不可欠であり，その効率的な学習方法が重要。
- 事前学習とファインチューニングでトークン化方法が異なる場合，セグメンテーションの不一致が生じ，性能低下の要因となりうる。
- 事前学習時にBPEドロップアウトを適用することで，セグメンテーションの不一致を軽減し，低リソース環境下での性能向上を目指す。
- 事前学習とファインチューニング両方で確率的トークン化を適用した場合に，最も良い結果が得られる傾向が見られた。
- ファインチューニングデータが少ない設定では，BPEドロップアウトをファインチューニングのみに適用すると，決定論的トークン化よりも性能が劣る場合がある。
- 事前学習時またはファインチューニング時にデータが少ない場合に，事前学習時のBPEドロップアウトの利点が最も大きいことが示された。
Link: https://arxiv.org/abs/2605.13436
Cognifold：認知構造の折り畳みによる常時的・能動的な記憶 [cs.AI, cs.CL]目的：認知構造の自律的な形成と，それを用いた能動的な記憶機構
- 自律的な知能を持つエージェント実現には，経験を構造化し長期記憶として保持する能力が不可欠である。
- 既存のAIメモリは反応的で検索ベースであり，自律的な構造化や高次認知の獲得が困難である。
- 本研究は，イベントストリームを継続的に構造化し，高次認知を促進する新しいメモリ機構を提案する。
- Cognifoldは，補完学習システム理論を拡張し，前頭前皮質層を追加することで，認知構造を自律的に形成する。
- グラフ構造の自己組織化により，意味的に類似した構造が統合され，不要な構造は減衰する。
- CogEval-Benchを用いた評価では，Cognifoldが人間の認知構造と一致するメモリ構造を生成し，複数の認知ベンチマークで高い性能を示した。
Link: https://arxiv.org/abs/2605.13438
大規模言語モデルの創造性の評価：テスト，限界，そして新たなフロンティア [cs.RO, cs.AI, cs.CL, cs.HC]目的：大規模言語モデルの創造性評価
- AI技術の発展に伴い，言語モデルの創造性向上は重要課題となっている。
- 既存の創造性テストは，人間と機械の創造性を同等に測れるか疑問が残る。
- 言語モデルの創造性をより正確に評価する手法を確立することを目指す。
- 人間の創造性テストを大規模言語モデルに適用し，その有効性を体系的に評価した。
- Divergent Association Task (DAT)が，文章作成と発散的思考の予測に優れていることが示された。
- 新たなテストであるDivergent Remote Association Test (DRAT)が，科学的発想能力の予測に有効であることが確認された。
Link: https://arxiv.org/abs/2605.13450
CUBic：協調的統合二腕知覚と制御フレームワーク [cs.CL, cs.RO, cs.AI]目的：二腕ロボットの知覚と制御に関する統合的フレームワーク
- ロボットの自律的な動作には，視覚情報からの直接制御が不可欠であり，二腕操作はその応用範囲を広げる。
- 既存手法では，二腕の独立性と協調性のバランスが難しく，統一的な扱いに欠ける点が課題である。
- 本研究は，二腕協調を統一的な知覚モデリング問題として捉え，それを解決することを目指す。
- CUBicは，視覚情報と制御を橋渡しする共有トークン化表現を学習することで，独立性と協調性を自然に実現する。
- RoboTwinベンチマークにおける実験で，CUBicは標準的なベースラインを上回り，協調精度とタスク成功率が大幅に向上した。
- 本フレームワークは，一方向知覚集約，双方向知覚協調，統合知覚-制御拡散ポリシーの3つの要素で構成される。
Link: https://arxiv.org/abs/2605.13452
リソース制約デバイスにおけるジェスチャ認識のための効率的なセンサーフュージョン [cs.LG]目的：リソース制約デバイス上でのジェスチャ認識のための効率的なセンサーフュージョン手法
- ウェアラブルデバイスの普及に伴い，自然な操作を実現するジェスチャ認識技術の重要性が増している。
- 従来の画像処理ベースの手法は，消費電力，計算負荷，プライバシーの問題を抱えている。
- 低消費電力でプライバシーを保護しつつ，高精度なジェスチャ認識を実現する手法を開発する。
- 低解像度ToFセンサーとIRサーマルセンサーのフュージョンにより，単一センサーよりも高い認識精度を達成した。
- 提案手法は，92.3%の精度と0.93のmacro F1スコアを示し，軽量なCNNアーキテクチャにより，低消費電力なマイクロコントローラでの動作を実現した。
- STM32F4/H7上でベンチマークを行い，6,343パラメータでミリ秒レベルの推論速度，50mWの消費電力で動作することを確認した。
Link: https://arxiv.org/abs/2605.13462
糖尿病検出，亜型判別，認知・代謝仮説検証のための統一された3段階機械学習フレームワーク [cs.LG]目的：糖尿病の検出，亜型に基づいたクラスタリング，代謝と認知の関連分析
- 糖尿病は世界的に増加しており，予防医療における主要な課題であるため，より効果的な分析手法が求められている。
- 既存の研究は二値分類に偏っており，糖尿病の亜型分析や認知機能との関連性は十分に解明されていない。
- 機械学習を用いた再現性のある分析パイプラインを構築し，糖尿病の亜型を考慮した詳細な解析を可能にすること。
- SVM-RBFとロジスティック回帰が最も高いROC-AUC（0.825±0.026）を示し，ランダムフォレストが最も高い精度（0.762±0.030）を達成した。
- グルコース，BMI，年齢が主要な予測バイオマーカーとしてSHAPによる解釈可能性分析で特定された。
- 血糖コントロールと認知機能の間に有意な正の関連性（ρs = 0.208, p = 5.29 × 10-5）が認められ，Holm補正にも耐えうる結果が得られた。
Link: https://arxiv.org/abs/2605.13464
Twincher：連続システムのロバストな逆変換のための双射表現学習 [cs.CL, cs.LG]目的：連続システムの逆問題を解決するための双射表現
- AIの進歩は関数近似に偏っており，現実世界での効率的な知覚・計画に必要な誘導バイアスが不足している。
- ノイズやモデルの不一致に弱い逆変換が，実用的なシステム構築の課題となっている。
- 入力と出力を双射的に対応づけ，ノイズに強い表現学習により，ロバストな逆変換を実現する。
- 提案手法Twincherは，構造化された微分同相変換と敵対的学習を組み合わせることで，効率的な双射表現学習を可能にする。
- 合成データを用いた実験により，Twincherがデータ効率とロバスト性を向上させることが示された。
- 本研究は，ロボティクス，ビジョン，物理AIにおける双射表現学習の可能性を示唆する。
Link: https://arxiv.org/abs/2605.13470
OSDN：線形Attentionにおける証明可能なオンライン事前条件付けを用いたDelta Ruleの改善 [cs.LG, cs.CL]目的：線形AttentionにおけるDelta Ruleの性能向上
- 近年，Attention機構の計算コスト削減が重要視されており，線形Attentionや状態空間モデルが注目されている。
- 従来の線形Attentionや状態空間モデルは，文脈内での関連情報の想起に課題がある。
- 本研究は，オンライン事前条件付けによりDelta Ruleの性能を向上させ，文脈内想起能力を高めることを目指す。
- OSDNは，オンラインで更新される対角事前条件付けをDelta Ruleに追加することで，特徴ごとの目的関数の曲率を考慮する。
- 理論的に，OSDNは右ニュートン法と比較して超幾何学的収束を示し，トークン局所的な残差収縮境界を証明した。
- 実験的に，OSDNは340Mパラメータ規模でDeltaNetと比較して文脈内想起率を32%向上させ，1.3Bパラメータ規模では想起残差比を39%削減した。
Link: https://arxiv.org/abs/2605.13473
隠れた誤校正領域の発見 [cs.CL, cs.LG, cs.AI, stat.ME]目的：隠れた誤校正領域の発見
- 機械学習モデルの信頼性は重要であり，その評価は安全性や意思決定に直結する。
- 従来の校正評価は，全体的な信頼性しか考慮せず，局所的な誤校正を見落とす可能性がある。
- 入力空間の構造を学習し，局所的な誤校正を特定することで，より詳細な校正改善を目指す。
- 大規模言語モデル(LLM)のベンチマークにおいて，入力依存的な校正の不均一性が広く存在することが示された。
- 発見された誤校正領域は，局所的な信頼性補正に活用でき，既存手法よりも校正エラーを削減できる。
- 学習された入力空間の幾何学的構造を用いて，局所的な誤校正をカーネル平滑化により推定する手法を提案した。
Link: https://arxiv.org/abs/2605.13484
Transformer における有効な文脈：断片化とトークン化の分析 [cs.LG, cs.CL, cs.IT, math.IT]目的：Transformer の性能に影響を与える表現方法（バイト，文字，サブワードトークン）の選択に関する情報理論的枠組み
- Transformer は自然言語処理の主要モデルであり，その性能向上は重要である。
- Transformer の文脈窓サイズが限られている場合，表現方法の選択が性能に影響する点が問題である。
- 表現方法の選択が Transformer の予測能力に与える影響を理論的に解明し，最適な表現方法を検討する。
- より小さな表現単位への移行は，文脈窓を拡大しても予測精度を低下させる可能性があることが示された。
- 断片化が有限文脈における損失を厳密に増加させることが証明され，表現方法に内在するギャップであることを示した。
- 貪欲なトークン化が短いトークンウィンドウを長い文脈ウィンドウのように振る舞わせることができ，その条件が明確化された。
Link: https://arxiv.org/abs/2605.13485
多パラメータ生成ダイナミクスに対する経路非依存フローマッチング [cs.CL, cs.LG]目的：多パラメータの確率分布間の輸送マップ学習
- 生成モデルの性能向上に不可欠であり，複雑なデータ分布の学習を可能にする。
- 従来のフローマッチングは，経路に依存した輸送を扱うことが難しく，汎用性に欠ける。
- 経路非依存な輸送マップを学習することで，初期分布と目標分布のみに依存する変換を実現する。
- PiFMは，より高次元なパラメータ領域への拡張と，合成変換の一貫性確保を可能にする。
- 適切な仮定の下，PiFMはWasserstein中心を近似し，分布補間と関連付けられる。
- シミュレーション不要な実用的な目的関数を提案し，合成データおよび実データで優れた性能を示した。
Link: https://arxiv.org/abs/2605.13487
MARLIN：クラウドデータセンターにおける持続可能なLLM推論のためのマルチエージェントゲーム理論強化学習 [cs.DC, cs.LG]目的：クラウドデータセンターにおけるLLM推論の最適化
- LLMの利用拡大に伴い，推論時のエネルギー消費が環境負荷の主要因となっている。
- LLM推論の応答時間，炭素排出量，水使用量，エネルギーコストのトレードオフが課題である。
- LLM推論におけるこれらの要素を同時に最適化し，持続可能性を向上させる。
- 提案手法MARLINは，最新のLLM推論管理フレームワークと比較して，TTFTを18%以上削減する。
- MARLINは，炭素排出量を33%以上，水使用量を43%以上，エネルギーコストを11%以上削減する。
- マルチエージェントゲーム理論強化学習により，効率的かつ持続可能なLLM推論を実現する。
Link: https://arxiv.org/abs/2605.13496
NLからSVA生成のための報酬重み付きオンポリシー蒸留と，オープンな特性同値性検証器 [cs.AR, cs.LG]目的：NLからSVAへの生成における性能向上
- SVAはハードウェア設計の検証に不可欠であり，その自動生成は効率化に繋がる。
- 既存手法はトークンレベルの模倣に偏り，SVAの正しさの本質である特性同値性を捉えきれていない。
- 特性同値性検証器を用いた蒸留により，SVAの検証に基づいた学習を実現し，性能向上を目指す。
- 提案手法RWOPDは，CodeV-SVA-14BからQwen2.5-Coder-7B-Instructへの知識蒸留に成功した。
- RWOPDは，NL2SVA-HumanおよびNL2SVA-Machineベンチマークにおいて，既存の最先端モデルを上回る性能を達成した。
- 特性同値性検証器を用いることで，よりSVAとして正しい応答を生成できるようになった。
Link: https://arxiv.org/abs/2605.13501
差分プライバシー予算の個別化の限界 [cs.CR, cs.LG]目的：差分プライバシー予算の最適化手法
- プライバシー保護とデータ利用のバランスが重要であり，差分プライバシーはそれを実現する有力な手法である。
- 個々のデータ主体ごとに最適なプライバシー予算の決定が困難であり，プライバシーとユーティリティのトレードオフが存在する。
- プライバシー予算の個別化による効果の限界を明らかにし，より効率的な予算設定方法を提案する。
- 平均推定において，完全な個別化よりも適切なプライバシー予算の選択が重要であることが示された。
- 単純な閾値処理を用いることで，完全な個別化メカニズムと比較して同程度の性能が得られることが確認された。
- 混合データセットや多段階のプライバシー要件を持つデータセットにおいて，改善効果の限界が定量化された。
Link: https://arxiv.org/abs/2605.13503
多数ショットCoT-ICL：インコンテキスト学習を真に学習させる [cs.AR, cs.CL, cs.AI]目的：大規模言語モデルにおける，多数ショット連鎖思考インコンテキスト学習の特性と改善
- 大規模言語モデルの活用が広がる中で，少ないデータでの適応能力が重要になっている。
- インコンテキスト学習の性能は，タスクやモデルによってばらつきがあり，安定性に課題がある。
- 連鎖思考インコンテキスト学習のスケール効果を分析し，性能向上策を提案することを目的とする。
- 標準的な多数ショット手法は，推論タスクにおいて有効でない場合があることが示された。
- サンプル選択と順序が性能に大きく影響し，特にモデルが理解しやすい簡単なサンプルと，概念的な進行を支援する順序が重要である。
- 提案手法Curvilinear Demonstration Selection (CDS)は，幾何学タスクにおいて最大5.42%の性能向上を達成した。
Link: https://arxiv.org/abs/2605.13511
ArcVQ-VAE：アークコサイン付加マージンを用いた球面ベクトル量子化フレームワーク [cs.CV, cs.AI, cs.LG]目的：画像モデリングにおける離散表現の学習
- 画像処理において，効率的な表現学習は重要であり，計算資源の削減や性能向上に貢献する。
- 従来のVQ-VAEでは，限られたコードブックベクトルで画像をトークン化するため表現力に制約があった。
- 本研究は，より識別的かつ均一に分散した潜在表現を獲得し，コードブックの利用効率を高めることを目指す。
- ArcVQ-VAEは，コードブックに球面角マージン事前分布（SAMP）を導入することで，潜在空間のカバー率を向上させた。
- Ball-Bounded Norm RegularizationとArcCosine Additive Margin Lossを用いることで，潜在ベクトル間の識別性を高めた。
- 画像再構成および生成タスクにおいて，ベースラインモデルと比較して競争力のある性能を達成した。
Link: https://arxiv.org/abs/2605.13517
MMSkills：汎用ビジュアルエージェントのためのマルチモーダルスキルへ [cs.AI]目的：マルチモーダルスキルによる汎用ビジュアルエージェント能力の向上
- エージェントの能力向上には再利用可能なスキルが重要であり，知識の共有と効率的な学習を可能とする。
- 既存のスキルはテキストやコードに偏っており，視覚情報を含むマルチモーダルな手続き的知識の活用が不十分である。
- 公開されたインタラクションデータから再利用可能なマルチモーダルスキルを抽出し，効率的な視覚的意思決定を支援する。
- MMSkillsフレームワークは，テキスト手順，状態カード，マルチビューキーフレームを組み合わせたコンパクトなスキルパッケージを提案する。
- エージェントは，これらのスキルを参照し，現在の環境と照合することで，効果的な行動選択が可能となる。
- GUIおよびゲームベースのベンチマーク実験により，MMSkillsが既存のエージェントの性能を向上させることが示された。
Link: https://arxiv.org/abs/2605.13527
統合的サージカルシーン理解に向けて：MLLMによる推論と接地（グラウンディング）の架け橋 [eess.SY, cs.SY, cs.CV, cs.AI]目的：サージカルシーン理解のための統合的フレームワークの開発
- コンピュータ支援手術の精度向上には，手術シーンの包括的な理解が不可欠である。
- 既存手法は，手続き的コンテキスト，意味的推論，視覚的接地を個別に扱っており，一貫性に課題がある。
- 高レベルな推論と低レベルな視覚的接地を統合し，より信頼性の高い手術支援を目指す。
- SurgMLLMは，マルチモーダル大規模言語モデルをファインチューニングすることで，構造化された推論を実現する。
- 実験の結果，主要な指標であるAP_IVTが40.7%から46.0%に向上し，既存手法を上回る性能を示した。
- 本研究は，推論と接地を統合することで，文脈を考慮した信頼性の高い手術支援の有効性を示す。
Link: https://arxiv.org/abs/2605.13530
AI生成スライド：その質は？学生は識別できるか？ [cs.AI, cs.CL, cs.CY, cs.HC]目的：AI生成スライドの質と，学生によるAI生成スライドと手作りスライドの識別能力の評価
- 教育現場におけるAI活用は，教材作成の効率化や教育の質向上に貢献しうるため重要である。
- AI生成スライドの品質が十分であるか，教育効果に与える影響が不明であり，慎重な導入が求められている。
- AI生成スライドの品質を評価し，学生の認識を把握することで，教育現場における適切な活用方法を模索する。
- コーディング支援ツールが，最も正確で完全，かつ教育的に優れたスライドを生成することがわかった。
- 学生は，AI生成スライドと教員作成スライドの品質に差を感じず，どちらがAI生成であるかを正確に識別できなかった。
- 高品質なスライドほどAI生成であるという認識が低く，学生は質の低いスライドをAI生成と関連付けている傾向が見られた。
Link: https://arxiv.org/abs/2605.13532
並列検索と明示的な統合による検索拡張推論のスケーリング [cs.AI]目的：検索拡張推論における性能向上
- 大規模言語モデルの推論能力を外部知識で補強する技術の重要性が増している。
- 従来の検索手法では，クエリが一つに限定され，情報網羅性とノイズ問題が課題となっていた。
- 複数クエリと明示的な統合により，検索の精度と推論の効率を改善することを目指す。
- MultiSearchは，複数クエリによる並列検索と情報統合により，検索のSNRを向上させる。
- 実験結果から，MultiSearchは既存手法を凌駕し，質問応答タスクの推論性能を改善することが示された。
- MultiSearchは，マルチプロセス報酬設計を用いた強化学習フレームワークによって最適化されている。
Link: https://arxiv.org/abs/2605.13534
HLS-Seek：プロキシ比較報酬強化学習による高品質な高レベル合成コード生成 [cs.LG, cs.AI]目的：高品質なハードウェア生成のためのコード生成手法
- 高レベル合成は，アルゴリズム記述をハードウェアに変換する上で不可欠であり，性能向上の鍵となる。
- 従来のHLSアプローチは，機能的な正当性のみに焦点を当て，性能指標の最適化が課題であった。
- 性能指標を考慮したHLSコード生成を，効率的な強化学習フレームワークによって実現すること。
- 提案手法HLS-Seekは，比較報酬プロキシモデルにより，合成ループ内での高コストな強化学習を回避している。
- HLS-Seekは，7BパラメータでHLS-evalにおいてGPT-5.1を含む最先端モデルを上回り，学習速度も8.5倍向上した。
- 性能評価では，30個のカーネルのうち16個で最短遅延時間を達成し，9個のカーネルでベースラインをパレート優位した。
Link: https://arxiv.org/abs/2605.13536
テンパチャと傾きがSLOPにつながる：推論時のアラインメントによる報酬ハッキングの緩和 [cs.LG, cs.AI, cs.CL]目的：報酬ハッキングの緩和
- 強化学習に代わる軽量な適応手法として注目されている。
- 報酬モデルの変化に対するロバスト性が課題となっていた。
- SLOPの重みパラメータ調整により，ロバスト性の向上を目指す。
- 推論時のアラインメント手法に，参照モデルの温度調整を導入した。
- 生成報酬モデルのアンサンブルをSLOPとして組み合わせることで，さらなる汎化性能を実現した。
- SLOPの重みパラメータ調整アルゴリズムは，ロバスト性を改善しつつ，アラインメント性能を維持した。
Link: https://arxiv.org/abs/2605.13537
ローケール条件付き少数ショットプロンプティングによる，小型言語モデルを用いたデバイス上PII置換におけるデモンストレーションの再現問題の軽減 [cs.CL, cs.AI]目的：デバイス上でのPII置換パイプラインにおける，デモンストレーションの再現による問題を軽減すること。
- 個人情報保護は重要であり，PIIの適切な処理は，プライバシー保護とデータ活用とのバランスを保つ上で不可欠である。
- PIIの単純な削除やマスキングでは，テキストの有用性が損なわれ，後続のタスク（検索やNER）に悪影響を及ぼす可能性がある。
- 本研究は，小型言語モデルを用いて，PIIを意味的に適切な偽の値に置換するパイプラインを提案し，デモンストレーションの再現問題に対処する。
- ローケール条件付きの少数ショットプロンプティングを用いることで，デモンストレーションの再現問題を大幅に軽減できることが示された。
- 提案手法は，複数の言語において，ルールベースの生成器と比較して，より自然なテキストを生成することに成功した。
- ただし，NERタスクにおいては，多様性の低い学習分布が原因で，ルールベースの手法よりも性能が劣ることが示された。
Link: https://arxiv.org/abs/2605.13538
デカップル化と発散条件付きプロンプトによるマルチドメイン動的グラフ基盤モデル [cs.LG, cs.AI]目的：マルチドメイン動的グラフにおける汎化性能向上
- 現実世界のシステムは動的グラフで構成され，その学習は重要である。
- 異なるドメインの動的グラフは，セマンティックと時間的パターンが不整合である。
- ドメイン固有のダイナミクスから汎用的なセマンティクスを分離し，知識転移の負の影響を軽減する。
- 提案手法DyGFMは，ノード分類とリンク予測の両タスクにおいて，12種類の最先端手法を上回る性能を示した。
- セマンティックと時間的特徴に応じて軽量なグラフプロンプトを注入するダイバージェンス条件付きプロンプト生成器を設計した。
- デュアルブランチ事前学習戦略とクロスドメインルーティングメカニズムにより，負の知識転移を緩和する。
Link: https://arxiv.org/abs/2605.13540
RealICU：LLMエージェントは長文のICUデータを理解しているか？行動模倣を超えたベンチマーク [cs.AI, cs.CL, cs.LG, cs.MA]目的：長文のICUデータに対するLLMエージェントの理解度評価
- 集中治療室では大量の臨床情報が継続的に生成され，迅速な判断が求められるため，信頼性の高いAI支援の必要性が高まっている。
- 既存のICUベンチマークは，不完全な情報に基づいた医師の行動を正解データとするため，AIの真の推論能力を評価しにくい。
- 本研究は，熟練医師による事後評価に基づいたラベルを用いて，AIのICUデータ理解度と意思決定能力をより正確に評価することを目指す。
- RealICUベンチマークを構築し，患者の状態評価，急性問題の特定，推奨される処置，危険な兆候の特定という４つのタスクを定義した。
- 既存のLLMはRealICUにおいて低い性能を示し，臨床推奨における再現率と安全性のトレードオフ，および患者の初期解釈へのアンカリングバイアスが明らかになった。
- 構造化メモリを持つエージェントICU-Evoは長期的推論を改善するものの，安全性の問題は完全には解消されなかった。
Link: https://arxiv.org/abs/2605.13542
AttenA+: ロボット基盤モデルにおける行動の不均衡の修正 [cs.RO, cs.AI]目的：ロボットの行動における重要度に応じた学習の優先度調整
- ロボットの汎用的な制御を実現するには，大規模なデータと効率的な学習が不可欠である。
- 既存のロボット基盤モデルは，全ての行動を均等に扱うため，微妙な動きの学習が不十分である。
- ロボットの速度に基づき行動の重要度を調整することで，より効率的な学習を目指す。
- AttenA+は，速度に基づいた行動注意機構を通じて，運動学的に重要なセグメントを優先する。
- OpenVLA-OFTのLiberoベンチマークにおいて，AttenA+の導入により性能が1.5%向上し98.6%を達成した。
- FastWAMのRoboTwin 2.0ベンチマークにおいても，AttenA+により性能が0.6%向上し92.4%となった。
Link: https://arxiv.org/abs/2605.13548
離散・連続パラメータを持つシミュレータのための混合ニューラル事後推定 [cs.LG]目的：離散・連続パラメータを持つシミュレータにおけるパラメータ推定
- 複雑なシミュレータのパラメータ推定は科学的モデリングの根幹であり，その効率化が求められている。
- 従来のニューラル事後推定は連続パラメータを前提としており，離散パラメータを含むモデルには適用が困難であった。
- 離散・連続パラメータを同時に扱えるニューラル事後推定手法を開発し，より幅広いモデルに対応することを目的とする。
- 提案手法は，離散パラメータと連続パラメータを共同で扱う推論ネットワークを導入することで，混合パラメータ空間へのニューラル事後推定を拡張した。
- このネットワークは，離散パラメータにオート回帰分類器，連続パラメータに生成モデルを使用し，単一のシミュレーションベースの目的関数で共同学習を行う。
- 玩具問題や現実世界の科学シミュレータを用いた実験で，提案手法が正確かつキャリブレーションされた事後分布を与えることが示された。
Link: https://arxiv.org/abs/2605.13551
コントラスト近接方策最適化による自己教師ありオンポリシー強化学習 [cs.LG, cs.AI]目的：自己教師あり強化学習のための新しいアルゴリズム
- 報酬関数の設計が困難な環境下での強化学習の自動化が重要である。
- 既存のコントラスト強化学習はオフポリシーであり，離散行動空間への応用が遅れている。
- オンポリシー強化学習とコントラスト強化学習を組み合わせ，離散環境での性能向上を目指す。
- 提案手法CPPOは，従来のCRLのベースラインを18個のタスクのうち14個で大幅に上回る性能を示した。
- また，手動で設計された報酬を用いるPPOと同等またはそれ以上の性能を12個のタスクで達成した。
- CPPOは，オンポリシー強化学習のアプローチとして有用性を示すとともに，コントラスト強化学習の可能性を広げた。
Link: https://arxiv.org/abs/2605.13554
ベイズ物理情報ニューラルネットワークによる，希な縦断的CTデータからの肺腫瘍成長予測 [cs.LG]目的：肺腫瘍成長予測の不確実性評価
- 肺がんの早期発見と治療効果の評価には，腫瘍成長の正確な予測が不可欠である。
- 縦断的CTデータが希である場合，腫瘍成長予測の精度と信頼性が課題となる。
- 限られたCTデータから，不確実性を考慮した肺腫瘍成長予測を行うことを目指す。
- 提案手法は，限られた観察データ下でも合理的な予測精度を維持し，異質な腫瘍成長パターンを捉えることが示された。
- 決定論的モデリングアプローチと比較して，校正された不確実性推定値を提供することが確認された。
- 推論された事後パラメータ相関は，期待される生物学的成長行動と一致しており，ベイズ物理情報モデリングの有用性が示唆された。
Link: https://arxiv.org/abs/2605.13560
深層ニューラルネットワークを用いた都市域陸上表面温度のスパイシャル・テンポラルダウンスケーリングとナウキャスティング [cs.LG]目的：都市域陸上表面温度の高解像度化および短時間予報
- 都市気候や生態系研究において，陸上表面温度は重要な変数である。高空間分解能と高時間分解能の同時取得が課題。
- 既存の衛星データによる陸上表面温度製品は，空間分解能と時間分解能のトレードオフが存在する。
- 静止衛星と極軌道衛星のデータを統合し，高空間分解能・高時間分解能の陸上表面温度データの生成を目指す。
- 提案手法により，1km空間分解能，15分時間分解能の陸上表面温度データを生成することに成功した。
- ダウンスケーリングモデルは，RMSEが1.92℃，バイアスが0.01℃という高い精度を示した。
- ナウキャスティングモデルは，従来のベンチマーク手法と比較して，RMSEが0.57〜1.15℃と，より高い予測精度を達成した。
Link: https://arxiv.org/abs/2605.13566
心筋梗塞後における心血管疾患進行の動的予測モデリング：ECG学習型人工知能モデル [cs.LG, cs.AI]目的：心血管疾患進行の動的予測モデルの開発
- 心筋梗塞は主要な死亡原因であり，予後予測が重要である。
- 深層学習モデルは大量のラベル付きデータが必要だが，医療分野ではデータ不足が課題である。
- ラベルなしECGデータを用いた自己教師あり学習による予後予測精度の向上を目指す。
- 本研究で提案するモデルは，既存モデルと比較してAUCが向上し，臨床構造化されたECGモデリングが少ないデータ下で分類性能を向上させることが示された。
- 事前学習済み人工知能モデルが，対照学習と教師ありマルチタスクヘッドを組み合わせることで，心筋梗塞後の転帰予測において高い性能を発揮した。
Link: https://arxiv.org/abs/2605.13568
強化学習型コンテンツ生成器に対する局所制約の学習 [cs.AI, cs.LG]目的：強化学習型コンテンツ生成器における局所制約の学習
- ゲームコンテンツの自動生成は，開発コスト削減や多様なゲーム体験提供に貢献する重要な技術である。
- 既存手法では，視覚的な満足感とゲームプレイの実現という相反する課題が存在する。
- WFCで学習した局所制約を強化学習に組み込み，両者の利点を両立させることを目指す。
- 本研究では，WFCで学習した制約を強化学習型生成器の行動空間に組み込むことで，視覚的な満足感とグローバルなゲームプレイ特性の両立を目指した。
- 実験の結果，適切なハイパーパラメータ調整により，視覚的に満足度が高く，プレイ可能なゲームレベルが生成された。
- 特に，Lode Runnerのようなパズルプラットフォームゲームレベルにおいて，所望のグローバル特性を持つレベルを生成することが確認された。
Link: https://arxiv.org/abs/2605.13570
人間化を超えて：生成AIへの深い自己開示における非人間性認識と構造的類似性の役割の探求 [cs.HC, cs.AI]目的：生成AIへの深い自己開示における心理的要因
- AI技術の進化に伴い，人間とAIの関係性が重要視されている。
- AIに対する人間の信頼形成メカニズムは未だ解明されていない点が多い。
- 人間化以外の要因が自己開示に及ぼす影響を明らかにすること。
- 非人間性認識と構造的類似性の両方が高いグループは，自己開示の可能性が有意に高いことが示された。
- 自己開示の深さにおいても，グループ間に有意な差が認められた。
- 深い自己開示における信頼形成は，人間化認識以外の要因も関与する可能性が示唆された。
Link: https://arxiv.org/abs/2605.13574
支援エージェントにはアクセシビリティとの整合性が求められる [cs.AI]目的：視覚障碍者向け支援エージェントのアクセシビリティ整合性
- 視覚障碍者の生活の質向上に貢献できる技術開発が重要である。
- 既存のAIエージェントは，健常者向け設計が中心で，視覚障碍者への配慮が不足している。
- 視覚障碍者の制約を考慮した，アクセシビリティに配慮したエージェント設計を目指す。
- 既存のAIエージェントは，視覚障碍者支援において設計上の前提と利用者の制約の不一致により，失敗しやすいことが示された。
- アクセシビリティを単なるユーザビリティの問題ではなく，整合性問題として捉えるべきであると提唱する。
- ユーザー調査，システム設計，導入，反復改善を含むライフサイクル全体を考慮した設計パイプラインが提案されている。
Link: https://arxiv.org/abs/2605.13579
異質性を考慮した拡散法による高密度屋内シーン生成 [cs.CV, cs.AI]目的：高密度屋内シーンの生成
- 具現化されたAIのための忠実なシミュレーション環境構築には不可欠な技術である。
- 既存手法はオブジェクトを均一に扱うため，複雑な配置や空間依存性の高いシーンに対応できない。
- シーンを構成する役割の違いに基づき，異質性を考慮した生成を目指す。
- 提案手法HetSceneは，構造レイアウト生成と文脈レイアウト生成の二段階で屋内レイアウトを生成する。
- 構造レイアウト生成では，テキスト記述や部屋のマスク，空間関係グラフを用いて主要オブジェクトの配置を行う。
- 大規模な主要家具の安定したグローバルな骨格を構築することで，スケーラビリティと物理的妥当性を向上させる。
Link: https://arxiv.org/abs/2605.13586
グラフニューラルネットワークにおける汎化性能の再考：構造的複雑性の視点 [cs.IR, cs.CL, cs.CL, cs.LG]目的：グラフニューラルネットワークの汎化性能に影響を与える構造的複雑性の評価
- グラフ構造データからの学習において，グラフニューラルネットワークは重要な役割を担っている。
- グラフ構造データ特有の複雑な構造依存性のため，汎化性能の理解が困難である。
- グラフ構造が汎化性能に与える影響を定量的に評価し，改善策を提案すること。
- エッジ数を増やすことは，入力表現を過剰に適合させ，過学習を誘発することが理論的に証明された。
- 有効エッジ数に基づく構造的複雑性指標を導入し，汎化性能の上界を導出した。
- 構造的複雑性を制御する構造エントロピー正則化法を提案し，汎化性能の向上を示した。
Link: https://arxiv.org/abs/2605.13597
不確実性下における価値に基づいた意思決定のための非重み付きランキング [cs.AI, cs.MA]目的：不確実性下での価値に基づいた意思決定における非重み付きランキング手法
- 社会における自律的判断を行う知能システムの普及に伴い，人間の価値観との整合性が重要となっている。
- 既存の価値に基づいた意思決定方法は，利害関係者による恣意的な重み付けが課題となっていた。
- 本研究は，重み付けを排除し，不確実性を定量化することで，より公平で合理的な意思決定を可能とする。
- 提案手法Rankzzyは，ファジー論理に基づき不確実性を定量化する非重み付きランキング手法である。
- Rankzzyは，利害関係者によって選択された構成に対して一貫性を数学的に証明できる。
- 大規模な価値に基づいた意思決定問題において，計算コストの削減と，既存手法を上回るランキング性能が示された。
Link: https://arxiv.org/abs/2605.13601
深層学習をニューラル低次数フィルタリングとして：階層的特徴学習のスペクトル理論 [cs.LG, cond-mat.dis-nn, stat.ML]目的：深層学習における有用な内部表現の学習メカニズム
- 深層学習は高い性能を示すが，その理論的基盤は未だ十分とは言えない。
- 深層学習がどのように特徴を学習し，表現を獲得するか，その過程が不明確である。
- 深層学習の特徴学習を，スペクトル理論を用いて数学的に明確に記述すること。
- 本研究では，深層学習を「ニューラル低次数フィルタリング」という簡略化されたモデルで近似し，階層的特徴学習の過程を解析した。
- このモデルは，各層がラベルとの低次数相関を最大化する方向を選択するという明確なメカニズムを持つことを示した。
- 実験結果は，本モデルが従来のランダム特徴ベースラインを上回り，実際のデータセットにおける学習初期段階の特徴発見と整合性があることを示した。
Link: https://arxiv.org/abs/2605.13612
食道運動障害の多Modalグラフベース分類 [cs.LG]目的：食道運動障害の分類
- 食道運動障害の診断は複雑であり，高分解能インピーダンスマノメトリのデータ解釈にばらつきが生じるため，正確な診断が課題である。
- 従来の診断法では，データ量が多く複雑なため，医師の熟練度によって診断精度に差が生じやすい。
- 患者情報と食道生理学的特徴を考慮したグラフベースモデルによる，より高精度な分類方法を確立することを目指す。
- 患者情報と食道運動データ（HRIM）を組み合わせた多Modalアプローチが，HRIMデータのみを用いたモデルよりも分類精度を向上させた。
- 食道運動データをグラフ構造で表現することで，視覚情報ベースの分類器と比較して，より高い分類性能が得られた。
- 複数のModalを統合することで，それぞれの情報が相補的に機能し，食道運動障害のより正確な分類に貢献することが示された。
Link: https://arxiv.org/abs/2605.13623
エージェントの行動解釈方法 [cs.CL, cs.AI]目的：エージェントの実行時における行動の記述と分析のための分類体系
- AIエージェントの利用拡大に伴い，その挙動理解が重要性を増している。
- エージェントの行動履歴は自然言語で記述され，大規模な解釈が困難である。
- エージェントの行動パターンを明確化し，問題点の特定と制御を容易にすること。
- ACT*ONOMYは，行動と分類を組み合わせた体系であり，エージェントの行動を階層的に記述する。
- 実験により，ACT*ONOMYを用いることで，エージェント間の行動プロファイルを比較し，失敗モードを特定できることが示された。
- 共通の語彙を提供することで，研究者，設計者，ユーザーがエージェントの行動をより一貫して解釈できるようになる。
Link: https://arxiv.org/abs/2605.13625
ゲノム駆動ニューラルセルオートマトンを用いたテクスチャ再生とグラフト [cs.NE]目的：マルチテクスチャ合成におけるテクスチャの損傷部位の自己再生機構
- コンピュータグラフィックス等の分野において，動的で適応的なシステムの実現が求められている
- 既存手法では，損傷部位の自然な修復や異なるテクスチャのシームレスな結合が困難であった
- ニューラルセルオートマトンの自己組織化能力を活用し，テクスチャの自己修復とグラフトを可能にする
- 本研究により，損傷部位のロバストな自己再生を実現する新たな学習手法が確立された
- ニューラルセルオートマトンのゲノムチャネルを精密に初期化することで，再学習なしに異なるテクスチャをシームレスに結合するグラフト技術が実現された
- 高品質で複雑なテクスチャ生成と滑らかな遷移が確認され，自律システムの動的なテクスチャ構成と自己修復の効率的なパラダイムを示した
Link: https://arxiv.org/abs/2605.13630
最小限の仮定下でのシングルループActor-Critic法の$\epsilon^{-2}$サンプル複雑度達成 [cs.CY, cs.LG, math.OC, stat.ML]目的：$\epsilon$-最適方策の探索におけるサンプル複雑度の理論的保証
- 強化学習は，複雑な意思決定問題を解決するための強力な手法であり，その効率化が重要である。
- 既存手法は，サンプル効率が悪く，あるいは強い仮定を必要とする場合が多く，実用上の制約がある。
- 本研究は，より少ないサンプルで効率的に最適方策を見つけ出すための新たな理論的枠組みを提供する。
- シングルループ，単一時間スケールの実装において，近似方策反復や自然方策勾配法などの幅広い方策更新手法に対し，$\tilde{\mathcal{O}}(\epsilon^{-2})$サンプル複雑度保証を初めて確立した。
- 既存研究では，ネストされたループ更新や，方策に関する強い仮定（一様混合，一様探索など）が必要であったのに対し，本研究では最小限の仮定下での保証を実現した。
- 結合型リアプノフドリフトフレームワークを用い，Actorの幾何学的収束率とCriticの$\tilde{\mathcal{O}}(1/T)$収束率を確立し，交差支配性により結合した。
Link: https://arxiv.org/abs/2605.13639
報酬非相関型方策最適化による多目的・混合報酬強化学習 [cs.LG, cs.CL]目的：多目的・混合報酬環境における方策最適化手法
- 複雑な環境下でのタスク達成には，多目的かつ多様な報酬設計が不可欠である。
- 報酬分布の異質性や相関が，強化学習の安定性を損なうことが課題となっていた。
- 報酬の相関を解消し，安定した方策学習を実現することを目的とする。
- 提案手法RDPOは，Magnitude-Aware Quantile正規化により，多様な報酬形式下での利点分配を安定化させる。
- Mahalanobis whiteningにより，報酬空間内の相関を軽減し，効率的な学習を可能にする。
- LongCat-Flashへの適用により，指示追従性，文章品質，頑健性が向上し，推論・コーディング能力も維持された。
Link: https://arxiv.org/abs/2605.13641
エゴ視点による共同シーンモデリングを通じた因果性認識型エンドツーエンド自動運転 [cs.RO, cs.AI]目的：因果性に基づいた自動運転システムの開発
- 自動運転技術は，交通渋滞の緩和や交通事故の削減に貢献し，社会に大きな変革をもたらす可能性を秘めている。
- 既存の自動運転システムは，エゴ車両と周囲の車両との相互作用における因果関係を十分に考慮していない点が課題である。
- エゴ車両と周囲の車両の因果関係を明示的にモデル化することで，より安全で信頼性の高い自動運転を実現する。
- 提案手法CaADは，Bench2Driveベンチマークにおいて，Driving Score 87.53，Success Rate 71.81を達成した。
- また，NAVSIMベンチマークにおいては，PDMS 91.1という良好な結果を示した。
- これらの結果は，CaADが複雑な交通環境における計画性能において優れた性能を発揮することを示唆する。
Link: https://arxiv.org/abs/2605.13646
NAACA：サルエンス駆動注意ゲーティングのためのオシレーター作動性ワーキングメモリを用いた学習不要神経聴覚注意認知アーキテクチャ [cs.CL, cs.SD, cs.AI]目的：音声における顕著性イベント検出の改善
- 音響情報は状況認識に不可欠だが，既存モデルは長尺音声で顕著なイベントが希薄化しやすい。
- 既存の音声言語モデルは，長尺録音において注意機構のボトルネックに陥りやすい。
- 顕著性に基づく注意ゲーティングにより，不必要な処理を抑制し効率化を目指す。
- NAACAは，AudioQwenのXD-Violenceデータセットにおける平均適合率を53.50%から70.60%に向上させた。
- オシレーター作動性ワーキングメモリ(OWM)は，Urban Soundscapes of the Worldデータセットにおいて，新たなイベントやサブカテゴリの変化を捉えた。
- OWMは，一時的な無音や都市の環境音に対してロバストであり，顕著性の抽出に貢献した。
Link: https://arxiv.org/abs/2605.13651
高順位特徴量分解による幾何学的・スペクトル的考察 [cs.LG, cs.AI, cs.CL]目的：低ランク事前学習の方法論に関する幾何学的・スペクトル的な特徴の分析
- 大規模言語モデルの性能向上は重要だが，計算資源の制約が課題となっている。
- 低ランク事前学習はメモリコスト削減に有効だが，汎化性能への影響が不明確である。
- 本研究では，低ランク事前学習が到達する解が，フルランク学習とどの程度異なるかを検証する。
- 低ランク事前学習は，バリデーションperplexityが類似していても，フルランク学習とは異なる解に収束する。
- フルランク学習はランダム方向においてより鋭い損失関数地形に落ち着く一方，主成分分析方向においては低ランク学習がより鋭い。
- 幾何学的・スペクトル的指標を用いることで，perplexityだけでは捉えきれない性能予測の精度向上が期待される。
Link: https://arxiv.org/abs/2605.13652
三角形に基づくメッセージを持つグラフニューラルネットワーク：多分割問題への応用 [cs.LG]目的：多分割問題に対するグラフニューラルネットワークの性能向上
- 多分割問題は，バイオインフォマティクス，データマイニング等に応用される重要な組み合わせ最適化問題である。
- 既存のグラフニューラルネットワークは，多分割問題の目的関数や制約を十分に考慮していない場合がある。
- グラフの三角形に着目したメッセージ計算により，多分割問題の求解精度を向上させることを目指す。
- 提案手法は，最先端のヒューリスティックソルバーと比較して，解の質において優れた性能を示す。
- 一部のインスタンスでは，数秒で最適解を発見する一方，厳密解法では数時間かかる場合がある。
- 最大200ノードの合成データおよび実データでの実験により，有効性が確認された。
Link: https://arxiv.org/abs/2605.13673
弱度教師ありセグメンテーションのセマンティックベース正則化 [cs.CV, cs.AI]目的：弱度教師ありセマンティックセグメンテーションにおける性能向上
- 画像認識において，ピクセルレベルでの正確なセグメンテーションは重要な課題である。
- 弱度教師ありセグメンテーションでは，アノテーションコストが高く，精度の向上が課題である。
- ファウンデーションモデルを効率的に活用し，知識と多様なラベルを取り入れることで精度向上を目指す。
- 微分可能なファジー論理と深層セグメンテーションモデルを統合し，SAMのファインチューニングを実現した。
- 論理に基づいたファインチューニングにより，高品質な擬似ラベルを生成し，セグメンテーション精度が向上した。
- Pascal VOC 2012とREFUGE2データセットで，密集合教師ありベースラインを超える最先端の精度を達成した。
Link: https://arxiv.org/abs/2605.13674
多様なビジョンモデルにおける普遍的な物体表現の特徴付け [cs.CV, cs.LG, q-bio.NC]目的：多様なビジョンモデルにおける普遍的な物体表現の構造
- 深層学習モデルは画像認識の性能を飛躍的に向上させたが，その内部表現の理解は遅れている。
- 異なるモデルがどのような共通の視覚的特徴を獲得しているか，そのメカニズムは不明である。
- モデル間で共通する視覚的特性を特定し，その普遍性の要因を解明すること。
- 162種類のビジョンモデルの物体類似性構造を分解し，普遍的な次元とモデル固有の次元を特定した。
- 普遍的な次元は解釈可能性が高く，概念的な画像特性と強く関連していることが示された。
- 普遍的な次元が多いモデルは，ヒトやサル脳の視覚活動との相関が高く，生物学的視覚との整合性が示唆された。
Link: https://arxiv.org/abs/2605.13675
３段階学習が，長期時系列予測における単純モデルの強力な性能を解き放つ [cs.LG]目的：長期時系列予測のための単純な時間的マッピングモデルの能力を引き出すこと
- 長期時系列予測は，需要予測や経済予測など，様々な分野で不可欠な技術である。
- 既存手法は複雑な構造に依存しがちで，単純なモデルの訓練方法が十分に検討されていない。
- 複雑な構造に頼らず，単純なモデルでも高い予測精度を実現することを目指す。
- 提案手法STAIRは，共有の時間的マッピング，変数ごとの微調整，残差学習の３段階で学習を行う。
- STAIRは，９つの長期予測ベンチマークにおいて，既存の強力な手法と同等またはそれ以上の性能を示した。
- シンプルな時間的予測器を維持しつつ，長期時系列予測に対する簡潔かつ効果的なモデリングの視点を提供する。
Link: https://arxiv.org/abs/2605.13678