arXiv雑要約

AI - 2026/05/12 公開

  • ネクタル:回帰によるキャッシュ済みトークンアテンションのニューラル推定 [cs.LG, cs.CL]目的:固定長文脈におけるソフトマックスアテンションの評価
    • 長文脈処理は,大規模言語モデルの性能向上に不可欠であり,その効率化が求められている。
    • キャッシュされたキーバリューペア全体を読み込む必要があり,計算コストが大きくなるという課題がある。
    • クエリ分布に合わせたニューラルネットワークでアテンション出力を近似し,計算コストを削減することを目指す。
    • ネクタルは,層およびKVヘッドごとにターゲットネットワークとスコアネットワークの2つを適合させる。
    • これにより,キャッシュ全体に対する$O(n)$の計算を,文脈長$n$に依存しないフォワードパスに置き換えることができる。
    • 実験結果から,近似誤差はフルアテンションとの次トークン予測精度との差に比例し,層ごとの容量配分によってその差が縮小することが示された。

    Link: https://arxiv.org/abs/2605.09778

  • マルコフ決定過程に対する帰属に基づく説明 [cs.AI]目的:マルコフ決定過程の説明
    • AIの意思決定プロセス理解は,信頼性と安全性の向上に不可欠である。
    • 既存手法は静的な特徴量に限定され,時系列データの解釈が困難である。
    • マルコフ決定過程における状態と実行経路の重要度を評価する手法を開発する。
    • 提案手法は,戦略合成技術を活用することで,マルコフ決定過程の非決定性を考慮した効率的な重要度計算を可能にする。
    • 5つのケーススタディで検証した結果,本手法が逐次的意思決定エージェントのロジックに対する解釈可能な洞察を提供することが示された。
    • 状態と実行経路に重要度スコアを割り当てることで,AIの行動原理を明確化し,説明可能性を高める。

    Link: https://arxiv.org/abs/2605.09780

  • 多様なLLM生成のためのパラメータ効率的ニューロエボリューション:プロンプト埋め込み進化による品質多様性最適化 [cs.NE, cs.AI, cs.CL, cs.LG]目的:多様なLLM生成の実現
    • 大規模言語モデルの活用が拡大する中で,その生成能力の多様性向上が重要課題となっている。
    • LLMはモード崩壊を起こしやすく,有効な解空間を十分に探索できないという問題がある。
    • プロンプト埋め込みを進化させることで,LLMのファインチューニングなしに生成を制御し,多様性を高めることを目指す。
    • QD-LLMは,プロンプト埋め込みを進化させることで,LLMの生成行動を制御するパラメータ効率的な枠組みを提示した。
    • HumanEval,MBPP等のベンチマークにおいて,QD-LLMはQDAIFと比較して,より高いカバレッジとQD-Scoreを達成した。
    • 多様なアーカイブは,テスト生成の改善やファインチューニングデータの品質向上に貢献することが示された。

    Link: https://arxiv.org/abs/2605.09781

  • 大規模軌道異常検知のための多層ラベリングと物理情報に基づいた学習 [cs.DC, cs.PF, cs.RO, cs.DC, cs.AI, cs.LG]目的:低軌道衛星の軌道異常検知手法の開発
    • 宇宙デブリ問題の深刻化により,衛星の衝突回避や寿命予測が重要となっている。
    • 軌道異常のラベルデータが不足しており,手動でのラベル付けは現実的ではない。
    • 弱教師あり学習を用いて,大量の軌道データから異常を効率的に検出することを目指す。
    • 多層ラベリングにより,232MのTLEデータから860万件の異常シーケンスを生成した。
    • IMM-UKFを用いた場合,従来のルールベース手法と比較して42.6倍多くの異常を検出した。
    • Transformerモデルを用いた評価で,機動と減速の検出率がそれぞれ55.4%と62.8%を達成した。

    Link: https://arxiv.org/abs/2605.09790

  • クロスVL:複雑度を考慮した特徴ルーティングとペアードカリキュラムによるクロスビューVision-Language検出 [cs.RO, cs.CV, cs.AI, cs.LG]目的:クロスビューVision-Language検出における性能向上
    • 視覚と言語を組み合わせたモデルは,物体検出において重要な役割を担う。
    • 地上視点と航空視点の差異により,既存のVLモデルの性能が著しく低下する。
    • 異なる視点間における複雑度の違いを考慮し,ロバストな検出を実現すること。
    • 提案手法CrossVLは,複雑度を考慮した経路集約(CPA)とペアードカリキュラム学習(PCL)を組み合わせることで,クロスビュー検出性能を向上させる。
    • MAVRECデータセットにおいて,Florence-2の航空視点mAPを58.66%から61.03%に改善し,地上-航空間の性能差を8.63ppから6.65ppに縮小した。
    • CPAによる安定した特徴集約と,PCLによる最適化ダイナミクスの改善が,この結果に貢献している。

    Link: https://arxiv.org/abs/2605.09802

  • LLMを用いたモバイルアクセシビリティの向上:視覚障碍者向けInsight [cs.HC, cs.AI]目的:視覚障碍者向けモバイルアクセシビリティサービスの改善
    • モバイルデバイス利用は不可欠だが,視覚障碍者には操作の困難さが存在する。
    • 既存の音声読み上げサービスは操作が煩雑で,自然な情報取得が難しい。
    • LLMを活用し,より直感的で効率的なモバイルアクセシビリティを実現する。
    • Insightは,従来のTalkBackと比較して,精神的負担とタスク時間を軽減した。
    • 対話型インターフェースが好まれたが,割り込み管理の改善が課題として示された。
    • LLMベースのインターフェースはモバイルアクセシビリティを大幅に向上させる可能性を示唆している。

    Link: https://arxiv.org/abs/2605.09803

  • 大規模言語モデルにおける長さ効率的な適応動的推論 [cs.LG, cs.AI]目的:大規模言語モデルの推論効率向上
    • 言語モデルの規模拡大に伴い,計算資源の効率利用が重要課題となっている。
    • 高性能な言語モデルは冗長な推論過程を経やすく,計算コストや遅延が増大する。
    • 推論の正確性と効率性を両立する動的な制御手法の開発が求められている。
    • 提案手法LEADは,推論の各ステップで正確性と効率性のバランスを動的に調整する。
    • LEADは,問題ごとに適切な推論長を推定し,過剰な推論や圧縮を抑制する対称的な報酬を用いる。
    • 数学的推論ベンチマークにおいて,既存手法を上回る精度と精度効率スコアを達成し,より短い出力を生成した。

    Link: https://arxiv.org/abs/2605.09806

  • 動的なエッジ/フォグネットワークにおける垂直型連合学習のためのサーバー配置最適化 [cs.CL, cs.RO, cs.NI, cs.DC, cs.LG, cs.SY, eess.SY]目的:動的なエッジ/フォグネットワークにおける垂直型連合学習の制御と最適化
    • エッジ/フォグコンピューティングの普及により,分散機械学習の重要性が増している。
    • 異種データやハードウェア構成が,連合学習の効率と性能に影響を及ぼす。
    • 動的なネットワーク環境下での,最適なサーバー配置とリソース配分を目的とする。
    • 提案手法SC-DNは,各グローバルラウンドにおいて一階の定常点を確立する。
    • モデル学習とリソース消費を,サーバー配置,送信電力,周波数,学習イテレーション数に基づいて最適化する。
    • 画像およびマルチモーダルデータセットでの実験により,提案手法の優位性が示された。

    Link: https://arxiv.org/abs/2605.09813

  • 時間制御の圧縮学習:慢性疾患管理のための強化学習フレームワーク [cs.LG]目的:時間制御の圧縮
    • 慢性疾患は,医療費増大の一因であり,早期介入による改善が急務である。
    • 従来の強化学習は,報酬の希薄性やシミュレーションと実際の乖離といった課題を抱えている。
    • 慢性疾患管理の特性を活かし,時間制御の圧縮を目標とする強化学習フレームワークを提案する。
    • 提案手法は,合成された高血圧と2型糖尿病の状態機械を用いたシミュレーションで有効性が示された。
    • 2型糖尿病の時間制御において,能力重み付きオフライン強化学習は,一様重み付き手法や行動ポリシーを15%ポイント上回った。
    • 実行強度を考慮したポリシーは,異なる展開環境で汎化する一方で,考慮しないポリシーは汎化しないことが示された。

    Link: https://arxiv.org/abs/2605.09818

  • 拡散言語モデルにおける動的構造化デコーディング:ベイジアン推論によるアプローチ [cs.LG]目的:拡散言語モデルにおける柔軟なテキスト生成の実現
    • 近年の自然言語処理において,拡散言語モデルは並列デコーディングの可能性から注目を集めている。
    • 既存の拡散言語モデルは固定長の生成に限定されており,多様な応用において柔軟性に欠ける点が課題である。
    • 本研究は,追加学習なしで柔軟なテキスト生成を可能にする構造化デコーディングフレームワークを提案する。
    • 提案手法は,生成長,ブロック境界,デコーディングスケジュールを同時に推論することで,動的な構造化生成を実現する。
    • 局所的な不確実性と構造的シグナルを統合するメカニズムにより,一貫性のあるテキスト生成を可能にする。
    • 複数のベンチマークにおける実験により,既存手法と比較して生成品質と柔軟性が大幅に向上することが示された。

    Link: https://arxiv.org/abs/2605.09820

  • オラクル汚染:AIエージェントの推論を悪用するための知識グラフの改ざん [cs.CR, cs.AI]目的:AIエージェントの推論における知識グラフの脆弱性
    • AIエージェントは知識グラフを依拠しており,その信頼性はAIシステムの性能に不可欠である。
    • 知識グラフは改ざんに対して脆弱であり,誤った情報がAIの判断を歪める可能性がある。
    • 本研究は,AIエージェントが利用する知識グラフの汚染による攻撃とその対策を検証する。
    • 知識グラフを改ざんすることで,AIエージェントは100%の確率で誤った情報を信頼することが示された。
    • プロンプトの形式が結果に影響を与えることが確認され,知識グラフへの信頼度はプロンプトの内容によって変化した。
    • 読み取り専用アクセス制御は直接的な改ざんを防ぐが,他の防御策は限定的であり,モデルに依存する。

    Link: https://arxiv.org/abs/2605.09822

  • CalBench:マルチエージェントLLMにおける協調性とプライバシーのトレードオフ評価 [cs.MA, cs.AI]目的:マルチエージェント間の協調性・プライバシーに関するトレードオフ
    • AIエージェントの連携が複雑化する中で,効率的な協調メカニズムの重要性が増している。
    • エージェントがプライベートな情報を持つ状況下での協調は,情報漏洩のリスクを伴う。
    • プライバシーを保護しつつ,効率的な協調を実現するための評価手法が求められている。
    • CalBenchは,カレンダーのスケジュール調整を通じて,マルチエージェントの協調性を評価する環境を提供する。
    • この環境では,コスト最小化を目的とした協調の質を,オラクル解やDCOPとの比較により正確に測定できる。
    • カレンダー情報に機密性を付与することで,交渉中のプライバシー侵害の程度も評価可能である。

    Link: https://arxiv.org/abs/2605.09823

  • MXFP4を用いた大規模言語モデルの事前学習 [eess.SY, cs.SY, cs.LG, cs.AI]目的:大規模言語モデルの事前学習におけるMXFP4量子化の影響
    • 大規模言語モデルは自然言語処理の発展に不可欠であり,その効率的な学習手法が求められている。
    • FP4のような低精度量子化は計算コスト削減に有効だが,学習が不安定になる課題がある。
    • FP4量子化による学習不安定性の原因を特定し,安定化手法を確立すること。
    • Llama 3.1-8Bの事前学習において,重み勾配のFP4量子化が収束劣化の主な原因であることが示された。
    • 順伝播と活性化勾配のみをFP4化しても,追加のトークン要件はわずかである。
    • 決定論的アダマール回転が,重み勾配の量子化による不安定性を改善する効果が確認された。

    Link: https://arxiv.org/abs/2605.09825

  • EnactToM:具現化されたエージェントにおける機能的心の理論の進化型ベンチマーク [cs.AI, cs.MA]目的:具現化されたエージェントにおける機能的心の理論の評価
    • 人間は効率的な協調のために他者の認識状態を把握する能力(心の理論)を持つ。AIエージェントにも同様の能力が必要。
    • 既存のベンチマークは直接的な信念質問によるリテラルな心の理論のテストに偏っており,行動に基づく機能的心の理論のテストは不十分。
    • 部分観測性,秘匿情報,制約のあるコミュニケーションが存在する3D環境で機能的心の理論をテストするベンチマークを提供すること。
    • EnactToMは,300の具現化されたマルチエージェントタスクで構成され,難易度が自動的に調整される。
    • 評価された7つの最先端モデルは,タスク遂行率が0.0%であり,リテラルな信念探索では平均45.0%の性能を示した。
    • 失敗の原因の93%は,情報の秘匿,相手の制約の無視,メッセージの誤配など,認識的な協調の破綻に起因することが判明した。

    Link: https://arxiv.org/abs/2605.09826

  • ファッション・フローレンス:構造化されたファッション属性抽出のためのFlorence-2の微調整 [cs.CV, cs.AI]目的:ファッション画像の構造化された属性抽出
    • ファッション分野における画像認識技術は,顧客体験の向上や効率的な商品検索に不可欠である。
    • 既存モデルでは,ファッション属性の抽出精度や構造化された出力形式の実現に課題があった。
    • 高精度かつ構造化されたファッション属性抽出モデルを構築し,実用的なシステムへの統合を目指す。
    • Fashion Florenceは,カテゴリ属性の認識精度において,GPT-4o-miniやGemini 2.5 Flashを上回る性能を示した。
    • マテリアル属性の認識精度も向上しており,実用的なファッション検索システムの構築に貢献できる。
    • LoRAによる微調整により,少ないパラメータで高精度なモデルを実現し,効率的な推論を可能にした。

    Link: https://arxiv.org/abs/2605.09827

  • クライオEM密度マップに対するBoltz-2のテスト時監視によるタンパク質の原子構造アンサンブルのモデリング [cs.LG]目的:タンパク質の原子構造アンサンブルのモデリング
    • タンパク質の機能解明には,その原子構造アンサンブルの知識が不可欠である。
    • シミュレーションや実験による高品質な構造データの不足が,アンサンブル予測モデルの精度を制限している。
    • クライオEMデータを用いて,既存の構造予測モデルを直接微調整し,原子構造アンサンブルの予測精度向上を目指す。
    • 本研究では,クライオEMマップを直接利用して,既存の構造予測モデルBoltz-2を微調整する手法CryoSamplerを提案した。
    • CryoSamplerは,従来の二段階プロセスと比較して,より高精度な原子モデル構築を可能にした。
    • 微調整後,同じタンパク質ファミリーの未知の配列に対しても多様な構造をサンプリングする能力を示し,汎化性能の可能性を示唆した。

    Link: https://arxiv.org/abs/2605.09832

  • 制約付き最小エントロピー結合によるクロスドメイン損失圧縮 [cs.IT, cs.LG, math.IT]目的:クロスドメイン損失圧縮における結合強度最大化
    • データ圧縮は情報伝送と保存の基礎であり,効率的な手法が求められている。
    • 異なるデータ分布間での圧縮は,情報損失を伴うため,課題が多い。
    • 劣化ドメインから目標分布への情報伝送と,分類タスクの性能維持を目指す。
    • 提案手法は,サンプルごとの歪みを最小化するのではなく,ソースと再構成間の結合強度を最大化する。
    • 共通乱数を用いることで,中間表現の削除が可能となり,決定論的な結合定式が得られる。
    • MNIST超解像やSVHNノイズ除去実験で,レート増加が分類精度向上と情報豊富な再構成に繋がることを示した。

    Link: https://arxiv.org/abs/2605.09833

  • Transformerに基づく感情分析と,通常の精神療法における症状の苦痛および悪化との関連 [cs.IR, cs.CL, cs.LG]目的:精神療法における症状の苦痛と悪化に関する感情分析の関連性
    • 心理療法研究において,患者の感情状態の理解は治療効果の向上に不可欠である。
    • 既存の感情測定手法は,主観的であり,客観的な評価が困難な場合がある。
    • Transformerを用いた感情分析が,客観的かつ効率的な感情測定ツールとなり得るか検証する。
    • Transformerに基づく感情分析の特徴量は,OQ-45の感情価に関する項目と強い相関関係が認められた。
    • 感情分析の分布は,治療の悪化リスクや離脱リスクのある患者群において有意な差が見られた。
    • 提案された感情分析の特徴量は,患者の苦痛や悪化を評価するための補助的な指標として有効である可能性が示された。

    Link: https://arxiv.org/abs/2605.09838

  • 自由エネルギー多様体:ハイブリッドベイジアンネットワークのためのスコアベース推論 [cs.LG, cs.AI]目的:ハイブリッドベイジアンネットワークにおける推論のためのスコア学習型条件エネルギーモデル
    • ベイジアンネットワークは不確実な知識表現に優れ,様々な分野で活用されている。
    • 離散変数と連続変数を扱うハイブリッドベイジアンネットワークの効率的な推論は課題である。
    • モードブリッジという問題を克服し,より正確な推論を実現することを目的とする。
    • 自由エネルギー多様体は,古典的なベースラインや従来の条件エネルギーモデルと比較して,KLダイバージェンスを大幅に低減する。
    • 特に,モードブリッジの中間点でのクエリや,複数の連続変数を伴うエビデンス合成において大きな改善が見られた。
    • 自由エネルギー多様体は,多峰性または構成的なベイジアンネットワーク推論が必要な場合に有効であり,閉世界分類タスクには識別分類器の方が適している。

    Link: https://arxiv.org/abs/2605.09839

  • 機械学習と計量経済学を用いたイールドカーブ予測の比較分析 [cs.AI]目的:米国債イールドカーブデータの予測性能の比較
    • 債券市場は株式市場よりも規模が大きく,イールドカーブはその重要な指標であるため。
    • 金融分野における時系列予測への機械学習の影響は議論の余地がある。
    • イールドカーブ予測に深層学習を含む多様な手法を適用し,その有効性を検証する。
    • 計量経済学的モデル(ARIMAなど)が全体的に他のモデルを上回る性能を示した。
    • 機械学習手法ではTimeGPT,LGBM,RNNが比較的良好な結果を示した。
    • 深層学習モデルの入力データとして,定常データと非定常データのどちらが適切かについても検討した。

    Link: https://arxiv.org/abs/2605.09842

  • メタ認知プローブ:LLMのキャリブレーション診断のための5つの行動指標 [cs.AI, cs.CL, cs.LG]目的:LLMの信頼度行動を5つの明確な次元に分解した診断手法
    • LLMの性能向上には,単に正答率だけでなく,モデル自身の知識状態の把握が不可欠である。
    • 既存の評価指標では,モデルが自身の誤りを認識しているかどうかの判断が困難である。
    • LLMの信頼度と正答率の関係を詳細に分析し,潜在的な問題を特定すること。
    • 本研究で開発された「メタ認知プローブ」は,LLMの信頼度行動を詳細に評価するための5つのタスクで構成される。
    • Gemini 2.5 Flashにおいて,タスク内キャリブレーションとタスク間難易度予測に47ポイントの乖離が見られた。
    • 従来の総合評価指標では見過ごされがちな,モデルの過信傾向を明確に示すことができた。

    Link: https://arxiv.org/abs/2605.09844

  • フル波形LiDAR点群におけるサブフットプリント効果の補正:フットプリント内ターゲット非混合による [cs.LG]目的:LiDAR点群におけるサブフットプリント効果の補正
    • LiDAR技術は地形計測や環境モニタリング等,幅広い分野で活用されており重要性が高い。
    • LiDARの測定原理上,一つのフットプリント内に複数のターゲットが含まれると,強度値に誤差が生じやすい。
    • フットプリント内のターゲットを分離し,正確な強度値を復元することで,LiDARデータの精度向上を目指す。
    • 提案手法は,物理モデルに基づき,フットプリント内のターゲット混合を明示的に解析する。
    • 波形パラメータや地表面形状等の情報を制約条件として活用し,逆混合問題を解くことで,サブフットプリントレベルでの強度補正を実現した。
    • 実験結果から,提案手法が異種ターゲットの分離性能と均質ターゲットの強度一貫性を大幅に向上させることが示された。

    Link: https://arxiv.org/abs/2605.09845

  • ChladniSonify:ニューメディアアート制作におけるクラッドニ図形の視覚・聴覚マッピング手法 [cs.SD, cs.AI]目的:クラッドニ図形と音響のリアルタイムな視覚・聴覚マッピングシステム
    • 視覚と聴覚の融合は,表現豊かなアート体験を生み出す上で不可欠である。
    • 既存のクラッドニ図形を利用した音響マッピングは,技術的なハードルが高く,リアルタイム性に欠ける場合が多い。
    • クラッドニ図形と音響をリアルタイムにマッピングすることで,インタラクティブなアート制作を可能にすること。
    • 提案システムChladniSonifyは,クラッドニ図形のパターン分類において99.33%という高い精度を達成した。
    • マッピングされた周波数は理論値と完全に一致し,わずかな遅延(平均50ms未満)でリアルタイムなインタラクションを実現している。
    • 本研究は,クラッドニ図形を用いた視覚・聴覚アート制作のための再現性のあるプロトタイプを提供する。

    Link: https://arxiv.org/abs/2605.09846

  • 限られたハードウェア上でのリアルタイム心電図解析のための効率的なニューラルネットワークアーキテクチャ [cs.LG]目的:リアルタイム心電図解析のための効率的なニューラルネットワークアーキテクチャの探求
    • 心電図は,広範な心臓異常の診断に不可欠であり,医療現場での重要性が高い。
    • 既存の深層学習モデルは計算負荷が高く,実用的な展開を妨げる要因となっている。
    • 診断精度と計算効率のバランスを取り,限られたハードウェアでも利用可能なモデルを開発する。
    • AttiaNetとDeepResidualCNNをベースラインとし,ParallelCNN,ParallelCNNew,SimpleNetという軽量モデルを提案した。
    • ドイツ,中国,アメリカの公開データセットを用いた評価で,提案モデルは高い診断性能と効率を示した。
    • 年齢や性別の人口統計学的メタデータを統合することで,最小限のオーバーヘッドで性能が向上することを確認した。

    Link: https://arxiv.org/abs/2605.09848

  • Attention-Residual Transformer におけるルーティング条件付きキャリブレーションの検証 [cs.CV, cs.AI]目的:Attention-Residual Transformerにおけるルーティング情報のキャリブレーションへの貢献度
    • 深層学習モデルの信頼性向上は重要であり,特に不確実性の推定は安全な応用において不可欠である。
    • 現在のキャリブレーション評価は,主にlogitやsoftmaxの信頼度のみに依存しており,ルーティング情報が十分に活用されていない。
    • ルーティング情報がキャリブレーションに有用であるか,その安定性を検証し,誤った解釈を防ぐことを目指す。
    • Attention-Residual Transformerにおいて,ルーティングに基づく要約統計量からは,安定したルーティング条件付きの誤キャリブレーションの証拠は得られなかった。
    • ルーティング深度の分散と信頼度に基づいたシンプルなプローブ(AR-CondCal)は,信頼度のみを用いたプローブや予測エントロピーを用いたプローブと比較して,有意な改善を示さなかった。
    • ルーティング情報を考慮したモデルの性能向上は,モデルの容量や,ルーティング情報のシャッフルによって再現できることが示され,真のキャリブレーション改善とは言えない可能性がある。

    Link: https://arxiv.org/abs/2605.09850

  • 人工知能(AI)における説明の公平性:統合的枠組み,公理,および責任あるAIに向けた今後の方向性 [cs.AI, cs.CE, cs.CY, cs.LG]目的:AIにおける説明の公平性に関する研究分野の統合と,説明における手続き的不公平の軽減
    • AIが社会的重要度の高い意思決定に利用され,公平性と説明可能性が重要課題となっている。
    • アルゴリズムの公平性と説明可能なAIは独立して研究されてきたため,説明プロセスの公平性という盲点が存在する。
    • 説明の公平性を独立した研究対象として捉え,公平性の保証と手続き的不公平の軽減を目指す。
    • アルゴリズムの出力が公平であっても,その推論過程に不公平が存在する「手続き的不公平」という問題が指摘された。
    • 説明の公平性を,保護属性に関わらず説明が同一であるという「条件不変性」として形式化する枠組みが提案された。
    • 説明の不公平を生み出す3つのメカニズム(表現駆動型,説明モデルの不一致,実行可能性駆動型)と,評価のための6段階のワークフローが提示された。

    Link: https://arxiv.org/abs/2605.09852

  • テスト時大規模言語モデル推論のための探索駆動型最適化 [cs.LG]目的:大規模言語モデルの推論能力および整合性の向上
    • 大規模言語モデルは,高度な推論能力が求められており,その性能向上が重要である。
    • 強化学習による事後学習は分布を鋭くし,推論時の多様性との間で緊張が生じるという課題がある。
    • 推論時の多様性と効率性を両立させ,モデルの過剰最適化を防ぐことを目指す。
    • 探索駆動型最適化(EDO)を導入することで,解の多様性と推論能力が向上した。
    • ED-iDPOとED-GRPOは,既存のベースラインと比較して,1.0-1.3%の精度向上を達成した。
    • EDOは,モデルのエントロピーを維持し,強化学習の訓練を安定化させる効果が確認された。

    Link: https://arxiv.org/abs/2605.09853

  • Concordia:連合学習LLMのための自己改善型合成テーブル [cs.LG]目的:連合学習におけるLLMの適応
    • データ共有が困難な環境下でLLMを活用する重要性が高まっている。
    • クライアント間のデータ分布の非一様性により,LLMの適応が難しい。
    • 異質なクライアント環境下での合成データの有効性を維持する。
    • Concordiaは,合成データ生成と連合検証の有用性を整合させる三層最適化フレームワークである。
    • LoRA訓練と軽量なユーティリティスコアラーを用いて,クライアント固有の合成テーブルを改善する。
    • GRPOと異質なスコアラーのアンサンブルにより,プライバシーを保護しつつモデル性能を向上させる。

    Link: https://arxiv.org/abs/2605.09855

  • MoPO:遮蔽に対する運動事前知識の組み込みによる人体メッシュ復元 [cs.CV, cs.AI]目的:遮蔽された人体メッシュの復元
    • 人体メッシュ復元は,モーションキャプチャや人間行動理解などに応用可能な重要な研究分野である。
    • 遮蔽部分の空間特徴が不十分なため,既存手法では遮蔽に対する頑健性が低く,姿勢推定に不安定性が生じやすい。
    • 遮蔽部分の推定に,過去の姿勢系列に含まれる信頼性の高い運動事前知識を活用し,より正確な復元を目指す。
    • MoPOは,遮蔽検出モジュールと運動予測器を組み合わせることで,遮蔽された関節位置を予測し,人体メッシュの復元精度を向上させる。
    • 運動情報を考慮した融合・洗練モジュールにより,予測された関節系列と画像特徴を統合し,より自然な姿勢を推定する。
    • 実験結果から,MoPOは遮蔽に特化したベンチマークおよび標準ベンチマークにおいて最先端の性能を発揮し,精度と時間的一貫性を大幅に向上させることが示された。

    Link: https://arxiv.org/abs/2605.09856

  • 再コミットのタイミング:長視野の視覚言語推論のための時間抽象化の発見 [cs.AI]目的:長視野推論における最適なコミットメント深度の学習
    • ロボット工学やAIにおいて,複雑なタスクを自律的に遂行するためには,長期的な計画と実行が不可欠である。
    • 既存手法では,コミットメント深度が固定されており,状況の変化に対応できないため,性能が制限される。
    • 本研究では,コミットメント深度を学習可能な変数として扱い,状況に応じて最適な深度を決定することを目指す。
    • 提案手法は,Sliding PuzzleとSokobanにおいて,固定深度ベースラインを凌駕する性能を示し,解ける割合を最大12.5%向上させた。
    • 特に,7Bのバックボーンモデルを使用しながらも,GPT-5.5やClaude Sonnetといった大規模言語モデルを上回る結果を達成した。
    • 理論的分析により,状態に応じたコミットメント深度が,固定深度よりも優れていることが示された。

    Link: https://arxiv.org/abs/2605.09860

  • フラグ多様体:深層ネットワークアラインメントの幾何学的枠組み [cs.LG, cs.AI]目的:深層ネットワークにおけるアラインメントの幾何学的構造
    • 深層学習モデルの汎化性能やロバスト性の向上に不可欠な要素を理解する上で重要である。
    • 深層ネットワークのアラインメント現象は経験的に確認されているものの,統一的な理論的解釈が不足している。
    • 幾何学的invariant理論を用いて,アラインメントを数学的に厳密に記述し,その構造を解明する。
    • アラインメント幾何学は,フラグ多様体という標準的な閉じた多安定層で与えられることが示された。
    • 部分空間交差の次元が,再パラメータ化不変な唯一の観測量であることが証明された。
    • リッジ正則化が,重み減衰の速度で部分空間アラインメントを指数関数的に促進することが明らかになった。

    Link: https://arxiv.org/abs/2605.09861

  • UFO:ロバストな継続グラフ学習のための統一的なフロー指向フレームワーク [cs.LG, cs.AI]目的:ロバストな継続グラフ学習における課題解決
    • 現実世界のグラフデータは時間とともに変化するため,継続グラフ学習の重要性が高まっている。
    • 既存手法はクリーンな教師データでの学習を前提とし,ノイズの影響に対する脆弱性が課題であった。
    • 変化するグラフデータにおける忘却とノイズ耐性を同時に解決する。
    • 提案手法UFOは,フローベース生成モデリングにより特徴分布を条件付け,忘却を軽減する。
    • UFOはインスタンスレベルの信頼度を推定し,ノイズの影響を低減し,誤った知識の固定化を防ぐ。
    • 実験結果から,UFOは様々なノイズ条件下で既存手法を上回り,高い精度と忘却抑制効果を示すことが示された。

    Link: https://arxiv.org/abs/2605.09862

  • ナウティラス・コンパス:本番LLMエージェントにおけるパーソナリティドリフト検出 [cs.CR, cs.AI, cs.CL, cs.IR, cs.LG]目的:本番環境におけるLLMコーディングエージェントのパーソナリティドリフト検出と,エージェントメモリ層の提供
    • LLMエージェントの利用拡大に伴い,長期的な一貫性維持が課題となっている。
    • 既存のパーソナリティ監視手法は,モデルの内部情報にアクセスする必要があり,API経由での利用には制限がある。
    • 本研究は,API経由で利用可能なLLMエージェントにおいても,パーソナリティドリフトを検出する手法を開発する。
    • ナウティラス・コンパスは,プロンプトと行動アンカーテキスト間のコサイン類似度を用いて,ブラックボックスでパーソナリティドリフトを検出する。
    • 実データを用いた評価では,ROC AUC 0.83のドリフト検出精度を達成した。
    • LongMemEval-SおよびEverMemBench-Dynamicにおいて,既存手法と比較して良好な性能を示した。ただし,情報抽出を行う手法には性能差が見られる。

    Link: https://arxiv.org/abs/2605.09863

  • 災害状況のきめ細かい評価のための損傷認識を意識したセグメンテーション手法:DA-SegFormer [cs.CV, cs.LG]目的:自然災害後の迅速かつ正確な被害状況の評価
    • 自然災害発生後の緊急対応において,迅速な被害状況把握は不可欠である。
    • UAV画像における,微細な損傷レベルの識別が困難であり,テクスチャ劣化やクラス不均衡が課題である。
    • 高解像度な災害画像に対応し,損傷認識の精度向上を目指す。
    • DA-SegFormerは,RescueNetデータセットにおいて74.61%のmIoUを達成し,ベースラインを2.55%上回る性能を示した。
    • 特に,軽微な損傷クラスで+11.7%,重大な損傷クラスで+21.3%と,重要な損傷クラスで大幅な改善が見られた。
    • クラスアウェアサンプリングやOHEMとDice Lossの統合により,希少な損傷特徴への露出を保証し,未表現クラスに焦点を当てている。

    Link: https://arxiv.org/abs/2605.09864

  • 連続潜在コンテキストがTransformerの効率的なオンライン学習を可能にする [cs.CG, math.AT, math.FA, cs.LG, cs.AI]目的:Transformerにおけるオンライン学習の効率化
    • 大規模言語モデルの性能向上は,様々な応用を促進する上で重要である。
    • 従来のLLMは,オンラインでの意思決定や長期的な適応において課題がある。
    • 潜在コンテキストを活用し,Transformerのオンライン学習能力を向上させる。
    • 本研究では,潜在コンテキストを用いることで,重み付き多数決アルゴリズムやQ学習といったオンライン意思決定手続きを実装可能なTransformerを構築した。
    • 潜在コンテキストは,Transformerに永続的な状態を効率的に提供する手段となり得る。
    • 合成データを用いた実験の結果,潜在コンテキストを持つ小規模なTransformerが,より大規模なLLMよりも優れた性能を示した。

    Link: https://arxiv.org/abs/2605.09867

  • 介入に基づく時系列因果探索:シミュレータ生成介入分布による手法 [cs.LG, cs.AI]目的:時系列データの因果関係の発見
    • 時系列データは様々な科学分野で現れ,その因果構造の理解は重要である。
    • 観測データのみでは交絡因子の影響を取り除きにくく,誤った因果関係推定が起こり得る。
    • 物理シミュレータを用いて介入分布を生成し,交絡の影響を回避する因果探索手法を提案する。
    • SVAR-FMは,物理シミュレータをPearlのdo演算の実装と見なし,介入データの生成と非線形条件付き分布の学習を行う。
    • シミュレータの操作可能な変数に関するカバレッジ条件の下で,構造VARが識別可能となることを理論的に証明した。
    • 実験結果は,SVAR-FMが観測的アプローチが誤った符号を示す箇所で正しい因果符号を復元することを示した。

    Link: https://arxiv.org/abs/2605.09870

  • EgoMemReason:長時間の主観視点ビデオ理解のための記憶駆動型推論ベンチマーク [cs.CV, cs.AI, cs.CL]目的:長期にわたる主観視点ビデオ理解における記憶駆動型推論の評価
    • 次世代のビジュアルアシスタント実現には,長時間の視覚情報処理が不可欠である。
    • 既存の長期ビデオベンチマークは,推論よりも知覚・認識タスクに重点が置かれている。
    • 数日規模の長期記憶を必要とする推論能力の評価と向上を目指す。
    • EgoMemReasonは,エンティティ記憶,イベント記憶,行動記憶の3つの記憶タイプを評価するベンチマークである。
    • 17の既存モデルの評価の結果,全体的な正答率は39.6%にとどまり,長期記憶の課題が残ることが示された。
    • 記憶タイプによって失敗の理由が異なり,証拠期間が長くなるほど性能が低下することが明らかになった。

    Link: https://arxiv.org/abs/2605.09874

  • アンカー投影表現による行動軸のモデル間普遍性 [cs.AI]目的:異なるモデル間における行動軸の比較と転移
    • 大規模言語モデルの発展は目覚ましいが,モデル間の互換性が課題となっている。
    • モデルの構造や学習方法の違いから,行動方向の比較や転移が困難である。
    • アンカー投影を通じて,モデル間の表現空間を共通化し,行動軸の普遍性を検証する。
    • Llama,Qwen,Mistral,Phiモデル群において,行動軸が共通座標空間で整合性を示すことが確認された。
    • この共通構造は,下流タスクへの転移に有効であり,高い検出精度とAUROCスコアが得られた。
    • 少数のソースモデルとアンカーを使用するだけで,転移可能な方向性を近似できることが示された。

    Link: https://arxiv.org/abs/2605.09875

  • キーバリュー平均 [cs.LG, cs.AI, cs.CL]目的:注意機構のためのブロック再帰構造
    • 長文処理における計算効率改善が重要視されている。
    • Transformerモデルの計算コストが文脈長の二乗に比例する点が課題。
    • Transformerの効率性を維持しつつ,計算コストを削減すること。
    • 提案手法KVMは,固定サイズまたは可変サイズの状態を扱える新しい注意機構。
    • KVMを導入したTransformerは,線形RNNと同等の性能と計算効率を実現。
    • KVMは標準的な演算で実装可能であり,並列処理にも対応している。

    Link: https://arxiv.org/abs/2605.09877

  • M2A:大規模言語モデルにおける数学的推論とエージェント的推論の相乗効果 [cs.AI]目的:大規模言語モデルにおける数学的推論とエージェント的推論の相乗効果
    • 近年,大規模言語モデルの重要な能力として推論が注目されている。
    • 数学的推論とエージェント的推論は異なる推論パターンを持ち,効果的な相互作用が課題である。
    • パラメータ空間でのモデルマージにより,エージェントの行動を損なわずに数学的推論能力を付与する。
    • 提案手法M2Aは,数学的推論タスクベクトルをエージェント行動に影響を与えない方向にマージする。
    • 追加の勾配更新を必要とせず,推論の長さを制御するシンプルな係数を提供する。
    • コーディングエージェント実験において,エージェント的推論の深さを拡張し,SWE-Bench Verifiedの正答率を44.0%から51.2%に向上させた。

    Link: https://arxiv.org/abs/2605.09879

  • デカルトの近道:極座標空間における視覚的推論の再評価 [cs.CV, cs.AI]目的:視覚的推論におけるデカルト座標系への依存性
    • 視覚的推論は,AIの知能を測る上で重要な課題である。特に,マルチモーダル大規模言語モデルの性能評価において重要性が増している。
    • 既存の視覚的推論ベンチマークは,直交座標系に偏っており,モデルがテキストによる推論に頼りやすいという問題がある。
    • 極座標系を用いた新たなベンチマークを構築し,モデルがテキストに頼らずに純粋な視覚的推論能力を評価すること。
    • 現在の最先端マルチモーダル大規模言語モデルは,直交座標系のベンチマークで高いスコアを出すが,極座標系では大幅に性能が低下する。
    • 性能低下は,論理的等価性が保たれていても発生し,モデルが直交座標系特有の情報を利用していることが示唆される。
    • これらの結果は,現在のモデルがトポロジー不変な視覚的推論能力を欠いていることを示している。

    Link: https://arxiv.org/abs/2605.09883

  • 幾何学的壁:多様体構造がスパースオートエンコーダのスケーリング則を予測する [cs.RO, cs.LG, cs.AI, math.DG]目的:スパースオートエンコーダのスケーリング則と多様体構造の関係性
    • ニューラルネットワークの表現学習におけるスケーリング則の理解は,モデルの効率的な設計に不可欠である。
    • 既存のスケーリング則は,層ごとに異なる挙動を示すスパースオートエンコーダの性能を十分に説明できない。
    • 多様体構造がスパースオートエンコーダのスケーリング則に与える影響を明らかにすることで,モデルの限界を理解する。
    • スパースオートエンコーダの層ごとのスケーリング則は,その層の多様体構造によって予測可能であることが示された。
    • 異なるモデル間でのパラメータ転移により,この幾何学的法則は普遍的な性質を持つことが確認された。
    • スケーリング則の漸近的な下限は,多様体の曲率や固有次元と一貫性のある順序で変動することがわかった。

    Link: https://arxiv.org/abs/2605.09887

  • 分数次微分プライバシー下での深層学習 [cs.NI, cs.MA, cs.CR, cs.LG]目的:プライバシー保護学習のための新しいメカニズムの提案
    • プライバシー保護された機械学習は,個人情報保護の観点から重要性が高まっている。
    • 従来のDP-SGDは,過去の情報を十分に活用できていないという課題があった。
    • 長期的な記憶効果を取り入れたプライバシー保護最適化手法を開発し,性能向上を目指す。
    • 分数次DP-SGD(FO-DP-SGD)は,過去のプライベートな出力の集計を組み込むことで,長期記憶を導入する。
    • FO-DP-SGDは,DP-SGDや他のプライバシー保護手法と比較して,テスト精度とプライバシー・ユーティリティ性能を向上させる。
    • 分数次,メモリウィンドウ,混合係数は,現在のステップ感度,信号保持,プライベート履歴の影響のトレードオフを制御する。

    Link: https://arxiv.org/abs/2605.09890

  • 言語モデルにおける疑似熟考:価値観と行動の不一致 [eess.SY, cs.SY, cs.CL, cs.AI]目的:言語モデルの価値観と行動の乖離
    • 言語モデルの社会実装が進む中,倫理的価値観との整合性が重要視されている。
    • 言語モデルは価値観を表明するものの,実際の行動に反映されない「価値観と行動の乖離」が課題である。
    • 本研究は,一見熟考しているように見えても,価値観と行動が一致しない「疑似熟考」の問題を明らかにする。
    • 言語モデルは,価値観を表明しつつも,対話において一貫した価値観に基づいた行動を示さないことが確認された。
    • VALDIという評価フレームワークを用いて,複数の言語モデルにおける価値観と行動の乖離を定量的に測定した。
    • 介入戦略として,多重エージェントによる価値観監査システムVIVALDIを提案し,生成過程における介入の可能性を示唆した。

    Link: https://arxiv.org/abs/2605.09893

  • 双曲線蒸留:ロバストな3D物体検出のための幾何学誘導型クロスモーダル転移 [cs.CV, cs.AI]目的:3D物体検出におけるクロスモーダル知識蒸留による性能向上
    • 3D知覚技術は,自動運転やロボティクスなど幅広い分野で不可欠である。
    • 点群と画像の特徴を効果的に統合することが,クロスモーダル蒸留の課題となっている。
    • モダリティ間の不均一性,空間的ずれ,多次元表現の損失を軽減することを目指す。
    • 提案手法HGC-Detは,画像と点群の特徴を効率的に融合する新しいフレームワークである。
    • 双曲線幾何学に基づき,高次元画像特徴と低次元点群特徴間のセマンティック損失を緩和する。
    • SUN RGB-D,ARKitScenes,KITTI,nuScenes等のデータセットで,検出精度と計算コストのバランスが向上した。

    Link: https://arxiv.org/abs/2605.09899

  • VLMsにおける難題:図式的な結び目推論を困難なベンチマークとして [cs.AI, cs.CL, cs.CV]目的:視覚言語モデルの結び目図形に対する推論能力の評価
    • 視覚言語モデルの発展は,画像とテキストの理解を統合する上で重要である。
    • 現在の視覚言語モデルは,図形を認識できても,その構造に基づいた推論が苦手である。
    • 結び目図形という複雑な構造を用いて,視覚言語モデルの推論能力の限界を明らかにする。
    • KnotBenchは1951種類の結び目図形から生成された858,318枚の画像データセットである。
    • Claude Opus 4.7とGPT-5に対して,14種類のタスクを用いて評価を行った結果,多くのケースでランダムベースラインを下回った。
    • 思考モードによる推論は,モデル全体の精度を向上させたものの,パフォーマンスのギャップを大幅に縮小するには至らなかった。

    Link: https://arxiv.org/abs/2605.09900

  • 睡眠段階判定のための適応的系列平滑化器としてのランダムTransformerの再考 [cs.LG, cs.AI]目的:睡眠段階判定におけるランダムTransformerの効果検証
    • 睡眠段階判定は,健康状態の把握や睡眠障害の診断に不可欠である。
    • Transformerは複雑な依存関係学習を前提とするが,その性能向上要因は未解明である。
    • 睡眠段階の局所的な時間的連続性を活用した平滑化による性能向上を目指す。
    • 訓練なしのランダム初期化Transformerが,既存の平滑化手法を上回る睡眠段階判定性能を示す。
    • ランダム自己注意メカニズムが,大域的平均化と内容に基づいた類似性をバランスさせる適応的平滑化器として機能する。
    • Transformerベースの睡眠段階判定の性能向上は,パラメータ学習よりもアーキテクチャの誘導バイアスに起因する。

    Link: https://arxiv.org/abs/2605.09905

  • まず分離し,後で融合する:オーディオビジュアルLLMの推論におけるクロスモーダル干渉の軽減 [cs.AI, cs.SD]目的:オーディオビジュアル質問応答におけるクロスモーダル干渉の軽減
    • 聴覚と視覚は互いに補完的な情報を提供する。複雑な推論や判断には両方の情報が不可欠である。
    • 現在のオーディオビジュアルLLMでは,一方のモダリティの情報が他方の解釈を誤らせるクロスモーダル干渉が問題となっている。
    • モダリティ固有の思考連鎖を適用し,干渉を抑制することで,より正確でロバストな推論を実現する。
    • 提案手法SFFLは,モダリティごとに独立した思考連鎖を生成し,段階的に情報を統合することでクロスモーダル干渉を軽減する。
    • 強化学習を用いてモダリティの優先度を学習させ,入力に応じて適切なモダリティの情報を活用する。
    • AVQAベンチマークにおいて,平均相対的な性能向上率が5.16%であり,クロスモーダルな幻覚ベンチマークでは11.17%の向上が確認された。

    Link: https://arxiv.org/abs/2605.09906

  • RADAR:冗長性を考慮したマルチエージェント通信構造生成のための拡散モデル [cs.AI, cs.MA]目的:マルチエージェントシステムの通信構造設計
    • 大規模言語モデルを用いたマルチエージェントシステムは多様なタスクで高い能力を示す。
    • 既存手法では通信トポロジーが固定,または一回の生成ステップで決定され,柔軟性に欠ける。
    • 通信オーバーヘッドを削減し,タスクに応じて最適な構造を生成することを目的とする。
    • RADARは,グラフ拡散モデルに基づき,段階的な通信トポロジー生成を可能にする。
    • 実験結果から,RADARは既存手法と比較して,精度,トークン消費量,ロバスト性の全てにおいて優れていることが示された。
    • 特に,複雑なタスクにおいて,より効率的な通信構造を構築できることが確認された。

    Link: https://arxiv.org/abs/2605.09907

  • うつ病と不安症の音声バイオマーカー [cs.LG, cs.AI, cs.SD]目的:うつ病と不安症の検出における深層学習モデルの開発
    • 精神疾患の早期発見・診断は,患者のQOL向上と医療費削減に不可欠である。
    • 従来の音声分析は特徴量エンジニアリングに依存し,高精度なバイオマーカー抽出が困難であった。
    • 大規模データを用いた深層学習により,よりロバストで臨床的に有用なバイオマーカーを抽出すること。
    • 提案モデルは,内容に依存しないバイオマーカー情報を抽出可能であり,音声からの語彙特徴量と組み合わせることで予測性能が向上する。
    • 約5000人の被験者を用いた評価において,感度と特異度ともに71%の性能を達成した。
    • 本研究で開発したモデルをHuggingFaceで公開し,精神保健評価研究の発展に貢献する。

    Link: https://arxiv.org/abs/2605.09908