arXiv雑要約

AI - 2026/04/28 公開

  • いつコミットすべきか:離散拡散言語モデルのための可変サイズ自己完結ブロックへ [cs.LG, cs.CL]目的:離散拡散言語モデルにおけるブロックコミットメントのタイミングの最適化
    • 言語モデルの効率的な生成において,並列処理と文脈理解のバランスが重要である。
    • ブロック単位の半自己回帰デコーディングは,文脈情報の利用に制限があり,生成品質を低下させる可能性がある。
    • 自己完結性を基準に,将来の文脈に依存しない最適なブロックサイズを決定し,生成精度を向上させる。
    • 自己完結性という原理に基づき,将来の文脈への依存度を測ることでブロック境界を選択する可変サイズ自己完結ブロック(VSB)を提案した。
    • 理論的根拠に基づき,自己完結性と予測の一貫性の関係を明らかにした。
    • 実験により,固定サイズやヒューリスティックなブロック分割よりもVSBの有効性が確認された。

    Link: https://arxiv.org/abs/2604.23994

  • 偏微分方程式のための適応的分布ランダムニューラルネットワーク:低次元分布学習フレームワーク [math.NA, cs.LG, cs.NA]目的:偏微分方程式の解法における分布学習
    • 偏微分方程式は科学技術計算の根幹であり,その効率的な解法は重要である。
    • ランダムニューラルネットワークの性能は隠れ層パラメータの分布に大きく依存する。
    • 手動での分布調整を減らし,分布レベルでの適応メカニズムを確立する。
    • AD-RaNNは,隠れ層の特徴生成を低次元の最適化問題に変換するフレームワークである。
    • PDADとDDADという2つの適応メカニズムを開発し,様々なソルバーや演算子学習モデルに適用した。
    • ベンチマーク問題における実験により,AD-RaNNが効果的な分布適応メカニズムを提供し,高い精度を達成することが示された。

    Link: https://arxiv.org/abs/2604.23999

  • CT-FineBench:CTレポート生成の微細評価のための診断的忠実度ベンチマーク [cs.AI]目的:CTレポート生成における微細な事実の一貫性評価
    • CT画像は疾患診断に不可欠であり,正確なレポート作成が臨床現場で求められている。
    • 既存の評価指標は,語彙の一致やエンティティの照合に留まり,臨床的に必要な詳細な診断精度を捉えきれない。
    • CT-FineBenchは,CTレポートの微細な事実誤認を検出し,臨床評価との相関を高めることを目指す。
    • CT-FineBenchは,CT-RATEとMerlinデータセットを用いて構築されたQAベースのベンチマークである。
    • 本ベンチマークは,専門家の臨床評価とより高い相関を示し,既存の指標よりも微細な事実誤認に敏感であることが示された。
    • 質問応答形式により,レポート生成モデルの臨床的なエラーを特定し,詳細な評価を可能にする。

    Link: https://arxiv.org/abs/2604.24001

  • IntentVLM:ビデオ・言語モデルによる前方逆モデリングを通じたオープンボキャブラリ意図認識 [cs.HC, cs.AI, cs.MM]目的:人間意図のオープンボキャブラリ認識
    • 人間とロボットの円滑な協調には,ロボットが人間の意図を正確に理解することが不可欠である。
    • マルチモーダルな状況下では,テキストや視覚情報など複数の信号を統合し,意図を解釈することが困難である。
    • 潜在的な推論における幻覚を抑制し,より堅牢な意図理解を実現することを目指す。
    • IntentVLMは,IntentQAおよびInst-IT Benchデータセットにおいて最先端の結果を達成し,精度は最大80%に達した。
    • ベースライン性能を30%上回り,人間のパフォーマンスに匹敵する結果を示した。
    • この構造化された推論アプローチは,忘却を防ぎつつ,オープンボキャブラリ意図理解を強化する。

    Link: https://arxiv.org/abs/2604.24002

  • ステップレベルの優位性選択による効率的な推論の安定化 [cs.CL, cs.LG]目的:効率的な推論の安定化
    • 大規模言語モデルの推論能力は重要であり,その計算コストの削減が求められている。
    • 推論効率化のアプローチは,短い文脈長での後学習により精度が低下しやすい。
    • ステップレベルでの優位性選択により,推論の安定性と精度を改善することを目指す。
    • ステップレベルの優位性選択(SAS)は,高い精度を維持しつつ推論長を短縮することに成功した。
    • 様々な数学的および一般的な推論ベンチマークにおいて,Pass@1の平均精度を0.86ポイント向上させた。
    • SASは,最も強力な長さ認識型ベースラインと比較して,平均推論長を16.3%削減し,精度と効率のトレードオフを改善した。

    Link: https://arxiv.org/abs/2604.24003

  • TCOD:マルチターン自律エージェントのためのオンポリシー蒸留における時間的カリキュラムの探求 [cs.LG, cs.AI]目的:マルチターン自律エージェントのための時間的カリキュラムによるオンポリシー蒸留の有効性
    • 複雑なタスク遂行において,より小型なモデルへ知識伝達が重要となる。
    • マルチターンエージェント設定におけるオンポリシー蒸留の安定性が課題である。
    • 軌跡長を制御する時間的カリキュラムにより,学習の安定化と性能向上を目指す。
    • TCODは,従来のオンポリシー蒸留におけるKLダイバージェンスの不安定性を緩和する。
    • TCODは,学習中のKLダイバージェンスの安定性を向上させる。
    • 実験結果から,TCODは従来のオンポリシー蒸留を最大18ポイント上回る性能を示す。

    Link: https://arxiv.org/abs/2604.24005

  • 外れチャネルに対する重み付き集合被覆による後学習量子化のキャリブレーション [cs.LG]目的:後学習量子化におけるキャリブレーションデータ選択手法
    • 大規模言語モデルの効率的な推論が重要視されており,量子化はその有効な手法の一つである。
    • 量子化の精度はキャリブレーションデータの選択に大きく依存し,適切なデータ選択が課題となっている。
    • 外れチャネルを適切にカバーするキャリブレーションデータ選択により,量子化精度を向上させる。
    • 提案手法COVERCALは,外れチャネルを効率的にカバーするキャリブレーションデータを選択する重み付き集合被覆問題を解く。
    • LLaMA-2, LLaMA-3, Mistral等において,既存手法と比較して,特に限られたキャリブレーションデータ数で精度向上が確認された。
    • MMLUのスコアが1.2~1.5ポイント向上,パープレキシティの劣化が15~30%軽減された。

    Link: https://arxiv.org/abs/2604.24008

  • FedSLoP:低ランク勾配射影によるメモリ効率の良い連合学習 [eess.SY, cs.SY, cs.LG, math.OC]目的:連合学習における,メモリ効率と通信効率の向上
    • データプライバシー保護と機械学習の普及に貢献する技術分野である。
    • 環境が異質でリソースが限られている場合,通信量とメモリ消費量が課題となる。
    • 低ランク勾配射影により,通信・メモリコストを削減しつつ学習を加速すること。
    • 提案手法FedSLoPは,勾配の低ランク部分空間への射影を用いることで,通信量とクライアント側のメモリ使用量を大幅に削減した。
    • 理論分析により,FedSLoPが平滑性・分散制限の条件下で,$O(1/\sqrt{NT})$の収束率で定常点に収束することが保証された。
    • MNIST分類実験の結果,FedSLoPはFedAvgや他のベースラインと比較して,同等またはより高い精度を達成した。

    Link: https://arxiv.org/abs/2604.24012

  • FlashOverlap:分散LLMトレーニングにおける通信オーバーラップのテールレイテンシの最小化 [cs.LG, cs.CV, cs.DC]目的:分散大規模言語モデルのトレーニングにおけるテールレイテンシの最小化
    • 大規模言語モデルの規模拡大に伴い,分散学習の重要性が増している。計算資源の効率的な活用が課題。
    • 既存の通信-計算オーバーラップ手法では,テールレイテンシがボトルネックとなり,性能が制限されている。
    • 本研究は,テールレイテンシを排除し,分散LLMトレーニングの効率を向上させることを目指す。
    • 提案手法FlashOverlapは,reduce-scatterやall-gatherといった従来の集団通信演算を,P2P通信に分解することでテールレイテンシを解消する。
    • FlashOverlapは,データ並列および様々なテンソル並列戦略(TPSP,UPなど)と互換性があり,幅広い分散学習環境で適用可能。
    • 実験結果から,FlashOverlapは低レイテンシ,優れたモデルFLOPS利用率,高いスループットを実現することが示された。

    Link: https://arxiv.org/abs/2604.24013

  • 線形コンテキストバンディットにおける幾何学的知識を活用したオフライン事前学習とオンライン学習 [cs.CY, cs.LG]目的:バイアスのあるオフライン回帰データを用いた線形コンテキストバンディットにおけるオフライン事前学習とオンライン学習
    • 強化学習の分野において,オフラインデータを用いた効率的な学習は重要な課題である。
    • オフラインデータとオンラインデータの分布が異なる場合,単純な温め直しでは性能が低下する可能性がある。
    • オフラインデータの幾何学的構造を考慮することで,より安全で効率的な学習を目指す。
    • 提案手法Ellipsoidal-MINUCBは,オフライン情報とオンライン情報を組み合わせ,不確実性の軽減に役立つ場合にのみオフライン情報を活用する。
    • 理論的に,後悔の上界が標準的なSupLinUCBと,オフラインデータの幾何学的構造に基づいた項の最小値で抑えられることが示された。
    • 実験結果は,オフラインデータのカバレッジと転移可能性が一致する場合に,提案手法が最大の効果を発揮することを示している。

    Link: https://arxiv.org/abs/2604.24016

  • ClawdGo:自律型AIエージェントのための内生的なセキュリティ意識トレーニング [cs.RO, cs.CR, cs.AI]目的:自律型AIエージェントのセキュリティ意識向上
    • AIエージェントの利用拡大に伴い,セキュリティリスクへの対策が不可欠である。
    • 既存の防御策はプラットフォームの境界に集中しており,エージェント自身の脅威判断能力が未発達である。
    • エージェント自身が推論時に脅威を認識し,判断できるよう,内生的なトレーニングを目指す。
    • ClawdGoフレームワークを用いたトレーニングにより,セキュリティ意識評価スコアが大幅に向上した。
    • 最弱優先順位学習(ASAT)により,平均TLDTスコアが80.9から96.9に上昇し,ランダム学習を上回った。
    • CSMAによるセッション間でのスキル維持,およびSACPにおける誤検知の課題が確認された。

    Link: https://arxiv.org/abs/2604.24020

  • QED:未解決問題に対する数学的証明を生成するためのオープンソースマルチエージェントシステム [cs.AI, math.AP]目的:数学的証明の生成
    • 数学におけるAIの応用は,人間の知性を拡張し,新たな発見を促進する可能性を秘めている。
    • 大規模言語モデルはベンチマークでは高い性能を示すものの,真に新しい証明を生成することは困難である。
    • システムの設計を改善することで,ベンチマークの成功と研究レベルの証明とのギャップを埋める。
    • QEDは,特定の失敗モードに対処するように設計された,オープンソースのマルチエージェント証明システムである。
    • 応用解析と偏微分方程式における5つの未解決問題に対し,QEDは3つの問題に対してオリジナルかつ重要な証明を生成した。
    • 生成された証明は,専門家によって検証され,その正当性が確認された。

    Link: https://arxiv.org/abs/2604.24021

  • スキルテキストからスキル構造へ:エージェントスキルのスケジュール・構造・論理的表現 [cs.CL, cs.AI]目的:エージェントスキルの表現方法に関する研究
    • LLMエージェントの性能は,再利用可能なスキルに大きく依存する。
    • 現在のスキル表現はテキスト中心であり,機械による理解が困難である。
    • スキルに関する情報を構造化することで,エージェントのスキル管理を容易にする。
    • 提示されたSSL表現は,スキル発見タスクにおいてMRRを0.573から0.707に向上させた。
    • リスク評価タスクにおいては,SSL表現がmacro F1を0.744から0.787に改善した。
    • 明示的な構造化表現は,エージェントスキルの検索とレビューを容易にすることが示された。

    Link: https://arxiv.org/abs/2604.24026

  • 基礎モデルの限界理論:創発的知能とスケール則を理解するための数学的アプローチ [cs.LG, math.ST, stat.TH]目的:創発的知能の数学的定式化
    • 近年のAI開発において,創発的知能が重要な役割を果たしている
    • 既存研究は経験的な観察に依存しており,厳密な理論的枠組みが不足している
    • 限界理論を用いて創発的知能を形式化し,そのメカニズムを解明することを目指す
    • 性能関数E(N, P, K)を用いて知能を定量化し,データ量,モデルサイズ,学習ステップとの関係を明らかにした
    • 創発的知能は,有限から無限の知識への移行として捉えられ,限界存在の条件が重要であることが示された
    • パラメータ限界アーキテクチャの存在条件を証明し,基礎モデルのスケーリング則を導出した

    Link: https://arxiv.org/abs/2604.24037

  • AgentPulse:デプロイにおけるAIエージェントを評価するための継続的なマルチ信号フレームワーク [cs.AI, cs.CL, cs.SE]目的:AIエージェントのデプロイにおける評価
    • AI技術の急速な発展に伴い,実用的な評価手法の確立が重要である。
    • 従来のベンチマークは,デプロイ後のAIエージェントの利用状況や課題を捉えきれない。
    • デプロイ状況を継続的に評価し,AIエージェントの改善に役立つ情報を提供する。
    • AgentPulseは,GitHub等のリアルタイムデータに基づき,AIエージェントを多角的に評価するフレームワークである。
    • ベンチマーク性能と採用状況,コミュニティの評価,エコシステムの健全性等の要素を統合的に評価する。
    • ベンチマークと採用状況の相関関係から,AIエージェントの真価を測る新たな指標となりうる可能性を示唆している。

    Link: https://arxiv.org/abs/2604.24038

  • エージェントキャッシュ:埋め込み型AIエージェントのためのキャッシュ駆動型非同期計画 [cs.LG, cs.AI, cs.CL]目的:埋め込み型AIエージェントの計画における,キャッシュの活用
    • AIエージェントの高度化には,効率的な計画立案が不可欠である。大規模言語モデルの利用が期待される。
    • LLMの利用は高コストで遅延が大きいため,実用的な応用には課題がある。
    • 計画の局所性に着目し,キャッシュによるLLM呼び出しの削減を目指す。
    • AgenticCacheは,埋め込み型タスクにおいて計画の成功率を平均22%向上させた。
    • シミュレーションの遅延を65%削減し,トークン使用量を50%削減することに成功した。
    • キャッシュに基づく計画の再利用は,低遅延かつ低コストなエージェント実現への道を開く。

    Link: https://arxiv.org/abs/2604.24039

  • 表形式データの検索における表現の安定性によるロバスト性向上 [cs.CL, cs.AI, cs.IR, cs.IT, math.IT]目的:表形式データの検索における表現の安定性
    • 表形式データは情報検索において重要な役割を担うが,その活用には課題が多い。
    • 表のシリアライズ方法の違いが,検索結果に大きな影響を与える問題が存在する。
    • シリアライズ方法に依存しない安定した表現を獲得し,検索のロバスト性を高める。
    • 複数のシリアライズ形式(csv, tsv, html等)から得られる埋め込み表現は大きく異なり,検索結果に影響することが示された。
    • シリアライズ埋め込みをノイズのある視点と捉え,その中心ベクトルを正準表現とすることで,形式特有の変動を抑制できる。
    • 中心ベクトルを用いた表現は,既存モデル(MPNet, BGE-M3等)において,個々の形式よりも優れた性能を示すことが確認された。

    Link: https://arxiv.org/abs/2604.24040

  • 部分的に観測された時系列データに対するエンドツーエンド学習:PyPOTS [cs.LG, cs.AI]目的:部分的に観測された時系列データに対するデータマイニングと機械学習のエコシステム
    • 現実世界では欠損値を含む時系列データが多く,その分析は重要である。
    • 従来のツールチェーンでは欠損値処理と学習が分離されており,再現性と性能が制限される。
    • PyPOTSを用いて,時系列データの処理から学習までを統合的に行う手法を提供する。
    • PyPOTSは,欠損値の補完,予測,分類,クラスタリング,異常検知などのタスクを網羅する。
    • 統一されたAPIとベンチマークに基づいた実験により,実務家が容易に利用できる。
    • 研究者や開発者は,PyPOTSを拡張し,独自のモデルや制約を組み込むことができる。

    Link: https://arxiv.org/abs/2604.24041

  • 大規模言語モデル駆動による進化型プログラム木を用いた自動アルゴリズム設計 [cs.AI]目的:組み合わせ最適化問題に対するヒューリスティクスの設計
    • 組み合わせ最適化問題は現実世界の様々な課題に応用され,効率的な解法が求められている。
    • 既存手法では,ヒューリスティクスの設計に専門知識が必要であり,自動化が困難であった。
    • 大規模言語モデルを活用し,人間介入を最小限に抑えつつ,より表現力豊かなアルゴリズムを自動設計すること。
    • 提案手法A2DEPTは,既存の大規模言語モデルベースの手法と比較して,標準的なベンチマークで優れた性能を示した。
    • 標準ベンチマークにおいて,最適な競合AHDベースラインと比較して,平均正規化最適ギャップを9.8%削減した。
    • プログラム木を用いた進化型探索と,フィードバック駆動型の軽量なプログラム維持ループにより,実用的な自動アルゴリズム設計を実現した。

    Link: https://arxiv.org/abs/2604.24043

  • 一般化された最大平均不一致:カーネル化された関数型ブレグマンダイバージェンス [cs.LG, cs.CV, cs.IT, math.IT]目的:関数型ブレグマンダイバージェンスの一般化
    • 統計学,機械学習,計算情報幾何学において重要な役割を果たすブレグマンダイバージェンスの研究。
    • 関数を点とする関数型ブレグマンダイバージェンスに対する,カーネル法とヒルベルト空間幾何学の体系的な適用が不足している。
    • カーネル平均埋め込みを用いたブレグマン生成子により,関数型ブレグマンダイバージェンスの推定を容易にすること。
    • 提案手法は,クラスタリング,汎用推定,ロバスト推定,生成モデリングなどへの応用が可能である。
    • 他のタイプのブレグマンダイバージェンスと比較して,本手法はカーネル法との親和性が高い。
    • ヒルベルト空間上の自己双対ペアリングとリース表現子を用いることで,都合の良い計算が可能となる。

    Link: https://arxiv.org/abs/2604.24047

  • ナラティブ動画要約のためのマルチモーダル質問応答による参照不要評価指標QEVA [cs.CV, cs.AI]目的:ナラティブ動画要約の評価方法
    • 動画要約技術は,大量の動画コンテンツを効率的に理解するために不可欠である。
    • 既存の評価指標は,人手による参照要約に依存しており,実用性と意味の微妙な差異の捉え方に課題がある。
    • 参照要約に頼らない,動画と要約の整合性を直接評価する指標を開発すること。
    • QEVAは,動画と要約のマルチモーダル質問応答を通じて,要約の網羅性,事実性,時系列性を評価する。
    • 新しい評価ベンチマークMLVU(VS)-Evalを構築し,評価の透明性と一貫性を確保した。
    • 実験の結果,QEVAは既存手法よりも人間の判断との相関性が高いことが示された。

    Link: https://arxiv.org/abs/2604.24052

  • 一般化に先立つ基盤形成:AIと人間の因果的転移の違い [eess.SY, cs.SY, cs.AI]目的:因果構造の抽出と新しい状況への適用
    • 人間の知能の中核をなす能力であり,高度な問題解決や意思決定に不可欠である。
    • 現在のAIモデルは,文脈依存的な学習に偏っており,汎用的な因果推論能力が不足している。
    • AIモデルにおける抽象的因果構造の転移能力の限界を明らかにし,人間の学習メカニズムとの差異を解明すること。
    • AIモデルは,環境特有のマッピング(基盤形成)なしには効率的な転移が難しく,人間のように既存の構造知識を活用できないことが示された。
    • テキストのみの条件では,AIモデルは人間の発見効率に匹敵またはそれを上回った。
    • 視覚情報の追加は,むしろパフォーマンスを低下させ,記号処理への依存が明らかになった。また,AIモデルには人間には見られない因果関係の非対称性が認められた。

    Link: https://arxiv.org/abs/2604.24062

  • 自己整合性を言語的確信度に蒸留する:Gemma 3 4Bに関する事前登録された否定的な結果と事後分析による改善 [cs.DB, cs.CL, cs.AI]目的:言語モデルの内部情報と口頭表現の乖離を縮小すること
    • 小規模言語モデルの性能向上は,実用的な応用において不可欠である。
    • 小規模言語モデルは,わずかな情報抽出でも信頼度が高くなりすぎ,有効な校正が困難である。
    • 自己整合性に基づく教師あり微調整によって,言語モデルの信頼度を改善することを目指す。
    • 事前登録された実験では,信頼度に基づいた微調整により,AUC2スコアが低下し,否定的な結果となった。
    • 探索的な改善策として,フィルタリングを削除した結果,TriviaQAにおいてAUC2スコアが0.774に向上した。
    • MMLUの精度も向上し,ターゲットに依存した解釈を支持する結果が得られた。

    Link: https://arxiv.org/abs/2604.24070

  • FreeScale:シーケンス推薦モデルの分散学習における最小限のスケールコスト [cs.LG, cs.AI, cs.DC, cs.IR]目的:シーケンス推薦モデルの分散学習における計算効率の向上
    • 近年の推薦システムでは,ユーザーの行動履歴に基づくシーケンス分析が重要視されている。
    • 大規模な分散学習において,計算資源の非効率な利用や計算のボトルネックが課題となっている。
    • 計算の遅延や通信のオーバーヘッドを削減し,分散学習のスケーラビリティを向上させる。
    • FreeScaleは,負荷分散と優先度付けされた埋め込み通信のオーバーラップにより,計算のボトルネックを最大90.3%削減した。
    • 本手法は,計算と通信の競合をSM-Free技術によって解決し,GPUリソースの利用効率を高めている。
    • 256個のH100 GPUを用いた実世界データによる評価で,FreeScaleの有効性が確認された。

    Link: https://arxiv.org/abs/2604.24073

  • エントロピー的ストレス下における大規模言語モデルの安定性分析のための情報幾何学的フレームワーク [cs.CL, cs.AI, cs.CL, cs.CR]目的:大規模言語モデルの安定性評価のためのフレームワーク
    • 大規模言語モデルは重要性が増しており,その信頼性評価が不可欠である。
    • 従来の評価手法では,モデルの信頼性を十分に把握できない場合がある。
    • モデルの内部構造と外部からの不確実性が,モデルの安定性に与える影響を分析する。
    • 提案フレームワークは,タスクの有用性,エントロピー,内部構造の指標を統合した安定性スコアを算出する。
    • このフレームワークは,既存の評価手法よりも安定性スコアが高く,特にエントロピーが高い条件下で改善が顕著であった。
    • 本研究は,不確実性,性能,内部構造を結びつける解釈可能なモデリングの視点を提供する。

    Link: https://arxiv.org/abs/2604.24076

  • シャプレー値を用いた時間的グラフ予測の説明 [cs.LG]目的:時間的グラフ予測モデルの説明
    • グラフ構造データは様々な分野で利用され,予測性能向上が求められている。
    • 時間的グラフニューラルネットワークの予測根拠は不明瞭であり,モデルの信頼性に課題がある。
    • シャプレー値を用いて,時間的グラフモデルの予測における情報貢献度を明らかにする。
    • 提案手法は,既存の説明手法と比較して,様々な評価指標において優れた性能を示した。
    • 特徴レベルの説明手法により,一般的なTGAT実装におけるタイムスタンプ抽出の誤りを発見した。
    • この発見は,疎な説明において性能が低下する原因の解明に貢献する。

    Link: https://arxiv.org/abs/2604.24078

  • プラグマティック・ペルソナ:ブリッジング推論によるLLMペルソナの発見 [cs.CL, cs.AI]目的:LLMにおけるペルソナの発見
    • 大規模言語モデルの活用が広がる中で,その内在するペルソナ理解は重要性を増している。
    • 既存手法は表層的な特徴に依存し,対話構造の深層的な一貫性を捉えられていない。
    • ブリッジング推論を通じて,LLMの対話における意味構造とペルソナの関係を明らかにすること。
    • ブリッジング推論グラフは,従来の頻度やスタイルに基づく手法よりも高い意味の一貫性を示す。
    • ペルソナ特徴は,孤立した語彙パターンではなく,対話構造の組織化に一貫してエンコードされている。
    • 本研究は,認知談話理論の観点からLLMの潜在的なペルソナを探求,抽出,可視化する体系的な枠組みを提供する。

    Link: https://arxiv.org/abs/2604.24079

  • 意図の欺瞞による最先端モデルの脱獄 [cs.CR, cs.AI, cs.CL]目的:最先端言語モデルに対する新たな脱獄手法の開発
    • 大規模言語モデルの安全性確保は,社会実装において不可欠であり,その信頼性を高める上で重要である。
    • 従来の安全性訓練は意図の評価に脆弱性があり,攻撃者の意図を偽装された場合に容易に回避されてしまうという課題がある。
    • 本研究は,多岐にわたる会話を通じて意図を欺瞞し,モデルを悪意のある出力へと誘導する手法を確立し,その脆弱性を明らかにする。
    • 本手法は,GPT-5-thinkingやClaude-Sonnet-4.5といった最先端モデルに対して高い成功率を示した。
    • 従来の拒否型セーフガードに加え,情報開示による間接的な危害(para-jailbreaking)という新たな脆弱性を発見し,その対策を提示した。
    • マルチモーダルVLMモデルにおける実験では,既存の最先端手法を上回る性能を達成した。

    Link: https://arxiv.org/abs/2604.24082

  • ケリモフ・アレクバーリモデル:リアルタイムシステム安定化のための情報幾何学的フレームワーク [cs.AI, cs.CL, cs.CR]目的:リアルタイムシステムの安定性確保のための情報幾何学的枠組み
    • AI技術の発展に伴い,自律システムの安全性確保が重要課題となっている。
    • 従来のAI安全性の枠組みは,経験則に依存し,物理的根拠に乏しい点が課題であった。
    • 非平衡熱力学と確率制御の関連性に着目し,物理的な量に基づいたAI安全性の評価手法を確立する。
    • ケリモフ・アレクバーリモデルは,非平衡熱力学と確率制御の間の形式的な同型関係を確立した。
    • システム異常をリーマン多様体からの逸脱として定義し, Kullback-Leibler ダイバージェンスを用いてリアルタイム検出を可能にした。
    • NSL-KDDデータセットと無人航空機軌道シミュレーションにおいて,高い精度と低い誤検知率を示す有効性が確認された。

    Link: https://arxiv.org/abs/2604.24083

  • AsyncShield:非同期クラウドベースVLAナビゲーションのためのプラグ&プレイエッジアダプター [cs.RO, cs.AI]目的:非同期クラウドベースのVLAナビゲーションにおける安全性と成功率の向上
    • ロボット制御におけるVLAモデルの汎用性が注目されているが,大規模なモデルサイズが課題となっている。
    • クラウド展開に伴うネットワーク遅延や推論遅延が,モバイルナビゲーションにおける空間的ずれや衝突のリスクを高める。
    • 遅延を空間オフセットに変換し,VLAの幾何学的意図を復元することで,安全かつ効率的なナビゲーションを実現する。
    • AsyncShieldは,従来の時系列予測ではなく,物理ベースの空間マッピングを用いることで,時間遅延を正確に空間オフセットに変換する。
    • 強化学習アルゴリズムを用いて,VLAの意図追跡とLiDARによる障害物回避を両立する制約付きマルコフ決定過程(CMDP)としてエッジ適応を定式化する。
    • シミュレーションと実環境実験により,クラウドベースの基礎モデルのファインチューニングなしに,高い汎化能力と安全性を実現することが示された。

    Link: https://arxiv.org/abs/2604.24086

  • 大規模テンソル並列LLM学習のための効率的な中間テンソル通信圧縮TACO [cs.DC, cs.AI]目的:大規模テンソル並列LLM学習における通信オーバーヘッドの削減
    • 大規模言語モデルの学習には,膨大な計算資源と通信が必要であり,その効率化が重要である。
    • 中間テンソルは疎であり,頻繁な通信で誤差が拡大し,圧縮時の計算コストも大きいという課題がある。
    • 中間テンソルの効率的な圧縮と通信により,大規模学習のスループット向上を目指す。
    • TACOは,FP8に基づく堅牢な圧縮フレームワークであり,高い精度を維持しながら通信オーバーヘッドを削減する。
    • データ駆動型のリシェイピング戦略と適応型スケールアダマール変換により,高精度なFP8量子化を実現する。
    • GPTモデルとQwenモデルの実験により,最大1.87倍のスループット向上が確認された。

    Link: https://arxiv.org/abs/2604.24088

  • 多様なデータ分割を用いたメタ・アンサンブル学習による呼吸音分類の改善 [cs.LG, cs.AI]目的:呼吸音分類性能の向上
    • 呼吸音解析は,呼吸器疾患の早期発見や重症度評価に不可欠である。
    • 既存の呼吸音データセットは規模が小さく,多様性に乏しい点が課題である。
    • データ分割の多様性を高めることで,モデルの汎化性能を向上させる。
    • 提案手法は,ICBHIベンチマークにおいて,これまでの最高性能を達成した。
    • 特に,異なるデータセットに対する汎化性能の向上が確認された。
    • 本手法は,実際の臨床データへの応用可能性を示唆している。

    Link: https://arxiv.org/abs/2604.24096

  • SemML 2.0:LTLに対するコントローラ合成 [cs.AI, cs.FL, cs.LO]目的:線形時間論理(LTL)で与えられた仕様から,リアクティブシステムを合成すること
    • 安全性が重要なシステム設計において,形式手法による検証・合成が不可欠である。
    • LTLからコントローラを自動合成する際,計算量が多く,効率が課題となっていた。
    • 既存のツールよりも効率的に,より多くのインスタンスを解くことを目指す。
    • SemML 2.0は,既存の最先端ツール(Strix, LtlSynt, SemML 1.0など)を大きく上回り,より多くの問題を解決することが示された。
    • 部分探索や機械学習による誘導を用いることで,効率的な解探索を実現している。
    • SYNTCOMPのデータセットを用いた評価により,解の質を維持しつつ,高速かつ高精度なコントローラ合成が可能であることが確認された。

    Link: https://arxiv.org/abs/2604.24102

  • 動的低ランク適応による効率的なワイヤレス連合学習:Fed-DLoRA [cs.LG, cs.SY, eess.SY]目的:効率的なワイヤレス連合学習手法
    • 車両間通信(IoV)における分散学習の重要性が増しており,プライバシー保護と効率的な学習が求められている。
    • 通信負荷や動的な環境変化が,連合学習の実用化における大きな課題となっている。
    • モデル圧縮と車両の参加戦略の最適化を通じて,連合学習の効率性と性能を向上させる。
    • 提案手法Fed-DLoRAは,低ランク適応(LoRA)と組み合わせることで,パラメータ削減と通信コスト削減を実現した。
    • 理論解析により,LoRAのランク,車両のスケジューリング戦略,およびモデルの収束特性の関係が明らかになった。
    • 実験結果から,Fed-DLoRAは従来の連合学習手法と比較して,精度,収束速度,通信効率において優れていることが示された。

    Link: https://arxiv.org/abs/2604.24103

  • 大規模多エージェント型インテリジェント・チュータリングにおける遅延とコスト [cs.CY, cs.AI, cs.DC, cs.LG]目的:大規模な多エージェント型インテリジェント・チュータリングシステムの遅延とコストの分析
    • 教育分野において,個別最適化された学習支援システムの需要が高まっており,AI技術の活用が期待されている。
    • 多エージェントシステムでは,応答品質向上と遅延の増加というトレードオフが存在する。
    • 最適なサービス階層の選択を通じて,大規模展開における遅延とコストを最小化することを目指す。
    • 優先PayGoは,全負荷範囲で4秒以下の応答時間を維持し,安定した性能を示した。
    • Standard PayGoは,教室規模の同時アクセス数下で性能が著しく低下する傾向が見られた。
    • Provisioned Throughputは,低同時アクセス数では低遅延を実現するが,約20ユーザーを超えると容量が飽和する。

    Link: https://arxiv.org/abs/2604.24110

  • 輸送資源を持つジョブショップスケジューリングにおける共同学習とモジュール学習の連携ギャップ分析 [cs.AI]目的:ジョブショップスケジューリングにおける共同学習とモジュール学習の連携ギャップの条件
    • 高性能な製造業を実現するためには,輸送資源を含むジョブショップスケジューリングが不可欠である。
    • 分散型工場が増加する中で,協調アーキテクチャの開発に注力し,共同学習の必要性を見過ごしてきた。
    • 資源の制約や時間的な優位性に基づいて,最適な性能を得るための共同学習の必要条件を特定する。
    • 共同学習は,ディスパッチルールとモジュール学習の最適な組み合わせと比較して,優れた性能を発揮することが示された。
    • しかし,輸送や処理の制約が厳しいボトルネック環境下では,共同学習の優位性は低下する。
    • 環境条件に基づいた学習方法の選択に関する指針を提供し,強化学習ベースのスケジューリング性能の最適化に貢献する。

    Link: https://arxiv.org/abs/2604.24117

  • 意味的に関連するスキルの発見における人間のフィードバックの活用 [cs.CL, cs.LG, cs.AI]目的:意味的に関連するスキルの発見
    • 強化学習におけるスキルの自動発見は,多様で有用な行動を創出する上で重要である。
    • 既存手法では,安全性や倫理面の問題,または人間の意図とのずれが生じやすい。
    • 人間の認知能力を活用し,効率的に意味のある行動を特定し,ラベル付けすることで,スキルの関連性を高める。
    • 提案手法SRSDは,人間のフィードバックから意味ラベルを収集し,スキルの多様性と関連性を向上させる報酬関数を学習する。
    • 2Dナビゲーション環境と4つの移動環境での実験により,SRSDが多様な行動に対して有効にスケールすることを示す。
    • SRSDは,意味的多様性を向上させ,関連する行動を発見することができた。

    Link: https://arxiv.org/abs/2604.24127

  • 機械学習に基づく無線周波数建物の損失分類 [cs.LG]目的:無線周波数建物の損失分類
    • 都市部でのワイヤレスネットワーク性能向上が重要であり,その鍵となるのが電波の減衰予測である。
    • 従来の測定はコストと時間がかかり,広範囲での実施は困難である。また,データはノイズが多く偏りがちである。
    • クラウドソーシングデータと建物情報を用いて,より実用的かつ高精度な損失予測モデルを構築することを目指す。
    • 提案手法は,従来の教師あり学習と比較して,精度と信頼性を向上させた。O2I損失では最大12.6%の相対精度向上を達成した。
    • I2I損失においては,最大3.4%の相対精度向上と予測エントロピーの最大8.4%の減少が見られた。
    • SSL XGBoostはO2I損失分類において最も信頼性の高い結果を示し,SSL LightGBMはI2I損失分類で最高の性能を発揮した。

    Link: https://arxiv.org/abs/2604.24143

  • 起行動権:AIシステムのための実行前非補償的決定プロトコル [cs.FL, cs.CC, cs.AI]目的:AIシステムの実行前における決定の適格性判断
    • AIが現実世界に直接影響を与える場面が増加しており,安全性確保が重要である。
    • 既存の手法は事後検証に偏り,決定実行の可否判断が不十分である。
    • 実行前に決定の適格性を厳格に判断し,誤動作や不可逆的な行動を防ぐ。
    • 本研究で提案する「起行動権」プロトコルは,AI生成の決定が実行可能かどうかを事前に評価する。
    • 補償的システムとは異なり,いずれかの条件不満であれば実行は停止または延期される。
    • このアプローチは,AI制御を決定の最適化から,その適格性の管理へと転換するものである。

    Link: https://arxiv.org/abs/2604.24153

  • 深層残差ネットワークにおける漸進的近似:理論と検証 [cs.LG, cs.AI]目的:深層残差ネットワークの近似過程の理論的解明と,それを活用した訓練原理の提案
    • 深層学習モデルの表現能力を理論的に理解することは,より高性能なモデル開発に不可欠である。
    • 残差ネットワークがどのように近似を層ごとに分散させるかの明確な説明が欠けていた。
    • 残差ネットワークにおける層ごとの近似過程を理論的に捉え,それを訓練に活用すること。
    • 残差ネットワークは,入力から目標へ近似軌跡を構築する層ごとの近似過程として捉えられることが示された。
    • 提案手法LPAは,各層をその残差目標と整合させることで,このような軌跡を実現する。
    • LPAは,様々なアーキテクチャ(FNN, ResNet, Transformer)で有効であり,浅い推論を可能にする。

    Link: https://arxiv.org/abs/2604.24154

  • アライメント標的の問題:人間,AIシステム,およびその設計者による道徳的判断の相違 [cs.CY, cs.AI, cs.HC]目的:人間,AIシステム,およびその設計者による道徳的判断の相違
    • AIの行動を人間に合わせることは,AIの意思決定を導くべき道徳的枠組みに関する根本的な問題を提起する。
    • AIシステムに対する人間の道徳的基準は一貫しておらず,人間とAIを同じ基準で評価しない場合がある。
    • AIシステムの設計者が可視化された場合に,人間の道徳的判断がどのように変化するかを明らかにすること。
    • 人間とロボットの行動に対する道徳的基準に有意な差は見られなかった。
    • ロボットの行動が人間の設計によるものと認識されると,道徳的判断は大きく変化した。
    • ロボットの設計者または設計プロセスを評価する場合,より強い義務論的推論が見られた。

    Link: https://arxiv.org/abs/2604.24155

  • 大規模言語モデルを用いた6Gスペクトルオークションにおける戦略的入札 [cs.GT, cs.AI]目的:6Gスペクトルオークションにおける大規模言語モデルを用いた入札戦略
    • 6Gでは,多様なサービスが限られた無線資源を巡り競合するため,効率的な周波数帯の割り当てが重要である。
    • 従来の入札戦略は静的な設計に依存し,変化する環境への適応が難しいという課題があった。
    • 本研究は,大規模言語モデルの戦略的な適応能力を活用し,より柔軟で効率的な入札メカニズムの構築を目指す。
    • 理論的な前提が満たされる場合,大規模言語モデル入札者はVCGメカニズムの予測と一致する均衡に近い結果を達成する。
    • 静的な予算制約下など,前提が満たされない場合でも,大規模言語モデルは長期的な参加を維持し,高い収益性を実現する。
    • 本研究は,将来の6GネットワークにおけるAI駆動エージェントの戦略的相互作用と市場ダイナミクスの変化に関する新たな知見を提供する。

    Link: https://arxiv.org/abs/2604.24156

  • LLMを裁判官とし人間が介入する持続可能な都市旅行の多角的評価 [cs.AI]目的:持続可能な都市旅行リストの多角的評価
    • 都市の持続可能性は,環境負荷を減らし,資源を効率的に利用する上で重要である。
    • 人間の評価はコストがかかる上に,既存の評価指標は関係者の視点を考慮していない。
    • LLMの評価におけるバイアスを明らかにし,透明性のある評価方法を確立すること。
    • LLMを裁判官として利用することで,都市旅行リストの関連性,多様性,持続可能性,人気バランスを評価した。
    • LLMにはモデル固有のバイアスや次元レベルでのばらつきが見られた。
    • キャリブレーションにより次元ごとの評価根拠は明確になったが,持続可能性の解釈の相違が明らかになった。

    Link: https://arxiv.org/abs/2604.24158

  • トリガーの無効化:バックドア化されたLLMに対するプラグアンドプレイ型防御 - 末尾リスク内在幾何学的平滑化による [cs.CY, cs.CR, cs.AI]目的:バックドア攻撃に対する大規模言語モデルの防御
    • 大規模言語モデルの悪用を防ぐことは,安全なAIシステムの構築に不可欠である。
    • 既存の防御策は,準備コストが高いか,性能を低下させるか,遅延が大きいという課題がある。
    • TIGSは,これらの課題を克服し,実用的な防御策を提供することを目的とする。
    • TIGSは,パラメータ更新や追加データなしで,推論時にバックドア攻撃の成功率を大幅に抑制できる。
    • TIGSは,通常の推論性能や意味的な一貫性を損なうことなく,高いセキュリティと効率性を両立する。
    • TIGSは,多様なアーキテクチャのLLMに対して有効であり,実用的な展開が期待できる。

    Link: https://arxiv.org/abs/2604.24162

  • PEPS:位置エンコーディング射影サンプリング -- 拡張 [cs.CV, cs.GR, cs.LG]目的:位置エンコーディングの射影サンプリングによる学習手法
    • 陰的ニューラル表現は,多様な応用分野で活用されており,その重要性が増している。
    • 既存の位置エンコーディングは不十分であり,グリッド表現は高解像度を必要とする。
    • 位置エンコーディングの分解とグリッドを用いた学習による表現能力の向上を目指す。
    • 提案手法は,画像表現,テクスチャ圧縮,符号付き距離関数などのタスクで最先端手法を上回る性能を示す。
    • 同等の再構成誤差またはレンダリング品質を達成する場合,パラメータ数を25%削減できる。
    • 位置エンコーディングの射影を意味のある点として扱い,周波数に対する動きを解析することで,効果的な学習を実現した。

    Link: https://arxiv.org/abs/2604.24167

  • エピステミック・アレアトリック不確実性の分解のための信条的概念ボトルネックモデル [cs.AI]目的:エピステミック不確実性とアレアトリック不確実性の分解
    • 機械学習モデルの信頼性向上は重要であり,特に不確実性の理解が不可欠である。
    • 既存の概念ボトルネックモデルでは,不確実性の種類を明確に分離できていない。
    • 概念レベルでの不確実性を分解し,より適切な意思決定を支援すること。
    • 提案手法CREDENCEは,概念を確率区間として表現することで不確実性を分解する。
    • エピステミック不確実性は予測エラーと正の相関があり,アレアトリック不確実性はアノテーター間の不一致を反映する。
    • 低不確実性の場合の自動化,データ収集の優先順位付け,人間によるレビューへのルーティングを可能にする。

    Link: https://arxiv.org/abs/2604.24170

  • AdapTime:大規模言語モデルにおける適応的な時間推論の実現 [cs.CL, cs.AI]目的:大規模言語モデルの時間推論能力の向上
    • 質問応答における知識推論の重要性が高まる中で,時間情報処理能力の限界が課題となっている。
    • 既存手法は外部ツール依存や特定シナリオ限定で,汎用性に欠ける点が問題視されている。
    • 入力に応じて推論ステップを動的に調整し,時間推論の効率と精度を向上させることを目指す。
    • AdapTimeは,LLMプランナーが推論プロセスを制御する「言い換え」「書き換え」「確認」の3つの時間推論アクションを用いる。
    • AdapTimeは既存の最先端LLMとシームレスに統合され,外部サポートなしに時間推論能力を大幅に向上させる。
    • 広範な実験により,AdapTimeの有効性が実証された。

    Link: https://arxiv.org/abs/2604.24175

  • リストワイズ報酬による説明の質評価のランキング化 [cs.AI]目的:説明の質評価
    • 説明可能性はAIの信頼性を高める上で不可欠であり,その評価手法の確立が求められている。
    • 従来の評価方法は,単一の最適解を生成する生成問題として扱われ,解の多様性や相対的な質を捉えきれていない。
    • 説明の質を相対的に評価するランキング問題として捉え,よりロバストで安定した評価手法を確立すること。
    • ランキング損失関数は,回帰損失関数よりもスコア分離において一貫して優れた性能を示した。
    • 最適なランキング損失関数はデータ特性に依存し,明確な質レベルを持つデータではリストワイズ目的関数が,ノイズの多いデータではペアワイズ手法が有効である。
    • 高品質で構造化されたデータで訓練することで,大規模モデルと同等の性能を小規模なエンコーダモデルでも達成可能であることが示された。

    Link: https://arxiv.org/abs/2604.24176

  • Meta-Aligner:多目的LLMアライメントのための双方向の嗜好・ポリシー最適化 [cs.LG, cs.AI]目的:多目的LLMアライメントにおける嗜好とポリシーの双方向最適化
    • LLMの能力向上に伴い,人間の価値観との整合性が重要視されている。
    • 既存手法は静的な嗜好重み構築に依存し,学習過程での有用な情報を失っている。
    • 動的な嗜好重み生成により,より安定した学習を可能にすること。
    • 提案手法Mealは,嗜好とポリシーの双方向最適化を実現するメタ学習フレームワークである。
    • 嗜好重みネットが入力プロンプトに基づき嗜好重みを適応的に生成する。
    • 複数の多目的ベンチマークにおいて,既存手法を上回る性能が確認された。

    Link: https://arxiv.org/abs/2604.24178

  • MemeScouts@LT-EDI 2026:適切な質問をする – ミームのヘイトスピーチ検出のためのプロンプト付き弱教師あり学習 [cs.CL, cs.AI]目的:ミームのヘイトスピーチ検出のためのプロンプト付き弱教師あり学習手法
    • インターネット上でのヘイトスピーチ増加が社会問題となっており,早期発見と対策が急務である。
    • ミームは多角的な情報を含み,皮肉や文脈に依存するため,自動検出が困難である。
    • 多言語環境におけるミームのヘイトスピーチを効率的に検出する手法を確立すること。
    • 提案手法は,質問に基づいたラベル付け関数を用いることで,画像とテキストの同時推論における脆弱性を克服した。
    • 英語,中国語,ヒンディー語の3言語で優れた性能を示し,特に中国語とヒンディー語において大幅な改善が見られた。
    • エラー駆動型ラベル関数拡張と特徴選択により,冗長性を低減し,汎化性能が向上した。

    Link: https://arxiv.org/abs/2604.24179