arXiv雑要約

AI - 2026/06/03 公開

ポストトレーニングLLM圧縮におけるテンソル分解の役割の再検討 [cs.DC, cs.LG, cs.AI]目的：ポストトレーニングLLM圧縮におけるテンソル分解の効果の評価
- 大規模言語モデルの利用拡大には，計算資源の制約下での効率的な展開が不可欠である。
- テンソル分解は有望な手法だが，大規模な展開における有効性は不明確であった。
- 本研究は，テンソル分解の限界を明確にし，大規模展開における適切な役割を明らかにする。
- 密な構造とMoE構造の両方において，テンソル圧縮の性能トレードオフを経験的および理論的に分析した。
- テンソル分解が仮定する共有部分空間と，最新のLLMが学習する異質な表現との間に根本的な不一致が存在することが判明した。
- テンソル分解は，大規模なLLM展開における実用的な限界があり，その適用範囲は限定的であることが示された。
Link: https://arxiv.org/abs/2606.03465
StepFinder：マルチエージェントシステムにおける障害原因特定のための時間的意味的フレームワーク [cs.AI]目的：マルチエージェントシステムにおける障害原因の特定
- 複雑なタスク遂行において，LLMベースのマルチエージェントシステムの利用が拡大している。
- 単一ステップの実行エラーが連鎖的に発生し，システム全体の信頼性を損なう可能性がある。
- 既存手法のコストとノイズ問題を解決し，正確な障害原因特定を実現する。
- StepFinderは，実行ログを時間的意味的シーケンスにエンコードすることで，推論コストを大幅に削減する。
- 時間的モデリングとアテンションモジュールを組み合わせることで，ステップ間の依存関係を効果的に捉える。
- Who&Whenベンチマークにおいて，LLMベースの手法を凌駕し，推論時間を79%短縮した。
Link: https://arxiv.org/abs/2606.03467
機械の心の理論に関する形式的定義とメタモデル [cs.AI, cs.MA, q-bio.NC]目的：機械の心の理論の形式的定義とメタモデル
- 人間理解はAIの高度化に不可欠であり，社会実装の鍵となる。
- 機械の心の理論は概念が曖昧で，形式的な定義と評価基準が不足している。
- 認知心理学，神経科学，AIの知見に基づき，機械の心の理論を明確化し，研究の方向性を示す。
- 本研究では，機械の心の理論の厳密な形式的定義を提示した。
- 認知科学的根拠に基づいた包括的なメタモデルを構築し，現状の研究を評価した。
- 今後の研究課題を明確化し，機械の心の理論実現に向けた道筋を示した。
Link: https://arxiv.org/abs/2606.03471
ハイパーコネクションにおけるストリーム崩壊の分析：診断から緩和へ [cs.LG, cs.AI]目的：ハイパーコネクションにおけるストリーム崩壊のメカニズム解明と軽減策の提案
- Transformerモデルの性能向上には，モデルの表現能力拡大が不可欠である。
- ハイパーコネクションはストリーム間の対称性により，ストリームの有効活用が課題となっていた。
- ストリームの対称性を解消し，各ストリームの利用を促進することで性能向上を目指す。
- ハイパーコネクションにおいて，初期段階の後，ストリーム間の情報交換メカニズムがアイデンティティ近傍に留まることが判明した。
- 信号や解釈可能な特徴が主要なストリームに集中し，ストリームの潜在能力が十分に活用されていない実態が明らかになった。
- ストリーム初期化時に対称性を破ることで，主要ストリームへの偏りを軽減し，mHC変種モデルの性能向上が確認された。
Link: https://arxiv.org/abs/2606.03483
NeuroArmor：セーフバリアント誘導による表現の一貫性を用いた脱獄攻撃防御における選択的再アンカーリング [cs.HC, cs.CR, cs.AI]目的：脱獄攻撃に対するランタイム防御戦略
- 大規模言語モデルの安全性が重要視される中，悪意のある指示を隠蔽した脱獄攻撃への対策が求められている。
- 既存の防御手法は，安全と有用性のバランスを取ることが難しく，誤検知が多いという課題がある。
- プロンプト固有の安全性を参照し，選択的に介入することで，より効果的な防御を目指す。
- NeuroArmorは，Llama-3-8B-Instructにおいて，悪意のある攻撃の成功率を41.56%から1.57%に大幅に低減した。
- 同時に，良性リクエストの誤検知率も30.26%から22.05%に抑制し，安全と有用性のトレードオフを改善した。
- 外部評価および手動評価により，残存する出力の有害性が低いことが確認された。
Link: https://arxiv.org/abs/2606.03486
間違いから学ぶ：セキュアなコードLLMのための木構造による自己対戦 [cs.CR, cs.AI]目的：セキュアなコード生成のための自己対戦フレームワーク
- 大規模言語モデルはコード生成に優れるが，セキュリティ脆弱性の再現が課題。
- 既存手法は粗粒度最適化のため，局所的なセキュリティ欠陥に対応しにくい。
- 局所的なエラーを自己修正し，信頼性を向上させる手法を開発する。
- 提案手法（TSP）は，CodeLlama-7BのPythonセキュリティベンチマークの合格率を大幅に向上させた。
- TSPは，未知の脆弱性カテゴリにおける脆弱性を24.5%削減し，汎化性能を示す。
- C/C++で学習したセキュリティ原則を，Python，Go，JavaScriptなど多様な言語へ転移させた。
Link: https://arxiv.org/abs/2606.03489
テクスチャ駆動型視覚学習における低周波ショートカット [cs.HC, cs.CV, cs.LG]目的：テクスチャ駆動型ドメインにおけるショートカット学習の分析
- 視覚学習は，画像認識や物体検出など，様々な応用分野で重要な役割を担っている。
- ニューラルネットワークは，学習データに過剰適合し，未知のデータへの汎化性能が低いという課題がある。
- 本研究は，テクスチャ駆動型ドメインにおけるショートカット学習の問題を解決し，汎化性能の向上を目指す。
- テクスチャ駆動型ドメインでは，低周波成分に大きく依存したショートカット学習が発生することが示された。
- 低周波成分を学習データおよびテストデータから除去することで，ID精度が最大8%向上し，OODに対するロバスト性が向上した。
- OOD精度は，低周波と高周波成分のバランスによって変化し，スペクトル振る舞いのバランスが重要であることが示唆された。
Link: https://arxiv.org/abs/2606.03493
HiSE：異種グラフニューラルネットワークのための軽量階層的意味説明器 [cs.LG]目的：異種グラフニューラルネットワークの解釈性向上
- 複雑な関係性データモデリングにおいて，異種グラフニューラルネットワークの性能は優れている。
- 高い重要度を持つ応用において，その解釈性が課題となっている。
- 既存手法の限界を克服し，高精度かつ効率的な説明手法を提案する。
- HiSEは，階層的意味モデリングにより，意味的に適切な特徴説明を可能にする。
- 実験により，HiSEが既存手法よりも高い忠実度，堅牢性，クロスセマンティックな説明能力を示すことが確認された。
- 軽量なフレームワークにより，大規模な異種グラフへの適用が可能である。
Link: https://arxiv.org/abs/2606.03495
パイプライン並列化の解明：PipeDreamに関する初の理論 [cs.LG, cs.DC]目的：パイプラインモデル並列化の理論的保証とスケーリング特性の分析
- 機械学習モデルの規模拡大に伴い，計算資源の分散が不可欠となっている。
- モデル並列化は必要不可欠だが，理論的な収束保証が確立されていない。
- PipeDreamのようなパイプライン並列化手法の性能限界を理論的に解明する。
- Randomized PipeDream (RPD) は，PipeDream形式の手法に対する非凸収束の初のクリーンな理論的保証を提供する。
- 定常状態のPipeDreamによる遅延は，$S$段階で$S^2 - S/2 + O(1)$として成長することが示された。
- 実験結果から，PipeDreamは二次目的関数や小規模な言語モデリングタスクで優位性を示す一方，ロジスティック回帰ではLocalSGDがより優れていることが示された。
Link: https://arxiv.org/abs/2606.03498
思考の折り畳み：内省的嗜好学習による推論チェーンの折り畳み [cs.DB, cs.AI]目的：大規模推論モデルにおける冗長な探索の軽減
- 大規模言語モデルの推論能力向上は，複雑な問題を解決する上で不可欠である。
- 既存の強化学習手法は，結果の正誤のみに注目し，冗長な推論過程を削減できていない。
- 推論経路の冗長性を評価し，効率的な推論を促す新しい学習フレームワークを提案する。
- ThoughtFoldは，推論過程の冗長性を特定し，より簡潔な推論経路を学習する。
- マスクされた嗜好最適化により，冗長な探索を明示的に抑制し，重要な推論部分を直接結びつける。
- DeepSeek-R1-Distill-Qwen-7Bにおいて，トークン使用量を約56%削減しつつ，最先端の精度を維持した。
Link: https://arxiv.org/abs/2606.03503
BaltiVoice：バルト語のための音声コーパスとファインチューニングされたWhisper ASRシステム [cs.CL, cs.AI]目的：バルト語の音声自動認識(ASR)のためのコーパスとモデル
- 言語的多様性の保護が重要であり，消滅の危機に瀕している言語の記録と分析が求められている。
- バルト語のような低リソース言語では，ASRシステムを構築するためのデータが不足している。
- バルト語のASRシステム構築を可能にするデータセットとモデルを公開することで，言語資源のデジタル化を促進する。
- バルト語の16.8時間分の音声コーパスBaltiVoiceを構築し，Mozilla Common Voiceの記録を基に10,060 utteranceを収録した。
- OpenAI Whisper-smallをBaltiVoiceでファインチューニングした結果，検証セットでWER 30.07%を達成し，ゼロショットベースライン182.18%から大幅に改善された。
- データセット，ファインチューニング済みモデル，ライブデモをHuggingFaceで公開し，今後の研究利用を促進する。
Link: https://arxiv.org/abs/2606.03504
SPADE：拡散エキスパートで拡張されたスケッチ誘導経路計画 [eess.SY, cs.SY, cs.RO, cs.AI]目的：自律移動ロボットの経路計画における性能向上
- ロボットの自律性は，多様な環境下での作業を可能にする上で不可欠である。
- 従来の経路計画では，人間の意図を組み込むのが難しく，環境への適応性が低い。
- 拡散に基づくデータ拡張により，汎化性能とロバスト性を向上させる経路計画手法を開発する。
- 提案手法は，最先端の方法と比較して絶対姿勢誤差（APE）を39.1%削減し，Fréchet Inception Distance（FID）を33.5%削減した。
- 学習可能なパラメータ数は93.8%少なく，リアルタイム性能を維持しながら拡散レベルの汎化性能を実現した。
- ROS 2を基盤とした注釈ツールを開発し，専門家によるデモンストレーションデータセットを新たに提供した。
Link: https://arxiv.org/abs/2606.03512
エージェント型AIにおける委譲と範囲のための構成的認可フレームワーク [cs.AI, cs.CR]目的：エージェント型AIにおける委譲と範囲を管理するための構成的認可フレームワーク
- AIが自律的に行動するエージェントへと進化する中で，既存の認可システムでは不十分である。
- 従来の認可システムは固定的な主体，明示的な要求，静的な範囲に依存しており，エージェントの特性に対応できない。
- エージェント型AIにおいて必要不可欠な認可の基礎を提供し，説明責任を担保する。
- 本研究では，エージェントが権限を継承・委譲し，時間制限付きの権限で行動するための構成的なガバナンスフレームワークを提案する。
- 委譲を静的なトークンではなく契約条件として扱うことで，再帰的な委譲，文脈境界，動的な範囲付けを実現する。
- 既存の認可ポリシーを書き換えることなく，エージェント型AIのセマンティクスを重ね合わせる演算子を定義し，形式的な検証と実験的評価によってその有効性を示す。
Link: https://arxiv.org/abs/2606.03518
モデルベース強化学習に対する事後的なロバスト性 [cs.DC, cs.LG, cs.AI]目的：強化学習エージェントのロバスト性向上
- 現実世界への応用のため，環境摂動下での学習が重要である。
- モデルベース強化学習では，敵対者が学習済みモデルを攻撃可能である。
- 追加学習なしに，推論時のロバスト性を高めることを目指す。
- 提案手法は，敵対的ロールアウトを用いたモデル予測制御を利用する。
- Gymnasium MuJoCo環境において，摂動に対するロバスト性が大幅に向上した。
- 推論時の計算制約を考慮しつつ，分布外問題への対処も行う。
Link: https://arxiv.org/abs/2606.03521
範囲外への耐性を持つ高精度APTマルウェアの属性特定 [cs.CR, cs.AI, cs.LG]目的：APTマルウェアの属性特定手法
- サイバー攻撃は巧妙化の一途を辿り，早期の属性特定が防御体制強化に不可欠である。
- 既存手法は既知のAPTグループに限定され，未知のグループへの対応が課題である。
- 未知のAPTグループからのサンプルに対し，誤った属性特定を抑制すること。
- 本手法は，二値分類器をランク付けし，逐次的に適用することで高精度な属性特定を実現した。
- 特に，訓練データに含まないAPTグループからのサンプルに対し，94%で属性特定を留保した。
- 属性特定を行ったサンプルにおいては，92%の適合率と95%の選択的精度を維持した。
Link: https://arxiv.org/abs/2606.03523
教師をいつ動かすべきか：自己オンポリシー蒸留における時間的結合と安定性 [cs.LG, cs.AI]目的：自己オンポリシー蒸留における安定性を左右する教師の更新スケジュールに関する研究
- 自己教師あり学習は，ラベルなしデータを活用し，効率的な学習を可能にする重要な手法である。
- 自己オンポリシー蒸留では，教師の更新スケジュールが学習の安定性に影響を与えるものの，体系的な研究が不足していた。
- 時間的結合の構造的性質を明らかにし，安定した学習を可能にする更新戦略を提案すること。
- 教師の更新スケジュールにおいて，更新間の完全な固定期間（isolation periods）が安定学習の鍵となることが示された。
- 状態に依存しない崩壊（state-oblivious collapse）という新たな問題が特定され，長期的学習における固定スケジュールが崩壊するメカニズムが解明された。
- 崩壊を解消するため，報酬改善とlength-tail safetyに基づいて教師の更新を制御するConsolidation-Gated Teacher Refresh (CGTR)が提案され，全タスクで最高性能を達成した。
Link: https://arxiv.org/abs/2606.03532
SAGE：エージェント生態系における社会化された進化の定量評価 [cs.MA, cs.AI, cs.CL]目的：エージェント生態系における社会化された進化の定量評価
- AIエージェントは，ますます複雑な環境で他エージェントと協調・競争する存在となっているため，その進化メカニズムの理解は重要である。
- 従来の自己改善型エージェントの評価は孤立した環境で行われることが多く，他エージェントとの相互作用が進化に与える影響は十分に解明されていない。
- 本研究は，他エージェントの経験を共有することで，自己改善だけでは達成できない進化の可能性を明らかにすることを目的とする。
- 社会化された進化環境下では，自己改善のみでは限界に達するエージェントが，他者の経験を通じて顕著な進歩を遂げることが示された。
- 競争環境においては，相手固有の戦略ではなく，一般的な能力の向上が確認され，社会化された進化が戦略の汎化を促進する可能性が示唆された。
- 共有された履歴の形式については，生のログよりも，フィルタリングされた履歴や要約の方が優れた結果をもたらし，抽象化能力が重要な役割を果たすことが示された。
Link: https://arxiv.org/abs/2606.03544
ランダムフォレストにおけるツリー数の決定：プラトー探索とOptuna統合による再検討 [cs.RO, cs.CY, cs.CE, econ.TH, q-fin.TR, cs.LG, math.PR]目的：ランダムフォレストのハイパーパラメータ最適化における最適なツリー数の決定
- 機械学習モデルの性能はハイパーパラメータに大きく依存するため，効率的な最適化が重要である。
- ランダムフォレストのツリー数は，予測精度が単調増加するため，標準的な最適化手法では適切な範囲設定が難しい。
- プラトー探索を用いて，ツリー数の探索範囲を自動的に決定し，効率的な最適化を実現する。
- 提案手法は，ツリー数の探索をTPE探索空間から分離し，OOBスコアの変化を監視することで，最小限の十分なアンサンブルサイズを適応的に追跡する。
- 実験結果から，決定されたツリー数は，一般的なヒューリスティックよりも小さくなる場合が多いが，高次元バイオインフォマティクスデータセットでは大きくなる場合もあることが示された。
- 相対OOBスコア基準は，現在のスコアと限界スコアの間のギャップに関連し，対応するOOBベースの絶対相対差の漸近分散推定値が得られた。
Link: https://arxiv.org/abs/2606.03549
プロンプトからサービスへ：AI駆動型バーチャルワールドのためのSLMベースのエージェントオーケストレーションゲートウェイ [cs.RO, cs.RO, cs.AI, cs.HC]目的：AI駆動型バーチャルワールドにおけるサービスオーケストレーションのアーキテクチャ
- 生成AIの発展に伴い，バーチャルワールドの高度化が期待される。多様なAI機能を効率的に活用する必要がある。
- バーチャルワールドシステムにAI機能を直接組み込むと，拡張性や保守性が低下する問題がある。
- 多様なAIバックエンドを効率的に連携させ，バーチャルワールドの拡張性と柔軟性を高めることを目指す。
- SLMベースのエージェントオーケストレーションゲートウェイは，ユーザーの意図を分類し，適切なAIバックエンドにルーティングすることで，多様なAIサービスを連携させる。
- エッジハードウェア上でコンパクトなSLMが信頼性の高い意図ルーティングを実現可能であることが示された。
- タスク固有のファインチューニングにより，小規模なSLMモデルが低遅延で実用的なルーティングモデルに変換されることが確認された。
Link: https://arxiv.org/abs/2606.03557
ガウスRBFサポートベクター回帰の予測関数最小化のためのDCA収束特性の解析的評価 [cs.LG, math.OC, stat.ML]目的：ガウスRBFカーネルを用いたサポートベクター回帰(SVR)モデルの予測関数の最小化問題に対するDCAの収束特性の解析
- 機械学習における回帰問題は，予測精度の向上と計算効率の最適化が重要である。
- 非凸最適化問題におけるDCAの収束性は，パラメータ設定に依存し，事前評価が困難である。
- RBF-SVRにおけるDCAの収束特性を，ハイパーパラメータから事前に評価可能な指標へと導く。
- DCAの収束特性は，二乗誤差関数のパラメータである$C_{\alpha}\rho$によって主要に決定されることが示された。
- $C_{\alpha}\rho$は，SVRのハイパーパラメータ$(C, \gamma)$を介して変化し，収束性評価が可能になった。
- 学習後には$C_{\alpha}\rho$を正確に算出し，学習前には近似的に評価することで，DCAの収束性を予測できる。
Link: https://arxiv.org/abs/2606.03559
CR-Seg：注意誘導とCoTによる粗から精細への推論セグメンテーション [cs.HC, cs.CV, cs.AI]目的：複雑な言語で記述された対象物のセグメンテーション
- 視覚情報とテキスト情報を統合し，より高度な画像理解を可能にする基盤技術である。
- 既存手法では，マルチモーダルモデルとセグメンテーションモデル間のアライメントが困難である。
- 注意誘導とCoTを活用し，推論と解答の一貫性を高めることで，セグメンテーション精度を向上させる。
- 提案手法CR-Segは，粗い位置特定とマスクの洗練化を段階的に行うことで，効果的なセグメンテーションを実現した。
- EAPモジュールにより，注意マップと重要な点を抽出し，SAMによるマスクの精度向上に貢献した。
- GLCoTは，グローバルな文脈からローカルな詳細へ推論を導くことで，推論と解答の一貫性を改善した。
Link: https://arxiv.org/abs/2606.03564
多発性硬化症における海馬傍回灰白質のセグメンテーションのための効率的なTransformerベース局所パッチサンプリング [cs.IR, cs.CV, cs.AI]目的：多発性硬化症患者における海馬傍回灰白質の自動セグメンテーション手法の開発
- 海馬傍回灰白質は，多発性硬化症の病態生理と障害度を評価するための重要な画像バイオマーカーとしての認識が高まっている。
- 海馬傍回灰白質の正確な手動セグメンテーションは時間と労力を要し，大規模臨床試験や縦断的評価を妨げる要因となっている。
- 本研究は，局所的なパッチサンプリングとSwinUNETRアーキテクチャを組み合わせることで，海馬傍回灰白質のセグメンテーションの精度向上と計算コスト削減を目指す。
- 拡張テストセットにおいて，SwinUNETRモデルはMPRAGEとFLAIRを組み合わせた場合に平均DSC 0.868 (95% CI: 0.863-0.872)を達成し，UXNET (DSC: 0.858 [95% CI: 0.853-0.862], p<0.0001)と比較して統計的に有意な改善を示した。
- FLAIRのみを入力とした場合でも，Transformerベースの手法は高いDSC 0.863を維持した一方で，UXNETの空間的局在性は著しく悪化した(HD95: 1.86 vs. 3.00 mm)。
- 提案されたフレームワークは計算負荷を99%削減することに成功した(91.8 vs. 22,080 GFLOPs)。
Link: https://arxiv.org/abs/2606.03566
3D物体検出のための学習型非最大抑制 [eess.SY, cs.SY, cs.CV, cs.AI, cs.LG, cs.RO]目的：LiDARベースの3D物体検出における，高密度で重複する提案のフィルタリング
- 自動運転やロボティクスにおいて，周囲環境の正確な3D認識は不可欠である。
- 従来の非最大抑制(NMS)は，ヒューリスティックな手法に依存しており，性能向上の限界がある。
- 検出間の関係性を学習することで，よりロバストで高精度なフィルタリングを実現する。
- D2D-RescoreとGossipNet3Dという2つの学習型フィルタリングモジュールを提案した。
- 提案手法は，CircleNMSと比較して，mAP，NDS，真陽性率を向上させた。
- 特に小規模で稀なクラスにおいて顕著な性能向上を示し，計算コストの増加は最小限に抑えられた。
Link: https://arxiv.org/abs/2606.03568
注意が崩壊するとき：構造から意味論への段階的認識トークン剪定 [cs.CV, cs.AI]目的：視覚トークン剪定による計算コストの削減
- 画像とテキストを理解するモデルの性能向上には，計算資源が不可欠である。
- 既存の剪定手法は注意スコアのみに頼るため，多様な特徴を失う可能性がある。
- 構造と意味論に基づき，より効果的なトークン剪定を目指す。
- 提案手法STSは，空間的な多様性を最大化する段階と，指示に基づいて不要なトークンを削除する段階の二段階構成である。
- STSは注意スコアのみに依存する剪定方法による冗長性を軽減し，視覚トークンの構造的多様性とタスク適合性を向上させる。
- 実験結果から，STSが既存手法よりも優れた性能を示すことが確認された。
Link: https://arxiv.org/abs/2606.03569
画像ネットを用いた平衡伝播による予測符号化ネットワークの学習 [cs.LG, cond-mat.dis-nn, cs.NE]目的：予測符号化ネットワークの学習方法
- 脳科学に基づいた予測符号化ネットワークは，情報処理の効率化に貢献しうる。
- 大規模データセットでの学習が困難であり，実用化の妨げとなっている。
- 平衡伝播を用いて予測符号化ネットワークの学習を大規模化し，性能評価を行う。
- 10層の畳み込み予測符号化ネットワーク（VGG10）を画像ネットで学習した結果，トップ5分類タスクで13.23%のテストエラー率を達成した。
- これは，誤差逆伝播法によるベースライン（12.2%）に匹敵する結果である。
- 本研究は，予測符号化ネットワークと平衡伝播に基づく学習を画像ネット規模で実証した初の事例である。
Link: https://arxiv.org/abs/2606.03584
PHASER：視覚・言語・行動モデルのための位相認識型セマンティック経験再生 [eess.SY, cs.SY, cs.RO, cs.AI, cs.CV]目的：言語条件付きロボット操作における継続学習戦略
- ロボットの自律的な継続学習は，未知の環境への適応に不可欠である。
- 過去のスキルが忘れ去られる「破滅的忘却」が，継続学習の大きな課題となっている。
- 経験再生の効率を改善し，スキルの忘却を抑制することを目的とする。
- PHASERは，サブスキルの位相に着目したメモリ割り当てと，干渉ルーティングにより，忘却リスクの高い過去の位相を優先的に再生する。
- 自動的な行動信号変化点検出とVLMによるセマンティック検証を組み合わせることで，教師なしでの時間境界抽出を可能にするAuto-PCを統合した。
- LIBEROデータセットでの実験により，PHASERは既存の経験再生手法と比較して，平均成功率を最大31%向上させることが示された。
Link: https://arxiv.org/abs/2606.03598
DDOR：説明可能な過剰拒否テストと修正のためのデルタデバッグ [cs.SE, cs.AI]目的：大規模言語モデルにおける過剰拒否のテストと修正
- 言語モデルの安全性確保は重要だが，過剰な拒否がユーザビリティを損なう可能性がある。
- 言語モデルは，本来無害なクエリをリスクと誤認し，不必要に拒否することがある。
- 過剰拒否の原因を特定し，モデルの安全性を維持しつつ，ユーザビリティを改善すること。
- DDORは，過剰拒否を引き起こす最小限の断片を特定し，説明可能な根拠を提供する。
- 特定された断片に基づき，多様なプロンプトを生成し，過剰拒否テストスイートを作成する。
- デルタデバッグを活用したプロンプト修正により，過剰拒否を大幅に削減し，安全性も維持する。
Link: https://arxiv.org/abs/2606.03601
因果探索のためのアンサンブルにおいて，LLMをいつ信頼すべきか：CauTion [cs.LG, cs.AI, cs.CL]目的：観測データからの因果関係発見
- 統計的限界により困難であり，ドメイン知識の活用が重要視されている。
- 既存のLLM活用手法は，LLMの誤りや高コスト，アルゴリズム依存性がある。
- LLMと統計的アルゴリズムの信頼性を評価し，アンサンブルで解決を目指す。
- CauTionは，統計的アルゴリズムのアンサンブルとLLMの知識を統合するフレームワークである。
- コンセンサスフィルタリングと信頼性推定により，LLMの誤りに強く，高いパフォーマンスを示す。
- 実験により，CauTionは既存手法を上回り，大規模グラフで特に有効であることが示された。
Link: https://arxiv.org/abs/2606.03602
LLMの算術推論の一般化能力の評価：自動数値再割り当て攻撃による検証 [cs.CL, cs.CR, cs.AI]目的：大規模言語モデルの算術推論における脆弱性評価
- 言語モデルの算術推論能力は，現実世界のタスクにおいて不可欠であり，その信頼性が重要である。
- 数値のわずかな変化に対しても，言語モデルの算術推論能力が不安定になるという問題が存在する。
- 本研究は，数値再割り当て攻撃を用いて，言語モデルの算術推論の頑健性を評価し，その限界を明らかにすることを目的とする。
- 数値再割り当て攻撃は，問題の構造を維持しつつ数値を変更することで，言語モデルの脆弱性を効率的に検証できる。
- GSM8Kデータセットにおいて，モデルの正答率は12.16〜25.82パーセントポイント低下したが，MAWPSとMultiArithでは安定していた。
- データセットの構造が，数値再割り当て攻撃に対する頑健性に大きく影響することが示唆された。
Link: https://arxiv.org/abs/2606.03606
検証生成ギャップの活用：信頼度条件付き検証によるテスト時強化学習 [cs.LG, cs.AI]目的：テスト時強化学習におけるPass@kの最適化
- 大規模言語モデルの複雑な推論能力向上は，AI研究における重要な課題である。
- ラベルなし環境下では，Pass@kの最適化が困難であり，探索範囲の維持が課題となっている。
- 信頼度に基づいた検証機構により，Pass@kを改善し，モデルの推論性能を向上させる。
- 提案手法TTRL-CoCoVは，6つのベンチマークで最先端手法を凌駕する性能を示した。
- Pass@1で平均9.8%，Pass@16で18.7%の絶対的な改善を，ベースラインであるTTRLに対して達成した。
- 一部の推論ベンチマークでは，完全教師あり強化学習法に対しても，Pass@1で最大5.0%の改善を達成した。
Link: https://arxiv.org/abs/2606.03608
3Dアイソビスト世界モデル -- 都市の隠れた幾何学と創発的な都市間シグネチャの解明 [cs.RO, cs.LG]目的：都市空間におけるナビゲーションのための，移動可能な幾何学形状を予測する世界モデルの構築
- 都市におけるナビゲーションは，環境を理解し予測する能力に依存する重要な課題である。
- 既存の世界モデルは，外観予測に偏っており，実際にエージェントが移動できる空間を考慮していない。
- 本研究は，ナビゲーションに不可欠な3次元の移動可能空間を捉えるモデルを提案し，都市の幾何学的特徴を理解することを目指す。
- 提案手法は，建物の間の開かれた空間を3Dアイソビストとしてモデル化することで，ナビゲーションに必要な空間情報を効率的に表現する。
- マンハッタンとパリという異なる都市で学習したモデルは，都市間の空間的な特徴を学習し，都市のIDを時間的潜在変数から線形に復号できることが示された。
- この表現は軽量で解釈可能性が高く，埋め込み型AI，ロボット工学，都市分析における空間推論のための基盤を提供する。
Link: https://arxiv.org/abs/2606.03609
クロス言語トークン裁定: ローカルLLM前処理によるコードエージェントのコンテキストウィンドウ最適化 [cs.MM, cs.ET, cs.AI]目的：コードエージェントのコンテキストウィンドウ最適化
- AI支援コーディングは生産性向上に不可欠だが，入力トークンコストが課題となっている。
- 非英語テキストの非効率なトークン化と会話型プロンプトの構造的エントロピーがコスト増の原因。
- プロンプト最適化により，推論コストを削減し，コーディング品質を維持することを目指す。
- 提案手法は，プロンプトトークンを34-47%削減，総トークンを最大18.8%削減することに成功した。
- タスク精度を維持または向上させつつ，推論コストの大幅な削減を実証した。
- 削減効果は主に構造変換段階に由来し，単純な関数名抽出よりも優れていることが示された。
Link: https://arxiv.org/abs/2606.03618
物理に基づいた方策最適化と自己蒸留 [cs.LG, cs.AI]目的：大規模言語モデルのポストトレーニング方策
- 大規模言語モデルの性能向上は，多様な応用において不可欠である。
- 自己教師あり学習は，ラベル付きデータが不足する場合に有効だが，更新ステップの信頼性が課題となる。
- 情報変調ステップサイズを用いて，学習の安定性を高め，性能を向上させる。
- 提案手法PGPOは，Science-QAデータセットにおいてSDPOを上回る性能を示した。
- 特に，4つのドメインのうち3つで最大4.5ポイントの改善が見られた。
- SDPOが学習の終盤で不安定になる状況においても，PGPOは安定性を維持した。
Link: https://arxiv.org/abs/2606.03620
大規模推論モデルにおける指示遂行の改善：補助制約による制約充足の架橋 [cs.AI, cs.CL]目的：大規模推論モデルにおける制約充足問題の解決
- 複雑なタスクにおいて，複数指示への正確な対応は，AIシステムの信頼性を高める上で重要である。
- 大規模モデルは，複数の制約を同時に扱う際，個々の制約を満たせず，矛盾が生じやすい。
- 制約間の関係性を明示化し，モデルが制約を理解・調整するための補助的な指示を導入すること。
- 本研究では，指示を制約の知識グラフとして構造化するCRGCフレームワークを提案した。
- CRGCは制約間の関係性をモデル化し，制約充足を妨げる要因を特定し，「橋渡し制約」を発見する。
- 実験の結果，標準的なプロンプティングと比較して，制約違反を39%削減できることが示された。
Link: https://arxiv.org/abs/2606.03624
TurtleAI：タートルグラフィックスにおける視覚的プログラミングのためのマルチモーダルモデルのベンチマーク [cs.CV, cs.AI, cs.CY]目的：タートルグラフィックスにおける視覚的プログラミングのためのマルチモーダルモデルの性能評価
- 視覚的プログラミングは，プログラミングの学習を支援し，創造性を育む上で重要な役割を担う。
- 既存のビジョン言語モデルは，教育的な視覚的プログラミングへの応用において，その性能限界が不明確である。
- タートルグラフィックスの課題を用いたベンチマークを通じて，モデルの性能評価と改善を目指す。
- 20以上のビジョン言語モデルを評価した結果，ほとんどのモデルで成功率が30％を下回るなど，課題解決に苦戦していることが判明した。
- 少量のみのシードサンプルからデータ生成を行う手法を提案し，Qwen2-VL-72Bをファインチューニングすることで，実世界のタスクで約20％の性能向上を実現した。
- GPT-4oは空間推論と正確な視覚的再現で苦戦し，ファインチューニングは視覚的推論とコード実装の整合性を改善することが示された。
Link: https://arxiv.org/abs/2606.03626
ハルシネーション除去サンプリングによる信頼性の高い長文生成 [cs.CL, cs.AI, cs.LG]目的：長文生成におけるハルシネーションの軽減
- 大規模言語モデルはテキスト生成で目覚ましい進歩を遂げているが，信頼性を損なう誤った内容を生成することが課題。
- 長文生成では，初期段階のエラーが蓄積・増幅され，ハルシネーションが雪だるま式に拡大する現象が存在する。
- 本研究は，生成過程でハルシネーションを検出し，修正することで，長文生成における事実一貫性を向上させる。
- 提案手法SHARSは，任意のハルシネーション検出器を用いて，生成中のハルシネーションを検出し，信頼性の高い内容のみを保持する。
- これにより，ハルシネーションの蓄積を抑制し，事実に基づいた一貫性のあるテキスト生成を可能にする。
- 実験結果から，提案手法は長文生成におけるハルシネーションを大幅に削減し，生成情報の質を維持・向上させることが示された。
Link: https://arxiv.org/abs/2606.03628
TSQAgent：専用のエージェント的推論による時系列データ品質の評価 [cs.AI]目的：時系列データの品質評価に関する研究
- 時系列データは様々な分野で利用され，その品質は分析結果に大きく影響する。
- 既存手法では，品質評価の次元が人手で定義されており，LLMの潜在能力が活かされていない。
- LLMが適切な品質次元を特定し，定量的な比較を行えるようにすること。
- 本研究では，LLMの時系列データ品質評価能力を測るベンチマークTSQBenchを構築した。
- 提案手法TSQAgentは，次元選択，定量分析，最終判断を行う３つの役割を持つエージェント的推論フレームワークである。
- 実験結果から，TSQAgentは既存手法を大幅に上回り，データ選択の精度向上に貢献することが示された。
Link: https://arxiv.org/abs/2606.03629
アンカーMoE：アンカー経路MoEによる解釈可能な時系列分類 [cs.LG, cs.AI]目的：解釈可能な時系列分類のためのフレームワーク
- 臨床診断や故障検知など，重要な分野で時系列分類は不可欠である。
- 実世界の時系列データでは，識別信号が希薄でノイズに埋もれていることが多く，モデルの予測根拠の特定が困難である。
- 入力セグメントに対する正確な加法分解に基づき，モデルの透明性を高め，信頼性の高い分類を実現することを目指す。
- アンカーMoEは，時系列データを局所的なパッチに分割し，専門家と呼ばれる複数のモジュールにルーティングする。
- 幾何学的直交制約により，各専門家が異なる予測パターンに特化し，冗長性を抑制することで，信頼性の高い分解を実現する。
- 不確実性を考慮した信頼性ゲートにより，背景ノイズの影響を抑制し，分類性能を向上させる。
Link: https://arxiv.org/abs/2606.03631
短い動画における暗黙的なメッセージ推論のためのベンチマーク：VidMsg [cs.CV, cs.AI]目的：短い動画内の暗黙的なメッセージ理解の評価
- 動画コンテンツの利用増加に伴い，動画理解の重要性が高まっている。
- 動画に含まれるメッセージは直接的でない場合が多く，既存手法では捉えきれない。
- 暗黙的なメッセージを正確に理解するための評価基準と手法を確立すること。
- VidMsgは，9つのトピック領域と52種類のメッセージを含む400本の動画で構成される。
- 既存の動画・言語モデルはVidMsgにおいて高い性能を示せない場合がある。これは，文脈的推論や意味の識別が必要となるためである。
- VidVec-Msgはメッセージ指向の検索性能を向上させるベースラインモデルとして提案されている。
Link: https://arxiv.org/abs/2606.03635
LLM医療トリアージにおける性別依存的診断置換：同じ症状でも緊急度の認識に差 [cs.AI, cs.CY]目的：LLMによる医療トリアージの性別依存性
- 医療現場におけるトリアージは，限られた資源を効率的に配分し，患者の生存率向上に不可欠である。
- LLMの判断における潜在的なバイアスは，医療における公平性と安全性に深刻な影響を及ぼす可能性がある。
- 本研究は，LLMが性別に基づいて異なるトリアージ判断を下すメカニズムを解明し，バイアスの軽減に貢献する。
- LLMは，同じ神経症状でも，患者の性別と年齢によって異なるトリアージ推奨を行うことが明らかになった。
- 特に若い女性は，同年齢の男性と比較して緊急外来への紹介率が著しく低い（Gemini：0%対23.3%，Claude：6.7%対96.7%，GPT：6.7%対66.7%）。
- この差異は65歳以上では消失し，LLMが性別に関連する診断（特発性頭蓋内圧亢進症など）に固定化される「診断置換」が原因であることが示唆された。
Link: https://arxiv.org/abs/2606.03641
空間トランスクリプトミクス誘導アラインメントによる病理学的基盤モデルの分子プロファイリングの向上 [cs.LG]目的：病理学的基盤モデルにおける分子プロファイリングの精度向上
- 精密腫瘍学では包括的な分子プロファイリングが不可欠だが，コストや検体の枯渇が課題である
- 既存の病理学的基盤モデルは空間分解能のある分子情報が不足しており，形態学的特徴とゲノム異常の関連付けが困難である
- 空間トランスクリプトミクスを活用し，分子情報を組み込むことでモデルの分子認識能力を高める
- 空間トランスクリプトミクス誘導アラインメントフレームワーク（STAMP）を開発し，病理学的基盤モデルに分子情報を付与した。
- 多様な組織とシーケンスプラットフォームを含むHumanST-1kデータセットを構築し，H&E画像とトランスクリプトームプロファイルの180万ペアを提供した。
- 経路情報を活用したアラインメント戦略により，ノイズの影響を軽減し，病理学的基盤モデルの表現空間を豊かにすることで，微細な分子シグネチャーの検出能力を向上させた。
Link: https://arxiv.org/abs/2606.03644
加算の形：大規模言語モデルにおける算術の幾何学的構造 [cs.LG, cs.AI]目的：大規模言語モデルにおける算術の幾何学的構造の解明
- AIの信頼性向上には，基礎的な算術能力の理解が不可欠である。
- 大規模言語モデルは基本的な算術において脆さを見せ，その原因が不明である。
- 算術エラーを幾何学的な滑りとして捉え，そのメカニズムを明らかにすること。
- 残差ストリームの幾何学を分析し，意味的な数字と連続的な桁上げ繊維によって特徴付けられる「等量和軌跡 (IRST)」を特定した。
- 算術エラーを「幾何学的滑り」と捉え，内部ノイズが潜在的な桁上げポテンシャルを量子化閾値を超えて押し出すことで発生すると説明する「ノイズ量子化モデル」を提案した。
- この幾何学的フレームワークは，軽量なプローブが単一の活性化ベクトルから共存する潜在信号（正解と幻覚など）を分離できるメカニズムを説明する。
Link: https://arxiv.org/abs/2606.03645
ブラックボックス型適応効率的な攻撃手法が全て，LLMを破るために必要である [cs.CR, cs.AI, cs.LG]目的：LLMの敵対的堅牢性の評価
- LLMの安全性確保は重要であり，誤った評価はリスク評価や防御策比較を歪める。
- 既存手法では，ブラックボックス互換性，汎用性，効率性を同時に満たす攻撃が困難である。
- 標準化されたLLMの脱獄評価を可能にする実用的な攻撃手法を確立すること。
- Indirect Harm Optimization (IHO) は，有害性判定器に対する反復的な選好最適化により訓練された，マスクされた拡散言語モデル攻撃である。
- IHOは，個々の挙動に対する適応的な攻撃や，ファインチューニングなしでの転移学習が可能である。
- 多層防御に対しても，IHOは既存手法よりも攻撃成功率を大幅に向上させる。
Link: https://arxiv.org/abs/2606.03647
ファインチューニングされたLLMの安全性評価は，能力に基づき行うべきである [cs.CL, cs.AI]目的：ファインチューニングによるLLMの安全性への影響評価
- LLMの応用拡大に伴い，安全性確保が不可欠であるため。
- ファインチューニングが安全性に与える影響評価は，設定に依存し再現性が低い。
- 能力目標に基づき評価することで，安全性評価の一貫性と信頼性を高める。
- ファインチューニングされたモデルは，安全性に関するプロンプトに対して一貫性のない応答を生成することがある。
- そのような不 coherent な応答に対し，自動的な安全性判断は信頼性が低い。
- ファインチューニングの影響評価は，安全性ベンチマークや評価者によって結論が変動する可能性がある。
Link: https://arxiv.org/abs/2606.03648
CoEval：カスタムタスクにおける言語モデルのランキング - ラベル付きデータや信頼できるベンチマークなしで [cs.CL, cs.AI]目的：特定のアプリケーション向け言語モデルの選択・ランキング手法
- 言語モデルの性能評価は，実用的な応用において不可欠であり，適切なモデル選択が重要となる。
- 既存のベンチマークは，事前学習データへの漏洩が疑われ，モデルの真の能力を反映しない可能性がある。
- ラベル付きデータや信頼できるベンチマークがない状況でも，言語モデルを評価可能なフレームワークを構築すること。
- CoEvalは，タスク記述のみから新たなベンチマークを自動生成し，モデルのランキングを可能にする。
- 生成されたベンチマークは，汚染がなく，既存のベンチマークとの重複が確認されなかった。
- ベンチマークの信頼性は，パネルの構成（多様性）に依存し，大規模なパネルよりも，適切に選択された小規模なパネルの方が信頼性が高いことが示された。
Link: https://arxiv.org/abs/2606.03650
命題的敗北可能視点論理における非単調含意に向けて [cs.AI, cs.LO]目的：命題的敗北可能視点論理における非単調合理的含意関係の拡張
- 敗北可能推論は，不確実な情報や相反する証拠を扱う上で重要であり，その形式化が求められている。
- 既存研究は単調含意に偏っており，より推論力の強い非単調含意の扱いは十分ではない。
- 視点論理に非単調含意を導入し，より柔軟な推論を可能にすることを目指す。
- 本研究では，位置づけられた視点条件子を導入することで，従来のKLMスタイルの推論における非単調合理的含意関係をPDSLに適用する手法を提案した。
- PDSLの一部の断片を位置づけられた条件子の集合として表現可能であることを示し，PDSLにおける非単調含意を特徴づける方法を定義した。
- 提案手法では，命題論理のアルゴリズムを活用しつつ，PDSLにおける含意判定の複雑度を維持することが可能である。
Link: https://arxiv.org/abs/2606.03655
LLMツール利用における知識ギャップの診断：新規API習得のためのエージェント型ベンチマーク [cs.AI]目的：LLMのAPI利用における知識ギャップの特定と診断
- LLMのコード生成能力向上には，事前学習データに存在しないAPIの利用が不可欠である。
- 既存の新規APIベンチマークは静的で，評価が粗雑，または現実のライブラリ進化を反映していない。
- 動的なベンチマークにより，LLMのAPI習得能力を詳細に診断し，改善策を提示すること。
- NovelAPIBenchは，APIの発見からタスク生成，診断までを自動化するベンチマークである。
- 検索による知識注入とパラメトリック適応による知識の内部化を比較した結果，両者は異なる役割を果たす。
- 検索はAPI内容を補完し，ファインチューニングは手続き的統合を改善することが示唆された。
Link: https://arxiv.org/abs/2606.03657
解答から状態へ：大規模言語モデルにおける化学的推論のプロセスレベル評価の検証 [cs.AI]目的：大規模言語モデルの化学的推論プロセスを検証可能な形で評価するベンチマーク
- 化学分野におけるAI活用が重要視される中，その推論過程の信頼性が課題となっている。
- 既存の評価方法は，コストや主観性，幻覚のリスクがあり，大規模な評価が困難である。
- 化学的ルールに基づいた検証可能なベンチマークにより，推論プロセスの正確性を評価すること。
- ChemCoTBench-V2は，分子理解，編集，最適化，反応予測を網羅する5,620の評価サンプルを提供する。
- モデルは専門家が設計したテンプレートに沿って中間ステップを提示し，それらは化学的ルールで検証される。
- 実験の結果，最終的な正答率と構造化された推論の一貫性の間にギャップが存在することが示された。
Link: https://arxiv.org/abs/2606.03660
予測URLLCスケジューリングのためのオンライン学習dApp，AUGUSTE [cs.NI, cs.AI]目的：予測型URLLCスケジューリングのためのオンライン学習分散型アプリケーションの開発
- 5Gの主要動機の一つであり，産業用自動化など多様な分野での利用が期待されている。
- 実際の5Gネットワークでは，SR手順が遅延の主要因となり，期待される低遅延性能が実現されていない。
- オンライン学習を用いて，パケット到着を予測し，SR発行前にリソースを割り当てることで遅延を削減する。
- AUGUSTEは，5Gテストベッドで3種類のURLLCトラフィックパターンにおいて，SRベースラインの遅延を半分に短縮した。
- 常にオンのスケジューリングと同等のRTT（約10ms）を達成しつつ，リソースコストを1/10に抑えた。
- 適応的なステートマシンにより，公平な統計収集と学習済み予測の活用を切り替えることで，遅延とオーバーヘッドのトレードオフを最適化した。
Link: https://arxiv.org/abs/2606.03664
EvoDrive：自己改善型LLMエージェントによる安全性重視の自動運転のためのパレート進化 [cs.AI]目的：安全性重視の自動運転システムの検証と改善に不可欠なシナリオの生成
- 自動運転技術の安全性確保は，社会実装において最重要課題である。
- 既存手法は手動のヒューリスティックに依存し，未知の危険パターンを見落とす可能性がある。
- 多様な攻撃性と現実性のバランスを取ったシナリオを自動生成し，自動運転システムの性能向上を目指す。
- EvoDriveは，LLMベースのエージェント進化フレームワークにより，シナリオ生成のパレートフロントを大幅に拡大した。
- このフレームワークは，シミュレーターに制約されたActor-Critic構造と自己進化型評価器を採用することで，多様な攻撃と現実性のトレードオフを維持する。
- 生成されたシナリオは，自動運転ポリシーの学習に有効であることが示された。
Link: https://arxiv.org/abs/2606.03678