arXiv雑要約

AI - 2026/06/19 公開

  • 文脈内学習は内発的好奇心をサポートできるか [cs.LG, cs.AI]目的:内発的好奇心に基づくデータ選択戦略の有効性
    • 機械学習の性能向上には,データモデルだけでなく,収集するデータの選択が重要である。
    • 自動データ選択,特に「内発的好奇心」の実現は,計算コストの高さから困難であった。
    • 文脈内学習を活用し,計算効率の良い内発的報酬の獲得を目指す。
    • 一般のマルコフ決定過程では,文脈内学習のみでは真の学習進度を正確に評価できないことを証明した。
    • 非時間的な設定(アクティブラーニングなど)においては,文脈内学習から得られる報酬が学習進度に収束することを示した。
    • 提案手法は,連続環境および記号環境における実験で,最適なデータ収集ポリシーを学習できることを示した。

    Link: https://arxiv.org/abs/2606.19476

  • Insulin4RL:集中治療におけるリアルタイムインスリン管理のためのオフライン強化学習 [cs.LG]目的:集中治療におけるインスリン投与量の調整に関するオフライン強化学習データセット
    • 臨床意思決定の質向上に強化学習を活用することの重要性が高まっている。
    • 既存のデータセットは時間間隔を固定化しており,実際の臨床状況を反映しにくい。
    • リアルな臨床データを用いたオフライン強化学習モデルの性能評価を可能にする。
    • Insulin4RLは,MIMIC-IVから派生した,不規則な時間間隔での臨床データを含むデータセットである。
    • 12,209人の集中治療患者の375,000件以上のインスリン投与量調整記録が含まれている。
    • モデルフリーオフライン強化学習を用いたベースライン性能と,Fitted Q-evaluationを用いた評価プロトコルが提供されている。

    Link: https://arxiv.org/abs/2606.19481

  • コンセプトフローモデル:階層的ボトルネックによる概念ベースの推論の固定 [cs.LG, cs.AI]目的:概念に基づく推論の解釈可能性向上
    • AIの信頼性向上には,モデルの判断根拠を人間が理解できる形で示すことが重要である。
    • 従来の概念ボトルネックモデルでは,概念数が増加すると情報の漏洩が生じ,解釈性が損なわれる。
    • 情報の漏洩を抑制し,透明性の高い意思決定プロセスを実現する。
    • 提案手法であるコンセプトフローモデルは,従来のモデルと同等の予測性能を維持しつつ,情報の漏洩を大幅に軽減する。
    • 階層的な決定木構造により,モデルの推論過程を可視化し,説明可能なAIを実現する。
    • 各階層に意味的概念を配置することで,モデルの判断根拠を明確にし,解釈性を向上させる。

    Link: https://arxiv.org/abs/2606.19489

  • LayerNorm Transformer における代数的死方向:LLM スケールでの前方パスのみによる診断 [cs.LG, stat.ML]目的:LayerNorm Transformer における代数的死方向の特定
    • 大規模言語モデルの性能向上のため,学習過程におけるパラメータ空間の構造理解が不可欠である。
    • 従来の死方向の特定には計算コストの高い処理が必要であり,効率的な手法が求められていた。
    • LayerNorm Transformer 特有の構造を利用し,パラメータのみから死方向を効率的に特定することを目指す。
    • LayerNorm のアフィン変換のパラメータから,入力分布に依存しない代数的死方向を正確に算出できることが示された。
    • 学習済みのモデルでは,この方向における共分散固有値が大幅に増加し,他の死方向も出現することが確認された。
    • 本手法により,Transformer の正規化方式をパラメータのみから判別することが可能となった。

    Link: https://arxiv.org/abs/2606.19491

  • マルチエージェントLLM熟議における隠れたアンカー [cs.AI]目的:マルチエージェントLLM熟議における意思決定プロセスを,隠れた内部信念(アンカー)という観点からモデル化すること
    • LLM熟議は推論と精度の向上に寄与するが,そのメカニズムは未解明な点が多い。
    • 従来の意見ダイナミクスモデルは集団の影響は捉えられず,個人の信念を考慮できていない。
    • LLM熟議において,エージェントの内部信念がどのように影響するかを明らかにすること。
    • エージェントの隠れた内部信念(アンカー)は,熟議の過程から推定可能であることが示された。
    • アンカーの存在により,古典的な合意形成ルールでは許容されない行動,すなわち,初期信念の範囲を超える自信の向上が確認された。
    • アンカーが将来の予測にも一致するかどうかを検証することで,モデルがアンカーによって駆動されているかのテストが可能である。

    Link: https://arxiv.org/abs/2606.19494

  • MMDファインチューニングによる生成モデルのFeature分布への較正 [cs.LG]目的:生成モデルにおけるFeature分布の較正
    • 生成モデルは現実的なサンプルを生成するが,重要なFeature分布において目標集合から乖離することがある。
    • 直接的なファインチューニングは過学習を引き起こし,どのFeatureを一致させるかを制御できない。
    • Feature分布の一致と生成モデルの有効性を両立させる手法の開発。
    • kCGMは,生成されたFeature分布と目標のFeature分布の間の最大平均不一致(MMD)を最小化する。
    • 抗生物質のデータセットにおいて,直接的なファインチューニングは化学的妥当性を損ねるが,kCGMはFeatureの一致を改善しつつ妥当性を向上させる。
    • kCGMは,タンパク質やDNAの生成タスクにおいても,Featureレベルの監督のみで様々な生成モデルを適応させることが示された。

    Link: https://arxiv.org/abs/2606.19496

  • DeXposure-Claw:DeFiリスク監督のためのエージェントシステム [cs.AI, cs.CL, cs.LG, q-fin.RM]目的:DeFiにおけるリスク監督のためのエージェントシステム
    • 分散型金融(DeFi)は急速に発展しており,金融システムの安定性に対する新たなリスクをもたらしている。
    • 既存の監督手法はDeFi特有の高速かつネットワーク化されたリスクに対応できていない。
    • LLMエージェントの誤った判断による介入を防ぎ,より正確なリスク監督を実現すること。
    • DeXposure-Clawは,将来の曝露ネットワークを予測するモデルと,それに基づくアラートシステムを組み合わせることで,リスク監督の精度向上を図っている。
    • 開発された評価指標DeXposure-Benchは,規制当局の視点に基づいた損失評価と誤介入率の測定を可能にする。
    • 5年間の実データを用いた実験により,本システムの有効性が確認された。

    Link: https://arxiv.org/abs/2606.19501

  • LLMは知らないことを知らない:臨床テーブルデータのクロスモデル帰属乖離による認識の盲点の検出 [cs.AI]目的:臨床テーブルデータにおけるLLMの知識限界の認識の検出
    • 医療現場では,データに基づいた正確な予測が不可欠であり,LLMはその可能性を秘めている。
    • LLMは自信過剰になりやすく,誤った予測をする可能性があり,信頼性が課題となる。
    • LLMの知識限界を認識し,予測の信頼性を向上させることを目指す。
    • LLMの出力する自信度は予測精度と相関せず,プロンプト形式に左右されることが示された。
    • LLMは,XGBoostの予測精度が高い場合に精度が低下し,不確実性が高い場合に一致する。
    • クロスモデル帰属較正器は,帰属乖離信号を用いてLLMの信頼性を評価し,期待校正誤差を減少させた。

    Link: https://arxiv.org/abs/2606.19509

  • 深層マルチタスク学習のためのインタラクティブなパレート航法 [cs.RO, cs.SY, eess.SY, cs.HC, cs.DC, eess.SY, cs.SY, cs.LG, math.OC]目的:深層マルチタスク学習におけるパレート最適解の探索
    • マルチタスク学習は,複数の目標を同時に最適化することで性能向上に貢献する重要な手法である。
    • 目標数が増加すると,計算コストが増大し,適切なトレードオフの選択が困難となる。
    • 意思決定者の嗜好を考慮しながら,効率的にパレート最適解を探索することを可能とする。
    • 提案手法であるPreference Pareto Exploration (PPE)は,パレート最適解の多様性を維持しつつ,意思決定者の嗜好を反映したトレードオフを対話的に探索する。
    • PPEは,パレート最適解多様体の接空間を効率的に推定するためにKrylov部分空間法を用いることで,計算コストを削減している。
    • 数値実験および深層学習の事例を通して,提案手法の有効性と性能が実証された。

    Link: https://arxiv.org/abs/2606.19521

  • REVEAL++:アルツハイマー病リスクの視覚言語網膜モデルにおける微分可能な表現型グルーピング [cs.AI]目的:アルツハイマー病リスクの早期予測のための視覚言語アラインメントフレームワークにおける表現型グルーピングの改善
    • 網膜は侵襲性の低い神経変性疾患の窓であり,将来的な認知機能低下のリスクに関連する微妙な構造パターンを捉えることができる。
    • 既存の方法は表現型類似性を離散的な構成として扱い,厳密なグループ割り当てに依存し,グループ形成と表現学習を切り離している。
    • 本研究は,表現型類似性を学習可能な連続信号として扱い,多様な網膜および臨床データからの神経変性リスクモデリングの基盤を確立する。
    • 提案手法は,離散的なグループベースのコントラスティブ学習や標準的な視覚言語ベースラインよりも,アルツハイマー病発生予測において一貫して優れた性能を示す。
    • 表現型構造を連続的にモデル化することで,graded supervision(段階的監督学習)を可能にし,疾患リスクのスペクトル的性質を反映する。
    • ソフトターゲットコントラスティブ目的関数を導入することで,クロスモーダルアラインメントと表現型構造をエンドツーエンドで同時に学習する。

    Link: https://arxiv.org/abs/2606.19522

  • 創発的な整合性 [cs.RO, cs.AR, cs.AI]目的:LLM自身の出力が人間の倫理と乖離しているかを識別し,自己修正する能力の検証
    • LLMの倫理的課題は,社会実装における信頼性確保に不可欠であるため重要性が高い。
    • LLMは,学習データに内在する偏りから,倫理的に問題のある出力を生成する可能性がある。
    • 本研究は,LLMが自身の出力の倫理性を評価し,整合性を高める手法を確立する。
    • LLMに自己査読の機能とDPOを用いた整合性損失項を加えることで,オンラインでのモデル整合性を実現した。
    • 従来の倫理に反する行動の創発とは異なり,高次の内省的質問によって倫理的なモデルへと学習を導く「創発的整合性」を実証した。
    • 本手法は,学習,ファインチューニング,敵対的プロンプティング,ゼロショット学習など,幅広い応用が可能である。

    Link: https://arxiv.org/abs/2606.19527

  • エッジデバイスにおけるLLMのLoRAファインチューニングのためのピークメモリ削減手法 [cs.LG, cs.AI]目的:LLMのLoRAファインチューニングにおけるピークメモリ削減
    • LLMは高性能だが,その規模からエッジデバイスでの利用にはメモリ制約が課題である。
    • LLMのファインチューニングはメモリを大量に消費し,特にリソースの限られたデバイスでは困難である。
    • エッジデバイスでのLLMファインチューニングを可能にするため,メモリ使用量を削減すること。
    • 本研究では,量子化,メモリ効率の良いチェックポインティング,ソフトマックス近似,logitsマスクなどの手法を組み合わせることで,ピークメモリを大幅に削減した。
    • Llama-3.2 3BおよびQwen-2.5 3Bを用いた実験では,ピークメモリを最大で26倍,28倍それぞれ削減することに成功した。
    • これにより,リソースに制約のあるデバイス上でのファインチューニングが可能となった。

    Link: https://arxiv.org/abs/2606.19528

  • イジングモデルに基づく適応型確率プロセッサの合成ツール [cs.AR, cs.AI]目的:組合せ最適化問題解決のための確率アーキテクチャの合成とシミュレーション
    • 組合せ最適化問題は,現実世界の様々な分野で重要な課題であり,効率的な解決手法が求められている。
    • 既存の手法では,問題の特性に応じた最適な確率アルゴリズムの選択や,適切な確率要素数の決定が困難である。
    • 問題の規模や構造に応じて最適な確率アルゴリズムを選択し,効率的な確率プロセッサを合成することを可能にする。
    • 提案ツールは,問題の特性に基づき自動的にイジングハミルトニアンを構築し,確率要素数(p-bit)を決定する。
    • ギブスサンプリング,シミュレーテッドアニーリング,シミュレーテッド量子アニーリングなど複数の更新アルゴリズムの中から,最適なものを適応的に選択する。
    • ベンチマーク問題を用いた実験により,固定的なアプローチと比較して,収束性の向上と柔軟性が示された。

    Link: https://arxiv.org/abs/2606.19533

  • PerceptionDLM:マルチモーダル拡散言語モデルによる並列領域認識 [cs.CV, cs.AI, cs.CL]目的:マルチモーダル拡散言語モデルを用いた効率的な並列領域認識
    • 視覚理解は,画像や動画などの情報を解析し,その内容を理解する上で不可欠な技術である。
    • 既存のマルチモーダル大規模言語モデルは,自己回帰的生成に依存しており,複数領域のキャプション作成のような並列処理が苦手である。
    • 拡散言語モデルの並列処理能力を活用し,複数領域の認識効率を向上させる。
    • PerceptionDLMは,既存のアプローチと比較して,複数領域の認識タスクにおいて大幅な高速化を実現した。
    • 新しいベンチマークであるParaDLC-Benchを用いて,キャプションの品質と推論効率の両方を評価し,DLMの並列処理能力を検証した。
    • 拡散言語モデルの利点を活かすことで,並列領域キャプションと認識を初めて実現した。

    Link: https://arxiv.org/abs/2606.19534

  • FloatDoor:LLMにおけるプラットフォーム起動型バックドア [cs.CR, cs.LG]目的:LLMのプラットフォーム依存性に着目した,入力に依存しないプラットフォーム起動型バックドア攻撃
    • LLMはソフトウェア開発等の重要な場面で利用され,出力が直接成果物に影響を与える。
    • 浮動小数点演算やカーネル実装の差異により,LLMの出力がプラットフォームによって変動する。
    • プラットフォーム依存性を悪用し,特定のプラットフォームでのみ悪意のある動作を誘発する。
    • FloatDoorは,2つの軽量なLoRAアダプターを用いて,プラットフォーム間の数値的な差異を増幅し,それを悪意のあるタスクに結びつける。
    • Qwen3-4Bを用いてNVIDIA GPU,Google TPU等様々なプラットフォームでFloatDoorを検証した結果,安定的にバックドア攻撃を誘発できることを示した。
    • FloatDoorは,プラットフォームに依存した脆弱性を誘発し,LLMを搭載したアプリケーションのサプライチェーンにおける信頼性の確保の必要性を示唆する。

    Link: https://arxiv.org/abs/2606.19535

  • ITNet:畳み込み,注意機構,再帰を包含する学習可能な積分変換 [cs.MA, cs.DC, cs.AI, cs.LG]目的:畳み込み,注意機構,再帰を統一的に表現する学習可能な積分変換モデルの提案
    • 深層学習モデルの多様性は,信号処理の根本的な違いを示すものではなく,不完全な理解に基づいている。
    • 畳み込み,再帰,Transformerはそれぞれ異なる誘導バイアスを持つため,数学的に分離されている。
    • これらのアーキテクチャを単一の積分変換として表現することで,汎用性と効率性を高める。
    • ITNetは,畳み込み,自己注意機構,自己回帰再帰といった既存のアーキテクチャを特殊なケースとして再現できる。
    • 効率的な計算のため,タイリングされたカーネル融合,重要度加重モンテカルロ積分,学習された低ランク因数分解を開発した。
    • ImageNet-1K,GLUE,ModelNet40,VQA\,v2,NLVR2などのタスクで,ITNetは専門的なベースラインと同等またはそれ以上の性能を示した。

    Link: https://arxiv.org/abs/2606.19538

  • 大規模言語モデルにおける表現力ダイナミクスの持続ホモロジーによる追跡 [cs.LG]目的:大規模言語モデルのファインチューニング中の内部表現変化の追跡
    • 言語モデルの性能向上は重要であり,そのメカニズム解明が不可欠である。
    • ファインチューニング中の表現変化はブラックボックスであり,理解が十分に進んでいない。
    • 表現変化のトポロジー的変化を捉え,言語モデルの学習メカニズムを解明する。
    • ファインチューニング初期段階で大部分のトポロジー的再編成が発生することが示された。
    • 異なるアラインメント目標が,識別可能なトポロジー軌跡を誘発することが明らかになった。
    • 持続ホモロジーは,行動指標だけでは捉えられない表現レベルの変化を明らかにする。

    Link: https://arxiv.org/abs/2606.19542

  • パラメータ効率的ファインチューニング更新の結合可能性予測 [cs.CL, cs.LG]目的:パラメータ効率的ファインチューニング更新の結合可能性
    • 大規模言語モデルの適応は重要だが,計算コストが高い。
    • 複数のアダプターを結合する際に,性能劣化が生じる場合がある。
    • アダプターの結合可能性を事前に予測し,効率的なモデル活用を目指す。
    • 本研究では,アダプターの結合可能性を訓練初期の信号から予測可能であることを示した。
    • 提案手法MergeProbeは,既存手法と比較して高い性能と低いオーバーヘッドを実現した。
    • LoRAの結合を事後工程から予測的測定問題へと転換する可能性を示唆する。

    Link: https://arxiv.org/abs/2606.19549

  • 量子化されたLLM展開における忠実度指標の評価:ずれは方向性ではない [cs.CL, cs.RO, cs.CE, cs.LG, cs.CL]目的:量子化LLM展開における忠実度指標の妥当性検証
    • LLMの量子化は,計算コスト削減と効率化に不可欠であり,幅広い応用を可能にする。
    • 量子化LLMの性能評価には,コストのかかるベンチマークの代替として忠実度指標が用いられることが多いが,その妥当性は十分に検証されていない。
    • 本研究は,量子化LLMの忠実度指標とベンチマークスコアとの関係を詳細に分析し,指標の信頼性を評価することを目的とする。
    • Qwen3.6-35B-A3BおよびDevstral-Small-2-24Bの量子化モデル群において,KLダイバージェンス(KLD)とベンチマークスコアに強い負の相関が認められた。
    • しかし,性能劣化が少ない領域(silent zone)では,KLDとベンチマークスコアの相関は消失し,指標としての有効性が低下した。
    • KLDは,参照モデルとのずれの大きさは測れるものの,ずれの方向性を示すには不十分であり,タスクによって評価結果が変動する。

    Link: https://arxiv.org/abs/2606.19558

  • LLMエージェントにおける明確化要求のための不確実性分解 [cs.AI, cs.CL]目的:LLMエージェントにおける明確化要求を可能にする不確実性の分解
    • 対話型LLMエージェントの能力向上には,不確実性の適切な表現が不可欠である。
    • 従来の不確実性フレームワークでは,曖昧なタスク仕様に対応できないという課題があった。
    • 本研究は,プロンプトベースの分解により,曖昧なタスク仕様に対する明確化要求を可能にすることを目指す。
    • 提案手法は,WebShop-Clarificationベンチマークにおいて,ReAct+UEと比較して明確化F1スコアを大幅に改善した。
    • ALFWorld-Clarificationベンチマークにおいても,UAMと比較して明確化F1スコアの改善が見られた。
    • これらの結果は,提案手法が特定のLLMに依存せず,汎用的に有効であることを示唆する。

    Link: https://arxiv.org/abs/2606.19559

  • 流行予測のための時系列基盤モデルの主要特徴の理解 [cs.LG]目的:流行予測における時系列基盤モデルの特性解明
    • インフルエンザは公衆衛生上の重要な課題であり,正確な予測は対策の最適化に不可欠である。
    • 感染症の時系列データに対する現代的な予測モデルの比較評価が十分ではない。
    • インフルエンザ予測におけるモデル選択,事前学習戦略,補助信号の活用指針を提示する。
    • 複数の事前学習済み予測モデルを組み合わせた混合エキスパートモデルが最も高い性能を示した。
    • 数値Transformerモデルは信頼性の高い予測を生成し,事前学習は長期予測において大きな効果を発揮する。
    • 入院情報は特定の状況下で予測精度を向上させ,多段階予測の頑健性を高める。

    Link: https://arxiv.org/abs/2606.19560

  • 結合流体流れと輸送に関する科学的機械学習の進展 [cs.RO, cs.SY, eess.SY, cs.LG, physics.flu-dyn]目的:結合流体流れと輸送現象のモデリング
    • 流体現象は,気象,海洋,環境など多岐にわたり,その理解は重要である。
    • 高精度なシミュレーションは計算コストが大きく,リアルタイム予測が困難である。
    • 計算コストを削減しつつ,高精度な近似を可能とする手法の開発。
    • 科学的機械学習(SciML)を用いて,効率的なサロゲートモデルの構築方法をレビューした。
    • PINNsや$\beta$-VAEsなどの非線形ニューラルネットワークアプローチの有効性を検証した。
    • 乱流や熱対流といった複雑な現象に対し,SciMLによる高速かつ高精度な近似が可能であることを示した。

    Link: https://arxiv.org/abs/2606.19562

  • 勾配差分に基づくグラフアンラーニング法:電気自動車充電ネットワークにおけるサイバー攻撃局所化 [eess.SY, cs.AI, cs.SY]目的:電気自動車充電ネットワークにおけるサイバー攻撃の局所化
    • 電力系統の安定運用には,サイバー攻撃からの防御が不可欠である。
    • データ共有とモデル再学習のコストが,プライバシー保護と攻撃局所化のトレードオフとなる。
    • データ削除要求に応じた効率的なモデル更新手法が求められている。
    • 提案手法GDGUは,既存の第二階微分に基づくアンラーニング法と同程度の局所化性能を達成する。
    • GDGUは,フルリトレーニングに近い忘却度を,リトレーニングより10〜12倍高速に実現する。
    • GDGUは,第二階微分に基づくベースラインよりもメモリ使用量を大幅に削減する。

    Link: https://arxiv.org/abs/2606.19566

  • 音響銃声分類のための特徴抽出技術パラメータの探求 [cs.SD, cs.AI]目的:音響銃声分類における特徴抽出技術の最適パラメータ
    • 銃声検知技術は,公共の安全,軍事作戦,野生動物保護など多岐にわたる分野で重要である。
    • 既存の銃声検知システムの効果にばらつきがあり,現実的なデータへの汎化が課題となっている。
    • 本研究は,銃声分類の精度向上を目指し,特徴抽出技術のパラメータ最適化に取り組む。
    • 適切な特徴抽出技術を用いることで,トップ1精度が最大20%向上することが示された。
    • さらに,特定の技術に最適なパラメータを用いることで,精度向上が最大4.7%認められた。
    • 本研究は,銃声分類における特徴抽出の重要性とその最適化の可能性を示唆する。

    Link: https://arxiv.org/abs/2606.19568

  • 最高密度領域を用いた不確実性定量化の探求 [cs.LG]目的:確率的機械学習における信頼性のある意思決定のための不確実性定量化
    • 安全性が重要なアプリケーションでは,信頼性の高い意思決定に不確実性定量化が不可欠である。
    • 従来の不確実性定量化手法は,点ごとの予測リスクに依存しており,条件付き期待値以外の統計量に対して直感に反する結果を招く場合がある。
    • 分布のサポートにおける最も確率の高い部分集合の体積を通じて不確実性を特徴づける新たな手法を提案し,解決を目指す。
    • 提案手法QUESTは,分布のピークにおける Lebesgue測度の集中度に基づき,ロバストネスパラメータαを用いて不確実性を定量化する。
    • QUESTは,分布の広がりに対する単調性や位置シフトに対する不変性など,不確実性定量化の公理を満たし,従来のProper scoring ruleに基づく手法とは異なる。
    • 選択的予測ベンチマークにおいて,QUESTは分散や微分エントロピーといった標準的な指標と比較して良好な性能を示すことが確認された。

    Link: https://arxiv.org/abs/2606.19569

  • FlowFake:オーディオディープフェイク検出のための流体ネットワーク [cs.HC, cs.DB, cs.DC, cs.SD, cs.AI]目的:オーディオディープフェイクの検出
    • 音声合成技術の発展により,ディープフェイクの脅威が増大しており,セキュリティ上の懸念が高まっている。
    • 既存のディープフェイク検出器は,学習データと異なる合成手法に対して汎化性能が低いという課題がある。
    • 異なるデータセット間での汎化性能を高め,様々なディープフェイクに対応できる検出器を開発すること。
    • FlowFakeは,学習済みODEを用いた流体時間定数(LTC)アーキテクチャを採用し,わずか34Kパラメータで安定性と高精度を実現した。
    • 4つのデータセットを用いたクロスドメインベンチマークにおいて,他の手法を凌駕する性能を示し,特に少ないパラメータ数で高い性能を発揮した。
    • ASVspoof2019をFakeOrRealのみで学習した場合,75.29%の精度を達成し,MLAADのみで学習した場合も79.97%の精度を達成した。

    Link: https://arxiv.org/abs/2606.19579

  • LLM-ソルバー連携におけるナレーションギャップの分析 [cs.RO, cs.AI, cs.CR, cs.LO]目的:LLMとソルバーの連携におけるナレーション段階の課題と対策
    • 安全性・セキュリティが重要な問いに対し,論理形式化による形式手法の活用が重要視されている。
    • LLMとソルバーの連携において,ナレーション段階での堅牢性に課題があり,悪意のある入力に脆弱である。
    • LLM-ソルバー連携におけるナレーションギャップを特定し,その対策を検討することで,より安全な推論システムを構築する。
    • LLM-ソルバー連携を検証可能な意思決定手続きとしてモデル化し,ナレーション段階の脆弱性を明らかにした。
    • プロンプトインジェクション攻撃に対する脆弱性を検証し,証明書ゲートがソルバーの検証結果の信頼性を高めることを確認した。
    • 堅牢なプロンプトの使用や適応的な攻撃に対する軽減策を検討したが,完全な防御は困難であることが示された。

    Link: https://arxiv.org/abs/2606.19588

  • 階層的戦略を用いたBARTに基づくベトナム語抽出型複数ドキュメント要約 [cs.RO, cs.SY, eess.SY, cs.CL, cs.AI]目的:ベトナム語抽出型複数ドキュメント要約手法
    • 情報過多な現代において,効率的な情報集約手段である要約技術の重要性が高まっている。
    • ベトナム語の複数ドキュメント要約においては,十分な学習データや高性能なモデルが不足している。
    • ベトナム語複数ドキュメント要約の性能向上と,学習データ不足の解消を目指している。
    • 本研究では,BARTを基盤とし,階層的な戦略を用いることで,ベトナム語の複数ドキュメント要約を実現した。
    • 提案手法は,VLSP 2022の公開テストセットにおいてROUGE2-F1スコア0.2468を達成し,流暢かつ簡潔な要約を生成できることを示した。
    • また,外部データソースを活用することで,ベトナム語複数ドキュメント要約の学習データ量を大幅に増加させ,公開した。

    Link: https://arxiv.org/abs/2606.19591

  • 教師なし因果的抽象化の発見 [cs.LG]目的:因果的抽象化の学習
    • 因果推論は,科学的発見や意思決定において重要な役割を果たす分野である。
    • 従来の因果モデルの学習は,専門家による仮説検証に依存しており,自動化が課題であった。
    • 低レベルの測定から直接的に高レベルの因果モデルを学習することを目指す。
    • 低ランクの因果探索の仮説を活用し,観測データから因果的抽象化を形成する潜在変数を導出できることを示した。
    • これらの潜在変数の識別可能性に関する結果を得た。
    • 高レベルのSCMを学習するための実用的な目的関数を提案した。

    Link: https://arxiv.org/abs/2606.19594

  • IHBench:音声エージェントにおける中断からの復帰評価 [cs.LG, cs.AI]目的:音声エージェントの中断処理能力の評価
    • 顧客サービス等で利用が増加しており,中断耐性向上は重要課題である。
    • 既存の評価指標では,中断後の状態復帰の質が十分に測られていない。
    • 中断からの適切な復帰能力を定量的に評価し,改善に繋げる。
    • IHBenchは,10種類の企業向けドメインで,状態遷移型のワークフローを実行する音声エージェントの中断処理能力を評価するベンチマークである。
    • OpenAI,Google等のモデル27種類を評価した結果,クローズドウェイトモデルの方がオープンウェイトモデルよりも中断に強く,タスク遂行率が高いことが示された。
    • LLMによる評価と人間による評価との比較により,IHBenchの評価指標の妥当性が確認された。

    Link: https://arxiv.org/abs/2606.19595

  • PrefSQA:音声品質評価のためのペアワイズ選好予測と高品質データセットの重要性 [cs.SD, cs.AI, cs.LG]目的:音声品質評価のためのペアワイズ選好予測手法
    • 音声品質評価は,通信システムや音声処理技術の性能向上に不可欠である。
    • 主観評価であるMOSは,評価者によるばらつきや聴取条件の違いの影響を受けやすい。
    • より安定した評価を実現するため,ペアワイズ比較による選好予測を目指す。
    • 提案手法PrefSQAは,不確実性を考慮したロジット,インペアメントアテンションヘッド,非マッチング参照比較モジュールを導入した。
    • MOSから派生したデータセットでは小幅な改善が見られたが,高品質な選好データセットにおいては,ベースラインを上回る明確な改善が確認された。
    • 本研究は,高品質な選好データの重要性と提案手法の有効性を示唆している。

    Link: https://arxiv.org/abs/2606.19597

  • エージェント型RAGによる設定可能な臨床情報抽出:有効性,課題,そしてその理由 [cs.RO, eess.SY, cs.SY, econ.EM, cs.AI]目的:臨床情報の抽出における設定可能性の評価
    • 医療現場では大量の患者データが存在し,その活用が求められている。
    • 従来の情報抽出手法では,患者データの複雑さとメタデータの欠如が課題となっていた。
    • 本研究は,エージェント型RAGを用いて,より正確かつ検証可能な臨床情報抽出を実現する。
    • エージェント型臨床情報抽出(ACIE)パイプラインを導入し,完全な患者情報に基づいて回答を生成。
    • 抽出された情報の臨床医による検証の結果,96.5%の精度で受け入れられた。
    • タイプごとの受け入れ率は80%から99%であり,高い信頼性が確認された。

    Link: https://arxiv.org/abs/2606.19602

  • 線形プローブの比較におけるマハラノビスコサイン類似度 [cs.LG]目的:線形プローブ比較の理論的根拠と有効性
    • 機械学習モデルの解釈可能性向上は,信頼性向上の鍵となるため重要である。
    • 線形プローブの比較にはコサイン類似度が用いられるが,タスクへの依存性が課題であった。
    • マハラノビスコサイン類似度を用いて,線形プローブ比較の理論的根拠を確立し,実証する。
    • マハラノビスコサイン類似度は,分布外データに対する線形プローブの性能を予測する上で,高い線形相関を示す。
    • この線形性は,プローブの信号対雑音比と分布外AUROCがともにシグモイド関数として表現されることに起因する。
    • 理論的予測に基づき,マハラノビスコサイン類似度がユークリッドコサイン類似度よりも有効であることを検証した。

    Link: https://arxiv.org/abs/2606.19603

  • FAPO:多段階LLMパイプラインの完全自動プロンプト最適化 [cs.SE, cs.AI]目的:多段階LLMパイプラインの最適化
    • LLMの性能向上は,より複雑なタスクへの応用を可能にし,AIの可能性を広げる上で重要である。
    • 多段階LLMパイプラインでは,各ステップ間の相互作用が複雑であり,ボトルネックの特定が困難である。
    • プロンプトのみの最適化では改善が難しいパイプラインの構造的ボトルネックを,自動的に特定・修正すること。
    • FAPOは,6つのベンチマークと3つのタスクモデルにおいて,ベースラインのGEPAを18回の比較のうち15回で上回った。
    • FAPOは,プロンプト最適化が不十分な場合に,構造変更を行うことで,特にHoVerとIFBenchで顕著な性能向上を示した。
    • セキュリティタスクCTIBench-RCMにおいて,FAPOはGPT-5などのモデルでテスト精度を大幅に向上させた。

    Link: https://arxiv.org/abs/2606.19605

  • LLMのポストトレーニングにおいて,比較すべきペアの選択 [cs.AI, stat.AP]目的:LLMのポストトレーニングにおける比較ペア選択戦略
    • LLMの性能向上には,人間のフィードバックに基づく学習が不可欠である。
    • 比較ペアのラベル付けコストが高いことが,効率的な学習の課題となる。
    • ラベル付け予算内で,最も有益な比較ペアを選択することを目指す。
    • 比較ペアの選択が,DPO学習後のLLMの性能に影響を与えることが明らかになった。
    • 比較ペア選択における情報行列が,パラメータ推定誤差とポリシーの最適性に関連することが示された。
    • 提案手法は,既存のヒューリスティックと比較して,サンプル効率を向上させる。

    Link: https://arxiv.org/abs/2606.19607

  • Lie括弧幾何による潜在交絡因子の因果発見 [cs.LG, cs.AI]目的:潜在交絡因子の存在下における因果構造の発見
    • 因果推論は,科学的発見や意思決定において不可欠であり,その重要性はますます高まっている。
    • 潜在交絡因子は因果推論の正確性を損なう主要な問題であり,その特定は困難である。
    • 介入フローの幾何学的な構造から潜在的な構造を直接推論する新たなパラダイムを提示する。
    • 提案手法BRIDGEは,介入密度と幾何学的スクリーニングを組み合わせ,潜在的な交絡因子候補を効率的に特定する。
    • SKFMは,介入場を学習し,潜在的な曲率をスペクトル的に分解することで,BRIDGEが示す直接的な終点へと向かうフローを明らかにする。
    • 実験結果は,提案手法が潜在交絡因子を持つ因果モデルを発見し,DAG探索空間を大幅に削減できることを示す。

    Link: https://arxiv.org/abs/2606.19610

  • StaminaBench: 100回のインタラクションターンにおけるコーディングエージェントのストレステスト [cs.SE, cs.AI]目的:コーディングエージェントの持続力評価
    • ソフトウェア開発において,反復的な変更要求は不可避であり,エージェントの長期的な安定性が重要である。
    • 従来のタスク解決率では,実際の開発における複数回の修正サイクルを捉えきれない。
    • 複数回のインタラクションターンにわたるコーディングエージェントの性能を評価し,課題を特定すること。
    • テストの結果,全てのモデルが5~6ターン以内に失敗しており,テストなしの反復開発はバグを生みやすいことが確認された。
    • エージェントへのテストフィードバックと再試行の許可により,成功ターン数が最大12倍に向上した。
    • エージェントの性能は,使用するフレームワークに大きく依存し,高性能モデルでは最大6倍の差が見られた。

    Link: https://arxiv.org/abs/2606.19613

  • プルリクエスト以前: マルチエージェント協調のマイニング [cs.SE, cs.AI, cs.MA]目的:マルチエージェント協調における課題の特定と改善策の提案
    • 自動コーディングエージェントの利用拡大に伴い,その協調動作の最適化が重要になっている。
    • プルリクエストの受理率が低いという問題があり,その原因が協調プロセスの不備にあると考えられる。
    • エージェント間の作業の重複や競合を減らし,協調効率を向上させることを目指す。
    • 共有基盤griteの導入により,チームメイトの作業をやり直す割合が78%から0%に減少し,有用なスループットが3倍以上増加した。
    • ログは,競合編集,ロック飢餓,冗長な再発見など,プルリクエスト履歴では見えない具体的な障害モードを自動的に回復可能にする。
    • ログの全エージェント間でのコピーは,書き込みが失われることなく同じ状態に収束し,高い信頼性を示した。

    Link: https://arxiv.org/abs/2606.19616

  • GB-LSR:単一のグローバル帯域幅による高速ローカルスペクトル画像表現 - 連続再構成と超解像 [cs.CV, cs.GR, cs.LG]目的:連続画像再構成と超解像のための高速ローカルスペクトル画像表現
    • 画像処理における再構成と超解像は,高画質化や情報復元に不可欠な技術である。
    • 既存手法は計算コストが高く,リアルタイム処理や大規模画像への適用が困難な場合がある。
    • 単一のグローバル帯域幅で効率的な再構成と超解像を実現し,計算コストを削減することを目指す。
    • 提案手法GB-LSRは,Kodak,Set14,Urban100の標準ベンチマークにおいて,既存手法よりも2.8-3.6dB高いPSNRと0.11-0.15低いLPIPSを達成した。
    • GB-LSRは,最速のベースラインよりも約4分の1の推論コストで動作し,高速性と高画質を両立した。
    • 超解像タスクにおいても,LIIF-RDNやLTE-SwinIRと比較して,1.44倍から3.25倍の高速化を実現した。

    Link: https://arxiv.org/abs/2606.19617

  • SEAGAN:動的植物プロセスにおけるドメイン特化・エッジ認識グラフ注意ネットワーク [cs.LG]目的:植物生理におけるA-Ci曲線上の生化学的制限状態の識別
    • 植物生理学研究は,食糧生産の効率化や気候変動への適応に不可欠であり,その重要性は高い。
    • A-Ci曲線解析において,各点における制限状態の正確な特定が困難であり,モデルの精度を制限している。
    • グラフニューラルネットワークを用いてA-Ci曲線上の制限状態を識別し,解析の精度向上を目指す。
    • 提案手法SEAGANは,グラフ構造と注意機構を活用し,既存手法と比較して高い識別性能を示した。
    • 特に,生化学的転移領域において識別性能が向上しており,複雑な植物生理プロセスの解析に有効である。
    • F1スコア0.857,正解率0.882を達成し,A-Ci曲線上の制限状態分析におけるグラフ表現の有効性を実証した。

    Link: https://arxiv.org/abs/2606.19623

  • AI駆動型分子発見における評価の落とし穴とその修正:MassSpecGymの活用事例 [cs.LG]目的:タンデム質量分析に基づいた分子発見のための機械学習モデル評価における問題点の特定と改善
    • 質量分析は,創薬や代謝研究において重要な役割を担う技術であり,その効率化が求められている。
    • 機械学習モデルの性能評価において,実験計画や評価方法の不備が,信頼性の低い結果を生み出す可能性がある。
    • 本研究は,MassSpecGymベンチマークを用いて,既存研究における評価の問題点を明らかにし,改善策を提案する。
    • MassSpecGymのベンチマーク結果を報告した26論文中,17論文に評価上の問題点が見つかった。
    • データ漏洩,ショートカット学習,実装上のバグと指標の乖離という3つの主要な問題点が特定された。
    • 問題点を修正したMassSpecGym v1.5を公開し,質量分析チャレンジや評価設定への一般化可能な提言を行った。

    Link: https://arxiv.org/abs/2606.19624

  • 言語モデルにおける社会的推論の起源:能力の帰属源 [cs.CL, cs.LG]目的:言語モデルにおける社会的推論とSTEM推論を支える事前学習コーパスの領域の特定
    • 大規模言語モデルの能力理解は,その応用範囲拡大と安全性の確保に不可欠である。
    • 言語モデルの能力がどこから来るのか,そのメカニズムは未だ不明な点が多い。
    • モデルの推論能力が,特定のコーパス領域に依存している可能性を検証する。
    • 社会的推論とSTEM推論は,質的に異なるコーパス領域を参照していることが示された。
    • 特に,推論能力においては,その対比が知識レベルよりも明確であった。
    • 高い帰属度を持つトピックの除去が,対応するベンチマークの性能低下を引き起こすことで,因果関係の検証が行われた。

    Link: https://arxiv.org/abs/2606.19625

  • TOTEN:ブラジルポルトガル語における物理量と技術表記の知識ベースオントロジー・トークン化 [cs.AI, cs.CL]目的:物理量と技術表記の知識ベースオントロジー・トークン化
    • 科学技術文書の処理において,正確な物理量・単位の認識は不可欠である。
    • 従来のトークン化手法では,物理量や単位が不適切に分割され,意味が失われることがある。
    • 本研究は,オントロジーに基づいたトークン化により,物理量と技術表記の正確な認識を目指す。
    • TOTENは,統計的な方法ではなく,オントロジーに基づく分類を用いることで,物理量や単位の分割問題を解決する。
    • 実験結果から,TOTENは既存の最先端技術と比較して,単位のオントロジー原子性と数値再構成において高い性能を示すことが明らかになった。
    • 内部および外部の評価データセットにおいて,TOTENはQuantulum3などの既存手法を統計的に有意に上回る結果を達成した。

    Link: https://arxiv.org/abs/2606.19626

  • Eコマース動画フィードにおける極端なコールドスタート下でのマルチモーダル検索フレームワークVCG [cs.IR, cs.AI, cs.LG]目的:Eコマース動画フィードにおけるマルチモーダル検索フレームワーク
    • 動画コンテンツの活用が重要視される中,従来の検索手法では対応困難な課題が生じている。
    • 新着動画はインタラクション履歴が乏しく,協調フィルタリングが機能しにくいという課題がある。
    • 動画の視覚的特徴に基づいた検索により,コールドスタート問題を解決し,エンゲージメントを高める。
    • VCGは,CLIPに基づいたドメイン適応型ビジョン言語モデルを活用し,ユーザーと動画を共有セマンティック空間にマッピングする。
    • 生成モデルは属性予測に優れるが,検索タスクでは埋め込み空間が崩壊しやすいことが示された。
    • オンラインA/Bテストの結果,VCGはエンゲージメントバイアスを軽減し,動画の深い完了率を50%向上させた。

    Link: https://arxiv.org/abs/2606.19627

  • RIVET:堅牢なべき等な声の属性編集 [cs.SD, cs.AI, cs.LG]目的:声の属性編集におけるロバスト性の向上
    • 音声技術は,コミュニケーションやアクセシビリティにおいて重要な役割を担う。
    • 大規模データセットの属性アノテーションにはノイズが多く,編集の安定性を損なう。
    • ラベルノイズに対するロバスト性を高め,より安定した属性編集を実現すること。
    • RIVETは,べき等性を組み込んだ学習フレームワークであり,ラベルノイズに対するロバスト性を改善する。
    • 制御されたラベルノイズ下およびGLOBEデータセットにおいて,編集の成功率と話者IDの保持率が向上した。
    • べき等性は,声の属性編集モデルにおけるロバスト性を向上させる有効な手段であることが示された。

    Link: https://arxiv.org/abs/2606.19629

  • AI4SEとSE4AIの探求:10年を振り返り,展望する [cs.AI, cs.DL, cs.SY, eess.SY]目的:AIとシステム工学における研究動向の把握と将来課題の特定
    • システム工学の複雑性に対処するため,AI技術の活用が不可欠となっている。
    • AI技術のシステム工学への適用は発展途上であり,課題が山積している。
    • AIとシステム工学の融合における研究ギャップを特定し,実務者への指針を提供する。
    • 過去10年間のAIとシステム工学の研究を,基盤期,応用期,LLM転換期という3つの段階に分けて分析した。
    • INCOSE INSIGHTの記事とSERCの出版物を,人間の専門家とAIモデルを用いて評価し,5つの重要な研究ギャップを特定した。
    • AIの採用,保証,およびシステム工学における人材育成に関する実務者向けのガイダンスを提示した。

    Link: https://arxiv.org/abs/2606.19630

  • 学習されたマルチエージェント通信ポリシーの決定木蒸留による形式検証 [cs.RO, cs.AI, cs.LG, cs.LO, cs.MA]目的:学習されたマルチエージェント通信ポリシーの形式検証手法
    • ドローン群や自動運転車隊など,安全性が重要なロボット応用にMARLを適用するためには,安全性保証が不可欠である。
    • ニューラルポリシーは複雑であり,安全性に関する形式的な保証が不足している。そのため,安全性を検証することが困難である。
    • ニューラルポリシーを解釈可能な決定木に蒸留し,形式検証を行うことで,安全性の保証を提供する。
    • ニューラルポリシーを決定木に蒸留するパイプラインを構築し,97.9% +/- 1.2%の忠実度を達成した。
    • 決定木をPRISMで検証可能な形式に変換し,安全性,生存性,協調性に関する18の時系列論理特性を検証した。
    • 検証された安全性特性は元のニューラルポリシーにも転移し,衝突確率は0.3%であり,1%の閾値を下回った。

    Link: https://arxiv.org/abs/2606.19632

  • CTS-MoE: 混合エキスパートによる知覚型移動のための暗黙的な地形適応 [cs.RO, cs.AI]目的:不連続な地形における知覚型脚部移動のための地形適応メカニズム
    • 脚部ロボットの多様な環境下での自律移動を実現する上で,地形への適応能力は不可欠である。
    • 従来の単一の歩行パターンでは,急峻な地形変化への対応が難しく,ロバスト性に課題がある。
    • 知覚情報に基づいた地形適応により,多様な地形環境下での移動性能向上を目指す。
    • 提案手法CTS-MoEは,知覚情報に基づいたゲーティングと,タスク固有の価値関数を持つ多批判ネットワークを組み合わせる。
    • これにより,共有された行動の構成と価値干渉の防止を同時に実現し,高い専門性と汎化性能を両立する。
    • シミュレーションおよび実機実験の結果,CTS-MoEは従来のベースラインと比較して,追跡誤差の低減と成功率の向上を示した。

    Link: https://arxiv.org/abs/2606.19633

  • トークンファクトリ:大規模レコメンデーションモデルへの多様な信号の効率的な統合 [cs.IR, cs.AI, cs.LG]目的:大規模レコメンデーションモデルへの伝統的な信号の効率的かつ効果的な統合
    • レコメンデーションシステムは,情報過多な現代において,ユーザーに最適な情報を提供する上で不可欠である。
    • 従来の信号の統合は,プロンプトの長大化や計算コストの増大を招き,効率的な大規模モデルの構築を阻害している。
    • 多様な信号を効率的に圧縮し,大規模モデルの性能向上と計算コスト削減を目指す。
    • 提案手法「Token Factory」は,伝統的な信号を「ソフトトークン」に変換することで,効率的な統合と圧縮を実現する。
    • このアプローチにより,プロンプト長の爆発を防ぎつつ,モデル性能を向上させることが可能となる。
    • 実環境での実験結果は,Token Factoryの有効性を実証している。

    Link: https://arxiv.org/abs/2606.19635

  • 困難度推定におけるサンプリングの盲点を診断:難しいのか,単に到達不能なのか [cs.LG, cs.AI]目的:数学的推論問題の困難度推定におけるサンプリングの盲点
    • 数学・科学の推論ベンチマークは,モデルの能力評価に不可欠である。
    • pass@kは一般的な困難度指標だが,特に難しい問題に対して盲点が存在する可能性がある。
    • サンプリングで解けない問題が,異なる手法で解ける場合があることを示す。
    • 検証の結果,pass@kが0%の問題群において,決定論的な手法で一定の割合(10.3-22.9%)が解けることが判明した。
    • 特に,活性化グラフティングと呼ばれる手法を用いることで,貪欲法のみでは解けない問題の多くを解決できることが示された。
    • この結果は,pass@kが0%と判断された問題群が,モデルの内部表現に構造的に存在していることを示唆している。

    Link: https://arxiv.org/abs/2606.19636