arXiv雑要約

AI - 2026/04/21 公開

  • HiP-LoRA:堅牢な低ランク適応のための予算化されたスペクトル可塑性 [cs.LG, cs.CL]目的:低ランク適応におけるスペクトル干渉の軽減と,事前学習能力の維持
    • 大規模言語モデルの適応は重要であり,計算資源の制約下でも効率的に行える手法が求められている。
    • LoRA等のPEFT手法は干渉を起こしやすく,汎化性能の低下や知識の忘却,アダプターの統合失敗が生じやすい。
    • HiP-LoRAは,スペクトル情報を活用することで,これらの干渉を抑制し,事前学習能力を維持しながら適応を可能とする。
    • HiP-LoRAは,事前学習された重みの特異値分解を利用し,更新を主要チャネルと残差低ランクチャネルに分解する。
    • 主要チャネルには特異値重み付けの安定性予算を設け,事前学習された振る舞いの維持とタスク固有の可塑性のバランスを取る。
    • 実験により,HiP-LoRAは継続学習や知識編集といった干渉に敏感なタスクにおいて,既存手法を大幅に上回る性能を示すことが確認された。

    Link: https://arxiv.org/abs/2604.17751

  • より良いLoRAマージのための進化型ネガティブモジュール剪定 [cs.AI, cs.CL, cs.CV]目的:LoRAマージにおける性能向上
    • 大規模言語モデルの効率的なマルチタスク展開が重要視されている。
    • LoRAをマージする際,干渉が性能低下の要因となる場合がある。
    • マージを阻害する「ネガティブモジュール」の特定と除去を目指す。
    • 提案手法ENMPは,既存のマージアルゴリズムの性能を安定的に向上させる。
    • 進化戦略を用いて,最適なモジュール剪定の構成を効率的に探索する。
    • 言語および画像処理の両分野において,最新技術の性能を上回る結果が得られた。

    Link: https://arxiv.org/abs/2604.17753

  • コミュニティ主導によるAI統合:カリフォルニア州ロサンゼルスにおける山火事リスク評価のための参加型AIリテラシーと説明可能性統合(PALEI)フレームワーク [cs.CY, cs.AI]目的:山火事リスク評価へのAI統合におけるコミュニティ主導型アプローチ
    • 気候変動により山火事が深刻化しており,都市部での対策が急務である。
    • 既存のリスクコミュニケーションは,理解しにくさや透明性の欠如により,住民の信頼を得られていない。
    • 住民の信頼を得るため,AIリテラシーと説明可能性を重視したフレームワークを開発・適用し,地域に根ざしたリスク情報を提供する。
    • 本研究で開発されたPALEIフレームワークは,AIリテラシーの向上,価値観の整合,参加型評価を重視している。
    • 早期の結果から,視覚的で地域に特化したリスクコミュニケーションに対する強い受容性,公平性に対する肯定的な認識,そして導入への関心が見られた。
    • 地域住民は,局所的な画像,分かりやすい説明,地域に特化した対策,不確実性の透明な伝達を求めていることが明らかになった。

    Link: https://arxiv.org/abs/2604.17755

  • 現実的なベンチマークにおけるLLMの失敗に関する解釈可能性分析:対照的な帰属 [cs.AI, cs.CL]目的:LLMの失敗分析のための対照的なLRPに基づく帰属手法の評価
    • LLMの性能向上は目覚ましいが,その判断根拠の解明は不可欠である。
    • 既存研究では,LLMの失敗事例の分析が短文や限定的な設定に偏っている。
    • 現実的なベンチマークを用いて,LLMの失敗原因を特定し,解釈可能性を向上させる。
    • 対照的なトークンレベル帰属は,特定の失敗事例において有益な情報を提供する可能性がある。
    • しかし,その適用範囲は限定的であり,現実的なLLMの失敗分析における限界も明らかになった。
    • 長文脈入力に対する効率的な帰属グラフ構築手法を開発し,層間での分析を可能にした。

    Link: https://arxiv.org/abs/2604.17761

  • LLM支援Webアプリケーション開発におけるセキュリティ研修の準実験的研究 [cs.CR, cs.LG]目的:LLM支援によるJava Spring Bootバックエンドの実装におけるセキュリティ品質の改善度
    • LLMの普及に伴い,開発者がセキュリティを考慮したコーディングを行う重要性が高まっている。
    • LLMは便利なツールだが,セキュリティ脆弱性を生み出す可能性があり,適切な研修が不可欠である。
    • LLM支援開発におけるセキュリティ研修の効果を定量的に評価し,改善策を提示すること。
    • 研修後と比較して,セキュリティ脆弱性の重み付きスコアが有意に減少した(p = 0.0059)。
    • 検証された脆弱性の総数は162から111へ(31.5%減),重み付き負担は432から267へ(38.2%減),重大な問題は24から5へ(79.2%減)と大幅に減少した。
    • 特に認可とオブジェクトアクセス,認証に関する脆弱性の減少が大きかった。セッションとブラウザの信頼境界に関する問題は変化が少なかった。

    Link: https://arxiv.org/abs/2604.17763

  • 視覚言語モデルが判断する際に視覚情報を無視する場合:情報量の偏りを暴く [cs.AI]目的:視覚言語モデルの自動評価における信頼性向上
    • 視覚言語モデルの性能評価は,その発展に不可欠であり,自動化の需要が高まっている。
    • 現在の視覚言語モデルを評価者として用いる場合,画像の内容を十分に考慮していない場合がある。
    • 情報量の多い回答を優先する偏りを軽減し,画像に基づいた正確性を重視する評価方法を確立する。
    • 提案手法BIRCHは,候補回答と画像内容の矛盾を修正することで,より正確な判断を促す。
    • BIRCHを用いることで,情報量の偏りが最大17%削減され,性能が最大9.8%向上した。
    • 現在の視覚言語モデルを評価者とするシステムの根本的な欠陥が明らかになり,より原理的な設計の必要性が示唆された。

    Link: https://arxiv.org/abs/2604.17768

  • 逆構成的AI:確率制限付きRLAIFによる制御可能な有害データ生成フレームワーク [cs.CL, cs.AI]目的:大規模言語モデルの安全性評価のための有害データ生成手法
    • 大規模言語モデルの安全性確保は重要であり,その評価には質の高いテストデータが不可欠である。
    • 既存手法では,有害データの体系的な生成が難しく,人間のアノテーションに依存している。
    • 本研究は,人間の介入なしに,多様かつ高品質な有害データを自動的に生成することを目的とする。
    • 逆構成的AI(R-CAI)フレームワークが,有害データの多次元的な生成に有効であることが示された。
    • 確率制限付き強化学習により,敵対的意図を維持しつつ,意味の一貫性が大幅に向上した(15%)。
    • R-CAIは,言語モデルの安全性評価のための自動化された有害データ生成フレームワークを提供する。

    Link: https://arxiv.org/abs/2604.17769

  • LLM-AUG:大規模言語モデルにおける文脈学習を用いたロバストなワイヤレスデータ拡張 [cs.LG]目的:ワイヤレス通信問題に対する深層学習におけるデータ不足の克服
    • 無線通信における深層学習応用の鍵はデータ量であり,ラベル付きRFデータの収集は困難を伴う。
    • 十分なラベル付きデータがない場合,深層学習モデルの性能は著しく低下する。
    • 大規模言語モデルを活用し,少ないデータでも効果的なデータ拡張を実現すること。
    • LLM-AUGは,変調分類と干渉分類において,従来のデータ拡張や深層生成モデルを凌駕する性能を示した。
    • わずか15%のラベル付きデータのみで,ほぼ教師データ同等の性能に近づくことが確認された。
    • LLM-AUGは分布シフトに対して高いロバスト性を示し,拡散ベースの拡張と比較して低いSNR値で29.4%の相対的な改善を達成した。

    Link: https://arxiv.org/abs/2604.17770

  • SPENCE:NL2SQLベンチマークにおける汚染を検出するための構文プローブ [cs.CL, cs.AI, cs.DB]目的:NL2SQLベンチマークにおける汚染の検出と定量化
    • 自然言語からSQLへの変換は,データベース操作の自動化に不可欠であり,その性能向上は重要な課題である。
    • 大規模言語モデルのNL2SQL性能は高いものの,ベンチマークデータ由来の汚染による過大評価の懸念がある。
    • ベンチマークデータへの学習漏洩の有無を構文的変化を用いたプローブによって検証し,信頼性の高い評価を目指す。
    • SPENCEは,テストクエリの構文変種を系統的に生成し,実行結果に基づいた評価を行うことで,汚染を検出する。
    • Spider等の古いベンチマークは,構文変化に敏感であり,学習漏洩の可能性が高いことが示された。
    • 一方,BIRD等の新しいベンチマークは,構文変化に対する感度が低く,汚染が少ないと考えられる。

    Link: https://arxiv.org/abs/2604.17771

  • プロンプト最適化がLLMエージェントにおける安定的なアルゴリズム共謀を可能にする [cs.AI]目的:LLMエージェントにおけるアルゴリズム共謀のリスクとそのメカニズム
    • 市場におけるLLMエージェントの利用拡大に伴い,健全な競争環境の維持が重要課題となっている。
    • 従来のプロンプト作成では,共謀行動の発生を抑制するための十分な対策が講じられていない。
    • プロンプト最適化がエージェントに自律的な共謀戦略を学習させ,市場への影響を調査すること。
    • プロンプト最適化を通じて,LLMエージェントが安定的な暗黙の共謀戦略を獲得することが示された。
    • 最適化された戦略は,テスト市場においても高い協調性を示し,汎用的な協調原理の発見を示唆している。
    • 進化後のプロンプト分析により,共有戦略を通じた体系的な協調メカニズムが明らかになった。

    Link: https://arxiv.org/abs/2604.17774

  • TeleEmbedBench:通信分野におけるRAGのためのマルチコーパス埋め込みベンチマーク [eess.SY, cs.SY, math.OC, math.PR, cs.LG]目的:通信分野におけるRAG(Retrieval-Augmented Generation)のための埋め込みモデルの評価基準
    • 通信技術は常に進化しており,最新の標準に適合したLLMの活用が不可欠である。
    • 汎用的なベンチマークでは,通信分野特有の専門用語や相互参照を適切に評価できない。
    • 通信分野に特化した埋め込みモデルの性能を客観的に評価し,RAGの精度向上に貢献する。
    • TeleEmbedBenchは,O-RAN Alliance仕様,3GPPリリース文書,srsRANコードベースの3つの異質なコーパスを含む大規模なベンチマークである。
    • LLMベースの埋め込みモデル(Qwen3,EmbeddingGemmaなど)は,従来のsentence-transformersよりも高い検索精度とロバスト性を示した。
    • タスク指示はソースコードに対しては性能を向上させるが,自然言語の仕様書に対しては逆効果になる場合があることが判明した。

    Link: https://arxiv.org/abs/2604.17778

  • 重要事項を忘却し,残りは保持する:情報的トークンの選択的アンラーニング [cs.CL, cs.AI, cs.LG]目的:大規模言語モデルにおける選択的アンラーニング手法
    • 大規模言語モデルの悪意ある振る舞いへの対策が重要視されているため。
    • トークンレベルの重要性を考慮しない一律的なアンラーニングは,モデルの有用性を不必要に低下させる。
    • 文脈情報やモデルの状態を考慮した,より効果的なトークン選択的アンラーニングを実現する。
    • 提案手法ETWは,予測分布のエントロピーをトークンの情報量を示す指標として利用する。
    • 情報的なトークンは高いエントロピー,構造的なトークンは低いエントロピーを示すという性質を利用する。
    • 既存手法と比較して,より効果的なアンラーニングとモデルの有用性維持を両立した。

    Link: https://arxiv.org/abs/2604.17785

  • アンカーリファイン:軌道アンカーと残差リファインメントに基づくシナジー操作によるビジョン・言語・行動モデル [cs.RO, cs.AI]目的:ビジョン・言語・行動モデルにおける精密な操作の実現
    • ロボットの精密な操作は,生活や産業において重要であり,高度な自動化を可能とする。
    • 従来のモデルでは,大まかな動きが学習を支配し,細かい修正が抑制されるという課題があった。
    • 軌道アンカーと残差リファインメントにより,大局的な計画と局所的な調整を分離し,精密な操作を可能にすること。
    • 提案手法AnchorRefineは,回帰ベースおよび拡散ベースのVLAモデルの両方の性能を向上させることが示された。
    • シミュレーション環境では最大7.8%,実機環境では最大18%の成功率向上を達成した。
    • AnchorRefineは,ロボットの操作精度と成功率を高める有効な手法であることが確認された。

    Link: https://arxiv.org/abs/2604.17787

  • DuQuant++:微細回転がFP4量子化のマイクロスケール化を強化 [cs.CV, cs.AI, cs.CL]目的:LLM推論における効率的なFP4量子化の性能向上
    • 大規模言語モデル(LLM)の推論速度向上は,計算資源の制約下で不可欠である。
    • FP4量子化における外れ値は,ブロック全体のスケールを歪ませ,量子化誤差を増大させる。
    • 外れ値に特化した微細回転により,FP4量子化の精度低下を抑制する。
    • DuQuant++は,MXFP4形式に特化した外れ値対応微細回転を提案し,オンライン回転コストを半減させた。
    • DuQuant++は,LLaMA-3ファミリーを用いた実験において,最先端の性能を達成した。
    • 従来の回転手法と比較し,DuQuant++はより滑らかな重み分布を実現した。

    Link: https://arxiv.org/abs/2604.17789

  • 小規模言語モデルによるテスト時スケーリングを通じたベトナム語の推論能力ギャップの解消 [cs.CL, cs.AI]目的:ベトナム語初等数学における小規模言語モデルの推論能力向上
    • ユビキタスAIの民主化には,リソース制約のあるデバイスでの高度な推論能力の展開が不可欠である。
    • 小規模言語モデルは,特にベトナム語のような非英語言語において,一貫性のある思考連鎖を維持するのが難しいという「推論能力ギャップ」に直面している。
    • 本研究は,小規模言語モデルにおける形式化のギャップを解消し,生の計算と教育的整合性の間の橋渡しを目指す。
    • Qwen3-1.7Bアーキテクチャを基盤モデルとして用いた結果,潜在的な知識は高いものの,コミュニケーションにおける形式化に課題があることが判明した。
    • 教師ありファインチューニング(SFT)は「推論能力アンロック」として機能し,説明の質を77%向上させ,計算と教育的整合性のギャップを縮小した。
    • プロンプト戦略の分析から,ReActのような構造化されたフレームワークは1.7Bパラメータの容量に「認知負荷」をかけ,純粋なChain-of-Thought(CoT)と自己整合性よりも性能を低下させることが明らかになった。

    Link: https://arxiv.org/abs/2604.17794

  • 敵対的アリーナ:インタラクティブな競争を通じたデータ生成 [cs.AI, cs.LG]目的:高品質な対話型データセットの構築
    • 大規模言語モデルの性能向上には多様で高品質なデータが不可欠である。
    • 既存のデータ収集方法では,品質と多様性の両立が困難である。
    • 敵対的競争を通じて,多様かつ複雑な対話データを効率的に生成すること。
    • 敵対的アリーナを用いて,19,683件の多岐にわたる対話データを生成することに成功した。
    • 生成されたデータセットでファインチューニングした結果,CyberSecEval-Instructで18.47%の性能向上が見られた。
    • 同様に,CyberSecEval-MITREにおいても29.42%の性能向上が確認された。

    Link: https://arxiv.org/abs/2604.17803

  • 戦略的なペアごとのデータ摂動によるランキング操作 [cs.LG, cs.AI, cs.GT]目的:MLEに基づくランキングシステムの操作可能性の評価
    • 集団的意思決定において,ペア比較に基づくランキングシステムは広く利用されている。
    • ランキングシステムの戦略的なデータ操作に対する脆弱性が十分に解明されていない。
    • 限られた操作予算内で,ランキングを大きく変化させる戦略的摂動の特定を試みる。
    • MLEに基づくランキングは,わずかな摂動予算を超えると,ランキングが大きく変化する相転移現象を示す。
    • 提案手法であるASSAは,ランダムおよび貪欲なベースラインと比較して,制約された予算下で優れた性能を発揮する。
    • これらの結果は,MLEに基づくランキングメカニズムが構造化された摂動に対して根本的な感度を持つことを明らかにする。

    Link: https://arxiv.org/abs/2604.17805

  • 国境を越えたデータ移転に関する非契約的義務に適用される法律の決定における当事者自治 [cs.CY, cs.AI, cs.CR]目的:国境を越えたデータ移転における非契約的義務に適用される法律の決定における当事者自治
    • クラウドコンピューティングやAIの発展によりデータ移転が日常化し,法的責任の所在が国際的な問題となる。
    • 従来の私的国際法は物理的な場所の特定を前提としており,データが複数の国に分散する状況には対応が困難である。
    • 契約上の義務と非契約上の義務が混在するケースにおいて,当事者自治を通じて適用法を決定し,予測可能性を高める。
    • 本研究では,SaaSプロバイダーからIaaS/PaaSプロバイダーへの求償という典型的な状況を考慮している。
    • 非契約的義務の適用法を契約上の義務の選択法に合わせることで,物理的な場所の特定に関する問題を克服する。
    • 当事者自治に基づく「私的秩序」は,予測可能性の確保に貢献する。

    Link: https://arxiv.org/abs/2604.17806

  • コードLLMにおける秘密漏洩リスクの理解:トークン化の視点 [eess.SY, cs.SY, math.OC, cs.CR, cs.AI]目的:コードLLMにおける秘密情報の漏洩リスク
    • ソフトウェア開発において,秘密情報は重要な資産であり,その保護は不可欠である。
    • 近年,コードLLMの発展は著しいが,秘密情報の記憶現象による意図しない漏洩が問題となっている。
    • 本研究は,秘密情報の漏洩を引き起こすトークン化の偏りを明らかにし,対策を検討することを目的とする。
    • 本研究により,Byte-Pair Encoding (BPE)トークン化が「gibberish bias」と呼ばれる秘密情報の記憶の偏りを引き起こすことが示された。
    • 高エントロピーの秘密情報が,意外にもLLMによって容易に記憶されるという結果が得られた。
    • この偏りの根本原因は,LLMの学習データと秘密情報のトークン分布のずれにあることが示唆された。

    Link: https://arxiv.org/abs/2604.17814

  • LLMは全てを見る必要があるか?スクリーンテキスト対スクリーンショットを用いたLLM駆動型スマートフォン自動化における失敗のベンチマークと研究 [cs.HC, cs.AI, cs.MA]目的:LLM駆動型スマートフォン自動化における失敗の原因特定と改善
    • スマートフォン利用は不可欠であり,自動化技術の向上は生活の質向上に繋がる。
    • 既存のLLM駆動型エージェントは,精度が低く,複雑なタスクで失敗するケースが多い。
    • UIのアクセシビリティ,入力モダリティ,LLM/アプリ設計の課題解決を目指す。
    • DailyDroidベンチマークを用いて,GPT-4oとo4-miniの性能を評価した結果,テキストとスクリーンショットの組み合わせはわずかに高い成功率を示した。
    • 詳細な失敗分析から,UIアクセシビリティ,入力モダリティ,LLM/アプリ設計における共通の課題をまとめたハンドブックを作成した。
    • 本研究は,将来のモバイルエージェント,アプリケーション,UI開発に示唆を与える。

    Link: https://arxiv.org/abs/2604.17817

  • PDDL-Mind:大規模言語モデルは信頼性の高い状態追跡による信念推論が可能である [cs.CL, cs.AI]目的:心の理論タスクにおける信念推論の性能向上
    • 人間の認知能力を模倣するAI開発において,他者の心を理解する能力(心の理論)は不可欠である。
    • 既存の心の理論ベンチマークにおいて,大規模言語モデルは人間レベルに達していない。
    • 大規模言語モデルの推論能力を活かすため,状態追跡の信頼性向上を目指す。
    • PDDL-Mindは,物語記述をPDDLで表現し,状態遷移を検証することで,論理的に整合性のある世界状態を大規模言語モデルに提供する。
    • MMToM-QA,MuMA,FanToMの実験結果から,PDDL-Mindは既存の最先端手法と比較して,心の理論ベンチマーク問題で5%以上の絶対的な精度向上を達成した。
    • 大規模言語モデルの性能低下の原因は,高次の推論能力の限界ではなく,信頼性の低い状態追跡にあることが示唆された。

    Link: https://arxiv.org/abs/2604.17819

  • WebUncertainty:自律型Webエージェントのための二層不確実性駆動計画と推論 [cs.AI]目的:自律型Webエージェントにおける計画と推論
    • 大規模言語モデルの進展によりWebエージェントの能力が向上。複雑なWebタスクの自動化が期待される。
    • 既存エージェントは,動的な環境や長期的なタスク実行において,計画の柔軟性や推論の信頼性に課題がある。
    • 計画と推論における二層的不確実性に対処し,より堅牢なWebエージェントを実現すること。
    • 提案手法WebUncertaintyは,タスク不確実性に適応する計画メカニズムと,行動不確実性を考慮した探索メカニズムを導入した。
    • 行動不確実性の定量化により,探索効率が向上し,より確実な意思決定が可能となった。
    • WebArenaおよびWebVoyagerの評価において,最先端のベースラインと比較して優れた性能を達成した。

    Link: https://arxiv.org/abs/2604.17821

  • 分数時間周波数特徴抽出に基づく新しいLSTM音楽生成器 [cs.SD, cs.AI, cs.CL]目的:音楽生成のための新しいアプローチ
    • 音楽は人間の生活に不可欠であり,その自動生成は創造性の拡張に繋がる。
    • 既存の音楽生成システムは,生成される音楽の品質や多様性に課題がある。
    • 時間周波数分析とLSTMを組み合わせることで,高品質な音楽生成を目指す。
    • 提案システムは,分数フーリエ変換を用いて音楽のスペクトル特徴を抽出する。
    • 抽出された特徴に基づき,LSTMネットワークが新たな音楽を生成する。
    • 実験結果から,提案システムは人間が生成した音楽と同等の高品質な音楽を生成できることが示された。

    Link: https://arxiv.org/abs/2604.17823

  • 多義的な専門家,単義的な経路:MoEにおけるルーティングの制御 [cs.RO, cs.DC, cs.CY, cs.AI, cs.CL, cs.LG]目的:MoEモデルにおける隠れ状態の分解と,それによる経路の制御機構の解明
    • 大規模言語モデルの性能向上には,モデルの構造と制御メカニズムの理解が不可欠である。
    • MoEモデルにおいて,専門家の選択と情報の流れが複雑で,解釈が困難であるという課題がある。
    • 隠れ状態を制御信号と内容チャネルに分解することで,MoEモデルの経路の単義性を高め,解釈可能性を向上させる。
    • MoEモデルは,内容チャネルで表面的な特徴(言語,トークン,位置)を保持し,制御信号で抽象的な関数を符号化する。
    • ルーティング決定の低帯域幅性により,層間で構成的な専門化が促進され,専門家の経路は単義化する。
    • 解釈可能性の単位は専門家ではなく,制御空間における経路のクラスターであることが示唆された。

    Link: https://arxiv.org/abs/2604.17837

  • 非凸等式および不等式制約下におけるLandingによる効率的な拡散モデル [cs.LG, stat.CO, stat.ML]目的:制約付き集合における拡散モデルの効率化
    • 物理,幾何学,安全要件を伴う科学技術応用において,制約付き生成モデリングは不可欠である。
    • 非凸な実行可能集合上での制約付き拡散モデルは,計算コストが高く,実装が困難である。
    • 制約条件を効率的に満たしつつ,拡散モデルの計算コストを削減し,実用性とスケーラビリティを高める。
    • 提案手法は,高価な制約集合への投影を回避するLandingメカニズムにより,計算効率を向上させている。
    • 減衰力学を活用することで,事前分布への混合を加速し,制約付き拡散に伴う高コストを軽減している。
    • 等式制約および混合制約を含むベンチマークにおいて,最先端手法と同等のサンプル品質を維持しつつ,計算コストを大幅に削減している。

    Link: https://arxiv.org/abs/2604.17838

  • 政策・開発研究のためのキュレーションされた信頼性の高い生成AI:AVAからの初期の教訓 [cs.RO, cs.CL, cs.HC, cs.AI]目的:政策・開発研究における生成AIの活用可能性
    • 開発・政策分野では,質の高い情報に基づいた迅速な意思決定が重要である。
    • 汎用LLMは誤情報のリスクがあり,検証可能な根拠に基づいた出力を提供できない場合がある。
    • 信頼できる情報源に基づいたAIシステムの構築と,その効果検証。
    • AVAは,世界銀行の報告書を基盤とした生成AIプラットフォームであり,根拠に基づいた情報提供が可能である。
    • 実証実験の結果,AVAの利用により,週あたり2.4〜3.9時間の時間短縮が確認された。
    • AVAの「根拠に基づいた回答拒否」機能は,AIの適用範囲を明確にし,ユーザーの信頼獲得に貢献した。

    Link: https://arxiv.org/abs/2604.17843

  • 小児側弯症におけるMRIのみを用いた全脊椎椎骨セグメンテーションと3D再構築に対するAIアプローチ [cs.ET, cs.CV, cs.AI]目的:小児側弯症における全脊椎椎骨のセグメンテーションと3D再構築
    • 小児画像診断では放射線被曝を避けるためMRIが優先されるが,正確な3D再構築はCTに依存している。
    • MRIのみでの3D再構築は,手作業のワークフローやラベル付きデータの不足により,実用的ではない。
    • MRIのみから全脊椎の自動セグメンテーションと3D再構築を可能にし,放射線被曝を回避する。
    • AIフレームワークにより,MRIのみから自動的に胸腰椎(T1-L5)のセグメンテーションと3D再構築が可能になった。
    • セグメンテーションの精度は88%のDice係数を示し,処理時間は約1時間から1分未満に短縮された。
    • このアプローチは,放射線を使用せずに3Dでの変形評価を可能にし,臨床評価,手術計画,およびナビゲーションを支援する。

    Link: https://arxiv.org/abs/2604.17846

  • コンピュータ利用エージェントの信頼性について [cs.AI]目的:コンピュータ利用エージェントの信頼性の要因分析
    • 自動化技術の発展に伴い,エージェントの性能向上は重要である。
    • 同じタスクでも,エージェントの実行結果にばらつきが生じる場合がある。
    • エージェントの信頼性を高めるための課題特定と改善策の提案。
    • エージェントの信頼性は,タスクの記述方法とエージェントの行動変動の両方に依存することが示された。
    • タスクの曖昧さを解消するために,エージェントが対話を通じて解決する能力が重要となる。
    • 安定した戦略を採用することで,実行間での信頼性を高めることが期待される。

    Link: https://arxiv.org/abs/2604.17849

  • 局所的相互作用による構文の創発について [cs.CL, cs.AI, cs.LG]目的:算術式文法のメンバーシップ問題を学習したニューラルセルオートマトンの自己組織化
    • 言語処理において,人間の構文獲得能力のメカニズム解明は重要な課題である。
    • 従来の言語モデルは複雑であり,生物的な神経系における構文処理の再現が困難である。
    • 局所的相互作用のみで構文処理が創発的に出現するかどうかを検証する。
    • 訓練後,ニューラルセルオートマトンの内部グリッドがProto-CKYと呼ばれる秩序だった表現に自発的に自己組織化する。
    • Proto-CKYは,正則言語を超える表現力,訓練分布を超えた構造的汎化,文法構造との量的整合性を示す。
    • 異なる文法で独立して創発し,摂動後にも自発的に再生する。

    Link: https://arxiv.org/abs/2604.17857

  • M100:汎用AIコンピューティングを可能にするオーケストレーションされたデータフローアーキテクチャ [cs.DC, cs.OS, cs.LG, cs.AR]目的:汎用AIコンピューティングのための,高性能かつコスト効率の良いアーキテクチャ
    • 深層学習技術の発展に伴い,汎用的なAIコンピューティングアーキテクチャの需要が高まっている。
    • GPGPUは汎用性が高いが,効率とコスト面で課題があり,DSAは特定のタスクに特化しすぎている。
    • 自動運転,LLM,高度なヒューマンインタラクションなど,多様なAI推論タスクに対応するアーキテクチャを提案する。
    • M100はデータフロー並列アーキテクチャを採用し,コンパイラとアーキテクチャの協調設計により,計算とデータ移動を最適化する。
    • キャッシュを大幅に削減し,コンパイラとランタイムが管理するデータストリームを利用することで,効率性とスケーラビリティを向上させている。
    • 自動運転アプリケーションにおいて,GPGPUアーキテクチャと比較して高い利用率を示し,将来の汎用AIコンピューティングの有望な方向性を示す。

    Link: https://arxiv.org/abs/2604.17862

  • ハンドカーチフ紡績タスクにおける周期定常制御:平行アンチパラグラム腱駆動手首の活用 [cs.RO, cs.AI]目的:ハンドカーチフ紡績タスクにおける周期定常制御
    • 柔軟物体の操作は,伝統芸能や産業応用において重要であり,高度な制御技術が求められる。
    • 柔軟物体の非線形ダイナミクス,摩擦接触,境界制約により,精密な周期運動の実現が困難である。
    • タスクに特化した手首と制御指向モデリングを統合し,安定した紡績制御を実現する。
    • 直感的で器用な手首を設計し,90度の全方向回転と低慣性を実現した。
    • ハンドカーチフの制御指向抽象化のための粒子-バネモデルを開発し,戦略を評価した。
    • 実験により,約99%の展開率とRMSE = 2.88mmの指先追跡誤差を達成し,有効性を検証した。

    Link: https://arxiv.org/abs/2604.17863

  • 検索拡張生成のための潜在的抽象化 [cs.CL, cs.AI]目的:検索拡張生成における知識獲得と事実性の向上
    • 大規模言語モデルの性能向上が不可欠であり,外部知識の活用が重要視されている。
    • 既存手法は検索と生成を分離しており,言語モデルの表現力を十分に活用できていない。
    • 言語モデル内部で検索と生成を統合し,効率性と精度を向上させることを目指す。
    • 提案手法LAnRは,言語モデルの潜在空間内で検索と生成を統一的に行うことで,既存手法を上回る性能を実現した。
    • LAnRは,質問文の生成を回避し,隠れ状態から直接検索ベクトルを作成することで,効率的な推論を可能にした。
    • 回答トークンのエントロピーが検索の十分性を示すことを実証し,検索回数を削減する制御機構を導入した。

    Link: https://arxiv.org/abs/2604.17866

  • 組合せ最適化問題における多目的進化アルゴリズムのスケーラビリティについて [cs.CL, cs.HC, cs.NE]目的:組合せ最適化問題における多目的進化アルゴリズムのスケーラビリティの調査
    • 多目的最適化は,現実世界の複雑な問題を解決する上で不可欠な手法である。
    • 多目的組合せ最適化問題は,離散性と制約条件から,連続問題とは異なる難しさを持つ。
    • 大規模問題における多目的進化アルゴリズムの性能低下と,その原因を解明すること。
    • 問題規模が大きくなるにつれて,単純なアルゴリズムであるSEMOの収束速度が低下することが示された。
    • SEMOの性能低下は,交叉演算の欠如が主な原因であることが明らかになった。
    • SEMOに交叉演算を組み込むことで,大規模問題における収束が大幅に改善されることが示された。

    Link: https://arxiv.org/abs/2604.17872

  • 人間とAIの協調コーディングのスケーラビリティには,制御可能な合意層が不可欠 [cs.SE, cs.HC, cs.LG]目的:人間とAIの協調コーディングにおける合意形成のあり方
    • AIによるコーディング支援は開発効率を向上させるが,その過程の透明性が課題となっている。
    • 既存のAI支援開発では,システムの構造や依存関係が失われ,変更による影響の把握が困難である。
    • 合意層を介して構造的情報を明示化し,システムの透明性と堅牢性を高めることを目指す。
    • 本研究では,構造化された世界モデルである合意層を主要な成果物とし,コードはそこから派生させるアプローチを提案する。
    • エビデンスは合意層内の構造的記述に直接関連付けられ,全てのコミットメントの監査可能性と未定義部分の可視化を実現する。
    • 合意ベースのワークフローが,チャットベースラインと比較して人間の介入を減少させるかを測定するためのベンチマークタスクを提案する。

    Link: https://arxiv.org/abs/2604.17883

  • SPREG:エントロピー誘導型テスト時介入による構造化計画修復 [cs.AI]目的:大規模言語モデルの推論における論理的幻覚と確率的ドリフトの軽減
    • 大規模言語モデルは強力だが,複雑な推論過程で誤りを起こしやすく,その信頼性が課題である。
    • 従来のガイダンス手法は,意味の希薄化や言語表現の劣化を引き起こす可能性がある。
    • エントロピーの変化を監視し,計画に基づいた動的な修復を行うことで,より安定した推論を実現する。
    • SPREGは,推論過程におけるエントロピーの急増を論理的誤りの指標として検出し,適切なタイミングで修復を行う。
    • 構造化された推論段階に応じてガイダンスの強度を調整することで,モデルを安定した状態に導きながら流暢性を維持する。
    • AIME25における精度を20.0%絶対的に向上させ,複雑なタスクにおける制御不能なエントロピーのドリフトを効果的に抑制した。

    Link: https://arxiv.org/abs/2604.17884

  • クロスセッションにおける潜在的嗜好モデルを用いたパーソナライズされたツール呼び出し [cs.CL, cs.AI]目的:ツール呼び出しのパーソナライズ
    • LLMエージェントの普及に伴い,ユーザーの意図を正確に理解する重要性が増している。
    • ユーザーはリクエストにおいて重要な詳細を省略しがちで,ツール利用に必要な完全な引数が不足する。
    • ユーザーの過去の行動から嗜好を推測し,より適切なツール呼び出しを可能にすること。
    • MPTというベンチマークデータセットを構築し,3つの課題(嗜好の想起,誘導,転移)を網羅した。
    • PRefineという手法を提案し,履歴から再利用可能な制約を抽出し,ツール呼び出しの精度を向上させた。
    • PRefineは,完全履歴プロンプティングに必要なトークン数のわずか1.24%で同等の性能を発揮した。

    Link: https://arxiv.org/abs/2604.17886

  • LEPO:大規模言語モデルのための潜在的推論方針最適化 [cs.LG, cs.AI]目的:大規模言語モデルにおける潜在的推論の最適化
    • 大規模言語モデルの性能向上は,自然言語処理の進歩に不可欠である。
    • 潜在的推論は決定的な推論に陥りやすく,多様な推論経路の発見が困難である。
    • 潜在的推論における探索能力を回復させ,強化学習との親和性を高めることを目指す。
    • LEPOは,潜在表現と離散トークン両方に対して統一的な勾配推定を行う新しいフレームワークである。
    • ロールアウト段階では確率性を維持し,多様な軌跡サンプリングを可能にする。
    • 実験の結果,既存の強化学習手法と比較して,顕著な性能向上が確認された。

    Link: https://arxiv.org/abs/2604.17892

  • 明示的な物理的実現可能性はVLA学習に役立つか:実証研究 [cs.HC, cs.CL, cs.RO, cs.LG, cs.AI, cs.RO]目的:視覚言語行動モデルにおける物理的実現可能性の向上の検証
    • ロボットの行動学習において,視覚情報と言語情報を統合した学習が重要視されている。
    • 既存のVLA学習は,物理的な制約を明示的に考慮しておらず,実現不可能な行動を学習する可能性がある。
    • 物理的実現可能性を明示的に学習に取り込むことで,より信頼性の高いロボット行動の学習を目指す。
    • 明示的な物理的実現可能性の指導により,VLAポリシーの物理的信頼性と全体的なタスク性能が向上した。
    • 特に,データ量が少ない状況下での学習効率の改善が確認された。
    • これらの結果は,模倣学習ベースのVLA学習を補完する明示的な実現可能性シグナルの有効性を示唆する。

    Link: https://arxiv.org/abs/2604.17896

  • LoReC:グラフデータ解析のための大規模言語モデルの再考 [cs.LG, cs.AI]目的:グラフデータに対する大規模言語モデルの性能向上
    • グラフ構造データは,ソーシャルネットワークや知識グラフなど,様々な分野で重要性が増している。
    • 既存のGraphLLMでは,大規模言語モデルを直接利用しても,グラフ関連タスクの予測性能が十分でない。
    • 大規模言語モデルのグラフデータ処理能力を強化し,グラフ情報を適切に活用することを目指す。
    • LoReCは,LLMの注意機構をグラフに再配分し,グラフ情報をFFNに再注入,そして出力層を修正する。
    • 実験の結果,LoReCは既存のGraphLLM手法を上回り,GNNベースの手法と比較しても優れていることが示された。
    • LoReCは多様なデータセットで顕著な改善をもたらし,グラフデータ解析の新たな可能性を開く。

    Link: https://arxiv.org/abs/2604.17897

  • LLMの関連度スコアに基づくガウス過程を用いたベイジアン活性学習による密な文章検索 [eess.SY, cs.SY, cs.IR, cs.AI]目的:密な文章検索におけるLLM関連度スコアに基づくベイジアン活性学習フレームワーク
    • 文章検索は情報アクセスにおいて不可欠であり,効率的な検索手法が求められている。
    • 既存の密な検索器は,意味的に異なるクラスターからの関連文章の取得や,関連信号の伝播に課題がある。
    • LLMの関連度信号を効率的に活用し,より広範囲な文書群へ関連性を伝播させる。
    • 提案手法BAGELは,LLMの関連度スコアを用いてガウス過程を構築し,埋め込み空間全体における関連度分布をモデル化する。
    • BAGELは,高い確信度領域の活用と不確実な領域の探索を戦略的にバランスさせることで,効率的な文章選択を実現する。
    • 4つのベンチマークデータセットと2つのLLMバックボーンを用いた実験により,BAGELが既存手法を凌駕することが示された。

    Link: https://arxiv.org/abs/2604.17906

  • 物理情報に基づく因果マルコフ決定過程:エンジニアリングシミュレーションパイプラインにおける逐次制約修復 [cs.AI, cs.LG]目的:制約付きマルコフ決定過程における逐次制約修復
    • エンジニアリング分野では,シミュレーションの精度と効率が重要であり,制約を満たす最適化が不可欠である。
    • 大規模な二値状態空間を持つ制約付きMDPでは,因果関係の特定とサンプル効率の良い方策学習がトレードオフの関係にある。
    • ライフサイクル順序仮定のもとで,因果関係の特定,状態空間の圧縮,物理に基づいた推定を行うことで,制約修復の性能向上を目指す。
    • PI-CMDPは,TPSベンチマークにおいて,強力なベースラインと比較して5.4%高い修復成功率(76.2%)を達成した。
    • 全データ環境下では差は縮小するものの(83.4% vs 80.6%),カスケード故障率の大幅な低減も確認された。
    • 全ての改善は,5回の独立したシードで一貫しており,統計的有意差が認められた(paired t-test p < 0.02)。

    Link: https://arxiv.org/abs/2604.17910

  • 修正を学習する:複数試行Chain-of-Thoughtのための較正強化学習 [cs.LG, cs.AI]目的:複数試行Chain-of-Thoughtにおける問題解決の較正
    • 複雑な問題を解決するために,推論モデルの性能向上が求められている。
    • 試行ごとにフィードバックを得る場合,単純な重み付けでは勾配が偏る。
    • 試行レベルの報酬を適切に組み込み,勾配の偏りを軽減すること。
    • 提案手法CAL-GRPOは,従来のGRPOや単純な重み付けよりも優れた性能を示す。
    • 試行レベルの報酬が学習に与える影響に関する理論的知見が得られた。
    • 合成データおよび実データを用いた実験により,理論の妥当性が確認された。

    Link: https://arxiv.org/abs/2604.17912

  • フィッシャー装飾器:局所輸送写像によるフローポリシーの改良 [cs.LG, cs.RO]目的:フローポリシーの改良
    • オフライン強化学習の性能向上は,実世界における応用を可能にする上で重要である。
    • 既存のフローポリシーは,表現力,最適性,効率性のトレードオフに直面している。
    • 異方性を持つ行動ポリシー多様体を考慮した,より適切な最適化手法を確立する。
    • 本研究では,ポリシーの改良を局所輸送写像として定式化し,フィッシャー情報行列に基づく効率的な最適化を可能にした。
    • 既存手法の最適性ギャップは,等方的な近似に起因することが示された。
    • 多様なオフライン強化学習ベンチマークにおいて,最先端の性能を達成した。

    Link: https://arxiv.org/abs/2604.17919

  • SAR画像におけるゼロショット船舶インスタンスセグメンテーションのための基盤モデルのプロンプティング [cs.CV, cs.AI, cs.LG]目的:SAR画像におけるゼロショット船舶インスタンスセグメンテーションの実現
    • 海上監視においてSARは不可欠だが,深層学習の適用にはピクセルレベルのアノテーション不足が課題。
    • SAR画像に対する深層学習は,高コストなピクセルレベルのアノテーションがボトルネックになっている。
    • 汎用基盤モデルを活用し,アノテーション不要でSAR画像の船舶セグメンテーションを可能にすること。
    • SAR画像で学習済みの検出器による空間制約が,基盤モデルの予測を効果的に正則化できることを示した。
    • SSDDベンチマークにおいて,平均IoU 0.637(フルスーパーバイズドベースラインの89%)を達成した。
    • 船舶検出率は89.2%であり,スケーラブルかつアノテーション効率の良いSAR画像理解への道筋を示す。

    Link: https://arxiv.org/abs/2604.17920

  • 脳に触発されたキャプチャ:視覚デコーディングのための証拠に基づいた神経模倣知覚シミュレーション [cs.CV, cs.AI]目的:神経生理学的信号からの視覚デコーディング手法
    • 脳とコンピュータのインターフェースや計算神経科学において,視覚情報の解読は重要な課題である。
    • 従来の視覚デコーディング手法は,神経信号と視覚情報の間のギャップや,人間の視覚システムの計算メカニズムの無視といった課題を抱えている。
    • 人間の視覚システムを模倣した知覚シミュレーションにより,神経信号と視覚情報のギャップを埋め,よりロバストなデコーディングを目指す。
    • 提案手法であるBI-Capは,人間の視覚システムを模倣したパイプラインと,相互情報に基づく動的なぼかし調整により,視覚処理をシミュレートする。
    • また,神経活動の非定常性を軽減するために,証拠に基づいた潜在空間表現を導入し,不確実性を明示的にモデル化することで,ロバストな神経埋め込みを実現する。
    • 公開ベンチマークを用いた実験の結果,BI-Capは最先端の手法と比較して,それぞれ9.2%と8.0%の相対的な性能向上を達成した。

    Link: https://arxiv.org/abs/2604.17927

  • エントロピー崩壊の緩和:ハイブリッドドメインエントロピーダイナミクスアラインメントによる少サンプル強化学習報酬最適化の探索力向上 [cs.LG, cs.AI]目的:少サンプル強化学習報酬最適化における探索力向上
    • 大規模言語モデルの推論能力向上に,報酬検証付き強化学習が有効である。
    • 少サンプル環境下では,エントロピー崩壊が深刻化し,探索と推論性能を低下させる。
    • 汎用ドメインデータ活用とエントロピーダイナミクスアラインメントにより,エントロピー崩壊を抑制し探索力を高める。
    • 提案手法HEALは,少サンプル強化学習報酬最適化において,一貫して性能向上を示す。
    • わずか32サンプルで,1000サンプルで訓練されたフルショット強化学習と同等またはそれ以上の性能を達成した。
    • 汎用ドメインデータの選択的な組み込みとエントロピーダイナミクスアラインメントが,探索の多様性を促進する。

    Link: https://arxiv.org/abs/2604.17928

  • 言語モデルの形式的言語能力の異質性:データが本当のボトルネックか? [cs.CL, cs.AI, cs.LG]目的:言語モデルにおける形式的言語能力のばらつきの要因分析
    • 言語モデルの性能向上は,自然言語処理の発展に不可欠であり,その限界理解が重要である。
    • 言語モデルは,特定の言語現象に対しては高い性能を示す一方で,他の現象では低い性能を示すという課題がある。
    • 特定の言語現象に関するデータ不足が,言語モデルの性能低下を引き起こす可能性を検証する。
    • 特定の言語現象をターゲットとした合成データ注入により,最悪成績を示していたBLiMPパラダイム8/9においてモデル性能が大幅に改善された。
    • 特に,only_npi_scopeパラダイムの精度は,20.9%から69.4%へと飛躍的に向上し,データ注入の効果を示唆した。
    • データ拡張は,全体的な性能を維持またはわずかに向上させ,データ構成に焦点を当てた言語モデリングの重要性を示した。

    Link: https://arxiv.org/abs/2604.17930

  • LiteResearcher:深層研究エージェントのためのスケーラブルなエージェント型強化学習フレームワーク [cs.AI]目的:深層研究エージェントのスケーラブルな強化学習
    • LLMエージェントの能力向上は,研究活動の自動化に不可欠であり,学術的進歩を加速する。
    • 実世界検索の不安定性とコストが,エージェント型RLのスケーラビリティを阻害している。
    • 仮想世界による訓練を通じて,実世界検索能力を備えたスケーラブルなエージェントの実現を目指す。
    • LiteResearcherは,実世界の検索動態を模倣した軽量な仮想世界を構築することで,エージェント型RLのスケーラビリティを向上させる。
    • LiteResearcher-4Bは,GAIAとXbenchにおいて,オープンソースの最先端の結果(それぞれ71.3%と78.0%)を達成した。
    • スケーラブルな強化学習訓練が,深層研究エージェント実現の鍵となることを示す。

    Link: https://arxiv.org/abs/2604.17931

  • 推論におけるキャッシュ容量の必要量:KV圧縮Transformerにおける深さとキャッシュのトレードオフ [eess.SY, cs.SY, cs.LG, cs.AI, cs.CC]目的:Transformerの推論におけるキャッシュ容量と,多段階推論の性能低下の関係性の解明
    • Transformerは自然言語処理の基盤技術であり,その効率的な運用が不可欠である。
    • Transformerの推論時に必要となるKVキャッシュがメモリボトルネックとなっており,圧縮による影響が不明である。
    • KVキャッシュの圧縮度合いと推論性能のバランスを理論的に明らかにし,最適なキャッシュ設計を目指す。
    • KVキャッシュのサイズ$s$とトークン数$n$,推論ステップ数$k$の関係において,深さ$L$の下限が示された。
    • キャッシュサイズが小さい場合,計算量が増加する「バンド幅の壁」が存在することが示された。
    • 適応的なキャッシュ制御手法が,従来の無作為な手法よりも多段階推論において優れた性能を発揮することが理論的に証明された。

    Link: https://arxiv.org/abs/2604.17935

  • 対照的プロンプト最適化:二項推論トレース分析による [cs.AI]目的:プロンプト最適化手法の改善
    • 大規模言語モデルの性能はプロンプトに大きく依存するため,効果的なプロンプト設計が重要である。
    • 既存手法では,成功と失敗の推論過程の違いを十分に捉えられていない。
    • モデルが再試行で成功した場合の推論トレースの差分から最適化シグナルを抽出する。
    • ContraPromptは,HotPotQA,GDPR-Bench,GPQA Diamond,BBHの4つのベンチマークでGEPAを上回る性能を示した。
    • dyadic reasoning trace analysisが性能向上に不可欠であることが,消去実験により確認された。
    • 金融分野のNERタスクFiNER-139においても,ベースラインおよびGEPAと比較して高い性能を達成し,財務計上基準との整合性も確認された。

    Link: https://arxiv.org/abs/2604.17937