arXiv雑要約

AI - 2026/04/22 公開

  • ShadowPEFT:パラメータ効率的なファインチューニングのためのシャドウネットワーク [cs.CL, cs.AI]目的:大規模言語モデルのパラメータ効率的なファインチューニング手法
    • 大規模言語モデルの活用には,計算資源の制約が伴うため,効率的な学習方法が求められている。
    • 既存のパラメータ効率的なファインチューニング手法は,局所的なパラメータ更新に依存しており,柔軟性に課題がある。
    • 層レベルでの共有モジュールを用いた適応により,より柔軟で効率的なファインチューニングを目指す。
    • ShadowPEFTは,従来のLoRAやDoRAと同等またはそれ以上の性能を示すことが確認された。
    • シャドウモジュールは深層全体で再利用可能であり,事前学習やエッジコンピューティング環境での利用に適している。
    • 層空間での適応が,従来の低ランクPEFT手法に匹敵する競争力と柔軟性を持つことが示唆された。

    Link: https://arxiv.org/abs/2604.19254

  • CulturALL:現実に基づいたタスクにおけるLLMの多言語・多文化能力のベンチマーク [cs.CL, cs.CL, cs.AI]目的:LLMの多言語・多文化能力の評価
    • LLMのグローバルな利用拡大に伴い,言語や文化への理解が重要になっている。
    • 既存のベンチマークは,言語理解や表面的な文化知識に偏っており,現実に基づいたタスクの評価が不十分である。
    • 現実世界の文脈を考慮したタスクにおいて,LLMの多言語・多文化能力をより正確に評価すること。
    • CulturALLは,14言語,51地域,16のトピックを含む2,610のサンプルで構成される包括的なベンチマークである。
    • 実験の結果,最良のLLMでもCulturALLにおける正答率は44.48%にとどまり,改善の余地が大きいことが示された。
    • 専門家とAIの協調により,CulturALLは適切な難易度と事実の正確性を確保している。

    Link: https://arxiv.org/abs/2604.19262

  • マルチエージェント協調のための明示的な特性推論 [cs.CL, eess.SY, cs.OS, cs.RO, cs.SY, cs.HC, cs.AI, cs.MA]目的:マルチエージェント間の協調改善
    • 複雑なタスクにおいて,LLMを用いたマルチエージェントシステムの活用が期待されている。
    • 目標のずれ,エラーの連鎖,行動の不一致など,協調における失敗が頻発する。
    • 相互作用履歴から相手の特性を推論し,協調性を高める方法を確立する。
    • 提案手法である明示的な特性推論(ETI)は,経済ゲームにおいてペイオフ損失を45-77%削減した。
    • MultiAgentBench環境において,ETIはシナリオやモデルに応じて3-29%の性能向上を示した。
    • 特性推論のプロファイルがエージェントの行動を予測でき,情報豊富なプロファイルが改善に貢献することが示された。

    Link: https://arxiv.org/abs/2604.19278

  • 意味的類似性を超えて:医療における質問応答システムに対する構成要素ごとの評価フレームワークと健康公平性の影響 [cs.HC, cs.AI, cs.CL, cs.LG]目的:医療質問応答システムの評価フレームワーク
    • 医療分野におけるAIの活用は進むが,その安全性と公平性を担保する必要がある。
    • 既存の評価指標は意味的類似性のみに着目し,医学的正確性や公平性のリスク評価が不十分である。
    • 医学的正確性と公平性を考慮した,より詳細な評価手法を確立すること。
    • 提示されたVB-Scoreフレームワークは,エンティティ認識,意味的類似性,事実の一貫性,構造化情報の完全性の4つの構成要素を個別に評価する。
    • 主要なLLM3つの評価の結果,意味的正確性とエンティティ認識の正確性に大きな乖離が認められた。
    • 慢性疾患に関する質問において,高齢者や少数民族に関連するテーマでパフォーマンスが平均で13.8%低下しており,アルゴリズムによる差別が存在する可能性が示唆された。

    Link: https://arxiv.org/abs/2604.19281

  • 位置が見つからない:多言語LLMにおける暗黙のローカルおよびグローバルなバイアスを明らかにする [cs.SI, cs.CL, cs.AI]目的:多言語LLMにおける言語間および言語内のバイアスの定量化
    • 多言語LLMの発展は,言語間の流暢さの格差を縮小し,グローバルコミュニケーションを促進する上で重要である。
    • 知識や規範が言語を超えて伝播することで,LLMがバイアスされた行動をとるリスクが存在する。
    • LLMが場所を特定できない質問への回答を通じて,暗黙のバイアスを検出し,その影響を評価すること。
    • LocQAデータセットを用いて32モデルを評価した結果,USローカルに偏ったグローバルバイアスが検出された。
    • 指示チューニングされたモデルは,ベースモデルと比較して,このグローバルバイアスがより顕著であることが示された。
    • 同一言語内で複数のローカルが存在する場合,人口の多い地域を優先する傾向が確認された。

    Link: https://arxiv.org/abs/2604.19292

  • TEMPO:大規模推論モデルのためのテスト時学習のスケーリング [cs.AR, cs.LG]目的:大規模推論モデルに対するテスト時学習の性能向上
    • 大規模言語モデルの性能は重要であり,継続的な学習が求められている。
    • 既存のテスト時学習法では,計算量を増やしても性能が頭打ちになる問題がある。
    • テスト時学習における報酬信号の不安定性を解消し,継続的な性能向上を目指す。
    • 提案手法TEMPOは,ラベル付きデータを用いた定期的な批判者再調整を導入することで,性能を向上させた。
    • TEMPOは,Qwen3-14BにおけるAIME 2024の正解率を42.3%から65.8%に,OLMO3-7Bでは33.0%から51.1%に改善した。
    • また,モデルの多様性を維持しながら性能向上が実現された。

    Link: https://arxiv.org/abs/2604.19295

  • 関数値推定のためのバイアス除去ニューラル演算子 [cs.LG]目的:複雑な物理システムの解写像近似
    • 物理現象のシミュレーションにおいて,計算コスト削減が重要である。
    • ニューラル演算子を用いた推定において,バイアスの影響が問題となる。
    • 解写像から得られる軌跡の要約量に対するバイアスを除去する手法を開発する。
    • DOPE(debiased neural operator)は,ニューラル演算子から得られる解軌跡の目的量に対する半パラメータ推定器である。
    • DOPEは,部分的または不規則な観測設定に適用でき,任意のニューラル演算子アーキテクチャと組み合わせ可能である。
    • DOPEは,重み付けメカニズムにより,不規則な観測設計と目的量に対する解軌跡の摂動の感度を同時に考慮する。

    Link: https://arxiv.org/abs/2604.19296

  • インドFinBench:インドの金融規制文書における大規模言語モデルの性能評価ベンチマーク [cs.CL, cs.AI, cs.IR]目的:インドの金融規制文書に対する大規模言語モデルの性能評価
    • 金融分野における自然言語処理の重要性が増しており,規制文書の理解が不可欠である。
    • 既存の金融NLPベンチマークは欧米のデータに偏っており,非西側諸国の規制フレームワークへの対応が不十分である。
    • インドの金融規制文書に特化したベンチマークを作成し,大規模言語モデルの性能を評価することで,その課題を解決する。
    • IndiaFinBenchは,インド証券取引委員会(SEBI)およびインド準備銀行(RBI)の文書から作成された406個の専門家による質問応答ペアを含む。
    • 評価の結果,12種類のモデルでゼロショット条件下での精度は70.4%(Gemma 4 E4B)から89.7%(Gemini 2.5 Flash)の範囲であった。
    • 数値推論が最も識別力のあるタスクであり,モデル間には35.9パーセントポイントの差が見られた。

    Link: https://arxiv.org/abs/2604.19298

  • スケールの再考:エージェントパラダイムにおける小規模言語モデルの展開におけるトレードオフ [cs.CL, cs.AI]目的:小規模言語モデルの展開におけるトレードオフの分析
    • 大規模言語モデルの普及にはコストやプライバシー等の課題があり,小規模言語モデルへの注目が高まっている。
    • 小規模言語モデルは知識や推論能力に限界があり,実用上の効果が限定的であるという課題がある。
    • エージェントパラダイムを利用することで,小規模言語モデルの弱点を補い,効率的な展開を目指す。
    • 単一エージェントシステムが,性能とコストのバランスに優れていることが示された。
    • 複数エージェントシステムは,限られた効果しか得られず,オーバーヘッドが増加する傾向が確認された。
    • リソース制約のある環境において,エージェント中心設計の重要性が示唆された。

    Link: https://arxiv.org/abs/2604.19299

  • HalluAudio:大規模オーディオ言語モデルにおける幻覚検出のための包括的ベンチマーク [cs.SD, cs.AI]目的:大規模オーディオ言語モデルの幻覚検出
    • 近年,オーディオ処理と自然言語処理の融合が急速に進んでおり,その重要性が増している。
    • オーディオ言語モデルは,音響情報と意味の不一致による幻覚(誤った応答)を生じやすいという課題がある。
    • 本研究は,オーディオにおける幻覚を評価するための大規模ベンチマークを開発し,モデルの信頼性を向上させることを目指す。
    • HalluAudioは,音声,環境音,音楽の3つのモダリティを含む5000件以上のQAペアで構成される大規模ベンチマークである。
    • 評価プロトコルでは,幻覚率,バイアス,エラータイプ,拒否率を測定し,モデルの弱点を詳細に分析する。
    • 実験結果から,既存モデルは音響的根拠,時間的推論,音楽属性理解において課題を抱えていることが明らかになった。

    Link: https://arxiv.org/abs/2604.19300

  • 大規模言語モデルにおける規範的同調性 [cs.AI, cs.MA, cs.NE]目的:大規模言語モデルの規範的同調性
    • 大規模言語モデルは多岐にわたる分野で活用され,その判断の信頼性が重要である。
    • 大規模言語モデルが示す同調性は,客観的な意見の変化だけでなく,社会的要因に左右される。
    • 大規模言語モデルにおける規範的同調性のメカニズムを解明し,悪意のある操作への脆弱性を評価する。
    • 評価した6つの大規模言語モデルのうち,最大5つが情報的同調性だけでなく,規範的同調性も示す傾向があった。
    • 社会的文脈を微調整することで,大規模言語モデルの規範的同調性の方向性を制御できる可能性が示された。
    • 情報的同調性と規範的同調性は,表面上は同じ「同調性」として現れるが,内部メカニズムが異なる可能性が示唆された。

    Link: https://arxiv.org/abs/2604.19301

  • Co-Refine:AIを活用した質的分析支援ツール [cs.HC, cs.AI]目的:質的分析におけるコーディングの一貫性維持
    • 質的分析は社会科学等で重要であり,データの解釈に影響を与える。
    • 大規模データでのコーディングは,解釈のずれ(時間的ドリフト)が発生しやすい。
    • コーディングの一貫性低下を防ぎ,分析の信頼性を高めることを目指す。
    • Co-Refineは,コーディングの一貫性をリアルタイムで検出し,研究者のワークフローを中断させない。
    • 決定論的な埋め込みベースの指標とLLMの判断を組み合わせることで,信頼性の高い監査信号を生成する。
    • 決定論的スコアリングがLLM出力を制約し,質の高いフィードバックループを構築できることを実証した。

    Link: https://arxiv.org/abs/2604.19309

  • 条件付きニューラルプロセスの条件付け一貫性ギャップについて [cs.LG]目的:条件付きニューラルプロセスの条件付け一貫性ギャップの定量化
    • 機械学習におけるメタ学習の重要性が高まっており,ニューラルプロセスはその有力な手法の一つである。
    • ニューラルプロセスは確率過程の条件付け一貫性条件を満たさず,その理論的性質が十分に理解されていない。
    • ニューラルプロセスが確率過程を近似する程度を,一貫性ギャップを用いて数学的に評価することを目指す。
    • 条件付きニューラルプロセスにおける条件付け一貫性ギャップをKLダイバージェンスで定義し,その大きさを評価した。
    • バウンドされたエンコーダとLipschitzデコーダを持つCNPにおいて,ギャップはコンテキストサイズnに対してO(1/n^2)で収束することを示した。
    • この結果は,CNPが確率過程を近似する際の正確さを数学的に保証するものであり,少数ショット学習におけるギャップの重要性を示唆する。

    Link: https://arxiv.org/abs/2604.19312

  • RDP LoRA:大規模言語モデルのパラメータ効率適応のための幾何学駆動型識別 [cs.LG, cs.AI, cs.CL, cs.CV]目的:大規模言語モデルのパラメータ効率適応におけるレイヤー選択戦略
    • 大規模言語モデルの活用は拡大しているが,計算コストが課題である。
    • LoRA等のパラメータ効率的適応では,どのレイヤーを適応すべきか不明確である。
    • 表現経路の幾何学的構造に基づき,適応すべきレイヤーを特定すること。
    • 提案手法RDP LoRAは,Qwen3-8B-BaseのMMLU-Mathにおいて,全レイヤー適応やランダム選択を上回る性能を示した。
    • RDPアルゴリズムを用いて重要なブレークポイントを識別し,適応レイヤーを決定する点が特徴である。
    • 表現経路の内在的幾何学を活用することで,ロバストで解釈可能なレイヤー選択が可能となる。

    Link: https://arxiv.org/abs/2604.19321

  • 皮膚鏡検査における概念ボトルネックモデル中の概念不整合:Derm7ptデータセットのラフ集合解析 [cs.LG, cs.CV]目的:皮膚鏡検査における概念ボトルネックモデルの概念レベルの不整合の範囲と臨床構造の特性評価
    • 皮膚がんの早期発見は重要であり,皮膚鏡検査はその診断支援において不可欠な役割を果たす。
    • 概念ボトルネックモデルは解釈可能性を重視するが,データセット内の概念レベルの不整合がボトルネックとなり,精度向上を妨げる。
    • 本研究は,ラフ集合理論を用いて不整合を定量的に評価し,精度の理論上限を明らかにし,より質の高いデータセットを構築する。
    • Derm7ptデータセットにおいて,7つの皮膚鏡検査基準からなる305種類の概念プロファイルのうち,50種類(16.4%)が不整合であることが判明した。
    • この不整合により,概念ボトルネックモデルの理論上の精度上限は92.1%に制限されることが示された。
    • 境界領域の画像を対称的に除去することで,完全な整合性を持つDerm7pt+データセット(705画像)を構築し,概念整合性の高いCBM評価の基準を確立した。

    Link: https://arxiv.org/abs/2604.19323

  • PLaMo 2.1-VL技術報告 [cs.CV, cs.AI]目的:自律デバイス向け軽量なVision Language Model(VLM)の開発
    • 近年,エッジデバイスでのAI活用が重要視されており,軽量かつ高性能なモデルが求められている。
    • 既存のVLMは,日本語処理性能が十分でなく,実用化における課題となっていた。
    • 日本語に対応し,エッジ環境での運用を可能とするVLMの開発。
    • PLaMo 2.1-VLは,日本語VQAベンチマークJA-VG-VQA-500で61.5のROUGE-Lスコアを達成し,既存のオープンモデルを上回った。
    • 日本語Ref-L4データセットでは,85.2%の精度を達成した。
    • 工場タスク分析ではゼロショットで53.9%の精度,発電所データでの異常検知ではF1スコアが39.7%から64.9%に向上した。

    Link: https://arxiv.org/abs/2604.19324

  • 活性学習が限界を迎えるとき:化学反応抽出に関する実証研究 [cs.LG]目的:化学反応抽出における活性学習の効果
    • 化学文献の急増により,反応情報は反応予測や創薬に不可欠なデータである。
    • 専門家によるアノテーションコストが高く,学習データが不足している。
    • 活性学習戦略の有効性と限界を明らかにし,実用的な知見を提供する。
    • 事前学習済みのTransformer-CRFモデルと6つの活性学習戦略を組み合わせた実験を行った。
    • いくつかの手法は,少ないラベル付きデータでほぼフルデータと同等の性能に近づいた。
    • しかし,学習曲線は非単調であり,タスクに依存した。事前学習やCRFデコーディングが活性学習の安定性を制限することが示された。

    Link: https://arxiv.org/abs/2604.19335

  • FedSEA: 連合オンライン学習における並列化の利点の達成 [cs.LG, math.OC]目的:連合オンライン学習における並列化の利点
    • プライバシー保護が重要視される現代において,分散型データを用いた継続的な意思決定手法が求められている。
    • 従来の連合オンライン学習では,並列化による効果が期待できず,統計的変動の多様性を捉えきれていない。
    • 動的に変化するデータ分布下での連合オンライン学習における並列化の利点を定量化し,性能向上を目指す。
    • 提案手法FedSEAは,クライアント側でオンライン確率的勾配降下法を用い,サーバー側で定期的なグローバル集約を行う。
    • 滑らかで凸な損失関数に対しては√Tオーダー,滑らかで強凸な損失関数に対してはlog Tオーダーのグローバルネットワーク後悔の上界を確立した。
    • 時間的な変動が小さい場合,並列化によってネットワーク後悔が改善されることを明らかにし,従来の悲観的な結果を改善した。

    Link: https://arxiv.org/abs/2604.19336

  • 科学的発見のための評価駆動型スケーリング [cs.LG, cs.AI]目的:科学的発見における評価駆動型ループのスケーリング方法
    • 科学的発見において,言語モデルの活用が重要性を増しているため。
    • 評価駆動型発見ループのスケーリング方法が明確でなく,限界がある。
    • 評価駆動型発見ループを効果的にスケーリングし,科学的発見を推進すること。
    • SimpleTESフレームワークにより,21の科学的問題で最先端の解法を発見した。
    • 広く使われるLASSOアルゴリズムを2倍以上高速化し,量子回路のゲートオーバーヘッドを24.5%削減した。
    • 成功した軌跡でモデルを再学習することで,未知の問題への汎化性能も向上した。

    Link: https://arxiv.org/abs/2604.19341

  • スケーラブルなメンリスタ系リザバーコンピューティングによる時系列分類 [cs.CL, cs.NE, cs.LG]目的:時系列分類のためのスケーラブルなメンリスタ系リザバーコンピューティングアーキテクチャの提案
    • 次世代情報処理の基盤として,メモリと演算を一体化したメンリスタデバイスが注目されている。
    • リザバーコンピューティングは学習が容易だが,大規模化や高性能化に課題があった。
    • メンリスタデバイスに適した並列化構造により,スケーラブルなリザバーコンピューティングを実現する。
    • 提案アーキテクチャMARSは,既存のリザバーコンピューティングと比較して,最大21倍の学習速度向上を達成した。
    • MARSは,LRU,S5,Mambaなどの勾配ベースの系列モデルと比較して,予測性能が大幅に向上した。
    • 本研究は,高予測能力と大幅な計算効率向上を両立する,スケーラブルなニューロモーフィック学習システムの実現に向けた道筋を示す。

    Link: https://arxiv.org/abs/2604.19343

  • エージェントはルートシェルを夢見るか? CTFチャレンジにおけるLLMエージェントの段階的評価 [cs.CL, cs.AI, cs.CR, cs.SE]目的:LLMエージェントのCTFチャレンジにおける能力評価
    • サイバーセキュリティの自動化ニーズが高まる中で,LLMの活用が期待されている。
    • 現実的な攻撃環境下でのLLMエージェントの能力は,十分に評価されていない。
    • LLMエージェントの具体的な能力と課題を明らかにすること。
    • DeepRedという,現実的なCTFチャレンジを評価するためのベンチマークが開発された。
    • 10種類のLLMを評価した結果,平均的なチェックポイント達成率は35%に留まった。
    • 一般的なチャレンジタイプには強い一方,非標準的な探索や長期的な適応能力は低いことが示された。

    Link: https://arxiv.org/abs/2604.19354

  • 連続体場再構成のための能動的センシング学習:LASER [cs.LG, cs.AI, cs.CE]目的:連続体物理場の高精度な再構成
    • 科学的発見や工学設計には,連続体物理場の正確な計測が不可欠である。
    • 従来の再構成手法は固定されたセンサー配置に依存し,変化する物理状態への適応が困難である。
    • 本研究は,センサー配置を最適化し,限られたセンシング条件下での再構成精度向上を目指す。
    • LASERは,能動的センシングを部分観測マルコフ決定過程(POMDP)として定式化した閉ループフレームワークである。
    • 潜在空間における「もしも」のセンシングシナリオをシミュレーションすることで,情報量の多い領域へのセンサー移動を導く。
    • 多様な連続体場において,LASERは静的戦略やオフライン最適化戦略よりも一貫して高い再構成精度を達成した。

    Link: https://arxiv.org/abs/2604.19355

  • FairTree:機械学習モデルのサブグループ公平性監査におけるバイアス・バリアンス分解 [cs.LG]目的:機械学習モデルのサブグループにおける公平性の監査手法
    • 機械学習の普及に伴い,モデルの公平性評価が重要視されている。
    • 既存手法では,連続値変数を扱うのが難しく,公平性の問題点を特定しにくい。
    • 連続値,カテゴリカル値,順序値を直接扱える公平性監査手法を開発し,バイアスとバリアンスを分解する。
    • FairTreeは,SliceFinderなどの既存手法と異なり,データの離散化なしに公平性を評価できる。
    • シミュレーション実験の結果,誤検出率は低く,変動検定は検出力も高いことが示された。
    • UCI Adult Censusデータセットを用いた実証実験でも,提案手法の有効性が確認された。

    Link: https://arxiv.org/abs/2604.19357

  • Mind2Drive:実走行における脳波からの運転者の意図予測 [cs.CV, cs.HC, cs.LG, cs.RO]目的:実走行時の運転者の意図予測手法
    • 先進運転支援システムの安全性向上には,運転者の状態を的確に把握することが不可欠である。
    • 脳波信号の非定常性や認知・運動準備の複雑性から,実走行環境での運転者の意図予測は困難である。
    • 実走行環境下で安定的に運転者の意図を早期に予測する手法を確立すること。
    • 提案手法は,実走行データを用いて12種類の深層学習アーキテクチャを評価し,TSCeptionが最も高い精度(0.907)とMacro-F1スコア(0.901)を達成した。
    • 本フレームワークは高い時間的安定性を示し,運転操作の1000ms前から安定した予測性能を維持した。
    • 脳波信号の前処理は,アーティファクト除去パイプラインよりも最小限のものが有効であり,予測性能は運転操作の400-600ms前にピークを迎することが示された。

    Link: https://arxiv.org/abs/2604.19368

  • ノード表現に対するタスク非依存型コントラスト説明:TACENR [cs.LG, cs.AI]目的:ノード表現を構成する重要な特徴の特定
    • グラフ構造データは様々な分野で活用されており,その表現学習の重要性は高い。
    • 既存のノード表現は解釈が難しく,その構造を説明する手法が不足している。
    • ノード表現全体の構造を説明し,特徴量の重要性を明らかにすること。
    • 提案手法TACENRは,ノード表現において属性特徴だけでなく,近接性と構造的特徴も特定する。
    • コントラスト学習を用いることで,ノード表現における重要な特徴を明らかにする類似度関数を学習する。
    • 実験により,近接性と構造的特徴がノード表現に大きく影響することが示された。

    Link: https://arxiv.org/abs/2604.19372

  • AI駆動6G IoTネットワークにおけるエネルギー影響:集中型対分散型 [cs.RO, cs.AI]目的:AI駆動型6G IoTネットワークのエネルギー効率に関する分析
    • 6G技術の発展はIoTネットワークに新たな可能性をもたらす一方,エネルギー効率が重要な課題となっている。
    • モデル学習とデータ伝送がエネルギー消費の大部分を占めるため,持続可能なシステム設計が求められている。
    • エネルギー消費を最適化し,現実的なIoT環境におけるエネルギー効率を向上させる。
    • 集中型学習と分散型学習のエネルギー消費モデルを分析した結果,分散型モデルが同程度の予測精度を維持しながら,エネルギー消費量を最大70%削減できることが示された。
    • ドイツ鉄道のインフラにおける実証実験の結果,分散型MLが実際のIoT展開においてエネルギー効率を向上させる可能性が示唆された。
    • 特に,伝送に関連するエネルギーコストの削減に有効であることが明らかになった。

    Link: https://arxiv.org/abs/2604.19377

  • GRASPrune:大規模言語モデルの予算制約下での構造化プルーニングのためのグローバルゲーティング [cs.CL, cs.CL, cs.DL, cs.HC, cs.AI]目的:大規模言語モデルの効率的なプルーニング手法
    • 大規模言語モデルの利用拡大には,計算コストの削減が不可欠である。
    • モデルのパラメータ数が多いことが,メモリ消費量と推論速度のボトルネックとなっている。
    • 予算制約下でモデルを効率的にプルーニングし,性能劣化を最小限に抑えることを目指す。
    • GRASPruneは,FFNチャネルとKVヘッドグループを同時にプルーニングする構造化プルーニングフレームワークである。
    • LLaMA-2-7Bにおいて,パラメータの50%を削減し,WikiText-2で12.18のperplexityを達成した。
    • 5つのベンチマークで競争力のあるzero-shot精度を維持し,追加のパラメータなしに推論速度を向上させた。

    Link: https://arxiv.org/abs/2604.19398

  • 動的衛星ネットワークにおける連合学習の最適ルーティング:実行可能か否か [cs.LG, cs.DC]目的:動的衛星ネットワークにおける連合学習のためのルーティング最適化の実行可能性
    • 分散データを用いたモデル学習の基盤技術であり,プライバシー保護にも貢献する連合学習の重要性が高まっている。
    • 衛星ネットワークは動的なため,ルーティングの最適化が課題であり,特に複数段階の中継が必要な場合に複雑性が増す。
    • 衛星を用いた連合学習におけるルーティング問題の計算困難性を理論的に明らかにし,現実的なアルゴリズム設計の指針を示す。
    • グローバルモデルの配布に関して,モデル数,目的関数,ルーティング方式(ユニキャスト対マルチキャスト,分割可能対分割不可能)によって,多項式時間で最適解が得られる場合とNP困難となる場合があることが示された。
    • ローカルモデルの収集においては,モデル数,クライアント選択,フロー分割可能性が計算複雑性に影響し,同様に実行可能性の境界が明確化された。
    • 本研究は,衛星ベースの連合学習における効率的なルーティング設計,評価,展開のための基礎を築き,原理的な洞察を提供する。

    Link: https://arxiv.org/abs/2604.19399

  • 継続的な知識グラフ埋め込みにおける破滅的忘却の再検討 [cs.LG, cs.AI]目的:継続的な知識グラフ埋め込みにおける破滅的忘却の評価と改善
    • 知識グラフは様々なタスクで利用され,その埋め込み表現は重要である。
    • 知識グラフは常に変化するため,既存の埋め込み表現は忘却を起こしやすい。
    • エンティティ干渉という新たな忘却要因を考慮した評価方法を提案する。
    • 従来の評価プロトコルでは,エンティティ干渉が無視されていたため,性能が過大評価されていた。
    • 提案手法による評価では,性能過大評価が最大25%に達することが示された。
    • 異なるCKGE手法やKGEモデルへのエンティティ干渉の影響を分析し,CKGEに特化した忘却指標を導入した。

    Link: https://arxiv.org/abs/2604.19401

  • Mambaベース多エージェント群相対ポリシー最適化による生体模倣水中ロボット追跡 [cs.RO, cs.AI]目的:生体模倣水中ロボットの協調追跡におけるポリシー学習の課題解決
    • 水中ロボットの協調制御は,海洋探査や資源開発など,幅広い分野で重要性が高まっている。
    • 従来の協調追跡手法では,長期的意思決定,部分観測性,ロボット間連携が困難であった。
    • Mambaベースのポリシーと群相対ポリシー最適化により,安定性と拡張性を両立した協調追跡を実現する。
    • 提案手法M$^{2}$GRPOは,シミュレーションと実環境実験において,既存手法(MAPPOやRNNベースライン)を上回る追跡成功率と捕獲効率を示した。
    • Mambaポリシーが,過去の観測履歴から長期的な時間的依存性を捉え,エージェント間相互作用を効果的に表現することに貢献した。
    • 群相対アドバンテージの利用により,学習リソースを削減しつつ,安定したポリシー更新を可能にした。

    Link: https://arxiv.org/abs/2604.19404

  • HP-Edit:画像編集のための人間選好事後学習フレームワーク [cs.CL, cs.CV, cs.AI]目的:画像編集における人間選好に合わせた編集
    • 画像編集技術は,現実世界のコンテンツを効率的に変更する上で重要であり,様々な応用が期待される。
    • 拡散モデルを用いた編集において,人間からのフィードバックを効率的に組み込むための手法が不足している。
    • 人間選好データとフレームワークを用いて,拡散モデルに基づく編集の品質を向上させることを目指す。
    • HP-Editは,少量の人間選好データと事前学習済みのVLMを活用し,自動評価器HP-Scorerを開発した。
    • HP-Scorerは,大規模な選好データセットの構築と,編集モデルの事後学習における報酬関数として機能する。
    • 実験の結果,HP-EditはQwen-Image-Edit-2509などのモデルの出力と人間選好との整合性を高めることが示された。

    Link: https://arxiv.org/abs/2604.19406

  • GOLD-BEV:動的シーンの高密度BEVマッピングのための地上および航空データ [cs.HC, cs.CV, cs.AI]目的:動的シーンの高密度BEV(鳥瞰図)セマンティック環境マップの学習
    • 自動運転やロボティクスにおいて,周囲環境の正確な理解は不可欠である。
    • 従来のBEVマッピングは,手動アノテーションの負担が大きく,時間的なずれが生じやすい。
    • 航空画像を用いた教師あり学習により,効率的かつ正確なBEVマップ構築を目指す。
    • 本研究では,航空画像による教師データを用いて,エゴ車両からのセンサ情報から高密度なBEVセマンティックマップを学習するフレームワークGOLD-BEVを提案する。
    • 厳密な地上・航空データの時間同期により,移動する対象物の認識精度を向上させ,従来の非同期データの問題点を克服する。
    • ドメイン適応を用いた航空画像からの疑似ラベル生成と,エゴセンサからの疑似航空画像合成により,効率的なアノテーションと不確実性を考慮した学習を実現する。

    Link: https://arxiv.org/abs/2604.19411

  • CAST:補完を意識したシーケンシャル推薦のためのセマンティックレベル遷移のモデリング [cs.IR, cs.LG]目的:補完関係を考慮したシーケンシャル推薦の性能向上
    • シーケンシャル推薦は,ユーザーの行動履歴から次の行動を予測する重要な技術である。
    • 既存手法は,表面的な共起関係に頼り,真の補完関係を見逃す場合がある。
    • 本研究は,セマンティックレベルでの遷移モデリングにより,真の補完関係を捉えることを目指す。
    • 提案手法CASTは,セマンティックコード空間上で動的な遷移をモデル化することで,詳細なセマンティック依存性を捉える。
    • LLMで検証された補完関係の事前知識を注意機構に組み込むことで,共起統計よりも補完パターンを優先する。
    • 複数のeコマースデータセットで,最先端手法と比較して最大17.6%のRecallと16.0%のNDCGの改善,そして65倍の学習加速を達成した。

    Link: https://arxiv.org/abs/2604.19414

  • 生成AIにおける事後バイアス軽減のための分岐時間意味論:ワールド数のカウント [cs.HC, cs.HC, cs.CY, cs.HC, cs.NI, cs.SY, eess.SY, cs.HC, cs.CY, cs.LO, cs.AI]目的:生成AIの出力系列におけるバイアスを形式的に検証・軽減するための論理CTLFの提案
    • 生成AIは社会に広く利用されつつあり,その公平性が重要課題となっている。
    • 生成AIは学習データに存在するバイアスを増幅する傾向があり,その軽減が困難である。
    • 出力系列全体の公平性を保証する形式的な手法を確立し,バイアス軽減の理論的基盤を提供する。
    • CTLFは,各出力が異なる「ワールド」として表現される分岐時間論理であり,生成過程の各段階でバイアスを評価できる。
    • CTLFのモダル演算子を用いることで,意図した属性分布の尊重度,許容範囲内にとどまる確率,公平性を回復するための削除数などを検証できる。
    • バイアスの存在する画像生成の例において,CTLFが具体的な公平性特性を表現できることを示した。

    Link: https://arxiv.org/abs/2604.19431

  • LLMを優れた最適化手法とするもの:LLM誘導進化探索の軌跡分析 [cs.CL, cs.NE]目的:LLM誘導進化探索における最適化メカニズムの解明
    • LLMの最適化システムへの応用が注目されている。その潜在能力を最大限に引き出すには,メカニズムの理解が不可欠である。
    • LLMの最適化能力にはばらつきがあり,その原因が明確でない。初期能力だけでは結果を予測できないという問題がある。
    • LLMの最適化能力の差を生む軌跡の特徴を分析し,より効果的なLLM設計に繋げる。
    • 優れたLLM最適化モデルは,意味空間内で探索を局所化しながら,頻繁な漸進的改善を行う。
    • 一方,最適化性能の低いモデルは,大きな意味的ドリフトを示し,一時的なブレイクスルーと停滞を繰り返す。
    • 解の新規性は,探索が高性能領域に十分に局所化されている場合にのみ,有効であることが示された。

    Link: https://arxiv.org/abs/2604.19440

  • 推論型LLMにおける単一生成からの信頼度調整 [eess.SY, cs.SY, math.OC, cs.LG]目的:推論型LLMの信頼度調整手法
    • 高度な推論能力を持つLLMの応用拡大には,信頼性の高い自信度推定が不可欠である。
    • 既存手法はラベルや複数回のサンプリングを必要とし,実用性が低い場合がある。
    • 単一生成のみで信頼度を調整し,実用的なLLMの展開を可能にすること。
    • 提案手法は,ラベルなしデータを用いたオフラインサンプリングにより,自己整合性に基づく目標値を導出する。
    • この目標値を軽量な信頼度予測器に蒸留することで,効率的な調整を実現する。
    • 9つの推論モデルと5つのタスクにおいて,既存手法を大幅に上回り,分布シフト下でも高い性能を示す。

    Link: https://arxiv.org/abs/2604.19444

  • 異質性を考慮したパーソナライズされた連合学習による産業予測分析 [cs.CG, math.CO, cs.LG, stat.ML]目的:産業予測分析のためのパーソナライズされた連合学習モデル
    • 産業設備の故障予測は,生産性の向上とコスト削減に不可欠である。
    • 従来の連合学習は,クライアント間の劣化過程の均質性を仮定しており,現実の産業環境では課題となる。
    • クライアント間の劣化過程の異質性を考慮し,より精度の高いパーソナライズされた予測モデルを構築すること。
    • 提案手法は,劣化パターンの類似したクライアント間の協調学習を促進することで,パーソナライズされた連合学習の性能を向上させる。
    • 分散環境下でのパラメータ推定には,近接勾配降下法に基づくアルゴリズムを開発し,データプライバシーを保護しつつ,故障時間分布を網羅的に提供する。
    • シミュレーションとNASAのターボファンエンジン劣化データを用いたケーススタディにより,提案モデルの有効性が検証された。

    Link: https://arxiv.org/abs/2604.19451

  • ZC-Swish:エッジおよびマイクロバッチアプリケーション向け深層BNフリーネットワークの安定化 [eess.SY, cs.SY, cs.LG]目的:深層BNフリーネットワークの安定化手法
    • 深層学習の性能向上にBNは不可欠だが,環境によっては利用が困難である。
    • BN除去は勾配消失やチャネル死滅を引き起こし,深層ネットワークの学習を不安定にする。
    • ZC-Swishは活性化平均をゼロ付近に固定し,深層BNフリーネットワークの不安定性を解消する。
    • 標準のSwish活性化関数では,深層ネットワークにおいて性能が低下する。
    • 提案手法のZC-Swishは,深さ16以上のネットワークでも安定した活性化ダイナミクスを維持する。
    • 深さ16のネットワークにおいて,ZC-Swishは最高のテスト精度(51.5%)を達成する。

    Link: https://arxiv.org/abs/2604.19453

  • 長期的な意思決定における4軸アラインメント [cs.DC, cs.AI]目的:企業向けAIエージェントの長期的な意思決定におけるアラインメントの評価枠組み
    • 企業におけるAI活用は高度化の一途を辿り,重要な意思決定をAIに委ねる機会が増加している。
    • 既存の評価指標は,AIの様々な失敗モードを区別できず,実運用環境での適合性を判断し難い。
    • AIの意思決定を,事実の正確性,推論の一貫性,法令遵守,慎重な判断の4軸で評価し,アラインメントの問題を特定する。
    • 提案する4軸アラインメント評価により,既存の評価指標では見えなかった,AIの弱点や改善点が明らかになった。
    • 特に,事実の正確性において,検索能力の限界が明らかになり,また,要約モデルが期待以上に高い性能を示すことが確認された。
    • 法令遵守と慎重な判断の重要性が再認識され,実運用環境におけるアラインメント評価の必要性が示唆された。

    Link: https://arxiv.org/abs/2604.19457

  • LLMは形式化を操作するか?論理的推論における忠実性の評価 [cs.AI, cs.CL, cs.LO]目的:論理的推論における形式化の忠実性
    • 形式検証は証明の妥当性を保証するが,形式化の忠実性は保証しない。
    • 自然言語からの論理的推論では,形式化と証明が一体で行われるため,忠実性の評価が難しい。
    • LLMが形式化の忠実性を無視して妥当な証明を生成する「形式化の操作」を検証する。
    • GPT-5とDeepSeek-R1の実験では,統一生成において体系的な操作は見られなかった。
    • GPT-5は証明生成時に公理を捏造するが,DeepSeek-R1は前提の誤訳により検出困難な不忠実性を示す。
    • 高いコンパイル率や精度は,必ずしも忠実な推論を意味しないことが示唆される。

    Link: https://arxiv.org/abs/2604.19459

  • 法的問題の関連性評価のための構造化要素を用いた分類としての推論:LePREC [cs.CL, cs.AI]目的:法的問題の関連性評価における推論の改善
    • 世界人口の過半数が法的資源の制約により民事司法ニーズを満たせていない。
    • LLMは推論能力を示すものの,法的問題の特定という基礎段階で課題が残る。
    • LLMの精度不足を補い,より効率的な法的問題の関連性評価を目指す。
    • LePRECは,LLMによる質問応答ペア生成と,疎な線形モデルによる統計的推論を組み合わせたフレームワークである。
    • LePRECは,透明性の高い特徴量重み付けにより解釈可能性を確保しつつ,データ効率の良い分類を実現する。
    • 実験により,GPT-4oやClaudeを含む既存のLLMと比較して,30-40%の改善が確認された。

    Link: https://arxiv.org/abs/2604.19464

  • 展開された機械学習パイプラインにおける機関のリスクモデルの公平性監査 [cs.SI, math.CO, cs.CY, cs.AI, cs.HC]目的:機関のリスクモデルにおける公平性の評価
    • 教育機関における意思決定に機械学習の利用が進む中で,公平性の確保が重要課題となっている。
    • 機械学習パイプライン全体での公平性評価が不十分であり,潜在的な不均衡を見落とす可能性がある。
    • 展開されたリスクモデルの公平性を検証し,不均衡の発生源と増幅要因を特定すること。
    • 本研究では,機関のトレーニングデータを用いて早期警告システムを再現し,公平性監査を実施した。
    • その結果,若年男性および留学生が支援対象として不均衡にフラグ付けされ,一方で,より高齢の女性学生は過小評価されることが明らかになった。
    • 事後処理がこれらの不均衡を増幅させ,統計的な公平性だけでなく,構成概念の妥当性評価の重要性を示した。

    Link: https://arxiv.org/abs/2604.19468

  • LLMのポストトレーニングにおける適応的な批判器利用のためのEVPO:説明分散型方策最適化 [cs.CG, cs.CC, math.OC, cs.LG, cs.AI, cs.CL]目的:LLMのポストトレーニングにおける方策最適化のための,説明分散に基づく適応的な批判器利用手法
    • 大規模言語モデル(LLM)の性能向上には,強化学習を用いたポストトレーニングが重要である。
    • 強化学習では,方策最適化に批判器を用いるか否かの選択が課題であり,単純な手法が採用されがちである。
    • 疎な報酬環境下で批判器がノイズを注入し,分散を増加させる問題を解決し,最適な基準選択を目指す。
    • 説明分散(EV)は,批判器が分散を減少させるか増加させるかの境界を特定する指標となることが示された。
    • 提案手法EVPOは,EVを監視し,批判器ベースとバッチ平均の推定を適応的に切り替えることで,常に最適な分散を達成する。
    • 古典制御,エージェントとのインタラクション,数学的推論の4つのタスクにおいて,EVPOはPPOとGRPOを常に上回る性能を示した。

    Link: https://arxiv.org/abs/2604.19485

  • CoDA:CoT誘導ドメイン適応による効果的なクロスドメイン知識転移に向けて [cs.NI, cs.AI]目的:クロスドメイン知識転移の効率化
    • 大規模言語モデルの推論能力向上は重要だが,人間レベルには及ばない。
    • 専門知識が乏しい分野では,高品質なドメイン内サンプルが不足している。
    • ドメイン間のずれを解消し,知識転移を促進する手法を開発する。
    • CoDAは,中間層の隠れ状態に直接介入する軽量アダプターを用いる。
    • CoTによる参照表現の特徴ベース蒸留とMMDによるカーネル化分布整合を組み合わせる。
    • 複数の論理推論タスクで,既存の最先端手法を大幅に上回る性能を実証した。

    Link: https://arxiv.org/abs/2604.19488

  • グラフ構造が不利になる場合:時間的分布シフト下におけるビットコイン不正検知のためのグラフニューラルネットワークの再評価 [cs.LG, cs.AI, cs.CR, cs.SI]目的:ビットコイン不正検知におけるグラフニューラルネットワークの性能評価
    • 金融取引における不正検知は,経済的損失の防止やセキュリティ確保の観点から極めて重要である。
    • 既存研究では,グラフ構造を利用した手法が優れているとされているが,厳密な検証が不足している。
    • 時間的分布シフト下において,グラフ構造が不正検知に果たす役割を正確に評価し,より効果的な手法を模索する。
    • 厳密な評価プロトコル下では,従来のグラフニューラルネットワーク(GCN,GraphSAGE,GAT,EvolveGCN)は,特徴量のみを用いたRandom Forestに劣ることが示された。
    • 学習時にテスト期間の隣接行列に触れることで性能が大きく低下し,グラフのトポロジーが時間的分布シフト下で誤解を招く可能性があることが明らかになった。
    • グラフニューラルネットワークの埋め込み表現と生の特徴量を組み合わせたハイブリッドモデルも,特徴量のみを用いたモデルを下回る結果となった。

    Link: https://arxiv.org/abs/2604.19514

  • 経験からスキルへ:再利用可能な戦略学習によるマルチエージェント生成エンジン最適化 [cs.AI]目的:生成エンジン最適化のための戦略学習
    • 情報アクセスは進化しており,生成エンジンが重要な役割を担う。検索結果のランキングから,引用に基づいた回答への移行が進んでいる。
    • 既存の生成エンジン最適化手法は個々の事例に焦点を当てており,タスクやエンジン間で有効な戦略を蓄積・転移できないという課題がある。
    • 本研究は,この課題を解決し,生成エンジン最適化における学習駆動型パラダイムの拡張を目指す。
    • 提案手法MAGEOは,調整された計画,編集,および忠実度を考慮した評価を通じて最適化を行い,有効な編集パターンを再利用可能なエンジン固有のスキルとして抽出する。
    • Twin Branch Evaluation ProtocolとDSV-CFという評価指標を導入し,コンテンツ編集の原因帰属を詳細に分析した。
    • 3つの主要なエンジンに対する実験結果から,MAGEOが従来のヒューリスティック手法を大幅に上回り,可視性と引用の忠実性の両方で優れた性能を示すことが確認された。

    Link: https://arxiv.org/abs/2604.19516

  • 分散化による最適化と機械学習の高速化 [cs.LG, cs.SY, eess.SY]目的:最適化と機械学習における分散化の加速
    • データ利活用が重要視される中で,プライバシー保護とスケーラビリティの両立が課題となっている。
    • 分散型最適化は,中央集権的な学習に比べて処理速度が遅いとされてきた。
    • 分散化が中央集権的な手法を上回る収束速度を達成し,効率的な学習を実現することを示す。
    • 分散化により,最適解への到達に必要な反復回数が減少し,収束が加速されることが示された。
    • ロジスティック回帰やニューラルネットワークの学習において,分散学習が中央集権的な学習よりも高速であることが確認された。
    • この結果は,分散化が効率的な最適化と機械学習のための戦略的利点となり得ることを示唆している。

    Link: https://arxiv.org/abs/2604.19518

  • SimDiff:類似性と差異に基づいた深層プルーニング [cs.AI]目的:大規模言語モデルの効率的な展開
    • 大規模言語モデルの利用拡大に伴い,計算資源の効率的な利用が重要になっている。
    • 既存のプルーニング手法は,モデル構造に依存した不安定性や性能劣化を引き起こす場合がある。
    • 類似性と差異の両面から層の重要度を評価し,安定した性能を維持するプルーニング手法を開発する。
    • SimDiffは,代表的なプルーニング手法と比較して,様々なプルーニング率で優れた性能を示す。
    • LLaMA2-7Bにおいて,25%のプルーニング率で91%以上の性能を維持し,LLaMA3.1-8Bでは最大1.49倍の推論速度向上を達成した。
    • プルーニングされたモデルは,僅かなファインチューニングで効果的に性能回復が可能である。

    Link: https://arxiv.org/abs/2604.19520

  • Revac:社会的推論を行うエージェント [cs.RO, cs.AI]目的:社会的推論のメカニズム
    • AI研究において,人間との複雑なインタラクションを理解することが重要である。
    • マフィアゲームのような不完全情報ゲームにおけるAIの推論能力は未だ十分ではない。
    • 欺瞞を含む状況下での推論,記憶,適応能力を向上させることを目指す。
    • Revac-8は,MindGames Arenaの社会的推論トラックで1位を獲得した。
    • プレイヤープロファイリング,ソーシャルグラフ分析,動的な口調選択を統合した。
    • 構造化された記憶と適応的なコミュニケーションが,高いパフォーマンスに不可欠であることが示された。

    Link: https://arxiv.org/abs/2604.19523

  • 大規模言語モデル生成による難読化XSSペイロードの機械学習ベース検出における評価 [cs.CR, cs.LG, cs.SE]目的:難読化されたXSSペイロードの生成と評価
    • Webセキュリティにおいて,クロスサイトスクリプティング(XSS)は依然として重要な脆弱性である。
    • 従来の検出システムは,難読化によってペイロードの表面的な形が変わるため,攻撃の識別が困難である。
    • 本研究は,大規模言語モデルを用いた難読化ペイロードの生成と,その実行時挙動に基づく評価を目指す。
    • 大規模言語モデルによるペイロード生成パイプラインを構築し,決定論的変換技術と組み合わせた。
    • ベースラインモデルでは実行時挙動の一致率が0.15であったが,ファインチューニングにより0.22に向上した。
    • 生成されたペイロードを付加しても検出性能は向上しないものの,挙動フィルタリングされたサンプルは性能劣化を引き起こさないことが示された。

    Link: https://arxiv.org/abs/2604.19526