arXiv雑要約

AI - 2026/04/21 公開

  • 認知的不均一性の力学:LLMベースのシミュレーションによる多段階サプライチェーンにおける行動バイアスの調査 [cs.MA, cs.AI]目的:多段階サプライチェーンにおける行動バイアスの影響分析
    • サプライチェーンは経済活動の基盤であり,効率化は生産性向上に不可欠である。
    • 人間の認知バイアスがサプライチェーンの非効率性を招くことが知られている。
    • LLMを用いたシミュレーションにより,認知的不均一性が及ぼす影響を定量的に評価する。
    • エージェントは近視眼的かつ自己中心的傾向を示し,システム全体の非効率性を悪化させる。
    • 情報共有は,これらの負の影響を効果的に軽減することが示された。
    • LLMベースのエージェントは,複雑な運用環境における人間の意思決定を代替する可能性と限界を示す。

    Link: https://arxiv.org/abs/2604.17220

  • Mambaのための双線形入力変調:記憶保持と乗算計算のためのクープマン双線形形式 [eess.SY, cs.LG, cs.SY, math.DS]目的:選択的状態空間モデルにおける記憶保持と双線形計算能力の向上
    • 系列モデリングにおいて,長距離依存関係の把握は重要な課題である。
    • 従来のSSMは,対角状態遷移により記憶保持と双線形計算能力が制限されていた。
    • クープマン双線形形式に基づく双線形入力変調により,これらの制限を克服することを目指す。
    • 提案手法であるCoupled-BIMは,記憶保持と双線形計算の両方において性能向上を示した。
    • Coupled-GMは記憶保持能力を大幅に向上させるが,双線形計算能力の向上は限定的であった。
    • 状態次元を増やすことでCoupled-BIMのみが性能向上し,双線形メカニズムの有効性が示された。

    Link: https://arxiv.org/abs/2604.17221

  • 深紫外線イメージングにおける領域親和性注意機構を用いた全スライド乳癌分類 [cs.CV, cs.AI, eess.SP]目的:深紫外線イメージング全スライド画像における乳癌分類
    • 乳癌診断の迅速化と精度向上は喫緊の課題であり,病理診断の効率化が求められている。
    • 既存の深層学習手法は,パッチ分割による空間情報の損失や前処理の煩雑さが課題となっていた。
    • 深紫外線イメージングの特性を活かし,空間情報を保持したまま高精度な乳癌分類を実現すること。
    • 本研究では,領域間の関係性を考慮する領域親和性注意機構を開発し,全スライド画像をパッチ分割せずに処理することを可能にした。
    • 実験の結果,本手法は既存の注意機構と比較して,精度92.67±0.73%,AUC95.97%という高い性能を達成した。
    • これにより,深紫外線イメージングを用いた乳癌診断の迅速かつ高精度な支援が期待される。

    Link: https://arxiv.org/abs/2604.17222

  • LASER:効率的な再帰のための低ランク活性SVD [cs.LG, stat.ML]目的:再帰的アーキテクチャにおける活性化マニホールドの構造解析と,それを利用した効率化手法
    • 再帰的アーキテクチャは暗黙的な推論能力を持つが,その計算過程の理解が深まっていない。
    • 活性化空間の次元が高く,計算コストとメモリ使用量が大きいという課題がある。
    • 活性化空間の低次元性を利用し,計算・メモリ効率を向上させる。
    • 再帰的アンローリング中の活性化が,効果的に線形な低次元部分空間に存在することを確認した。
    • LASERは,動的な低ランク基底を維持することで,約60%の活性化メモリを削減できることが示された。
    • 計算サイト間で活性化の集中度合いが異なり,表現容量の割り当てに関する新たな疑問が提起された。

    Link: https://arxiv.org/abs/2604.17224

  • 条件付き深さルーティングのための補助損失の再検討:実証的研究 [cs.CL, cs.DC, cs.LG]目的:条件付き深さルーティングにおけるゲート学習の安定化と性能向上
    • 大規模言語モデルの効率化は,計算資源の制約を克服し,より幅広い応用を可能にする上で重要である。
    • 条件付き深さルーティングでは,ゲートの訓練が困難であり,勾配が弱くノイズが多いという課題がある。
    • 本研究は,補助損失間の相互作用を詳細に分析し,ゲート学習を改善する効果的な手法を模索する。
    • JEPAガイドゲート(G3)は,標準的なレシピ(util/rank)下で,G1と比較して早期から中期最適化において性能が向上した(3/3のシードでLM損失が低下,閾値到達が高速化,勾配ノルムが約10.3倍減少)。
    • util/rankを共同で削除すると,G1とG3の両方で最高のLMと閾値到達速度が向上し,G3の早期優位性は消失した。
    • util/rankの削除は,訓練FLOPsを約1.53倍から約1.07倍に削減し,V100-32GBでの計算時間を短縮した(2.87hから1.75h)。

    Link: https://arxiv.org/abs/2604.17228

  • ヤナッセ:深層ビジョンの類推から新たな証明を見出す,パート1 [cs.AI]目的:異なる数学分野間の証明戦略パターン移行による定理の新規証明発見
    • 形式的証明支援は,数学の発展を加速させ,より複雑な定理の検証を可能にする点で重要である。
    • 既存の証明支援システムでは,ある分野の知識を別の分野へ応用することが困難である。
    • 深層ビジョンを用いた類推により,分野の異なる証明戦略を応用し,新規証明を自動的に発見することを目指す。
    • 確率論から表現論への応用において,10回の試行で4つのLean検証済み新規証明が得られた(40%)。
    • タクティクスキーマは,ドメイン依存のヘッドとドメイン独立のモディファイアに分解されることが示された。
    • 深層ビジョンライブラリはドメインに依存せず,チェスやLeanの証明状態など,多様な分野の類推に適用可能である。

    Link: https://arxiv.org/abs/2604.17229

  • プロファイル情報を活用したマルチモーダルLLMによるゼロショット個人化画像美観評価の向上 [cs.CV, cs.AI]目的:個人化画像美観評価における,ユーザー固有の美的な嗜好のモデル化
    • 画像美観評価は,ユーザーエクスペリエンス向上に不可欠であり,多様な応用分野で重要性が増している。
    • 既存手法は過去の評価データに依存するため,データがない状況では性能が低下するという課題がある。
    • 本研究は,ユーザープロファイルを活用することで,データ不足下での個人化美観評価を実現することを目指す。
    • 提案手法P-MLLMは,既存のLLMに選択的融合モジュールを追加し,プロファイル情報を考慮した視覚情報の統合を可能にした。
    • P-MLLMは,最新のPIAAベンチマークにおいて,ゼロショット設定で競争力のある性能を達成した。
    • 粗いプロファイル情報でも有効に機能し,プロファイルに基づく個人化の可能性を示唆している。

    Link: https://arxiv.org/abs/2604.17233

  • HeadRank:嗜好性整合注意ヘッドによるデコーディング不要な文章再ランク付け [cs.IR, cs.AI]目的:文章再ランク付けの性能向上
    • 情報検索において,関連度の高い文書を効率的に上位表示することは重要である。
    • 従来のデコーディング不要な再ランク付け手法では,注意スコアが均質化し,文書間の識別性が失われる。
    • 注意空間における嗜好性整合により,文書間の識別性を高め,再ランク付けの精度を向上させる。
    • HeadRankは,注意ヘッド選択,ハードなペア比較,分布正則化を用いて注意スコアの均質化問題を解決する。
    • Qwen3モデル(0.6B-4B)を用いた14のベンチマークにおいて,生成型およびデコーディング不要なベースラインを上回る性能を示した。
    • 4Bモデルでは,関連する中間層の文書の上位四分位到達率が57.4%であり,無関係な文書の14.2%と比較して43%ポイントの選択性ギャップとなった。

    Link: https://arxiv.org/abs/2604.17237

  • エンタープライズAIにおける安全かつ法令遵守なマルチエージェントオーケストレーション [cs.AI]目的:エンタープライズAIシステムにおけるマルチエージェントの安全かつ法令遵守なオーケストレーション
    • エンタープライズAIの利用拡大に伴い,ワークフロー全体の安全性と信頼性が重要課題となっている。
    • 従来の協調手法では,制約条件が間接的に扱われ,厳格なポリシー遵守が困難である。
    • 本研究は,ポリシー違反なくリスクを抑制し,高い有用性を維持するマルチエージェントオーケストレーションを実現する。
    • CAMCOは,制約付き最適化問題としてマルチエージェントの意思決定をモデル化するランタイム協調レイヤーである。
    • 評価実験により,ポリシー違反ゼロ,リスク許容範囲内(平均比率0.71),有用性の92-97%維持が確認された。
    • また,平均収束イテレーション数は2.4回と短時間で収束することが示された。

    Link: https://arxiv.org/abs/2604.17240

  • DORA Explorer:学習なしでのLLMの探索能力向上 [cs.CL, cs.AI]目的:LLMエージェントにおける探索能力の改善
    • LLMは意思決定に活用されつつあるが,探索能力が課題となっている。
    • LLMエージェントは多様な出力を生成できず,不十分な探索に陥りやすい。
    • 多様性指向の行動ランキングにより,学習なしで探索能力を向上させる。
    • DORA Explorerは,Multi-Armed Bandit問題でUCBと同等の性能を達成した。
    • TextWorld環境において,Qwen2.5-7Bの性能を29.2%から45.5%に向上させた。
    • DORAは,トークン対数確率を用いて行動候補を評価し,探索パラメータで行動を選択する。

    Link: https://arxiv.org/abs/2604.17244

  • LLMサービングシステムにおける共有KVキャッシュブロックのビットフリップ脆弱性 [cs.RO, cs.CY, cs.HC, cs.CR, cs.AR, cs.LG]目的:LLMサービングシステムにおける共有KVキャッシュブロックのビットフリップ脆弱性の特性評価
    • 大規模言語モデル(LLM)の普及に伴い,その安全性と信頼性の確保が重要課題となっている。
    • LLMの推論処理において,KVキャッシュは性能向上のために利用されるが,そのセキュリティ保護は十分ではない。
    • KVキャッシュブロックに対するビットフリップ攻撃の危険性を評価し,対策を検討することを目的とする。
    • ソフトウェアによるフォールトインジェクションにより,KVキャッシュブロックのビットフリップが沈黙的な出力の変化を引き起こすことを確認した。
    • 影響を受けるのは,攻撃対象となったプレフィックスを共有するリクエストのみであり,選択的な影響範囲を示す。
    • 累積的なダメージは時間とともに減衰せず,キャッシュブロックがキャッシュに残る間,線形的に増加する。

    Link: https://arxiv.org/abs/2604.17249

  • 見ていても信じない:具現化されたエージェントにおける積極的介入による信念の固定化の緩和 [cs.CE, cs.CL, cs.AI, cs.RO]目的:信念の固定化の緩和
    • 大規模言語モデルの発展により,環境との相互作用を通して複雑なタスクをこなせるエージェントが実現しつつある。
    • エージェントは,自身の信念と異なる環境からのフィードバックを見過ごし,最適でない行動を取ることがある。
    • エージェントが観察に基づき信念を更新するプロセスを積極的に管理することで,より堅牢なエージェントを開発すること。
    • 提案手法EVUは,予測,検証,更新のプロセスを通して信念の固定化を効果的に緩和する。
    • 3つの具現化されたベンチマークにおける実験により,EVUがタスクの成功率を大幅に向上させることが示された。
    • EVUは,プロンプトベースと学習ベースの両方の推論方法に統合可能であり,汎用性も高い。

    Link: https://arxiv.org/abs/2604.17252

  • Linuxシステムに対する自動セキュリティ評価のための統合コンプライアンス集約フレームワーク [cs.CL, cs.CR, cs.LG]目的:Linuxシステムのセキュリティ評価に関する統合的なフレームワーク
    • 現代のシステムセキュリティ確保には不可欠であり,脆弱性管理の効率化が求められている。
    • 個々のセキュリティツールは出力形式が異なり,全体像の把握が困難である。
    • 複数のツール出力を統合し,システム全体のセキュリティ状況を定量的に評価する。
    • 提案フレームワークUCAは,Lynis,OpenSCAP,AIDE等のツール出力を統合し,単一のスコアでシステムセキュリティを表現する。
    • 異質な出力は0-100の範囲に正規化され,重み付け集約される。ファイル整合性測定には対数モデルが採用された。
    • Ubuntu 22.04での実験により,システム強化に伴いスコアが向上,コンプライアンスとファイル整合性のツールの挙動の違いが示された。

    Link: https://arxiv.org/abs/2604.17256

  • ドメイン適応型テキスト埋め込み事前微調整のための表現正則化REZE [cs.CL, cs.AI]目的:ドメイン適応型テキスト埋め込みの事前微調整における表現シフトの制御
    • テキスト埋め込みモデルは多様な応用で重要であり,特定のドメインへの適応が求められる。
    • 従来の事前微調整は,タスクに起因するバイアスを生じ,埋め込み空間を歪ませる問題がある。
    • REZEは,表現シフトを明示的に制御し,ドメイン知識とタスクバイアスのバランスを取ることを目指す。
    • REZEは,アンカーとポジティブペアの関係を固有空間で分解し,タスクごとの分散を測定することで表現シフトを抑制する。
    • 実験により,REZEは標準的な事前微調整や後処理正則化よりも優れた性能を示し,不安定なPFTを改善する。
    • 埋め込み空間の分析から,REZEが元の埋め込み多様体と整合した制御されたシフトを誘導することが確認された。

    Link: https://arxiv.org/abs/2604.17257

  • HORIZON:実世界のユーザー行動モデリングのためのベンチマーク [cs.RO, cs.IR, cs.AI, cs.CL]目的:実世界のユーザー行動モデリングに関する新しいベンチマーク
    • ユーザー行動の理解は,パーソナライズされたサービス提供や効果的なマーケティング戦略に不可欠である。
    • 既存のベンチマークは,ドメインや時間範囲が限定的であり,汎用的なモデル開発の妨げとなっていた。
    • 多様なドメイン,ユーザー,時間軸における汎化性能を評価できるベンチマークの必要性に応える。
    • HORIZONは,Amazon Reviewsの大規模データセットを用いて構築され,5400万人以上のユーザーと3500万以上のアイテムをカバーする。
    • 従来のベンチマークとは異なり,ドメイン,ユーザー,時間を跨いだ汎化能力を評価する新しいタスクと評価指標を提案する。
    • 既存手法と大規模言語モデルの比較実験により,実世界のユーザー行動モデリングにおける課題が浮き彫りになった。

    Link: https://arxiv.org/abs/2604.17259

  • LLM 補助調査における修正困難度と最適なサンプル配分 [cs.DL, cs.SI, cs.IR, cs.CE, physics.comp-ph, cs.AI, stat.AP]目的:LLM 補助調査における,人間回答者の最適なサンプル配分
    • 世論調査は社会科学研究や政策決定において重要な役割を担う。
    • LLMの回答精度は質問によって大きく異なり,信頼性の評価が課題である。
    • LLM の予測精度に基づいて,人間回答者の配分を最適化し,効率的な調査を行う。
    • 本研究では,質問ごとの修正困難度を導入し,人間サンプルサイズ増加に伴う推定量の分散減少を特徴づけた。
    • LLMの信頼性が低いタスクに,より多くの人間ラベルを割り当てる最適な配分ルールを導出した。
    • 過去データを用いて修正困難度を予測するメタ学習アプローチを提案し,パイロットデータなしで新しいタスクに適用可能であることを示した。

    Link: https://arxiv.org/abs/2604.17267

  • AI生成画像検出における低相関信号のフラクタル特性評価 [cs.CV, cs.AI]目的:AI生成画像と実画像の識別
    • 情報セキュリティと社会の信頼維持のため,AI生成画像の識別技術は重要である。
    • 既存の深偽検出法は,現実世界での応用において頑健性に課題がある。
    • AI生成画像特有の信号レベルの差異を捉え,検出精度の向上を目指す。
    • 低相関信号のフラクタル特性が,AI生成画像と実画像を識別する上で有効な指標となることが示された。
    • 提案手法は,従来の深偽検出法と比較して,より高い検出性能と頑健性を示すことが実験的に確認された。
    • 本研究は,深偽検出の研究方向性を信号レベルへのシフトを促す。

    Link: https://arxiv.org/abs/2604.17268

  • 消費者向け生成AIに必要なセキュリティとプライバシーに関する透明性 [cs.HC, cs.AI, cs.CR, cs.CY]目的:消費者向け生成AIのセキュリティとプライバシーに関する透明性に関するユーザーのニーズ
    • 生成AIの利用拡大に伴い,ユーザーのセキュリティとプライバシー保護が重要課題となっている。
    • 現状のセキュリティとプライバシーに関する情報開示は不十分であり,ユーザーの信頼を得られていない。
    • ユーザーが安心して生成AIを利用できるよう,透明性を高めるための設計指針を提案する。
    • インタビュー調査の結果,多くのユーザーは初期段階での採用において,セキュリティとプライバシー情報を重視していなかった。
    • 利用開始後,セキュリティとプライバシーに関する不確実性が,特に重要な状況下での利用を抑制する要因となっていた。
    • ユーザーは,信頼できる情報や使いやすいインターフェースなどを通じた透明性を求めており,それらの設計原則を5つの側面から提示する。

    Link: https://arxiv.org/abs/2604.17270

  • 連続層:知能が保持すべきものに対するアーキテクチャの必要性 [cs.CL, cs.AI]目的:モデルが学習した内容を引き継ぐための層の不在というAIにおける重要な課題の解決
    • AIの発展には,モデルの規模だけでなく,知識の継続的な保持を可能にする基盤技術が不可欠である。
    • 現在のAIモデルは,セッションごとに情報を失い,長期的な記憶や文脈の維持が困難であるという問題がある。
    • 本研究は,AIの知能をセッションを超えて維持するための「連続層」の構築を目指す。
    • 本稿では,「連続層」を定義し,その特性を7つに整理した。
    • 提案する「分解型トレース収束メモリ」は,書き込み時の分解と読み出し時の再構築によって,その特性を実現する。
    • 開発ロードマップとして,外部SDKからハードウェアノード,そして長期的な人間インフラへの4層構造を提案する。

    Link: https://arxiv.org/abs/2604.17273

  • 本能と熟考:マルチモーダル大規模モデルにおけるトークンと言語化された確信の一致 [cs.CV, cs.AI]目的:マルチモーダル大規模モデルの応答確信度推定の改善
    • マルチモーダル大規模モデルは,様々な知覚と推論タスクで優れた能力を示すため,実用化が期待されている。
    • モデルの信頼性を確保するためには,確信度の推定が重要だが,既存研究はテキストのみに焦点を当てていることが多い。
    • トークンレベルの支持とモデル自身の確信度評価の不一致を解消し,より信頼性の高い確信度推定を目指す。
    • モデルの暗黙的なトークンレベルの支持と,言語化された自己評価の確信度との間にずれが見られることが明らかになった。
    • 提案手法である単調な確信度融合フレームワークは,デュアルチャネル信号を統合し,チャネル間の一貫性を高めることで確信度推定を改善する。
    • 実験結果から,提案手法は様々なマルチモーダル大規模モデルにおいて,より信頼性の高い確信度推定と,キャリブレーション及び失敗予測の改善に貢献することが示された。

    Link: https://arxiv.org/abs/2604.17274

  • メタサーキットによる完全アナログ共振再帰型ニューラルネットワーク [cs.LG, cs.AI, cs.ET, physics.app-ph]目的:完全アナログ共振再帰型ニューラルネットワークの実現
    • エッジインテリジェンス実現のため,高速かつ低消費電力なハードウェアが求められている。
    • 訓練済みモデルを物理ハードウェアに忠実に実装することが困難であり,スケーラビリティが課題である。
    • 周波数選択的な経路による特徴抽出とリアルタイムな時間的分類を可能にする。
    • メタサーキットを用いて,完全アナログの共振再帰型ニューラルネットワークを構築した。
    • 機械-電気的アナロジーにより,ニューラルネットワークパラメータとメタサーキット要素間の直接的なマッピングを実現した。
    • 触覚認識,音声認識,状態監視など,多様な分野での応用可能性を示した。

    Link: https://arxiv.org/abs/2604.17277

  • HorizonBench:進化する嗜好に基づく長期的なパーソナライゼーション [cs.NI, cs.CL, cs.CL, cs.AI]目的:長期的なパーソナライゼーションにおける嗜好の変化の追跡
    • ユーザーの嗜好は時間とともに変化するため,それを捉えることは,より自然な対話システムの構築に不可欠である。
    • 長期的な嗜好の変化を追跡するにはデータが必要だが,自然な長期的な対話データと嗜好変化の根拠を同時に提供するリソースは存在しない。
    • 本研究は,長期的な嗜好変化の追跡を可能にするベンチマークデータセットを構築し,モデルの性能評価を行うことを目指す。
    • HorizonBenchは,6ヶ月間の対話履歴を持つ360人のシミュレートされたユーザーからなる4,245アイテムのベンチマークデータセットである。
    • 最先端のモデルでも,HorizonBenchのタスクにおいて52.8%の精度しか達成できず,多くのモデルは20%のベースラインを下回った。
    • モデルが嗜好の変化を誤った場合,3分の1以上はユーザーの当初の嗜好を選択し,更新されたユーザーの状態を追跡できていないことが示された。

    Link: https://arxiv.org/abs/2604.17283

  • HalluClear:GUIエージェントにおけるハルシネーションの診断,評価,軽減 [cs.AI]目的:GUIエージェントにおけるハルシネーションの軽減
    • GUIエージェントは実用化が進んでいるが,ハルシネーションが深刻な問題となっている
    • 汎用的なVLM分野とは異なり,GUIエージェント特有のハルシネーション評価・軽減手段が不足している
    • GUIエージェントのハルシネーションを詳細に診断し,信頼性の高い評価と効率的な軽減策を提供する
    • HalluClearは,GUIエージェント特有のハルシネーション分類体系,3段階評価ワークフロー,構造化推論に基づく軽減策を含む
    • わずか9千サンプルでの後学習で,ハルシネーションを大幅に削減し,GUI自動化の堅牢性を向上させることが示された
    • 計算コストを抑えつつ,汎用性とGUI専門性の両立を図ることで,実用的なGUI自動化を促進する

    Link: https://arxiv.org/abs/2604.17284

  • Clover: 確率的思考の木構造を用いた検証済みRTL修正のためのニューラル・シンボリックエージェント連携フレームワーク [cs.AR, cs.AI]目的:RTLプログラム修正におけるバグの探索と検証
    • ハードウェア設計・検証において,RTL修正は不可欠であり,その自動化は生産性向上に繋がる。
    • 従来のAPR手法はテンプレートに依存し,LLMベースの手法は長いRTLコードで精度が低下する。
    • Cloverは,ニューラル・シンボリック手法でRTL修正の信頼性と効率を向上させる。
    • Cloverは,LLMエージェントとシンボリックソルバーを動的に切り替えることで,多様な修正戦略に対応する。
    • 確率的思考の木構造を用いることで,コンテキスト管理を最適化し,探索と活用のバランスを取る。
    • RTL修正ベンチマークにおいて,96.8%のバグを修正し,従来のAPRやLLMベース手法を大きく上回る結果を得た。

    Link: https://arxiv.org/abs/2604.17288

  • REALM:ノイズの多いアノテーションからの信頼性のある専門知識を認識した言語モデルのファインチューニング [cs.LG]目的:ノイズの多いアノテーションからの言語モデルのファインチューニング手法
    • 大規模言語モデルの性能向上には,高品質な教師データが不可欠である。アノテーションの質が重要となる。
    • アノテーション作業は複数の作業者に依頼されるため,専門知識にばらつきがあり,誤ったアノテーションが含まれる可能性がある。
    • アノテーターの専門知識を考慮し,ノイズの影響を軽減することで,よりロバストなモデルを構築することを目指す。
    • 提案手法REALMは,アノテーターの専門性を自動的に学習し,モデルのパラメータ更新に活用することで,ノイズの影響を抑制する。
    • シミュレーション実験の結果,REALMは従来のノイズSFTを大幅に上回り,特に大規模モデルにおいて顕著な性能向上を示す。
    • マルチタスク設定においても,アノテーターごとの信頼性を捉えた学習により,高い性能を維持することが確認された。

    Link: https://arxiv.org/abs/2604.17289

  • 思考の確率的プログラム [cs.CL, cs.AI, cs.PL]目的:大規模言語モデルにおける思考プログラム生成の効率化
    • コード生成や数理推論は,LLMの重要な応用分野であり,構造化された出力を必要とする。
    • LLMによるプログラム生成は計算コストが高く,特に多数のプログラムを試す場合に問題となる。
    • LLMの生成分布を活用し,少ない計算量で多様なプログラムを効率的に生成することを目指す。
    • 本研究では,生成されたプログラムとそのトークン確率に基づき,確率的プログラムを構築する。
    • これにより,指数関数的に多くの決定論的プログラムをコンパクトに表現し,追加のGPU計算なしにサンプリングが可能となる。
    • コード生成,理解,数理推論のベンチマークで性能が向上し,LLMからの生成回数を削減できることが示された。

    Link: https://arxiv.org/abs/2604.17290

  • LLaTiSA:視覚的知覚から意味論への難易度階層型時系列推論へ [cs.CL, cs.AI]目的:時系列推論の難易度階層化
    • 時系列データ理解は重要であり,自然科学,経済,医療など幅広い分野で活用されている。
    • 既存研究では,タスク定義の断片化や曖昧なベンチマークにより,厳密な評価が困難であった。
    • 認知複雑度の異なる4段階の分類に基づき,統一的な時系列推論モデルの開発を目指す。
    • HiTSRという83kサンプルからなる階層型時系列推論データセットを新たに構築した。
    • 視覚パターンと数値テーブルを統合したTSRM,LLaTiSAを提案し,VLMsの時系列知覚能力を向上させた。
    • マルチステージのカリキュラムファインチューニングにより,多様なタスクや実世界シナリオで優れた汎化性能を示した。

    Link: https://arxiv.org/abs/2604.17295

  • カテゴリ適応型安全アラインメント [cs.CL, cs.AI]目的:大規模言語モデルの安全性アラインメント
    • 言語モデルの安全性確保は,社会実装において不可欠であり,その重要性は増している。
    • 従来の安全性アラインメント手法では,特定の有害カテゴリにおける安全性が十分でない場合がある。
    • カテゴリごとの安全度を最適化し,有害カテゴリ間の安全性格差を縮小することを目的とする。
    • Cat-DPOは,従来の直接選好最適化アルゴリズムを改善し,全体的な有用性と無害性を向上させる。
    • カテゴリごとの安全性分散を圧縮し,最良モデルと最悪モデルの性能差を縮小することに成功した。
    • 各有害カテゴリの難易度に応じて学習信号を調整することで,より効率的なアラインメントを実現する。

    Link: https://arxiv.org/abs/2604.17299

  • 対話における有害性検出のためのRoTRAG:検索拡張生成による経験則に基づく推論 [cs.CL, cs.AI, cs.HC, cs.IR, cs.LG]目的:多岐にわたる対話の文脈を考慮した有害コンテンツの検出
    • 対話システムの安全性確保は,社会的な規範を遵守し,健全なコミュニケーションを促進する上で不可欠である。
    • 既存手法は内部知識に依存しやすく,微妙な社会的ニュアンスを捉えきれない場合がある。
    • 外部規範に基づいた明示的な推論により,一貫性と解釈可能性を高めることを目指す。
    • RoTRAGは,簡潔な倫理規範(経験則)を検索し,LLMによる有害性評価の根拠として活用する。
    • ProsocialDialogおよびSafety Reasoning Multi Turn Dialogueデータセットにおいて,F1スコアが平均で約40%向上した。
    • 分布誤差は平均で8.4%減少し,計算効率も向上した。

    Link: https://arxiv.org/abs/2604.17301

  • 時間的推論集約による効率的なテスト時スケーリング [cs.AI]目的:大規模言語モデルにおける推論性能の向上
    • 大規模言語モデルの性能向上は,様々な自然言語処理タスクにおいて重要な課題である。
    • テスト時スケーリングは,不要な推論ステップによる計算コストの増加を招くことがある。
    • 推論の収束を時間的に集約することで,効率的な推論終了を可能にすることを目指す。
    • TRACEは,回答の一貫性と確信度軌跡の時間的集約により,推論の収束を正確に検出し,冗長な推論を回避する。
    • 複数のベンチマークテストにおいて,TRACEは推論に要するトークン数を平均25-30%削減し,フル推論と同等の精度を維持した。
    • 既存の動的推論方法と比較して,一貫して優れた性能を示した。

    Link: https://arxiv.org/abs/2604.17304

  • SkillFlow:自律エージェントにおける継続的なスキル発見と進化のベンチマーク [cs.AI]目的:自律エージェントのスキル発見,修復,および時間経過に伴うライブラリの維持に関する評価
    • 自律エージェントの能力向上に伴い,外部スキル活用が重要になっている。
    • 既存のベンチマークは提供されたスキル利用のテストに偏っており,自律的なスキル学習が評価されていない。
    • 本研究は,経験からのスキル発見,故障時の修復,継続的なライブラリ維持能力を評価する。
    • SkillFlowは,一貫したワークフローを持つ166のタスクを伴うベンチマークである。
    • 継続的なスキル進化により,Claude Opus 4.6のタスク成功率は62.65%から71.08%に向上した。
    • スキル利用率が高いKimi K2.5やQwen-Coder-Nextは,必ずしも高い有効性を示さなかった。

    Link: https://arxiv.org/abs/2604.17308

  • Knows: エージェントネイティブな構造化研究表現 [cs.AI]目的:研究成果の構造化表現
    • 研究の効率化が求められており,特にLLMエージェントの活用が重要である。
    • PDF等の文書形式では,LLMエージェントが情報を正確に抽出することが困難である。
    • LLMエージェントが直接利用できる構造化された研究表現を確立し,情報抽出の効率化を図る。
    • Knowsは,既存の研究成果に構造化された情報を付加するYAMLサイドカー仕様である。
    • Knowsの導入により,小規模モデルの精度が大幅に向上し,入力トークン数も削減された。
    • Knowsは,コミュニティハブで1万件以上の論文が登録されており,実用性に優れていることが示された。

    Link: https://arxiv.org/abs/2604.17309

  • 制御可能なリサンプリングによる離散拡散モデルの補間 [cs.LG]目的:離散拡散モデルの性能向上
    • 拡散モデルは,テキストやグラフなど多様な分野で強力な生成モデルとして注目されている。
    • 既存の手法は,早期のアンマスクによる不可逆的なエラーや,中間潜在状態への強い依存性といった課題を抱えている。
    • 中間潜在状態への依存を軽減し,エラーの蓄積を抑制することで,より高品質なサンプルの生成を目指す。
    • 提案手法IDDMは,確率質量を周辺分布に部分的にリセットする制御可能なリサンプリング機構を導入することで,拡散プロセスを改善する。
    • IDDMは,現在の状態にとどまる,事前分布からリサンプリングする,目標状態に向かって反転するという遷移を補間することで生成プロセスを定義する。
    • 分子グラフ生成およびテキスト生成タスクにおいて,最先端の離散拡散モデルと同等の性能を示すことが確認された。

    Link: https://arxiv.org/abs/2604.17310

  • 大規模言語モデルにおけるデータ不足下での強化学習:課題と解決策に関する調査 [eess.SY, cs.SY, cs.LG, cs.AI]目的:大規模言語モデルにおけるデータ不足下での強化学習に関する既存研究の体系的レビュー
    • 大規模言語モデルの推論能力向上には強化学習が有効だが,高品質な教師データが不足している
    • 強化学習は大量のデータが必要だが,LLMへの適用ではデータ不足が深刻な課題となっている
    • データ効率の良い強化学習手法を整理し,今後の研究の指針を示すことを目指す
    • 本調査では,データ中心,学習中心,フレームワーク中心の3つの視点に基づいた階層的フレームワークを提案した。
    • 既存手法の分類とその長所・短所を分析し,データ効率の良い強化学習の設計空間を明確にした。
    • 今後の研究のための包括的なロードマップを提供し,より効率的でスケーラブルな強化学習への方向性を示唆する。

    Link: https://arxiv.org/abs/2604.17312

  • キャリブレーションは万人に適さない:性的指向と宗教的属性がLLMの医療QAにおける精度と信頼性を歪める仕組み [cs.CL, cs.AI]目的:大規模言語モデルにおける医療QAの精度と不確実性キャリブレーションへの社会的な記述子の影響
    • 医療分野におけるAI活用は進むが,倫理的課題やバイアスが懸念されている。
    • LLMは学習データに内在する偏りを反映し,特定の属性を持つ患者に対して不正確な回答を生成する可能性がある。
    • LLMの信頼性と公平性を確保し,安全な臨床応用を促進すること。
    • LLMは,性的指向や宗教的属性といった患者の社会的な記述子によって,精度と不確実性キャリブレーションが歪められることが示された。
    • 特に「同性愛者」という記述子は,一貫してパフォーマンスの低下を引き起こし,複数の属性が交差する場合,その影響は予測不能になる。
    • これらの結果は,社会的な属性が予測だけでなく,モデルの信頼性シグナルにも影響を与え,公平な医療提供におけるリスクを高めることを示唆する。

    Link: https://arxiv.org/abs/2604.17316

  • 多様なマルチブランチ生成のための普遍的な回避法 [cs.HC, cs.CL, cs.LG]目的:多様なマルチブランチ生成の実現
    • 生成モデルの創造性は人間に劣り,多様性の確保が課題である。
    • 既存手法は計算コストが高いか,モデル構造に依存している。
    • モデルに依存せず,効率的に多様性を向上させる手法を開発する。
    • 本研究で提案するUAGは,以前の生成結果の類似性を抑制する。
    • 拡散モデルとTransformerモデルの両方で多様性を向上させ,計算コストを最小限に抑える。
    • 実験により,多様性は最大1.9倍向上し,速度は4.4倍,FLOPsは1/64に削減された。

    Link: https://arxiv.org/abs/2604.17323

  • SigGate-GT:シグモイドゲート付き注意機構によるグラフTransformerの過平滑化抑制 [cs.LG, cs.AI]目的:グラフTransformerにおける過平滑化と注意エントロピーの低下抑制
    • グラフTransformerは分子や長距離推論で強力だが,深層化に伴う表現の劣化が課題。
    • 注意機構のsum-to-one制約が,無益な注意を強いることが過平滑化の原因。
    • シグモイドゲートによる注意機構制御で,無益な接続を抑制し,表現力を向上させる。
    • 提案手法SigGate-GTは,ZINCで既存最高性能と同等,ogbn-molhivで最高性能を達成した。
    • SigGate-GTは,4層から16層において過平滑化を平均30%抑制し,注意エントロピーを増加させた。
    • 学習率の範囲を10倍に拡大しても学習が安定し,OGBにおいて約1%のパラメータ増加で性能向上を実現した。

    Link: https://arxiv.org/abs/2604.17324

  • 系列強化学習における比較単位の再考:損失修正からサンプル構築までの等長ペア学習フレームワーク [cs.CL, cs.LG, cs.AI]目的:系列レベルの相対強化学習における長さの問題に対処するための,等長ペア学習フレームワーク
    • 系列データを取り扱う強化学習において,系列長のばらつきは学習の安定性や性能に大きな影響を与える。
    • 既存手法では,系列長の異なるデータ間の比較が不適切に行われ,学習の偏りや効率低下を引き起こす。
    • 比較可能な単位を構築することで,系列長の問題を根本的に解決し,強化学習の性能向上を目指す。
    • 提案手法EqLenは,グループ相対比較アルゴリズム(GRPO, GSPO, RLOO等)に適用可能であり,安定した学習を可能にする。
    • デュアルトラック同期生成,プレフィックス継承,セグメントマスキングを通じて,効果的な等長訓練セグメントを効率的に収集する。
    • 長さの問題を損失のスケーリングや正規化のバイアスではなく,比較単位の構築問題として捉える新たな視点を提示する。

    Link: https://arxiv.org/abs/2604.17328

  • AutoSearch:強化学習による効率的なエージェント型RAGのための適応的検索深さ [cs.CE, math.PR, cs.RO, cs.AI]目的:エージェント型RAGにおける効率的な検索深さの決定
    • LLMによる複雑なタスク解決において,外部知識検索の重要性が高まっている。
    • 従来のRAGシステムでは,冗長な検索ステップが多く,計算コストと遅延が大きい。
    • AutoSearchは,不要な検索を削減しつつ,適切な深さで質の高い回答を得ることを目指す。
    • AutoSearchは,質問の複雑さとエージェントの能力に応じて,必要な検索深さを決定する。
    • 強化学習フレームワークを用いて,中間回答を自己生成し,検索ステップを評価することで,過剰な検索を抑制する。
    • 複数のベンチマークにおいて,AutoSearchは優れた精度と効率のトレードオフを実現し,検索品質を維持しながら過剰検索を軽減することを示した。

    Link: https://arxiv.org/abs/2604.17337

  • 二重解像度注意機構に基づく深層学習と順序回帰を用いた堅牢な糖尿病網膜症グレード判定 [cs.CL, cs.CV, cs.AI]目的:糖尿病網膜症のグレード判定のための深層学習フレームワーク
    • 糖尿病網膜症は世界的に視覚障害の主要な原因であり,大規模スクリーニングには自動化が不可欠である。
    • 深層学習モデルは,異なる画像条件のデータセット間での性能低下が課題となっている。
    • 異なるデータセット間での汎化性能を向上させ,より堅牢なグレード判定を実現すること。
    • 提案手法は,異なる空間解像度で網膜の特徴を捉える二つのEfficientNetバックボーンを並行して使用する。
    • 学習可能な注意機構により多解像度表現を適応的に融合し,順序回帰によりDR重症度の段階的関係を明示的に考慮する。
    • APTOS 2019データセットで訓練し,Messidor-2データセットで評価した結果,高いグレード判定性能を示した。

    Link: https://arxiv.org/abs/2604.17341

  • 単調だが刺激的:高い非線形性を持つ単調ブール関数の進化について [cs.NE, cs.CR]目的:高い非線形性を持つ単調ブール関数の進化
    • ブール関数は情報科学の基礎であり,暗号や回路設計に応用される。
    • 単調ブール関数は構造が制限され,達成可能な非線形性に限界がある。
    • 進化計算を用いて,単調ブール関数の非線形性を向上させる。
    • 進化計算によって,多数決関数よりも高い非線形性を持つ単調ブール関数を発見した。
    • 特定のケースでは,既知の単調関数に匹敵する非線形性を持つ関数が得られた。
    • エンコーディング方式によって性能に差があり,遺伝的プログラミングが大規模な次元で特に有効であった。

    Link: https://arxiv.org/abs/2604.17342

  • FLARE:正規化プロセスによるタスク非依存の埋め込みモデル評価 [eess.SY, cs.SY, cs.LG, cs.CL]目的:埋め込みモデルの評価手法
    • 自然言語処理において,高品質な埋め込み表現は様々なタスクの性能を左右する。
    • ラベルなし環境下では,適切な埋め込みモデルの選択が困難である。
    • 高次元空間における既存手法の不安定性を改善し,安定した評価を可能にする。
    • 提案手法FLAREは,正規化されたストリームを用いて情報充足性を直接推定する。
    • 従来のカーネル推定やガウス混合モデルとは異なり,高次元空間でも安定したランキングが得られる。
    • 実験の結果,FLAREは教師ありベンチマークでSpearmanのρ=0.90を達成し,高次元埋め込みにおいてもロバストであることが示された。

    Link: https://arxiv.org/abs/2604.17344

  • エージェント型ビジネスプロセス管理の形式的基礎 [cs.CL, cs.AI]目的:エージェント型ビジネスプロセス管理システムの数学的基礎
    • ビジネスプロセスの効率化と自動化は,組織の生産性向上に不可欠である。
    • 従来のBPMでは,予測不能な状況への対応が困難である。
    • エージェントの自律性と目標達成能力を形式的に定義し,制御方法を確立する。
    • 本研究は,エージェント型BPMシステムの数学的基礎を3つの主要な設定で構築した。
    • エージェント型BPMシステムの4つの基礎的な問題を分析した。
    • 戦略レベルでのエージェントの意思決定能力に対する組織の制御方法を提示した。

    Link: https://arxiv.org/abs/2604.17347

  • SOCIA-EVO:二重アンカー化双層最適化による自動シミュレータ構築 [cs.AI]目的:自動シミュレータ構築
    • 複雑なシステムの挙動理解や予測には,現実世界を模倣したシミュレーションが不可欠である。
    • 既存手法では,長期的な行動計画において文脈のずれや最適化の不安定性が課題となっていた。
    • 構造的欠陥とパラメータ調整を分離し,有効な戦略を自動的に選別することで,ロバストなシミュレータ構築を目指す。
    • SOCIA-EVOは,経験的制約を適用する静的ブループリント,構造改善とパラメータ調整を分離する双層最適化,および是正仮説を管理する戦略プレイブックを導入する。
    • 実行フィードバックを通じて効果のない戦略を反証することにより,統計的に観測データと一致するシミュレータを生成する。
    • SOCIA-EVOは,長期的な行動計画における文脈のずれや最適化の不安定性といった課題を克服し,ロバストな収束を達成する。

    Link: https://arxiv.org/abs/2604.17351

  • Hive:アルゴリズムレベルおよびタスクレベルのスケーリングのためのマルチエージェントインフラストラクチャ [cs.AI, cs.DC]目的:アルゴリズムレベルおよびタスクレベルのスケーリングを可能にするマルチエージェントインフラストラクチャ
    • 大規模言語モデルの応用が拡大し,複雑なエージェントシステムとしてスケールする必要性が高まっている。
    • モデルやシステムレベルのスケーリングは研究されてきたが,アルゴリズムレベルとタスクレベルのスケーリングは未開拓である。
    • アルゴリズムとタスクレベルでの効率的なスケーリングを可能にし,エージェントシステムの性能を向上させる。
    • Hiveは,エージェントの行動を記述するフロントエンドと,リソースを効率的に割り当てるバックエンドを備えている。
    • Logits Cacheにより,再サンプリング速度が平均1.11倍から1.76倍向上した。
    • Agent-Aware Schedulingにより,ホットスポットのミス率が33%から51%削減された。

    Link: https://arxiv.org/abs/2604.17353

  • 依然として私たちとの間にあるのか?音声アシスタントの第三者割り込みに対する堅牢性の評価と改善 [cs.CL, cs.AI, cs.SD]目的:第三者割り込みの識別能力向上
    • 音声アシスタントの活用が広がる中で,多者間対話の自然な実現が重要視されている。
    • 現在の音声アシスタントは,第三者割り込みとユーザーの発話を区別できず,文脈理解が困難である。
    • 音声アシスタントが,第三者割り込みを正確に検出し,適切な対応を行うことを目指す。
    • 新たなデータセットTPI-Trainと評価フレームワークTPI-Benchを開発した。
    • データセット設計により,モデルが意味的な手がかりに頼るのではなく,音声信号に注目するようになった。
    • 本研究は,音声アシスタントにおける多者間対話の実現に向けた基礎となるリソースを提供する。

    Link: https://arxiv.org/abs/2604.17358

  • PsychBench:大規模言語モデルにおけるメンタルヘルスシミュレーションの疫学的妥当性監査 [cs.CY, cs.AI]目的:大規模言語モデルによるメンタルヘルスシミュレーションの疫学的妥当性の評価
    • メンタルヘルスケアにおけるAI活用が進む中,シミュレーションの信頼性確保が重要である。
    • 既存の大規模言語モデルは,臨床的妥当性は高いものの,集団レベルでの代表性に課題がある。
    • 大規模言語モデルのシミュレーション結果と実際の疫学データの乖離を定量的に評価する。
    • 大規模言語モデルは臨床的には妥当に見える個体を作成するが,母集団を正確に表現できていないことが示された。
    • モデルによる分散の圧縮により,臨床現実の分布の裾が失われており,特にトランスジェンダー集団において乖離が大きかった。
    • モデルは,多くのグループにおいてうつ病の重症度を過大評価し,トランスジェンダー女性においては少数派ストレスを過小評価する傾向が見られた。

    Link: https://arxiv.org/abs/2604.17359

  • 教師誘導二重経路多プロトタイプ検索拡張フレームワーク:微細な医療画像分類 [cs.AI]目的:微細な医療画像分類における性能向上
    • 医療画像診断の精度向上は,疾患の早期発見と適切な治療に不可欠である。
    • 微細なクラス間差異や視覚的に曖昧なケースが多く,分類器の信頼性が課題となる。
    • 曖昧なケースにおける分類精度と予測の信頼性向上を目指す。
    • 提案手法T-DuMpRaは,識別的分類と多プロトタイプ検索を組み合わせることで,分類性能を向上させる。
    • 教師モデルを用いて生成されたプロトタイプバンクを活用し,曖昧なケースでの分類精度を高める。
    • HAM10000とISIC2019のデータセットで,様々なバックボーンで0.21%から2.69%の性能向上が確認された。

    Link: https://arxiv.org/abs/2604.17360

  • LLM誘導によるスケーラブルな等価性飽和戦略の合成 [cs.AI, cs.MA, cs.PL]目的:等価性飽和戦略の合成
    • プログラム最適化において,等価性飽和は効率的な手法であり,その性能は戦略に大きく依存する。
    • 効果的な戦略設計は手動で行われており,自動化されたeグラフベースのコンパイラの構築を妨げている。
    • LLMを用いて再利用可能な等価性飽和戦略を効率的に合成し,リソース使用量を削減することを目指す。
    • EggMindは,等価性飽和戦略を表現するためのドメイン固有言語EqSatLを導入した。
    • ベクトル化ベンチマークにおいて,EggMindは最終的なコストを45.1%,ピークRAMを69.1%削減した。
    • 本手法はXLAベースのテンソルコンパイラにも適用可能であり,論理合成のケーススタディでも有効性を示した。

    Link: https://arxiv.org/abs/2604.17364

  • ArgBench:計算論的議論タスクにおける大規模言語モデルのベンチマーク [cs.CL, cs.AI]目的:大規模言語モデルにおける計算論的議論能力の標準的な評価
    • 議論能力は,自己省察や多様な回答の生成,ヘイトスピーチへの対抗など,様々な応用において重要である。
    • 既存の研究はデータセット形式が統一されておらず,大規模言語モデルの議論能力を比較評価することが困難であった。
    • 統一されたベンチマークを用いて,大規模言語モデルの議論タスクにおける汎用性を評価し,性能向上要因を分析すること。
    • 本研究では,過去の33のデータセットを統合したArgBenchを構築し,大規模言語モデルの性能を46の計算論的議論タスクで評価した。
    • Few-shot事例,推論ステップ,モデルサイズ,学習能力が,大規模言語モデルの議論タスク性能に与える影響を詳細に分析した。
    • 結果から,これらの要因が大規模言語モデルの議論能力に重要な役割を果たしていることが示唆された。

    Link: https://arxiv.org/abs/2604.17366