arXiv雑要約

AI - 2026/05/12 公開

  • ペルソナチーム化:生成AIのレッドチーム活動を支援するペルソナ駆動型アプローチ [cs.HC, cs.AI, cs.CY]目的:生成AIの潜在的リスクを表面化させるためのペルソナ駆動型レッドチーム活動
    • 生成AIの安全性が重要視される中,そのリスク評価手法の開発が不可欠である。
    • 既存の自動レッドチーム手法は,人間の多様な視点や背景を考慮していない。
    • 人間の視点を取り入れたレッドチーム活動を促進し,AIとの協調を可能にすること。
    • ペルソナチーム化ワークフローは,最先端の自動レッドチーム手法RainbowPlusよりも高い攻撃成功率とプロンプトの多様性を実現した。
    • ペルソナチーム化プレイグラウンドは,レッドチーム担当者が独自のペルソナを作成し,AIと協働してプロンプトを改良できるインターフェースである。
    • ユーザー調査の結果,このツールは多様な戦略と有用なアウトプットを生み出し,AIによる提案が創造的な思考を促すことが示された。

    Link: https://arxiv.org/abs/2605.05682

  • SDFlow:類似度駆動型フローマッチングによる時系列生成 [cs.AI]目的:時系列生成のための類似度駆動型フローマッチング手法
    • 時系列データは,金融,医療,環境など幅広い分野で重要な役割を果たす。
    • 従来の自己回帰モデルは,長時間の生成において誤差の蓄積による品質劣化が課題である。
    • 本研究は,誤差蓄積を回避し,並列生成を可能にする新しい手法を開発することを目的とする。
    • SDFlowは,ベクトル量子化の潜在空間において,グローバルな輸送マップを用いることで,自己回帰モデル特有のexposure biasを解消する。
    • 潜在空間の高次元性に対処するため,学習されたアンカー事前分布を用いた低ランク多様体分解を導入する。
    • 変分フローマッチングの枠組み内で,コードブックインデックスに関するカテゴリカルな事後確率を導入することで,離散的な教師信号を連続的な輸送力学に組み込む。

    Link: https://arxiv.org/abs/2605.05736

  • autoPET3チャレンジ:全身PET/CTにおける自動病変セグメンテーション – マルチトレーサー多施設汎化 [cs.CV, cs.AI]目的:全身PET/CT画像における自動病変セグメンテーションの性能評価
    • PET/CT画像診断は,がんの診断,病期分類,治療効果評価に不可欠である。
    • 異なる施設やトレーサー間での汎化性能が課題であり,精度の向上が求められている。
    • 未知のトレーサー・施設組み合わせに対するセグメンテーション精度の改善を目指す。
    • 最上位アルゴリズムは,平均DSC 0.66,FNV 3.18 mL,FPV 2.78 mLを達成し,ベースラインよりもDSCが8%向上,偽陰性容積が5 mL減少した。
    • 同施設内でのマルチトレーサーPET/CTセグメンテーションは,読者間一致に近づいていることが示唆された。
    • 未学習のトレーサー・施設組み合わせへの汎化は未解決の課題であり,病変容積の過大評価が主な要因である。

    Link: https://arxiv.org/abs/2605.05775

  • 長視野Q学習:n段階不等式による高精度な価値学習 [cs.AI]目的:長期的な視野での価値関数学習の精度向上
    • 強化学習は,自律的な意思決定を可能にする重要な技術であり,その応用範囲は広い。
    • Q学習のような価値ベースの手法は,誤差の累積により長期的学習が不安定になりやすい。
    • 誤差の累積を抑制し,長期的な学習における安定性と精度を向上させること。
    • LQLは,最適行動価値関数学習における誤差の累積に対する効果的な抑制機構を提供する。
    • LQLは,観測された行動系列が最適方策の期待値を下回るという不等式を利用し,損失関数にペナルティを導入する。
    • 様々なベンチマークにおいて,LQLは1段階TD学習やn段階TD学習よりも優れた性能を示す。

    Link: https://arxiv.org/abs/2605.05812

  • 大容量カーネルホップフィールドネットワークにおける効率的なイベント駆動型検索 [cs.FL, cs.NE]目的:大容量カーネルホップフィールドネットワークの非同期検索ダイナミクス
    • ニューロモーフィックハードウェアの低消費電力化には,効率的なメモリモデルが不可欠である。
    • 従来のホップフィールドネットワークは,同期更新に依存しており,計算コストが高いという課題がある。
    • イベント駆動型ニューロモーフィックハードウェアへの実装に適した非同期検索ダイナミクスを確立する。
    • 適切なカーネルパラメータ調整により,非同期更新の軌跡は同期更新と統計的に区別がつかないことが示された。
    • ランダムパターンにおいて高い再現率を維持しつつ,古典的な限界を超える静的乱数パターン領域で約P/N≈30の記憶容量を達成した。
    • エラー訂正に必要な状態遷移回数が初期ハミング距離に近く,不要な振動が見られず,効率的な計算が確認された。

    Link: https://arxiv.org/abs/2605.05978

  • AIと科学の出会い:分野横断的な研究多様性,学際性,可視性,撤回に関するグローバルな急増 [cs.DL, cs.AI, cs.CY, cs.SI]目的:AI技術の科学研究への採用状況と影響の分析
    • 科学研究におけるAIの活用は,データ収集や分析に革命をもたらす可能性を秘めている。
    • AI技術の科学分野への導入は,分野や国によって差があり,その影響は限定的であるという問題がある。
    • AI技術の科学研究への広範な採用に伴う課題を明らかにし,より良い研究慣行を促進する。
    • 2015年以降,AI技術の採用は指数関数的に増加し,全分野でAI支援研究の数が少なくとも4倍になった。
    • AI支援研究は,コンピュータサイエンスや統計学といった特定の分野に偏っており,認識論的な変革の可能性は限定的である。
    • AI支援研究は,不当に高い被引用率を示す一方,多くの分野で撤回率が著しく高いという結果が出ている。

    Link: https://arxiv.org/abs/2605.06033

  • TFM-Retouche: 表形式ファウンデーションモデルのための軽量入力空間アダプター [cs.RO, cs.LG, cs.AI]目的:表形式ファウンデーションモデルの入力データと事前学習モデルの誘導的バイアスとの整合性向上
    • 表形式データ分析において,事前学習済みのファウンデーションモデルの活用が重要視されている。
    • 既存の手法は,フルファインチューニングの高コストや,PEFTのモデル依存性といった課題がある。
    • 入力空間での軽量なアダプターにより,モデルの適応性を高め,汎化性能を向上させることを目指す。
    • TFM-Retoucheは,モデルのアーキテクチャに依存せず,入力空間に小さな残差修正を学習する。
    • TabArena-Liteの51データセットにおいて,TabICLv2-Retoucheはリーダーボード1位を達成し,TabICLv2のEloを+56向上させた。
    • 予測精度,学習時間,推論時間のトレードオフにおいて,最適な性能を示すことが確認された。

    Link: https://arxiv.org/abs/2605.06047

  • VISD:構造化自己知識蒸留による動画推論の強化 [cs.CV, cs.AI]目的:動画推論における構造化自己知識蒸留フレームワーク
    • 動画理解は,現実世界の複雑な状況を理解する上で不可欠であり,その応用範囲は広い。
    • 動画推論において,長期的な時間軸に沿った正確な報酬の割り当てが困難であり,学習効率が低い。
    • 診断可能な情報を用いて,トークンレベルでの効率的な知識蒸留を実現し,学習の安定性と精度向上を目指す。
    • VISDは,動画の内容に基づいた判断モデルを用いて,推論の質を複数の次元に分解し,構造化されたフィードバックを提供する。
    • 報酬から計算される方向性と,構造化された情報から調整される更新幅を分離することで,学習の安定性を高めている。
    • 多様なベンチマークにおいて,既存手法を上回り,回答精度と空間・時間的な根拠付けの質を向上させ,学習の収束を速めている。

    Link: https://arxiv.org/abs/2605.06094

  • BoostLLM:少数ショット表形式分類のためのブースティングに着想を得たLLMファインチューニング [cs.LG]目的:少数ショット表形式分類におけるLLMの性能向上
    • 表形式データの予測において,勾配ブースティング決定木(GBDT)は高い性能を示す。
    • LLMを低データ環境で使用した場合,GBDTと比較して性能が制限されるという課題がある。
    • ブースティングのパラダイムをLLMのファインチューニングに応用し,性能向上を目指す。
    • BoostLLMは,パラメータ効率的なファインチューニングを多段階の残差最適化プロセスに変える。
    • 決定木のパスを第二の入力として統合することで,初期段階で構造化された教師信号を提供する。
    • 様々なLLMとデータセットで,標準的なファインチューニングを上回り,XGBoostと同等またはそれ以上の性能を示す。

    Link: https://arxiv.org/abs/2605.06117

  • 想像を信頼するタイミング:ワールドアクションモデルのための適応的行動実行 [cs.RO, cs.AI]目的:ワールドアクションモデルにおける適応的な行動実行
    • ロボットの操作において,将来の視覚情報と行動を予測するワールドアクションモデルが注目されている。
    • 既存モデルは固定長の行動実行を行うため,予測と現実の乖離に気づきにくいという課題がある。
    • 予測と現実の整合性を検証し,行動実行の長さを適応的に調整することで,効率と堅牢性を両立する。
    • 提案手法FFDCは,予測行動,視覚的変化,現実の観測,言語指示を総合的に判断し,予測の信頼性を評価する。
    • 実験の結果,RoboTwinベンチマークでは,WAMの推論回数を69.10%削減し,実行時間を34.02%短縮,成功率を2.54%向上させた。
    • 実機実験では,成功率が35%向上し,堅牢性と効率性のトレードオフを改善したことが示された。

    Link: https://arxiv.org/abs/2605.06222

  • 潜在空間KVキャッシュ操作によるLLMの操縦:メモリー・インセプション [cs.LG, cs.AI]目的:LLMの操縦方法
    • LLMの応用範囲拡大には,より効果的な操縦技術が不可欠である。
    • 従来のプロンプトや活性化ベクトル操作には,それぞれ課題が存在する。
    • 潜在空間でのKVキャッシュ操作による,効率的かつ効果的な操縦を実現する。
    • メモリー・インセプション(MI)は,特定の層にのみテキスト由来のKVバンクを挿入することでLLMを操縦する手法である。
    • MIは,性格操縦タスクにおいてプロンプトと同等の制御性能を示し,CAAを上回る結果となった。
    • 会話中の行動変化や構造化された推論においても優れた性能を示し,KVストレージを大幅に削減する。

    Link: https://arxiv.org/abs/2605.06225

  • 稀少疾患の診断とリスク遺伝子優先順位付けのための汎用AIエージェント [cs.AI, q-bio.GN]目的:稀少疾患の診断精度向上とリスク遺伝子の優先順位付け
    • 稀少疾患は診断が遅れやすく,適切な治療開始が困難になりがちである。
    • 既存の診断プロセスは時間がかかり,精度が低いという課題がある。
    • 多様なデータを統合し,診断戦略を最適化することで診断支援を行う。
    • Hygieiaは,複数の診断ベンチマークにおいて最先端の性能を達成した。
    • 臨床専門家との共同検証の結果,Hygieiaの診断性能は医師を12〜60%上回った。
    • Hygieiaは実際の症例における臨床記録の処理を支援し,臨床医の負担を軽減することが示された。

    Link: https://arxiv.org/abs/2605.06226

  • 事前活性化正則化によるリージョンシード:区分線形ニューラルネットワークの幾何学的視点 [cs.CL, cs.CL, cs.LG]目的:区分線形ニューラルネットワークにおけるアフィンリージョンの数を増やす手法
    • 深層学習モデルの表現能力を測る指標として,アフィンリージョンの数が重要視されている。
    • 標準的な学習では,データが存在する近傍でアフィンリージョンの分割が十分に進まない問題がある。
    • ニューロンの切り替え面をデータ点に近づけることで,アフィンリージョンの数を増やすことを目指す。
    • 提案手法は,早期の学習段階でデータに関連するリージョンをシードし,その後の学習ではタスク駆動型の洗練を可能にする。
    • 実験により,この正則化項はアフィンリージョンの数を増加させ,簡単なデータセットで性能が向上することが示された。
    • ImageNet-1kにおいても,従来のモデルと同等またはわずかに向上した精度を達成し,初期段階の精度も改善された。

    Link: https://arxiv.org/abs/2605.06300

  • 拡散言語モデルにおける層の崩壊 [cs.LG]目的:拡散言語モデルにおける活性化ダイナミクスの特徴付け
    • 言語モデルは自然言語処理の基盤技術であり,その性能向上は様々な応用分野に不可欠である。
    • 拡散言語モデルと自己回帰言語モデルでは活性化ダイナミクスに違いがあるものの,その詳細なメカニズムは未解明であった。
    • 拡散言語モデルにおける層の崩壊現象の原因を解明し,モデルの圧縮やデプロイメントへの影響を明らかにすること。
    • 拡散言語モデルLLaDA-8Bにおいて,初期の層で活性化パターンが類似し,単一の大きな外れ値に支配される「層の崩壊」という現象が確認された。
    • この外れ値は一見冗長に見えるが,削除すると出力が反復的なランダムトークンループに陥るため,重要な役割を果たしていることが示された。
    • 拡散言語モデルは量子化に対して頑健であり,Llamaと比較して,より高い性能を維持することが確認された。また,スパース化における層ごとの割り当て戦略がモデルの種類によって異なることも明らかになった。

    Link: https://arxiv.org/abs/2605.06366

  • 出力よりも過程が重要:人間と機械の識別 [cs.AI]目的:人間と機械を識別するための過程の重要性
    • オンライン環境でAI利用が拡大し,人間と機械の識別が不可欠となっている。
    • 従来の評価は出力の類似性に焦点を当てており,人間の認知過程との差異を見過ごしやすい。
    • 認知過程に着目することで,より信頼性の高い人間と機械の識別を目指す。
    • 認知タスクのバッテリー「CogCAPTCHA30」を用いて,過程レベルの特徴量が,出力の一致下でも人間と機械を識別できることが示された。
    • 人間による意思決定データを用いたファインチューニングは,機械の人間らしい過程を改善するが,タスク間の汎化には限界がある。
    • 適切なタスク固有の過程表現が利用可能であれば,過程レベルの監督学習により,人間らしい行動の模倣を向上させることができる。

    Link: https://arxiv.org/abs/2605.06524

  • LLMに長期的な推論を教えることができるか?表現力が鍵となる [cs.AI, cs.CL]目的:大規模言語モデルの推論能力に対する強化学習の応用における,訓練規模とタスク難易度の関係性の体系的検証
    • 大規模言語モデルの推論能力向上は,AI研究における重要な課題であり,様々な応用への展開が期待されている。
    • 既存の環境では,難易度を制御しながら大規模な訓練を行うことが難しく,長期的推論のボトルネックを特定できていなかった。
    • 論理的表現力の異なる環境で訓練することで,長期的な推論能力の向上可能性と,そのための効果的な訓練方法を明らかにすること。
    • 訓練計算量は推論の深さに対してべき乗則に従い,論理的表現力が大きくなるほどべき乗則の指数が増加することを示した。
    • より表現力豊かな訓練設定は,数学や一般的な推論ベンチマークにおいて,性能向上と計算効率の良い転移学習を可能にすることを示した。
    • 大規模言語モデルの長期推論における課題は,アーキテクチャの根本的な限界ではなく,訓練方法とデータによって改善可能であることを示した。

    Link: https://arxiv.org/abs/2605.06638

  • 蛍光タンパク質の量子収率予測のための成熟クロモフォア領域3Dメカニズムグラフにおけるエッジ特異的信号伝播 [cs.LG]目的:蛍光タンパク質の量子収率予測手法
    • 蛍光タンパク質は,バイオイメージング等の分野で広く利用されており,その特性理解が重要である。
    • 従来の量子収率予測は,アミノ酸配列情報に依存しており,局所的な物理的信号の影響が考慮されていなかった。
    • クロモフォア領域を中心としたメカニズムグラフを用いて,量子収率予測の精度向上を目指す。
    • 提示手法は,既存のモデルと比較して,ランダム交差検証において最良の結果を示した(R = 0.772 +/- 0.008)。
    • 特に,配列類似度が低いタンパク質群において,他の手法を上回る性能が確認された。
    • 安定的に選択された特徴量から,蛍光タンパク質のバンド特性に応じたメカニズムが明らかになった。

    Link: https://arxiv.org/abs/2605.06644

  • 疎な注意機構を範囲探索問題として捉える:KVキャッシュのための効率的なインデックス構築へ [cs.LG]目的:KVキャッシュの効率的なインデックス構築
    • 大規模言語モデルの推論効率化が求められており,計算コストの削減が重要課題である。
    • 従来の疎な注意機構では,重要なKVペアを省略することで精度低下が発生する可能性がある。
    • KVペアの完全な再現率を保証しつつ,推論時の効率性を高めるインデックス構築を目指す。
    • 本研究では,疎な注意機構を半空間範囲探索問題として再構築することで,ゼロの誤検出を理論的・実証的に保証するLouverという新しいインデックス構造を提案した。
    • Louverは,既存の疎な注意機構と比較して,精度と実行速度の両方において優れていることが実験的に示された。
    • また,Louverは最適化された密な注意機構であるFlashAttentionよりも高速であり,再現率保証が疎な注意機構の重要な側面であることが強調された。

    Link: https://arxiv.org/abs/2605.06763

  • LLMの推論過程から探索木を抽出することによる近視眼的計画の解明 [cs.AI]目的:LLMの計画立案の構造と性能への影響の解明
    • LLMの推論能力向上は,複雑な問題解決に不可欠であり,そのメカニズム解明が重要である。
    • LLMが示す計画立案能力が,真の計画と言えるのか,その構造が不明確である。
    • LLMの計画立案における探索の深さと広がりが,性能にどのように影響するかを明らかにする。
    • LLMの探索は人間と比較して浅い傾向があり,性能は探索の深さよりも広さに依存することが示された。
    • LLMは深い探索ノードを展開するものの,実際の行動選択は,それらを無視した近視的なモデルで説明できる。
    • CoTの段落を削除する介入実験からも,行動選択は浅いノードに強く影響されることが示唆された。

    Link: https://arxiv.org/abs/2605.06840

  • ベンチマークは計測できても,実用性は計測できていない - 生成AIは現実世界の有用性に基づいて評価されるべきである [cs.LG, cs.CL]目的:生成AIの現実世界における有用性の評価
    • 生成AIの発展は,様々な分野での応用に期待されており,社会への貢献が重要視されている。
    • 既存の評価方法は,ベンチマーク上の性能に偏っており,実際の利用場面での有用性を反映していないという問題がある。
    • 現実世界の利用状況におけるAIの有用性を正確に評価し,より実用的なAI開発を促進すること。
    • 生成AIは標準的なベンチマークでは高い性能を示すものの,教育,医療,ソフトウェアエンジニアリング,法律などの分野での実用性が伴わないことが確認された。
    • この乖離は,評価方法における代理指標の置換,時間的変化の無視,分布の隠蔽という3つの要因が原因であると考えられる。
    • 有用性を評価するためには,ステークホルダー,目標,文脈を考慮した長期的な測定が必要であり,SCU-GenEvalという評価フレームワークを提案する。

    Link: https://arxiv.org/abs/2605.06856

  • HyperEyes:効率を考慮した二重粒度強化学習による並列マルチモーダル検索エージェント [cs.MA, cs.CY, cs.LG, cs.AI]目的:並列マルチモーダル検索エージェントの効率性と精度向上
    • マルチモーダル検索は,複雑な情報を扱う上で不可欠であり,その性能が様々な応用分野に影響を与える。
    • 既存のエージェントは逐次処理が中心で,複数の独立した検索を並行して処理する能力に課題があった。
    • 本研究では,並列処理と効率性を重視し,より少ないステップで高精度な検索を実現することを目指す。
    • HyperEyesは,視覚的根拠付けと検索を単一のアクションに統合することで,複数のエンティティに対する同時検索を可能にした。
    • 効率性を重視した強化学習フレームワークを開発し,不必要なツール呼び出しを抑制しつつ,多段階検索を促進する報酬関数を導入した。
    • 新たなベンチマークIMEBを導入し,検索能力と効率性を同時に評価した結果,既存のエージェントを大きく上回る性能を示した。

    Link: https://arxiv.org/abs/2605.07177

  • データからのインサイト発見エージェントによる自律型ビジネスインテリジェンスの実現に向けて [cs.AI]目的:データからインサイトを発見するプロセスを自律化するためのフレームワーク
    • 企業活動において,データに基づいた迅速な意思決定が重要であり,ビジネスインテリジェンスの役割は大きい。
    • 複雑なデータベース構造や動的なSQL生成の限界により,LLMが企業データを効果的に分析することが困難である。
    • 多様な視点からの深層的な分析を可能にし,ビジネスインテリジェンスを自律的に行うための枠組みを構築する。
    • 提案手法AIDAは,複雑なビジネス環境における自律的な探索を実現する初のエンドツーエンドフレームワークである。
    • 実験結果から,AIDAは従来のワークフローベースのエージェントよりも大幅に優れた性能を示すことが明らかになった。
    • AIDAは,環境認識能力と多様な視点からの深層分析において,より優れた結果を達成することが確認された。

    Link: https://arxiv.org/abs/2605.07202

  • GraphReAct: 多段階グラフ推論のための推論と行動 [cs.CL, cs.AI]目的:グラフ構造データに対する多段階推論
    • グラフデータは構造化されており,多様な分野で利用が拡大している。
    • グラフにおける効率的な推論には,構造と意味情報の両方を活用する必要がある。
    • 多段階推論において,文脈の拡張と圧縮を効果的に行うこと。
    • GraphReActは,グラフデータ上の段階的な推論を可能にする推論-行動フレームワークである。
    • トポロジカル検索とセマンティック検索という2つの補完的な検索行動を用いることで,文脈を動的に拡張する。
    • 文脈の洗練という行動により,蓄積された情報をコンパクトな表現に変換し,推論を支援する。

    Link: https://arxiv.org/abs/2605.07357

  • StreamPhy:状態空間モデルによる高次元物理ダイナミクスのストリーミング推論 [cs.LG]目的:高次元かつ多岐にわたる物理場の時間発展の推論
    • 科学技術において,不規則な疎な観測データからリアルタイムで物理現象を理解することは重要である。
    • 既存手法はオフライン処理,完全な時間観測への依存,または高い推論コストが課題となっていた。
    • 不規則な疎な観測データから効率的かつ正確な物理場のダイナミクスをストリーミング推論することを目指す。
    • StreamPhyは,データ適応型の観測エンコーダ,構造化された状態空間モデル,そしてFT-FiLMデコーダを統合する。
    • FT-FiLMは機能的タッカーモデルよりも表現力が高く,複雑なダイナミクスを扱える関数クラスを提供する。
    • 3つの代表的な物理システムにおいて,StreamPhyは最先端手法を上回り,精度が48%以上向上し,推論速度は20〜100倍向上した。

    Link: https://arxiv.org/abs/2605.07384

  • 分布推定を超えて:普遍的半教師あり学習に向けたシンプレックスアンカー構造推論 [cs.LG]目的:半教師あり学習における構造推論による表現学習の指針確立
    • 現実的なデータ利用場面において,ラベル付きデータは不足しがちであり,その重要性は高い。
    • 既存手法は,ラベルなしデータの分布を仮定するか,十分なラベルデータが必要であり,現実との乖離が生じやすい。
    • ラベルなしデータの分布推定に依存せず,サンプル間の関係性から構造を推論し,表現学習を改善することを目指す。
    • 提案手法SAGEは,高次のサンプル間依存関係を捉え,表現学習を導く構造的コンセンサスを確立する。
    • シンプレックス等角タイトフレームを用いて,クラス間表現分離を促進し,表現の混乱を抑制する。
    • 分布に依存しない指標に基づく重み付け戦略と補助ブランチにより,信頼性の高い擬似ラベルを優先し,誤ったラベルを分離する。

    Link: https://arxiv.org/abs/2605.07557

  • 応答G1:プロアクティブなストリーミング動画理解のための明示的なシーングラフモデリング [cs.CV, cs.AI]目的:ストリーミング動画の展開に応じて応答を決定する際の,動画LLMの能力向上
    • 動画理解は,様々な応用において不可欠であり,その重要性は高まっている。
    • 既存手法は,視覚的証拠の暗黙的なモデリングに頼っており,応答タイミングの精度に課題がある。
    • シーングラフを用いることで,動画とクエリ間の関係を明示的に捉え,応答タイミングの改善を目指す。
    • Response-G1は,オンラインでクエリに基づいてシーングラフを生成し,過去のシーングラフを検索する。
    • これにより,動画の証拠と応答条件を共有のグラフ表現で結びつけ,解釈可能性と正確性を向上させる。
    • 実験結果から,Response-G1がプロアクティブおよびリアクティブなタスクにおいて既存手法を上回ることが示された。

    Link: https://arxiv.org/abs/2605.07575

  • 言語モデルが自身の批評家となる:アクターの内部状態からの価値推定による強化学習 [cs.LG, cs.AI, cs.CL]目的:大規模推論モデルにおける検証可能な報酬を用いた強化学習の効率化
    • 大規模言語モデルの能力向上には,報酬信号に基づいた強化学習が不可欠である。
    • 従来の強化学習手法は,計算コストが高く,学習の安定性に課題があった。
    • 言語モデル自身の内部状態を利用し,効率的かつ安定な強化学習を実現すること。
    • 提案手法POISEは,ポリシーモデルの内部信号を用いて価値推定を行うことで,計算コストを大幅に削減した。
    • POISEは,Qwen3-4BとDeepSeek-R1-Distill-Qwen-1.5Bにおいて,既存手法DAPOと同等の性能を,より少ない計算量で達成した。
    • POISEの価値推定器は,独立した大規模言語モデルを用いた価値モデルと同程度の性能を示し,様々な検証可能なタスクに汎化可能である。

    Link: https://arxiv.org/abs/2605.07579

  • 運用設計ドメイン内での運用:ビジョン言語モデルによるゼロショット知覚 [cs.CV, cs.AI, cs.RO]目的:自動運転システムの安全な実装と監査に不可欠な,運用設計ドメイン要素の知覚
    • 自動運転技術の実用化には安全性への配慮が不可欠であり,その鍵となるのが運用設計ドメインの定義である。
    • 従来のシステムは特定のタスクに特化した学習データが必要であり,運用設計ドメインの変更に柔軟に対応できない。
    • タスク固有の学習データなしに運用設計ドメインを認識できる,適応可能な知覚システムの実現を目指す。
    • 定義に基づいた思考連鎖プロンプトとペルソナ分解が最も高い性能を発揮し,他の手法ではリコールが低下する可能性がある。
    • 4つのビジョン言語モデルを用いた実験により,ゼロショットでの運用設計ドメインの分類と検出が可能であることが示された。
    • 今回の研究成果は,安全性重視のアプリケーションにおける,透明性があり効果的な運用設計ドメインに基づく知覚の実現に貢献する。

    Link: https://arxiv.org/abs/2605.07649

  • APEX:仮定を用いない射影ベースの埋め込み調査指標による画像品質評価 [cs.CV, cs.AI]目的:画像品質評価のための新しい指標
    • 画像生成技術の進歩に伴い,生成画像の品質評価は重要性を増している。
    • 従来の評価指標は,特徴量のボキャブラリの制限やパラメータ設定の偏りに課題がある。
    • これらの課題を克服し,よりロバストで安定した評価指標を開発すること。
    • APEXは,数学的に正当なSliced Wasserstein Distanceを利用し,仮定を用いない評価フレームワークを構築した。
    • APEXは,CLIPやDINOv2といったオープンボキャブラリの基盤モデルを活用し,埋め込み表現に依存しない。
    • 実験結果から,APEXは既存の指標と比較して,視覚的な劣化に対するロバスト性が高く,データセット間の安定性も優れていることが示された。

    Link: https://arxiv.org/abs/2605.07786

  • カテゴリカルフローマップのスケール拡大 [cs.LG]目的:言語モデリングにおけるカテゴリカルフローマップのスケーラビリティの検証
    • 言語モデリングは,自然言語処理の基盤技術であり,その性能向上は重要な課題である。
    • 従来の自己回帰モデルは計算コストが高く,サンプリング速度が遅いという課題がある。
    • 大規模なデータで効率的なサンプリングを可能にする新しい言語モデルの構築を目指す。
    • 1.7Bパラメータのベースフローモデルを2.1Tトークンで学習し,自己蒸留により,わずか4ステップで多様で高品質なテキストを生成するCFMを構築した。
    • 半離散設定におけるCFMの尤度上限を導出し,標準的な言語モデルのベンチマークで離散拡散法と同等の結果を達成した。
    • 大規模モデルの学習における課題を明らかにし,損失の重み付けと時間計画に関する知見を提供した。

    Link: https://arxiv.org/abs/2605.07820

  • NSPOD:DeepONet学習済みPOD部分空間によるクライロフソルバーの高速化 [math.NA, cs.LG, cs.NA]目的:クライロフソルバーの高速化
    • 偏微分方程式の数値解法において,効率的な線形ソルバーは計算コスト低減に不可欠である。
    • クライロフソルバーの収束性は,問題設定に大きく依存し,汎用的な高速化手法が課題である。
    • DeepONetを用いた新しい事前条件付け手法NSPODを開発し,クライロフソルバーの収束性を改善する。
    • NSPODは,従来の事前条件付け手法と比較して,クライロフソルバーの反復回数を大幅に削減できる。
    • 複雑なCAD形状の非構造化メッシュにおいても,学習済みのNSPODは高い性能を発揮する。
    • 本研究は,固体力学における偏微分方程式の効率的な数値解法に貢献する。

    Link: https://arxiv.org/abs/2605.07828

  • Tree SAE:スパースオートエンコーダにおける階層的特徴構造の学習 [cs.LG]目的:スパースオートエンコーダにおける階層的特徴構造の学習
    • 現実世界のデータは構造化されており,それを捉えることが重要である。階層的特徴学習はその鍵となる。
    • 既存手法では,活性化カバレッジに頼るため,意味的に関連性のない概念が親子関係と誤認される場合がある。
    • 活性化と再構成の制約を組み合わせ,より深い機能的リンクを強制することで,正確な階層構造学習を目指す。
    • Tree SAEは,既存のSAEと比較して,階層的なペア学習において有意な性能向上を示す。
    • 主要なベンチマークにおいても,最先端モデルと同等の競争力のある性能を維持している。
    • Tree SAEは,大規模言語モデル内の複雑な階層的概念構造を明らかにする上で実用性がある。

    Link: https://arxiv.org/abs/2605.07922

  • 1フレーム1トークン:VLAポリシーのためのワールドモデルにおける視覚帯域幅の再検討 [cs.CV, cs.AI]目的:VLA(視覚-言語-行動)ポリシーのためのワールドモデルにおける視覚帯域幅の最適化
    • VLAモデルは長期的な計画に不可欠だが,そのパラメータ化方法は未解決の課題である。
    • 既存手法では,高視覚帯域幅が必要となり,計算資源の制約下で表現力向上が難しい。
    • フレームごとの視覚情報を圧縮し,効率的なワールドモデルを構築することを目指す。
    • 提案手法OneWM-VLAは,フレームごとの視覚情報を1つの意味的トークンに圧縮することで,視覚帯域幅を大幅に削減できる。
    • MetaWorld MT50における成功率は47.9%から61.3%に向上し,LIBERO-Longでは95.6%という高い性能を達成した。
    • 実ロボットPiperアームを用いたFold Clothタスクにおいても,成功率が20.0%から60.0%に向上した。

    Link: https://arxiv.org/abs/2605.07931

  • 混合法:対角制約を持つ半定値計画法のための低ランク座標降下法 [math.OC, cs.LG, stat.ML]目的:対角制約付き半定値計画法に対する低ランク座標降下法の開発
    • 半定値計画法は,組合せ最適化問題など広範な分野で強力な解法を提供する。
    • 大規模な半定値計画問題は計算コストが高く,効率的な解法が求められている。
    • 既存手法の性能向上と,より大規模な問題への適用を目指す。
    • 提案手法「Mixing法」は実装が容易であり,パラメータ調整も不要である。
    • 最適化性能において,既存手法を大幅に上回る結果が得られた。
    • ランダム初期化下で,ほぼ確実に局所線形収束により大域的最適解に到達することが証明された。

    Link: https://arxiv.org/abs/1706.00476

  • 非対称な運動量分布を持つハミルトニアンモンテカルロ法 [stat.ML, cs.LG, math.PR, math.ST, stat.TH]目的:ハミルトニアンモンテカルロ法の収束性
    • 統計的推論において,複雑な確率分布からのサンプリングは重要な課題である。
    • 従来のハミルトニアンモンテカルロ法は,対称な運動量分布に依存しており,その制限が問題視されていた。
    • 非対称な運動量分布でも収束性を保証する新たなハミルトニアンモンテカルロ法を提案し,その有効性を検証する。
    • 本研究では,非対称な運動量分布を持つハミルトニアンモンテカルロ法の収束性を厳密に解析するための新しい動的および確率的議論を提示した。
    • 提案手法であるAD-HMCは,Wasserstein距離において幾何学的収束性を示すための十分条件が確立された。
    • 数値実験の結果,AD-HMCは,ガウス補助変数を用いたHMCと比較して,性能が向上することが示唆された。

    Link: https://arxiv.org/abs/2110.12907

  • リスク回避とスパース性制御のための射影不要関数制約最適化 [math.OC, cs.LG]目的:リスク回避とスパース性制御のための関数制約最適化
    • ポートフォリオ最適化や放射線治療計画などに応用され,金融工学や医療分野において重要である。
    • リスクを考慮した基準とスパース性が同時に求められる場合に,効率的な解法が課題となっていた。
    • 射影を必要としない手法により,大規模な問題に対しても実用的な解を効率的に探索することを目指す。
    • 凸最適化問題に対して,レベル条件付き勾配法(LCG)を提案し,滑らかおよび非滑らかな場合に優れた計算複雑性を実現した。
    • 非凸最適化問題に対して,不正確な近接点法LCG(IPP-LCG)を提案し,KKT点への収束性を示した。
    • ポートフォリオ選択とIMRTの数値実験により,提案手法のスパース性とリスクのトレードオフを実証した。

    Link: https://arxiv.org/abs/2210.05108

  • 物理情報ニューラルネットワークのためのベイズ推論 [physics.comp-ph, cs.LG, physics.flu-dyn, stat.ML]目的:物理情報ニューラルネットワークにおける損失重みの自動最適化
    • 物理法則とデータ駆動型モデリングの融合が重要であり,複雑な現象の理解を深める。
    • 損失重みの設定が難しい上に,事後分布の計算にコストがかかるという課題がある。
    • 損失重みの最適化とモデル間の比較を効率的に行うための手法を確立すること。
    • 提案手法では,ラプラス近似を用いてモデルエビデンスを解析的に計算することで,効率的なハイパーパラメータチューニングを実現した。
    • 熱,波,バーガース方程式の解において,正確な結果または参照結果との一致が確認された。
    • バーガース方程式の例では,支配方程式とノイズのある測定値からの情報を統合し,予測不確実性を得ることができた。

    Link: https://arxiv.org/abs/2308.13222

  • FunnelNet:リアルタイム心雑音モニタリングのためのエンドツーエンド深層学習フレームワーク [eess.SP, cs.LG, cs.SD, eess.AS]目的:リアルタイム心雑音検出手法の開発
    • 心雑音は心臓の異常な音であり,早期発見が重要である。医療現場での負担軽減に繋がる。
    • 従来の診断法は,専門知識,費用,ノイズの影響などの課題を抱えている。
    • 限られた環境下でも高精度なリアルタイム心雑音検出を可能にする軽量モデルを提案する。
    • 提案手法FunnelNetは,約5.4kパラメータで,精度85%,感度85%,特異度92%を達成した。
    • Raspberry Pi 4Bでは平均91%,Androidスマートフォンでは80%のリアルタイム推論精度を確認した。
    • 本研究は,リソースに制約のある環境下でのアクセス可能な医療診断の可能性を示す。

    Link: https://arxiv.org/abs/2405.09570

  • TxGraffitiによる自動予想生成 [math.CO, cs.AI]目的:数学における予想生成の自動化
    • 数学研究において,新たな発見を促す予想は重要な役割を果たす。
    • 手動での予想生成には限界があり,体系的な探索が困難である。
    • TxGraffitiを用いて,数学的予想の生成プロセスを効率化する。
    • TxGraffitiは,データ駆動型であり,様々な数学分野における予想生成を自動化する。
    • プログラムの設計原理,データ収集方法,予想の絞り込み手法などを解説する。
    • グラフ理論への貢献に加え,他の数学分野への応用可能性も示唆している。

    Link: https://arxiv.org/abs/2409.19379

  • 未知のTruncationにおける効率的統計,多項式時間アルゴリズム,ガウス分布を超える [math.ST, cs.DS, cs.LG, stat.CO, stat.ML, stat.TH]目的:未知のTruncation下での分布パラメータ推定
    • データ分析において,サンプルが一部しか得られない状況は頻繁に発生する。その効率的な解析手法が求められている。
    • Truncationされたデータからの正確なパラメータ推定は,計算量的に困難であることが知られている。
    • Truncationされたデータに対しても,効率的なパラメータ推定アルゴリズムを開発すること。
    • 任意の指数族分布に対し,次数$\ell$の多項式で$\varepsilon$-近似可能な未知の集合$S$下での時間$d^{\mathrm{poly}(\ell/\varepsilon)}$アルゴリズムを提案した。
    • このアルゴリズムは,未知の$S$にTruncationされたガウス分布のパラメータ推定と,Truncationされたガウス特徴量を持つ線形回帰に初めて適用できる。
    • $S$が半空間や軸平行矩形の場合,時間$\mathrm{poly}(d/\varepsilon)$で動作するアルゴリズムを提示した。

    Link: https://arxiv.org/abs/2410.01656

  • 階層型強化学習トレーダー:株式選択と約定の最適化に向けた二層アプローチ [quant-ph, cs.CC, q-fin.TR, cs.CE, cs.LG]目的:株式ポートフォリオにおける,市場とニュースのシグナルを基にした資産配分戦略の最適化
    • 金融市場において,自動取引システムの重要性は高まっており,効率的な資産運用が求められている。
    • 市場のノイズや取引コスト,リスク管理といった課題が,自動取引システムの性能向上を阻害している。
    • 市場予測とテキスト情報に基づくリスクシグナルを組み込み,より効果的なポートフォリオ管理を実現すること。
    • 提案手法HRTは,既存の強化学習ベースの手法と比較して,リターン・リスク・コストのトレードオフにおいて優れた性能を示した。
    • HRTは,シャープレシオを1.06から1.24に向上させ,日次の取引回転率を0.112から0.090に低減することに成功した。
    • 疎な方向性選択とリスクを考慮した約定の分離が,ポートフォリオ管理における有効なアプローチであることが示唆された。

    Link: https://arxiv.org/abs/2410.14927

  • 局所ベイズ最適化を用いた差分プライバシーに基づくハイパーパラメータチューニング [stat.ML, cs.LG]目的:差分プライバシーを保証したハイパーパラメータチューニング手法
    • 機械学習の性能はハイパーパラメータに大きく依存するため,適切なチューニングが不可欠である。
    • 検証データに機密情報が含まれる場合,チューニング過程でプライバシーが侵害される可能性がある。
    • 高次元ハイパーパラメータ空間でも効率的にプライバシーを保護したチューニングを実現すること。
    • DP-GIBOは,ガウス過程を用いて勾配を近似することで,局所ベイズ最適化を差分プライバシー保護下で行う。
    • 理論的に,DP-GIBOはプライバシーに依存する誤差内で,局所最適解に収束することが証明された。
    • 実験的に,DP-GIBOはランダムサーチやグローバルベイズ最適化よりも優れた性能を示した。

    Link: https://arxiv.org/abs/2502.06044

  • OrderFusion:注文板情報のエンコードによる日内電力価格の確率的予測 [q-fin.CP, cs.AI, cs.LG]目的:日内電力価格の確率的予測手法
    • 再生可能エネルギーの導入拡大により,電力需給の変動性が増大しており,高精度な価格予測が不可欠である。
    • 従来の予測手法では,注文板の複雑な相互作用構造を十分に捉えられていない。
    • 注文板情報の相互作用を考慮した新たな予測モデルを開発し,予測精度向上を目指す。
    • 提案手法OrderFusionは,注文板の買売情報を効率的にエンコードし,確率的な価格予測を行う。
    • 予測される分位数が交差する問題を回避するため,階層的な制約を導入している。
    • ヨーロッパの高・低流動性市場における実験により,既存手法と比較して予測性能が向上することが示された。

    Link: https://arxiv.org/abs/2502.06830

  • Liouville PDEに基づくスライス Wasserstein フロー [math.AT, cs.CG, stat.ML, cs.LG, math.PR, math.ST, stat.CO, stat.TH]目的:Liouville PDEに基づくスライス Wasserstein フローの形式化
    • 生成モデルの分野において,確率分布の比較や生成は重要な課題である。
    • 既存のスライス Wasserstein フローは,計算コストが高く,スケーラビリティに課題がある。
    • Liouville PDEを用いることで,計算効率を向上させ,公平性を考慮した生成を目指す。
    • Liouville PDEに基づくSWFとSWF重心の学習・テストにおいて,収束性と分散の低減が確認された。
    • 生成されたSWF重心は,標準的なSWFと同等の精度を示し,公平性指標において改善が見られた。
    • 公平性と精度を両立した回帰タスクにおいて,スケーラビリティの面で既存手法を上回る結果が得られた。

    Link: https://arxiv.org/abs/2505.17204

  • スライディングウィンドウ型情報正準相関分析 [q-fin.PM, cs.CE, stat.ML, cs.LG, eess.IV, math.ST, stat.CO, stat.ME, stat.TH]目的:二つのデータセット間の相関のある特徴量集合の発見
    • データ解析において,多変量データの関係性を把握することは重要である
    • 既存の正準相関分析は,静的なデータセットにしか適用できない
    • ストリーミングデータに対応可能な,リアルタイムな相関分析手法の確立
    • 本研究では,ストリーミングデータに対応したSWICCAを提案した
    • SWICCAは,スライディングウィンドウとストリーミングPCAを用いることで,リアルタイムな相関成分推定を実現する
    • シミュレーションと実データ分析により,高次元データへの適用性とスケーラビリティが示された

    Link: https://arxiv.org/abs/2507.17921

  • MECAT:詳細な音声理解タスクのためのマルチ専門家構築型ベンチマーク [eess.AS, cs.AI, cs.CL, cs.SD]目的:詳細な音声理解のためのベンチマーク
    • 音声と言語の融合は,人間のような高度な音声理解を実現する上で重要である。
    • 既存のベンチマークは,アノテーションや評価指標の限界から,モデルの性能を正確に評価できない。
    • 詳細な音声理解能力を評価するための信頼性の高いベンチマークを構築し,評価指標を改善する。
    • MECATは,専門家モデルと大規模言語モデルの推論を組み合わせることで,多角的な詳細なキャプションと質問応答ペアを提供する。
    • 新たな評価指標DATEは,汎用的な表現を抑制し,詳細な記述を促進することで,より識別的な評価を可能にする。
    • 最先端の音声モデルの評価を行い,その能力と限界に関する新たな知見を得た。

    Link: https://arxiv.org/abs/2507.23511

  • SpectraLLM:マルチスペクトルデータからの分子構造推定におけるLLMの能力の解明 [q-bio.QM, cs.CE, cs.LG]目的:分子構造推定の能力
    • 創薬や材料科学において,分子構造の正確な決定は不可欠である。
    • 既存手法はデータベース依存や単一の分光法に限定され,汎用性に課題がある。
    • 複数の分光データを統合的に解析し,高精度な構造推定を実現すること。
    • SpectraLLMは,様々な分光データを言語空間で統合的に処理することで,高い構造推定精度を達成した。
    • 単一の分光データのみでも堅牢な性能を示し,複数の分光データを組み合わせることで更なる精度向上を実現した。
    • 言語ベースの分光分析に対するスケーラブルなパラダイムを確立した。

    Link: https://arxiv.org/abs/2508.08441

  • ネットワークにおける異質因果効果の推定:直交学習によるアプローチ [stat.ML, cs.LG]目的:ネットワークにおける異質直接効果とスピルオーバー効果の推定
    • ネットワーク分析は,社会現象や情報伝播の理解に不可欠であり,因果効果の推定は政策立案に役立つ。
    • ネットワーク構造が複雑であるため,交絡因子や依存関係を考慮した因果効果の推定が困難である。
    • 個々のノードやエッジにおける異質性を考慮した因果効果の推定手法を開発し,より正確な分析を目指す。
    • 本研究では,グラフニューラルネットワークを用いて,複雑な依存関係を捉えるためのナイスアンス成分を推定する。
    • 推定されたナイスアンス成分を除去し,解釈可能なアテンションベースの干渉モデルを用いて因果効果を推定する。
    • ブートストラップ法を用いてスピルオーバー行列の不確実性を評価し,信頼性の高い推論を可能にする。

    Link: https://arxiv.org/abs/2509.18484

  • 不偏なフロントドア学習器:異質効果の推定 [stat.ML, cs.LG]目的:異質治療効果の推定
    • 観察データから因果効果を推定する重要性から,交絡因子が存在する場合でも適切な手法が求められる。
    • 観測されない交絡因子が存在する場合,単純な手法では因果効果を正確に推定できないという課題がある。
    • 仲介変数を介した因果推論(フロントドア基準)において,より信頼性の高い異質効果推定を目指す。
    • 提案手法(FD-DR学習器およびFD-R学習器)は,サンプル分割などの仮定のもとで,誤差の上限が保証されている。
    • シミュレーション実験および実際のデータ(自動車のシートベルト法)を用いて,提案手法のロバスト性とサンプル効率が実証された。
    • 提案学習器は,フロントドア基準が妥当である場合に,信頼性の高い異質効果推定を提供する。

    Link: https://arxiv.org/abs/2509.22531

  • GenCellAgent:大規模言語モデルエージェントによる汎用的な学習不要細胞画像セグメンテーション [math.OC, cs.SY, eess.SY, q-bio.QM, cs.AI, cs.CV, cs.MA]目的:細胞画像セグメンテーションの汎用性と効率性の向上
    • 定量生物学において細胞の形態や状態を正確に把握するため,細胞画像セグメンテーションは不可欠である。
    • 細胞画像は,モダリティの多様性や細胞の形態変化,アノテーション不足により,正確なセグメンテーションが困難である。
    • 学習データが少なくても,様々な細胞画像を正確にセグメンテーションできる手法を開発し,アノテーションの負担を軽減する。
    • GenCellAgentは,複数のセグメンテーションツールと視覚言語モデルを組み合わせた学習不要のマルチエージェントフレームワークである。
    • 7つの細胞セグメンテーションベンチマークにおいて,GenCellAgentは既存のツールやベースラインモデルを上回り,高い精度を達成した。
    • 特に,未知のオルガネラデータに対して,GenCellAgentは専門モデルよりも大幅に優れた性能を示し,検出が困難な構造を復元した。

    Link: https://arxiv.org/abs/2510.13896