arXiv雑要約

AI - 2026/05/19 公開

  • 供給制約下におけるオフポリシー学習 [cs.LG]目的:文脈的バンディットにおけるオフポリシー学習の性能向上
    • レコメンデーションやオンライン広告など,実世界への応用範囲が広い重要な研究分野である。
    • 既存のオフポリシー学習は供給無制限を前提とし,供給制約下では性能が低下する可能性がある。
    • 供給制約下でも効率的なアイテム配分を可能にする新しいオフポリシー学習手法の開発。
    • 従来のオフポリシー学習手法では,アイテムの早期枯渇により性能が最大化されない場合がある。
    • 提案手法OPLSは,他のユーザーと比較して期待報酬が高いアイテムに焦点を当て,効率的なアイテム配分を実現する。
    • 合成データおよび実データを用いた実験により,OPLSが既存手法を上回る性能を示すことが確認された。

    Link: https://arxiv.org/abs/2603.18702

  • 両様有利な多重決闘バンディット:コンドルセ・ボルダ目標における確率的・敵対的嗜好に対する統合アルゴリズム [cs.LG]目的:確率的および敵対的環境下における多重決闘バンディット問題に対する最適アルゴリズム
    • ランキングや推薦システムなど,様々な応用分野で多重決闘バンディット問題が重要視されている。
    • 従来のアルゴリズムは,環境が確率的か敵対的か事前に分からない場合に,最適な性能を発揮できないという課題があった。
    • 本研究では,環境を事前に特定することなく,両環境で最適に動作するアルゴリズムを開発することを目指す。
    • コンドルセ設定に対し,既存の決闘バンディットアルゴリズムを多重決闘バンディットアルゴリズムに変換する汎用的な手法「MetaDueling」を提案した。
    • 「MetaDueling」と「Versatile-DB」の組み合わせにより,敵対的嗜好に対する$O(\sqrt{KT})$の擬似後悔と,確率的嗜好に対するインスタンス最適の$O\left(\sum_{i \neq a^\star} \frac{\log T}{\Delta_i}\right)$の擬似後悔を同時に達成するアルゴリズムを実現した。
    • ボルダ設定に対し,「SA-MiDEX」という確率的・敵対的アルゴリズムを提案し,両環境下で良好な性能を示すことを理論的に証明した。

    Link: https://arxiv.org/abs/2603.18972

  • 適応層別摂動:LLM強化学習におけるオフポリシー補正の統合 [cs.LG, cs.AI]目的:LLM強化学習におけるオフポリシー問題解決のための手法
    • LLMの強化学習は,高性能なAIシステム構築に不可欠だが,学習の安定性が課題。
    • オフポリシー学習におけるポリシーの乖離が,学習の不安定化や探索の停滞を招く。
    • ポリシーの急激な変化を抑制し,推論時の不一致を吸収することで学習を安定化させる。
    • 適応層別摂動(ALP)は,各層の隠れ状態に学習可能な摂動を注入することで,重要度比のテールを抑制。
    • 実験の結果,ALPは最終的な性能向上に加え,反復学習中の重要度比のテールやKLスパイクの発生を抑制。
    • 全層にわたる表現レベルの摂動が最も効果的であり,部分層やlogitsのみの変形よりも大幅に性能が向上。

    Link: https://arxiv.org/abs/2603.19470

  • 拡散言語モデルにおける局所的に一貫性のある並列デコーディング [cs.CL, cs.AI, cs.LG]目的:拡散言語モデルにおける並列デコーディングの一貫性向上
    • 近年,拡散言語モデルが有望視されており,特にコード生成や編集において,その生成速度と双方向性の高さが注目されている。
    • 従来の拡散言語モデルでは,トークンを独立に予測するため,同時生成されるトークン間の依存関係が捉えられず,構文的な不整合が生じやすい。
    • 本研究では,局所的な依存関係モデリングと並列サンプリングを両立させることで,一貫性のある生成を目指す。
    • CoDiLAは,拡散過程の潜在空間で動作する小型の自己回帰モデルを用いて局所的なデコーディングを行い,並列生成とシーケンシャルな妥当性を両立させる。
    • CoDiLAを用いることで,構文的な誤りや多トークン構造の破損といった一貫性の問題が大幅に改善されることが示された。
    • わずか0.6Bパラメータの補助的な自己回帰モデルでも,精度と速度の両面で優れた性能を発揮し,新たなトレードオフ関係を確立した。

    Link: https://arxiv.org/abs/2603.20216

  • CATの飼育:ポータブルな構成可能マルチエージェントチームにおけるエージェントハーネスエンジニアリングのためのALARA [cs.MA, cs.AI, cs.HC]目的:マルチエージェントチームにおけるエージェントハーネスの管理メカニズムの簡素化と拡張性向上
    • 近年,様々な分野でマルチエージェントシステム利用が進んでおり,生産性向上が期待されている。
    • エージェントハーネスの重要な構成要素を管理する統一的な仕組みが不足しており,品質低下や連携の難しさが課題となっている。
    • エージェントの行動仕様を共有・バージョン管理し,チームでの協調性を高めることを目指す。
    • ALARA原則に基づき,コンテキスト,エージェント,ツールのデータ層(CAT)を導入し,ツールアクセス宣言とツールの直接的な変更を可能にした。
    • コマンドラインシェル(npcsh)を用いて,0.6Bから35Bパラメータの22モデルを115の実用タスクで評価し,実用的なエージェント利用を実証した。
    • モデルファミリーが特定のタスクカテゴリで成功,または失敗する傾向を明らかにし,約2500回の実行を通して特性を分析した。

    Link: https://arxiv.org/abs/2603.20380

  • Hawkeye:GPUレベルの非決定性を再現する [cs.CR, cs.AR, cs.LG, cs.NA, math.NA]目的:GPUレベルの算術演算の分析と再現
    • 機械学習の普及に伴い,計算の信頼性確保が重要課題となっている。
    • GPU計算の非決定性により,再現性が低く,検証が困難である。
    • GPU計算をCPUで完全に再現し,検証可能性を高めることを目指す。
    • Hawkeyeにより,機械学習モデルの行列積算演算をCPUで完全に再現可能となった。
    • Tensor Coreにおける丸め方向,サブノーマル数の扱い,累積順序が詳細に分析された。
    • Ampere,Hopper,LovelaceアーキテクチャとFP16,BFP16,FP8精度で検証され,常に完全な再現性が確認された。

    Link: https://arxiv.org/abs/2603.20421

  • 順列合意リストワイズ判定によるロバストな事実性評価 [cs.CL, cs.AI]目的:事実性評価における候補順序感受性の軽減
    • LLMの判断は,その客観性から評価の自動化に不可欠。しかし,提示方法に左右される問題がある。
    • リストワイズ評価において,候補の順序が事実性の判断に影響を与えることが課題となっている。
    • 候補順序のばらつきを考慮し,LLM評価の信頼性向上を目指す。
    • PCFJudgeは,同一候補集合の順序を変化させながら複数回評価を行い,結果を集約することで安定性を高める。
    • RewardBench 2 FactualityにおけるGPT-4.5とClaude Sonnet 4.6を用いた実験で,トップ1選択精度が向上した。
    • 候補順序は事実性判断における誤差要因であり,その影響を軽減することでLLM評価の信頼性が向上する。

    Link: https://arxiv.org/abs/2603.20562

  • 戦略的参加下における性能保証付きインセンティブを考慮した連合平均化 [cs.LG, math.OC]目的:戦略的データ参加を捉えたナッシュ均衡探索更新ルールによるインセンティブを考慮した連合平均化手法
    • プライバシー保護と分散データ活用が重要視される中で,連合学習は機械学習の新たなパラダイムとして注目されている。
    • 参加エージェントの戦略的な行動により,連合学習の安定性や性能が損なわれる可能性がある。
    • エージェントの参加意欲を高め,安定した連合学習を可能にするメカニズムを構築すること。
    • 提案手法は,凸および非凸なグローバル目的関数下で,性能保証を持つインセンティブを考慮した連合学習アルゴリズムを実現した。
    • 単調ゲーム設定下では,厚生損失最小化フレームワークを用いて,スキームの漸近収束性を確立した。
    • MNISTおよびCIFAR-10データセットでの数値実験により,競争力のあるグローバルモデル性能と安定したデータ参加戦略への収束が確認された。

    Link: https://arxiv.org/abs/2603.20873

  • 前方探査ソナー画像セマンティックセグメンテーションのための協調的教師フレームワーク:極めて少ないラベルでの学習 [cs.CV, cs.AI]目的:前方探査ソナー画像のセマンティックセグメンテーションにおける性能向上
    • 水中センシング技術として重要であり,水中の状況把握に不可欠である。
    • ソナー画像はノイズや歪みが多く,従来の教師あり学習では十分な精度が出にくい。
    • ラベルデータが少ない状況下でも,高精度なセグメンテーションを実現すること。
    • 提案手法は,汎用教師とソナー特化型教師の協調により,よりロバストな特徴モデリングを可能にする。
    • 教師間の信頼性評価機構により,ノイズの多い疑似ラベルの影響を軽減し,精度向上を実現する。
    • FLSMDデータセットにおいて,2%のラベル量で既存手法と比較してmIoUが5.08%向上した。

    Link: https://arxiv.org/abs/2603.21071

  • AuthorMix:層別アダプター混合によるモジュール式著述スタイル転移 [cs.CL, cs.AI]目的:著述スタイル転移のモジュール化と効率化
    • 自然言語処理において,文章のスタイル制御は重要な課題である。多様な表現を可能にし,応用範囲も広い。
    • 既存手法は汎用性が低く,特定の著者のスタイルへの適応が難しい。また,意味保持との両立が課題である。
    • 少量データで特定の著者のスタイルに迅速に適応できる,柔軟なスタイル転移モデルを開発すること。
    • 提案手法AuthorMixは,軽量かつモジュール化されたフレームワークであり,少ない学習データで優れた性能を示す。
    • 特に低リソース環境下において,既存の最先端モデルやGPT-5.1を上回る成果を達成した。
    • 意味保持率が大幅に向上し,スタイル転移と意味の正確性の両立を実現している。

    Link: https://arxiv.org/abs/2603.23069

  • PhysSkin:自己教師ありニューラルスキニングによるリアルタイムかつ汎用的な物理ベースのアニメーション [cs.GR, cs.CV, cs.LG]目的:多様な3D形状と離散化に対応可能なリアルタイム物理ベースアニメーションの実現
    • 3Dアニメーション制作において,物理シミュレーションによるリアルな動きは重要である。
    • 既存手法では,異なる形状への汎用性やリアルタイム処理が課題となっていた。
    • 本研究は,形状や離散化に依存しない汎用的な物理ベースアニメーション手法を確立する。
    • PhysSkinは,トランスフォーマーベースのエンコーダーとクロスアテンションデコーダーを用いた新しいニューラルスキニングフィールドオートエンコーダーを提案。
    • 自己教師あり学習戦略により,エネルギー最小化,空間滑らかさ,直交制約のバランスを効果的に調整し,物理的に整合性のとれたスキニングフィールドを生成。
    • 提案手法は,汎用的なニューラルスキニングにおいて優れた性能を示し,リアルタイム物理ベースアニメーションを可能にした。

    Link: https://arxiv.org/abs/2603.23194

  • PERMA:イベント駆動型嗜好と現実的なタスク環境によるパーソナライズされた記憶エージェントのベンチマーク [cs.AI]目的:パーソナライズされた記憶エージェントの性能評価
    • LLMに長期記憶を組み込むことは,ユーザーのニーズに適応するエージェント開発に不可欠である。
    • 既存の評価では,嗜好に関する対話と無関係な会話が混在し,精度の高い情報検索が困難である。
    • 時間経過に伴う嗜好の一貫性を評価し,より現実的なユーザー入力をシミュレートすること。
    • PERMAは,時間的順序で整理された複数セッション・ドメインにわたるインタラクションイベントで構成される。
    • 関連するインタラクションをリンクすることで,高度な記憶システムは正確な嗜好を抽出し,トークン消費量を削減する。
    • 時間経過やドメイン干渉に対する首尾一貫したペルソナ維持には課題が残る。

    Link: https://arxiv.org/abs/2603.23231

  • AscendOptimizer:Ascend NPUオペレータ最適化のためのエピソード型エージェント [cs.LG, cs.AI]目的:Ascend NPUオペレータ最適化の知識獲得と高速化
    • AI半導体であるAscend NPUの性能は,ソフトウェア最適化に大きく依存する。
    • AscendCオペレータの最適化には専門知識が必要であり,公開カーネルも少ない。
    • エージェントが実行結果から最適化知識を学習し,効率的な高速化を実現する。
    • AscendOptimizerは,101個の実AscendCオペレータで,オープンソースベースラインに対し1.21倍の幾何平均高速化を達成した。
    • 53.47%のオペレータにおいて,参照実装よりも高速な実行を実現した。
    • 評価回数あたりの予算において,Best-of-NサンプリングやOpenEvolveと比較して,幾何平均高速化で優位性を示した。

    Link: https://arxiv.org/abs/2603.23566

  • LLMエージェントはCFOになれるか?不確実な企業環境における長期的な資源配分ベンチマーク [cs.AI]目的:不確実な企業環境下での長期的な資源配分
    • 企業経営において,資源配分は重要な意思決定であり,企業の成長と存続に不可欠である。
    • 従来のLLMエージェントは,即時的なフィードバックを必要とするタスクに強みがある一方,長期的な計画と資源配分は苦手である。
    • 本研究は,不確実な環境下におけるLLMエージェントの長期的な資源配分能力を評価し,その課題を明確にすることを目的とする。
    • LLMエージェントは,132ヶ月間のCFOシミュレーションにおいて,生存率が15.4%にとどまり,長期的な資源配分能力に課題があることが示された。
    • モデルの規模が大きいからといって,必ずしも性能が向上するとは限らず,観察,行動タイミング,資本規模において失敗が連鎖する傾向がみられた。
    • 本研究は,LLMエージェントにおける不確実な環境下での長期的な資源配分能力に明確なギャップが存在することを示した。

    Link: https://arxiv.org/abs/2603.23638

  • クラスオントロジーとデータ規模が音声転移学習に与える影響 [cs.LG]目的:音声転移学習におけるクラスオントロジーとデータ規模の影響
    • 深層学習において転移学習は重要であり,データ不足の課題解決に貢献する。
    • 転移学習の内部メカニズムや,その有効性が発揮される条件は未だ不明な点が多い。
    • 転移学習の成功要因を明らかにし,データ規模とクラスオントロジーの影響を解明する。
    • 事前学習データのサンプル数およびクラス数の増加は,転移学習の性能向上に寄与する。
    • しかし,その効果は事前学習データと下流タスクの類似性に匹敵または下回る場合がある。
    • モデルは類似した特徴を学習するため,タスク間の類似性が重要となることが示唆された。

    Link: https://arxiv.org/abs/2603.25476

  • 自然言語エージェントの活用 [cs.CL, cs.AI]目的:エージェントの実行環境の記述
    • エージェントの性能は実行環境に大きく左右されるため,その理解が重要である。
    • 従来の実行環境はコードに埋め込まれており,可視化や再利用が困難である。
    • 自然言語で記述可能な実行環境を構築し,その分析可能性を高める。
    • 自然言語で記述された実行環境(NLAH)は,従来のコードやプロンプトと同等の性能を示す。
    • NLAHは,コードに比べて簡潔な実行ポリシーでタスクを達成する。
    • 実行環境の各モジュールが分析可能であり,その役割を理解しやすい。

    Link: https://arxiv.org/abs/2603.25723

  • SutureFormer:ピクセル空間における目標条件付きオフライン強化学習による手術経路学習 [cs.RO, cs.AI]目的:内視鏡映像からの手術針経路予測
    • ロボット支援縫合手術の自動化において,針経路予測は,事前計画,リアルタイムガイダンス,安全な動作実行に不可欠である。
    • 既存手法は,連続する動作ステップ間の依存関係を見過ごしがちであり,また,疎なウェイポイント注釈では十分な教師信号が得られにくい。
    • 本研究は,限られた専門家のガイダンスを活用しつつ,実行可能な将来の動作経路を探索する針経路予測手法を提案する。
    • SutureFormerは,疎な注釈を三次スプライン補間により高密度な報酬信号に変換し,目標条件付きオフライン強化学習フレームワークを構築した。
    • SutureFormerは,局所的な空間的情報と長距離の時間的動態を捉える観測エンコーダと,離散的な方向と連続的な大きさを組み合わせた行動を通じて,将来のウェイポイントを自己回帰的に予測する。
    • 新しい腎臓創傷縫合データセットにおける実験により,SutureFormerは最良のベースラインと比較して平均変位誤差を58.6%削減し,有効性が示された。

    Link: https://arxiv.org/abs/2603.26720

  • 外科AIの比較研究:データ,計算資源,および拡張性の可能性と限界 [cs.AI, cs.CV, cs.LG]目的:外科AIの性能向上におけるデータ,計算資源,および拡張性の影響評価
    • 医療分野におけるAI活用は進んでおり,特に手術支援への期待が高い。
    • 既存の医療AIベンチマークには外科的タスクが不足している。
    • 外科AIの性能限界を明らかにし,実用化への課題を特定すること。
    • 最新のVision Language Modelsを用いて神経外科手術における手術器具検出を試みた結果,性能は期待を下回った。
    • モデルの規模や学習時間を拡大しても,性能向上が頭打ちになる現象が確認された。
    • 現状のAIモデルでは,計算資源の増加だけでは外科的応用における課題を解決できない可能性が示唆された。

    Link: https://arxiv.org/abs/2603.27341

  • 多目的推論を用いた時間論理タスクの時空間的ロバスト性 [cs.AI, cs.LO]目的:時間論理仕様の時空間的ロバスト性
    • 自律システムの信頼性は,不確実性下での目的達成能力に依存する。
    • 既存研究では,空間的摂動のみを考慮したロバスト性が提案されている。
    • 空間的摂動と時間的摂動の両方を考慮したロバスト性評価を目指す。
    • 本研究では,空間的摂動と時間的摂動を同時に捉える時空間的ロバスト性(STR)を提案した。
    • STRを多目的推論問題として定式化し,パレート最適解として捉えることで,許容可能な摂動範囲を特徴づける。
    • 計算上の課題に対処するため,STRを安全に近似するロバストな意味論と監視アルゴリズムを提案した。

    Link: https://arxiv.org/abs/2603.29868

  • オントロジー制約によるニューラル推論:エンタープライズエージェントシステムにおける領域基盤型AIエージェントのための神経記号アーキテクチャ [cs.AI, cs.CL, cs.SE]目的:企業向けエージェントシステムのニューラル推論におけるオントロジー制約の導入
    • LLMの企業利用は拡大する一方,その信頼性と正確性が課題となっている。
    • LLMは幻覚,ドメインドリフト,規制遵守の欠如といった問題を抱えている。
    • LLMの推論過程におけるこれらの課題を,オントロジー制約によって解決することを目指す。
    • 提案アーキテクチャは,役割,ドメイン,インタラクションの3層オントロジーフレームワークを導入することで,LLMベースのエージェントを領域に結び付けている。
    • 実験の結果,オントロジー制約を施したエージェントは,メトリック精度と役割の一貫性において,制約のないエージェントを大幅に上回った(p < .001)。
    • 特にLLMのパラメータ的知識が弱い分野(ベトナムローカライズドドメインなど)において,オントロジーの効果が顕著に現れた。

    Link: https://arxiv.org/abs/2604.00555

  • 大規模言語モデルに対するオンポリシー蒸留の調査 [cs.LG, cs.CL]目的:大規模言語モデルの能力を小型モデルへ転移するためのオンポリシー蒸留に関する研究の整理
    • 大規模言語モデルは高性能だが,コストが高く,実用的なサイズに縮小する必要がある
    • 従来の知識蒸留は,教師が生成した完璧なテキストを模倣するため,長文や複雑なタスクでエラーが累積しやすい
    • オンポリシー蒸留は,生徒の生成結果に対する教師からのフィードバックを通じて,この問題を解決することを目指す
    • オンポリシー蒸留は,生徒が生成した軌跡に対するf-divergence最小化として定式化される
    • 最適化対象,信号源,学習安定化の3つの軸で研究分野が整理されている
    • 知識蒸留と強化学習の重なりや,不確実性を考慮したフィードバックなど,今後の課題が提示されている

    Link: https://arxiv.org/abs/2604.00626

  • 言語モデルにおけるエンティティセルの発見:友人および祖母細胞 [cs.CL, cs.AI]目的:言語モデルにおけるエンティティ特定的事実の検索メカニズムの解明
    • 言語モデルは大量の知識を蓄積するが,その知識がどのように表現されているかは不明である。
    • 言語モデルの知識の構造やアクセス方法が不明確であり,知識の制御や修正が困難である。
    • エンティティセルを特定し,知識の表現とアクセスに関する理解を深める。
    • 言語モデル内のエンティティセルは,主に初期層に集中する傾向があることが示された。
    • 特定されたエンティティセルは,エンティティの異称,略語,誤字,多言語表記に対しても安定して機能する。
    • 単一のエンティティセルの活性化によって,文脈にエンティティが含まれていない場合でも,正しい知識を再現できることが確認された。

    Link: https://arxiv.org/abs/2604.01404

  • CORAL:オープンエンドな発見のための自律型マルチエージェント進化に向けて [cs.AI]目的:オープンエンドな問題解決における自律型マルチエージェント進化の実現
    • LLMを活用した進化的手法は,知識の蓄積と継続的な探索を必要とするオープンエンドな発見において有望である。
    • 既存手法は固定されたヒューリスティクスや探索ルールに依存しており,LLMエージェントの自律性を制限している。
    • CORALは,エージェントの自律性と協調性を高め,オープンエンドな問題解決能力を向上させることを目指す。
    • CORALは,共有された永続的なメモリ,非同期マルチエージェント実行,およびハートビートに基づく介入を通じて,固定的な制御を置き換えた。
    • 多様な数学,アルゴリズム,システム最適化タスクにおいて,固定された進化探索ベースラインと比較して,3〜10倍高い改善率を示した。
    • Anthropicのカーネルエンジニアリングタスクでは,4つの協調進化エージェントが最高スコアを1363から1103サイクルに改善した。

    Link: https://arxiv.org/abs/2604.01658

  • 異種言語モデルは融合可能か [cs.AI]目的:異種言語モデルの融合手法
    • 大規模言語モデルの活用範囲拡大に伴い,様々なモデルの組み合わせが重要になっている。
    • 異なるアーキテクチャのモデル間では,直接的なパラメータ融合が困難である。
    • アーキテクチャの不一致や知識の衝突を抑制し,異種モデルを効果的に融合すること。
    • 提案手法HeteroFusionは,機能モジュール構造のマッチングによる知識伝達と,競合を抑制するノイズ除去により,異種言語モデルを融合する。
    • ターゲットアダプター基底を維持しながら構造化された更新を予測することで,安定した知識伝達を実現する。
    • 様々な実験設定において,既存の融合手法やアンサンブルよりも優れていることを示した。

    Link: https://arxiv.org/abs/2604.01674

  • エキスパートの反撃:エキスパートレベルでのMixture-of-Experts言語モデルの解釈 [cs.CL, cs.AI, cs.LG]目的:Mixture-of-Experts言語モデルにおけるエキスパートレベルでの解釈可能性
    • 大規模言語モデルの規模拡大は重要であり,計算効率が課題となっている。
    • Mixture-of-Expertsモデルの疎性は解釈を容易にするかどうかが不明であった。
    • エキスパートレベルでの解釈可能性を検証し,モデルの解釈をより明確にすること。
    • Mixture-of-Expertsモデルのエキスパートニューロンは,密なFFNニューロンと比較してポリセマンティック性が低いことが示された。
    • 疎性が高まるにつれて,この差は拡大し,エキスパートが単一の概念に特化する傾向があることが示唆された。
    • エキスパートは広範な専門分野ではなく,言語操作や意味タスクといった微細なタスクに特化していることが明らかになった。

    Link: https://arxiv.org/abs/2604.02178

  • 二次元有限光源反射鏡設計のためのニューラルネットワーク手法 [cs.LG]目的:二次元反射鏡の設計
    • 光の制御は,光学システムやイメージング技術において不可欠であり,高精度な反射鏡設計が求められる。
    • 従来の設計手法では,複雑な光源に対応したり,計算時間が長くなるという課題があった。
    • ニューラルネットワークを用いることで,効率的かつ高精度な反射鏡設計を実現し,計算時間を短縮することを目指す。
    • ニューラルネットワークを用いた手法は,従来のデコンボリューションパイプラインと比較して,約2e-5および5e-5のエラーを数秒で達成した。
    • 一方,デコンボリューションベースラインでは,同様の結果を得るのに数百秒を要し,エラーは4e-3および5e-2であった。
    • 本研究の結果は,ニューラルネットワークによる定式化がより正確かつ高速であり,実用的な高さ制約もサポートできることを示している。

    Link: https://arxiv.org/abs/2604.02184

  • ヒト転写因子アトラスの再解析:欠損したコントロールを持つプールされたシングルセルスクリーニングからTF特異的なシグナルを回復 [cs.CY, cs.LG, q-bio.GN, q-bio.MN]目的:転写因子(TF)機能研究のためのプールされたシングルセル摂動アトラスの再解析
    • 転写因子は,遺伝子発現を制御する重要な因子であり,その機能理解は生命現象の解明に不可欠である。
    • 公開されているプールされたシングルセルアトラスは,不完全なメタデータや内部コントロールの欠損が課題となっていた。
    • 欠損したコントロールを補完し,TF特異的なシグナルを回復することで,データ解析の信頼性を高める。
    • 再解析により,TFアイデンティティへの細胞割り当てが改善され,TF特異的なシグナルが効果的に回復された。
    • 外部コントロールを用いた戦略により,従来の解析手法よりも多くのTFで有意なシグナルが検出された。
    • 解析結果は,既存の研究結果と有意な一致を示し,アトラスデータの有効性が確認された。

    Link: https://arxiv.org/abs/2604.02511

  • ClawArena:変化する情報環境におけるAIエージェントのベンチマーク [cs.LG, cs.AI, cs.CL]目的:変化する情報環境下でのAIエージェントの評価
    • AIエージェントは,現実世界で情報を収集・利用する際に,常に変化する状況に対応する必要がある。
    • 既存のベンチマークは,情報環境が静的であることを前提としており,現実の複雑さを捉えきれていない。
    • 本研究は,AIエージェントが,矛盾する情報や動的な変化に対応できるかを評価するベンチマークを提供する。
    • ClawArenaは,マルチチャネルセッション,ワークスペースファイル,段階的更新を通じて,ノイズが混ざった不完全な情報をAIエージェントに提示する。
    • 評価は,マルチソース間の矛盾解決,動的な信念修正,暗黙的なパーソナライズという3つの課題を中心に構成される。
    • モデルの能力とフレームワーク設計がそれぞれスコアに影響し,MetaClawのスキルオーバーレイがスコアを改善することが示された。

    Link: https://arxiv.org/abs/2604.04202

  • 制御指向型原子炉熱水力予測のためのグラフニューラルODEデジタルツイン:部分的観測下 [cs.CL, cs.DB, cs.LG]目的:原子炉の全範囲にわたる熱水力状態の正確な予測
    • 次世代原子炉の安全運転には,プラント全体の熱水力状態をリアルタイムに把握することが不可欠である。
    • 物理センサーが設置されていない場所の状態を予測することは,既存の手法では困難である。
    • 部分的観測下においても,高精度かつ高速な予測を可能にするモデルの開発が求められる。
    • 提案手法であるGNN-ODEサーロゲートは,システムダイナミクスの予測において良好な結果を示した。
    • 観測されていないノードにおいて,平均絶対誤差(MAE)は60秒後で0.91 K,300秒後で2.18 Kであり,欠損ノード状態再構成の$R^2$は最大0.995に達した。
    • 推論速度はシミュレーション時間の約105倍と高速であり,不確実性定量のための64メンバーアンサンブルロールアウトを可能にする。

    Link: https://arxiv.org/abs/2604.07292

  • DSPR:信頼性の高い産業時系列予測のためのデュアルストリーム物理残差ネットワーク [cs.LG, cs.AI]目的:産業時系列予測における予測精度と物理的妥当性の両立
    • 産業プロセスの最適化や異常検知に不可欠であり,安定稼働と効率化に貢献する。
    • データ駆動型モデルは統計的性能は高いものの,実世界のシステムに存在する変動や遅延を考慮しにくい。
    • 予測精度と物理的妥当性を両立させ,信頼性の高い産業時系列予測を実現すること。
    • DSPRは,統計的パターンと残差ダイナミクスを分離することで,予測精度とロバスト性を向上させた。
    • Mean Conservation Accuracyが99%を超え,Total Variation Ratioは最大97.2%に達し,最先端の予測性能を示した。
    • 学習された相互作用構造と適応ラグは,既知のドメインメカニズムと整合性があり,解釈可能性を提供した。

    Link: https://arxiv.org/abs/2604.07393

  • 学生の退学に関する時間的モデリングと反実仮想的政策シミュレーションのための数学的フレームワーク [cs.LG, cs.AI]目的:学生の退学予測のための時間的モデリングフレームワークと,反実仮想的政策シミュレーション
    • 高等教育における学生の退学は,教育の質や社会経済的機会に影響するため,重要な研究課題である。
    • 既存の研究では,退学リスクを正確に予測し,効果的な介入策を特定することが困難である。
    • 学習管理システム(LMS)の利用データと退学記録を用いて,より精度の高い予測モデルを構築し,政策の効果を評価すること。
    • 提案されたモデルは,時間経過に伴う退学リスクを予測する能力を示し,訓練データおよびテストデータでそれぞれ0.8350,0.8405のAUCを達成した。
    • 特徴量の組み合わせが予測性能に影響を与えることが示され,時間的な学習行動データが重要な役割を果たすことが確認された。
    • 反実仮想的な政策シミュレーションにより,特定の介入策が退学リスクに与える影響を評価することが可能となり,ジェンダーによる影響の違いも定量化された。

    Link: https://arxiv.org/abs/2604.08874

  • SkillMOO:ソフトウェア工学におけるエージェントスキルに対する多目的最適化 [cs.CE, cs.IR, cs.SE, cs.AI]目的:ソフトウェア工学エージェントのスキルバンドルの多目的最適化
    • ソフトウェア開発におけるエージェント利用が拡大しており,その性能向上は重要である。
    • 既存手法では,スキルが静的な資産として扱われるか,成功率のみで進化している。
    • 成功率と推論コストの両方を考慮したスキルバンドルの最適化を目指す。
    • SkillMOOは,12の非ゼロパス率タスクのうち11で最高パス率を達成した。
    • 静的バンドルと比較して,最大31.7%のコスト削減と,最大21%のパス率向上を実現した。
    • スキルの編集分析から,刈り込みと置換が効果的な操作であることが示された。

    Link: https://arxiv.org/abs/2604.09297

  • ECHO:ワンステップブロック拡散による効率的な胸部X線レポート生成 [cs.LG, cs.AI, eess.IV]目的:胸部X線レポートの生成
    • 放射線科医の負担軽減に貢献し,医療現場の効率化が期待される分野である。
    • 従来のシーケンシャルな生成手法では推論速度が遅いという課題があった。
    • ワンステップ拡散により高速化とテキストの整合性を両立することを目指す。
    • ECHOは,Direct Conditional Distillation(DCD)フレームワークにより,安定したワンステップ推論を可能にした。
    • RaTEとSemScoreにおいて,既存の最先端手法をそれぞれ64.33%,60.58%上回る性能を示した。
    • 臨床的な精度を損なうことなく,最大8倍の推論速度向上を実現した。

    Link: https://arxiv.org/abs/2604.09450

  • 汎用LLMを人間の運転行動モデルとして:単純化された合流事例 [cs.AI, cs.RO]目的:人間の運転行動のモデル化
    • 自動運転車の安全性評価には,人間らしい行動を模倣するモデルが不可欠である。
    • 既存のモデルは,解釈可能性と柔軟性の間でトレードオフの関係にある。
    • 汎用LLMが,パラメータ調整なしに多様な状況に対応できる可能性を探る。
    • 汎用LLMは,間欠的な運転操作や空間的手がかりへの依存といった,人間らしい行動を再現した。
    • 動的な速度変化への反応は一貫して捉えられておらず,モデル間の安全性パフォーマンスには大きな差が見られた。
    • プロンプトの構成要素がモデル特有の誘導バイアスとして機能し,LLM間で共有されないことが明らかになった。

    Link: https://arxiv.org/abs/2604.09609

  • CheeseBench:齧歯類行動神経科学パラダイムにおける大規模言語モデルの評価 [cs.HC, cs.AI]目的:齧歯類行動神経科学の古典的パラダイムにおける大規模言語モデルの評価基準
    • 行動神経科学は,脳と行動の関係を理解する上で重要であり,精神疾患の治療にも繋がる。
    • 大規模言語モデルの行動理解能力は不明であり,動物実験の代替可能性が検証されていない。
    • 動物実験のプロトコルを基にした評価基準を構築し,言語モデルの行動理解能力を定量的に評価する。
    • CheeseBenchを用いて6つのオープンウェイトLLMを評価した結果,最も性能の良いモデル(Qwen2.5-VL-7B)は平均正答率52.6%であった。
    • モデルの規模を大きくしても,7Bパラメータを超えると性能向上は頭打ちとなり,コンテキスト履歴を長くすると性能が低下した。
    • 現在のオープンウェイトLLMは,空間ナビゲーションや試行内状態追跡を必要とするタスクにおいて,実際の齧歯類の性能を下回る。

    Link: https://arxiv.org/abs/2604.10825

  • EmergentBridge:統一マルチモーダル埋め込みモデルにおけるゼロショットクロスモーダル転移の改善 [cs.HC, cs.RO, cs.AI]目的:ゼロショットクロスモーダル転移の性能向上
    • クロスモーダル検索やゼロショット認識等の応用を支える技術であり,実用性が高い。
    • ペアとなるモダリティ間のデータが不足しており,未ペアのモダリティ間性能が低い。
    • ペアデータ収集コストを抑えつつ,未ペアモダリティ間の性能を向上させる。
    • EmergentBridgeは,既存手法と比較して,ゼロショット分類と検索において一貫して高い性能を示す。
    • 勾配干渉を抑制するため,ノイズを加えたブリッジアンカーを学習し,アンカーアライメントを維持しつつ非アンカー接続を強化する。
    • 9つのデータセットで,強力な創発的アライメントが実証された。

    Link: https://arxiv.org/abs/2604.11043

  • ロボットの共演における効率的な感情認識型模倣ジェスチャー予測 [cs.RO, cs.AI]目的:感情とテキストに基づく模倣ジェスチャーの配置と強度の予測
    • 共演ジェスチャーは,コミュニケーションへの関与を高め,言語理解を促進する重要な要素である。
    • 既存のロボットシステムは,意味的な強調を組み込むのが難しく,単純な反復運動になりがちである。
    • 本研究は,テキストと感情のみから効果的にジェスチャーを予測する軽量なモデルを開発することで,この問題を解決する。
    • 提案モデルは,BEAT2データセットにおいて,意味的なジェスチャー配置の分類と強度の回帰の両方で,GPT-4oを上回る性能を示した。
    • モデルは計算効率が高く,リアルタイムでの組み込みエージェントへの展開に適している。
    • 音声入力なしで推論が可能であり,幅広い応用が期待される。

    Link: https://arxiv.org/abs/2604.11417

  • 大規模言語モデルに基づく教育用ペダゴジカルエージェントのスコープレビュー [cs.AI]目的:大規模言語モデルに基づく教育用ペダゴジカルエージェントの研究動向
    • 教育における個別最適化ニーズが高まっており,効果的な学習支援システムの開発が重要である。
    • 従来の教育用エージェントは,自然言語理解や適応性に限界があり,高度な学習支援が困難であった。
    • 大規模言語モデルの活用により,より自然で柔軟な学習支援を実現し,教育効果を高めることを目指す。
    • 52の研究を分析した結果,LLMベースの教育用エージェントは,幼稚園から高等教育,そして非公式学習など幅広い分野で活用されていることが明らかになった。
    • これらのエージェントは,反応性,ドメイン範囲,役割の複雑さ,システム統合といった4つの主要な設計要素によって特徴付けられる。
    • マルチエージェントシステム,仮想生徒シミュレーション,没入型技術との統合,学習分析との組み合わせが今後のトレンドとして挙げられる。

    Link: https://arxiv.org/abs/2604.12253

  • SpanKey:ニューラルネットワークアクセス制御のための動的キー空間条件付け [cs.CR, cs.AI]目的:ニューラルネットワークのアクセス制御のための,軽量なキー空間条件付け手法
    • 近年,AIモデルのセキュリティ保護が重要視されており,特に推論時の保護が課題となっている。
    • 従来のアクセス制御手法は,計算コストが高いか,モデルの精度を低下させる可能性がある。
    • 秘密鍵を用いて活性化関数を条件付けすることで,効率的かつ安全なアクセス制御を実現することを目指す。
    • SpanKeyは,モデルの重みを暗号化したり,推論速度を犠牲にしたりすることなく,推論時のゲート処理を可能にする。
    • 基底行列を用いて定義される低次元キー部分空間にキーを制限することで,有効なキーと無効なキーを区別する。
    • キー吸収という失敗モードを分析し,エネルギーおよびマージン項における分離の弱さを説明する。また,CIFAR-10やMNISTを用いた実験により有効性を示す。

    Link: https://arxiv.org/abs/2604.12254

  • メタ学習と合成タスクによる小規模オフラインデータセットからのブラックボックス最適化 [cs.LG, cs.AI]目的:小規模オフラインデータセットからの最適設計の発見
    • 科学的応用において,実験データは限られる場合が多い。データ不足は,アルゴリズムの性能を大きく制限する。
    • 既存のアルゴリズムは,データが限られている場合に最適化バイアスを捉えるのが困難である。
    • 合成タスク生成により,最適化バイアスの学習を可能にし,データ不足を克服することを目指す。
    • 提案手法OptBiasは,合成タスクから最適化バイアスを学習し,対象タスクのモデルを微調整する。
    • OptBiasは,様々な連続および離散オフライン最適化ベンチマークにおいて,小規模データにおいて最先端手法を上回る性能を示した。
    • OptBiasは,現実的な小規模データ設定におけるオフライン最適化のための堅牢かつ実用的な解決策である。

    Link: https://arxiv.org/abs/2604.12325

  • PriHA:香港におけるプライマリヘルスケア支援のためのRAG強化LLMフレームワーク [cs.CL, cs.NI, cs.IR, cs.AI]目的:香港におけるプライマリヘルスケア支援のためのLLMシステム
    • 公衆衛生支出の増加抑制が急務であり,プライマリヘルスケアの重要性が高まっている。
    • 公式な臨床ガイドラインが分散しており,アクセスが困難である。
    • 地域特化型知識の不足によるLLMの誤情報生成問題を解決する。
    • 提案手法PriHAは,既存手法やベースラインと比較して,精度と明瞭性において優れた性能を示した。
    • クエリ最適化と二重検索拡張生成(DRAG)アーキテクチャにより,情報検索と文脈再構成の効率化を実現した。
    • 本研究は,他の高リスク地域における応用可能性を示す,信頼性の高い対話検索フレームワークを提供する。

    Link: https://arxiv.org/abs/2604.14215

  • UAV群におけるゼロショットのスケーラブルな強靭性:物理情報に基づいたグラフ相互作用による分散型模倣学習フレームワーク [cs.LG]目的:UAV群の分散型復旧メカニズム
    • 大規模UAV群は様々な分野で活用が期待されるが,その運用には信頼性が不可欠である。
    • 大規模なUAV故障はネットワークを断片化し,分散型復旧は困難を極める。
    • 断片化されたネットワーク下や可変長の復旧エピソードにおいても有効な復旧手法を確立する。
    • 提案手法PhyGAILは,物理情報に基づいたグラフニューラルネットワークを用いて局所的な相互作用を表現し,スケーラブルな強靭性を実現した。
    • PhyGAILは20機のUAV群で学習したポリシーを,追加の調整なしに最大500機のUAV群へ直接適用できることが示された。
    • 再接続信頼性,復旧速度,運動安全性,実行効率において,既存手法を上回る性能を達成した。

    Link: https://arxiv.org/abs/2604.15762

  • DPrivBench:差分プライバシーにおけるLLMの推論能力のベンチマーク [cs.LG, cs.AI, cs.CR]目的:差分プライバシーにおけるLLMの推論能力評価
    • 個人情報保護は重要であり,差分プライバシーはその有力な手法の一つである。
    • 差分プライバシーアルゴリズムの設計・検証には専門知識が必要であり,参入障壁が高い。
    • LLMによる差分プライバシーの自動推論の可能性を検証し,能力向上に資する。
    • LLMは教科書的なメカニズムには対応できるものの,高度なアルゴリズムでは苦戦する。
    • 既存のLLMには,差分プライバシーに関する推論能力に大きな課題が残されていることが示された。
    • 本ベンチマークは,自動推論手法の開発と評価の基盤を提供し,数学的推論ベンチマークを補完する。

    Link: https://arxiv.org/abs/2604.15851

  • TwinTrack:医学画像セグメンテーションのための事後多評価者較正 [cs.CL, cs.LG]目的:膵管腺癌セグメンテーションにおける評価者間不一致の較正
    • 医学画像診断の精度向上は,医療の質の向上に不可欠である。
    • 専門家間でのセグメンテーション結果の不一致が,正確な診断を困難にしている。
    • 評価者間不一致を考慮したセグメンテーション確率の較正を行う。
    • 提案手法TwinTrackは,セグメンテーション確率を専門家の平均的な反応に較正する。
    • 較正された確率は,腫瘍ラベルを割り当てる専門家の期待割合として解釈可能である。
    • MICCAI 2025 CURVAS-PDACVIベンチマークにおいて,標準的な手法よりも較正性能が向上した。

    Link: https://arxiv.org/abs/2604.15950

  • Stream2LLM:オーバーラップコンテキストストリーミングとプレフィルによる最初のトークンまでの時間(TTFT)の短縮 [cs.DB, cs.AI]目的:LLM推論におけるコンテキスト検索システムのTTFT短縮
    • LLMの性能はコンテキストの質と量に大きく依存するため,効率的なコンテキスト検索は重要である。
    • コンテキスト検索の遅延が大きく,最初のトークンまでの時間が長くなることが課題となっている。
    • コンテキストのストリーミングによる遅延緩和と,ハードウェア効率を考慮したスケジューリングによるTTFT短縮を目指す。
    • Stream2LLMは,コンテキストを動的にストリーミングし,GPUリソースを効率的に活用することで,TTFTを最大11倍に短縮した。
    • アダプティブスケジューリングとプリエンプションにより,メモリ制約下でも高い性能を維持した。
    • 最長共通プレフィックスマッチングにより,動的な入力変化に対する冗長計算を最小限に抑えた。

    Link: https://arxiv.org/abs/2604.16395

  • CoLLM:共有GPUクラスタにおけるSLOを意識したLLMサービングのための継続的適応 [cs.DC, cs.AI, cs.LG]目的:エッジ環境におけるLLMのファインチューニングと推論を統合し,効率的な共同実行
    • LLMはエッジインテリジェンスにおいて重要性が増しており,リソース制約下での品質と効率が課題となっている。
    • 従来のファインチューニングと推論は独立したワークロードとして扱われ,冗長なデプロイや推論品質の遅延を引き起こす。
    • CoLLMは,ファインチューニングと推論のワークロードバランスを最適化し,長期的なモデル品質向上と短期的な推論効率を両立する。
    • CoLLMは,リアルタイムなモデルパラメータ再利用メカニズムにより,既存のLLMシステムと比較して最大3倍のgoodputを達成した。
    • エッジ環境におけるLLMのファインチューニングと推論をシームレスに統合することで,効率的な運用を実現した。
    • 異なるLLMと実世界のトレースを用いた評価により,CoLLMの有効性が実証された。

    Link: https://arxiv.org/abs/2604.16400

  • (疎な)注意を詳細に:機械学習に基づく天気予報モデルにおけるスペクトル忠実性の維持 [cs.LG, cs.AI, cs.CV, physics.ao-ph]目的:機械学習に基づく天気予報モデルにおけるスペクトル劣化の問題解決
    • 天気予報は,社会経済活動に不可欠であり,その精度向上は重要な課題である。
    • 従来の機械学習モデルは,スペクトル劣化を引き起こし,予測精度を低下させる可能性がある。
    • スペクトル劣化の3つの様相(減衰,エイリアシング,漏洩)に対処し,高精度な予測を実現する。
    • Mosaicモデルは,1.5度解像度で214Mパラメータを持ち,6倍細かい解像度で学習したモデルと同等またはそれ以上の性能を示す。
    • 生成されるアンサンブルメンバーは,すべての分解能周波数において完璧に近いスペクトル整合性を示す。
    • 24メンバー,10日間の予報は,単一のH100 GPUで12秒以内に完了する。

    Link: https://arxiv.org/abs/2604.16429

  • 脳活動からの痛みの認識のための軽量Transformer [cs.CV, cs.AI]目的:脳活動からの痛みの認識
    • 痛みは臨床的・社会的に大きな負担であり,客観的評価の必要性が高まっている。
    • 既存手法では,異なる計測モダリティ間の情報を統合することが困難である。
    • 複数のfNIRS表現を効率的に統合し,リアルタイムな痛みの認識を実現する。
    • 提案手法は,異なるfNIRS表現を統合することで,高い痛みの認識性能を発揮した。
    • アーキテクチャが軽量であるため,GPUおよびCPUの両方でリアルタイム推論が可能である。
    • モダリティ特有の調整を必要とせず,計算効率が良い。

    Link: https://arxiv.org/abs/2604.16491

  • クラフトからカーネルへ:ガバナンス優先実行アーキテクチャとエージェント型コンピュータのためのセマンティック ISA [cs.CR, cs.AI]目的:エージェント型AIにおける安全な実行と自律的な修正機構
    • AIエージェントの活用は進むが,実用化に向けた堅牢性の欠如が課題となっている。
    • LLMによるシステム制御とヒューリスティックなガードレールのみでは,脆弱性が顕在化しやすい。
    • ガバナンスを重視したアーキテクチャにより,AIエージェントの安全性を高めることを目指す。
    • Arbiter-Kは,確率的処理ユニットを決定論的なカーネルでカプセル化するガバナンス優先実行アーキテクチャである。
    • Semantic ISAを用いて,確率的なメッセージを離散的な命令に変換し,セキュリティコンテキストレジストリを維持する。
    • OpenClawとNanoBotの評価により,Arbiter-Kがネイティブポリシーと比較して76%~95%の不正な介入を阻止することが示された。

    Link: https://arxiv.org/abs/2604.18652

  • 離散傾き一致 [cs.LG, stat.ML]目的:マスク拡散大規模言語モデルのファインチューニング手法
    • 大規模言語モデルは,自然言語処理の様々なタスクで高い性能を示す重要な技術である。
    • マスク拡散モデルのファインチューニングは困難であり,効率的な学習方法が求められている。
    • 報酬傾きに基づいた新しいファインチューニング手法を開発し,学習の安定性と性能向上を目指す。
    • 本研究で提案する離散傾き一致(DTM)は,尤度計算を必要としない新しい手法である。
    • DTMは,迷路計画問題において学習の安定性向上に貢献し,モード崩壊を抑制することが示された。
    • 大規模モデルLLaDA-8B-Instructへの適用により,数独やカウントダウン問題で優れた性能向上を実現した。

    Link: https://arxiv.org/abs/2604.18739