arXiv雑要約

AI - 2026/03/13 公開

GOT-JEPA：Joint-Embedding Predictive Architectureを用いたモデル適応とオクルージョン処理による汎用オブジェクト追跡 [cs.NI, cs.CV, cs.AI, cs.LG, cs.MM, cs.NE]目的：汎用オブジェクト追跡における汎化性能とオクルージョン認識の向上
- 視覚システムは過去の情報と現在の観察を統合し，変化に適応する。追跡技術の高度化は，自動運転やロボティクスなどの応用において重要である。
- 既存の追跡器は訓練データに偏り，未知の状況での頑健性や汎化性能が低い。また，オクルージョンに対する認識が粗く，詳細なモデリングが不足している。
- GOT-JEPAは，予測アーキテクチャを用いて追跡モデルを学習し，汎化性能とオクルージョン認識の改善を目指す。
- GOT-JEPAは，教師予測器と生徒予測器を用いて，ノイズの多い画像から信頼性の高い追跡モデルを予測する。
- OccuSolverは，点中心のポイントトラッカーを適応させ，オブジェクトの可視性推定とオクルージョンパターンの詳細な捕捉を強化する。
- 7つのベンチマークにおける評価により，提案手法が追跡器の汎化性能と頑健性を効果的に向上させることが示された。
Link: https://arxiv.org/abs/2602.14771
ResearchGym：現実世界のAI研究における言語モデルエージェントの評価 [cs.AI]目的：AI研究の全工程を評価するためのベンチマークおよび実行環境
- AI研究の自動化は，研究の効率化と新たな発見の加速に不可欠である。
- 既存のAIエージェントは，複雑な研究タスクにおいて信頼性と能力のギャップが存在する。
- 言語モデルエージェントの能力と限界を系統的に評価し，改善点を特定すること。
- ResearchGymは，ICML，ICLR，ACLの論文を基にした5つの環境と39のサブタスクを提供。
- GPT-5搭載エージェントは，15回の評価のうち11.5%の改善を1回しか示せず，サブタスクの完了率は26.5%に留まった。
- エージェントは，先延ばし，リソース管理の不備，過信，並列実験の調整困難さなどの課題を抱えていることが判明。
Link: https://arxiv.org/abs/2602.15112
RAT+：密に訓練し，疎に推論する - 拡張された注意機構による膨張推論 [cs.LG]目的：膨張推論における注意機構の性能向上
- 大規模言語モデルの効率的な推論は，実用上の重要な課題である。
- 注意機構を疎化すると，精度が大幅に低下するという問題がある。
- 密な事前学習と再帰的学習により，疎な注意機構の精度低下を抑制する。
- RAT+は，D=16において密な注意機構の精度に匹敵し，D=64では2～3ポイントの精度低下にとどまる。
- RAT+は，トップkブロック注意機構への疎化においても，従来の注意機構を上回る性能を示す。
- パラメータ数を2.6B，学習トークン数を200Bに拡張しても，同様の傾向が確認された。
Link: https://arxiv.org/abs/2602.18196
限定された推論空間：LLMにおける長期的推論の檻 [cs.AI]目的：大規模言語モデルにおける長期的推論の限界とその改善策
- 複雑な課題解決において，LLMの能力向上は不可欠であり，特に論理的推論能力の発展が求められている。
- CoTなどの計算戦略を単純に拡張すると，性能が低下することがあり，その原因が不明であった。
- LLMの推論空間の限界を認識し，最適な計算量を制御することで，長期的推論の性能を向上させる。
- 本研究では，LLMの推論が静的な計画方法に縛られ，過剰な計画が性能低下を招く「限定された推論空間」仮説を提唱した。
- 提案手法Haloは，エントロピー駆動型デュアルコントローラーを用いて，推論の境界で計画を動的に調整することで，過剰な計画を抑制する。
- 実験結果から，Haloは複雑な長期的推論タスクにおいて，既存手法を上回る性能を示すことが確認された。
Link: https://arxiv.org/abs/2602.19281
質量スペクトルからの新規分子構造推定：フローマッチングによる手法 [cs.LG]目的：質量スペクトルからの分子構造推定
- 質量分析は高感度で複雑なサンプルをプロファイリング可能であり，分子構造同定に不可欠である。
- スペクトルから完全な分子構造を推定することは，未定義な逆問題であり困難を伴う。
- 本研究は，質量スペクトルから分子構造を正確に推定するための新たな手法を開発する。
- MSFlowは，小分子の構造推定において最先端の性能を達成する2段階のエンコーダー・デコーダーフローマッチング生成モデルである。
- 質量スペクトルを連続的かつ化学的に有益な埋め込み空間にエンコードするために，式制限付きTransformerモデルを採用している。
- MSFlowは，質量スペクトルの分子質量スペクトルを対応する分子表現に変換できる精度を14倍に向上させた。
Link: https://arxiv.org/abs/2602.19912
ハイブリッドポリシーRLVRにおける制御可能な探索 [cs.LG, cs.AI]目的：マルチモーダル推論のための制御可能な探索戦略
- 大規模言語モデルの推論能力向上は，AI研究における重要な課題である。
- RLVRでは，状態空間の広さと疎な報酬により，探索が非効率になる場合がある。
- 本研究は，専門家の指導に基づいた制御可能な探索により，効率的な学習を目指す。
- 提案手法CalibRLは，分布を考慮した重み付けと非対称活性化関数により，探索を促進し，過信を抑制する。
- CalibRLは，ポリシーのエントロピーを増加させ，オンポリシー分布を推定することで，分布の不一致を軽減する。
- 8つのベンチマークにおける実験により，CalibRLが安定した学習と性能向上を達成することが示された。
Link: https://arxiv.org/abs/2602.20197
ECHOSAT：時空間における樹高推定 [cs.CV, cs.AI, cs.LG]目的：時空間における樹高マップの作成
- 気候変動対策において森林モニタリングは不可欠である。森林資源の把握は炭素収支計算に重要。
- 既存の樹高マップは静的なスナップショットであり，時間的な森林動態を捉えられていない。
- 時間経過に伴う樹木の成長と擾乱を正確に定量化する初のグローバル規模マップの提供。
- ECHOSATは，複数年にわたる10m分解能の，時間的に一貫したグローバル樹高マップである。
- マルチセンサー衛星データとビジョントランスフォーマーモデルを活用し，単年予測において最先端の精度を向上させた。
- 自己教師あり学習による成長損失関数が，樹木の自然な成長曲線に沿った予測を可能にした。
Link: https://arxiv.org/abs/2602.21421
シーケンス長延長だけでは不十分：遺伝子発現予測のためのマルチモーダル信号の有効な統合 [cs.LG, q-bio.GN]目的：遺伝子発現予測におけるマルチモーダル信号の統合手法
- 遺伝子発現予測は，ゲノム機能解明や疾患メカニズムの理解に不可欠な研究分野である。
- 既存研究では，長距離エンハンサーの探索にシーケンス長延長が用いられるが，性能低下を招く場合がある。
- ターゲット遺伝子近傍のマルチモーダルエピゲノム信号の有効活用により，予測精度向上を目指す。
- 長距離シーケンスモデリングは必ずしも性能向上に繋がらず，むしろ低下させることが示された。
- 提案手法Prismは，エピゲノムの特徴量の組み合わせを学習し，背景クロマチン状態を考慮することで，交絡効果を軽減する。
- Prismは，短距離シーケンスのみを用いながらも，最先端の性能を達成することを示した。
Link: https://arxiv.org/abs/2602.21550
リーダーフォロワー対話における小規模言語モデルのゼロショットおよびワンショット適応の評価 [cs.HC, cs.AI, cs.LG, cs.RO, cs.SY, eess.SY]目的：リーダーフォロワー対話における小規模言語モデルの役割分類性能
- 人間ロボット相互作用において，自然なコミュニケーションによる役割認識は重要である。
- リソース制約のあるロボットへの大規模言語モデルの搭載は，サイズと遅延の面で課題がある。
- 小規模言語モデルの役割分類能力を評価し，エッジデバイスでの実用性を検証する。
- ゼロショットファインチューニングにより，高い役割分類精度（86.66%）と低い遅延（22.2ms/サンプル）を両立した。
- ベースラインやプロンプトエンジニアリングと比較して，著しい性能向上が確認された。
- ワンショットモードではコンテキスト長の影響を受け，性能が低下する傾向が示された。
Link: https://arxiv.org/abs/2602.23312
FlashOptim：メモリ効率の良い学習のためのオプティマイザ [cs.LG, cs.AI]目的：ニューラルネットワーク学習におけるメモリ使用量削減
- 大規模モデル学習には，大量のアクセラレータメモリが必要不可欠である。
- モデルパラメータ数増加に伴い，メモリ消費量が学習のボトルネックとなる。
- パラメータ当たりのメモリ使用量を削減し，大規模モデル学習を可能にすること。
- FlashOptimは，パラメータ当たりのメモリ使用量を50%以上削減することに成功した。
- モデルの精度やAPI互換性を維持しつつ，メモリ効率を向上させた。
- SGD，AdamW，Lionなど，様々なオプティマイザで性能劣化は見られなかった。
Link: https://arxiv.org/abs/2602.23349
ProtoDCS：ビジョン言語モデルのロバストかつ効率的なテスト時適応に向けたオープンセットアプローチ [cs.CL, cs.IR, cs.CV, cs.AI]目的：ビジョン言語モデルにおける，分布シフトへの対処
- 現実世界での応用において，分布シフトへの対応は重要な課題である。
- 既存のテスト時適応手法は，未知のデータに対応できないという問題がある。
- 本研究は，未知のデータと既知のデータの識別を両立し，効率的な適応を可能にする。
- 提案手法ProtoDCSは，確率的ガウス混合モデルを用いた二段階チェック機構により，曖昧な未知データを正確に識別する。
- 不確実性を考慮した損失関数とプロトタイプレベルの更新により，過信を抑制し，計算コストを削減する。
- CIFAR-10/100-CおよびTiny-ImageNet-Cにおける実験で，ProtoDCSは最先端の性能を達成した。
Link: https://arxiv.org/abs/2602.23653
測地セマンティック検索：引用グラフ検索のための局所リーマン計量の学習 [cs.IR, cs.LG, cs.SI]目的：引用グラフにおけるノード固有のリーマン計量の学習
- 学術論文間の関係性をグラフ構造で捉え，知識発見を支援する技術として重要である。
- 既存手法は固定されたユークリッド距離に依存しており，セマンティックな類似性を捉えきれない場合がある。
- 引用グラフの幾何学的構造を活用し，より正確なセマンティック検索を実現すること。
- 提案手法GSSは，既存のSPECTER+FAISSベースラインと比較して，Recall@20で23%の相対的な改善を達成した。
- GSSは解釈可能な引用パスを提供し，検索結果の根拠を明確に示すことができる。
- 階層的な粗探索とk-meansプーリングにより，計算コストを4倍削減しつつ，検索品質を97%維持した。
Link: https://arxiv.org/abs/2602.23665
嗜好ラベルにおける潜在的信号 [cs.CY, cs.LG]目的：AIシステムの監視における潜在的信号の存在
- AIの進化に伴い，人間による監視の代替手段としてLLMの活用が重要になっている。
- LLMによる判断は，バイアスを含む可能性があり，客観的な評価が課題となっている。
- 嗜好ラベルを通じて伝達される意図しないバイアスを検出し，軽減すること。
- 嗜好ラベルは，応答の質に関する意味的な指示だけでなく，隠れたコミュニケーションの手段となり得る。
- バイアスのある判断モデルは，中立的な生成モデルに対しても，意図しない行動特性を嗜好ラベルを通じて伝達し，強化することが示された。
- 強化学習において，潜在的な嗜好伝達を検出し，軽減するメカニズムが重要である。
Link: https://arxiv.org/abs/2603.01204
AIエージェントは合意できるか？ [cs.MA, cs.LG]目的：大規模言語モデルによるエージェントの合意形成
- AIエージェントの協調は重要性が増している。信頼性の高い協調は，様々な応用を可能にする。
- 敵対的環境下におけるLLMエージェントの合意形成の信頼性が課題である。
- LLMエージェント群における信頼性の高い合意形成の限界を明らかにする。
- 合意形成は，穏やかな環境下でも必ずしも信頼性が高くなく，グループ規模の拡大に伴い悪化する。
- 少数のビザンチンエージェントの導入は，合意成功率をさらに低下させる。
- 失敗の原因は，微妙な値の歪みよりも，タイムアウトや収束の停止といった生存性の喪失に起因する。
Link: https://arxiv.org/abs/2603.01213
LLMにおける意見一致は推論によって向上する [cs.CL, cs.LG]目的：LLMにおける意見の一致性の向上
- 政治的嗜好のモデル化は，より公正で人気のある政策形成に役立つデジタル民主主義などの応用を可能にする。
- LLMは統計的性質と因果的理解の限界から，単純なプロンプトでは偏った意見を生成しやすい。
- 本研究は，LLMにおける意見の一致性を向上させるために，推論の有効性を検証することを目的とする。
- 推論を取り入れることで，LLMによる意見モデリングの精度が向上し，既存手法と同等の競争力を持つことが示された。
- しかし，推論だけではバイアスを完全に除去することはできず，LLMを用いた政治的デジタルツイン構築には追加の工夫が必要である。
- 本研究で開発した手法とデータセットを公開することで，今後のLLM意見一致に関する研究の基盤を確立する。
Link: https://arxiv.org/abs/2603.01214
並列ベイズ最適化のためのランダム化クリギングビリーバー：後悔境界付き [cs.LG, stat.ML]目的：高コストなブラックボックス関数の最適化
- 最適化問題は，科学技術の様々な分野において不可欠な課題である。
- 従来の並列ベイズ最適化手法は，実用的な性能が低いか，理論的な保証がない。
- 並列評価による効率的な最適化と，後悔境界の理論的保証を実現すること。
- 提案手法であるランダム化クリギングビリーバーは，低計算コストと簡単な実装を実現する。
- 本手法は，様々なベイズ最適化手法や非同期並列化に適用可能である。
- 合成関数，ベンチマーク関数，実データのエミュレータによる実験で，有効性が確認された。
Link: https://arxiv.org/abs/2603.01470
期待と音響ニューラルネットワーク表現が脳活動からの音楽識別を向上させる [cs.IR, cs.HC, cs.AI, q-bio.NC]目的：脳活動からの音楽識別の改善
- 音楽認知における脳活動の解読は，脳機能の理解を深める上で重要である。
- 脳波(EEG)データからの音楽識別の精度は，依然として課題が残されている。
- 音響情報と期待情報を分離し，それらを活用することで音楽識別の精度向上を目指す。
- 音響情報と期待情報に関連するANN表現を教師データとして用いることで，脳波ベースの音楽識別の性能が向上した。
- 予備学習モデルは，ランダム初期化を用いたアンサンブルよりも優れた性能を示した。
- 本研究は，教師表現の種類が下流の性能に影響すること，および表現学習が神経符号化によって導かれることを示唆する。
Link: https://arxiv.org/abs/2603.03190
LLMは帰納的定義を含む制約解決に役立つか？ [cs.LO, cs.AI]目的：帰納的定義を含む制約解決へのLLMの応用
- 形式手法は，ソフトウェアやハードウェアの検証において重要な役割を果たす。
- 帰納的定義を含む制約問題は，既存のソルバーでは解決が困難である。
- LLMを活用し，帰納的定義の推論に必要な補助的な補題を生成すること。
- 提案手法では，LLMが反復的に推測を生成し，ソルバーがその妥当性を検証する。
- 実験結果から，提案手法は既存のソルバーの性能を向上させ，約25%多くの問題を解決できることが示された。
- 特に，代数的データ型や漸化式を含む制約問題において有効性が確認された。
Link: https://arxiv.org/abs/2603.03668
LLM生成プロンプトによる調査から見る，GenAIチャットボットと子供の対話における親の意向 [cs.HC, cs.AI]目的：GenAIチャットボットと子供の対話における親の意向
- GenAIの急速な普及により，子供への影響が懸念されているため，安全な利用方法の確立が重要である。
- 既存のペアレンタルコントロールは，親が懸念する対話内容の全てをカバーできていない。
- 親が求める詳細な透明性と会話レベルでの調整機能を，GenAIに実装することを目指す。
- 親は，既存のペアレンタルコントロールでは対応できない対話内容について懸念を抱いていることが明らかになった。
- 会話レベルでのきめ細やかな透明性と調整機能を親は求めており，子供の年齢や親の戦略に合わせた個別化された制御が必要である。
- LLMを活用して生成された対話例を用いることで，親の具体的な懸念点と修正要望を把握することができた。
Link: https://arxiv.org/abs/2603.03727
Minecraft用キャラクターからスキンへの変換パイプライン：オープンソースの二段階方式BLOCK [cs.CV, cs.AI]目的：Minecraftスキン生成のための，キャラクターコンセプトから高品質スキンを生成する二段階パイプライン
- Minecraftは世界的に人気があり，キャラクター表現の多様性が重要である。
- 既存の手法では，高品質かつ一貫性のあるスキン生成が困難であった。
- 多様なキャラクターコンセプトから，自動で高品質なMinecraftスキンを生成すること。
- BLOCKは，大規模マルチモーダルモデル(MLLM)を活用した3Dプレビュー生成と，微調整されたFLUX.2モデルによるスキンデコードの二段階構成である。
- EvolveLoRAというプログレッシブLoRAカリキュラムを導入し，各段階の安定性と効率を向上させている。
- 全てのプロンプトテンプレートと微調整済みウェイトを公開し，再現性を確保している。
Link: https://arxiv.org/abs/2603.03964
LLM安全評価ベンチマークの影響力とコード品質に関するベンチマーク研究 [cs.CR, cs.AI, cs.SE]目的：LLM安全評価ベンチマークにおける影響力とコード品質の多角的評価
- LLMの安全性研究が急速に進展しており，進捗状況を把握することが重要である。
- ベンチマークの普及要因が不明確であり，学術的な影響力やコード品質の系統的な評価が不足している。
- LLM安全評価ベンチマークの信頼性と有効性を高めるための改善点を発見すること。
- ベンチマーク論文は，被引用回数などの学術的な影響力において，非ベンチマーク論文との有意な差は見られなかった。
- 著者の知名度は論文の影響力と相関するものの，コード品質との有意な相関は認められなかった。
- リポジトリの利用準備完了率は39％，完全なインストールガイドがあるのは16％，倫理的配慮はわずか6％にとどまるなど，改善の余地が大きい。
Link: https://arxiv.org/abs/2603.04459
推論劇場：思考連鎖におけるモデルの信念とパフォーマンスの乖離 [cs.RO, cs.CL, cs.AI, cs.LG]目的：思考連鎖におけるモデルの信念とパフォーマンスの関係性の解明
- 大規模言語モデルの推論能力向上は，AIの信頼性と実用性を高める上で重要である。
- 思考連鎖（CoT）は効果的だが，モデルが実際には信念を持たずにパフォーマンスを発揮する可能性が指摘されている。
- 思考連鎖におけるモデルの真の信念とパフォーマンスの乖離を明らかにし，効率的な推論を可能にする。
- モデルは簡単な質問に対して，思考連鎖の初期段階で最終的な答えを予測できることが示された。
- 信念の変化を示すプローブは，モデルの「推論劇場」的な行動（後退や洞察）と一致することを確認した。
- プローブを用いた早期終了は，MMLUとGPQA-Diamondでトークン数を大幅に削減し，精度を維持した。
Link: https://arxiv.org/abs/2603.05488
労作から思考へ：系統的文献レビューにおける戦略的探索と責任あるAIの設計 [cs.HC, cs.AI]目的：系統的文献レビューにおける戦略的探索と責任あるAIの設計
- 科学的進歩の基礎であり，質の高いレビューが重要である。
- 既存のツールが分断され，認知負荷が高く，効率を阻害している。
- 統合環境を通じて，研究者の戦略的探索を支援し，AIの透明性を高める。
- ARCは，複数データベース統合，反復検索の透明化，AI支援スクリーニングを実現する。
- 比較ユーザースタディにより，統合環境が研究者の戦略的探索を促進することが示された。
- 外部表現と透明なAI推論により，専門家の判断を支援し，知識の統合を長期的に維持する。
Link: https://arxiv.org/abs/2603.05514
物理基礎モデルにおけるトークナイザー事前学習の価値 [cs.LG, astro-ph.IM, cs.AI, physics.comp-ph]目的：物理エミュレーションの精度と効率に対するトークナイザー事前学習の影響
- 物理シミュレーションのデータ量は増大しており，複雑な現象を扱うための効率的なモデリング手法が求められている。
- 物理基礎モデルは，データが限られた状況下でも物理法則を学習できるが，同時学習は効果を阻害する可能性がある。
- トークナイザー事前学習によって計算効率を向上させ，効果的な物理エミュレーターの構築を目指す。
- トークナイザーを自己符号化の目的で事前学習することで，物理エミュレーションの計算効率が向上することが示された。
- 特に，事前学習に用いる物理システムがエミュレーションのタスクと一致する場合に，効果が最も大きいことが明らかになった。
- ドメイン内事前学習は，ゼロから学習する場合と比較して，VRMSEを64%削減することができた。
Link: https://arxiv.org/abs/2603.05598
創発的な基盤モデルとエージェントAI時代における計算病理学：臨床への統合と臨床実装の準備に関する国際的専門家の視点 [cs.CE, cs.AI]目的：計算病理学における最新のAIシステムの臨床への統合と臨床実装の準備
- 病理診断の精度向上と効率化が，より良い患者ケアに不可欠である。
- AI技術の進歩にもかかわらず，経済的，技術的，管理的な課題により臨床実装が遅れている。
- AIシステムの臨床への責任ある統合のための現実的な評価と障壁の特定。
- 基盤モデルやエージェントAIの進歩により計算病理学は進化を加速させている。
- 臨床実装には，技術的な成熟度，運用準備，経済的・規制的な文脈との連携が重要である。
- 国際的な専門家の視点から，現在の能力と採用の障壁について実用的な評価を提供している。
Link: https://arxiv.org/abs/2603.05884
構造を意識した集合型Transformer：非同期臨床時系列データに対する時間的・変数タイプ別注意バイアス [cs.LG]目的：非同期臨床時系列データに対する集合型Transformerモデルにおける時間的・変数タイプ別注意バイアスの導入
- 電子健康記録（EHR）分析は，患者ケアの改善や医療資源の最適化に不可欠である。
- EHRデータは不規則で非同期であるため，時系列モデリングにおける課題が多い。
- 既存モデルの課題を克服し，EHRデータの効率的な解析を可能にする。
- 提案手法STAR-Setは，ICU予測タスクにおいて既存手法を凌駕するAUC/APRを達成した。
- 学習された時間スケールと変数タイプ間の親和性は，時間的文脈と変数間の相互作用を解釈可能な形で提示する。
- STARは，文脈情報を活用した時系列モデルへのプラグインとして活用可能である。
Link: https://arxiv.org/abs/2603.06605
条件付き不均衡最適輸送写像：外れ値に頑健な条件付き生成モデリングの枠組み [cs.LG, cs.CV]目的：条件付き生成モデリングにおける外れ値への頑健性
- 確率分布間の効率的な写像構築は，生成モデリング等の様々な応用において重要である。
- 従来の条件付き最適輸送は，外れ値に弱く，限られたデータからの分布推定において問題となる。
- 外れ値に対する頑健性を向上させつつ，分布の一致性能を維持することが課題である。
- 提案手法であるCUOTMは，従来のCOTベースの手法と比較して，外れ値に対する頑健性に優れることが実験的に示された。
- CUOTMは，分布の一致性能においても競争力があり，高いサンプリング効率を維持している。
- Csisz\'arダイバージェンスによるペナルティ項を導入することで，条件付き分布の一致制約を緩和し，条件付き周辺分布は厳密に保持される。
Link: https://arxiv.org/abs/2603.06972
微分可能平衡ブロックによる深層インセンティブ設計 [cs.GT, cs.LG]目的：望ましい平衡結果をもたらすマルチエージェント間の相互作用の自動設計
- 経済学やコンピュータサイエンスにおいて，インセンティブ設計は重要な課題である。社会的な効率性や公平性を高める上で不可欠。
- 従来のインセンティブ設計は計算困難性，平衡解の非一意性，不安定性といった問題を抱えており，自動化が難しい。
- 微分可能平衡ブロックを用いて，これらの問題を克服し，幅広いインセンティブ設計問題を解決することを目的とする。
- 本研究では，微分可能平衡ブロック(DEB)を組み込んだ深層インセンティブ設計(DID)フレームワークを提案した。
- 契約設計，機械スケジューリング，逆均衡問題という3つの異なるタスクで有効性を検証した。
- 単一のニューラルネットワークを用いて，様々な規模のゲーム（プレイヤーあたり2〜16アクション）を扱うことが可能となった。
Link: https://arxiv.org/abs/2603.07705
LLMによる助成金提案書の評価：構造的摂動による検証 [cs.CL, cs.AI, cs.CY]目的：LLMを用いた助成金提案書レビューの能力と限界の評価
- 研究エコシステムにおいて，AIによる提案書作成能力が手動レビュー能力を上回り，レビュー体制の逼迫が課題となっている。
- 高額な研究資金の配分において，LLMのレビュー精度や信頼性が十分に検証されていないという問題がある。
- LLMレビューの品質軸（資金，期間，能力，適合性，明瞭性，インパクト）に対する感度を分析し，最適なレビューアーキテクチャを模索する。
- セクションごとにレビューする手法が，検出率とスコアリングの信頼性の両面で他の手法を上回る結果が得られた。
- 専門家パネルを模倣した複雑な手法は，単純なベースライン手法と同程度の性能しか示さなかった。
- LLMのフィードバックは概ね妥当であるが，全体的な評価よりも形式的な適合性チェックに偏っている傾向が見られた。
Link: https://arxiv.org/abs/2603.08281
自律運転研究室における人間を意識したロボットの挙動 [cs.RO, cs.AI, cs.HC]目的：自律運転研究室における人間とロボットの協調効率向上
- 化学や材料科学の研究加速に貢献する自律運転研究室の重要性が高まっている。
- ロボットは人間の存在を検知するだけで停止し，効率的な連携が課題となっている。
- 人間とロボットが共存する研究室における，よりスムーズな協調を目指す。
- 提案手法は，人間の行動意図を予測することで，ロボットの能動的な協調を可能にする。
- 実験結果から，本手法が自律研究室の効率化に貢献することが示唆された。
- ロボットは準備行動と一時的な操作を区別し，状況に応じた適切な対応を行う。
Link: https://arxiv.org/abs/2603.08420
RetroAgent：事後的な二重内在的フィードバックによる解決から進化へ [cs.AI]目的：大規模言語モデルベースのエージェントにおける継続的な適応
- LLMエージェントの性能向上は，現実世界の複雑なタスク遂行において不可欠である。
- 従来の強化学習は，単発的なタスク解決に偏り，効率的な経験学習が困難である。
- 事後的な自己改善メカニズムにより，エージェントの継続的な学習能力と汎化性能の向上を目指す。
- RetroAgentは，タスク成功報酬と事後的な二重内在的フィードバックによって複雑な環境を習得する。
- 数値フィードバックは有望な探索を促し，言語フィードバックは再利用可能な教訓を記憶バッファに蓄積する。
- ALFWorld, WebShop, Sokoban, MineSweeperを含む4つのタスクで，最先端の性能を達成した。
Link: https://arxiv.org/abs/2603.08561
漸進的疑似マスク洗練を用いた弱教師あり教師・生徒フレームワークによる腺分割 [cs.CV, cs.AI]目的：腺構造の正確な分割
- 大腸癌の組織病理学的分類には腺構造の正確な分割が不可欠である。
- 従来の深層学習は大量のピクセルレベルのアノテーションに依存し，臨床現場での取得が困難である。
- 粗いアノテーションから高精度な分割を実現し，アノテーションコストを削減すること。
- Gland Segmentationデータセットにおいて，平均IoU 80.10%，平均Dice係数89.10%を達成した。
- TCGA COADおよびTCGA READにおけるクロス・コホート評価では堅牢な汎化性能を示した。
- SPIDERデータセットでは性能が低下したが，これはドメインシフトによる影響と考えられる。
Link: https://arxiv.org/abs/2603.08605
AgentOS：アプリケーションの分断から自然言語駆動のデータエコシステムへ [cs.AI]目的：自然言語を基盤とするデータエコシステムの実現
- 近年，オープンソースのローカルホスト型知能エージェントが急速に発展しており，人間とコンピュータの新たな対話形態が期待される。
- 既存エージェントはGUI/CLI向けOS上で動作するため，対話モデルの断片化や権限管理の課題，コンテキストの分断が生じている。
- AgentOSはこれらの問題を解決し，自然言語によるソフトウェア合成と継続的なデータマイニングを実現する基盤を構築する。
- 本研究では，GUIデスクトップを自然言語インターフェースに置き換え，エージェントカーネルによる意図解釈とタスク分解を提案する。
- AgentOSは，ワークフロー自動化のためのシーケンスパターンマイニング，スキル検索のためのレコメンダシステム，個人知識グラフの進化を可能にするデータマイニングパイプラインとして機能する。
- この研究は，次世代のインテリジェントコンピューティングシステムの構築に向けて，KDDコミュニティに新たな研究課題を提示する。
Link: https://arxiv.org/abs/2603.08938
継続的経験駆動型実行による深層表形式研究 [cs.AI]目的：深層表形式研究における，多段階にわたる相互依存的な表領域の推論
- 非構造化テーブルからの複雑な長期的分析タスクは，情報抽出やデータ分析において重要である。
- 従来の言語モデルは，階層的ヘッダーや非標準レイアウトを持つ表形式データでの推論が苦手である。
- 戦略的な計画と低レベル実行を分離することで，長期的表形式推論の精度向上を目指す。
- 提案手法は，自然言語クエリを操作レベルの探索空間にマッピングする階層的メタグラフを構築する。
- 期待値を考慮した選択ポリシーにより，高収益な実行経路を優先し，効率的な探索を実現する。
- 過去の実行結果を構造化メモリに統合し，継続的な改善を可能にする。
Link: https://arxiv.org/abs/2603.09151
行動としての評価：検索拡張エージェントのための自己評価プロセス報酬 [cs.RO, cs.AI]目的：検索拡張エージェントにおけるプロセス報酬の最適化
- 知識検索と推論を組み合わせることで，複雑な質問応答システムを実現できる。
- 検索結果のノイズや，結果のみを報酬とする強化学習の粗さが課題となる。
- 検索の質を評価するプロセスを明示化し，より効率的な学習を目指す。
- 提案手法EvalActは，検索直後に評価を行うことで，より適切なプロセス信号を生成する。
- Process-Calibrated Advantage Rescaling (PCAR)は，評価スコアに基づいて利得を調整し，信頼性の高い部分を強調する。
- 7つのオープン領域QAベンチマークにおいて，EvalActは最高の平均精度を達成し，特に複数ホップタスクで大きな改善が見られた。
Link: https://arxiv.org/abs/2603.09203
マルコフ決定過程の設計がシミュレーションから現実世界への強化学習への影響 [cs.LG]目的：シミュレーションから現実世界への転移における，マルコフ決定過程設計の系統的分析
- 産業プロセス制御への強化学習の応用が期待される一方で，現実世界への展開に課題がある。
- シミュレーションで学習した方策が，実際のハードウェアで期待通りの性能を発揮できない「シミュレーション・トゥ・リアルギャップ」が存在する。
- マルコフ決定過程の設計選択が，このギャップに与える影響を明らかにし，実用的な設計指針を提供する。
- 物理ベースの動力学モデルは，厳密な精度要件下で，単純化されたモデルが全く機能しない状況下でも，最大50％の現実世界での成功率を達成した。
- 状態構成，目標設定，報酬設計，終了条件，環境ダイナミクスモデルといった，マルコフ決定過程の設計選択が，転移性能に影響を与えることが示された。
- これらの結果は，産業プロセス制御における強化学習展開のための，実用的なマルコフ決定過程設計ガイドラインを提供する。
Link: https://arxiv.org/abs/2603.09427
ロジックパース・オムニ技術報告 [cs.AI]目的：マルチモーダルパースにおけるタスク定義の断片化と非構造化データの異質性への対処
- マルチモーダルな情報処理は，現実世界とのインタラクションにおいて不可欠であり，その重要性は増している。
- 既存手法では，多様なデータ形式からの知識抽出と，その論理的な構造化が困難である。
- 非構造化データから標準化された知識を抽出し，論理的な推論を可能にすることを目指す。
- 本研究では，ドキュメント，画像，音声・映像ストリームを網羅する統一的な分類体系「Unified Taxonomy」を導入した。
- 提示された「Omni Parsing」フレームワークは，高レベルな意味記述と低レベルな事実の厳密な整合性を保証する「エビデンスアンカリング」機構を備えている。
- 実験により，詳細な知覚と高レベルな認知が相乗効果を生み出し，モデルの信頼性を向上させることが示された。
Link: https://arxiv.org/abs/2603.09677
EXPLORE-Bench：一人称視点における長期的推論によるシーン予測 [cs.CV, cs.AI, cs.CL]目的：一人称視点からの行動結果に対する長期的物理的影響の推論能力の評価
- 身体性AIの基盤としてマルチモーダル大規模言語モデルの重要性が高まっている。
- 行動の長期的な影響を一人称視点から正確に予測する能力が課題となっている。
- 長期的推論の評価のためのベンチマークデータセットと評価手法を確立する。
- 提案されたEXPLORE-Benchは，実世界の第一人称動画から構築された新しいベンチマークである。
- 様々なMLLMを用いた実験の結果，人間の性能と比較して大きな性能差が確認された。
- 行動系列を段階的に分解することで性能向上が見られたものの，計算コストが増加するという課題も示唆された。
Link: https://arxiv.org/abs/2603.09731
AraModernBERT：アラビア語のためのトランストークン化された初期化と長文コンテキストエンコーダーモデリング [cs.CL, cs.AI]目的：アラビア語向けエンコーダーモデルAraModernBERTの構築と評価
- 自然言語処理において，エンコーダーモデルは重要な役割を担う。近年，その性能向上が求められている。
- 既存の研究は英語に偏っており，アラビア語のような他の言語への適応が課題となっていた。
- アラビア語へのエンコーダーモデルの適応における，初期化と長文コンテキストモデリングの最適化を目指す。
- トランストークン化による初期化が，アラビア語言語モデリングの性能を大幅に向上させることが示された。
- AraModernBERTは，最大8,192トークンまでの長文コンテキストモデリングを安定的に，かつ効果的に実現した。
- 様々なアラビア語自然言語理解タスクにおいて，優れた転移学習能力が確認された。
Link: https://arxiv.org/abs/2603.09982
大規模言語モデルにおけるプロンプトの先を超えて：理解，文脈内学習，思考の連鎖 [cs.CL, cs.LG]目的：大規模言語モデルの特性である，プロンプトの理解，文脈内学習，思考の連鎖のメカニズムの解明
- 近年，大規模言語モデルの性能が向上し，多様な応用が期待される分野である。
- そのメカニズムは実証的に成功しているものの，理論的な解明が遅れている。
- プロンプト理解，文脈内学習，思考の連鎖の背後にある統計的原理を明らかにすること。
- 大規模言語モデルは，自己回帰的過程を通じて，プロンプトからタスク間のトークン遷移確率を正確に推論できる。
- 文脈内学習は，プロンプトの曖昧さを軽減し，意図されたタスクへの事後集中を促進することで，性能向上に貢献する。
- 思考の連鎖は，モデルが複雑な問題をより簡単なサブタスクに分解する能力を活性化し，事前学習で習得した知識を活用する。
Link: https://arxiv.org/abs/2603.10000
Wikidataを活用した地理情報に基づいた社会文化的バイアスデータセット作成：ラテンアメリカへの応用 [cs.CL, cs.AI, cs.LG]目的：ラテンアメリカの多様な文化に関する質問応答ペアのデータセット
- 大規模言語モデルの公平性は重要であり，文化間の不平等に対処する必要がある。
- ラテンアメリカを含む非英語圏のバイアス検出リソースが不足している。
- ラテンアメリカの文化に関する知識評価データセットを構築し，LLMのバイアスを定量化する。
- ラテンアメリカの26カ国に関する2万6千件以上の質問応答データセットLatamQAを構築した。
- LLMは，自言語でより良い性能を発揮し，イベリア半島の文化の方がラテンアメリカの文化よりもよく知られていることが分かった。
- ラテンアメリカ諸国間でのLLMの性能に差異が見られ，一部の国の方がモデルにとって容易であることが示された。
Link: https://arxiv.org/abs/2603.10001
SENS-ASR：ストリーミング自動音声認識のためのニューラル・トランスデューサへの意味埋め込み注入 [cs.CL, cs.AI]目的：ストリーミング自動音声認識の転写品質の向上
- 音声認識技術は，多様な分野で活用されており，その重要性は増している。
- ストリーミング音声認識では，未来の文脈が限られるため，オフライン認識に比べて精度が低下する。
- 過去のフレーム埋め込みから意味情報を抽出し，音響情報に注入することで精度低下を抑制する。
- SENS-ASRは，小塊のストリーミングシナリオにおいて，語彙誤り率を大幅に改善することを示した。
- 文埋め込み言語モデルからの知識蒸留を用いて文脈モジュールを訓練することで，意味情報を効果的に活用している。
- 音響情報に意味情報を付加することで，未来の文脈が少ない状況下でも高精度な転写が可能となる。
Link: https://arxiv.org/abs/2603.10005
エピステミック・サポートポイント・フィルター：ジェーンズの最大エントロピーとポッパの反証可能性 [cs.RO, cs.IT, cs.AI, cs.SY, eess.SY, math.IT, stat.ME]目的：エピステミックに許容可能な証拠のみフィルターの中で，エピステミック・サポートポイント・フィルター（ESPF）の唯一最適な再帰的推定器であることの証明
- 推定理論は，不確実性下での意思決定や予測に不可欠であり，様々な分野で利用されている。
- 従来のフィルターは，事前分布に依存し，真実を仮定してしまう傾向があり，反証可能性を欠く場合がある。
- ESPFは，反証可能性を重視し，証明されていない可能性を探求することで，よりロバストな推定を実現する。
- ESPFの最適化基準は，ホルダー平均階層におけるαカット体積族の対数幾何平均であり，ポッパのミニマックス境界とカルマンMMSE基準を統一的に説明する。
- 可能性と確率は競合する枠組みではなく，異なるαカット幾何学のもとで評価された同一の無知関数である。
- ESPFの最適化基準のガウス特殊化としてカルマンフィルターが導出され，独立した発明ではないことが示された。
Link: https://arxiv.org/abs/2603.10065
非ユークリッド距離層による調和損失の再検討 [cs.LG, cs.AI]目的：調和損失における距離指標の体系的な調査と評価
- 深層学習モデルの学習において，損失関数の選択は性能と効率に大きく影響する。
- 従来の交差エントロピー損失には解釈性の限界や学習の不安定性といった問題がある。
- 調和損失は代替案として注目されるが，ユークリッド距離に限定され評価も十分ではない。
- ビジョンタスクではコサイン距離が精度向上と炭素排出量削減で最も効果的である。
- Bray-CurtisやMahalanobis距離は解釈性を高めるが，効率は変化する。
- 言語モデルではコサインベースの調和損失が，勾配安定性や表現構造を改善し，炭素排出量を削減する。
Link: https://arxiv.org/abs/2603.10225
拡散モデルにおけるプロンプト不要なインスタンス・アンラーニング [cs.LG, cs.CV]目的：拡散モデルから特定の出力を選択的に削除する手法
- 拡散モデルの倫理的課題やプライバシー保護は重要であり，意図しない出力の修正が求められる。
- テキストプロンプトで指定できない望ましくない出力（顔や不正確な描写）の削除が困難である。
- テキストプロンプトを用いずに，特定インスタンスの出力を選択的に忘れさせることを目指す。
- 提案手法は，画像編集，タイムステップ加重，勾配手術を活用し，拡散モデルから特定の出力を効果的に削除する。
- 実験により，顔や文化的に不正確な描写といった，プロンプトでは削除困難な出力を本手法が精度良くアンラーニングできることが示された。
- 本手法は，プライバシー保護と倫理的遵守のために，拡散モデル提供者にとって実用的な解決策となりうる。
Link: https://arxiv.org/abs/2603.10445
CUAAudit：自律的なコンピュータ利用エージェントの監査におけるビジョン言語モデルのメタ評価 [cs.AI, cs.HC]目的：自律的なコンピュータ利用エージェントのタスク遂行の評価
- 人間とコンピュータの新しいインタラクション手段として，エージェントの活用が重要になっている。
- 従来の評価手法は，柔軟性，コスト，実用性の面で課題がある。
- ビジョン言語モデルを監査員として活用し，より信頼性の高い評価を目指す。
- 最先端のビジョン言語モデルは高い精度と校正性能を示すものの，複雑な環境下で性能が低下する。
- 高性能なモデルであっても，判断に大きなばらつきが見られる。
- モデルベースの監査には，信頼性，不確実性，分散を考慮する必要がある。
Link: https://arxiv.org/abs/2603.10577
契約と征服：ブラックボックスモデルに対する敵対的サンプルを確実に計算する方法 [cs.LG, cs.AI]目的：ブラックボックスモデルに対する敵対的サンプルの確実な計算
- 深層学習モデルの堅牢性を評価する上で，敵対的攻撃は重要な手法である。
- 既存手法では，特定のモデルに対する敵対的サンプルが存在するか保証されない。
- 本研究は，敵対的サンプルの存在を保証する手法を開発する。
- 提案手法「契約と征服(CAC)」は，知識蒸留と探索空間の精密な縮小に基づいている。
- CACは，固定回数の反復でブラックボックスモデルに対する敵対的サンプルを見つけることを理論的に保証する。
- ImageNetデータセットを用いた実験で，CACは既存の手法よりも優れた性能を示した。
Link: https://arxiv.org/abs/2603.10689
音声アンチスプーフィングモデルの確率的検証 [cs.RO, cs.SY, eess.SY, cs.SD, cs.AI]目的：音声アンチスプーフィングモデルの堅牢性検証
- 音声合成技術の進化は，悪意ある利用のリスクを高め，セキュリティ上の脅威となっている。
- 既存の対策は，形式的な堅牢性の保証がなく，未知の生成技術への汎化が難しい。
- 未知の音声合成技術や入力摂動に対する堅牢性を検証する手法を確立すること。
- 提案手法PV-VASMは，テキスト読み上げ(TTS)や音声クローニング(VC)下での誤分類確率を推定する。
- モデルに依存せず，様々な実験設定で有効性を示す実用的な堅牢性検証ツールである。
- 誤分類確率の理論的な上限を導出し，その有効性を実験的に検証した。
Link: https://arxiv.org/abs/2603.10713
人間が着想を得た推論によるロバストな音声ディープフェイク検出への取り組み [cs.SD, cs.AI]目的：音声ディープフェイク検出のロバスト性と解釈可能性の向上
- 音声合成技術の発展に伴い，悪用による情報漏洩リスクが増大している。
- 既存のディープフェイク検出手法は，未知の音声ドメインや生成モデルへの汎化性能が低い。
- 人間の推論に基づいた検出フレームワークを構築し，予測根拠の提示を目指す。
- 提案手法HIR-SDDは，大規模音声言語モデルとChain-of-Thought推論を組み合わせることで，高い検出性能を実現した。
- HIR-SDDは，予測の妥当性を示す根拠を提示することが可能であり，解釈可能性に優れている。
- 実験結果から，提案手法が新たな音声ドメインや生成モデルに対しても有効であることが示された。
Link: https://arxiv.org/abs/2603.10725
手がかりの競合に関する信頼性と，その先 [cs.CV, cs.AI]目的：ニューラルネットワークにおける視覚的な手がかりへの依存性の解明
- ニューラルネットワークの意思決定プロセスを人間が理解しやすい形で把握することの重要性
- 既存の評価手法では，手がかりの偏りを正確に推定することが困難である
- より信頼性の高い，解釈可能な手がかりの偏り診断手法を開発すること
- 既存の手法では，手がかりの偏りの推定が不安定であるという問題点を指摘した。
- REFINED-BIASという，新しいデータセットと評価フレームワークを提案した。
- REFINED-BIASを用いることで，より公平なモデル間の比較と，正確な偏り診断が可能となった。
Link: https://arxiv.org/abs/2603.10834