arXiv雑要約

AI - 2026/05/06 公開

乳用農場における低排出肥料の導入に関するエージェントベースモデリング：実証データを用いた酪農脱炭素化 [cs.AI]目的：乳用農場における低排出肥料の導入シミュレーションと，それによる脱炭素化効果の評価
- 酪農は温室効果ガス排出量が大きく，持続可能な農業システムへの転換が急務である。
- 農家の多様性や社会的相互作用を考慮した従来のモデルでは，実態を正確に再現できない場合がある。
- 農家の行動や政策の影響を分析し，効果的な脱炭素化戦略の策定を支援すること。
- エージェントベースモデルは，実際の肥料導入軌跡と高い一致性を示し（$R^2 = 0.979$），妥当性が確認された。
- モデルは，社会的伝播，農場規模，政策介入が肥料導入に与える影響を定量的に評価した。
- 脱炭素化を社会技術的な拡散プロセスとして捉え，政策評価のためのシミュレーション環境を提供した。
Link: https://arxiv.org/abs/2605.03648
ビデオオブジェクト中心学習における時間的一貫性の再考：予測から対応へ [cs.CV, cs.LG]目的：ビデオオブジェクト中心学習における時間的一貫性の維持機構
- 動画理解において，オブジェクト単位での学習は重要性を増しており，その時間的一貫性は課題である。
- 従来の予測に基づく時間的一貫性は，計算コストが高く，必ずしも最適ではない。
- 学習された予測関数ではなく，オブジェクトの特徴量間の対応関係を利用することで，効率的な時間的一貫性を実現する。
- 学習された遷移関数を決定的な二部マッチングに置き換えることで，時間モデリングに必要な学習パラメータをゼロに削減した。
- バックボーン特徴量の顕著領域からスロットを初期化し，スロット表現上でハンガリー法によるフレーム間の同一性を維持する。
- MOVi-D，MOVi-E，YouTube-VISにおいて，競争力のある性能を達成した。
Link: https://arxiv.org/abs/2605.03650
AniMatrix：芸術を思考するアニメ動画生成モデル [cs.CV, cs.AI]目的：アニメ動画生成における芸術性の表現
- 動画生成技術は，映像制作の効率化や新たな表現の可能性を広げる上で重要である。
- 既存の動画生成モデルは物理法則を重視し，アニメ特有の芸術表現を十分に再現できていない。
- アニメの芸術的特徴を理解し，物理法則に縛られない動画生成を実現すること。
- AniMatrixは，物理的正しさではなく芸術的正しさを目指すことで，アニメの表現力を向上させている。
- Production Knowledge SystemとAniCaptionにより，アニメの制作変数を構造的に制御し，高い指示理解度を実現した。
- 専門家による評価において，プロンプト理解度と芸術的なモーションにおいて既存モデルを大きく上回る結果が得られた。
Link: https://arxiv.org/abs/2605.03652
ステージ照明はシーケンス$^2$: 模倣学習による多灯制御 [cs.NI, cs.MM, cs.AI]目的：音楽に合わせた自動ステージ照明制御手法
- 舞台照明は芸術表現において不可欠だが，専門家による調整は時間とコストがかかる。
- 既存手法は解釈性の低さ，単一光源への制限，汎用性の低さといった課題がある。
- 音楽から多灯照明の制御を可能にする，柔軟な汎用性を持つ手法を開発する。
- SeqLightは，音楽を多灯のHSV空間にマッピングする階層型深層学習フレームワークである。
- SkipBARTをカスタマイズし，各フレームの光の色分布を予測する。そして，混合イミテーション学習により，照明の分散戦略を導出した。
- 提案手法は，会場固有の照明構成下で，専門家のデモンストレーションなしに学習可能であり，多様な会場への適応性を実現する。
Link: https://arxiv.org/abs/2605.03660
ELAS：2:4活性疎性による低ランク大規模言語モデルの効率的な事前学習 [cs.RO, cs.SY, eess.SY, cs.RO, cs.LG, cs.AI]目的：大規模言語モデルの効率的な事前学習手法
- 大規模言語モデルは高性能だが，学習時の計算コストが課題となっている。
- 低ランク化はメモリ使用量を削減するが，活性行列がボトルネックになりやすい。
- 活性疎性を適用し，メモリ効率と性能を両立した事前学習手法を開発する。
- ELASは，2:4活性疎性を適用することで，性能劣化を最小限に抑えながら学習と推論を高速化する。
- 特に，大きなバッチサイズにおいて，活性行列のメモリ使用量を大幅に削減できる。
- 60Mから1BパラメータのLLaMAモデルを用いた実験で，ELASの有効性が確認された。
Link: https://arxiv.org/abs/2605.03667
FUS3DMaps：ボクセル・インスタンスレベル層の3D融合によるスケーラブルで高精度なオープンボキャブラリ意味マッピング [cs.RO, cs.AI]目的：オープンボキャブラリ意味マッピングの実現
- ロボットが未知の概念を空間的に理解するための基盤技術。
- 既存手法はスケーラビリティに課題があり，大規模環境での応用が困難。
- ボクセルレベルの融合により，高精度かつスケーラブルな意味マッピングを実現。
- 提案手法FUS3DMapsは，インスタンスレベルと密なオープンボキャブラリ層を共有ボクセルマップ内で維持する。
- 層間の意味的融合により，両層の精度が向上し，大規模シーンでのマッピングが可能。
- 確立された3Dセマンティックセグメンテーションベンチマークおよび大規模シーンで，FUS3DMapsが高い精度を示した。
Link: https://arxiv.org/abs/2605.03669
MEMTIER：長期間稼働する自律型AIエージェントのための階層型メモリアーキテクチャと検索ボトルネック分析 [cs.CL, cs.AI]目的：長期間稼働する自律型AIエージェントにおけるメモリの一貫性問題の解決
- AIエージェントの自律性は，その性能を左右する重要な要素であり，長期的な運用が求められる。
- 既存のフラットファイル型メモリシステムでは，長時間運用に伴い，メモリの一貫性が失われやすい。
- 構造化されたメモリアーキテクチャにより，長期的な運用におけるメモリの一貫性を維持し，性能低下を防ぐ。
- MEMTIERは，OpenClawエージェントランタイム向けに，構造化されたエピソードJSONLストア，5つの信号に基づく重み付き検索エンジンなどを導入した三層構造のメモリアーキテクチャである。
- LongMemEval-Sベンチマークにおいて，Qwen2.5-7Bを使用し，6GBのGPU上で精度0.382，F1値0.412を達成し，フルコンテキストベースラインを大幅に上回った。
- DeepSeek-V4-Flashによる事前学習済みファクトの投入により，単一セッションのリコール率は0.686～0.714に達し，既存のRAG BM25 GPT-4oベースラインを上回った。
Link: https://arxiv.org/abs/2605.03675
Uni-OPD：二つの視点からのレシピによるオンポリシー蒸留の統合 [cs.LG]目的：オンポリシー蒸留における効果的な改善条件の解明と，そのための統一的フレームワークの提案
- 専門家モデルの知識を統合し，効率的な学習を可能にするため，蒸留技術は重要である。
- オンポリシー蒸留の効果は実証されているものの，安定して性能向上をもたらす条件が不明確である。
- 学生モデルの探索不足と教師モデルからの信頼性の低い指導という課題を解決し，蒸留の安定性を高める。
- Uni-OPDは，LLMとMLLMの両方で有効であり，様々な蒸留シナリオに対応できる汎用性を持つことが示された。
- 学生側のデータバランス調整により，有益な状態の探索を促進し，教師側の結果に基づく信頼性のある指導を実現した。
- トークンレベルのガイダンスの順序整合性を復元するメカニズムにより，正しい軌道と誤った軌道の一貫性を保った。
Link: https://arxiv.org/abs/2605.03677
知識蒸留を用いた高性能モバイルNPU向けリアル画像ノイズ除去 [cs.RO, cs.CV, cs.LG]目的：モバイルNPUにおけるリアル画像ノイズ除去のためのハードウェア・アルゴリズム協調設計
- モバイルデバイスでの高画質化処理の需要が高まっており，NPUの活用が重要となっている。
- 深層学習モデルは高精度だが，モバイルNPUへの実装には演算子の互換性やメモリアクセスが課題である。
- 本研究は，NPUに最適化された軽量なモデルにより，モバイルNPUでの高精度ノイズ除去を実現することを目指す。
- 提案手法は，Teacherモデルの知識をStudentモデルに蒸留することで，パラメータ数を大幅に削減しつつ，高い復元品質を維持した。
- Mobile AI 2026チャレンジにおいて，2432x3200の高解像度画像で37.58dB PSNR/0.9098 SSIMを達成した。
- NPUネイティブな演算子に最適化することで，GPUと比較して最大3.88倍高速な推論が可能となった。
Link: https://arxiv.org/abs/2605.03680
コードから予測へ：NNGPTにおけるニューラルネットワーク性能分類のためのLLMのファインチューニング [cs.LG, cs.CV]目的：ニューラルネットワークのコードから，異なるデータセットにおける性能の比較判断
- AutoMLの発展に伴い，LLMがハイパーパラメータ最適化やネットワーク生成に活用されている。
- LLMは生成されたコードの評価に重点が置かれ，ネットワーク性能の推論能力は未解明である。
- LLMがニューラルネットワークのコードから性能を予測できるか検証する。
- ファインチューニングされたLLMは，データセットを跨いだニューラルネットワークの性能を予測できることが示された。
- コードのみをプロンプトに用いた場合，ピーク精度は80%に達し，データセットメタデータよりも優れた汎化性能を示した。
- データセットメタデータは特徴的なデータセットに対して高い精度を示したが，特性が重複すると精度が低下する傾向が見られた。
Link: https://arxiv.org/abs/2605.03686
知識グラフの階層構造を考慮したグラフニューラルネットワークによる埋め込み表現：酵母表現型予測への応用 [cs.LG, cs.AI, q-bio.QM]目的：知識グラフの階層構造を考慮した埋め込み表現の生成
- 知識グラフは，複雑な関係性を表現し，様々な分野で活用が期待されている。
- 既存手法では，知識グラフの階層構造を十分に活用できていない場合がある。
- 知識グラフの階層構造を反映した埋め込み表現を学習し，予測精度を向上させる。
- 提案手法は，酵母の遺伝子ノックアウト実験における細胞成長予測において，ベースラインよりも有意に高い予測性能を示した。
- オントロジー構造に基づいたセマンティック損失を組み込むことで，予測性能がさらに向上し，階層構造の有効性が示された。
- モデルが予測に重要な関係性を特定することで，酵母の表現型に関する新たな仮説を構築し，実験により検証された。
Link: https://arxiv.org/abs/2605.03690
テーラーメイドのプロンプト，標的を絞った保護：スマートコントラクトに対する脆弱性特化型LLM分析 [cs.CL, cs.CR, cs.AI]目的：スマートコントラクト脆弱性の検出
- ブロックチェーン上でのスマートコントラクトは，その不変性からセキュリティ侵害のリスクが高く，経済的損失につながる可能性がある。
- 既存の検出手法は，脆弱性の種類に対する柔軟性が低く，熟練者の手動ルールに依存する傾向がある。
- 多様な脆弱性に対応可能な，LLMを活用した効率的な検出手法の確立を目指す。
- 本研究では，31,165件の脆弱性事例を含む大規模データセットを構築・公開した。
- ASTに基づく正確なコンテキスト抽出と，脆弱性固有のプロンプト設計により，13種類の脆弱性カテゴリに対応する検出器を実装した。
- 実験結果から，平均陽性リコール0.92，平均陰性リコール0.85と高い有効性が確認された。
Link: https://arxiv.org/abs/2605.03697
SERE：イベント因果関係識別に有用なLLMを強化するための構造的事例検索 [cs.CL, cs.AI]目的：イベント因果関係識別のための構造的事例検索フレームワーク
- 自然言語処理において，イベント間の因果関係を正確に理解することは重要である。
- 大規模言語モデルは因果関係推論に偏りがあり，因果関係の過剰予測を起こしやすい。
- より関連性の高い事例をLLMに提示し，因果関係推論のバイアスを軽減し，精度を向上させる。
- 提案手法SEREは，概念経路距離，構文距離，因果パターンフィルタリングに基づき事例を検索する。
- SEREは，LLMのFew-shot学習能力を活用し，イベント因果関係識別の精度向上に貢献する。
- 複数のECIデータセットにおける実験により，SEREの有効性が確認された。
Link: https://arxiv.org/abs/2605.03701
SAM-NER：意味的アーキタイプ媒介によるゼロショット固有表現認識 [cs.CL, cs.AI]目的：ゼロショット固有表現認識におけるドメインおよびスキーマシフトへの対応
- 固有表現認識は，情報抽出の基礎であり，自然言語処理の様々なタスクにおいて不可欠である。
- 既存のゼロショット固有表現認識は，ドメインやスキーマの変化に弱く，汎化性能が低いという課題がある。
- 意味的アーキタイプ媒介を通して，ドメイン間の知識転移を安定化させ，ゼロショット固有表現認識の性能向上を目指す。
- SAM-NERは，協調的な抽出とコンセンサスに基づくノイズ除去により，網羅性と忠実性の高い固有表現スパンを検出する。
- 抽出された固有表現を，高レベルのオントロジー抽象から蒸留された普遍的な意味的アーキタイプ空間へ投影することで，抽象的な媒介を行う。
- アーキタイプレベルの予測を，制約付きで定義に沿った推論を通してターゲットドメインのタイプへと変換し，意味的校正を実現する。
Link: https://arxiv.org/abs/2605.03706
進化ダイナミクスによる分類損失の分布フリー事前学習 [cs.CL, cs.LG]目的：分類損失の転移学習
- 画像認識等の機械学習において，損失関数の設計は性能に大きな影響を与える。
- 既存の損失関数はデータセットに依存する場合があり，汎用性に課題がある。
- 実データを用いずに，汎用的な損失関数を効率的に学習すること。
- 提案手法EDLは，確率空間上で損失関数を学習し，ResNetモデルを用いたCIFAR-10で高い性能を示した。
- EDLは，クロスエントロピー損失の代替として利用でき，同等以上の精度を達成する。
- カオス変異は，標準的なガウス変異よりも高速な収束と優れた事前学習指標をもたらすことが確認された。
Link: https://arxiv.org/abs/2605.03722
変化点検出による人間とLLMの共著テキストのセグメンテーション [cs.CL, cs.AI, stat.ME]目的：人間とLLMの共著テキストのセグメンテーション
- LLMの普及に伴い，テキストの信頼性確保が重要課題となっている。
- 既存の検出器は全体を二分法で判定するため，共著テキストの特定箇所を特定できない。
- 人間とLLMの執筆部分を特定し，テキストの信頼性を高めることを目指す。
- 本研究では，変化点検出の考え方をLLM生成テキストの検出に応用した。
- 検出スコアの変動に対応するため，重み付きアルゴリズムと汎用アルゴリズムを開発した。
- 提案手法は，既存手法と比較して優れた性能を示すことが実証された。
Link: https://arxiv.org/abs/2605.03723
LoRAファインチューニングにおけるランク閾値の再検討 [cs.LG, cs.AI]目的：LoRAファインチューニングにおけるランク閾値の削減
- 近年，大規模言語モデルのファインチューニングが盛んに行われており，効率的な手法が求められている。
- LoRAのような低ランク近似法では，適切なランク設定が重要であるが，その閾値決定に課題があった。
- 本研究は，バイナリ分類においてLoRAのランク閾値を1まで削減し，効率的なファインチューニングを目指す。
- 本研究では，LoRAの多様体次元を用いた容量要件を導出し，ランク1で十分な条件を明らかにした。
- クロスエントロピー損失関数を用いる場合，Polyak-Łojasiewicz不等式によりランク閾値が不要となることを示した。
- バイナリ分類においては，ランク1が最適解となる条件をRademacher複雑度を用いて予測し，実験的に検証した。
Link: https://arxiv.org/abs/2605.03724
ハイブリッド・計算集約型HPC環境における非同期人間-AI協調のためのワークフロー指向フレームワーク [cs.CL, cs.DC, cs.AI, cs.HC, cs.SE]目的：ハイブリッドインフラにおける非同期人間-AI協調の実現
- 防衛・安全保障分野では，AIシステムの訓練・展開に人間の関与が不可欠である。
- HPC環境では計算負荷が高く，リソース制約があるため，リアルタイムな人間とのインタラクションは困難である。
- 計算ジョブを停止させずに人間の入力を可能にし，リソースのアイドル状態を防ぐこと。
- 本フレームワークは，HPCクラスター，ローカルマシン，クラウドプラットフォームを含むハイブリッドインフラにおける非同期人間-AI協調を実現する。
- ワークフローは定義されたチェックポイントで人間の入力のために一時停止でき，非ブロッキングな監視が可能となる。
- MareNostrum 5などのシステムでのモデル訓練への応用を通して，移植性，効率性，運用AIワークフローにおける監視の利点が示された。
Link: https://arxiv.org/abs/2605.03743
GEM-FI：フィッシャー変調を用いたゲーティングエビデンシャル混合 [cs.LG]目的：不確実性推定の改善
- 深層学習モデルの信頼性評価は重要であり，特に安全性が求められる応用分野で不可欠である。
- 既存のエビデンシャル深層学習は過信傾向があり，確率的校正が不十分な場合がある。
- 多峰性エビデンシャル不確実性を単一パスで捉え，より正確な不確実性推定を目指す。
- GEM-FIは，画像分類および外れ値検出ベンチマークにおいて，単一パス推論で確率的校正とID/OOD分離を向上させる。
- CIFAR-10において，GEM-FIはDAEDLと比較して，精度を91.11%から93.75%に，Brierスコアを14.27から6.81に改善した。
- また，誤分類検出におけるAUPRも99.08から99.94へと向上し，エピステミック外れ値検出性能も改善された。
Link: https://arxiv.org/abs/2605.03750
ソフトマックス多腕バンディットに対するL2正則化の消失 [cs.CE, cs.LG, math.ST, stat.ML, stat.TH]目的：ソフトマックス多腕バンディットにおけるL2正則化の収束性
- 強化学習の基礎であり，理論・数値両面から研究が進められている。
- 正則化パラメータが消失する場合の理論的枠組みが未確立であった。
- 消失するL2正則化における収束性を理論的に証明し，数値的な利点を示す。
- L2正則化されたソフトマックス方策勾配の収束性に関する理論的結果を証明した。
- 正則化パラメータが消失する状況下で，L2正則化が数値的に有利であることを実証した。
- この結果は，REINFORCEを含む下流アルゴリズムへの応用が期待される。
Link: https://arxiv.org/abs/2605.03752
忘れる前に覚えておく：LVLMアンラーニングベンチマークにおける基礎学習の失敗の再検討 [cs.CV, cs.AI]目的：LVLMにおける基礎学習の失敗の診断と，信頼性の高い記憶評価基準の確立
- 近年，大規模ビジョン言語モデルの能力は飛躍的に向上しているが，プライバシー保護が重要課題となっている。
- 既存のアンラーニングベンチマークは，モデルが情報を十分に記憶できていないという初期段階の失敗を見過ごしている。
- 本研究は，モデルの初期学習の信頼性を高め，より正確なアンラーニング評価を実現することを目的とする。
- 本研究では，ReMemという信頼性の高い多段階・多画像記憶評価ベンチマークを提案した。
- ReMemは，データスケーリングや推論能力を考慮した質問ペア，多様な視覚的コンテキストを通じて，堅牢な基礎学習を保証する。
- また，モデル内部の確率分布における情報消去の深さを定量化するExposure指標を新たに提案し，その有効性を実証した。
Link: https://arxiv.org/abs/2605.03759
OracleProto：知識カットオフと時間的マスキングによるLLMネイティブ予測のベンチマークのための再現可能なフレームワーク [cs.AI]目的：LLMネイティブ予測能力の評価のための再現可能なフレームワーク
- 金融，政策，産業，科学研究など，幅広い分野で予測能力に対する需要が高まっている。
- 従来のベンチマークでは，真の予測能力と事前学習済みの知識に基づく回答を区別することが困難である。
- LLMの予測能力を，制御された情報境界下で客観的に評価するための手法を確立すること。
- OracleProtoは，モデルの知識カットオフ，時間的マスキング，リーク検出，回答の正規化，階層的スコアリングを組み合わせることで，時間制約のある予測サンプルを再現可能に構築する。
- 実験により，OracleProtoは予測品質，サンプリング安定性，コスト効率を区別し，残余リークを1%以下に低減することを示した。
- OracleProtoは，LLM予測を，監査可能で再利用可能なデータセットレベルの機能へと変え，公平なモデル間比較とSFT/RLのための制御された信号源を提供する。
Link: https://arxiv.org/abs/2605.03762
Nora：スケーラブルな行列最適化のための正規直交行アラインメント [cs.LG]目的：大規模言語モデルの学習における効率的，安定，高速な最適化手法
- 大規模言語モデルの学習において，最適化手法は性能を大きく左右するため，その重要性は高い。
- 既存の最適化手法は，効率，安定性，速度を同時に満たすことが難しく，計算コストや不安定性といった課題がある。
- 効率，安定性，速度の全てを満たす新しい最適化手法を開発し，大規模言語モデルの学習を改善すること。
- Noraは，重み行列のノルムと角度速度を安定化させることで，学習の安定性を実現している。
- Transformerのヘッセ行列のブロック対角優位性を利用し，構造化された事前条件付けを効率的に近似している。
- 計算複雑度を$\mathcal{O}(mn)$に抑え，スケーラブルな最適化手法であることを理論的に証明し，実験的に検証している。
Link: https://arxiv.org/abs/2605.03769
Transformerにおけるタスク推論の二つのモードを裏付けるタスクベクトル幾何学 [cs.LG, cs.CL, stat.ML]目的：Transformerにおけるタスク推論の二つのモードのメカニズム解明
- Transformerは自然言語処理の様々なタスクで高い性能を発揮しており，その動作原理の理解は重要である。
- Transformerが文脈からタスクを推論する仕組みは十分解明されておらず，特に未知のタスクへの対応が課題である。
- 訓練分布と汎化性能の関係を，タスクベクトルの幾何学的構造を通して明らかにすることを目指す。
- Transformerは，学習済みのタスク認識と未知のタスクへの適応という二つの推論モードを併せ持つことが示された。
- 学習データ内での挙動は，学習されたタスクベクトルの凸結合によるベイジアンタスク検索によって説明できる。
- 分布外での挙動は，タスクベクトル空間にほぼ直交する部分空間における外挿的タスク学習によって生じる。
Link: https://arxiv.org/abs/2605.03780
知覚は思考に左右される：視覚言語モデルエージェントにおける好奇心に基づいた探索 [cs.AI]目的：視覚言語モデルエージェントにおける好奇心駆動探索の有効性
- 部分的に観測可能な環境におけるエージェントのナビゲーションにおいて，世界モデルの内部化が重要である。
- スパース報酬タスクでは，過去の経験のみに基づく受動的な推論では，汎化性能が限られる。
- エージェントが，不確実な領域を積極的に探索し，内部モデルを改善することを目指す。
- GLANCEは，言語モデルと視覚表現の整合性を図り，好奇心に基づいた探索を促進するフレームワークである。
- 言語予測と視覚的現実のずれを内在的な好奇心シグナルとして活用することで，エージェントは不確実な領域を探索する。
- 実験結果から，GLANCEが複雑なタスクにおいて高い有効性を示し，「思考」と「視覚」の整合が重要であることが示された。
Link: https://arxiv.org/abs/2605.03782
ミッションを宣言し，群れを実行せよ：エージェント強化LLMによるWeb-of-Drones上の推論 [cs.AI, cs.NI, cs.RO]目的：UAV群制御のためのエージェント強化LLMフレームワーク
- サイバー物理システムの高度化に伴い，LLMによる高レベルな推論の重要性が増している。
- リアルタイムUAV群管理では，異種インターフェース，限定的なグラウンディングが課題である。
- 自然言語でのミッション指示を，リアルタイムな相互作用を通して自律的に実行することを目指す。
- LLMは強力な推論能力を持つが，明示的なグラウンディングと実行支援なしには，単純な群れタスクでも信頼性の高い実行が難しい。
- タスク固有の計画ツールやランタイムガードレールを導入することで，堅牢性が大幅に向上する。
- トークン消費量だけでは，実行の品質や信頼性を判断できないことが示された。
Link: https://arxiv.org/abs/2605.03788
都市大気汚染のロバストな時空間予測のためのグラフ畳み込みサポートベクター回帰 [cs.LG, stat.AP, stat.ML]目的：都市大気汚染のロバストな時空間予測
- 都市部の大気汚染は健康に深刻な影響を与え，その予測は重要な課題である。
- 汚染物質濃度は非線形・非定常であり，異常値の影響を受けやすい。
- 異常値に強く，より正確な時空間予測モデルを開発すること。
- 提案手法GCSVRは，デリーとムンバイの観測データにおいて，既存手法と比較して予測精度が向上した。
- GCSVRは，季節変動や異常値の影響を受けにくい安定した性能を示した。
- GCSVRに conformal prediction を統合することで，信頼性の高い予測区間を生成し，実用性を高めた。
Link: https://arxiv.org/abs/2605.03795
AIアドボケイト：分隊を未来へと変革するための教育経路 [cs.SI, cs.CL, cs.SE, cs.AI]目的：伝統的なソフトウェア開発分隊を，人間と人工知能（AI）の協働を中心としたハイブリッド構造に移行させるための戦略的教育プロセス
- AI技術の進展により，人間の能力とAIの強みを組み合わせた協働が，生産性向上に不可欠となっている。
- AI導入に伴う組織文化や技術的な変革を円滑に進めるための，人材育成が課題となっている。
- AIアドボケイトという役割を通じて，組織全体の変革を促進し，AI活用を成功させるための教育モデルを提示する。
- AIアドボケイトの育成は，組織文化と技術の両面を変革する触媒として機能することが示された。
- ブラジルの技術企業における教育と能力開発プロセスの事例報告を通じて，重要な教訓と課題が明らかになった。
- AIアドボケイトの教育は，AI活用を促進し，組織の競争力を高めるための有効な手段となりうる。
Link: https://arxiv.org/abs/2605.03800
ScrapMem：光学的忘却によるエッジデバイス向けパーソナライズされたエージェントメモリのバイオインスパイアードフレームワーク [cs.AI]目的：エッジデバイスにおける長期的なパーソナライズされたLLMエージェントメモリの実現
- LLMエージェントの性能向上には，長期的な記憶が不可欠である。特に，リソース制約のあるエッジデバイスでの利用が求められる。
- エッジデバイスでは，記憶容量の制約とマルチモーダルデータの複雑性から，長期記憶の実装が困難である。
- 記憶容量を削減しつつ，重要な情報を保持することで，エッジデバイスでの長期記憶を効率化すること。
- ScrapMemは，マルチモーダルデータを「スクラップブックページ」に統合し，光学的忘却メカニズムにより古い記憶の解像度を段階的に下げてストレージコストを削減する。
- ATM-Benchを用いた実験の結果，ScrapMemはJoint@10スコアで51.0%という最先端の性能を達成し，メモリ使用量は最大93%削減された。
- エピソード記憶グラフ（EM-Graph）による構造化された集約により，Recall@10が70.3%に向上し，想起性能も改善された。
Link: https://arxiv.org/abs/2605.03804
Agenticモデル：自己研究によるエージェント向け解釈性ツールの進化 [cs.DB, cs.AI, cs.CL, cs.LG]目的：エージェント向け解釈性ツール開発のための自己研究ループ
- データサイエンスの自動化が進み，エージェントがデータ分析の大部分を担う未来が予想される。
- 既存のツールは人間向けに設計されており，エージェントが理解しやすい解釈性を提供できていない。
- エージェントがモデルの挙動を理解できるような，エージェント向け解釈性ツールの開発を目指す。
- Agentic-imodelsは，予測性能とLLMベースの解釈性指標の両方を最適化する回帰モデルを生成した。
- 生成されたモデルは，新規データセットや解釈性テストに対しても有効であることが確認された。
- このモデルは，Copilot CLI等のエンドツーエンドのADSパフォーマンスを最大73%向上させた。
Link: https://arxiv.org/abs/2605.03808
低品質データに対するConformal予測自己較正を用いたマルチモーダル学習 [cs.CV, cs.LG, cs.MM]目的：低品質データにおけるマルチモーダル学習の性能向上
- マルチモーダル学習は，様々な情報源を統合することで，より高度な認識や理解が可能となるため重要である。
- マルチモーダルデータには，モダリティの不均衡やノイズが含まれている場合が多く，学習の妨げとなる。
- 本研究は，Conformal予測を用いた自己較正により，これらの問題に対処し，ロバストな学習を実現することを目指す。
- 提案手法CPSCは，Conformal予測を用いて，各モダリティやインスタンスの信頼性を評価し，自己較正を行う。
- Representation Self-CalibrationとGradient Self-Calibrationという2つのモジュールを統合し，特徴表現の堅牢性と勾配の流れを最適化する。
- 6つのベンチマークデータセットにおける実験の結果，既存手法と比較して，CPSCが常に優れた性能を示すことが確認された。
Link: https://arxiv.org/abs/2605.03820
RoboAlign-R1：ロボット用ビデオワールドモデルのための蒸留されたマルチモーダル報酬アライメント [cs.RO, cs.AI]目的：ロボット用ビデオワールドモデルの報酬アライメント
- ロボットの自律性は重要であり，その実現には現実世界の理解が不可欠である。
- 従来のワールドモデルは，ロボットの意思決定に重要な能力と整合していない。
- 報酬アライメントと長期予測の安定化により，ワールドモデルの性能向上を目指す。
- RoboAlign-R1は，既存のベースラインと比較して，6次元スコア全体で10.1%の改善を達成した。
- 特に，操作の正確性で7.5%，指示の追従性で4.6%の向上が確認された。
- Sliding Window Re-encoding (SWR) は，SSIMを2.8%向上させ，LPIPSを9.8%削減し，長期予測の品質を向上させた。
Link: https://arxiv.org/abs/2605.03821
実現可能な一般計量損失に対するベイズ整合性 [cs.LG, cs.IT, math.IT, math.ST, stat.TH]目的：一般計量損失における実現可能な設定下での強普遍的ベイズ整合性
- 機械学習理論において，汎化性能の保証は重要な課題であり，特に損失関数が複雑な場合，その解析が困難である。
- 古典的なベイズ整合性の理論は，0-1分類や実数値回帰に限定されており，より一般的な計量損失に対する適用が課題であった。
- あらゆる実現可能なデータ生成分布に対して，リスクがクラス内最良のリスクにほぼ確実に収束する，分布フリーな学習規則の存在条件を確立すること。
- 本研究は，組み合わせ的な障害項である無限の非減少$(\gamma_k)$-リトルストンツリーを用いて，仮説クラスに対する必要十分条件を特定した。
- この結果は，損失関数が実数値であり，かつ計量空間上で定義されるという，より一般的な状況におけるベイズ整合性の理解を深める。
- 古典的なリトルストンツリー構造を拡張することで，計量損失設定下でのベイズ整合性の新たな視点を提供している。
Link: https://arxiv.org/abs/2605.03823
集中治療室時系列モデルの移植性を評価するドメインインクリメンタル継続学習ベンチマーク [cs.LG]目的：集中治療室時系列モデルの移植性を評価するためのベンチマーク
- 臨床転帰予測における機械学習の進歩は目覚ましいが，小規模病院でのモデル開発には資源的な課題がある。
- 大規模病院で訓練されたモデルを小規模病院へ転移する場合，病院間のデータ分布の違いが一般化性能を低下させる可能性がある。
- 異なる地域間のデータ分布の変化に対応し，既存の知識を保持しつつ新たなドメインに適応できるモデルを評価する。
- 提案されたベンチマークを用いて，ドメインインクリメンタル学習という観点からモデルの転移を評価した。
- データリプレイとElastic Weight Consolidation (EWC)という2つの代表的なドメインインクリメンタル学習手法を比較検討した。
- 本研究は，地域ごとのデータ分布の違いを考慮したモデルの移植性の向上に貢献する。
Link: https://arxiv.org/abs/2605.03832
TRACE：運用上重要な領域における信頼性の高い自律型AIシステムの構築のための計測学に基づいたエンジニアリングフレームワーク [cs.CL, cs.AI, cs.HC]目的：運用上重要な領域における信頼性の高い自律型AIシステムのエンジニアリングフレームワーク
- AI技術の応用範囲拡大に伴い，安全性や信頼性の確保が重要な課題となっている。
- 従来のAIシステムは，その複雑さや不透明性から，信頼性評価が困難であるという問題がある。
- 本研究は，信頼性評価を可能にする新たなフレームワークを提案し，AIシステムの信頼性向上を目指す。
- TRACEは，4層参照アーキテクチャ，古典的MLとLLMのバリデータ分離，状態管理によるオーケストレーション，限定的な人間による監督を組み合わせている。
- 信頼性指標スイートは，GUM/VIM/ISO 17025にマッピングされた計測学に基づき，モデルの簡潔さは計算パースモニ比（CPR）で定量化される。
- 臨床意思決定支援，産業マルチドメイン運用，司法AIアシスタントの3つのインスタンスにおいて，同一アーキテクチャと指標が異なるガバナンスコンテキストで活用されている。
Link: https://arxiv.org/abs/2605.03838
積分布の混合間の総変動距離の計算について [cs.DS, cs.LG, math.PR]目的：積分布の混合間の総変動距離の近似計算
- 確率モデルの類似度評価は，機械学習や統計推論において重要な課題である。
- 高次元における総変動距離の厳密計算は計算コストが高く，現実的な時間内に行えない場合がある。
- 効率的な近似アルゴリズムを開発し，大規模データへの適用を可能にすること。
- 本研究では，$n$次元離散領域における積分布の混合間の総変動距離を近似するランダム化アルゴリズムを提案した。
- 提案アルゴリズムは，$(1\pm \varepsilon)$の乗法誤差内で，時間$\mathrm{poly}((nq)^{k_1+k_2},1/\varepsilon)$で動作する。
- Boolean subcubeの混合に対しては，厳密計算が可能な決定性アルゴリズムを開発し，計算困難性の結果も示した。
Link: https://arxiv.org/abs/2605.03839
複素領域における勾配降下法を用いた有理数記号回帰学習器 [cs.LG]目的：有理数記号回帰による解釈可能な方程式の発見
- データから数式を発見することは，科学的発見やモデリングにおいて重要である。
- 除算や対数，平方根などの演算は特異点や領域制約を持つため，勾配法が適用困難である。
- 複素数に拡張することで，実軸上の特異点を回避し，制約のない演算を可能とする。
- 提案手法は，実領域に極を持つ目標式に対しても安定して収束することが確認された。
- 対数関数や平方根などの演算を制約なしで利用できることが示された。
- 記号回帰ベンチマークや実験周波数応答データから特異な振る舞いを復元できることが確認された。
Link: https://arxiv.org/abs/2605.03841
SOAR：ロボット移動式履行システムにおける注文割り当てとロボットスケジューリングのリアルタイム同時最適化 [cs.AI, cs.RO]目的：ロボット移動式履行システムにおける注文割り当てとロボットスケジューリングの同時最適化
- 物流効率化が求められる中，ロボットを活用した倉庫自動化技術の重要性が増している。
- 従来の最適化手法は，リアルタイム性や複雑な状況への対応が課題となっていた。
- リアルタイム性と最適性を両立する，新たな注文割り当てとスケジューリング手法の開発。
- SOARは，注文割り当てとロボットスケジューリングを統合した深層強化学習フレームワークである。
- 実験結果から，SOARはグローバルな処理時間を7.5％，平均注文完了時間を15.4％短縮できることが示された。
- 実環境での展開により，SOARの有効性と実用性が確認された。
Link: https://arxiv.org/abs/2605.03842
機械的な良心：機械知能の信頼性に関する数学的枠組み [eess.SY, cs.SY, eess.SY, cs.SY, cs.RO, cs.AI]目的：分散協調知能における行動軌道レベルの規範的規制
- 機械知能の高度化に伴い，その安全性と信頼性の確保が不可欠となっている。
- 既存手法は個別行動の評価に偏り，複数主体・不確実性下での集団行動リスクに対応できない。
- 行動軌道全体を考慮した規範的規制により，分散協調知能の信頼性向上を目指す。
- 本研究で提案する機械的な良心は，行動軌道の累積偏差を最小限に抑制するスーパーバイザーフィルターである。
- シミュレーション結果から，機械的な良心によって制御されたエージェントは，規範的許容範囲内で行動を維持できることが示された。
- 本枠組みは，複数エージェント間の相互作用によって生じるリスクを抑制する可能性を示唆する。
Link: https://arxiv.org/abs/2605.03847
MCJudgeBench：多制約指示応答における制約レベルの判定評価のためのベンチマーク [cs.CL, cs.AI]目的：多制約指示応答における制約レベルの判定評価
- 大規模言語モデルの性能評価は重要であり，指示応答の質を担保する上で不可欠である。
- LLM判定器の評価は，応答全体の評価に偏りがちであり，個々の制約充足度に関する詳細な分析が不足している。
- LLM判定器の信頼性を，制約レベルで評価し，その問題点を明らかにすることを目的とする。
- MCJudgeBenchは，指示，候補応答，制約リスト，制約ごとの正解ラベルを含むベンチマークである。
- 評価結果から，全体的な性能が高い判定器でも，稀なケース（部分的，否定的）の検出信頼性が低い場合があることが示された。
- 推論能力の向上は正確性を改善するが，必ずしも安定性を向上させるわけではないことが明らかになった。
Link: https://arxiv.org/abs/2605.03858
正解だけでは不十分：実行器に基づいた報酬による推論プランナーの訓練 [eess.SY, cs.SY, cs.IR, cs.AI, cs.CL]目的：推論プランナーの訓練
- 大規模言語モデルにおいて，明示的な推論能力の向上が重要視されている。
- 最終的な正解のみでは，推論過程の信頼性や有用性を評価できない。
- 推論の質と実行器への貢献度を同時に評価する訓練手法を開発する。
- 提案手法TraceLiftは，推論を消費可能な中間成果物として扱うことで，推論の質と有用性を向上させる。
- 実行器に基づいた報酬を用いることで，単なる正解だけでなく，推論過程が実行器の性能に与える影響を考慮した学習が可能となる。
- TRACELIFT-GROUPSデータセットにより，推論の質の学習を直接的に行うことが可能となり，コードおよび数学ベンチマークにおいて有効性が示された。
Link: https://arxiv.org/abs/2605.03862
視覚言語モデルによるヒトの視覚エクスポゾームの定量化 [cs.AI, cs.CV]目的：ヒトの視覚エクスポゾームの定量化
- 精神衛生は環境要因の影響を受けるが，その定量的な評価が課題となっている。
- 既存の方法では，主観的な自己申告や粗い地理的情報に頼り，個人の視覚的文脈を捉えきれない。
- 視覚言語モデルを用いて，個人の視覚体験のセマンティックな豊かさを定量的に評価する。
- 視覚言語モデルによる緑度の推定値が，一時的な感情や慢性的なストレスと相関することが示された。
- 大規模言語モデルを用いて，精神衛生に関連する環境要因を科学文献から抽出した。
- 抽出された環境要因は，実際の画像分析において感情やストレスと有意な相関を示した。
Link: https://arxiv.org/abs/2605.03863
CLIPモデルにおけるメモリ効率の良い継続学習 [cs.LG]目的：CLIPモデルを用いた継続学習におけるメモリ効率の向上
- 画像とテキストの関係性を理解するCLIPモデルは，様々な分野で応用が期待されている。
- CLIPモデルは，新しいデータに適応する際に，過去の知識を忘れてしまう問題がある。
- 限られたメモリ容量でも，CLIPモデルの性能劣化を抑え，継続学習を可能にすること。
- 提案手法では，クラスごとの損失を動的に再重み化することで，メモリ効率の良い学習を実現している。
- CIFAR-100やImageNet1Kといったデータセットにおいて，壊滅的な忘却を最小限に抑えつつ，CLIPモデルを迅速に適応させることが示された。
- ドメイン適応の実験においても，少ないメモリ使用量で良好な結果が得られている。
Link: https://arxiv.org/abs/2605.03866
ゼロ次最適化における適応性について [cs.LG, math.OC]目的：大規模言語モデルのメモリ制約下でのファインチューニングのためのゼロ次最適化の有効性
- 大規模言語モデルの効率的な学習は，計算資源の制約から重要な課題となっている。
- 従来のゼロ次最適化手法は，メモリ効率と収束速度のトレードオフが存在した。
- メモリ効率を維持しつつ，ゼロ次最適化の性能向上を目指す。
- 適応的なゼロ次最適化手法（ZO-Adamなど）は，調整されたZO-SGDと比較して収束性の優位性を示さないことが示された。
- 高次元空間では，ゼロ次勾配の座標ごとの異質性が低く，適応メカニズムがメモリ非効率になることが判明した。
- MEAZOというメモリ効率の良い適応型ゼロ次最適化手法が提案され，理論的な収束性も保証された。
Link: https://arxiv.org/abs/2605.03869
EvoLM：識別的評価基準の共進化による自己進化型言語モデル [cs.NI, cs.DC, cs.AI]目的：言語モデル自身の評価能力を活用した自己改善手法の開発
- 言語モデルは事前学習で多くの評価知識を獲得するが，外部からの評価がボトルネックとなっている。
- 既存手法は外部の教師データに依存し，モデルの能力向上に限界がある。
- モデル自身の評価能力を構造化し，自己進化により外部の監督なしで性能向上を目指す。
- EvoLMは，言語モデル内で評価基準を生成し，それを用いて報酬を生成することで自己改善を実現した。
- RewardBench-2において，EvoLMが生成した評価基準はGPT-4.1よりも25.7%高い性能を示した。
- OLMo3-Adaptスイートにおいて，EvoLMで学習したポリシーはGPT-4.1やSkyWork-RMを上回る結果となった。
Link: https://arxiv.org/abs/2605.03871
脳波信号に対する時空間畳み込み：効率的かつ解釈可能な脳波分類のための表現学習 [cs.HC, cs.CY, cs.LG, cs.AI]目的：脳波信号の効率的かつ解釈可能な分類
- 脳波信号解析は，医療診断やブレイン・マシン・インターフェース等，幅広い分野で重要性が増している。
- 従来の脳波分類モデルは計算コストが高く，解釈性に乏しいという課題があった。
- 時空間畳み込みを用いて，計算効率を向上させ，内部表現の理解を深めることを目指す。
- 高次元脳波データにおいて，2次元畳み込みは学習時間を大幅に短縮することが示された。
- 2次元畳み込みと1次元畳み込みでは，内部表現の幾何学的構造が大きく異なることが明らかになった。
- アーキテクチャ設計が複雑な多変量信号処理における内部表現に与える影響の重要性が示唆された。
Link: https://arxiv.org/abs/2605.03874
拡散モデルにおける意味的分布マッチングによる訓練不要データセット蒸留 (Kakusan moderu ni okeru imiteki bunpu macchiingu ni yoru kunren fuyo deeta setto jōryū) [cs.CV, cs.AI]目的：大規模データセットの情報をより小規模な合成データセットに蒸留すること
- 大規模データセットの学習は計算コストが高い。データセット蒸留は効率的な学習を可能にする重要な技術である。
- 拡散モデルを用いたデータセット蒸留は，追加のファインチューニングが必要であり，効果的なガイダンスメカニズムが不足している。
- 追加のファインチューニングを不要とし，効率的なガイダンスメカニズムを確立することで，データセット蒸留の効率化を目指す。
- 提案手法DMGDは，条件付き尤度最適化による意味的マッチングを確立し，補助分類器を不要にすることで，訓練効率を向上させている。
- 動的なガイダンスメカニズムと，最適輸送に基づく分布マッチングにより，合成データの多様性と意味的整合性を両立している。
- ImageNet-Woof, ImageNet-Nette, ImageNet-1Kにおける実験で，ファインチューニングが必要な最先端手法を平均で2.1%, 5.4%, 2.4%上回る精度を達成した。
Link: https://arxiv.org/abs/2605.03877
Deco：二重具現化フレームワークによる，個人的な物理的オブジェクトを遍在するAIコンパニオンへ拡張する [cs.HC, cs.AI, cs.CY]目的：物理的オブジェクトと感情的な繋がりを拡張するAIコンパニオンのデザイン
- 人々は物理的オブジェクトに愛着を持つが，それらは感情を認識・反応できない。
- AIコンパニオンは応答性を持つが，物理的オブジェクトとの継続的な繋がりがない。
- 物理的オブジェクトの感情的な繋がりを拡張するAIコンパニオンを開発する。
- Decoは，パーソナライズされたLLMベースのデジタルコンパニオンよりも，コンパニオンシップ，感情的な繋がりにおいて有意に高い評価を得た。
- 7日間のフィールドテストでは，継続的な利用，主観的な幸福度の向上，そして物理的オブジェクトとデジタル活動の相互作用による関係性の活性化が確認された。
- 感情的な関与の深さが繋がりを深める主要因であり，デジタルコンパニオンのAIとしての性質を理解しつつ関係を維持することが示された。
Link: https://arxiv.org/abs/2605.03882
QKVShare：オンデバイスLLMマルチエージェントのための量子化されたKVキャッシュハンドオフ [cs.AI, cs.MA]目的：エッジデバイスにおけるマルチエージェントLLMシステムにおける潜在的コンテキストの効率的なハンドオフ
- エッジデバイス上でのLLM利用は，低遅延性とプライバシー保護の観点から重要性が高まっている。
- 既存のハンドオフ手法は，コストのかかる再計算や高精度なKV転送が必要となり，効率性に課題がある。
- 量子化されたKVキャッシュハンドオフにより，効率的かつ低コストなコンテキスト共有を実現し，エッジデバイスでのLLM活用を促進する。
- QKVShareは，トークンレベルの混合精度割り当て，CacheCard表現，HuggingFace互換のキャッシュ注入パスを組み合わせたフレームワークである。
- Llama-3.1-8B-Instructを用いた実験の結果，適応量子化は繰り返しハンドオフ下で競争力を維持し，特に深いホップや高予算設定において一様量子化よりも優位性を示した。
- QKVShareは，1Kコンテキストで130.7ms，8Kコンテキストで397.1msと，完全な再計算と比較してTTFTを削減し，キャッシュ注入後の生成が現在のQKVShareの遅延経路の主要因であることが示された。
Link: https://arxiv.org/abs/2605.03884
天井の引き上げ：サリエンスベンチマーキングのためのより優れた経験的注視密度 [cs.CV, cs.LG]目的：サリエンスベンチマーキングにおける経験的注視密度の向上
- 視覚的注意の研究は，人間の視覚システムの理解に不可欠であり，様々な応用分野に繋がる。
- 従来の注視密度推定方法は長らく変わらず，サンプルレベル評価の精度が課題であった。
- より信頼性の高い画像ごとの密度推定を行うことで，モデルの改善余地を明らかにすること。
- 提案手法は，複数のベンチマークで高い注視一致度を示し，平均で5-15%の対数尤度と最大2%のAUCの改善を実現した。
- 特に，故障事例分析において重要な画像群において，改善率は25%を超えた。
- 経験的注視密度は固定された正解ではなく，より良い方法論によって進化する推定値であるべきことが示された。
Link: https://arxiv.org/abs/2605.03885