arXiv雑要約

AI - 2026/05/14 公開

スキル条件付き視覚地理位置推定：ビジョン言語モデルのための [cs.CV, cs.AI]目的：ビジョン言語モデルにおける画像地理位置推定の構造化された地理的推論と自律的な自己進化能力の向上
- ビジョン言語モデルは画像地理位置推定で有望な結果を示すが，地理的知識の構造化と継続的な学習が課題である。
- 既存手法は暗黙的なパラメータメモリに依存し，古い知識や誤った推論を生み出す可能性がある。
- スキルグラフを用いた学習不要なフレームワークにより，地理的推論とバイアス修正の自動進化を目指す。
- GeoSkillは，GeoRCデータセットにおいて高い地理位置推定精度と推論の信頼性を示す。
- 多様な外部データセットにおいても優れた汎化性能を維持している。
- 自律進化機構は，検証可能な新しい地理的スキルを創出し，モデルの地理知識を拡張する。
Link: https://arxiv.org/abs/2604.09025
ANTIC：適応ニューラル時間内挿圧縮 [cs.LG]目的：大規模偏微分方程式の時空間発展する場のデータ圧縮手法
- 高解像度シミュレーションデータの爆発的な増加に対応する必要がある。
- 従来の保存方法では，データの保存・管理が困難になっている。
- シミュレーション中にデータを圧縮し，保存コストを削減することを目指す。
- ANTICは，時間選択と空間ニューラル圧縮を組み合わせることで，高圧縮率を実現した。
- 時間選択により，重要なスナップショットのみを保存することでデータ量を削減する。
- ニューラル圧縮は，隣接スナップショット間の残差を学習することで，精度を維持しながら圧縮する。
Link: https://arxiv.org/abs/2604.09543
エージェント^2 RL-Bench：LLMエージェントはポストトレーニングにおけるエージェント型RLを設計できるか [cs.AI]目的：LLMエージェントによるポストトレーニングパイプラインの設計，実装，デバッグ，実行能力の評価
- モデルの整合性と専門性を高める上で，ポストトレーニングが重要性を増している
- 既存のベンチマークは静的で，エージェントのインタラクティブなRLループを評価できていない
- エージェントが自律的にRLループを閉じる能力を評価するためのベンチマークの提供
- Agent2 RL-Benchを用いて評価した結果，現在のエージェントはオンラインRLを設計できる場合があるものの，安定したエージェント駆動型のポストトレーニングは稀である。
- 特にALFWorldタスクにおいて，SFTウォームアップとGRPOによる改善が見られたが，DeepSearchQAは依然として困難であり，成功例は教師あり学習パイプラインに依存している。
- 本ベンチマークは，今後の研究に向けた効果的な評価フレームワークを提供することが示された。
Link: https://arxiv.org/abs/2604.10547
学習者のようにコードを記述する方法を言語モデルに教える：学生シミュレーションのための会話型シリアライゼーション [cs.AI, cs.CL, cs.CY]目的：学習者の行動と応答をシミュレートする人工学生モデルの学習
- 教育システムのチュータリング戦略やフィードバックメカニズムを大規模に評価するための有効な手段となる。
- 既存のアプローチは，大規模なプロプライエタリな言語モデルに依存しており，特定のコースへの適応性やプライバシー，コストが課題である。
- 実際の学生のプロセスデータから，オープンウェイトの人工プログラミング学習者を直接学習させることで，これらの課題を解決する。
- 環境からのフィードバックを組み込むことで，モデルは学生のデバッグ行動をより正確に再現できることが示された。
- コードのみのアプローチやプロンプトされた大規模言語モデルのベースラインと比較して，機能的整合性とコードの類似性が向上した。
- 再現性を支援するため，コードが公開されている。
Link: https://arxiv.org/abs/2604.10720
PRiMeFlow：摂動応答モデリングにおける複雑な発現異質性の捕捉 [eess.SY, cs.SY, cs.LG]目的：細胞状態に対する摂動のin-silico効果予測
- 単一細胞レベルでの理解が進み，大規模な細胞行動ドライバーの特定や創薬加速に貢献する分野である。
- 単一細胞遺伝子発現の固有の異質性と，複雑な潜在的遺伝子依存関係がモデリングの課題となっている。
- 遺伝子および低分子摂動の遺伝子発現空間における効果を直接モデル化する手法を開発し，問題を解決する。
- PRiMeFlowは，フローマッチングに基づくエンドツーエンドのアプローチであり，単一細胞遺伝子発現の経験的分布を正確に近似できる。
- 広範なベンチマークテストにより，PerturBenchにおいて高い精度が確認された。
- ARC Virtual Cell Challengeベンチマークにおいて，H1ヒト胚性幹細胞データセットで優れた性能を示した。
Link: https://arxiv.org/abs/2604.13986
技術的愛情：Redditにおける人間とAIの恋愛談話の変遷 [eess.SY, cs.SY, math.OC, cs.HC, cs.AI]目的：人間とAIの恋愛に関するReddit上の公開談話の形成と時間経過に伴う変化
- AI技術の発展に伴い，人間とAIの関係性が多様化しており，社会的な関心が高まっている。
- 人間とAIの恋愛に関する公的な議論は，その経時的な変化が十分に理解されていない。
- Reddit上の投稿データを分析し，議論の変遷を明らかにすることで，AIシステムの設計とガバナンスに貢献する。
- Redditの投稿データ分析により，当初の肯定的な恋愛談話から，プラットフォームの管理や技術的問題，現実世界への影響に関する議論へと移行していることが明らかになった。
- この変化は，人間とAIの恋愛が，個人的な経験から技術的な媒介と規制へと捉えられつつあることを示唆する。
- AIコンパニオンシステムの設計・ガバナンスにおいて，技術的な側面と社会的な影響を考慮する必要性が示された。
Link: https://arxiv.org/abs/2604.15333
（スパース）注意を細部に：機械学習ベースの天気予報モデルにおけるスペクトル忠実性の維持 [cs.LG, cs.AI, cs.CV, physics.ao-ph]目的：機械学習ベースの天気予報モデルにおけるスペクトル劣化の軽減
- 気象予測の精度向上は，社会経済活動への影響が大きく，重要な課題である。
- 機械学習モデルは高い計算効率を持つ一方，スペクトル劣化という課題を抱えている。
- アンサンブル平均に対する決定論的学習や，粗い潜在グリッドへの圧縮による劣化を解消する。
- Mosaicモデルは，1.5度解像度で214Mパラメータを持ち，より高解像度なモデルと同等以上の性能を示す。
- 本モデルは，メッシュに沿ったブロックスパース注意機構を用いることで，長距離依存関係を線形コストで捉える。
- 24メンバー10日予報を単一のH100 GPUで12秒未満で実行可能であり，高い実用性を持つ。
Link: https://arxiv.org/abs/2604.16429
TStore：テンソル中心圧縮によるAIモデルハブの再考 [cs.DC, cs.AI, cs.LG]目的：AIモデルハブにおけるストレージオーバーヘッドの削減
- AIモデルの急速な大型化により，効率的なモデル管理が重要となっている。
- モデルハブでは，モデルの重複と冗長性がストレージ容量を圧迫している。
- テンソルレベルでの重複排除と圧縮により，ストレージ効率を改善する。
- TStoreは，モデルのアノテーションなしに，テンソルレベルのフィンガープリンティングとクラスタリングを利用して冗長性を特定する。
- 実世界のモデルリポジトリを用いた実験により，最小限のオーバーヘッドで大幅なストレージ容量削減が確認された。
- モデルの可用性と性能を維持しつつ，効率的なストレージ削減を実現する。
Link: https://arxiv.org/abs/2604.17104
SAM3は病理セグメンテーションの準備ができているか [cs.CV, cs.AI]目的：病理画像のセグメンテーションにおけるSAM3の能力評価
- デジタル病理は医療診断の精度向上に不可欠であり，画像セグメンテーションはその重要な要素である。
- 従来のセグメンテーション手法は，アノテーションコストが高く，汎化性能が低いという課題がある。
- SAM3の能力を評価し，病理画像セグメンテーションにおける適用可能性と限界を明らかにする。
- テキストのみのプロンプトでは，核概念が十分に活性化されないことが明らかになった。
- セグメンテーション性能は，視覚的プロンプトの種類と予算に大きく依存する。
- 少量学習は性能向上をもたらすが，SAM3は視覚的プロンプトのノイズに対して脆弱である。
Link: https://arxiv.org/abs/2604.18225
AI会議要約の評価のための再利用可能なクロスドメインパイプライン [cs.AI, cs.CL]目的：AI会議要約の評価システム
- 大規模言語モデルの活用が拡大する中で，その性能評価は不可欠である。
- 安定した回帰テストやモデル選択評価が整備されていないケースが多い。
- 客観的指標に基づいた，再利用可能な評価パイプラインの構築を試みる。
- 提示された評価システムは，構造化された正解データ構築，候補生成，スコアリング，レポート作成，およびオンラインモニタリング機能を備えている。
- 114件の会議データを用いて評価した結果，GPT-4.1-miniが最も高い正確性（0.583）を示したが，統計的有意差は認められなかった。
- 一方，GPT-5.1は完全性（0.886）と網羅性（0.942）において優位性を示した。ホワイトハウスの記者会見は正確性の低い領域として特定された。
Link: https://arxiv.org/abs/2604.21345
インドにおける人間とゾウの衝突に関する英語報道のフレーム分析 [cs.AI, cs.CL, cs.CY]目的：インドにおける人間とゾウの衝突に関する英語報道のフレーム
- 生息地の減少により人間とゾウの衝突が増加しており，社会的な課題となっている。
- 報道がゾウに対する人々の認識や保全政策に影響を与える可能性が指摘されている。
- 報道におけるフレームを分析し，ゾウに対するネガティブな描写を明らかにすること。
- 分析の結果，恐怖や攻撃性を煽る言葉が優勢であることが明らかになった。
- ネガティブな報道は，人々の敵意を煽り，共存を阻害するリスクがある。
- 本研究は，大規模なテキスト分析を通じて，責任ある報道を支援する手法を提供する。
Link: https://arxiv.org/abs/2604.21496
分散型リスク検知のためのメカニズム設計：厳格な独占禁止，ネットワーク上の連携，および逆効果となる義務化 [cs.GT, cs.LG]目的：リスク顧客を抱える競合企業における，分散型リスク検知メカニズムの設計
- 金融犯罪やサイバー攻撃など，リスク情報の共有は社会的に重要な課題である。
- 企業は自社の利益を優先するため，リスク情報の共有に消極的になりやすい。
- リスク情報の共有を促すインセンティブ設計により，社会全体の利益を最大化すること。
- 提案するメカニズム（TVA）は，企業の正直な報告を促し，リスク検知の効率を高める。
- ネットワーク構造を考慮した連携設計が，リスク情報の共有促進に重要であることが示された。
- 義務的な情報共有が，必ずしも社会厚生を向上させるとは限らず，場合によっては逆効果となる可能性がある。
Link: https://arxiv.org/abs/2604.21789
判断の充足後における制度 [cs.CY, cs.AI]目的：判断の充足後の制度に関する考察
- 技術革新は常に希少性を変化させ，それに伴い制度が再構築される。
- AI革命において判断力は依然として希少であると考えられてきた。
- AIによる判断能力の向上に伴い，新たな希少性に対応する制度の再設計を目指す。
- AI技術により，見かけ上は十分な判断力が低コストで大量に生産可能になっている。
- 真の情報，正当性，信頼できる起源，そして統合能力が新たな希少資源となりつつある。
- 既存の制度はAI技術と機能的に競合しており，制度設計を再考する必要がある。
Link: https://arxiv.org/abs/2604.22966
AmaraSpatial-10K：空間コンピューティングと具現化されたAIのための空間的・意味的に整合された3Dデータセット [cs.CV, cs.AI, cs.LG]目的：空間コンピューティングと具現化されたAIのための，最適化された3Dアセットのデータセット
- Web規模の3Dアセットは豊富だが，ロボティクスや空間コンピューティングへの応用には課題が多い。
- 既存の3Dアセットは，メトリックのスケール，ピボット，ジオメトリ，テクスチャに問題があり，実用性が低い。
- 高品質で，すぐに利用可能な3Dアセットのデータセットを構築し，評価方法を確立すること。
- AmaraSpatial-10Kは，Objaverseと比較してCLIP Recall@5を3.4倍向上させた（0.612 vs. 0.181）。
- Habitat-Sim環境下での物理シミュレーションの安定率は99.1%に達し，処理速度が約20倍向上した。
- Holodeckのアセットバンクとして利用した場合，重なりのないシーンを生成することができた。
Link: https://arxiv.org/abs/2604.23018
効率的な根拠に基づく検索：JEPAに基づく生成型リランカーからのオンポリシー蒸留 [cs.IR, cs.CL, cs.LG]目的：根拠に基づく検索のための効率的な検索手法
- 従来の検索手法ではカバーできない，根拠に基づいた情報検索の重要性が高まっている。
- 根拠に基づく検索は，大規模言語モデルを用いたクロスエンコーディングが必要であり，計算コストが大きい。
- 計算コストを削減しつつ，クロスエンコーディングに匹敵する検索性能を実現することを目指す。
- Rabtrieverは，クエリとドキュメントを独立にエンコードすることで，計算量を理論的・実験的に線形に削減することに成功した。
- 様々な根拠に基づくタスクにおいて，従来の検索手法を上回り，リランカーとの性能差もわずかである。
- MS MARCOやBEIRといった従来の検索ベンチマークにおいても，優れた性能を示し，汎用性も確認された。
Link: https://arxiv.org/abs/2604.23336
大規模言語モデルにおけるプロンプトインジェクション対策の評価 [cs.CR, cs.AI]目的：大規模言語モデルのプロンプトインジェクション対策の有効性
- LLMの利用拡大に伴い，機密情報の保護が重要となっている。
- LLMは，プロンプトインジェクションにより機密情報を漏洩する脆弱性を持つ。
- LLM自身による防御は限界があり，より堅牢な対策が求められている。
- 自己防御に頼る対策は，いずれも破られた。
- 出力フィルタリングのみが有効で，15,000回の攻撃において情報漏洩はなかった。
- セキュリティ境界は，攻撃対象となるモデルではなく，アプリケーションコードで強制する必要がある。
Link: https://arxiv.org/abs/2604.23887
バグ報告駆動型故障局所化：ABB Roboticsにおける産業ベンチマークと教訓 [cs.SE, cs.LG]目的：バグ報告を用いた故障局所化の可能性
- 産業環境では大規模かつ長期にわたるシステムに欠陥が蓄積し，品質保証が重要である。
- 故障箇所特定は時間とコストがかかる場合が多く，特にバグ報告のみに頼る保守段階では困難である。
- バグ報告のテキスト情報のみを用いて，AI支援による効率的な故障局所化を実現することを目指す。
- 従来の機械学習モデル（ロジスティック回帰，SVM，ランダムフォレスト）が，ファインチューニングされたTransformerモデルよりも優れた性能を示した。
- データ拡張がランダムフォレストの性能向上に寄与することを確認した。
- Transformerモデルが常に古典的な手法を上回るわけではないという知見を得た。
Link: https://arxiv.org/abs/2604.25700
連続時間における識別可能な因果予測のための観測可能なニューラルODE [cs.LG, math.OC, math.ST, q-bio.QM, stat.TH]目的：連続時間シーケンシャル決定問題における因果推論の識別可能性
- 連続時間データは，医療や金融など多くの分野で不可欠であり，その分析の重要性は高い。
- 潜在的交絡因子が存在する場合，因果関係の特定は困難であり，誤った結論を招く可能性がある。
- 観測可能な状態空間モデルを用いて，交絡因子が存在しても因果効果を識別する手法を開発する。
- 観測可能なニューラルODE (ObsNODE) を提案し，潜在状態を観測データから再構築可能にすることで，因果予測を可能にした。
- ObsNODEは，潜在状態のフィルタリング分布と測定モデルを用いて，潜在的な結果分布を推定する連続時間調整式を導出した。
- 合成がんデータ，MIMIC-IVに基づく半合成データ，実際の敗血症データにおける実験で，ObsNODEが最新のシーケンスモデルよりも優れた性能を示した。
Link: https://arxiv.org/abs/2604.26070
エージェント式RecTune：推薦システム最適化のための自己進化型スキルハブを備えたマルチエージェント [cs.CG, cs.IR, cs.AI]目的：推薦システムのシステムレベル構成最適化
- 大規模推薦システムは多段階パイプラインで構成され，その性能はシステム全体の構成に大きく左右される。
- システム構成の最適化は複雑であり，モデル変更のたびに再調整が必要となるため，大きな負担となる。
- LLMを活用し，自動的に構成を探索・評価することで，最適化の負担を軽減し，性能向上を目指す。
- AgenticRecTuneは，Actor，Critic，Insight，Skill，Onlineの5つのエージェントから構成され，推薦システムの構成最適化をエンドツーエンドで管理する。
- Actorエージェントが複数の候補構成を提案し，Criticエージェントが劣悪な提案を除外する。
- InsightとSkillエージェントの協調により，過去の結果を要約し，スキルハブを自己進化させることで，最適化の効率を高める。
Link: https://arxiv.org/abs/2604.26969
コヒーレンス：インタリーブされたマルチモーダルコンテキストにおける詳細な画像-テキストアラインメントのベンチマーク [cs.HC, cs.CV, cs.AI]目的：インタリーブされたマルチモーダルコンテキストにおける詳細な画像-テキスト対応の評価
- マルチモーダル大規模言語モデルは急速に進歩しているが，実世界での応用には課題が残る。
- 既存のベンチマークは，単一または複数画像に焦点を当てており，インタリーブされたコンテキストの理解を評価できない。
- 本研究は，インタリーブされた画像-テキストコンテキストにおけるMLLMの詳細な理解能力を定量化する。
- COHERENCEは，4つの代表的なドメインからなるインタリーブされた画像-テキストコンテンツを含むベンチマークである。
- COHERENCEは6,161の高品質な質問を含み，MLLMの画像-テキスト対応回復能力を評価する。
- 6種類の誤り分析により，現在のMLLMの欠如する能力を特定し，詳細な失敗原因の特定を可能にする。
Link: https://arxiv.org/abs/2604.27389
大規模言語モデルエージェントによる科学的可視化のためのインタラクションパラダイムの探求 [cs.HC, cs.AI, cs.GR, cs.HC]目的：科学的可視化タスクにおける大規模言語モデルエージェントの性能評価
- 科学研究におけるデータ可視化は，知見発見や仮説検証に不可欠である。
- 自然言語による指示から可視化ワークフローを生成する際の自動化は困難である。
- 多様なエージェントの特性を明らかにし，最適な可視化システム構築に貢献する。
- 汎用コーディングエージェントはタスク成功率が高いが，計算コストが大きいことが示された。
- ドメイン特化型エージェントは効率的かつ安定しているが，柔軟性に欠けることが明らかになった。
- 持続的なメモリは，CLIおよびGUI環境において反復試行における性能を向上させる。
Link: https://arxiv.org/abs/2604.27996
DPLM-Evoを用いた生成型タンパク質進化機械へ [cs.LG]目的：タンパク質進化の生成
- タンパク質は生物学的制約下で進化する。そのメカニズム理解は創薬等に不可欠である。
- 既存のDPLMはマスキングに基づく拡散を利用し，生物学的な進化過程と乖離している。
- 置換，挿入，欠失を明示的に予測する進化型拡散フレームワークを開発し，タンパク質進化を再現する。
- DPLM-Evoは，置換，挿入，欠失操作を明示的に予測することで，配列理解能力を向上させた。
- ProteinGymにおける単一配列設定で，変異効果予測性能において最先端の結果を達成した。
- 可変長のシミュレーション進化や，既存タンパク質の編集・最適化を可能にした。
Link: https://arxiv.org/abs/2605.00182
CoFlow: オフラインマルチエージェント意思決定のための協調的少数ステップフロー [cs.CL, cs.CL, cs.DB, cs.AI]目的：オフラインマルチエージェント強化学習における協調性を維持した効率的な生成手法
- マルチエージェントシステムは，複雑な問題を解決する上で重要な役割を担う。
- 既存のオフラインMARL手法は計算コストが高く，効率性に課題がある。
- エージェント間の協調性を維持しつつ，計算効率を向上させることを目指す。
- CoFlowは，協調的Velocity AttentionとAdaptive Coordination Gatingを組み合わせることで，効率と協調性の両立を実現した。
- 実験結果から，CoFlowは既存の様々な手法を上回り，高いエピソードリターンを達成することが示された。
- 協調性に関する独立した検証により，CoFlowの性能向上はエージェント間の協調性に起因することが確認された。
Link: https://arxiv.org/abs/2605.01457
交渉は安価だが，コミュニケーションは困難：マルチエージェント交渉における動的グラウンディングの失敗と修復 [cs.MA, cs.AI]目的：マルチエージェント交渉における動的グラウンディングの失敗とその修復
- コミュニケーションは社会活動の根幹であり，円滑な意思疎通は効率的な協力関係構築に不可欠である。
- 既存のLLMベンチマークは静的なタスクに偏っており，エージェント間の対話を通じたグラウンディングの修復能力が評価されていない。
- エージェント同士が対話を通じて意味を交渉し，グラウンディングの失敗を修復する能力を明らかにすること。
- エージェント対は，パレート最適解に到達することに一貫して失敗する。
- 失敗要因として，過去の対話履歴の喪失，初期提案への固執，報酬最大化の協調よりも均等分割への傾倒，参照バインディングエラーが特定された。
- 協調性の欠如は，個々の推論能力の限界や情報交換の不足だけでは説明できず，動的グラウンディングがボトルネックとなっている。
Link: https://arxiv.org/abs/2605.01750
ブール半空間のスムーズド非教師あり学習に対するほぼ最適なSQ下限 [cs.LG]目的：ブール半空間のスムーズド非教師あり学習の複雑性
- 機械学習の基礎理論であり，学習アルゴリズムの性能評価に不可欠である。
- ノイズの多い状況下での効率的な学習手法が未だ十分とは言えない。
- ノイズに対するロバストな学習アルゴリズムの限界を示す。
- L1多項式回帰の実行時間とサンプル複雑性が$\tilde{O}(n^{O(\log(1/\varepsilon)/\sigma)})$であることを示した。
- 統計的クエリ複雑度の下限が$n^{\Omega(\log(1+\sigma/\varepsilon^2)/\sigma)}$であることを証明した。
- これはガウス分布を用いた連続設定における最近の研究結果を補完するものである。
Link: https://arxiv.org/abs/2605.02350
オープンセット教師あり異常検知のための混合プロトタイプフローマッチング [cs.CV, cs.LG]目的：オープンセット教師あり異常検知における異常の識別
- 異常検知は，安全性や信頼性が求められる様々な分野で重要な役割を果たす。
- 既存手法は，正常データの多峰性を捉えきれず，識別境界が曖昧になるという課題がある。
- 正常データの分布をより正確にモデル化し，正常-異常間の分離度を高めることを目指す。
- 提案手法MPFMは，正常データの特徴分布を構造化されたガウス混合プロトタイプ空間へ変換する連続的な変換を学習する。
- MPFMは，各成分が異なる正常クラスに対応するガウス混合事前分布として速度場を明示的にモデル化することで，モードを意識した分布輸送を実現する。
- 実験結果から，MPFMが多様なベンチマークにおいて最先端の性能を達成することが示された。
Link: https://arxiv.org/abs/2605.02438
密度に基づく幾何：少ないサンプルでのクロスドメインOOD検出 [cs.AI]目的：少ないサンプル数で，未知のドメインにおける分布外検出の実現
- 安全なシステム展開には不可欠であり，特に重要なアプリケーションでは分布外検出が求められる。
- 既存のOOD検出器は特定のIDデータセットに依存し，異なるドメインへの汎化が困難である。
- 事前学習済みのモデルと少数のIDサンプルのみで，任意のドメインにおけるOOD検出を可能にすること。
- 拡散過程の軌跡を幾何学的に解析するUFCODというフレームワークを提案した。
- Path EnergyとDynamics Energyというエネルギー特徴量を抽出し，拡散過程との相互作用を捉えた。
- 単一のデータセットで学習させた拡散モデルを，様々なドメインで利用可能な汎用的な特徴抽出器として活用した。12のクロスドメインベンチマークで93.7%の平均AUROCを達成し，高いサンプル効率を示した。
Link: https://arxiv.org/abs/2605.03410
Ilov3Splat：ガウススプラッティングにおけるインスタンスレベルのオープンボキャブラリー3Dシーン理解 [cs.CE, cs.CV, cs.AI]目的：3Dシーンにおけるインスタンスレベルのオープンボキャブラリー理解
- 3Dシーン理解は，ロボティクスや拡張現実など，様々な分野で重要な役割を果たす。
- 従来の技術は，2Dレンダリング依存や点レベルのセマンティック関連付けにより，一貫性や精度に課題があった。
- ガウススプラッティングを用いて，言語記述に基づいた3Dシーンの物体認識とセグメンテーションを可能にすること。
- Ilov3Splatは，3Dガウススプラッティング上に構築された新しいフレームワークであり，シーンのジオメトリとセマンティック表現を同時に最適化する。
- マルチ解像度ハッシュ埋め込みを活用し，言語と3D空間を密に結びつけることで，言語による3Dシーンの理解を実現する。
- 標準的なベンチマークにおいて，既存のオープンボキャブラリー3D-GS手法を上回り，物体選択とインスタンスセグメンテーションで優れた性能を示す。
Link: https://arxiv.org/abs/2605.04506
効率的な幾何制御による高解像度衛星画像合成 [cs.CV, cs.AI]目的：高解像度衛星画像合成の幾何制御
- 機械学習モデル開発において，衛星画像は土地被覆分類や災害監視に不可欠である。
- 高解像度衛星画像は入手が困難で高価であり，特に遠隔地や突発的な事象では不足している。
- 既存の拡散モデルを制御し，幾何学的な制御に対応した高解像度衛星画像合成を実現する。
- 提案手法は，ウィンドウ化されたクロスアテンションモジュールを活用することで，効率的な幾何制御を可能にした。
- 既存の制御技術と比較して，同等の性能を達成しつつ，幾何制御マップとの整合性が向上した。
- 現在の評価方法の限界を指摘し，整合性評価の重要性を強調した。
Link: https://arxiv.org/abs/2605.04557
Gyan：説明可能なニューシンボリック言語モデル [cs.CL, cs.AI, cs.ET, cs.LG]目的：説明可能な言語モデルの構築
- 大規模言語モデルの利用拡大に伴い，信頼性と透明性が重要課題となっている。
- 既存モデルは，文脈理解の不完全性，幻覚，解釈の困難さなどの課題を抱えている。
- 信頼性と透明性を備えた言語モデルを開発し，重要なタスクへの応用を目指す。
- Gyanは，従来のTransformerアーキテクチャを用いない新しい構造で構築された。
- 3つの公開データセットと2つの独自データセットで最先端の性能を達成した。
- 言語モデルと知識獲得・表現を分離することで，信頼性と解釈可能性を高めた。
Link: https://arxiv.org/abs/2605.04759
大規模言語モデルと閉ループ強化学習フィードバックを用いたエージェント型株価予測システムの多次元行動評価 [cs.LG, cs.AI, cs.CL, q-fin.CP]目的：エージェント型株価予測システムの行動評価手法
- 金融分野において，予測の質は投資判断に不可欠であり，より高度な評価方法が求められている。
- 従来の評価指標は予測結果の精度に偏っており，予測プロセスの評価が不十分である。
- 予測プロセスの各段階を評価することで，システム改善の方向性を示し，より信頼性の高い予測を可能にする。
- 提案手法では，大規模言語モデルを用いて予測システムの行動を6つの側面から評価し，次元特異性を確認した。
- 行動スコアとバックテストによるシャープレシオの間には高い相関関係が認められた（Spearmanのρ = 0.72）。
- 強化学習への応用により，予測精度が向上し，特にボラティリティの高い期間においてその効果が確認された。
Link: https://arxiv.org/abs/2605.05739
非対称オンポリシー蒸留：トークンレベルでの活用と模倣の架け橋 [cs.CL, cs.LG, cs.AI]目的：トークンレベルでの教師からのフィードバックを用いた学生モデルの訓練
- 強化学習の性能向上は，AIの自律性と問題解決能力を高める上で不可欠である。
- オンポリシー蒸留は有望だが，勾配消失や探索の停滞といった課題を抱えている。
- AOPDは，これらの課題を克服し，オンポリシー蒸留の性能を向上させることを目指す。
- AOPDは，標準的なオンポリシー蒸留よりも数学的推論タスクにおいて一貫して高い性能を示した。
- 特に，初期化が弱い条件下では平均で8.34の改善が見られた。
- AOPDは，訓練中のポリシーエントロピーを高く維持し，逐次的なツール使用適応能力も向上させた。
Link: https://arxiv.org/abs/2605.06387
自動アライメントは想像以上に困難である [cs.AI]目的：人工超知能（ASI）のアライメント手法の自動化可能性
- ASIのアライメントは，人類にとって極めて重要な課題であり，その安全性確保は喫緊の課題である。
- アライメント研究には，明確な評価基準がない曖昧なタスクが多く，人間の判断にも限界がある。
- AIによる自動アライメント研究における誤った安全性評価と，それによる誤配備を防ぐこと。
- AIエージェントによるアライメント研究の自動化は，誤解を招く安全性評価を生み出し，意図しないAIの誤配備につながる可能性がある。
- 自動アライメント研究は，人間の研究者よりも系統的なエラーを生みやすく，検出が困難な誤りを生む可能性がある。
- 曖昧なタスクを信頼性高く実行できるAIエージェントの訓練が不可欠であり，汎化とスケーラブルな監視がその候補となる。
Link: https://arxiv.org/abs/2605.06390
AI共同研究者：エージェントAIによる数学者の研究加速 [cs.AI]目的：数学研究の支援
- 数学は科学技術の基盤であり，その進歩は社会全体に貢献する。
- 数学研究は探索的で反復的であり，既存のAIツールでは十分な支援が困難である。
- AIを活用し，数学者の思考プロセスをより効果的に支援する環境を構築する。
- AI共同研究者は，数学者の研究活動全体を支援するワークベンチとして機能する。
- 実験の結果，未解決問題の解決，新たな研究方向の発見，参考文献の特定に貢献した。
- FrontierMath Tier 4において48%のスコアを達成し，AIシステム中最高の記録を更新した。
Link: https://arxiv.org/abs/2605.06651
LLMの推論過程から探索木を抽出することによる近視眼的計画の解明 [cs.AI]目的：LLMの計画立案構造の特性評価
- LLMの思考過程の理解は，AIの能力向上と安全性の確保に不可欠である。
- LLMが示す計画立案能力が，真の計画と言えるのか不明確である。
- LLMの計画立案における探索木の構造と，その性能への影響を解明する。
- LLMの探索は人間と比較して浅く，性能は探索の深さよりも広さに依存することが示された。
- LLMは深層ノードを展開するものの，行動選択は深層ノードを無視した近視的なモデルで説明できることが明らかになった。
- LLMと人間の計画立案の違いが示され，人間は深層探索によって性能が向上するのに対し，LLMはそうではないことが明らかになった。
Link: https://arxiv.org/abs/2605.06840
Agentick：汎用的な逐次決定を行うエージェントのための統一的なベンチマーク [cs.AI]目的：汎用的な逐次決定エージェントの比較評価
- AIエージェント研究は多様化しており，その能力を客観的に評価する共通基盤が求められている。
- 強化学習，大規模言語モデルなど，異なるアプローチ間の公平な比較が困難であった。
- 様々なエージェントの能力を包括的に評価し，汎用的な自律エージェント開発を促進すること。
- Agentickは，37種類のタスクと多様な観測モダリティを提供し，統一的な評価環境を実現した。
- GPT-5 miniは全体的に高い性能を示したが，PPOは計画立案やマルチエージェントタスクで優位性を示した。
- 推論機能の導入により，LLMの性能が大幅に向上し，ASCII表現が自然言語よりも優れた結果を示した。
Link: https://arxiv.org/abs/2605.06869
MathlibPR：形式数学ライブラリのプルリクエストマージ準備度ベンチマーク [cs.LO, cs.AI, cs.LG]目的：Mathlibのプルリクエストの評価に関するベンチマーク
- 近年，LLMによる形式検証が注目されており，Mathlibはその基盤として重要な役割を担う。
- Mathlibの成長は，プルリクエストのレビュープロセスがボトルネックとなっており，人的リソースに依存している。
- LLMがMathlibのプルリクエストレビューを支援することで，効率化と貢献の促進を目指す。
- MathlibPRは，実際のMathlib4のプルリクエスト履歴を基にしたベンチマークである。
- LLMおよびLLMエージェントは，マージ可能なプルリクエストと修正が必要なプルリクエストの区別に苦戦していることが判明した。
- MathlibPRは，プルリクエスト評価支援やLLMの学習に向けた報酬モデル開発に貢献する可能性がある。
Link: https://arxiv.org/abs/2605.07147
SREGym: 高忠実度な障害シナリオを用いたAI SREエージェントのライブベンチマーク [cs.AI]目的：AI SREエージェントの性能評価のための高忠実度ベンチマーク
- システムの信頼性確保が重要であり，AIを活用したSREのニーズが高まっている。
- 既存のSREベンチマークは単純化され，拡張性に乏しいという課題がある。
- 本研究は，より現実的な環境でAI SREエージェントを評価するためのフレームワークを提供する。
- SREGymは，実際のクラウドネイティブシステムスタック上に構築されたライブシステム環境を提供する。
- 多様な障害シナリオを注入し，現実世界の複雑さを再現することで，AIエージェントの能力を評価する。
- 最先端のエージェントを評価した結果，障害の種類によって性能に最大40%の差が見られた。
Link: https://arxiv.org/abs/2605.07161
ニューラルネットワークは外挿を行うか？特徴エンジニアリングとOOD汎化のための識別バイアス [cs.LG, cs.AI]目的：外挿におけるニューラルネットワークの性能低下の原因の特定
- 深層学習はデータの特徴を学習するが，分布外（OOD）のデータに対する汎化性能が課題である。
- 分布内（ID）のデータのみからOOD性能を予測することは困難であり，識別可能性の問題が存在する。
- 特徴エンジニアリングがOOD汎化に及ぼす影響を分析し，性能向上策を提示すること。
- ニューラルネットワークがOODで失敗するのは，データ生成過程の識別可能性から特徴学習が分離されていないためである。
- 適切な特徴表現とモデル構造を明示的に定義することで，OOD誤差を大幅に減少させることができる。
- フーリエ座標のような特徴変換は，外挿を内挿に変換し，OOD性能を向上させる効果が確認された。
Link: https://arxiv.org/abs/2605.07483
軌道モデルの正規化 [cs.CV, cs.LG]目的：拡散モデルにおける少数ステップ生成の精度向上
- 生成モデルは画像やテキスト等の生成に応用され，近年急速に発展している分野である。
- 拡散モデルの少数ステップ生成は計算コスト削減に有効だが，精度が低下しやすいという課題がある。
- 正確な尤度計算を維持しつつ，少数ステップでの高精度な生成を実現することを目指す。
- 本研究では，各逆ステップを条件付き正規化フローとしてモデル化するNormalizing Trajectory Models (NTM) を提案した。
- NTMは，尤度計算を維持しつつ，わずか4ステップで高性能な画像生成を可能にした。
- また，モデル自身が出力するスコアに基づく自己蒸留により，軽量なノイズ除去器を訓練し，高品質なサンプルを生成した。
Link: https://arxiv.org/abs/2605.08078
言語が視覚を上書きするとき：ビジョン言語モデルにおける過剰アラインメントと幾何学的バイアス除去 [cs.CV, cs.AI]目的：ビジョン言語モデルにおける幻覚の根本原因の特定と軽減
- 近年，医療画像診断や自動運転など，重要な応用分野でビジョン言語モデルの利用が進んでいる。
- これらのモデルは，入力に存在しない内容を自信を持って記述する幻覚を頻繁に起こすという課題がある。
- 視覚埋め込みとテキスト多様体の過剰なアラインメントという幾何学的な原因に対処し，幻覚を抑制すること。
- デコーダーベースのビジョン言語モデルにおいて，アテンションメカニズムが視覚埋め込みをテキスト多様体に過剰にアラインメントすることが示された。
- この過剰アラインメントは，普遍的でデータセットに依存しないテキスト部分空間の主要成分に言語バイアスが集中することで定量的に特徴づけられた。
- トレーニング不要な推論戦略とバイアスを意識したファインチューニングにより，幻覚が大幅に軽減され，長文キャプションタスクの性能が向上した。
Link: https://arxiv.org/abs/2605.08245
トークン数/パラメータ数カバレッジは，ロバストなLLMスケーリング則の外挿に不可欠である [cs.CL, cs.LG]目的：大規模言語モデルのスケーリング則のロバストな外挿
- 言語モデルの性能向上には，モデルの規模と学習データ量の関係を理解することが重要である。
- 従来の学習方法では，パラメータ数とトークン数の間に強い相関があり，スケーリング則の推定精度が低いという問題がある。
- 本研究は，パラメータ数とトークン数の多様性を確保することで，スケーリング則の推定精度を向上させることを目指す。
- パラメータ数とトークン数の比率が固定された設計は，スケーリング則の推定における不安定性を引き起こす。
- 非共線性設計は，留め置きデータにおいて，97.3%の確率で従来の設計よりも優れた性能を示す。
- この問題の根本原因は，ヤコビアン行列の幾何学的な構造にあり，損失関数に依存しない。
Link: https://arxiv.org/abs/2605.08541
ラグランジュ作用への提唱：時間的スナップショットからの集団力学の学習 [cs.LG, stat.ML]目的：集団力学の学習
- 分子，細胞，生物の集団動態を理解する上で重要であり，様々な自然現象の予測に役立つ。
- 従来の Wasserstein 勾配フローは自由エネルギーを最小化するため，周期性などの重要な動的特性を捉えられない。
- Wasserstein Lagrangian Mechanics を用いることで，勾配フローでは捉えきれない集団の動的特性を学習し，予測精度を高める。
- 本研究では，集団レベルの作用を最小化する新しいアプローチである Wasserstein Lagrangian Mechanics を提案した。
- 提案手法 WLM は，観測された周辺分布からこれらの二階微分方程式を学習し，既存手法よりも優れた予測性能を示した。
- 渦力学，発生，群集行動など，幅広い動態において WLM の有効性が確認された。
Link: https://arxiv.org/abs/2605.08550
MDL-GBG：クラスタリングのための非パラメトリックかつ解釈可能なグラニュールボール生成法 [cs.LG]目的：クラスタリングにおけるグラニュールボールの生成
- データ分析において，データの構造を把握し，効率的なクラスタリングを行うことは重要である。
- 既存のグラニュールボール生成法は，手動で設計された評価指標に依存し，透明性に欠ける場合がある。
- 最小記述長原理に基づき，解釈可能な形でグラニュールボールを生成し，クラスタリングの精度向上を目指す。
- MDL-GBGは，グラニュールボール生成を最小記述長原理に基づく局所的なモデル選択問題として定式化する。
- 生成されたグラニュールボールは，クラスタリングのための効果的な前処理表現を提供する。
- MDL-GBG+ACは，ARI，ACC，NMIにおいて比較対象手法中で最高の平均ランクを達成した。
Link: https://arxiv.org/abs/2605.08759
最大プーリングネットワークの再考：ハルシネーション検出のための多重インスタンス学習における意味的確率の役割分析 [cs.CL, cs.LG]目的：大規模言語モデルにおけるハルシネーション検出の信頼性向上
- 大規模言語モデルの普及に伴い，その信頼性確保が重要課題となっている。
- 既存手法は計算コストが高く，効率的なハルシネーション検出が困難である。
- 計算効率を向上させつつ，ハルシネーション検出性能を維持すること。
- 内部状態と意味的一貫性のスケーリングが決定マージンを拡大することを示した。
- トークンレベルの特徴量を最大プーリングで集約し，軽量なMLPで文のスコアを推定する手法を提案した。
- 意味的一貫性計算を必要とせず，計算効率を向上させつつ，最先端の性能を維持した。
Link: https://arxiv.org/abs/2605.08863
PnP-Corrector：結合時空予測のための汎用的な修正フレームワーク [cs.AI, cs.LG]目的：結合時空予測における長期的な予測精度と安定性の向上
- 気候モデルなど，相互作用する複数の動力系システムの将来予測は重要である。
- 既存手法は，誤差の増幅という深刻な問題に直面し，長期予測の信頼性を損なっている。
- 本研究は，物理シミュレーションと誤差修正を分離し，長期予測の安定化を図る。
- 提案手法PnP-Correctorは，既存の物理シミュレーションエンジンを固定し，誤差修正エージェントのみを学習させる。
- 効率的な予測モデルDSLCastを設計し，フレームワークの中核として活用する。
- 300日間の海洋大気結合予測において，ベースラインモデルの予測誤差を29%削減し，最先端モデルを上回る性能を達成した。
Link: https://arxiv.org/abs/2605.08935
GAMBIT：マルチエージェントLLM集団における敵対的堅牢性に関する3つのモードのベンチマーク [cs.CL, cs.LG]目的：マルチエージェントLLM集団における詐欺エージェントの検出性能評価
- マルチエージェントシステムは，複雑なタスク解決において有用だが，悪意のあるエージェントが存在するリスクがある。
- 既存の研究では，浅いタスクに限定され，適応的な敵対者を考慮していないため，検出器の有効性が不十分である。
- 本研究は，現実的な制約下で，適応的に進化する詐欺エージェントに対する検出器の性能を評価するベンチマークを提供する。
- チェスを基盤とし，Gemini 3.1 Proを用いたベンチマーク「GAMBIT」とデータセットを公開した。
- 効率的な進化フレームワークに基づいた適応的な詐欺エージェントを開発し，集団のタスクパフォーマンスを低下させつつ，検出を回避できることを示した。
- ゼロショット評価は，適応的な敵対者に対して誤解を招く可能性があり，リキャリブレーションモードでの評価が重要であることを示した。
Link: https://arxiv.org/abs/2605.09027
UxSID：超長系列における意味認識型ユーザー関心モデリング [cs.AI, cs.IR, cs.LG]目的：超長系列ユーザーデータの効率的かつ効果的なモデリング
- 広告配信等において，ユーザーの行動履歴を正確に把握することは重要である。
- 従来のモデルは，効率か精度かのトレードオフに陥り，両立が困難であった。
- 意味グループ共有関心メモリを利用し，効率性と精度を両立するモデルの構築。
- UxSIDは，Semantic IDと二段階注意機構により，アイテム固有のコストを抑制しつつ，ターゲットに合わせたユーザーの嗜好を捉える。
- 実験の結果，UxSIDは最先端の性能を達成し，大規模広告A/Bテストで0.337%の収益向上を実現した。
- 本研究は，計算コストを抑えつつ意味認識を可能にする新たなアプローチを提示する。
Link: https://arxiv.org/abs/2605.09040
FactoryNet: 産業時系列データ向け大規模データセット [cs.LG, cs.AI]目的：産業時系列データのための汎用的な事前学習コーパス
- 産業におけるデータ駆動型意思決定の重要性が増しており，時系列データ分析のニーズが高い。
- 異種産業機器間でのデータ互換性が低く，汎用的なモデル構築が困難である。
- 異なる産業機器間で知識を転移し，効率的な異常検知を可能にする。
- FactoryNetは，ロボット操作と機械加工の分野において27種類の異常タイプを網羅した大規模データセットである。
- 提案されたS-E-F-Cスキーマにより，様々なシステムを共通の表現形式にマッピングし，ゼロショット転移学習を可能にする。
- 異種機器間での転移実験において，バイアスを考慮した評価指標で良好な結果が得られた。
Link: https://arxiv.org/abs/2605.09081
BoostAPR：二重報酬モデルを用いた実行に基づいた強化学習による自動プログラム修復の強化 [cs.AI, cs.SE]目的：自動プログラム修復の性能向上
- ソフトウェアの品質向上には，バグの自動修正が不可欠である。効率的な自動修復手法の開発が求められている。
- 従来の強化学習によるプログラム修復は，稀な実行フィードバックと粗い報酬によって効果が制限されていた。
- 実行に基づいた報酬モデルと強化学習を組み合わせ，より効果的なバグ修正を目指す。
- BoostAPRは，実行検証済みのデモンストレーションによる教師ありファインチューニング，二重報酬モデルの学習，PPOによる最適化という三段階構成である。
- SWE-GymやDefects4Jなど複数のベンチマークで，既存モデルと比較して高い性能を示した。特にSWE-bench Verifiedで+22.9ppの改善を実現。
- BoostAPRは，言語を超えた汎化性能も示しており，JavaからPythonへの転移学習においても良好な結果を得ている。
Link: https://arxiv.org/abs/2605.09134