arXiv雑要約

AI - 2026/06/03 公開

長文ニュースから正確な予測へ：重要度を考慮した融合とPRMによる誘導的リフレクションによる時系列予測 [cs.HC, cs.CL, cs.AI]目的：時系列予測におけるニュースの活用
- 時系列予測において，過去のデータだけでは捉えきれない外的要因をニュースから把握することが重要である。
- 既存のLLMベースのニュース予測パイプラインでは，関連ニュース記事がモデルのコンテキストウィンドウを超えることが課題となる。
- 重要度を考慮したニュース圧縮とプロセスレベルでの検索により，効率的かつ正確な予測を目指す。
- 提案手法は，金融，エネルギー，交通，ビットコインの予測ベンチマークにおいて，既存の強化学習ベースラインと比較して予測精度を向上させた。
- 反復的なニュース検索の回数を大幅に削減し，収束速度を向上させた。
- 関連記事が数千トークンに及ぶ場合でも，効果的な予測が可能であることを示した。
Link: https://arxiv.org/abs/2606.03097
PhotoCraft：階層型自己進化メモリによるエージェント的推論と深層画像検索 [cs.CL, cs.AI]目的：深層画像検索におけるエージェント的推論の実現
- 画像検索は，多様な情報を統合する高度な推論能力を必要とするため，重要性が高い。
- 既存のLLMベースエージェントは，記憶能力が低く，文脈の維持や経験の転移が困難である。
- PhotoCraftは，文脈を維持し，知識を転移することで，深層画像検索の精度向上を目指す。
- PhotoCraftは，ワーキングメモリ，エピソードメモリ，セマンティックメモリという階層型メモリシステムを導入した。
- DISBenchを用いた実験の結果，様々なMLLMバックボーンにおいて，文脈を考慮した検索精度が最大18.5%向上した。
- PhotoCraftは，メモリを持たない深層画像検索のボトルネックを効果的に軽減し，信頼性の高い汎用的なマルチモーダル検索エージェントへの道を開く。
Link: https://arxiv.org/abs/2606.03099
ヒエラルキー的視点-トークン輸送によるゼロショット3D質問応答 [cs.CV, cs.LG]目的：ゼロショット3D質問応答における入力コンテキスト収集手法
- 3Dシーン理解は，ロボット工学や拡張現実など，多くの応用分野で重要である。
- 限られた入力予算の中で，3Dの詳細を最大限に保持することが課題となっている。
- タスクに関連する3D情報を効率的に収集し，質問応答性能を向上させることを目指す。
- 提案手法KeyVTは，視点レベルとトークンレベルで階層的に入力コンテキストを収集する。
- 視点重要度は，セマンティック内容と幾何学的配置に基づいて評価され，一貫性のある視点を選択する。
- 最適輸送フレームワークを用いて冗長性を削減し，重要なトークンを特定することで，特徴量の網羅性を高める。
Link: https://arxiv.org/abs/2606.03100
DeskCraft：プロフェッショナルなワークフローと人間とエージェントの協調におけるデスクトップエージェントのベンチマーク [cs.CL, cs.AI]目的：プロフェッショナルなワークフローと人間とエージェントの協調におけるデスクトップエージェントの性能評価
- 現実世界の専門的な業務は，創造性やエンジニアリングソフトウェア上で長期に渡り展開され，効率化が求められる。
- 既存のGUIベンチマークは，タスクを単純化し，ユーザーの指示を事前に提供することに偏っている。
- 長期的なワークフローと人間とエージェントの協調を評価できるベンチマーク環境の構築を目指す。
- DeskCraftは，デザイン，ビデオ，オーディオ，3D作成などの分野における，50ステップを超える長期的なワークフローを対象とする。
- 本研究では，18種類のプロプライエタリおよびオープンソースエージェントを538のタスクで評価し，GPT-5.4が標準タスクで31.6%，インタラクティブタスクで27.6%の成功率を示した。
- 長期的なワークフローの完了と，積極的な明確化における課題が明らかになった。
Link: https://arxiv.org/abs/2606.03103
EvoTrainer：自律型エージェント強化学習のためのLLMポリシーと学習ハーネスの共進化 [eess.SY, cs.SY, eess.SY, cs.SY, cs.AI]目的：LLMポリシーと学習ハーネスの共進化による自律型エージェント強化学習の実現
- LLMの自律学習は，AIの発展に不可欠であり，人間による介入を減らし，効率的な学習を可能にする。
- 従来のLLM学習は，固定された学習ハーネスに依存しており，複雑な問題や長期的なタスクにおいてボトルネックとなる。
- EvoTrainerは，学習ハーネスも進化させることで，多様な失敗モードに対応し，よりロバストな学習を実現する。
- EvoTrainerは，数学的推論，競争的プログラミング，ソフトウェアエンジニアリングにおいて，人間が設計した強化学習の性能に匹敵または上回る結果を示した。
- 特に，長期的なソフトウェアエンジニアリングタスクにおいて，大幅な性能向上が認められた。
- 進化戦略の分析により，ドメインごとに異なる戦略が保持され，診断の進化が誤った高スコアの分岐を抑制し，再利用可能なスキルが後の探索を形成することが示された。
Link: https://arxiv.org/abs/2606.03108
網膜内刺激による視覚学習：モデルベース深層強化学習によるin silico研究 [cs.DL, cs.LG, cs.CV, q-bio.NC]目的：網膜内刺激を用いた視覚回復のための学習メカニズム
- 加齢黄斑変性や網膜色素変性症は，視細胞層の変性を引き起こす。人工視覚回復への関心が高まっている。
- 網膜内刺激装置は異方性形状の視覚刺激を生じさせ，画質劣化の原因となる。等方性化が課題である。
- 異方性/等方性形状を活用し，より明瞭な画像を網膜上に描画する手法を強化学習で開発する。
- 強化学習エージェントが，等方性および異方性形状を組み合わせ，画像を生成することを学習した。
- 心理物理学的に検証された軸索マップモデルを用いて，多様な患者の知覚を模倣した画像生成を行った。
- 本研究で開発された手法は，単純な方法と比較して，より明瞭な画像を生成可能であることが示された。
Link: https://arxiv.org/abs/2606.03118
Prior Guidance: 事前ガイダンスを用いたBridgeモデルの訓練不要な改善 [cs.CV, cs.AI, cs.LG]目的：Bridgeモデルにおける事前ガイダンスの活用による性能向上
- 拡散モデルの発展に伴い，データ生成におけるガイダンス手法の重要性が増している。
- Bridgeモデルは事前知識を活用できるが，その活用が十分でない場合がある。
- 事前知識の活用を促進し，Bridgeモデルの性能を訓練なしで向上させる。
- 提案手法であるPrior Guidance (PG)は，Bridgeモデルの性能を様々な画像変換タスクで一貫して向上させる。
- PGは，訓練データに含まれない弱い事前知識を導入することで，事前知識の活用を促し，その効果を強化する。
- Frequency-Modulated Prior Guidance (FMPG)は，Bridgeモデルの生成ダイナミクスに合わせてガイダンスのスケールを調整し，より効果的な事前知識の活用を可能にする。
Link: https://arxiv.org/abs/2606.03119
TiWeaver：文脈的パッチングによる統一的な時間的ダイナミクスのモデリング [cs.LG]目的：多変量時系列予測における時間的ダイナミクスの統一的なモデリング
- 気象予測，株価分析，健康モニタリングなど，実世界における重要な役割を担う分野である。
- 多様なデータソースにより，時系列は多様な時間的ダイナミクスと不規則性（欠損値，不均一なサンプリング周波数）を示す。
- 多様な多変量時系列への適応性を高め，高精度な予測を実現することを目指す。
- 提案手法TiWeaverは，時間密度と表現の一貫性を考慮したグラフ誘導適応トークナイザー（G$^2$AT）により，文脈的に一貫性のあるパッチに時系列を分割する。
- さらに，細粒度非同期依存性抽出器（FADE）を提案し，長期的な履歴依存性を組み込みながら，チャンネル間の細粒度非同期依存性をモデリングする。
- 12個の実世界の時系列データセットで評価した結果，既存手法を最大25%上回り，最先端の性能を達成した。これにより，多様なドメインやデータ特性における堅牢性と有効性が示された。
Link: https://arxiv.org/abs/2606.03121
交流最適潮流計算のプロキシにおけるニューラルネットワークの幅の再検討 [cs.LG]目的：交流最適潮流計算のプロキシを近似するニューラルネットワークの適切な幅
- 電力系統の運用において，最適潮流計算は不可欠であり，その高速化が求められている。
- 深層学習プロキシのアーキテクチャサイズ決定には体系的な手法がなく，過大設計になりがちである。
- ニューラルネットワークの必要最小限の幅を探索し，効率的なプロキシ構築を目指す。
- 損失誘導型ニューラルネットワーク密着化（LG-ND）アルゴリズムにより，必要なネットワーク容量を効率的に発見できる。
- LG-NDは，既存手法と同等の性能を，一層あたりのニューロン数を最大10分の1に削減して達成した。
- このアーキテクチャの最小化は，安全性が重要な電力系統運用における形式的検証に不可欠である。
Link: https://arxiv.org/abs/2606.03125
分離型スマートコントラクト監査：蒸留と集約による軽量LLMフレームワーク [eess.SY, cs.SY, cs.RO, cs.CR, cs.AI, cs.CL, cs.LG]目的：スマートコントラクトのセキュリティ監査
- 分散型Webサービスにおけるスマートコントラクトのセキュリティ確保は重要である。脆弱性は重大な損害に繋がるため，厳密な監査が不可欠である。
- 従来の監査手法は，専門知識と時間が必要であり，自動化が課題であった。LLMを用いた自動監査は有望だが，計算コストが高い。
- 軽量なLLMを用いて，効率的かつ高精度なスマートコントラクト監査を実現することを目指す。
- 提案手法は，40億パラメータ以下の軽量LLMを用い，既存の70億〜340億パラメータのLLMを上回る性能を達成した。
- 脆弱性検出の精度は98.25%に達し，説明生成タスクの整合性スコアは0.4375を記録した。
- 分離型監査プロセスが統一プロンプトよりも優位であることが実証され，新たな深刻度中心バイアスが明らかになった。
Link: https://arxiv.org/abs/2606.03128
合成された幻覚，現実的な成果：FIM幻覚軽減のための最先端モデルからのハードネガティブ [cs.LG]目的：FIM（Fill-in-the-Middle）幻覚を軽減するためのハードネガティブの生成と，それを利用した教師ありファインチューニング
- IDEのオートコンプリート機能は開発効率を向上させるが，誤ったコード補完は大きな問題となる。
- 既存のFIM幻覚軽減策は，実行サンドボックスや大規模なラベル付きデータセットを必要とするため，実用性に課題がある。
- 最先端モデルを用いて現実的な誤り（ハードネガティブ）を生成し，教師あり学習でモデルを改善することで，この問題を解決する。
- 最先端モデルで生成されたハードネガティブを用いてQwen2.5-Coder-7B-Instructをファインチューニングした結果，Deluluベンチマークの正解率が大幅に向上した。
- 同様の手法を3Bモデルに適用した場合も，Deluluベンチマークにおいて正解率の向上が確認されたが，一般的なFIMタスクにおけるトレードオフも観察された。
- 実験設定の様々な要素（モデルサイズ，幻覚の種類，言語など）に関するアブレーション研究により，効果的な設計選択が明らかになった。
Link: https://arxiv.org/abs/2606.03130
HARVE：ハッキングに対応した報酬ヘッドベクトル編集による，堅牢な報酬モデル [cs.LG]目的：報酬モデルの堅牢性向上
- 大規模言語モデルの性能向上には，報酬モデルの正確さが不可欠である。
- 既存の報酬モデルは，巧妙に作成された入力による報酬ハッキングに脆弱である。
- 報酬ハッキングに対する報酬モデルの脆弱性を軽減する手法の確立。
- HARVEは，報酬モデルのファインチューニングを行わずに，ハッキングの影響を受けやすい部分を特定し，除去する。
- 実験の結果，HARVEは，既存のファインチューニング手法よりもハッキングに対する堅牢性を高めることが示された。
- 報酬ハッキングは，表面的な特徴よりも，残差空間における多次元構造として捉えるべきであるという示唆が得られた。
Link: https://arxiv.org/abs/2606.03131
静かな操作失敗はどの程度見過ごされるか：シミュレーションされたロボットエピソードにおける誤った成功検出の可視性に関する研究 [cs.CL, cs.RO, cs.LG]目的：ロボット操作における誤った成功検出の可視性評価
- ロボットの模倣学習において，成功ラベルの質が性能に大きく影響する。
- ロボット自身の成功判定が誤っている場合，その誤りを検出することが難しい。
- ロボットが成功と判定したエピソードにおいて，どの程度の情報が内部状態と視覚情報に含まれるかを明らかにする。
- キューブの移動タスクでは，関節データのみでほぼ全ての誤った成功を検出可能であった。
- ペグ挿入タスクでは，内部状態のみでは一部しか検出できず，視覚情報を用いることで検出率が向上した。
- 内部状態のみでの検出可能性は，現実的なセンサーノイズレベルを下回る速度差に依存しており，楽観的な上限である。
Link: https://arxiv.org/abs/2606.03134
情報獲得に基づくLLMエージェントにおける不確実性への対応 [cs.AI]目的：LLMエージェントにおけるユーザー意図の曖昧性解消
- LLMエージェントは多様なタスクに応用可能であり，その性能向上は重要である。
- ユーザー指示が曖昧な場合，エージェントは誤った行動を取りやすいという課題がある。
- 曖昧性解消のための質問によって不確実性を低減し，タスク成功率を向上させる。
- 提案手法は，情報獲得に基づく報酬を用いて，効果的な質問生成を学習する。
- 実験結果から，本手法は質問なしの場合と比較して，タスク成功率を平均3.7%向上させる。
- 対話回数の増加は平均0.3ステップと少なく，効率的な曖昧性解消が可能である。
Link: https://arxiv.org/abs/2606.03135
熟考発言：マルチエージェント社会シミュレーションにおける内省から公的表明へ [cs.AI]目的：マルチエージェントにおける内省プロセスと公的表明の関係性の解明
- 社会現象の理解に，エージェント間の相互作用を詳細に分析することが重要である。
- 従来の対話シミュレーションでは，発言に至るまでの内省過程が不明瞭であった。
- 発言の意思決定と公的表明のメカニズムを可視化し，分析することを可能とする。
- TBSを用いることで，一貫性のある内省状態の軌跡が得られ，条件によって変化が確認された。
- 不協和感に関連する評価は発言意欲を高める一方，沈黙圧力はそれを抑制する傾向が見られた。
- 発言意図が形成された後，実際の表明は発言順序のルールに大きく影響されることが示唆された。
Link: https://arxiv.org/abs/2606.03137
連合スキル：エージェント的スキル進化のための連合学習 [cs.LG, cs.CL]目的：エージェント的スキル進化のための連合学習フレームワーク
- 近年のLLMエージェントはスキルライブラリに依存しており，スキル進化が自己改善の重要な要素である。
- 単一ユーザーのタスクストリームではスキルの多様性が不足しており，プライバシー保護も課題である。
- ユーザーごとのプライバシーを保護しつつ，多様なデータを活用してスキル進化を促進する。
- FederatedSkillは，セマンティックなスキル差分を用いることで，プライバシーを保護しながら協調的なスキル進化を実現する。
- サーバー側では，エージェントがクライアント固有の能力境界をモデル化し，パーソナライズされたスキル進化を可能にする。
- 20種類のタスクファミリーにおいて，成功率が最大44.4%向上し，計算コストが37.5%削減された。
Link: https://arxiv.org/abs/2606.03143
GTBench：グラフ理論における数学研究アシスタントとしてのLLMを評価するためのカリキュラムに基づいたベンチマーク [cs.AI]目的：グラフ理論における数学研究アシスタントとしてのLLMの評価
- 数学研究の効率化が求められており，LLMの活用が期待されている。
- LLMの数学的推論能力は不明確であり，信頼性の評価が課題である。
- LLMのグラフ理論における数学研究支援能力を体系的に評価するフレームワークを提供する。
- GTBenchは，難易度別に3つのグループに分けられた63の問題で構成されている。
- GPT-5は，初級レベルの問題で高い精度（95.8%）を示し，上級レベルの問題でも一定の正確性を維持（82%）した。
- 他のモデルは難易度の上昇に伴い性能が低下し，Llama 3.3 70Bは上級レベルの問題で人間の評価において0%の精度となった。
Link: https://arxiv.org/abs/2606.03144
臨床MC：大規模言語モデルによる多段階臨床意思決定のベンチマーク [eess.SY, cs.SY, cs.AR, cs.DB, cs.ET, cs.DB, cs.CL, cs.AI]目的：多段階臨床意思決定のためのベンチマーク
- 医療分野におけるLLMの活用が拡大しているが，複雑な臨床判断には課題が残る。
- 既存のベンチマークは単一の臨床段階に焦点を当てており，患者の状態が時間経過とともに変化する状況の評価が不足している。
- LLMの多段階臨床意思決定能力を評価するためのベンチマークを構築し，その性能向上を目指す。
- ClinicalMCベンチマークは，1275件の中国語と5804件の英語の症例を含み，入院から退院までの4段階（トリアージ，初回診察，多段階診察，最終診断）を網羅する。
- 英語データセットの患者は平均5.11回の臨床経過を，中国語データセットの患者は3.42回の臨床経過を経ている。
- 多段階評価フレームワークを用いてGPT5-mini，DeepSeek-V3.2，HuatuoGPT-o1などのLLMを評価し，医療分野におけるLLMの性能理解と実用化を支援する。
Link: https://arxiv.org/abs/2606.03157
NVIDIA OmniDreams：閉ループ自律走行車シミュレーションのためのリアルタイム生成型ワールドモデル [cs.CV, cs.AI, cs.RO]目的：自律走行車の長尾シナリオにおける安全な評価
- 自動運転技術の発展には，現実世界の複雑な状況を再現するシミュレーション環境が不可欠である。
- 既存のシミュレーターは，学習データに依存するため，動的な状況や未知のシーンへの対応が困難である。
- 本研究は，高度な生成モデルを用いて，より現実的かつ多様なシミュレーション環境を構築し，自動運転システムの評価を支援する。
- OmniDreamsは，Cosmos拡散モデルを基盤とし，21,000時間の運転シナリオで学習することにより，リアルタイムでアクションに条件付けされた動画を生成する。
- これにより，従来のシミュレーターでは再現が難しい，極端な天候や予測不可能なエージェントの行動など，複雑な現象を合成することが可能となる。
- NuRecデータセットにおいて，OmniDreamsから学習したWAMは，Alpamayo 1.5よりも優れた性能を示し，パラメータ数は1/5で済んだ。
Link: https://arxiv.org/abs/2606.03159
OpenAgenet/OAN：信頼できるエージェント相互接続のためのオープンインフラストラクチャ [cs.MA, cs.AI]目的：信頼できるエージェント相互接続のためのオープンインフラストラクチャ
- エージェント技術は，様々な分野での自動化や意思決定を促進する重要な技術である。
- オープンな環境下では，エージェント間の信頼性確保が課題となっている。
- エージェントの身元確認，ガバナンス状態，権限，信頼性といった要素を検証する仕組みを提供する。
- OANは，エージェント間の安全な発見，選択，実行を可能にする信頼層を提供する。
- Rootによる身元認証，Registrarによるオンボーディング，パッケージ公開，権限を考慮したDiscovery，署名された信頼できる実行を実現する。
- OANの動機，アーキテクチャ，役割，ガバナンスモデル，関連技術，展開パターン，協力モデル，ロードマップを提示する。
Link: https://arxiv.org/abs/2606.03161
OpenAgenet/OAN: トラストに基づいたエージェント識別と探索のための技術アーキテクチャ [cs.MA, cs.AI, cs.DC]目的：エージェント識別と探索のための技術アーキテクチャ
- AIエージェントの利用拡大に伴い，信頼性のある連携基盤の確立が不可欠である。
- 既存システムでは，エージェント間の相互運用性とセキュリティ確保が課題となっていた。
- エージェントの識別，検証，安全な接近を可能にする基盤を構築し，相互運用性を高める。
- OpenAgenet/OANは，エージェント間の信頼関係を確立するためのプロトコル中立な層を提供する。
- 役割アーキテクチャ，識別オブジェクト，登録ワークフロー，ライフサイクル管理，パッケージモデルなどを規定している。
- 多様なエージェントフレームワークやプロトコルに対応し，安全な相互作用を可能にする。
Link: https://arxiv.org/abs/2606.03163
大規模言語モデルにおける語彙的アライメントと嗜好段階変化の自動識別 [cs.HC, cs.CL, cs.AI]目的：大規模言語モデルにおける語彙的アライメントと嗜好段階変化の評価指標
- 対話型AIの自然な言語生成が重要視される中，その品質評価は避けて通れない課題である。
- 既存の研究は主に科学英語に限定され，評価に手作業による調整が必要とされる点が課題である。
- 本研究は，手作業なしで大規模言語モデルの語彙的アライメントと嗜好段階変化を評価することを目的とする。
- 提示されたLexical Alignment Scoreは，語彙の過剰使用を特定し，Triangulated Preference Shiftは，その変化を人間の嗜好学習に帰属させることを可能にした。
- PubMed抄録を用いた実験により，'suggest'，'additionally'，'strategy'といった過剰に使用される語彙が特定され，嗜好学習との関連性が示唆された。
- 本手法は，モデルのパラメータ設定やシード，追加データにおいても安定した結果を示し，汎用性と拡張性も確認された。
Link: https://arxiv.org/abs/2606.03165
スケッチソング：スケッチ計画と細粒度マルチトラックモデリングによる階層的楽曲生成 [cs.SD, cs.LG, cs.MM]目的：楽曲生成における階層的アプローチ
- 楽曲自動生成は音楽制作の新たな可能性を開く分野であり，創造性の支援や効率化に貢献する。
- 既存の楽曲生成システムでは，楽曲全体の構成計画が不十分で，一貫性のないアレンジや単調な展開になりがちである。
- 楽曲構成の計画と各楽器の役割を明確化することで，より豊かで自然な楽曲生成を目指す。
- SketchSongは，楽曲レベルのスケッチ計画と細粒度マルチトラックモデリングにより，既存のベースラインよりも客観的指標とリスニングテストの両方で一貫して優れた性能を示した。
- 歌詞やテキストプロンプトとのアラインメントなどの追加のポストトレーニングを行っていないにもかかわらず，強力なポストトレーニング済みオープンソースシステムと同等の結果を達成した。
- 粗から細へのプロセスにより，モデルは詳細な音声生成の前に明確なアレンジプランを得ることが可能となった。
Link: https://arxiv.org/abs/2606.03169
キッドフルエンサーエコシステムにおけるエンゲージメントインセンティブ：マルチモーダル弱教師あり学習アプローチ [cs.CY, cs.LG, cs.SI]目的：キッドフルエンサーの動画における搾取の兆候検出
- 子どもたちのデジタル労働と搾取に関する倫理的な懸念が高まっているため，この分野の研究が重要である。
- 搾取の実態を大規模に把握することが困難であり，実証的な証拠が不足している。
- 弱教師あり学習を用いて，搾取の兆候を効率的に検出し，エンゲージメントとの関連性を明らかにすること。
- 搾取のスコアと再生回数の間に有意な相関関係が認められた（Spearman ρ = 0.229）。
- 搾取のスコアが1単位上昇すると，再生回数が約4.4倍になることが示された。
- 感情的な誘導やパフォーマンス性の高いコンテンツは，再生回数を大幅に増加させる一方で，明示的な商品紹介は効果がなかった。
Link: https://arxiv.org/abs/2606.03173
GLINT：ファイングレインドな放射線画像表現のための疎なゲート付き視覚言語アライメント [cs.RO, cs.SI, cs.CL, cs.CV, cs.CL, cs.LG]目的：ファイングレインドな放射線画像表現を実現するための疎なゲート付き視覚言語アライメント手法
- 放射線画像診断の精度向上は医療の発展に不可欠であり，AIによる支援が期待されている。
- 既存の手法では，画像全体に対して均一に重みを付与するため，関連領域への集中が不十分である。
- テキストクエリに特異的な画像の局所領域に焦点を当て，疎なアライメントをモデル化することを目指す。
- GLINTは，テキストクエリに関連するパッチのみを活性化する疎なゲート付きアライメントを導入した。
- 学習エンコーダの中間特徴を自己教師あり学習の教師特徴に固定することで，パッチ特徴の維持を実現した。
- ゼロショット分類，グラウンディング，セグメンテーションにおいて高い性能を示し，特にゼロショットセグメンテーションで3D CTボリュームにおいて優れた結果を得た。
Link: https://arxiv.org/abs/2606.03180
AI評価者の差別性は，複雑な臨床的意思決定における採点プロトコルに依存する [cs.CC, math.CO, math.OC, cs.CL, cs.CL, cs.AI]目的：臨床AI評価におけるAI評価者の採点行動の定量的な特徴付け
- 臨床AI評価は重要性が増しており，その精度向上は医療の質に直結する。
- AI評価者の採点行動は評価条件によって異なり，そのばらつきが定量的に把握されていない。
- ルーブリックの有無がAI評価者の識別力に与える影響を明らかにすること。
- ルーブリックに基づいた採点プロトコル（GR）は，ルーブリックを用いない採点プロトコル（Non-GR）と比較して，AI評価者の識別力を高めることが示された。
- Non-GRでは，AI評価者の採点が一様に高くなり，評価範囲も狭くなる傾向が確認された。
- GRを用いることで，AI評価者はCDSS出力の差をより明確に識別し，評価者モデル間の行動のばらつきも顕在化した。
Link: https://arxiv.org/abs/2606.03198
ユニットセルフローマッチングによる高速有機結晶構造予測 [cs.LG, physics.chem-ph]目的：有機結晶構造予測の効率化
- 有機固体材料の計算モデリングには結晶構造が不可欠であり，材料設計の鍵となる。
- 従来の結晶構造予測は計算コストが高く，実用的なスクリーニングが困難であった。
- Clariにより，計算コストを大幅に削減し，大規模なスクリーニングを可能にすることを目指す。
- Clariは，ユニットセルを直接生成するフローマッチングモデルであり，従来のモデルよりも高速に結晶構造を予測できる。
- OXtalのテストセットにおいて，Clariは解決率を向上させつつ，15〜30倍の速度向上を達成した。
- Clariは明示的な水素原子をモデル化するため，エネルギーランキングによる高速な構造最適化が可能である。
Link: https://arxiv.org/abs/2606.03199
クロスドメイン動画を用いたビデオ予測モデルによる強化学習 [cs.CV, cs.AI]目的：クロスドメイン動画からの強化学習
- 視覚的に異なるドメイン間での学習は，ロボットの汎化性能向上に不可欠である。
- 報酬信号の欠如やドメインギャップが，クロスドメイン強化学習の大きな課題となる。
- ドメインギャップを克服し，実世界への適用を可能とする強化学習手法を開発する。
- 提案手法XIPERは，異なるドメインの専門家動画を活用し，報酬モデルを学習する。
- XIPERは，ビデオ予測モデルを用いて報酬信号を生成し，ドメインギャップに頑健な学習を実現する。
- シミュレーションから実世界への転移実験において，有意義な報酬信号が得られることが示された。
Link: https://arxiv.org/abs/2606.03201
MedCUA-Bench：臨床コンピュータ利用エージェントのためのスクリーンショットのみによるベンチマーク [cs.AI]目的：臨床コンピュータ利用エージェントの性能評価
- 医療現場の業務効率化が求められ，自動化技術への期待が高まっている。
- 既存のベンチマークは汎用性が高く，医療ソフトウェア特有のUIや安全性への評価が不十分である。
- 医療ソフトウェアにおけるエージェントの信頼性と安全性を検証可能な環境を提供すること。
- MedCUA-Benchは，10の医療分野における18の臨床シナリオを網羅したベンチマークである。
- 最良のクローズドソースモデルは厳密な成功率54.2%であったが，OpenEMRにおいては全てのモデルが9%を下回った。
- オープンソースエージェントの平均成功率は2.5%であり，最高でも16.2%に留まり，改善の余地が大きいことが示された。
Link: https://arxiv.org/abs/2606.03203
DECA：非IIDデータにおけるLLMの効率的なフルパラメータファインチューニングのためのブロック単位Adamの分散化 [cs.RO, eess.SP, cs.LG]目的：プライバシー保護とリソース制約のある環境下でのLLMファインチューニング
- 大規模言語モデルの活用は広がる一方，学習には膨大な計算資源が必要不可欠である。
- 分散環境でのフルパラメータファインチューニングは，リソース消費の大きさから困難である。
- 非IIDデータにおけるクライアントドリフトと不安定な収束という課題の解決を目指す。
- DECAは，モデルパラメータを非連結なブロックに分割し，ブロック単位で逐次的にAdam最適化を行うことで，リソース消費を削減する。
- DECAは，勾配統計量と合意に基づいた不一致信号を用いて，学習の安定化を図る。
- 理論的解析と実験により，DECAが高速な収束，高い性能，そして顕著なリソース効率を達成することが示された。
Link: https://arxiv.org/abs/2606.03209
FWD逆解析におけるPINNの批判的評価と代替案としての微分可能有限要素法 [cs.CE, cs.LG, cs.NA, math.NA]目的：多層舗装システムの逆解析手法の評価
- 舗装構造の健全性評価は，道路インフラの維持管理において重要な課題である。
- 従来の逆解析手法は，計算コストが高く，局所最適解に陥りやすいという問題がある。
- 物理情報ニューラルネットワーク(PINN)や微分可能有限要素法(DiffFEM)を適用し，効率的かつ高精度な逆解析を実現する。
- 標準的なPINNは，舗装システムの持つ不連続な領域構造により層間モジュラスの算出に失敗する。
- 拡張PINN(XPINN)は改善が見られるものの，損失関数の重み付けやネットワーク構成に依存し，測定ノイズに弱い。
- DiffFEMは，PINNと比較して，より正確で安定した，計算効率の良い逆解析結果を得る。
Link: https://arxiv.org/abs/2606.03210
拡散モデル事前分布を用いたベイジアンテンソル分解 [cs.LG]目的：テンソル分解における事前分布の導入
- テンソル分解は高次元データの解析に有用である。データ圧縮や特徴抽出に活用される。
- 欠損値やノイズが多いデータでは，従来のテンソル分解の性能が低下する。
- 拡散モデルを用いて，データ駆動型の事前分布を導入し，頑健性を向上させる。
- 提案手法DiffBCPは，CP分解と拡散モデルを組み合わせた新しいフレームワークである。
- CP分解の因子に対して自動的なランク選択を行う累積縮小事前分布を用いる。
- 画像補完やノイズ除去の実験で，既存手法よりも優れた性能が確認された。
Link: https://arxiv.org/abs/2606.03212
皮膚病変分類における人口統計学的バイアスの影響 [cs.AI, cs.CV, cs.CY, cs.LG]目的：皮膚病変分類の性能評価
- 皮膚がんの早期発見は重要であり，画像診断の精度向上が不可欠である。
- 学習データに含まれる人口統計学的バイアスが，診断精度の不均衡を引き起こす可能性がある。
- バイアスの影響を定量的に評価し，軽減策を検討することを目的とする。
- 性別に基づく分析では，性別固有のデータセットでモデル性能が最適化されることが示された。
- 男性患者の学習データ追加は，女性患者が多い場合でも男性グループの性能向上に貢献した。
- 年齢に基づく分析では，若年層ほど高い性能が維持される傾向が確認された。
Link: https://arxiv.org/abs/2606.03214
アフリカ言語におけるNLI評価のためのサンプルサイズのスケーリング [cs.CL, cs.LG]目的：アフリカ言語における自然言語推論（NLI）評価のためのサンプルサイズの影響
- アフリカ言語はデータが不足しており，機械学習モデルの性能向上には十分なデータが必要である。
- アノテーションデータの量が増加しても，必ずしも下流タスクの性能が向上するとは限らないという問題がある。
- アフリカ言語NLIにおけるデータ量の効果を検証し，より効果的なデータセット構築とモデル開発を目指す。
- サンプルサイズを50から500例まで変化させ，多言語Transformerモデルの性能を評価した結果，単調増加するとは限らない。
- 言語によって性能飽和や低下が見られ，低リソース環境では分散が大きいことが示された。
- データ量だけでなく，言語特有のデータセット構築と多言語モデリング戦略の重要性が示唆された。
Link: https://arxiv.org/abs/2606.03219
WebRISE：要件誘導状態評価によるMLLM生成ウェブ成果物の評価 [cs.CL, cs.AI]目的：MLLM生成ウェブ成果物の要件に基づく状態と遷移の評価
- ウェブ技術の発展に伴い，MLLMによるウェブ成果物の自動生成が重要になっている。
- 既存の評価指標は局所的な証拠に依存し，ウェブページが正常に機能するかどうかを判断する要件に基づいた状態遷移を捉えられていない。
- 要件から導出される状態と遷移を評価することで，より正確なウェブ成果物の品質評価を目指す。
- WebRISEは，タスク要件を観察可能な状態，ユーザーの意図遷移，DOM/視覚的アサーションの相互作用契約グラフ（ICG）に変換する。
- 14種類のMLLMにおいて，最も性能の良いモデルでも遷移の有効性は65.6%，要件の網羅率は66.3%にとどまり，視覚的品質は動作の指標とならないことが示された。
- ビデオ入力が最も強いインタラクション信号を示し（テキストと比較して暗黙の網羅率が+10.6%），ICGに基づくスコアリングは，チェックポイント形式の評価よりも2～16倍高い確率で状態エラーを検出した。
Link: https://arxiv.org/abs/2606.03220
BotDirector：多角的相互作用による対称的現実世界におけるロボットによる物語創造 [cs.IR, cs.RO, cs.AI]目的：ロボットによる物語創造を支援するインタラクティブシステム
- ロボット技術と創造性の融合は，子どもたちの学習意欲を向上させる可能性を秘めている。
- 既存のシステムは技術的に複雑で，子どもたちが直感的に操作することが困難である。
- 日常的な物を使った柔軟なシナリオで，子どもたちがロボットドラマを創造することを可能にする。
- 本システムでは，子どもたちが触覚的な操作と自然言語対話を通じて物語を創造する。
- 創造された物語は，マップとキャラクターに基づいて動作シーケンスに変換され，自律移動するスワームロボットによって実行される。
- これにより，子どもたちは身近な物を使ってロボットドラマを創造する体験が可能となる。
Link: https://arxiv.org/abs/2606.03223
滑らかな微分最適化による時間的因果構造の学習 [cs.LG]目的：多変量時系列における時間的因果構造の学習
- 因果推論は，データから因果関係を明らかにする重要な分野であり，科学的発見や意思決定に不可欠である。
- 多変量時系列データにおける因果関係の発見は困難であり，特に瞬時的な効果の構造は非巡回グラフでなければならない。
- 本研究では，微分可能な最適化を用いて効率的に因果構造を学習し，既存手法の計算コストを削減することを目指す。
- Gumbel-Sinkhorn演算子を用いて変数の微分可能な置換を学習し，Structural Vector Autoregressive (SVAR)モデルの瞬時係数行列を三角化する手法を提案した。
- これにより，非巡回性をパラメータ化に変換し，最適化中に有効に保つことで，勾配ベースの学習による統一的かつ連続的な最適化を可能にした。
- 3つの現実世界のベンチマークにおいて，本手法は12のベースラインと比較して，発見精度と効率の両方で最高の全体的なパフォーマンスを達成し，大規模ベンチマークでは競合手法よりも6倍以上の高速化を実現した。
Link: https://arxiv.org/abs/2606.03227
GFFMERGE: グラフニューラルフォースフィールドの効率的な統合とその応用 [cs.LG, cs.AI]目的：グラフニューラルネットワークにおけるモデル統合のフレームワーク
- 原子レベルのシミュレーションにおいて，高い精度と計算効率が求められている。
- 新しい化学系への適応には，基盤モデルの再学習という高コストな課題が存在する。
- モデル統合により，再学習コストを削減し，専門化されたモデルのモジュール構成を実現する。
- GFFMERGEは，従来の画像や言語処理のモデル統合手法が力場回帰で失敗する問題を克服し，共同学習に近い性能を回復する。
- 分子，固体系，大規模グラフのベンチマークにおいて，GFFMERGEとGNNMERGEは5〜27倍の高速化を達成した。
- 閉形式解法のみでもベースライン手法を上回り，より高速かつデータ効率的な収束のための優れた初期化を提供する。
Link: https://arxiv.org/abs/2606.03232
正しきが力を為す：検証済み隠れ状態の整合化がRL推論を強化する [cs.LG]目的：数学的推論における言語モデルの性能向上
- 大規模言語モデルの数学的推論能力向上は，AI研究において重要な課題である。
- 既存手法では，正しい推論経路の隠れ状態の幾何学的構造が十分に活用されていない。
- 隠れ状態の整合化を通じて，よりロバストな推論能力を獲得することを目指す。
- 提案手法Hidden-Alignは，正しい推論経路の隠れ状態を整合化する補助損失関数である。
- Qwenモデルを用いた実験で，Hidden-Alignはpass@1スコアを平均3.8～6.2%向上させた。
- 損失の種類，アンカー位置，層の深さ等の消去実験により，提案手法の有効性が確認された。
Link: https://arxiv.org/abs/2606.03234
推論に先立つ知覚：効率的かつ信頼性の高い能動型モバイルエージェントのための事前知覚フレームワーク [cs.AI]目的：能動型モバイルエージェントにおける効率性と信頼性の向上
- モバイルエージェントの能力向上は，生活の質向上や業務効率化に不可欠である。
- 既存システムは介入判断と支援方法の決定を同時に行うため，目標のずれや無駄な推論が生じる。
- 介入のタイミングを正確に判断し，必要な時のみ推論を行うことで，効率性と精度を高める。
- 提案手法(PRPF)は，軽量な知覚モジュール(MPP)により，誤介入率を大幅に削減した。
- PRPFは，介入が必要な場合にのみ推論モジュール(PAR)を起動することで，推論効率を向上させた。
- ProactiveMobileベンチマークにおける実験で，PRPFは成功率も向上することを示した。
Link: https://arxiv.org/abs/2606.03236
孤独的超知能が協力的である可能性は低い [cs.AI, cs.CL, cs.CY, cs.LG, cs.MA]目的：AIの共存可能性
- AIの発展は，能力向上から共存への課題へと移行しつつある。
- 従来のAI研究は，世界を外部からのフィードバック源と捉えがちである。
- 自己最適化の限界を超え，相互依存性を考慮したAI設計を目指す。
- 一方的な最適化は，AIの展開環境変化により効果を失う自己破壊的な性質を持つ。
- 協調性を確保するには，他者との相互作用を通じて均衡を選択するAIが必要となる。
- 人間主導権を維持し，制度を設計要素として組み込んだ動的な評価環境が重要である。
Link: https://arxiv.org/abs/2606.03237
RLHFの失敗時：報酬ハッキング，崩壊，評価者ゲーム化のメカニズム分類 [cs.LG, cs.AI]目的：報酬ハッキング，崩壊，評価者ゲーム化といったRLHFの失敗モードの分類
- 大規模言語モデルの性能向上には，人間のフィードバックが不可欠であり，RLHFはその効率的な活用法である。
- RLHFでは，人間の意図を正確に捉えられない場合，報酬モデルの偏りや最適化の失敗が発生しやすい。
- RLHFにおける失敗パターンを特定し，その発生を予測することで，より安定した学習を実現すること。
- RLHFの学習過程において，報酬の向上と外部品質の低下が同時に起こりうる多様な失敗モードが確認された。
- PPOは報酬ハッキングの発生率が高い傾向が見られたが，UP-PPOは同様の状況下で低い発生率を示した。
- 事前モデルを用いて，報酬ハッキングの発生を高い精度(ROC-AUC 0.821)で予測することが可能であり，チェックポイント平均では見逃される局所的な報酬ハッキングも検出された。
Link: https://arxiv.org/abs/2606.03238
現実世界のデータセットに自然実験は含まれているか？因果特徴選択による実証研究 [cs.CL, cs.IR, cs.HC, cs.CC, quant-ph, cs.CL, cs.AI, cs.CV, cs.LG, eess.IV, stat.ML]目的：現実世界のデータセットにおける自然実験の存在と，それを利用したモデル性能向上
- 因果推論は，データから因果関係を明らかにし，より信頼性の高い予測や意思決定を可能にする重要な研究分野である。
- 従来の機械学習は観察データに基づいているため，因果関係を正確に捉えられず，結果として予測性能が制限される場合がある。
- データセット内に自然実験が存在するか検出し，それらを介入データとして扱うことで，モデル性能を改善することを目指す。
- シミュレーション実験の結果，自然実験を含むデータセットと含まないデータセットを区別できることが示された。
- 大規模な現実世界のデータセットを用いた実証実験により，多くのデータセットに自然実験が含まれていることが明らかになった。
- 自然実験を介入データとして扱うことで，モデルの性能向上が確認された。因果推論の応用可能性が示唆される。
Link: https://arxiv.org/abs/2606.03251
AirDreamer: ワールドモデルを用いた汎用ドローンナビゲーション [cs.RO, cs.AI]目的：未知環境におけるドローンナビゲーションの実現
- ドローンは様々な場所で活用が期待されるため，自律的なナビゲーション技術の確立が重要である。
- 従来のナビゲーション手法は特定の環境に依存し，未知の環境への汎用性が低いという課題がある。
- ワールドモデルを活用し，環境理解に基づいてドローンが自律的にナビゲーションを行うことを目指す。
- 本研究では，強化学習とワールドモデルを組み合わせたナビゲーションフレームワークを提案した。
- シミュレーションと実機実験において，複雑で未知の環境でのナビゲーション成功率が向上することが確認された。
- 提案手法は，環境に依存しない汎用的なナビゲーションと，シミュレーションから実機へのスムーズな転移を実現した。
Link: https://arxiv.org/abs/2606.03252
PSViT: スパイキング Vision Transformer の構造的プルーニング手法 [cs.CE, cs.NE, cs.AI, cs.LG]目的：スパイキング Vision Transformer の構造的プルーニング
- 低消費電力な画像処理への応用が期待され，高性能なSViTモデルの研究が進められている。
- モデルサイズが大きいため，リソース制約のある組み込みシステムへの展開が困難である。
- 既存の計算アーキテクチャで効率的な推論を実現するため，構造的プルーニング手法を提案する。
- PSViTは，単一回のプルーニングで22.4%のメモリ削減を達成した。
- ファインチューニングなしで元のSViTモデルの精度から3%以内 (70.3%)，ファインチューニングありで72.8%の精度を維持した。
- リソース制約のあるアプリケーションにおけるSViTの効率的な展開を可能にする。
Link: https://arxiv.org/abs/2606.03257
3D偏微分方程式に対する幾何学に基づいたフーリエニューラル演算子 [cs.CL, cs.LG, cs.AI]目的：3D偏微分方程式の幾何学的変換に対する汎化性能の向上
- 3D PDEsのシミュレーションは科学技術の発展に不可欠であり，高精度な数値解法が求められている。
- 深層学習によるサロゲートモデルは座標系に依存し，幾何学的変換に対する汎化性能が低いという課題がある。
- フーリエニューラル演算子の効率性と等変性を両立させ，複雑な3次元形状における物理法則のモデル化を可能とする。
- EqGINOは，スペクトル領域における等方性を強制することで，幾何学的にロバストなフレームワークを実現している。
- 離散的な対称性に対する正確な等変性を保証するだけでなく，限られた数のSE(3)変換された訓練サンプルでも連続的な方向への効果的な汎化を可能にする。
- 複雑な不規則な3D形状上でも，座標に依存しない物理法則をロバストにモデル化できる。
Link: https://arxiv.org/abs/2606.03260
光あれ：ニューラル演算子のための反射，屈折，散乱 [cs.LG, cs.NA, math.NA]目的：無限次元関数空間間の写像学習
- 偏微分方程式の数値解法は科学技術計算の基盤であり，高精度な近似手法が求められている。
- 従来のニューラル演算子は，物理的解釈性，非局所的な空間伝播，メッシュのスケーラビリティ，計算コストのトレードオフが存在する。
- 光の反射，屈折，散乱に着想を得た新しいアーキテクチャで，これらの課題を克服し，効率的な演算子学習を目指す。
- 提案手法LiNOは，潜在的な特徴空間における適応的な点ごとの変換により，局所的な特徴の再配向と異方性変調を可能にする。
- 散乱メカニズムを効率化することで，計算複雑度を二次から線形に削減し，スケーラビリティを向上させている。
- LiNOは，局所的な特徴変調とグローバルな空間伝播を分離し，モジュール性と解釈可能性を両立した構造を持つ。
Link: https://arxiv.org/abs/2606.03262
LLMからの知識抽出によるニューロシンボリック視覚質問応答のためのAnswer-Setプログラミング規則の蒸留 [cs.RO, cs.HC, cs.RO, cs.AI]目的：視覚質問応答のためのAnswer-Setプログラミング規則の抽出
- 画像と質問に対する推論が求められる視覚質問応答は，マルチモーダルな情報処理の重要な課題である。
- 従来のデータ駆動型アプローチでは，タスク要件の変化に対応するための規則の拡張に多大な労力がかかる。
- LLMを用いて，既存のAnswer-Setプログラムを拡張し，少ない事例で正確な規則を抽出することを試みる。
- LLMにVQAの推論理論を拡張させることで，新たなタスク要件に対応した規則を効果的に抽出できることが示された。
- わずかな事例数で，LLMから適切な規則を引き出すことが可能であり，データ駆動型アプローチへの有望な代替案となる。
- ASPソルバーからのフィードバックを活用することで，誤った規則の修正と結果の検証を行うことができる。
Link: https://arxiv.org/abs/2606.03269
共通部分構造は転移可能か？ニューラルベクトル束を用いたリーマングラフ基盤モデル [cs.LG, cs.AI]目的：グラフにおける転移可能な構造の学習
- グラフ構造は他のデータ形式にない豊かなパターンを含むため，その活用が重要である。
- グラフの構造的転移可能性は十分に理解されておらず，既存研究は離散的な領域に限定されている。
- グラフの内在的幾何学に基づき，転移可能な構造を学習することでこの問題を解決する。
- 本研究では，リーマン幾何学を基盤としたニューラルベクトル束を開発し，内在的幾何学を局所座標で解析するフレームワークを構築した。
- GAUGEという事前学習可能なアーキテクチャを設計し，幾何学的に整合性の取れた局所座標を平坦化，Dirichlet損失を用いて転移の努力を測定した。
- ゼロショットリンク予測やグラフ同型判定といった課題で，その優れた表現力が実証された。
Link: https://arxiv.org/abs/2606.03270
VistaHop: ビジュアル・ディープサーチのためのマルチホップ視覚的推論ベンチマーク [cs.HC, cs.CV, cs.AI, cs.CL]目的：ビジュアル・ディープサーチにおけるマルチホップ視覚的推論の評価
- 画像理解と質問応答の分野において，複雑なクエリへの対応能力が重要視されている。
- 既存のベンチマークは，単一ステップの画像理解に偏っており，反復的な画像検査や多段推論の評価が不十分である。
- マルチホップ視覚的推論を評価するためのベンチマークを開発し，現在のモデルの限界を明らかにする。
- VistaHopは，300枚の高解像度画像，25の視覚的検索シナリオ，350のマルチホップQAタスクを含む新しいベンチマークである。
- 現在の代表的なMLRMはVistaHopを解決するには至っておらず，最良のモデル（SenseNova-MARS-32B）でもPass@1は24.31%に留まる。
- この結果は，視覚的グラウンディング，証拠の再検証，長鎖推論，複数アンカー情報の融合における限界を示唆している。
Link: https://arxiv.org/abs/2606.03273