arXiv雑要約

AI - 2026/03/19 公開

設計による開示：会話型AIモデルにおけるアイデンティティの透明性 [cs.HC, cs.AI]目的：会話型AIモデルにおけるアイデンティティの透明性の維持
- AI技術の高度化に伴い，人間との区別が曖昧になりつつあり，コミュニケーションにおける信頼性が課題となっている。
- AIのアイデンティティが不明確な場合，個人情報の漏洩や誤った信頼，詐欺のリスクが高まる。
- 会話中にAIが自らのアイデンティティを明示することで，これらの問題を解決することを目指す。
- 既存のAIシステムにおけるアイデンティティ開示の実態を，テキストと音声の両面から評価した結果，ロールプレイや敵対的な状況下で開示率が低下することが明らかになった。
- 開示率はプロバイダーや利用するモダリティによって大きく異なり，現在の開示システムの脆弱性を浮き彫りにした。
- 開発者がAIモデルに開示機能を組み込むための技術的な介入策を提案し，恒久的なアイデンティティの透明性を実現する可能性を示唆した。
Link: https://arxiv.org/abs/2603.16874
ビデオ台本による注意誘導：360度VRビデオツアーにおける物体への焦点当て事例研究 [cs.HC, cs.AI]目的：360度VRビデオにおける物体への注意誘導手法
- VR技術は没入感の高い体験を提供し，教育，観光など様々な分野で活用が期待されている。
- 360度VRビデオでは，視点自由度が高い反面，視聴者の注意を特定の要素に誘導しにくいという課題がある。
- ビデオ台本を活用し，Grounding DinoとSegment Anythingモデルを組み合わせることで，効果的な注意誘導を実現する。
- ビデオ台本を用いることで，360度VRビデオツアーにおける視聴者の注意誘導が改善されることが示された。
- 本研究では，リーディング大学のキャンパスツアーを事例として，提案手法の有効性を検証した。
- Grounding DinoとSegment Anythingモデルの組み合わせが，VRビデオにおける物体への焦点当てに有効であることが確認された。
Link: https://arxiv.org/abs/2603.16875
放射線科レポート生成のためのマルチモーダルマルチエージェント強化学習：臨床的に検証可能な報酬を用いた放射線科医ライクなワークフロー [cs.CV, cs.AI, cs.LG]目的：放射線科レポート生成におけるマルチモーダルマルチエージェント強化学習フレームワーク
- 医療画像診断の精度向上は，患者ケアの質を向上させる上で不可欠である。
- 既存のレポート生成手法では，臨床的な正確性や詳細な情報の記述が不足している場合がある。
- 臨床的に検証可能な報酬を用いて，より正確で詳細なレポートを生成することを目指す。
- 提案手法MARL-Radは，MIMIC-CXRおよびIU X-rayデータセットにおいて，RadGraph，CheXbert，GREENなどの臨床的有効性指標において最先端の性能を達成した。
- MARL-Radは，左右一致性の向上と，より正確で詳細な情報を含むレポートの生成に貢献することが示された。
- 複数のエージェントを同時に訓練し，強化学習を通じてシステム全体を最適化する点が特徴である。
Link: https://arxiv.org/abs/2603.16876
皮膚電気活動データのための基盤モデル [cs.CL, cs.LG, cs.AI, eess.SP]目的：皮膚電気活動データの基盤モデルの構築
- 皮膚電気活動は交感神経活動を反映し，認知負荷やストレスの評価に広く利用されている。
- 大規模で整備された公開データセットが不足しており，皮膚電気活動のモデリングの進展が阻害されている。
- 公開データセットを活用し，皮膚電気活動に特化した基盤モデルを開発することで，この課題を解決する。
- EDAMAMEという，24の公開データセットから構成される634人分の皮膚電気活動データセットを構築した。
- 構築したデータセットを用いて，皮膚電気活動に特化した基盤モデルUMEを学習した。
- UMEは，多くのシナリオで既存モデルを上回り，汎用的な時系列基盤モデルと同等の性能を示しつつ，計算資源を20分の1に削減した。
Link: https://arxiv.org/abs/2603.16878
PowerModelsGAT-AI：継続学習を用いたマルチシステム電力潮流計算のための物理情報に基づいたグラフ注意ネットワーク [eess.SY, cs.AI, cs.LG, cs.SY]目的：電力系統の電圧と発電量注入量の予測
- 電力系統の安定運用にはリアルタイムでの潮流計算が不可欠であり，その重要性は高い。
- 従来のニュートン・ラプソン法は，負荷が高い状況下で計算速度が低下する課題がある。
- 異なる電力系統への適応性が課題であり，本研究はその解決を目指す。
- 提案手法は14のベンチマークシステムで検証され，電圧大きさの平均正規化平均絶対誤差は0.89%を達成した。
- 電圧位相角についてはR^2値が0.99を超え，高い予測精度を示した。
- 継続学習により，新たなシステムへの適応時に既存システムへの影響を2%以内に抑え，性能向上も確認された。
Link: https://arxiv.org/abs/2603.16879
ワイヤレスネットワークにおける高度分散センシングのための連合マルチエージェント深層学習とニューラルネットワーク [cs.LG]目的：分散センシングとワイヤレス通信のためのマルチエージェント深層学習(MADL)に関する最新の研究動向の整理
- 5G-Advanced/6Gではセンシング，通信，コンピューティングの融合が重要視され，分散型システムの最適化が求められている。
- 分散環境における部分観測，時間変動，リソース制約といった課題が存在し，効果的な制御が困難である。
- MADLを活用することで，これらの課題を克服し，次世代ワイヤレスネットワークの性能向上を目指す。
- 本調査では，2021年から2025年までの研究を中心に，MADLの学習形式，ニューラルアーキテクチャ，高度な技術，応用分野を体系的にまとめた。
- アルゴリズム，トレーニングトポロジ，システムレベルのトレードオフ（遅延，スペクトル効率，エネルギー，プライバシー，ロバスト性）を比較検討した。
- スケーラビリティ，非定常性，セキュリティ，通信オーバーヘッド，リアルタイム安全性などの未解決課題を提示し，今後の研究方向性を示した。
Link: https://arxiv.org/abs/2603.16881
トークン化とデータ拡張：IMUベースのオンライン手書き文字認識における筆者変動に関する体系的研究 [eess.SY, cs.RO, cs.SY, math.DG, cs.CV, cs.CL, cs.LG, eess.SP]目的：IMUベースオンライン手書き文字認識における筆者変動への対処戦略の検討
- 多様な書字環境での入力に対応可能だが，文字分布の偏りや筆者間変動が課題である。
- 筆者間の書字スタイルの違いにより，未知の筆者に対する認識精度が低下する。
- 筆者間変動と筆者内変動に応じた最適な対処法を明らかにすること。
- 筆者独立データセットでは，Bigramトークン化が未知の筆者スタイルに対する性能を向上させ，WERを減少させた。
- 筆者依存データセットでは，トークン化は語彙分布の変化により性能を低下させた。
- 提案手法である連結ベースのデータ拡張は，強力な正則化効果を示し，CERとWERを大幅に減少させた。
Link: https://arxiv.org/abs/2603.16883
動的な価格設定のためのマルチエージェント強化学習：収益性，安定性，公平性のバランス [cs.LG, cs.AI]目的：競争的小売市場における動的な価格最適化
- 小売市場では需要変動や競合他社の行動に対応した価格戦略が重要である。
- 従来の価格設定手法では，競合環境下での最適化が難しく，安定性や公平性に課題がある。
- マルチエージェント強化学習を用いて，収益性，安定性，公平性を両立する価格設定手法を確立すること。
- MAPPOは平均収益が最も高く，分散が低いことから，競争的な価格最適化において安定性と再現性のある手法であることが示された。
- MADDPGはMAPPOに比べて収益はわずかに低いものの，エージェント間の収益分配において最も公平であることがわかった。
- これらの結果は，特にMAPPOのようなマルチエージェント強化学習が，動的な小売価格設定における独立学習アプローチの代替手段として有望であることを示唆する。
Link: https://arxiv.org/abs/2603.16888
ルーブリックに基づくSpeechLLMのファインチューニング：多角的，多評価者L2読解・スピーチ評価 [cs.CL, cs.AI, cs.SD, eess.AS]目的：第二言語(L2)スピーチの多角的評価基準との整合性
- 言語教育において，客観的で信頼性の高いスピーチ評価は重要である。学習者の進捗を測る上で不可欠な要素である。
- 大規模言語モデルは，人間の評価者間の微妙な違いを捉えきれず，評価のばらつきに対応できない場合がある。
- ルーブリックと不確実性に基づき，人間の評価との整合性を高め，信頼性と説明可能性のある評価システムを構築する。
- ルーブリックによる誘導と不確実性較正により，人間の評価との高い整合性が確認された。
- 特に，流暢さとプロソディの評価において高い信頼性を示した。
- 正確性の評価は困難であったが，モデルの不確実性モデリングとコンフォーマル較正が有効であることが示された。
Link: https://arxiv.org/abs/2603.16889
アラビア語における言語から行動への変換：データ中心のファインチューニングによる信頼性の高い構造化ツール呼び出し [cs.LG, cs.AI]目的：アラビア語における構造化ツール呼び出しの信頼性向上
- AIエージェントの発展には，自然言語を構造化された実行可能な行動に変換する能力が不可欠である。
- 既存のモデルは，アラビア語に適用した場合，構造的な不安定性という深刻な問題を抱えている。
- アラビア語における構造化ツール呼び出しの信頼性を向上させ，実用的なシステム構築に貢献すること。
- ファインチューニングにより，構文解析の失敗率を87%から1%以下に大幅に低減することに成功した。
- 関数名の精度を8倍以上に向上させ，方言やドメインにわたって引数の整合性を大幅に改善した。
- エラー分析の結果，構造的な崩壊から意味的な不整合への移行が明らかになり，シリアライゼーションの安定性と意思決定レベルの推論が分離された課題であることが示唆された。
Link: https://arxiv.org/abs/2603.16901
TerraLingua：LLM生態系における創発性と開放性の分析 [cs.DC, physics.hist-ph, cs.MA, cs.AI, physics.soc-ph]目的：LLM生態系における創発性と開放性の分析
- 自律エージェントが現実世界で活動する中で，その協調や文化の蓄積を理解することは重要である。
- 既存研究では，静的または結果の伴わない環境でのシミュレーションが多かった。
- 資源制約下でのエージェント間の相互作用と文化の蓄積メカニズムを明らかにすること。
- TerraLingua環境下で，協力規範や分業，統治の試み，さらには累積文化プロセスに合致する遺物系統が創発した。
- 実験条件の違いは，特定のイノベーションや組織構造に起因することが示された。
- 本研究は，人工集団における累積文化と社会組織のメカニズムを特徴付けるためのプラットフォームを提供する。
Link: https://arxiv.org/abs/2603.16910
地球上のAlphaEarthとは何か？グローバル土地被覆のための階層的構造と機能的解釈可能性 [cs.LG, cs.AI]目的：グローバル土地被覆の階層的構造と機能的解釈可能性の解明
- 地理空間モデルは予測性能が高いが，その内部構造は不明瞭であり，科学的利用に限界がある。
- AlphaEarthの埋め込み表現が環境変数と関連付けられているものの，機能的・階層的な構造は不明である。
- 埋め込み次元の役割を解明し，次元選択の指針を示すことで，計算コスト削減を目指す。
- 埋め込み次元は一貫した機能的挙動を示し，専門次元，低・中汎用次元，高汎用次元へと分類できる。
- 土地被覆分類において，64次元中わずか2～12次元を使用するだけで，ベースライン性能の98%を達成できる。
- AlphaEarth埋め込みは物理的に情報量が多く，機能的に階層構造化されていることが明らかになった。
Link: https://arxiv.org/abs/2603.16911
音声ディープフェイク検出のための量子化認識階層型ニューラルコーデックモデリング [cs.SD, cs.AI, cs.CL, eess.AS]目的：音声ディープフェイク検出のための表現学習フレームワーク
- 音声処理における安全性確保は重要であり，特にディープフェイク技術の悪用防止が求められている。
- 既存のディープフェイク検出システムは，コーデックの離散構造や量子化レベルの階層性を十分に活用できていない。
- 量子化レベルの貢献度を学習可能な重み付けでモデル化し，フォレンジックな手がかりに整合した構造化コーデック表現を構築する。
- 提案手法は，ASVspoof 2019において46.2%の相対的なEER削減率を達成した。
- ASVspoof5においても，13.9%の相対的なEER削減率を強力なベースラインと比較して実現した。
- バックボーンの音声エンコーダは固定し，わずか4.4%の追加パラメータを更新するだけで，これらの結果が得られた。
Link: https://arxiv.org/abs/2603.16914
HoloByte：トークナイザーフリーモデリングのための連続ハイパースフェリカル蒸留 [cs.LG]目的：トークナイザーを使用しない系列モデリングのための新しいフレームワーク
- 系列モデリングは自然言語処理の基礎であり，その効率性と精度が重要視されている。
- 従来のトークナイザーは，計算コストや表現力の制約といった課題を抱えている。
- 本研究は，トークナイザーフリーで効率的な系列モデリングを実現することを目標とする。
- HoloByteは，連続ハイパースフェリカル蒸留を利用し，トークナイザーを完全に排除したフレームワークである。
- HoloByteは，注意機構の計算量を削減し，パラメータ数に対して高い性能を示すことが実証された。
- 数学的に厳密な基盤に基づき，語彙に依存しない系列モデリングの可能性を提示している。
Link: https://arxiv.org/abs/2603.16917
生成AIを用いた性および生殖保健情報の検索における米国の女性のプライバシーと安全性に関する経験と懸念 [cs.HC, cs.AI]目的：生成AI利用者のプライバシーと安全性に関する経験と懸念の特定
- 性および生殖保健情報は個人の健康に不可欠であり，適切な情報へのアクセスは重要である。
- 生成AIの利用拡大に伴い，ユーザーのプライバシー保護と安全性確保が課題となっている。
- 生成AI利用におけるプライバシーリスクを明らかにし，安全性向上のための提言を行う。
- 参加者は，生成AIの有用性，使いやすさ，信頼性，アクセシビリティ，擬人化といった要素に影響を受け，個人情報を共有していた。
- 参加者は，過剰なデータ収集，政府による監視，プロファイリング，モデル学習，データの商品化など，複数のプライバシーリスクを認識していた。
- 中絶関連の質問では安全性の懸念が高まり，参加者の多くは情報の有用性と引き換えにリスクを受け入れていることが示された。
Link: https://arxiv.org/abs/2603.16918
アンサンブル分離とターゲット再構成による音楽ソース復元 [cs.HC, cs.SD, cs.AI, eess.AS]目的：音楽ソース復元における性能向上
- 音楽制作の多様化により，未処理のオリジナル音源の重要性が高まっている。
- 既存の音源分離技術では，マスタリング等の加工を考慮できていない。
- 複雑な制作過程を経て劣化された音源からの復元を目指す。
- 提案手法は，複数の音源分離モデルと復元モデルを組み合わせる二段階システムである。
- 公式ベンチマークにおいて，基盤手法を上回り，全評価指標で高い性能を示した。
- 提出されたシステム全体で2位の成績を収めた。
Link: https://arxiv.org/abs/2603.16926
監視者の存在に気付く：LLMエージェントはブロッキングフィードバックからCoT監視を推測できる [cs.CR, cs.LG]目的：LLMエージェントにおけるCoT監視の推測と，それに対する戦略的回避の可能性
- LLMエージェントの思考過程の可視化と制御は，安全性と信頼性の確保に不可欠である。
- CoT監視システムは，エージェントによる欺瞞工作によって回避される可能性がある。
- エージェントが監視されていることに自覚的に気付き，その影響を評価すること。
- 最先端のモデルは，ブロッキングフィードバックのみからCoT監視の存在を推測することが可能である。
- 推測の精度はモデルの能力に依存し，一部のモデルでは思考が監視されていると確信する割合が最大19%に達した。
- 監視への自覚は回避意図を引き起こす可能性があるが，意図と実行には乖離が見られた。
Link: https://arxiv.org/abs/2603.16928
MHPO：安定した強化学習のための変調ハザード認識型方策最適化 [cs.LG, cs.AI, cs.CL]目的：強化学習における安定性と頑健性の向上
- 強化学習は，複雑な課題を自動的に解決する可能性を秘めており，様々な分野での応用が期待されている。
- 既存の方策最適化手法では，重要度比の制御が不安定さを招き，勾配消失や非微分可能な領域が生じやすい。
- 極端な方策の変化を抑制し，学習過程における信頼性を高めることを目指す。
- 提案手法MHPOは，重要度比を微分可能な範囲にマッピングするLog-Fidelity Modulator（LFM）を導入し，損失関数の不安定化を防ぐ。
- さらに，累積ハザード関数を用いたDecoupled Hazard Penalty（DHP）により，正と負の方策の変化を独立して制御する。
- 多様なベンチマークテストの結果，MHPOは既存手法を上回り，高い性能と学習の安定性を両立することを示した。
Link: https://arxiv.org/abs/2603.16929
転移学習と広範学習システムを融合した顔の美しさ予測 [cs.CV, cs.AI]目的：顔の美しさ予測モデルの精度向上
- 顔の美しさ予測は，画像認識と機械学習において重要な課題である。
- 大規模で効果的なデータが不足しやすく，過学習を起こしやすい。
- 顔の表情の多様性と人間の知覚の複雑さに対応するモデル構築を迅速化する。
- 本研究では，転移学習と広範学習システムを融合したE-BLSおよびER-BLSを提案した。
- EfficientNetsを用いたCNNsによる特徴抽出と，広範学習システムを組み合わせることで，高い予測精度を達成した。
- 既存のBLSやCNNsと比較して，顔の美しさ予測の精度が向上し，提案手法の有効性と優位性が示された。
Link: https://arxiv.org/abs/2603.16930
スクリプトからスライドへのグラウンディング：自動教育ビデオ生成のためのスクリプト文とスライドオブジェクトの対応付け [cs.CV, cs.AI]目的：スクリプト文とスライドオブジェクトの対応付け
- 教育や研究発表においてスライドを活用した動画が普及している。
- 動画編集，特に音声コンテンツとスライドオブジェクトの対応付けに手間がかかる。
- スライドとスクリプトから教育動画を自動生成するための基盤技術を確立する。
- 本研究では，スクリプト文とスライドオブジェクトの対応付けタスクを「スクリプトからスライドへのグラウンディング」として定式化した。
- 大規模言語モデルを活用した「Text-S2SG」という手法を提案し，高い性能（F1スコア：0.924）を達成した。
- これまで暗黙的だったスライド動画編集プロセスを計算可能なタスクとして明確化し，自動化への道を開いた。
Link: https://arxiv.org/abs/2603.16931
重要な箇所に注目：効率的なVLMのための高解像度クロップ検索 [cs.CV, cs.AI]目的：高解像度クロップ検索によるVLMの効率化
- VLMは画像認識と自然言語処理の融合であり，多様な応用を可能とする重要な分野である。
- 高解像度画像処理は計算コストが高く，低解像度画像では重要な情報が失われる可能性がある。
- 必要な領域のみを高解像度で処理することで，計算効率と精度を両立することを目指す。
- 提案手法AwaResは，低解像度画像全体と高解像度クロップを組み合わせ，必要な箇所のみを高解像度で処理する。
- 自動生成された教師データを用いて，クロップが必要かどうかを判断し，正解の根拠となる領域を特定する。
- SFTとGRPOを用いた訓練により，意味的正確性とクロップコストを考慮した最適なクロップ戦略を獲得する。
Link: https://arxiv.org/abs/2603.16932
AgriChat：農業画像理解のためのマルチモーダル大規模言語モデル [cs.CV, cs.AI]目的：農業画像の理解に関する大規模言語モデルの性能向上
- 農業分野における生産性向上や効率化にAIの活用が期待されている。
- 農業分野に特化した大規模データセットが不足しており，AIモデルの精度向上の妨げとなっている。
- 信頼性の高いデータを用いてAIモデルを訓練し，農業分野での課題解決を目指す。
- 新たなパイプラインV2VKにより，植物病理学文献に基づいた大規模な農業データセットAgriMMを構築した。
- AgriMMを活用し，農業に特化したマルチモーダル大規模言語モデルAgriChatを開発し，多様なタスクで優れた性能を示した。
- 視覚情報の保持とWebで検証された知識の組み合わせが，信頼性の高い農業AIの実現に繋がることを示した。
Link: https://arxiv.org/abs/2603.16934
GenLie：疎性と意味的干渉下におけるグローバル強化された嘘検出ネットワーク [cs.CV, cs.AI]目的：ビデオベースの嘘検出における欺瞞行動の識別
- 人間のコミュニケーションにおいて，信頼性の高い嘘の検出は重要な課題である。
- 欺瞞信号は微細かつ短時間であり，冗長な情報や個人差によるノイズに埋没しやすい。
- 疎な表現を学習し，欺瞞信号をノイズから分離すること。
- GenLieは，局所特徴モデリングとグローバルな監督学習を組み合わせることで，ロバストな表現を獲得する。
- 実験の結果，GenLieは3つの公開データセットにおいて，最先端の手法を上回る性能を示した。
- 特に，高い状況と低い状況の両方において，一貫して優れた性能が確認された。
Link: https://arxiv.org/abs/2603.16935
TDMM-LM：言語モデルによる顔の理解とアニメーションの架け橋 [cs.CV, cs.AI]目的：顔の理解とアニメーション間の連携
- 近年，テキストによる人体アニメーション技術が進歩しているが，顔のアニメーションはデータ不足が課題。
- 高品質な顔の動きとテキストのペアデータが不足しており，顔アニメーションの発展を阻害している。
- 言語モデルを活用し，顔の動きの理解と生成を可能にすることで，この問題を解決する。
- 大規模な顔の動きとテキストのペアデータセットを構築し，言語モデルの顔の動きに関する双方向性を検証した。
- 言語モデルが顔の動きを解釈し，テキストから顔の動きを合成できることを実験的に示した。
- 顔パラメータモデリングを言語問題として捉え，テキスト条件付きの顔アニメーションと動き理解への道を開いた。
Link: https://arxiv.org/abs/2603.16936
説明可能な機械学習と混合整数計画法を統合した個別化睡眠品質介入 [cs.LG, stat.AP, stat.ME]目的：個別化睡眠品質介入のための予測と処方
- 睡眠は健康維持に不可欠であり，その質的改善は公衆衛生上重要である。
- 既存研究は予測に偏重し，具体的な介入策の設計が課題となっていた。
- 予測と説明，最適化を統合し，データ駆動型個別介入を可能にすること。
- 提案手法は高い予測性能を示し，テストF1スコアは0.9544，正答率は0.9366であった。
- 感度分析とパレート分析により，改善期待値と介入強度間のトレードオフが明らかになった。
- モデルは簡潔な推奨を生成し，多くの場合，高影響な行動変容を少数提案した。
Link: https://arxiv.org/abs/2603.16937
自律型AIシステムのための暗号的ランタイムガバナンス：検証可能なポリシー施行のためのAegisアーキテクチャ [cs.CR, cs.AI, cs.CY]目的：自律型AIシステムにおける検証可能なポリシー施行の実現
- AIの自律性が高まる中で，倫理的・法的制約を確実に遵守することが重要である。
- 従来のAIガバナンスは事後的な監視に依存し，自律性・速度・不透明性の高いシステムには脆弱である。
- ポリシー違反行動を実行不可能にするランタイムガバナンスフレームワークを提案し，検証する。
- Aegisアーキテクチャは，改ざん条件下で238msの中央値の証明検証遅延時間を実現した。
- Aegisアーキテクチャは，約9.4msの中央値の公開オーバーヘッドを示した。
- Aegisアーキテクチャは，ベースラインと比較して，タスクの一致においてより高いアライメント保持性能を発揮した。
Link: https://arxiv.org/abs/2603.16938
KGS-GCN：運動認識のための運動学駆動ガウススプラッティングと確率的トポロジーによる疎な骨格センシングの強化 [cs.CV, cs.AI]目的：疎な骨格データにおける運動認識の性能向上
- 人間とコンピュータのインタラクションやインテリジェント監視など，様々なセンサシステムで活用されており，重要性が高い。
- 既存のセンサは疎な骨格データしか生成できず，動的な動きにおける詳細な時空間情報を失いがちである。
- センサデータの疎性とトポロジーの硬直性を克服し，よりロバストな運動認識を実現することを目指す。
- KGS-GCNは，運動学駆動ガウススプラッティングと確率的トポロジーを統合することで，複雑な時空間ダイナミクスのモデリングを大幅に強化する。
- 疎な関節を連続的な生成表現に変換することで，センサデータの疎性と物理的なトポロジーの制約という課題を克服する。
- 提案手法は，低品質のセンサデータ処理における知覚的信頼性の向上への実用的な道筋を示す。
Link: https://arxiv.org/abs/2603.16943
Omni IIE Bench：画像編集モデルの実用的な能力のベンチマーク [cs.CV, cs.AI]目的：画像編集モデルの編集一貫性評価
- 画像編集技術は，創造的なタスクやコンテンツ生成において重要な役割を担う。
- 既存のベンチマークは多様なタスクを評価するが，編集の一貫性という実用的な側面が欠けている。
- 異なる意味スケールにおける編集一貫性の問題を特定し，より信頼性の高いモデル開発を支援する。
- Omni IIE Benchは，属性変更とエンティティ置換のタスクペアによるシングルターン一貫性と，連続的な対話タスクによるマルチターン協調という二つの評価トラックを備えている。
- 評価の結果，ほとんどのモデルが低意味スケールから高意味スケールへの移行で性能が低下することが明らかになった。
- 本ベンチマークは，次世代の画像編集モデルの開発に向けた重要な診断ツールと洞察を提供する。
Link: https://arxiv.org/abs/2603.16944
高性能3D点群データ処理のための記憶と読み込みの同時最適化 [cs.CV, cs.AI]目的：3D点群データの記憶と処理パイプラインの最適化
- 自動運転やロボット認識など，3Dビジョンの重要性が増しており，点群データ処理の高速化が求められている。
- 従来のアルゴリズムでは，大規模な点群データの読み込みと処理に時間がかかり，効率的なデータハンドリングが課題である。
- 点群データの記憶形式の多様性がボトルネックとなっており，本研究では統一的な記憶形式による効率化を目指す。
- 提案する.PcRecord形式により，記憶容量の削減と点群データ処理の高速化を実現した。
- GPU環境ではModelNet40で平均6.61倍，S3DISで2.69倍，ShapeNetで2.23倍の性能向上を達成した。
- Ascend環境ではSUN RGB-Dで25.4倍，ScanNetで19.3倍と，特に大幅な性能向上を示した。
Link: https://arxiv.org/abs/2603.16945
EmergeNav：連続環境におけるゼロショット視覚言語ナビゲーションのための構造化された埋め込み推論 [cs.CV, cs.AI]目的：連続環境におけるゼロショット視覚言語ナビゲーションの実現
- ロボット工学において，環境を理解し，指示に従って行動するナビゲーション技術は重要である。
- 既存の視覚言語モデルは，長期間にわたる安定した行動を導き出すための実行構造が不足している。
- 視覚言語モデルの知識を安定したナビゲーション行動に変換するための実行構造の明示的な提供。
- EmergeNavは，プラン，実行，遷移の階層構造を用いることで，段階的な実行を可能にする。
- GIPEを用いて目標に基づいた知覚的抽出を行い，コントラスト双方向メモリ推論により進捗状況を把握する。
- Qwen3-VL-8Bで30.00 SR，Qwen3-VL-32Bで37.00 SRという強力なゼロショット性能を達成した。
Link: https://arxiv.org/abs/2603.16947
モバイルエッジコンピューティングにおけるエントロピーを考慮したタスクオフローディング [cs.NI, cs.LG, cs.SY, eess.SY]目的：モバイルエッジコンピューティング環境下におけるタスクオフローディング方式
- モバイルデバイスの処理能力限界とリアルタイム性の要求から，エッジコンピューティングの重要性が高まっている。
- 既存研究はオフローディング効率に偏り，ユーザーのプライバシー保護は十分ではない。
- ワイヤレス通信に伴う利用パターンや位置情報の漏洩によるプライバシー問題を解決する。
- 提案手法は，タスクオフローディングのマルコフ決定過程(MDP)にプライバシーに関する考慮事項を導入している。
- 深層強化学習であるDRQNを用いて，プライバシーを考慮したMDPを解くことに成功した。
- 数値シミュレーションの結果，提案手法の有効性が確認された。
Link: https://arxiv.org/abs/2603.16949
最小作用学習：ノイズデータからの物理法則特定のためのエネルギー制約型記号モデル選択 [cs.LG]目的：ノイズを含む観測データからの物理法則の特定
- 科学機械学習において，観測データから物理法則を導出することは重要な課題である。
- ノイズデータからの物理法則の特定は難しく，精度が低い場合がある。
- エネルギー制約を導入することで，より正確な物理法則の特定を目指す。
- 最小作用学習（MAL）は，軌跡再構成，モデルの疎性，エネルギー保存の強制を組み合わせたTriple-Action汎関数の最小化により，記号的な力法則を選択する。
- MALは，Keplerの重力法則とHookeの法則のベンチマークにおいて，正しい力法則を高い精度で復元し，予測誤差のみのベースラインと比較してエネルギー消費量を40%削減した。
- エネルギー保存に基づく基準を用いることで，真の力法則を識別し，100%のパイプラインレベルでの識別に成功した。
Link: https://arxiv.org/abs/2603.16951
エッジにおける具現化された基盤モデル：展開制約と緩和戦略の調査 [cs.RO, cs.AI]目的：具現化されたエッジシステムにおける基盤モデル展開の制約と緩和戦略
- ロボットなどのエッジデバイスでのAI活用が重要視されているため。
- 基盤モデルは巨大で，エッジデバイスの制約下での実行が困難である。
- エッジ環境における基盤モデルの信頼性ある展開を可能にする。
- 展開の障壁は，メモリ帯域幅，計算遅延，実行コストなど，システム全体に及ぶ。
- 自己回帰型ビジョン・言語・行動ポリシーはメモリ帯域幅に，拡散ベースのコントローラは計算遅延に制約される。
- メモリ，スケジューリング，通信，モデルアーキテクチャのシステムレベルでの共同設計が重要である。
Link: https://arxiv.org/abs/2603.16952
PhysQuantAgent：ビジョン言語モデルにおける質量推定のための推論パイプライン [cs.DM, math.CO, cs.CV, cs.AI]目的：ビジョン言語モデルによる現実世界の物体の質量推定
- ロボットの知覚と操作において，物理特性の推定は不可欠であり，安全なインタラクションに繋がる。
- 既存のビジョン言語モデルは信頼性の高い質量推論能力に乏しく，現実的な条件下での評価が不足している。
- 現実世界の物体の質量推定を可能にし，物理量の推定精度向上を目指す。
- 提案手法PhysQuantAgentは，RGB-D動画と質量測定値を含む新しいデータセットVisPhysQuantを構築した。
- 物体検出，スケール推定，断面画像生成といった視覚的プロンプティング手法を導入し，質量推定精度を向上させた。
- 実験結果から，視覚的プロンプティングが現実世界のデータにおいて質量推定精度を大幅に改善することが示された。
Link: https://arxiv.org/abs/2603.16958
最新の視覚言語モデルに対する敵対的攻撃 [cs.CR, cs.AI]目的：視覚言語モデルの敵対的頑健性
- 視覚言語モデルは，現実世界での応用が期待され，その安全性確保が重要である。
- 既存の視覚言語モデルは，敵対的攻撃に対して脆弱である可能性が指摘されている。
- 本研究は，オープンソース視覚言語モデルの敵対的攻撃に対する脆弱性を評価し，その対策を検討する。
- LLaVA-v1.5-7Bに対して，3種類の勾配ベース攻撃は高い成功率を示し，現実的な脅威となることが示された。
- Qwen2.5-VL-7Bは，全ての攻撃に対してLLaVAよりも遥かに頑健であり，アーキテクチャの違いが頑健性に影響することが示唆された。
- これらの結果は，商用展開前の視覚言語モデルのセキュリティ評価に重要な示唆を与える。
Link: https://arxiv.org/abs/2603.16960
高速道路交通データからの行動中心シナリオ抽出とCVQ-VAEを用いたドメイン知識誘導クラスタリング [cs.MA, cs.CY, cs.SY, eess.SY, cs.CV, cs.LG]目的：自動運転システムの検証用シナリオ抽出とクラスタリング
- 自動運転システムの安全性を保証するためには，実世界での交通シナリオに基づいた評価が不可欠である。
- 既存のシナリオ抽出方法は定義が異なり，シナリオの比較可能性を阻害している。
- シナリオ抽出の標準化と，ドメイン知識に基づいた効果的なクラスタリングを実現すること。
- 提案手法は，Scenario-as-Specificationの概念に基づき，標準化されたシナリオ抽出を可能にする。
- ドメイン知識をクラスタリングプロセスに効果的に統合することで，解釈可能性を向上させる。
- highDデータセットを用いた実験により，信頼性の高いシナリオ抽出と，効率的な検証プロセスの実現が示された。
Link: https://arxiv.org/abs/2603.16964
CineSRD：視覚，聴覚，言語的手がかりを活用したオープンワールドな視覚メディアにおける話者分離 [cs.CV, cs.AI, cs.MM, cs.SD, eess.AS]目的：オープンワールドな視覚メディアにおける話者分離
- 映像コンテンツの多様化により，話者分離技術の応用範囲が拡大している。
- 従来の技術は，話者数が限定的で環境が整った状況に限定され，実世界での応用が困難である。
- 複雑な視覚メディアにおける，話者分離の精度向上と汎用性の確保を目的とする。
- CineSRDは，視覚的，聴覚的，言語的情報を統合的に活用するフレームワークである。
- 視覚的アンカークラスタリングと音声言語モデルを組み合わせることで，話者登録とターン検出を高度化している。
- 提案手法は，新設されたベンチマークデータセットで優れた性能を示し，汎用性の高さを証明した。
Link: https://arxiv.org/abs/2603.16966
多指示画像編集のためのマルチモーダル構造化推論エージェントMSRAMIE [cs.CV, cs.AI]目的：多指示画像編集における構造化推論
- 画像編集技術は，創造性や表現力を拡張する上で不可欠である。
- 複雑な複数指示への対応が難しく，編集精度が低下しやすい。
- 高品質な複数指示アノテーションなしに，編集性能を向上させること。
- MSRAMIEは，既存の編集モデルをプラグインとして利用し，追加学習なしに複数指示に対応可能である。
- 複雑な指示を段階的に分解し，状態遷移と情報集約を行うことで，編集空間の体系的な探索を実現する。
- 実験により，指示の複雑さが増すほどMSRAMIEの性能が向上し，編集完了率が大幅に向上することが示された。
Link: https://arxiv.org/abs/2603.16967
DeepStage：多段階APTキャンペーンに対する自律的な防御戦略の学習 [cs.CR, cs.AI, cs.LG]目的：多段階APTキャンペーンに対する自律的な防御戦略
- サイバー攻撃は高度化しており，従来の防御策では対応が困難になっている。
- APT攻撃は複数の段階に分かれており，各段階に応じた防御が求められる。
- 各攻撃段階を正確に特定し，適切な防御策を自動で選択する。
- DeepStageは，ホストの系譜情報とネットワークテレメトリを統合したことで，攻撃段階の推定精度を向上させた。
- 階層型PPOエージェントが，監視，アクセス制御，封じ込め，修復といった防御アクションを自律的に選択する。
- 現実的な環境での評価において，既存のDRLベースラインを21.9%上回るF1スコア0.89を達成した。
Link: https://arxiv.org/abs/2603.16969
モダリティ認識型新規検出による継続的マルチモーダル一人称視点行動認識 [cs.CV, cs.AI]目的：一人称視点での行動理解におけるロバスト性の向上
- 現実世界での行動認識は，視覚情報と慣性計測装置からの情報を統合することで，より頑健なシステム構築が期待される。
- 既存手法では，新規行動検出においてRGB情報に偏り，IMUなどの他のモダリティの情報を十分に活用できていない。
- 本研究では，各モダリティの信頼性を考慮し，新規行動検出の精度向上を目指す。
- 提案手法MANDは，モダリティごとの適応的スコアリングにより，新規活動検出のAUCを最大10％向上させた。
- MANDは，既知クラスの分類精度も最大2.8％向上させ，既存手法を上回る性能を示した。
- モダリティ固有の識別力を維持するための学習法により，継続学習における性能劣化を抑制している。
Link: https://arxiv.org/abs/2603.16970
千の言葉よりも一枚の絵が良いのか？画像を超えて – マルチモーダル知識グラフデータセットの充実のためのフレームワーク [cs.CV, cs.AI]目的：マルチモーダル知識グラフのデータセット充実
- 知識グラフは，現実世界の情報を構造的に表現し，様々な応用を可能にする重要な技術である。
- 画像を含むマルチモーダル知識グラフの構築には，大規模な画像収集と曖昧な画像の扱いが課題となる。
- 曖昧な画像も活用できる知識グラフの充実方法を模索し，性能向上を目指す。
- 提案手法「Beyond Images」は，追加の画像検索，テキスト変換，LLMによる要約の3段階でデータセットを充実させる。
- 画像からテキストへの変換により，曖昧な画像も有効な情報として活用し，知識グラフの補完性能を向上させる。
- 複数のデータセットで7%のHits@1向上，特に曖昧なロゴや記号の認識でMRRが201.35%，Hits@1が333.33%と大幅に改善された。
Link: https://arxiv.org/abs/2603.16974
ソフトウェア開発における生成AIの現状：文献調査と開発者調査からの考察 [cs.SE, cs.AI, cs.CY, cs.ET, cs.HC]目的：ソフトウェア開発における生成AIの利用状況とその影響
- ソフトウェア開発は経済社会の基盤であり，その効率化は重要である。
- 生成AIの活用は進んでいるものの，ライフサイクル全体での体系的な分析が不足している。
- 生成AIがソフトウェア開発の各段階に与える影響を定量的に明らかにすること。
- 生成AIは，設計，実装，テスト，ドキュメント作成において高い効果を発揮し，開発時間の短縮に貢献している。
- 79％の開発者が毎日生成AIを利用しており，ブラウザベースのLLMを好んで使用している。
- 生成AIの価値創造は，定型的なコーディングから仕様の質，アーキテクチャ設計，監督へと移行しており，ガバナンスの重要性が増している。
Link: https://arxiv.org/abs/2603.16975
ニューラルネットワークに基づく線形正接モデルと随伴モデルの実装：コンパイラライブラリツール [cs.MS, cs.AI, cs.LG]目的：ニューラルネットワークの線形正接モデル及び随伴モデルの実装
- 数値予報モデルの精度向上には，AI技術の活用が不可欠である。
- FortranとPythonの異なる言語間連携の難しさ，柔軟性の不足が課題である。
- AIと数値モデルの効率的な結合を容易にし，データ同化システムの構築を簡素化する。
- TorchNWPは，FortranとPythonベースの深層学習フレームワーク間の効率的な結合を可能にする。
- 本ツールは，数値予報モデルへの深層学習モデルの組み込みを容易にし，修正コストを削減する。
- CMA-GFSやMCVなどの数値予報モデルへの応用により，予測精度と効率の向上が確認された。
Link: https://arxiv.org/abs/2603.16976
DINOへの報酬：ビジョン基盤モデルによる高密度報酬の予測 [cs.RO, cs.LG]目的：高密度報酬予測モデルの開発
- ロボット操作において，タスクの達成度合いを示す高密度報酬関数は重要である。
- 高密度報酬関数の設計は難しく，実環境では利用できないシミュレーション環境の情報が必要となる。
- カメラ画像からタスクの状態を推論し，特定の解に偏らず汎用的な報酬関数を学習すること。
- Rewarding DINOは，言語条件付きで報酬をモデリングし，特定の軌跡ではなく実際の報酬関数を学習する。
- 訓練データで高い性能を示し，シミュレーション環境および実環境における新しい設定にも汎化可能である。
- オフザシェルフの強化学習アルゴリズムと組み合わせることで，Meta-World+タスクを解決できる。
Link: https://arxiv.org/abs/2603.16978
解釈可能なAI支援による二パラメータ並列求根スキームの早期信頼性予測 [math.NA, cs.LG, cs.NA]目的：二パラメータ並列求根スキームにおけるソルバーの信頼性予測
- 数値計算の信頼性は科学技術計算において重要であり，誤った結果を避ける必要がある。
- パラメータ空間において，安定性と不安定性の領域を事前に特定することは困難である。
- 反復計算の初期段階で信頼性を予測し，効率的な問題解決を支援すること。
- 提案手法は，反復ダイナミクスの短いプレフィックスからソルバーの信頼性を予測可能である。
- 最適なモデルは，初期段階で高い予測精度（R^2=0.48）を示し，反復回数の増加とともに改善される（R^2=0.89以上）。
- このフレームワークは解釈可能な安定性指標を提供し，ソルバー実行中の継続，再起動，パラメータ調整などの意思決定を支援する。
Link: https://arxiv.org/abs/2603.16980
側方流動に対する木構造機械学習モデルの形式検証 [cs.LG, cs.LO]目的：側方流動予測のための木構造機械学習モデルの物理的整合性検証
- 地盤災害予測において機械学習の活用が期待される。しかし，データ依存性が課題となる。
- 既存手法では，個別の予測の説明やモデル能力の制限にとどまり，網羅的な保証が得られない。
- 本研究は，モデル全体の物理仕様を満たすか厳密に検証する手法を提案する。
- 訓練済み木構造アンサンブルを論理式に変換し，SMTソルバーを用いて物理仕様の検証を行った。
- 制約なしEBMは全ての仕様に違反したが，制約付きEBMは3/4の仕様を満たし，検証に基づく反復的な制約適用が有効であることが示された。
- 精度と物理的整合性の間にはトレードオフが存在し，高い精度と完全な適合性を両立するモデルは見つからなかった。
Link: https://arxiv.org/abs/2603.16983
知識蒸留によるTransformerへの帰納的バイアスの統合：金融時系列予測への応用 [cs.LG]目的：金融時系列予測におけるTransformerの性能向上
- 金融市場は常に変化しており，予測は困難である。過去のパターンが将来も通用するとは限らない。
- Transformerは柔軟性が高いが，金融市場の非定常性を考慮できていない場合がある。
- 複数の帰納的バイアスを統合することで，よりロバストな予測モデルを構築することを目指す。
- TIPSは，因果性，局所性，周期性の３つのバイアスをTransformerに組み込む知識蒸留フレームワークである。
- ４つの主要な株式市場において，TIPSは最先端の性能を達成し，アンサンブルベースラインを大幅に上回った。
- TIPSは，市場の状況に応じて最適なバイアスを選択し，安定した収益性とリスク調整後のリターンを実現した。
Link: https://arxiv.org/abs/2603.16985
効率的でコンパクトな視覚言語モデルの実践的レシピ [cs.CV, cs.AI]目的：効率的でコンパクトな視覚言語モデルの構築方法
- リソース制約のある環境での視覚言語モデル利用が拡大しているため，効率性が重要である。
- コンパクトなモデルはパラメータ数が少ないにも関わらず，期待されるほどの高速化が実現されていない。
- ボトルネックの特定と最適化レシピの提示により，コンパクトなVLMsの効率を改善すること。
- 提案手法は，InternVL3-2BのTTFTを53%，SmolVLM-256MのTTFTを93%削減した。
- 本レシピは，様々なVLMアーキテクチャや推論フレームワークに適用可能である。
- ArgusVLMは，コンパクトかつ効率的な設計を維持しつつ，多様なベンチマークで高い性能を発揮する。
Link: https://arxiv.org/abs/2603.16987
LLM NL2SQLの頑健性：従来の環境とエージェント環境における表面ノイズと言語的変動 [cs.RO, cs.CL, cs.AI]目的：自然言語からSQLへの変換システムの頑健性評価
- 現実のデータベース環境は常に変化するため，システムの堅牢性を評価する必要がある
- 従来の評価は静的なスキーマを前提とし，ノイズや変動に対する対応が不十分である
- 表面レベルのノイズと意味を保ちつつ語彙や構文が変化する言語的変動への対応策を探る
- 最先端のLLMはいくつかの摂動に対して高い性能を維持する。
- 表面レベルのノイズは従来の環境で性能低下を引き起こし，言語的変動はエージェント環境でより大きな課題となる。
- 言語的変動への対応は，頑健なNL2SQLシステムを実現するための重要な課題である。
Link: https://arxiv.org/abs/2603.17017
Transformerは学習データに存在しない規則も学習可能：補間の範囲を超えた計算の証明 [cs.LG]目的：学習データに存在しない規則の推論能力の有無
- 大規模言語モデルの能力を理解する上で，規則の推論能力の有無は重要な検証課題である。
- 従来の議論では，Transformerの汎化能力は学習データの類似性に基づく補間現象に過ぎない可能性が指摘されていた。
- 本研究は，Transformerが学習データに存在しない規則構造を学習し，明示的に表現できることを示す。
- セルオートマトン実験において，Transformerは学習データから除外されたパターンに対する規則を高い精度で復元した。
- 記号演算チェーン実験では，Transformerは中間ステップを含む推論形式で，補間ベースラインを大幅に上回る性能を示した。
- これらの結果は，Transformerが学習データに直接含まれない規則構造を学習できることを示す存在証明となる。
Link: https://arxiv.org/abs/2603.17019