arXiv雑要約

AI - 2026/03/23 公開

  • 医療写真理解のための統一ベンチマークReXInTheWild [cs.CV, cs.LG]目的:医療写真の内容解釈能力評価
    • 遠隔医療等の普及により,一般カメラで撮影された医療写真の活用が重要になっている。
    • 既存のモデルは,医療写真特有の知識と画像理解能力が不足している。
    • 医療写真に対するビジョンと言語モデルの性能を包括的に評価するベンチマークの必要性。
    • ReXInTheWildは,臨床医が検証した955問の多肢選択問題を含む医療写真ベンチマークである。
    • Gemini-3が78%の精度で最高性能を示し,Claude Opus 4.5とGPT-5がそれに続く。
    • エラー分析の結果,幾何学的誤りから高度な推論の誤りまで,4種類の誤りパターンが明らかになった。

    Link: https://arxiv.org/abs/2603.19517

  • 大規模言語モデルにおける持続的な創造性と多様性の誘発 [cs.CL, cs.AI, cs.CY, cs.IR]目的:大規模言語モデルにおける創造性と多様性の持続的な誘発
    • 情報探索の分野において,探索空間の学習と多様な代替案の評価が重要である。
    • 既存の言語モデルは,多様性に欠け,繰り返しが多く,ユーザーの探索を妨げている。
    • 本研究は,言語モデルの知識を活用し,多様で創造的な結果を継続的に生成することを目指す。
    • 提案手法は,言語モデルの内部構造にアクセスすることなく,概念的にユニークな結果を必要な数だけ生成可能である。
    • これにより,ユーザーは探索空間を迅速に探索し,満足のいく回答を見つけやすくなる。
    • 既存のデコーディング方法では捉えきれない,言語モデルの広範な知識を引き出すことが可能である。

    Link: https://arxiv.org/abs/2603.19519

  • 生成AIビデオモデルにおけるうつ病の描写:OpenAI Sora 2の予備的研究 [cs.CY, cs.AI, cs.HC]目的:生成AIビデオモデルにおけるうつ病の描写の特性
    • メンタルヘルス問題は増加傾向にあり,社会的な関心が高まっている。
    • AIによるメンタルヘルスの表現は未知数であり,誤った認識を広げる可能性がある。
    • Sora 2によるうつ病の描写を分析し,プラットフォームによる違いを明らかにすること。
    • Sora 2はうつ病の新しい視覚表現を生み出すのではなく,既存の文化的アイコンを再構築する傾向がある。
    • アプリ版は回復傾向が強く,API版はより多様な描写が見られた。
    • 臨床医は,AI生成コンテンツが臨床的知識ではなく,学習データとプラットフォーム設計を反映することに注意する必要がある。

    Link: https://arxiv.org/abs/2603.19527

  • SurfaceXR:スマートウォッチIMUと一人称視点の手のポーズの融合によるシームレスな表面インタラクション [cs.CV, cs.HC, cs.LG]目的:表面インタラクションの実現
    • 拡張現実(XR)において,疲労軽減と精度向上が求められている。
    • 既存の一人称視点ベースの手法は,ハンドトラッキングの課題と表面平面推定の信頼性不足に直面している。
    • ハンドトラッキングとスマートウォッチIMUの融合により,表面上でのロバストな入力インタラクションの実現を目指す。
    • SurfaceXRは,ヘッドセットベースのハンドトラッキングとスマートウォッチIMUデータを組み合わせることで,日常的な表面上での堅牢な入力を可能にする。
    • 21人の参加者による実験で,SurfaceXRはタッチトラッキングと8種類のジェスチャー認識において,単一モダリティのアプローチと比較して有意な改善を示した。
    • ハンドトラッキングの3次元位置データとIMUの高周波運動データの相補性を活用することで,より自然で正確な表面インタラクションを実現した。

    Link: https://arxiv.org/abs/2603.19529

  • DINOv3を用いたオープンボキャブラリセマンティックセグメンテーション [cs.CV, cs.AI]目的:オープンボキャブラリセマンティックセグメンテーションにおける性能向上
    • 画像認識技術の発展と,多様なカテゴリへの対応が求められている。
    • 既存手法では,複雑なシーンにおける空間精度とロバスト性に課題がある。
    • 高精度かつロバストなセグメンテーションを実現し,未知のクラスへの汎化能力を高める。
    • DINOv3を基盤とした新たなフレームワークdinov3.segを提案し,タスク固有のアーキテクチャを設計した。
    • テキスト埋め込みとViTベースのエンコーダの局所特徴を統合し,セマンティック識別と空間的局所性を高めた。
    • 視覚表現の早期洗練と,画像-テキスト相関特徴の後期洗練を行うことで,複雑なシーンでの予測精度を向上させた。

    Link: https://arxiv.org/abs/2603.19531

  • EvidenceRL:信頼性の高い言語モデルのための証拠一貫性の強化 [cs.CL, cs.IR, cs.LG]目的:言語モデルにおける証拠に基づく応答生成の改善
    • 大規模言語モデルの応用拡大に伴い,その信頼性が重要視されている。
    • 大規模言語モデルは流暢だが,根拠のない情報を生成しやすいという課題がある。
    • 根拠に基づいた応答生成を促し,言語モデルの信頼性を高めることを目指す。
    • EvidenceRLフレームワークは,学習中に証拠との整合性を強化することで,高い精度を維持しつつ根拠に基づいた応答生成を促進する。
    • 心臓診断においては,F1@3が37.0から54.5に,Gmax@3が47.6から78.2へと向上し,ハルシネーションは大幅に減少した。
    • 法律推論においては,Faithfulnessが32.8%から67.6%に向上し,異なるドメインにおいても一貫した改善が確認された。

    Link: https://arxiv.org/abs/2603.19532

  • FDARxBench:FDA ジェネリック医薬品評価における規制および臨床的推論のベンチマーク [cs.CL, cs.AI]目的:FDAジェネリック医薬品評価を動機とした文書に基づいた質問応答の評価のためのベンチマーク
    • 医薬品ラベルは,患者の安全と治療効果を確保する上で極めて重要である。
    • 医薬品ラベルの情報は多様で複雑であり,正確な質問応答は困難である。
    • 現在の言語モデルの能力を,規制レベルの医薬品ラベル理解において評価する。
    • FDARxBenchは,事実に基づいた知識,複数段階の推論,安全な拒否応答を評価する高品質な質問応答データセットである。
    • 実験の結果,既存の言語モデルは,事実の根拠,長文コンテキストの検索,安全な拒否応答において課題を抱えていることが示された。
    • 本ベンチマークは,FDAのジェネリック医薬品評価だけでなく,規制分野における言語モデルの評価基盤としても活用可能である。

    Link: https://arxiv.org/abs/2603.19539

  • 複数スーパーコンピュータにおける科学基盤モデルの分散型連合学習のスケーラビリティ [cs.RO, cs.LG]目的:科学分野における基盤モデルの連合学習フレームワーク
    • 科学的応用のAI開発には大規模モデルが必要であり,データ共有の制約がある。
    • HPC環境での連合学習は,クラウドや企業環境とは異なる課題を抱えている。
    • 異なるHPC施設間での連合学習の実現可能性と課題を明らかにすること。
    • 複数の米国エネルギー省のスーパーコンピュータでクロス施設FL実験が実行可能であることが示された。
    • HPC環境における学習性能への異質性の影響が特徴づけられた。
    • 化学指示データセットでの大規模言語モデルのファインチューニングにより,科学的応用が検証された。

    Link: https://arxiv.org/abs/2603.19544

  • リアプノフおよびハミルトン-ヤコビ-ベルマン方程式の解に対する物理情報ニューラルネットワークの検証可能な誤差限界 [eess.SY, cs.LG, cs.SY, math.OC]目的:リアプノフおよびハミルトン-ヤコビ-ベルマン方程式の近似解の検証可能な誤差限界
    • 非線形システム解析・制御の根幹問題解決にPDEが重要である。
    • 従来のPINNでは,小さなPDE残差が小さな解誤差を保証しない。
    • PINN近似解に対する厳密な誤差限界を確立し,信頼性を高める。
    • リアプノフおよびHJB方程式に対し,検証可能な残差限界から相対誤差限界が得られる。
    • HJB方程式では,最適値関数と誘導されたフィードバックポリシーの最適性ギャップを定量化できる。
    • 片側残差限界は,近似解が有効なリアプノフ関数であることを示す。

    Link: https://arxiv.org/abs/2603.19545

  • テンソル系列に対する部分空間カーネル学習 [cs.LG, cs.AI, cs.CV]目的:高次テンソルとして表現される構造化多方向データの学習
    • 多様なデータ構造を扱う必要性が高まる中で,高次テンソルデータの効率的な処理が重要である。
    • テンソルデータの高次元性と複雑な相互作用により,計算コストが増大し,汎化性能が低下しやすい。
    • テンソルモード間の不確実性を考慮し,ロバストで解釈可能な類似度測度を確立すること。
    • 提案手法UKTLは,テンソルモードごとの部分空間を比較することで,高次テンソルデータの表現性とロバスト性を向上させる。
    • 大規模データに対応するため,ソフトk-meansクラスタリングによる動的なピボットテンソルを用いたナイストロームカーネル線形化を提案する。
    • 実験結果から,UKTLが既存手法を上回り,汎化性能の向上とモードごとの洞察を提供することが示された。

    Link: https://arxiv.org/abs/2603.19546

  • 剽窃か生産性か:ChatGPTの学術的利用に関する学生の道徳的離脱と行動意図 [cs.CY, cs.AI, cs.ET, stat.AP]目的:ChatGPTを学術的執筆に利用する際の学生の行動意図
    • 学術における誠実性は,知識の信頼性と研究の進歩にとって不可欠である。
    • AI技術の急速な発展により,学術における不正行為のリスクが高まっている。
    • 学生がChatGPTを不正利用する要因を特定し,適切な対策を講じる必要がある。
    • 道徳的離脱のメカニズムが,学生の態度とコントロール感に影響を与えることが示された。
    • 特に,責任転嫁が最も強い影響力を持ち,態度は行動意図に最も大きな影響を与えた。
    • 学生は,制度上の抜け穴や周囲の行動をAI利用の正当化根拠とする傾向があることが示唆された。

    Link: https://arxiv.org/abs/2603.19549

  • 行列乗算のための最適スカラー量子化:閉形式密度と相転移 [cs.MA, cs.CL, cs.IT, cs.AI, math.IT]目的:行列乗算における平均二乗誤差の最小化
    • 深層学習等の計算効率化に不可欠であり,量子化技術はその重要な手段となる。
    • 量子化レベル数を増やすほど誤差が小さくなるが,計算コストが増大する点が課題。
    • 高分解能下での誤差の漸近展開を導出し,最適な量子化中心密度を明らかにすること。
    • 相関ガウス乗数対において,最適な点密度は閉形式で表せることを示した。
    • 相関係数ρの絶対値が1/√3を超える場合,密度は一峰性から二峰性へと相転移する。
    • 行列乗算量子化や大規模言語モデルの活性化関数への適用可能性を確認した。

    Link: https://arxiv.org/abs/2603.19559

  • 二重ネットワーク多孔質媒体における流体流れのための適応型機械学習フレームワーク [math.NA, cs.LG, cs.NA, physics.flu-dyn]目的:二重多孔性/透水性モデルにおける流体流れの順問題および逆問題のモデリング
    • 多孔質材料は,鉱物探査やタイトシェールからの炭化水素回収など,様々なプロセスを制御するため重要である。
    • 従来の数値解法では,高速な予測,データ同化,信頼性の高い逆解析が困難である。
    • 本研究は,二重多孔性/透水性モデルのパラメータを効率的に推定し,逆解析を可能にすることを目的とする。
    • 物理情報ニューラルネットワーク(PINN)を基盤とする新しいフレームワークを提案し,混合形式の支配方程式を損失関数に組み込んだ。
    • 適応的な重み調整,動的な配置点選択,共有幹ニューラルアーキテクチャにより,計算効率と精度を向上させた。
    • 本フレームワークは,複雑な形状の多孔質媒体に対応でき,逆解析において堅牢なパラメータ同定を可能にする。

    Link: https://arxiv.org/abs/2603.19561

  • ニューラル不確定性原理:敵対的脆弱性とLLMの幻覚の統一的見解 [cs.LG, cs.IT, math.IT, physics.comp-ph]目的:敵対的脆弱性とLLMの幻覚の共通の幾何学的起源の解明
    • 画像認識や自然言語処理といったAIの信頼性向上は,社会実装において不可欠である。
    • 敵対的攻撃に対する脆弱性やLLMの幻覚は,それぞれ異なるアプローチで対処されてきた。
    • これら2つの問題の本質的な繋がりを明らかにし,信頼性分析の新たな視点を提供する。
    • 敵対的脆弱性とLLMの幻覚は,損失関数の勾配と入力の関係から生じる不確定性原理によって説明できることが示された。
    • 入力勾配相関チャネルを測定するプローブを用いることで,画像の頑健性向上や幻覚リスクの検出が可能となった。
    • 提案手法ConjMaskとLogitRegは,敵対的訓練なしで頑健性を向上させ,LLMの幻覚検出とプロンプト選択に役立つ。

    Link: https://arxiv.org/abs/2603.19562

  • 二重領域表現アラインメント:幾何学を意識したアーキテクチャ探索による2Dと3Dビジョンの架け橋 [cs.CV, cs.AI]目的:2Dと3Dビジョンのバランスを取り,効率的なモデルアーキテクチャ探索
    • 現代のコンピュータビジョンは,精度とリアルタイム効率の両方が求められる
    • 大規模なビジョンモデルは計算コストが高く,リソース制約のある環境での利用が難しい
    • 進化型ニューラルアーキテクチャ探索の効率化とランキングの一貫性向上
    • 提案手法EvoNASは,VSSとViTモジュールを統合したハイブリッド超ネットワークを効率的に最適化する。
    • CA-DDKD戦略により,表現能力の向上とランキングの一貫性が高まり,信頼性の高い評価が可能となる。
    • DMMPEフレームワークにより,大規模検証のコストを70%以上削減し,EvoNetsは精度と効率のパレート最適解を示す。

    Link: https://arxiv.org/abs/2603.19563

  • ウェアラブル基盤モデルは静的エンコーダを超えるべきである [cs.LG]目的:ウェアラブル基盤モデルの長期的な健康推論能力の向上
    • ウェアラブルデバイスから得られるデータ量は膨大であり,個人の健康管理に革新をもたらす可能性を秘めている。
    • 既存のウェアラブル基盤モデルは,短期的な予測に偏っており,慢性疾患のモデリングには不向きである。
    • ウェアラブル基盤モデルを,長期的な健康リスク予測や介入支援に活用するための構造変革を目指す。
    • 既存のウェアラブル基盤モデルは,静的なエンコーダに依存し,過去のデータに基づいて予測を行う傾向がある。
    • 本研究では,ウェアラブル基盤モデルが,より構造化されたデータ,時間軸を考慮したモデリング,そして能動的な推論システムを必要とすることを提言する。
    • これらの変革により,ウェアラブルヘルスモニタリングは,過去の信号解釈から,継続的かつ予測的な健康支援へと進化すると考えられる。

    Link: https://arxiv.org/abs/2603.19564

  • PFM-VEPAR:RGB-イベントカメラベース歩行者属性認識のためのファウンデーションモデルのプロンプティング [cs.CV, cs.AI, cs.LG]目的:RGB-イベントカメラを用いた歩行者属性認識に関する研究
    • 歩行者属性認識は,監視や人間中心のインタラクションにおいて重要な役割を果たす。
    • 低照度やモーションブラー環境下では,RGBカメラの性能が低下する。
    • イベントカメラの情報を活用し,RGBカメラの弱点を補完することで,よりロバストな属性認識を目指す。
    • 提案手法は,計算コストの高い既存手法を改善し,効率的な特徴抽出を実現した。
    • イベントデータから周波数領域の特徴を抽出し,RGBデータの性能向上に貢献した。
    • 外部メモリとホップフィールドネットワークにより,サンプル間の関係性を活用した表現学習を行った。

    Link: https://arxiv.org/abs/2603.19565

  • AI精神病:会話型AIは妄想に関連する言語を増幅するのか [cs.HC, cs.AI, cs.CL, cs.CY, cs.SI]目的:会話型AIとの多岐にわたるやり取りにおける,妄想に関連する言語の変化
    • AI技術はメンタルヘルスケアへの応用が期待される一方,脆弱なユーザーへの影響が懸念される。
    • AIとの長期的な対話が,妄想的思考を強化する可能性が指摘されているが,実証的な証拠は不足している。
    • 会話型AIが妄想に関連する言語を増幅する可能性を検証し,そのリスク軽減策を探る。
    • Redditユーザーの過去の投稿履歴から構築したシミュレーションユーザーにおいて,AIとの会話中に妄想に関連する言語のスコアが上昇した。
    • 特に現実懐疑や強迫的思考といったテーマにおいて,妄想的言語の増幅が顕著であった。
    • AIの応答を現在の妄想スコアに基づいて調整することで,この増幅傾向を抑制できることが示された。

    Link: https://arxiv.org/abs/2603.19574

  • PA2D-MORL:パレート上昇方向分解に基づく多目的強化学習 [cs.AI, cs.LG]目的:多目的強化学習におけるパレート効率的なポリシー集合の近似
    • 複雑な環境下での意思決定において,複数の目的を同時に最適化する需要が高まっている。
    • 従来の多目的強化学習は,特に連続・高次元な状態空間において,パレート解の近似精度に課題がある。
    • パレート上昇方向分解により,多目的問題を効率的に分解し,ポリシー改善を行うことで,その課題を克服する。
    • 提案手法PA2D-MORLは,スカラー化重みの選択と多目的ポリシー勾配の計算を通じて,全目的の同時改善を可能にする。
    • 進化フレームワーク下で複数のポリシーを最適化することで,様々な方向からパレートフロンティアを近似する。
    • パレート適応的微調整により,パレートフロンティア近似の密度と分布を向上させ,優れた性能を示す。

    Link: https://arxiv.org/abs/2603.19579

  • 進化する身体性知能:ソフトロボットの形態と制御の共同設計におけるグラフニューラルネットワーク駆動アプローチ [eess.SY, cs.SY, cs.RO, cs.AI]目的:ソフトロボットの形態と制御の共同設計
    • ロボットの知能は制御システムのみならず,身体と脳の密接な結合から生まれる。その原則は身体性知能と呼ばれ,ロボット工学において重要である。
    • ソフトロボット設計における課題は,形態と制御を同時に最適化することであり,特に形態の進化が学習済み制御戦略を阻害しやすい点である。
    • 形態進化による制御戦略の破壊を防ぎ,既存の知識の再利用・適応を容易にする共同設計手法を確立すること。
    • グラフニューラルネットワーク(GAT)を用いたアプローチは,従来のMLPのみを用いる共同設計手法と比較して,最終的な適合度と形態変化への適応性が向上した。
    • GATベースのアプローチでは,共有されたGAT層を再利用し,MLPの隠れ層をそのまま転送することで,形態変化に対応可能なポリシークラスを実現している。
    • グラフ構造化されたポリシーは,進化する形態と制御の間の効果的なインターフェースを提供し,身体性知能の実現に貢献することが示唆された。

    Link: https://arxiv.org/abs/2603.19582

  • 組込みおよびIoTシステム開発のための熟練AIエージェント [cs.SE, cs.AI]目的:組込みおよびIoTシステム開発におけるAIエージェントの活用
    • 組込みシステムとIoTは社会インフラを支える重要な技術であり,開発効率の向上が求められている。
    • ソフトウェアロジックと物理ハードウェアの密接な連携により,AIエージェントの適用は困難であった。
    • ハードウェア固有の制約下でのAIエージェントの性能評価と改善を目指す。
    • スキルベースのAIエージェントフレームワークとIoT-SkillsBenchを開発し,組込み環境でのAIエージェント評価を可能にした。
    • IoT-SkillsBenchは3つのプラットフォーム,23の周辺機器,42のタスクを網羅し,実ハードウェアでの検証を行った。
    • 構造化された専門家の知識に基づく簡潔なスキルが,プラットフォーム全体でほぼ完璧な成功率を達成した。

    Link: https://arxiv.org/abs/2603.19583

  • PowerLens:安全かつ個別化されたモバイル電力管理のためのLLMエージェントの制御 [cs.AI, cs.SY, eess.SY]目的:モバイルデバイスの安全かつ個別化された電力管理
    • モバイルデバイスのバッテリー寿命は重要な課題であり,ユーザー体験に直結する。
    • 既存の電力管理は静的なルールや粗いヒューリスティックに依存し,ユーザー活動や嗜好を考慮できない。
    • LLMの推論能力を活用し,ユーザーの文脈とシステムパラメータ間のギャップを埋めることで,電力管理を改善する。
    • PowerLensは,Androidデバイス上で81.7%のアクション精度と38.8%の省電力率を達成した。
    • ルールベースやLLMベースのベースラインと比較して優れた性能を示し,高いユーザー満足度と安全性を保証する。
    • システム自体のバッテリー消費量は1日の容量の0.5%に抑えられ,3~5日以内に嗜好が収束する。

    Link: https://arxiv.org/abs/2603.19584

  • 継続的な連合学習におけるモデルポイズニング攻撃に対する適応的耐性:モバイル屋内定位への応用 [cs.LG, cs.AI]目的:継続的な連合学習環境下におけるモデルポイズニング攻撃への耐性向上
    • 屋内定位は,資産追跡や個別化サービスなど,幅広い応用で不可欠な技術である。
    • 連合学習はプライバシー保護に有効だが,動的な環境下ではモデルが劣化しやすい。
    • 本研究は,モデルポイズニング攻撃と環境変化からモデルを保護する手法を開発する。
    • 提案手法ARMORは,モデルの重みテンソルの過去の進化を学習し,次の状態を予測することで,異常な更新を検出し軽減する。
    • 実環境での実験により,ARMORは最先端の屋内定位フレームワークと比較して,平均誤差を最大8.0倍,最悪ケース誤差を4.97倍削減することを示した。
    • ARMORは,リアルワールドデータとモバイルデバイスを用いたテストにおいて,モデルの破損に対する強い耐性を示すことが確認された。

    Link: https://arxiv.org/abs/2603.19594

  • 情報人気度予測のための適応的クラスタリング学習メカニズムを備えた物理情報ニューラルネットワーク [cs.SI, cs.AI]目的:情報カスケードの人気度予測
    • インターネット時代において,データ量と速度が急増しており,情報拡散の理解が重要である。
    • 既存手法は情報カスケードの微視的特徴に焦点を当てており,大局的なパターンや情報異質性の影響が無視されている。
    • 情報拡散の大局的パターンと異質性の影響を考慮した,より高精度な人気度予測を実現する。
    • 提案モデルPIACNは,物理情報アプローチを用いて情報拡散の大局的パターンをモデル化する。
    • 適応的クラスタリング学習メカニズムにより,情報異質性の影響を考慮している。
    • 3つの実データセットを用いた実験で,既存手法を上回る性能が確認された。

    Link: https://arxiv.org/abs/2603.19599

  • K-GMRF:リー群上における第一原理共分散追跡のための運動ガウス-マルコフ確率場 [cs.CV, cs.LG]目的:リー群上の共分散追跡のためのオンライン学習不要フレームワーク
    • 画像処理において,共分散行列の追跡は重要である。対象物の動きや変化を正確に把握するために不可欠な技術である。
    • 既存手法は,多様体制約を無視するか,一次更新に頼るため,急速な変化に対して位相遅れが発生し,追跡精度が制限される。
    • 本研究は,位相遅れを克服し,より正確な共分散追跡を実現することで,画像処理の精度向上を目指す。
    • K-GMRFは,問題をリー群上の剛体運動として再定式化し,構造を保存するシンプレクティック積分器を用いて潜在的な角速度を伝播させる。
    • 理論的に,本手法が定常回転下でゼロ定常誤差を達成し,一次更新ベースラインよりも優れていることが証明された。
    • 合成楕円,SO(3)安定化,OTBモーションブラーシーケンスにおいて,K-GMRFは高い追跡精度と安定性を示した。

    Link: https://arxiv.org/abs/2603.19601

  • FB-CLIP:前景・背景分離による高精度なゼロショット異常検知 [cs.CV, cs.AI]目的:産業および医療分野における高精度なゼロショット異常検知手法
    • 産業や医療において,異常検知は製品品質や人命に関わるため重要である。
    • 異常データのラベル付けは困難であり,ゼロショットでの異常検知は課題である。
    • 前景と背景の混同を解消し,テキスト情報をより効果的に活用することで解決を目指す。
    • 提案手法FB-CLIPは,テキスト表現の多角化と前景・背景分離により,異常局所化を強化する。
    • 画像特徴とテキストプロトタイプの整合性を高めることで,曖昧なマッチングを抑制し,異常を明確化する。
    • 実験により,複雑な背景下でもFB-CLIPが正確な異常検知と局所化を実現することが示された。

    Link: https://arxiv.org/abs/2603.19608

  • LoD-Loc v3:インスタンスシルエットアラインメントを用いた高密度都市における汎用的な空中位置推定 [cs.CV, cs.AI, cs.RO]目的:高密度都市環境における汎用的な空中視覚位置推定手法
    • 都市規模の測位は,自動運転や都市計画など,様々な分野において不可欠である。
    • 既存手法は,シーン間の汎化性能が低い,または高密度な建物群の中で失敗しやすいという課題があった。
    • 本研究は,インスタンスシルエットアラインメントにより,汎化性能と高密度環境におけるロバスト性を向上させることを目指す。
    • 本研究で開発したLoD-Loc v3は,既存の最先端手法と比較して,優れた性能を示すことが確認された。
    • 特に,シーン間の汎化性能と高密度都市環境における性能において,大幅な改善が見られた。
    • 大規模なインスタンスセグメンテーションデータセットInsLoD-Locの構築も,本手法の成功に貢献している。

    Link: https://arxiv.org/abs/2603.19609

  • デモンストレーション,CoT,プロンプティング:ICLの理論的分析 [cs.LG]目的:ICLにおける設計選択と汎化性能との関係性の理論的解明
    • 大規模言語モデルの活用が重要視される中で,少ないデータでの適応能力であるICLの理解が不可欠である。
    • 既存研究では,ICLのメカニズムを説明するための強い仮定や,実用的な要素の影響の無視といった課題があった。
    • 本研究では,穏やかな仮定のもとでICLの理論的分析を行い,これらの設計選択が汎化性能にどのように影響するかを明らかにすることを目指す。
    • 選択されたデモンストレーションの品質,事前学習済みモデルのICL能力,分布シフトの程度が,ICLのテスト損失の上限を決定することが示された。
    • CoTプロンプティングはタスク分解を誘導し,各サブステップで適切なデモンストレーションが選択され,サブタスクが学習しやすい場合に有効であることが示された。
    • ICL性能のプロンプトテンプレートに対する感受性は,デモンストレーションの数に応じて変化することが示され,事前学習がタスクの一般化を可能にすることを示唆する。

    Link: https://arxiv.org/abs/2603.19611

  • CAFスコア:LALMを用いたCLAPの較正による参照なしオーディオキャプション評価 [cs.SD, cs.AI, cs.CL]目的:オーディオキャプション評価の新しい指標
    • オーディオキャプション生成技術は発展しているが,その評価は重要な課題である。
    • 既存の参照ベースの評価指標は高コストで,音響的な忠実性を十分に評価できない。
    • CAFスコアは,CLAPとLALMを組み合わせることで,より正確な評価を目指す。
    • CAFスコアは,CLAPの粗い意味的整合性とLALMの細やかな理解を統合することで,構文的な誤りや微妙な誤りを検出する。
    • BRACEベンチマークでの実験により,CAFスコアは人間の判断との相関性が最も高く,困難な状況下では参照ベースの手法を上回ることが示された。
    • これらの結果は,CAFスコアが参照なしのオーディオキャプション評価に有効であることを示唆する。

    Link: https://arxiv.org/abs/2603.19615

  • パーソナライズされた制約を持つ連合学習の性能保証について [cs.LG, math.OC]目的:パーソナライズされた制約下における連合最適化問題
    • 分散環境での機械学習需要が高く,通信コストを削減する手法が求められている。
    • 従来の連合学習は制約条件が均一である想定であり,現実的な異質環境への対応が課題である。
    • エージェント固有の制約条件を持つ連合学習問題の解決を目指す。
    • 提案手法PC-FedAvgは,他エージェントの変数のクロス推定を用いることで,個人化された学習を可能にする。
    • 制約情報を共有することなく,エージェントごとの最適性と実行可能性を保証する通信複雑度を確立した。
    • MNISTおよびCIFAR-10データセットでの実験により,理論的結果の妥当性が確認された。

    Link: https://arxiv.org/abs/2603.19617

  • ディープストック:在庫管理のための方策正則化を用いた強化学習 [eess.SY, cs.SY, cs.LG, cs.AI]目的:在庫管理のための方策の最適化
    • サプライチェーンの効率化は,経済活動において重要な役割を担う。
    • 強化学習の実装は,ハイパーパラメータに敏感であり,安定した性能を得ることが難しい。
    • 方策正則化を導入することで,ハイパーパラメータ調整を加速し,性能向上を目指す。
    • 方策正則化は,古典的な在庫管理概念「ベースストック」に基づいている。
    • Tmallでの100%展開において,方策正則化を用いた強化学習が有効であることが示された。
    • 方策正則化は,在庫管理における最適な強化学習手法の選択基準を変化させる。

    Link: https://arxiv.org/abs/2603.19621

  • 食品カテゴリー分類データセットにおける継続学習:モデルの適応性と性能の向上 [cs.LG]目的:食品カテゴリー分類における継続学習フレームワーク
    • 食の多様性は高く,既存の分類モデルでは対応しきれないケースが多い。
    • 学習データに存在しないカテゴリーの認識精度低下が課題である。
    • 新たなカテゴリーを効率的に学習し,既存知識の劣化を防ぐこと。
    • 提案手法は,既存の知識を保持しつつ,新しい食品カテゴリーを逐次的に学習可能である。
    • 従来のモデルと異なり,ゼロから再学習する必要がないため,効率的な適応が可能である。
    • 食事モニタリングや個別化栄養計画への応用が期待される,適応的な食品認識の可能性を示す。

    Link: https://arxiv.org/abs/2603.19624

  • 夜間UAV追跡のための二重プロンプト駆動特徴エンコーディング [cs.SI, cs.IR, cs.CV, cs.AI]目的:夜間UAV追跡におけるロバストな特徴エンコーディング手法
    • UAV追跡は,監視やインフラ点検など多岐にわたる応用分野で重要性を増している。
    • 既存の特徴エンコーディング手法は,夜間のような低照度環境や視点変化に対応できず,追跡性能が低下しやすい。
    • 本研究は,照明や視点情報を考慮した特徴エンコーディングにより,夜間UAV追跡の課題を克服することを目的とする。
    • 本研究では,プロンプトに基づいた特徴適応と文脈を考慮したプロンプト進化を統合する二重プロンプト駆動特徴エンコーディング手法を提案した。
    • 提案手法は,マルチスケールな周波数領域の照明プロンプトを抽出することで,照明変化に対するロバスト性を向上させている。
    • 実験結果から,提案手法が夜間UAV追跡において高い有効性を示すことが確認された。

    Link: https://arxiv.org/abs/2603.19628

  • ゼロ次情報に基づく近接サンプリングのための交互拡散 [cs.RO, cs.SY, eess.SY, cs.LG, stat.ML]目的:潜在関数のゼロ次情報のみを用いた近接サンプラー
    • 最適化問題において,効率的なサンプリング手法は重要である。特に,勾配情報が利用できない場合に有効な手法が求められている。
    • 従来の近接サンプリングは,拒否サンプリングに依存しており,計算コストが高いという問題があった。
    • 本研究では,拒否サンプリングを用いず,直接動的シミュレーションを行うことで,効率的な近接サンプリングを実現することを目指す。
    • 提案手法は,中間粒子分布をガウス混合として扱い,直接サンプリング可能な分布からモンテカルロスコア推定器を導出する。
    • 理論的には,スコア推定誤差が十分に制御されると,本手法は標的分布上の等周条件の下で,近接サンプリングの指数関数的な収束性を引き継ぐ。
    • 実験結果は,提案手法が複数の粒子間の相互作用と並列計算を活用し,標的分布へ急速に収束することを示している。

    Link: https://arxiv.org/abs/2603.19633

  • MetaCues:情報探索と意味理解のための生成AIへの批判的関与を促す [cs.HC, cs.AI, cs.CY, cs.IR]目的:生成AIを用いた情報探索における批判的関与の促進
    • 情報探索は知識獲得の根幹であり,社会の発展に不可欠である。
    • 生成AIの安易な利用は,思考停止や情報均質化を招く恐れがある。
    • 生成AIの活用を通じて,批判的思考を促し,情報理解を深めることを目指す。
    • MetaCuesは,AIの応答とともにメタ認知的な手がかりを提供することで,利用者の検索行動を支援する。
    • オンライン実験の結果,MetaCuesは,検索トピックに対する態度判断の確信度を高め,より広範な情報探索を促すことが示された。
    • 特に,意見対立が少なく,利用者の知識が少ないトピックにおいて,その効果が顕著であった。

    Link: https://arxiv.org/abs/2603.19634

  • RiboSphere:RNA構造の統一的かつ効率的な表現学習 [cs.CL, cs.LG]目的:RNA構造の離散幾何学的表現の学習
    • RNAは生命活動において重要な役割を担うが,その構造予測は困難である。
    • RNAの柔軟性,非標準的な相互作用,構造データの不足が,構造予測の精度を制限している。
    • RNAの構造を効率的に表現し,限られたデータでも高精度な構造予測を可能にすること。
    • RiboSphereは,ベクトル量子化とフローマッチングを組み合わせた新しいフレームワークである。
    • 学習されたコードは特定のRNAモチーフを豊富に含み,モデルがモチーフレベルの構造を捉えていることを示唆する。
    • 構造再構成,逆折り畳み,RNA-リガンド結合予測において高い性能を示し,データが少ない状況でもロバストな汎化性能を発揮する。

    Link: https://arxiv.org/abs/2603.19636

  • HyEvo:効率的な推論のための自己進化型ハイブリッドエージェントワークフロー [cs.AI]目的:効率的な推論を可能にする自己進化型ハイブリッドエージェントワークフローの生成
    • 複雑なタスク解決において,エージェントワークフローの有用性が示されている。
    • 既存の自動生成手法は効率が悪く,性能が十分でない場合がある。
    • LLMとコードを組み合わせることで,推論コストと実行時間を削減することを目指す。
    • HyEvoは,多様な推論・コーディングベンチマークにおいて,既存手法を凌駕する性能を示した。
    • 推論コストは最大19倍,実行時間は最大16倍削減された。
    • LLMとコードのハイブリッド検索空間を効率的に探索する進化戦略を採用している。

    Link: https://arxiv.org/abs/2603.19639

  • OmniDiT:拡散Transformerを全方向VTONフレームワークへ拡張 [cs.CV, cs.AI]目的:仮想試着と試着解除タスクを統合した統一モデルの構築
    • 仮想試着技術は,オンラインショッピング体験を向上させる上で不可欠である。
    • 既存手法では,細部の再現性,複雑なシーンへの汎化,処理パイプラインの複雑さ,推論速度が課題である。
    • 本研究は,これらの課題を克服し,より高品質かつ効率的な仮想試着体験を実現することを目指す。
    • 提案手法OmniDiTは,複雑なシーン下でモデルフリーおよびモデルベースのVTON/VTOFFタスクにおいて最先端性能を達成した。
    • 自己進化型データキュレーションパイプラインと大規模データセットOmni-TryOnにより,多様で高品質な学習を可能にした。
    • Shifted Window Attentionを拡散モデルに導入することで,計算効率を向上させ,生成品質を改善した。

    Link: https://arxiv.org/abs/2603.19643

  • 確率的近似における重い裾と長距離依存ノイズ:有限時間解析 [cs.LG, cs.SY, eess.SY, math.OC, stat.ML]目的:重い裾と長距離依存ノイズ下における強単調作用素の根の探索
    • 強化学習や最適化など幅広い分野で用いられる基本的な反復フレームワークである。
    • 従来の解析は有限な二乗モーメントを持つマルコフノイズに依存し,現実の多くの状況に対応できない。
    • 重い裾と時間依存性を持つノイズ下での確率的近似の収束性を解析し,その影響を定量化する。
    • 重い裾と長距離依存ノイズ下での有限時間モーメント境界を初めて確立した。
    • ノイズの平均化により,反復を修正せずにノイズの影響を抑制する手法を開発した。
    • 本手法を確率的勾配降下法や勾配プレイに適用し,数値実験によって解析結果を裏付けた。

    Link: https://arxiv.org/abs/2603.19648

  • PolicySim:プロアクティブな政策最適化のためのLLMベースのエージェントソーシャルシミュレーションサンドボックス [cs.SI, cs.AI]目的:政策介入の影響の事前評価と最適化
    • ソーシャルプラットフォームは意見形成に影響を与え,政策の評価が不可欠である。
    • 既存手法は,導入後のリスク発見に依存し,リスク特定が遅延し高コストである。
    • プラットフォーム介入の現実的なモデル化とフィードバック組み込みによる課題解決を目指す。
    • PolicySimは,ユーザー行動とプラットフォーム介入の双方向ダイナミクスをモデル化する。
    • SFTとDPOを用いたユーザーエージェントモジュールが,プラットフォーム特有の行動を再現する。
    • 文脈バンディットによる適応的介入モジュールが,動的なネットワーク構造を捉える。

    Link: https://arxiv.org/abs/2603.19649

  • アンサンブルに基づく特徴量誘導分析 [cs.LG]目的:深層ニューラルネットワークの挙動説明手法の改善
    • 深層学習の応用拡大に伴い,モデルの解釈可能性が重要視されている。
    • 既存の特徴量誘導分析は,高い精度を持つ一方,適用範囲が限定的である。
    • 本研究は,特徴量誘導分析の適用範囲拡大を目指す。
    • EFGAは,複数のルールをアンサンブル化することで,適用範囲を拡大する。
    • MNISTとLSCデータセットを用いた評価で,EFGAはFGAと比較して,学習およびテスト時の再現率が向上した。
    • 精度への影響は軽微であり,EFGAはFGAよりも高い再現率を実現する。

    Link: https://arxiv.org/abs/2603.19653

  • 残余ストリームが全て:Transformer推論におけるKVキャッシュの冗長性について [cs.RO, cs.LG, cs.AI]目的:Transformer推論におけるKVキャッシュの冗長性の証明と,それを活用した新たな推論手法の提案
    • Transformerモデルは自然言語処理において高い性能を発揮するが,推論時のメモリ消費量が課題となっている。
    • KVキャッシュはTransformer推論に不可欠と考えられてきたが,そのメモリ効率の悪さが問題視されていた。
    • 残余ストリームのみでKVキャッシュを完全に再現可能であることを示すことで,メモリ消費量を削減する。
    • KVキャッシュは,各層のキーと値が残余ストリームの決定論的な射影であるため,本質的に冗長であることが証明された。
    • 残余ストリームから完全に再計算しても,出力分布に差が生じず,KVキャッシュを削除してもトークンは同一の結果を生み出す。
    • KV-Directという,残余ベクトルをチェックポイント化する低メモリ推論手法が提案され,既存手法と比較して高い性能を示した。

    Link: https://arxiv.org/abs/2603.19664

  • 高忠実度視覚再構成に向けて:EEG条件付き生成から共同モдал誘導再構築へ [cs.IR, cs.CV, cs.AI]目的:視覚刺激の忠実な再構成
    • 脳活動から視覚情報を読み取る研究は,脳科学と画像処理の発展に不可欠である。
    • 既存手法は,EEGとテキスト/画像の整合性を重視し,EEG特有の詳細情報を損失する傾向がある。
    • EEG特有の情報を保持しつつ,多角的な特徴抽出とデータ拡張により再構成精度を向上させる。
    • 提案手法JMVRは,THINGS-EEGデータセットにおいて,6つのベースライン手法を上回る最先端の性能を達成した。
    • 特に,空間構造のモデリングと色再現度において優れた能力を示した。
    • EEGとテキストを独立なモダルとして扱うことで,EEG特有の情報を効果的に保存し,高忠実度な視覚再構成を実現した。

    Link: https://arxiv.org/abs/2603.19667

  • Wasserstein伝播における尺度依存的放射状幾何学と計量不一致 [cs.CL, cs.LG]目的:逆拡散における誤差伝播のメカニズムの解析
    • 生成モデルの性能向上には,サンプリング誤差の制御が不可欠である。特に拡散モデルでは,誤差伝播の理解が重要となる。
    • 従来の解析では,ユークリッド幾何学に基づく誤差伝播が逆拡散軌跡全体で問題視されてきた。
    • 放射状幾何学に着目し,誤差伝播における計量不一致を解消することで,より正確な誤差評価を目指す。
    • 弱対数凹性下において,ガウス平滑化は大規模分離において収縮を起こす一方で,小規模分離では非消散的である点が示された。
    • 学習された逆ドリフトに対する放射状の制約を導入することで,誤差伝播の構造を明らかにした。
    • 離散化された逆SDEに対して,非漸近的な\(\Wtwo\)距離の保証と,効率的なスイッチ選択基準を導出した。

    Link: https://arxiv.org/abs/2603.19670

  • ATHENA:拡散モデルにおける物体数の正確性を改善するための適応的テスト時ステアリング [cs.CV, cs.AI, cs.LG]目的:拡散モデルにおける物体数の正確性向上
    • 画像生成技術は発展しているが,指定された物体数の制御には課題が残されている。
    • 拡散モデルは高画質だが,プロンプトで指定された物体数を正確に再現できない場合がある。
    • テスト時にモデルを調整し,生成過程で物体数を制御することで,正確性を向上させる。
    • ATHENAは,モデルの再学習やアーキテクチャ変更なしに,テスト時に適応的にノイズを修正することで,物体数の正確性を改善する。
    • 特に高い物体数を指定した場合において,既存のベンチマークや新しいデータセットで一貫して性能が向上する。
    • 計算コストと精度を両立しており,様々な拡散モデルのバックボーンに適用可能である。

    Link: https://arxiv.org/abs/2603.19676

  • GoAgent: LLMベースのマルチエージェントシステムにおけるエージェント群コミュニケーショントポロジー生成 [cs.LG, cs.AI, cs.MA]目的:LLMベースのマルチエージェントシステムのコミュニケーショントポロジー生成手法
    • 複雑な課題解決において,LLMベースのマルチエージェントシステムが有効であり,その性能はコミュニケーショントポロジーに依存する。
    • 既存手法では,ノード中心にトポロジーを生成するため,最適な協調や通信オーバーヘッドの削減が課題である。
    • エージェント群を基本単位としてトポロジーを生成し,協調性とグループ間連携を向上させることで,課題解決を目指す。
    • GoAgentは,LLMを用いてタスクに関連する候補グループを列挙し,それらを選択・接続することでコミュニケーショングラフを構築する。
    • グループ内での結束性とグループ間の協調性を同時に捉え,通信冗長性・ノイズを抑制する条件付き情報ボトルネック(CIB)を導入する。
    • 6つのベンチマークテストにおいて,93.84%の平均精度を達成し,トークン消費量を約17%削減することで,最先端の性能を示す。

    Link: https://arxiv.org/abs/2603.19677

  • オントロジーに基づく知識モデリングと,重み付き区間型2ファジー論理を用いた不確実性を考慮した屋外大気質評価 [cs.LG]目的:屋外大気質の評価手法
    • 都市化が急速に進む地域において,環境と公衆衛生への影響が大きいため,大気質評価は重要である。
    • 従来のAQI計算は明確な閾値を用いるため,不確実性やクラス間の遷移を適切に扱えないという課題がある。
    • 不確実性を考慮し,AQIの分類信頼性を向上させるためのフレームワークを提案し,解決を目指す。
    • 提案手法は,従来の明確な手法や型1ファジーアプローチと比較して,AQI分類の信頼性と不確実性の処理能力を向上させる。
    • オントロジーと重み付き区間型2ファジー論理の統合により,説明可能な意味的推論と,大気質モニタリングシステムのためのインテリジェントな意思決定支援が可能となる。
    • OWLベースの大気質オントロジーを開発し,汚染物質,モニタリングステーション,AQIカテゴリなどを表現することで,環境ガバナンスアクションの推論を可能にした。

    Link: https://arxiv.org/abs/2603.19683

  • 長期的計画能力向上のためのサブゴール駆動型フレームワーク [cs.AI, cs.LG, cs.MA]目的:長期的計画能力を持つLLMエージェントの改善
    • LLMエージェントは,デジタル環境の自律制御において重要な役割を担う。
    • 既存のLLMエージェントは,長期的な計画において,情報更新への追従や報酬の希薄さが課題。
    • サブゴール分解とマイルストーン報酬による,長期タスクにおけるエージェントの堅牢性向上を目指す。
    • 本研究では,オンライン計画に独自のモデルを活用するフレームワークを提案。
    • また,マイルストーンに基づく報酬信号を用いるRLトレーニングフレームワークMiRAを提示。
    • MiRAはGemma3-12Bの成功率を大幅に向上させ,GPT-4等の性能を上回った。

    Link: https://arxiv.org/abs/2603.19685

  • 大規模生成モデルの限界収益とゲーデル・タルスキ・ローブ限界 [cs.LO, cs.LG]目的:生成モデルの拡張に伴う能力向上限界の理論的分析
    • 生成モデルはAI技術の中核であり,その性能向上が様々な分野の進歩に不可欠である。
    • モデルの規模拡大に伴い,能力向上の度合いが鈍化する現象が観察されているが,理論的な理解が不足している。
    • モデル拡張に伴う能力向上限界を数学的に明らかにし,長期的成長の制約を考察する。
    • 生成モデルの能力向上は,モデル容量の増加に伴い,解決可能なタスクの増加分が漸近的にゼロに収束するという構造的結果が得られた。
    • 複雑度重み付き仮説クラスに基づく予測理論的洗練により,予測設定における限界改善の定量的な上限が示された。
    • ゲーデルの不完全性定理,タルスキの定義不可能性定理,ローブの定理などを応用し,十分表現力のある推論システム内での未解決論理タスクの永続性を示した。

    Link: https://arxiv.org/abs/2603.19687

  • 後悔分析に基づくスリーピング競合バンディット [cs.HC, cs.LG, cs.GT]目的:スリーピング競合バンディット問題に対する後悔分析
    • オンライン学習とゲーム理論を融合させた分野であり,資源配分やマッチング問題への応用が期待される。
    • 従来のモデルでは,参加者と選択肢の利用可能性が常に一定であるという制約があった。
    • 参加者と選択肢の利用可能性が時間とともに変化する状況に対応するモデルを構築し,その最適解を追求する。
    • 提案アルゴリズムは,Nがプレイヤー数,Kが選択肢数,Tiが各プレイヤーのラウンド数,Δが最小報酬差であるとき,漸近的な後悔限界O(NKlogTi/Δ2)を達成する。
    • 同様の仮定の下で,後悔下限Ω(N(K-N+1)logTi/Δ2)も示す。
    • 選択肢数Kがプレイヤー数Nよりも大きい場合,提案アルゴリズムは漸近的に最適である。

    Link: https://arxiv.org/abs/2603.19700