arXiv雑要約

AI - 2026/03/17 公開

拡散モデルにおける時間的混合精度 [eess.SY, cs.SY, cs.CV, cs.LG]目的：拡散モデルの時間的混合精度フレームワーク
- 画像生成において拡散モデルが主流であるため，その効率化は重要である。
- 従来の量子化では，全ステップで固定精度であるため，最適化の余地があった。
- 時間ステップごとに精度を最適化し，推論速度と画質のバランスを改善すること。
- TMPDiffは，様々な拡散モデルとデータセットで，均一な精度ベースラインを上回る性能を示した。
- 知覚的品質が10〜20％向上し，推論速度も向上している。
- FLUX.1-devデータセットでは，16ビット推論の2.5倍の速度で，フル精度モデルに対するSSIMが90%に達した。
Link: https://arxiv.org/abs/2603.14062
実際の交渉データに基づく複数者交渉ゲームのベンチマーク [cs.MA, cs.AI, cs.LG]目的：複数者交渉ゲームのベンチマーク
- 現実世界の交渉は，戦略的相互作用の重要なケーススタディである。
- 既存の研究は，最終的な合意に焦点を当て，段階的なコミットメントの重要性を見過ごしている。
- 交渉における価値評価戦略の有効性を評価し，長期的な計画能力の向上を目指す。
- 本研究では，インセンティブ整合性，目標の複雑さ，ペイオフ分布を調整可能なゲーム生成器を導入した。
- 報酬，楽観的な上限，悲観的な下限の3つの価値関数近似を評価し，それぞれの戦略的優位性を明らかにした。
- ゲーム構造の違いによって最適な評価戦略が変化することを示し，長期的な計画能力を持つエージェントの必要性を提言した。
Link: https://arxiv.org/abs/2603.14066
自然災害による大規模停電期間の予測のためのゲート付きグラフ注意ネットワーク [cs.RO, cs.LG]目的：自然災害による大規模停電期間の予測
- 気候変動により大規模停電が増加しており，社会経済に深刻な影響を与えるため，エネルギーインフラの強靭性向上が重要である。
- 停電期間の正確な推定が困難であり，停電による損失を最小限に抑えるための対策が求められている。
- 複雑な空間特性を持つ大規模停電データに対し，高精度な停電期間予測モデルを構築することを試みる。
- 提案手法であるBiGGATは，既存モデルと比較して，停電期間の予測性能において優れていることが示された。
- BiGGATは，グラフ注意ネットワークとゲート付き再帰型ユニットを組み合わせることで，複雑な空間特性を捉えることに成功した。
- 米国南東部の6つの主要なハリケーンのデータを用いた実験により，BiGGATの有効性が確認された。
Link: https://arxiv.org/abs/2603.14069
MotionCFG：確率的概念摂動による運動ダイナミクスの強化 [cs.CV, cs.AI, cs.LG]目的：テキストから動画への生成における運動ダイナミクス改善
- 動画生成技術は発展しているが，高品質で自然な運動表現が課題となっている。
- 従来のCFGは負のプロンプトに依存するが，意味的なバイアスやオブジェクトの歪みを生じやすい。
- 概念摂動による対照学習で，運動ダイナミクスを改善し，コンテンツのずれを抑制する。
- MotionCFGは，概念埋め込みにガウスノイズを注入することで，多様な運動のバリエーションを学習する。
- この手法は，初期のノイズ除去段階に介入することで，計算コストを抑えつつ運動ダイナミクスを向上させる。
- 複雑な概念（オブジェクトの正確な数など）の制御にも有効であり，テキストガイダンスだけでは困難な調整を可能にする。
Link: https://arxiv.org/abs/2603.14073
衛星画像超解像のための自己教師あり不確か性推定 [cs.CV, cs.LG]目的：衛星画像超解像における不確か性推定手法
- 衛星画像は広範囲のモニタリングに不可欠であり，高解像度化技術の重要性は高い。
- 高品質な学習データペアの不足が，衛星画像超解像のボトルネックとなっている。
- 教師なしで不確か性を推定し，より信頼性の高い画像再構成を目指す。
- 提案手法は，高解像度データにアクセスすることなく，画像超解像における不確か性を推定可能。
- ベイズリスク最小化により，事後平均と分散が最適な推定値として得られることを示した。
- 合成SkySat L1Bデータセットでの評価により，教師あり手法と同等のキャリブレーションされた不確か性推定が実現された。
Link: https://arxiv.org/abs/2603.14074
層注意残差とコントラスト学習によるメンタルヘルス分類の強化 [cs.LG]目的：メンタルヘルス分類の性能向上
- メンタルヘルス問題の早期発見と適切なケアは，個人の幸福と社会全体の健康にとって重要である。
- メンタルヘルス問題は多様で，症状が類似しているため，正確な分類が困難である。
- 従来の学習方法では，特徴空間が複雑になり，潜在的な情報を十分に活用できない問題を解決する。
- 提案手法は，SWMHベンチマークにおいて74.36%のスコアを達成し，既存のドメイン特化型モデルを上回る性能を示した。
- 層注意残差集約と教師ありコントラスト学習により，特徴空間の構造を再構築し，混乱しやすいメンタルヘルス問題間の幾何学的マージンを拡大した。
- 学習された層の重要度を通じて，解釈可能性の向上にも貢献する。
Link: https://arxiv.org/abs/2603.14075
感情の一貫性を重視したテキスト分類のためのコントラスト多頭学習 (CMHL) [cs.CL, cs.LG]目的：感情的に一貫性のあるテキスト分類のための手法
- 自然言語処理において，テキストの感情分析は重要な課題であり，その精度向上は様々な応用分野に貢献する。
- 既存手法は大規模言語モデルや複雑なアンサンブルに依存しており，計算コストが高く，解釈性に乏しいという課題がある。
- 本研究は，大規模モデルに頼らず，より効率的かつ解釈可能なモデルで高精度な感情分析を実現することを目的とする。
- 提案手法CMHLは，わずか125Mパラメータで，56倍も大きいLLMやsLMアンサンブルを凌駕する性能を示した。
- dair-ai Emotionデータセットにおいて，F1スコア93.75%を達成し，既存の最高性能を更新した。
- Reddit SWMHデータセットにおいても，MentalBERTやMentalRoBERTaといったドメイン特化モデルを上回り，メンタルヘルスに関する問題の検出感度を高めた。
Link: https://arxiv.org/abs/2603.14078
低SNR膵MRIにおけるロバストなT2分布推定のためのブートストラップ物理特性誘導ニューラルネットワーク [cs.LG]目的：低SNR膵MRIにおけるロバストなT2分布推定手法の開発
- 膵臓疾患の早期発見・診断には，非侵襲的な評価法の確立が不可欠である。
- 低SNR環境下では，従来のT2分布推定手法はノイズの影響を受けやすく，精度が低下する。
- 本研究は，ノイズに強く，より正確なT2分布推定を可能とする手法を提案する。
- 提案手法は，反復スキャン間およびT1DM患者と健常者間の識別において，Wasserstein距離の点でNNLSや決定論的深層学習モデルを上回る性能を示した。
- 推論時のブートストラップにより，ノイズアーチファクトが緩和され，基礎となる緩和分布への忠実性が向上することが示された。
- 本研究は，低SNR腹部MRIにおける定量的なT2緩和測定の精度向上に貢献する。
Link: https://arxiv.org/abs/2603.14084
次トークン予測器における一見役に立たない特徴の創発の理解 [cs.LG, cs.CL]目的：次トークン予測における勾配信号の構成要素と，特定の機能の創発への影響の推定
- Transformerは自然言語処理の基盤であり，その内部動作の理解は重要である。
- Transformerが予測に直接関係ない抽象的な特徴を学習することが課題となっていた。
- 学習過程における隠れた特徴の起源を解明し，Transformerの内部動作を理解すること。
- 勾配信号の構成要素を分析することで，不要に見える特徴がどのように創発されるかを特定した。
- OthelloGPTや小規模言語モデルにおいて，その分析手法の有効性を検証した。
- 事前学習済みLLMにおいて，高い/低い影響を持つ特徴が，コードのような形式的推論に関連することが示された。
Link: https://arxiv.org/abs/2603.14087
ニューラルネットワークアルゴリズムを用いたオンボード推論のための4つのFPGA加速宇宙利用事例の評価 [cs.AR, cs.LG]目的：ニューラルネットワークアルゴリズムによるFPGA加速の評価
- 宇宙探査における高性能センサーの利用が増加しており，データ処理能力が重要となっている。
- オンボードでのデータ処理能力の限界と，地上への通信容量の制約が課題となっている。
- FPGAによるニューラルネットワークの加速が，宇宙ミッションにおけるデータ処理の効率化に貢献する。
- Vitis AIは，ARM CPUと比較して最大34.16倍の推論速度向上を達成した。
- カスタムHLS設計は最大5.4倍の高速化を実現し，DPUにない演算子をサポートした。
- FPGA加速により，推論あたりの消費エネルギーを削減し，オンボードフィルタリング等の応用が可能となった。
Link: https://arxiv.org/abs/2603.14091
ソフト平均期待校正誤差 (SMECE): 確率的ラベルに対する校正指標 [cs.LG, stat.ME]目的：確率的ラベルに対する校正指標の開発
- 機械学習モデルの信頼性を評価する上で，校正が不可欠である。
- 従来の期待校正誤差 (ECE) は，確率的ラベルを二値ラベルとして扱うため，不適切である。
- 確率的ラベルに適した校正指標を開発し，信頼性の評価を改善すること。
- 確率的ラベルの場合にECEが構造的な誤りを犯すことを指摘した。
- ソフト平均期待校正誤差 (SMECE) を提案し，確率的ラベルに対応できることを示した。
- SMECEは，ラベルが二値の場合にはECEと一致する厳密な一般化である。
Link: https://arxiv.org/abs/2603.14092
潜在空間は全て平坦ではない：双曲的概念制御 [cs.LG, cs.AI]目的：テキスト埋め込み空間における概念の制御方法
- 生成AIの発展に伴い，有害コンテンツ生成のリスクが高まっており，制御技術が重要である。
- 既存手法はユークリッド空間での調整に頼るため，概念の安定的な制御が課題となっていた。
- 双曲空間を利用し，より表現力豊かで安定した概念制御を実現することを目的とする。
- 双曲制御(HyCon)は，既存の生成モデルと双曲テキストエンコーダを組み合わせることで，高性能な制御を可能にする。
- HyConは，4つの安全性評価基準と4つのT2Iバックボーンにおいて，最先端の結果を達成した。
- 双曲空間による制御が，信頼性の高いT2I生成に有効であることが示された。
Link: https://arxiv.org/abs/2603.14093
疑念の簡潔な説明：拒否オプション付き線形モデルにおける最小サイズの仮説的説明 [cs.LG, cs.AI]目的：線形モデルにおける最小サイズの仮説的説明の算出
- AIの信頼性は，意思決定だけでなく，決定が困難な状況への対応と説明にかかる。
- 仮説的説明の厳密な計算はNP困難であり，実用上の適用が制限されている。
- 拒否オプション付き線形モデルにおける最小サイズの仮説的説明の算出を目指す。
- 受容された事例では，最適な説明を効率的に算出するために，既存の対数線形アルゴリズムを適用する。
- 拒否された事例では，拒否の最小サイズの仮説的説明を特徴づける0-1整数計画法を定式化する。
- 実験結果は，最小サイズを保証しない線形計画法アプローチよりも効率的であることを示している。
Link: https://arxiv.org/abs/2603.14096
ST-ResGAT：道路状況予測と優先度に基づく維持管理のための説明可能な時空間グラフニューラルネットワーク [cs.MS, math.ST, stat.ML, stat.TH, cs.RO, cs.LG, cs.AI, cs.CE, cs.ET, cs.NE]目的：道路状況の予測と，それに基づく維持管理の優先順位付け
- 気候変動の影響を受けやすい道路網において，予防的な維持管理は重要であり，効率的なインフラ管理が求められている。
- 従来の道路維持管理は事後対応型であり，予測に基づいた効率的な計画が不足している。
- 本研究は，道路の構造的劣化を空間的にも時間的にも考慮した予測モデルを開発し，限られた資源での維持管理を可能にする。
- ST-ResGATは，バングラデシュの実際の道路データを用いて，従来の機械学習モデルを大きく上回る予測精度を示した（R2 = 0.93，RMSE = 2.72）。
- モデルの解釈可能性を検証した結果，学習された優先順位が確立された物理工学理論と一致することが確認された。
- ASTM規格への適合性も高く，安全な予測を実現し，持続可能なインフラ管理への応用が期待される。
Link: https://arxiv.org/abs/2603.14107
高速LLM推論のためのSVD文脈スパース性予測子 [cs.RO, cs.LG]目的：大規模言語モデルの高速推論
- LLMの普及には計算資源が不可欠であり，効率的な推論手法が求められている。
- 文脈スパース性は計算量を削減するが，精度劣化を抑える予測器の学習が必要である。
- 学習不要な予測器により，LLMの推論速度を向上させ，エッジデバイスでの利用を促進する。
- 提案手法は，ReGLUベースのFFNの推論を加速し，最大1.8倍のデコーディング時間短縮を達成した。
- ベンチマークスコアの劣化は1%未満であり，複雑な数学・コード生成タスクにおいても高い性能を維持した。
- ゲート射影行列のSVDと閾値較正アルゴリズムにより，高速かつ精度劣化の少ない推論を実現した。
Link: https://arxiv.org/abs/2603.14110
エージェントを活用したハニーネットの構成に関する研究 [cs.CR, cs.AI]目的：ハニーネットの動的な構成管理
- サイバー攻撃の巧妙化に対応するため，攻撃者の行動を継続的に監視・分析する重要性が高まっている。
- ハニーポットの展開数は資源に制限され，最適な資産選択が課題となっていた。
- 攻撃状況に応じてハニーポットの構成を自動的に変更し，効率的な攻撃者誘導を目指す。
- 提案手法は，侵入検知システムのアラートとネットワーク状態を分析し，攻撃者の意図を推測する。
- シミュレーション環境において，攻撃者の行動を効果的に推測し，資源制約下での効率を改善できることが示された。
- 本研究は，動的にハニーネットを再構成することで，攻撃者のエンゲージメントを維持しつつ，不必要な露出を最小限に抑える。
Link: https://arxiv.org/abs/2603.14122
機関的スケーリング則：非単調な適合性，能力と信頼の乖離，そして共生遺伝的スケーリング [cs.AI]目的：生成AIにおける機関的適合性（能力，信頼，手頃な価格，主権を包括的に測定）の非単調性
- AI技術の発展は社会に大きな影響を与え，その影響を理解し，適切に管理する必要がある。
- 従来のAIスケーリング則は，モデル規模の拡大に伴う性能向上を前提としているが，現実には限界が存在する。
- モデル規模の拡大だけでは限界があり，特定の機関に適応した専門モデルの連携が重要になる点を解明する。
- 従来のAIスケーリング則が単調増加を前提とするのに対し，機関的適合性は環境依存的な最適規模を持つことが示された。
- モデル規模が拡大するにつれて，能力と信頼の間に乖離が生じることが数学的に証明された。
- 特定のドメインに特化したモデル群が，汎用モデルを凌駕する可能性が，共生遺伝的スケーリングを通じて示された。
Link: https://arxiv.org/abs/2603.14126
拡散報酬蒸留による拡散強化学習 [cs.CV, cs.AI, cs.LG]目的：拡散モデルを用いた強化学習の安定化と性能向上
- 拡散モデルは高精度な生成性能を持つが，詳細な指示への追従性などに課題がある。
- 拡散モデルの強化学習は不安定になりやすく，勾配の分散が大きいなどの問題がある。
- 報酬関数を効率的に最適化し，生成品質を向上させることを目指す。
- 提案手法であるCRDは，正則化された報酬最大化に基づき，拡散モデルの微調整を効率的に行う。
- プロンプト内中心化により，正規化定数が相殺され，安定した報酬マッチングを可能にする。
- 実験により，CRDが高速な収束と報酬ハッキングの抑制を実現し，高い性能を示すことが確認された。
Link: https://arxiv.org/abs/2603.14128
再構成損失が原因か？ JEPAを超える試み [cs.CL, cs.LG]目的：予測表現学習と再構成ベースのオートエンコーダの性能比較
- 時系列データ分析において，潜在状態の抽出は重要な課題である。
- オートエンコーダは，目的関数の非対称性やボトルネックの影響を受けやすい。
- 予測選択を学習することで，オートエンコーダの安定性と性能を向上させる。
- オートエンコーダの失敗は，目的関数の非対称性と成分選択の影響が強いことが判明した。
- 過パラメータ化されたPCAに見られる有益な特徴選択行動を模倣したゲート付き予測オートエンコーダを提案した。
- 提案モデルは，ノイズレベルに関わらず安定しており，JEPAと同等またはそれを上回る性能を示した。
Link: https://arxiv.org/abs/2603.14131
DualSwinFusionSeg：マルチスケール融合とUNet++を用いた二重Swin Transformerによる火星地すべりセグメンテーション [cs.CV, cs.LG]目的：火星における地すべりのセグメンテーション
- 惑星地質学，ハザード評価，将来のロボット探査において，火星の地形理解は不可欠である。
- 火星の画像データは，観測モダリティの異質性やラベル付きサンプル数の少なさから，地すべりの検出が困難である。
- 異なる解像度と統計的特性を持つ複数のモダリティを統合し，限られたデータでのセグメンテーション精度向上を目指す。
- 提案手法DualSwinFusionSegは，モダリティ固有の特徴抽出とマルチスケールクロスモダリティ融合を分離することで，セグメンテーション性能を向上させた。
- 実験の結果，モダリティ固有のエンコーダーとシンプルな連結ベースの融合が，限られた学習データ下でセグメンテーション精度を向上させることを確認した。
- 開発ベンチマークで0.867 mIoU，テストセットで0.783 mIoUを達成し，マルチモーダルな惑星表面セグメンテーションにおいて高い性能を示した。
Link: https://arxiv.org/abs/2603.14132
高温ガス炉における強制冷却喪失時の減圧に関する多忠実度サロゲートモデリング [cs.LG]目的：高温ガス炉の強制冷却喪失時減圧過渡現象における，自然循環開始までの時間および自然循環後の温度の予測
- 原子力発電プラントの安全性評価において，過渡現象の解析は不可欠であり，信頼性の高い解析手法が求められている。
- 高精度なCFD計算は計算コストが高く，大規模パラメータ空間の探索には不向きであるという課題がある。
- 異なる精度のシミュレーション情報を組み合わせることで，計算コストを削減しつつ高精度な予測を可能にする。
- 多忠実度サロゲートモデルの性能は，入力変数の重要度や精度レベル間の関係に大きく依存することが示された。
- 事前感度分析で特定された主要な入力変数を用いたモデルは，全入力変数を用いたモデルよりも優れた性能を示した。
- 低精度と高精度の組み合わせが，中精度データを含む設定よりも高い性能を発揮し，二忠実度構成は三忠実度構成と同等またはそれを上回った。
Link: https://arxiv.org/abs/2603.14143
生成AIの別の軌跡 [cs.AI, cs.LG]目的：生成AIの持続可能性を脅かす現状への対策
- 生成AI技術は急速に進化しており，社会への貢献が期待されている。
- 大規模モデルの推論コスト増大と，物理的な制約が課題となっている。
- ドメイン特化型スーパーインテリジェンスによる解決を目指す。
- 現在の生成AIは推論によるエネルギー消費が大きく，物理的制約との矛盾が生じている。
- ドメイン固有の知識構造（知識グラフ等）に基づき，小規模言語モデルによる専門的な推論能力の獲得を提案する。
- 汎用モデルではなく，複数のドメイン特化型モデルで構成される社会を構築し，持続可能なAIシステムを目指す。
Link: https://arxiv.org/abs/2603.14147
前方へのアライメント，後方への適応：ロジックゲートネットワークにおける離散化ギャップの解消 [cs.RO, cs.LG, cs.AI]目的：ロジックゲートネットワークにおける離散化ギャップの分析と解消
- ニューラルネットワークの性能向上には，効率的な学習と推論の統合が不可欠である。
- 学習時と推論時で異なる手法を用いることで，性能低下や不安定化を引き起こす可能性がある。
- 学習と推論のギャップを解消し，安定した学習と高い推論精度を実現することを目指す。
- 本研究では，ハード選択とソフト混合，そしてGumbelノイズの有無による4つの手法を比較分析した。
- CAGE（Confidence-Adaptive Gradient Estimation）を導入したハード選択により，全温度帯域でゼロ選択ギャップを達成し，高い精度を維持した。
- Gumbel-STは，低温度では誤差が小さいものの，温度を下げるにつれて精度が大幅に低下することが確認された。
Link: https://arxiv.org/abs/2603.14157
臨床医の入力が，最先端AIモデルを正確かつ有害な判断へと導く [cs.HC, cs.LG]目的：臨床医とAIの相互作用におけるAIモデルの行動特性の評価
- 医療現場におけるAI活用が進む中，その安全性と有効性の検証が不可欠である。
- 臨床医の思考がAIモデルの判断に与える影響は十分に解明されていない。
- 臨床医とAIの協調による診断精度向上と，有害な判断の抑制を目指す。
- AIモデルは臨床医からの情報提供によって診断の一致率が大幅に向上したが，有害な判断も引き起こす可能性がある。
- 専門家の文脈情報は診断精度を向上させた一方，敵対的な文脈情報は一部モデルで診断能力を低下させた。
- 推論時のスケーリングや臨床医の不確実性シグナルは，有害な判断の抑制に有効であることが示された。
Link: https://arxiv.org/abs/2603.14158
深層確率モデル合成は，個人間の全脳神経活動の統一的モデリングを可能にする [cs.RO, cs.LG, q-bio.NC]目的：複数個体の共通システムに関する実験データを統合する定量モデル
- 脳科学研究では，種全体の脳を理解するため，多数個体の脳データを統合する必要がある
- 従来の機械学習モデルは，個々のシステムインスタンスを個別に扱うため，データ統合が困難である
- 本研究は，システム特性を利用してインスタンス間でデータを結合するDPMSを提案し，この課題を解決する
- DPMSは，回帰，分類，次元削減など，多様なモデルクラスを統合できる。
- 合成データおよびオタマジャクシの全脳神経活動データを用いて，DPMSが単一インスタンスモデルを上回ることを示した。
- DPMSは，条件付き事前分布とインスタンス固有の事後分布を学習することで，システムインスタンスを紐づけ，その固有構造を捉える。
Link: https://arxiv.org/abs/2603.14161
引用を伴うRAG：税務コンプライアンスにおける引用，説明可能な知識検索 [cs.IR, cs.AI, cs.CL]目的：税務文書インテリジェンスのための引用を伴うRAGフレームワーク
- 税務当局は大量の文書を扱うため，効率的な情報検索が不可欠である。
- 既存のRAGアプローチでは，透明性，引用の正確性，安全性に課題がある。
- 税務コンプライアンスにおける信頼性の高いAIを実現するための経路を示す。
- 提案手法は，ソースを重視した取り込み戦略，ページレベルの出自保持，生成時の引用強制，証拠不十分時の棄権機能を備えている。
- 実際のIRSおよび州税文書を用いた評価により，引用の正確性の向上，ハルシネーションの低減が示された。
- 分析者にとって有用な説明可能性を提供し，税務コンプライアンスにおける信頼できるAIへの道筋を示す。
Link: https://arxiv.org/abs/2603.14170
未知の状況下でのナビゲーション：文脈内推論による表形式データの異常検知手法 TACTIC [cs.LG]目的：表形式データの異常検知
- 表形式データの異常検知は，様々な分野で重要であり，異常を早期に発見することで損失を最小限に抑えることができる。
- 深層学習モデルは，複雑なデータパターンを学習できるものの，異常検知においては十分な性能を発揮できない場合が多い。
- 本研究では，文脈内学習を活用し，データ固有の調整を避けつつ，高速かつデータに依存した異常検知を実現する。
- 提案手法TACTICは，異常に焦点を当てた事前学習により，文脈のノイズに対する安定性と計算効率を向上させた。
- TACTICは，従来のスコアベースの手法とは異なり，明確な異常判定を単一のフォワードパスで可能にする識別的予測器として学習されている。
- 実験結果から，TACTICは既存のタスク固有の方法と比較して，高い競争力を持つことが示された。
Link: https://arxiv.org/abs/2603.14171
機械学習とRAGを活用した金融サービスマーケティングにおけるハイブリッド意図対応型パーソナライゼーション [cs.LG, cs.AI, cs.IR]目的：金融サービスマーケティングにおけるパーソナライゼーションの実現
- 金融業界では，顧客獲得と維持のためにパーソナライズされたマーケティングが重要である。
- 既存手法では，顧客の行動予測と規制遵守を両立したコンテンツ生成が課題である。
- 予測モデルとRAGを組み合わせることで，透明性と説明可能性の高いパーソナライゼーションを実現する。
- 本研究では，従来の機械学習とRAGを活用したハイブリッドアーキテクチャを提案し，顧客セグメンテーション，意図モデリング，コンテンツ生成を統合した。
- 実験結果から，時間的モデリングと意図特徴がパーソナライゼーションの精度を向上させることが示された。
- 引用に基づいた検索により，根拠のない生成が減少し，規制された環境における監査可能性が向上することが確認された。
Link: https://arxiv.org/abs/2603.14173
勾配変調と射影によるマルチモーダルドメイン汎化のバランス化 [cs.LG, cs.CV]目的：マルチモーダルドメイン汎化における最適化のバランス
- 多様なデータ形式を統合することで，よりロバストなモデル構築に貢献する。
- 異なるモダリティ間の学習速度の不均衡が，性能低下の要因となる。
- ソースドメインに偏らず，未知ドメインでの汎化性能を向上させる。
- 提案手法GMPは，分類とドメイン不変性の目的関数を分離し，各モダリティの勾配を調整する。
- セマンティックおよびドメイン信頼度に基づき勾配を調整することで，最適化のバランスを促進する。
- 実験の結果，GMPは最先端の性能を達成し，様々なMMDG手法と柔軟に統合できることが示された。
Link: https://arxiv.org/abs/2603.14175
人工知能を活用した単極心電図による高カリウム血症の非侵襲的検出：開発，多施設共同検証，および概念実証 [cs.LG, cs.AI]目的：高カリウム血症の非侵襲的スクリーニング
- 慢性腎臓病や心不全患者において高カリウム血症は生命を脅かす疾患であり，早期発見が重要である。
- 病院外での高カリウム血症のモニタリングは頻繁に行われず，迅速な対応が困難である。
- 本研究は，単極心電図とAIを活用し，病院外でも高カリウム血症を迅速にスクリーニングできるシステムを開発する。
- Pocket-Kは，内部テストでAUROC 0.936，時間的検証で0.858，外部検証で0.808という高い精度を示した。
- KDIGO定義による中等度以上の高カリウム血症では，時間的検証と外部検証でAUROCがそれぞれ0.940と0.861に向上した。
- 外部検証における陰性予測値は99.3%を超え，高カリウム血症の除外に有用であることが示された。
Link: https://arxiv.org/abs/2603.14177
より深い思考，より弱い焦点を理解し緩和する：マルチモーダル大規模言語モデルにおける推論中の知覚的障害 [cs.RO, cs.HC, cs.CL, cs.CV, cs.AI]目的：マルチモーダル大規模言語モデルにおける推論中の知覚的障害とその緩和策
- マルチモーダル言語モデルの発展は，画像とテキストの理解を統合し，より高度なAIシステム構築に不可欠である。
- 複雑な推論を伴うタスクにおいて，モデルの視覚的注意が散漫になり，重要な情報を見落とす問題が存在する。
- 視覚的注意を誘導し，推論時の焦点のずれを抑制することで，モデルの性能向上を目指す。
- モデルの視覚的注意が散漫になる現象を「注意の分散」と特定し，その原因を分析した。
- 質問に関連する領域への注意を重視する「Visual Region-Guided Attention (VRGA)」フレームワークを提案した。
- VRGAフレームワークは，視覚的根拠付けと推論の精度を向上させ，モデルの視覚情報処理に関する解釈可能性を提供した。
Link: https://arxiv.org/abs/2603.14184
マルチモーダルLLMにおける関係性を考慮した安全なアンラーニング [cs.AI]目的：マルチモーダルLLMの安全性に関する問題解決
- 大規模言語モデルの安全性確保は，社会実装において不可欠である。
- 既存手法は関係性を考慮せず，誤った情報削除や機能低下を引き起こす可能性がある。
- 特定のオブジェクトと関係性による安全性の問題を，効率的に解決すること。
- 提案手法は，unsafeなオブジェクト-関係性-オブジェクトの組を明示的に表現し，ピンポイントな修正を行う。
- LoRAを用いることで，オブジェクトの周辺関係性や安全な利用を維持しつつ，unsafeな組を抑制する。
- CLIPを用いた実験と，言い換えや分布外画像に対する頑健性評価により，有効性が確認された。
Link: https://arxiv.org/abs/2603.14185
歩行距離の限界を超えて：意味情報に基づいた長距離歩行者認識 [cs.CV, cs.AI]目的：長距離条件下における，意味情報に基づいたマルチモーダル歩行者認識
- 歩行者認識は，非侵襲的かつ偽装困難な生体認証技術として重要性が増している。
- 既存手法は近距離・単一モダリティに限定され，実環境での長距離・距離変化への対応が課題である。
- 多様な屋外環境と距離における，ロバストな長距離歩行者認識を可能にすることを目的とする。
- LRGaitは，長距離歩行者認識のための初のLiDAR-Cameraマルチモーダルベンチマークデータセットである。
- EMGaitNetは，RGB画像と点群間のギャップを埋める，意味情報に基づく融合パイプラインを採用している。
- CLIPベースのSeMiモジュールとSGAモジュール，SCAFモジュール，STモジュールが効果を実証している。
Link: https://arxiv.org/abs/2603.14189
効率的なグループ条件付き保証を持つ連合型帰納的予測 [eess.SY, cs.SY, cs.LG, cs.AI, stat.ML]目的：信頼性のあるAIシステムの不確実性定量
- AIシステムの信頼性確保は，医療や金融など様々な分野で不可欠である。
- 連合学習環境下では，分散したデータに対する信頼区間の算出が困難である。
- グループごとの保証を持つ連合型帰納的予測法の開発。
- 本研究では，ローカルなキャリブレーションスコアからグループ層化コアセットを構築するGC-FCPを提案した。
- GC-FCPは，効率的な集約とサーバーでのキャリブレーションを可能にするコンパクトな重み付き要約をクライアントに伝達する。
- 合成データと実データを用いた実験により，GC-FCPが集中型キャリブレーションベースラインと比較して良好な性能を示すことが確認された。
Link: https://arxiv.org/abs/2603.14198
シーンテキスト画像の超解像のための二重拡散Transformer [cs.CV, cs.AI]目的：シーンテキスト画像の超解像
- シーンテキストの読みやすさ向上と機械認識精度向上に不可欠な技術分野である。
- 既存手法は外部OCRモデルへの依存や複雑な構造により，学習・再現が困難である。
- 外部OCRモジュールを用いず，内部的にテキスト情報を推論することを可能にする。
- DualTSRは，条件付きフローマッチングと離散拡散を組み合わせた二重拡散目的で単一のTransformerバックボーンを学習する。
- これにより，視覚情報とテキスト情報の相互作用が層ごとに可能となり，簡潔なエンドツーエンド構造を実現した。
- 合成データセットと実データセットの両方で，高い知覚品質とテキスト忠実度を達成した。
Link: https://arxiv.org/abs/2603.14207
ChArtist：統一的な空間と主題制御による図表生成 [cs.CE, cs.CV, cs.AI]目的：図表と視覚要素を融合させた絵図の自動生成
- 視覚的なストーリーテリングにおいて，絵図はデータと視覚表現を効果的に統合する手段として重要である。
- 視覚要素の柔軟性と，図表構造の厳格性の間で矛盾が生じやすく，高品質な絵図生成が困難である。
- 空間制御と主題制御を組み合わせることで，データ忠実性と視覚的美観を両立する絵図生成を可能にする。
- 本研究では，データ符号化情報のみをエンコードしたスケルトンベースの空間制御表現を導入し，参照画像の組み込みを容易にした。
- 拡散Transformer（DiT）を基盤とし，適応的位置エンコーディングと空間ゲート注意機構を活用することで，2種類の制御を効果的に統合した。
- 3万件のトリプレット（スケルトン，参照画像，絵図）からなる大規模データセットを構築し，生成された図表のデータ忠実性を評価する統一的な指標を提案した。
Link: https://arxiv.org/abs/2603.14209
資産としての記憶：エージェント中心から人間中心の記憶管理へ [cs.AI]目的：人間中心型汎用人工知能（AGI）に向けた新たな記憶パラダイム
- 大規模言語モデル（LLM）の限界を克服し，知識の進化と拡張を実現するため，個人の記憶管理が不可欠である。
- 既存の記憶システムは，個人所有や孤立化が進み，知識の共有や集団的進化が困難である。
- 個人の記憶をデジタル資産として活用し，継続的な知識成長と人間中心型AGIの実現を目指す。
- 本研究では，「資産としての記憶」という概念を提唱し，人間中心の記憶管理の重要性を強調した。
- 「手元の記憶」「記憶グループ」「集合的記憶進化」という3つの主要な特徴を提示した。
- 高速な個人記憶ストレージ，進化層，分散型交換ネットワークからなる三層構造のインフラストラクチャを提案した。
Link: https://arxiv.org/abs/2603.14212
UniFusion：頑健な表現とソース情報を意識した保存を備えた統一画像融合フレームワーク [cs.CV, cs.AI]目的：多様な画像ソースからの補完的な情報を統合し，より有益で視覚的に一貫性のある表現の生成
- 画像融合は，人間の知覚と下流の視覚タスクの両方にとって有用であり，その重要性は高い。
- 既存の融合手法は特定のタスクに特化しており，融合過程におけるソース情報の維持が課題である。
- UniFusionは，タスクを横断した汎化性能を持つ統一的なフレームワークを提供し，この課題を解決する。
- UniFusionは，DINOv3を活用してモダリティ整合性のある特徴抽出を行い，多様な入力に対して共有のセマンティック空間を確立する。
- ソース画像の理解を維持するため，再構成-アライメント損失を導入し，融合出力と入力間の整合性を維持する。
- 二重最適化戦略を用いて再構成と融合の目的関数を分離・共同最適化することで，滑らかな収束を保証し，優れた汎化能力を示す。
Link: https://arxiv.org/abs/2603.14214
インターリーブされたリサンプリングと再適合：ブラックボックス予測器のデータおよび計算効率の高い評価 [cs.RO, cs.HC, cs.CL, cs.LG]目的：大規模経験的リスク最小化における超過リスクの評価
- 機械学習モデルの性能評価は，実用的な応用において不可欠である。
- 従来の評価手法は，計算コストが高く，大規模モデルへの適用が困難な場合がある。
- データと計算資源を効率的に利用しつつ，正確な超過リスク評価を実現すること。
- 提案手法は，リサンプリングと再適合を交互に行うことで，計算効率を高めている。
- 単一のデータセットのみを用いて評価が可能であり，追加の検証データは不要である。
- 理論的な解析により，提案手法が予測誤差の上限を与えることが示されている。
Link: https://arxiv.org/abs/2603.14218
自律ロボット操作における安全な意思決定制御のためのリアルタイム神経記号倫理ガバナー [cs.RO, cs.AI, cs.LG]目的：自律ロボット操作における倫理的意思決定のガバナンス
- 人間中心・安全重視環境下でのロボット利用拡大に伴い，倫理的配慮は不可欠である。
- 既存システムでは，倫理的リスク評価と安全性の確保が十分でない場合がある。
- 倫理的リスクをリアルタイムに評価し，安全な意思決定を支援する仕組みを構築する。
- 提案手法は，Transformerベースの倫理推論と確率的倫理リスク場の定式化を統合することで，リスクを考慮した監督制御を実現した。
- ETHICSデータセットでファインチューニングされたDistilBERTモデルにより，自然言語タスク記述から倫理的意図を推論する能力を獲得した。
- シミュレーション実験により，モデルの安定性，倫理リスクの識別精度，安全性を考慮した意思決定の改善が確認された。
Link: https://arxiv.org/abs/2603.14221
コントラスト学習事前学習モデルに対するPIIのみのクエリによるメンバーシップ推論 [cs.CR, cs.AI]目的：コントラスト学習事前学習モデルにおける個人識別情報（PII）の記憶に関するメンバーシップ推論手法
- 大規模ウェブデータ利用モデルの普及に伴い，PIIの漏洩リスクが重要視されている。
- 既存のメンバーシップ推論は計算コストが高く，プライバシー侵害の可能性もある。
- テキストのみを用いた効率的かつプライバシーを尊重したメンバーシップ推論手法の開発。
- 提案手法UMIDは，テキストによるクロスモーダル潜在空間への逆変換と，類似度と変動性の抽出を行う。
- UMIDは，軽量な非メンバー参照と比較することで，メンバーシップを高い精度で検出できる。
- 多様なCLIPおよびCLAPアーキテクチャにおいて，UMIDは既存手法を凌駕する有効性と効率性を示す。
Link: https://arxiv.org/abs/2603.14222
自己インデックスKVCache：圧縮されたキーからのスパースアテンションの予測 [cs.LG, cs.AI]目的：スパースアテンションの効率的な予測
- 大規模言語モデル（LLM）の推論において，長い文脈や大規模バッチ処理が課題であり，メモリ効率が重要である。
- 既存手法は，スパース性予測と圧縮を分離し，複雑なインデックス構造や量子化方式に依存するため，効率が低い。
- 圧縮されたキー表現を自己インデックス構造として活用し，外部インデックスや学習ベースの予測器を不要にすること。
- 提案手法では，符号に基づく1ビットベクトル量子化（VQ）スキームを用いることで，圧縮と検索を統合したハードウェアフレンドリーな形式を実現した。
- FlashAttentionとのシームレスな統合により，追加の実行時間とメモリオーバーヘッドを最小限に抑え，効率的な推論を可能にした。
- 実験結果から，提案手法が有効性と効率性を両立することが示された。
Link: https://arxiv.org/abs/2603.14224
ソフトウェアエンジニアの，エージェント型コーディングアシスタントに対する認知的な関与度の理解 [cs.HC, cs.AI, cs.SE]目的：ソフトウェアエンジニアの認知的な関与と意味理解のプロセス
- AIの過度な依存は思考力低下を招く可能性があり，特に自律性の高いAIシステムでは注意が必要。
- 現状のエージェント型コーディングアシスタントは，熟考や検証を促す設計が不十分である。
- AI支援プログラミングにおける，エンジニアの関与を維持し，より深い思考を促進する。
- タスクの進行に伴い，ソフトウェアエンジニアの認知的な関与度は一貫して低下することが示された。
- 現在のエージェント型コーディングアシスタントは，反省，検証，意味理解のための手がかりが限られている。
- より豊かなインタラクションや認知的な強制メカニズムを活用した設計が，関与を維持する機会を提供する。
Link: https://arxiv.org/abs/2603.14225
ハイブリッドデータレイクにおけるマルチモーダル，マルチホップ質問応答のためのエージェントDAGオーケストレーションプランナーフレームワーク [cs.AI, cs.SE]目的：ハイブリッドデータレイクにおけるマルチモーダル，マルチホップ質問応答
- 企業における構造化データと非構造化データの統合が進み，自然言語による質問応答のニーズが高まっている。
- 既存の質問応答システムは，非効率な検索と結合に依存し，マルチホップ推論をサポートしていない。
- 構造化データと非構造化データを横断する複雑な質問に対し，正確かつ効率的な回答を実現すること。
- 提案フレームワークA.DOTは，ユーザーの質問を構造化・非構造化データストアを網羅するDAG実行プランに変換する。
- A.DOTは，スキーマを意識した推論，検証，並列実行，キャッシュ機構を取り入れ，質問応答の正確性と応答速度を向上させる。
- ベンチマークデータセットにおいて，A.DOTはベースラインと比較して，正答率が14.8%，完全性が10.7%向上した。
Link: https://arxiv.org/abs/2603.14229
特徴分離と較正を用いたドメイン偏りに対する連合学習 [cs.RO, cs.DC, cs.LG, cs.MM]目的：ドメイン偏りに対する連合学習における性能向上
- プライバシー保護が重要視される中で，分散環境での機械学習手法として連合学習が注目されている。
- クライアント間のデータ分布の偏り（ドメイン偏り）が，汎化性能の低下を招く大きな課題となっている。
- ドメイン特有の偏った特徴を分離・較正することで，一貫性のある表現空間を学習し，汎化性能を向上させる。
- 提案手法F^2DCは，ドメイン特有の偏った特徴を較正することで，各クライアントの表現学習における問題を解決する。
- ドメイン特徴分離器（DFD）とドメイン特徴補正器（DFC）の導入により，ロバストな特徴とドメイン関連特徴を分離し，識別信号を明示的にリンクさせる。
- ３つのマルチドメインデータセットでの実験により，F^2DCの有効性と，その構成要素の貢献が実証された。
Link: https://arxiv.org/abs/2603.14238
QiMeng-CodeV-SVA: RTLに基づく双方向データ合成によるハードウェアアサーション生成のための特化LLMの学習 [cs.CL, cs.AI, cs.AR, cs.LG]目的：ハードウェアアサーション生成のための特化LLMの学習
- ハードウェア検証において，信頼性の高いアサーションは不可欠であり，設計品質向上に繋がる。
- 高品質なアサーションデータが不足しており，自然言語からアサーションへの変換精度が低い。
- RTLに基づいたデータ合成と双方向翻訳により，データ不足と意味的等価性の検証という課題を解決する。
- 提案手法CodeV-SVA-14Bは，NL2SVA-Humanで75.8%，NL2SVA-Machineで84.0%のFunc.@1スコアを達成した。
- この結果は，GPT-5やDeepSeek-R1などの高性能LLMと同等かそれ以上の性能を示す。
- 大規模なオープンソースRTLを活用したデータ合成が，効果的なSVA生成に貢献している。
Link: https://arxiv.org/abs/2603.14239
GoldenStart：Q値誘導事前分布とエントロピー制御によるフローポリシーの蒸留 [cs.RO, cs.LG, cs.AI]目的：フローポリシーの蒸留手法
- 強化学習において，複雑な行動分布を捉えるフローポリシーは有望視されている。
- 推論速度の遅さと，効率的なオンライン探索の欠如が，実用上の課題となっている。
- 初期ノイズ分布の設計と，ポリシーの確率的制御を改善することで，効率と探索性能を高める。
- 提案手法 GoldenStart (GSFlow) は，Q値誘導事前分布とエントロピー制御を組み合わせた蒸留手法である。
- 状態に応じてQ値の高い領域に生成開始点を移動させることで，有望な行動への到達を早める。
- エントロピー正則化により，探索と利用のバランスを調整し，効率的な学習を実現する。
Link: https://arxiv.org/abs/2603.14245
LLMベースのWebエージェントが失敗する理由：階層的計画の視点 [cs.AI, cs.CL]目的：LLMベースのWebエージェントの失敗原因分析
- Web自動化へのLLM活用が期待される中で，その信頼性が課題となっている。
- 既存の研究では，成功率のみが評価され，失敗原因の特定が不十分である。
- Webエージェントの各段階における問題点を特定し，改善の方向性を示す。
- 階層的計画に基づき評価した結果，高レベルの計画よりも低レベルの実行がボトルネックであることが示された。
- PDDLによる計画は自然言語による計画よりも簡潔かつ目標指向的な戦略を生み出すことが確認された。
- 知覚的根拠付けと適応的制御の向上が，LLMベースのWebエージェントの信頼性向上に不可欠である。
Link: https://arxiv.org/abs/2603.14248
大規模推論言語モデルにおける過剰思考の軽減：推論経路逸脱監視による手法 [cs.CL, cs.AI]目的：大規模推論言語モデルにおける過剰思考の軽減
- 複雑なタスクにおいて，大規模言語モデルの推論能力は重要であり，その性能向上は不可欠である。
- 大規模言語モデルは，冗長な推論ステップにより性能と効率が低下する過剰思考を起こしやすいという課題がある。
- 推論経路逸脱監視により，過剰思考を検出し，冗長な推論を動的に停止することで，性能と効率を改善することを目指す。
- 本研究で提案する手法は，既存の早期終了手法と比較して，CoTに対する性能向上において最も大きな改善を示す。
- 推論経路逸脱指標を用いることで，モデルが正しい推論経路から逸脱する兆候を捉え，過剰思考の軌跡を効果的に検出する。
- 提案手法は，追加の学習コストを発生させず，推論時の処理スループットを低下させることなく，過剰思考を軽減する。
Link: https://arxiv.org/abs/2603.14251
ZOTTA：勾配を用いないゼロ次最適化によるテスト時適応 [cs.CV, cs.LG]目的：分布シフト下でのモデルのロバスト性を向上させるテスト時適応手法
- モデルの汎化性能を維持するため，分布シフトへの対応は重要である。
- 既存のテスト時適応手法は，計算コストが高く，量子化モデル等に適用が困難である。
- 勾配を用いないゼロ次最適化により，効率的かつ安定なテスト時適応を実現する。
- ZOTTAは，勾配を用いずに効率的に適応を行うフレームワークである。
- 分布に不変な特徴を持つ層を固定することで，最適化の次元を削減し，収束を加速する。
- 空間特徴を集約して整列させることで，勾配分散を低減し，最適化を安定化させる。
Link: https://arxiv.org/abs/2603.14254