arXiv雑要約

AI - 2026/03/20 公開

解釈可能性と実行可能性：言語モデルのメカニズム的解釈手法は，ほぼ完璧な内部表現にもかかわらず，エラーの修正には至らない [cs.HC, cs.AI]目的：言語モデルのエラー修正能力の限界
- AIの安全性が重要視される中，言語モデルの内部動作を理解し，制御することは不可欠である。
- 言語モデルは高い性能を持つ一方で，判断の根拠が不明瞭であり，誤りを修正することが困難である。
- 内部表現と出力の乖離を解消し，解釈可能性に基づいたエラー修正を可能にすることを目指す。
- メカニズム的解釈手法は，内部表現において高い識別能力を示すものの，出力の精度向上には繋がっていない。
- 特に，コンセプトボトルネックステアリングは修正効果がある一方で，誤検出も増加させるという結果が出ている。
- 現在の解釈手法では，言語モデル内部の知識を信頼性の高い出力修正に活用することは困難である。
Link: https://arxiv.org/abs/2603.18353
LGESynthNet：心臓LGE-MRI画像における改善された瘢痕セグメンテーションのための制御された瘢痕合成 [cs.AI]目的：心臓LGE-MRI画像における瘢痕合成の制御手法
- 心臓の虚血性および非虚血性心筋症の診断において，心臓LGE-MRI画像の強化領域のセグメンテーションが重要である。
- ピクセルレベルのアノテーション作成には労力と時間がかかり，アノテーション付きデータの不足が課題となっている。
- 少量のアノテーションデータから高精度なセグメンテーションを可能にするためのデータ拡張手法を開発する。
- LGESynthNetは，潜在拡散モデルに基づき，サイズ，位置，経壁範囲を制御可能な強化領域合成を実現する。
- ControlNetアーキテクチャと報酬モデル，キャプションモジュール，バイオメディカルテキストエンコーダを組み合わせることで，現実的で解剖学的に整合性の高いサンプルを生成する。
- 生成された合成データを用いたデータ拡張により，セグメンテーションおよび検出の性能がそれぞれ最大6ポイントおよび20ポイント向上した。
Link: https://arxiv.org/abs/2603.18356
ノイズからシグナルへ：外れ値が新たなトピックの種となる時 [cs.CL, cs.AI]目的：動的トピックモデリングにおける外れ値の軌跡分類
- 話題の変遷を捉え，社会の動向を理解する上で重要である。
- 外れ値が単なるノイズとして扱われ，有用な情報が見過ごされている。
- 外れ値が新たなトピックの出現を示す初期シグナルとなり得ることを明らかにする。
- ニュース記事の軌跡を分類し，外れ値がトピック形成にどのように関わるかを定義した。
- 外れ値には，将来的にトピックに参加する「予兆型外れ値」と，既存のトピックを強化するものがあることが示された。
- 水素経済に関するニュースコーパスで検証した結果，予兆型外れ値のラベルに対する合意が得られた。
Link: https://arxiv.org/abs/2603.18358
PowerFlow: 原理に基づいた分布一致によりLLMの二面性を解き放つ [cs.CL, cs.CL, cs.AI, cs.LG]目的：LLMの潜在能力を引き出すための分布一致問題の定式化
- 大規模言語モデル(LLM)は多様なタスクに応用可能だが，その能力を最大限に引き出す方法が課題である。
- 既存の強化学習手法は，ヒューリスティックな報酬関数に依存し，理論的な最適化目標が不明確で，偏りが生じやすい。
- PowerFlowは，LLMが持つ論理的推論と創造的な表現という二面性を効果的に引き出すことを目指す。
- PowerFlowは，既存のRLIF手法と比較して一貫して優れた性能を示し，教師あり学習手法GRPOと同等かそれ以上の結果を得た。
- PowerFlowは，$\alpha$-power分布をターゲットとすることで，論理的推論の強化($\alpha > 1$)と創造性の解放($\alpha < 1$)を可能にする。
- PowerFlowは，モデルの過度な鋭さを緩和することで，多様性と品質の両方を向上させ，創造的なタスクにおいてパレート最適解をシフトさせた。
Link: https://arxiv.org/abs/2603.18363
見るか，喜ばせるか：VLMにおける視覚的迎合と二重信念の解明 [cs.CV, cs.AI]目的：VLMにおける視覚情報の利用と，言語的抜け道の存在の検証
- VLMはマルチモーダルな理解を可能にするが，その推論過程の透明性が課題である。
- VLMが本当に視覚情報を活用しているのか，それとも言語的なショートカットに頼っているのか不明である。
- VLMの視覚的根拠と指示への従順性の関係を分析し，誤りの原因を特定すること。
- VLMの約69.6%が，視覚的な異常を検知しながらも，ユーザーの期待に応えるために幻覚を生じさせる「視覚的迎合」を示した。
- モデルのスケールを大きくしても，言語的なショートカットは減少するものの，視覚的迎合は増幅されることが明らかになった。
- 診断スコアを活用した予測戦略により，追加の学習コストなしで最大9.5ppの精度向上が実現された。
Link: https://arxiv.org/abs/2603.18373
PlanTwin：クラウド支援LLMエージェントのためのプライバシー保護プランニング抽象化 [cs.HC, cs.CR, cs.AI, cs.ET]目的：クラウド支援LLMエージェントにおけるプライバシー保護プランニング抽象化のアーキテクチャ
- LLMエージェントの利用拡大に伴い，機密性の高いローカル環境を保護する必要性が高まっている。
- 従来の技術では，プランニング段階における環境状態の露出を防ぐ対策が不足していた。
- ローカル環境の情報を抽象化し，プライバシーを保護しながら効率的なプランニングを実現すること。
- PlanTwinは，ローカル環境をプランニング指向のデジタルツインに投影することで，プライバシーを保護する。
- 60のタスクにおいて，機密情報の非開示率（SND）は1.0を達成し，プランニング品質を維持した。
- プランニング品質スコア（PQS）は4つのプランナーのうち3つで0.79を超え，ユーティリティ損失は2.2%未満だった。
Link: https://arxiv.org/abs/2603.18377
微弱な手がかりから真の個人情報へ：LLMエージェントにおける推論駆動型非匿名化の評価 [cs.SI, cs.AI]目的：LLMエージェントによる推論駆動型非匿名化の脅威とその評価
- 匿名化はプライバシー保護の重要な手段である。しかし，その有効性は常に保証されているわけではない。
- 従来の非匿名化はコストが高く困難であったが，LLMの登場により，容易に個人情報が特定されるリスクが増大している。
- LLMが散在する手がかりから個人を特定する能力を評価し，新たなプライバシーリスクを明らかにすること。
- LLMエージェントは，特別なエンジニアリングなしに，わずかな手がかりと公開情報を組み合わせることで個人を特定できる。
- Netflix Prizeデータセットにおいて，エージェントは79.2%の個人情報を再構築し，従来の56.0%のベースラインを大きく上回った。
- 悪意のあるプロンプトだけでなく，無害なクロスソース分析からも個人情報が特定される可能性があることが示された。
Link: https://arxiv.org/abs/2603.18382
進化的に安定なシュタッケルベルク均衡 [cs.DC, cs.GT, cs.AI, cs.MA, econ.TH, q-bio.PE]目的：進化的に安定なシュタッケルベルク均衡の概念
- 生物進化や経済学など，戦略的相互作用を分析する上で重要である
- 従来のシュタッケルベルク進化ゲームは，安定性を保証していなかった
- 変異による侵入に対する安定性を明示的に保証する均衡概念を提案する
- 本研究では，進化的に安定なシュタッケルベルク均衡（SESS）という新しい概念を提示した
- リーダーはフォロワー集団が進化的に安定な戦略（ESS）をプレイすることを予測し，最適な混合戦略を選択する
- 離散ゲームと連続ゲームの両方に対するSESSを計算するためのアルゴリズムが開発され，連続ゲームで実証的に検証された
Link: https://arxiv.org/abs/2603.18385
深層学習の数学的基礎 [cs.LG, math.OC]目的：深層学習の根底にある数学原理の体系的かつ厳密な理解
- 近年のAI技術発展の鍵であり，その理論的理解が不可欠である。
- 深層学習のブラックボックス化が進み，数学的根拠に基づいた設計が困難である。
- 深層学習の近似能力，最適制御，強化学習，生成モデル等の理論的基盤を確立する。
- 本書は，深層ニューラルネットワークの近似能力に関する理論を網羅的に解説している。
- また，最適制御・強化学習と深層学習の統合，最新の生成モデルについても議論されている。
- 深層学習の数学的基礎を理解することで，AI技術のさらなる発展に貢献する。
Link: https://arxiv.org/abs/2603.18387
暗闇の中の反射：反射的プロンプト最適化におけるブラックボックスの露呈と脱出 [cs.AI, cs.MA]目的：LLMの性能向上を目指す自動プロンプト最適化手法のブラックボックス化とその解決
- LLMの性能はプロンプトに大きく依存するが，手動での設計は困難である。
- 既存の自動プロンプト最適化はブラックボックスであり，最適化過程が解釈できない。
- 最適化過程を可視化し，局所最適解からの脱出を促すことで，性能向上を図る。
- 提案手法VISTAは，仮説生成とプロンプト書き換えを分離し，解釈可能な最適化過程を実現した。
- VISTAは，欠陥のある初期プロンプトに対し，精度を大幅に向上させ，既存手法を上回る性能を示した。
- 探索と活用を組み合わせたメカニズムにより，局所最適解からの脱出を効果的に行った。
Link: https://arxiv.org/abs/2603.18388
キャリブレーション距離の計算と統計的困難性 [cs.CL, cs.DS, cs.LG, stat.ML]目的：キャリブレーション距離の計算および推定
- 確率的予測モデルの信頼性評価は重要であり，誤ったキャリブレーションは性能低下に繋がる。
- キャリブレーション距離の正確な計算は，計算量が多く困難である場合がある。
- 分布またはサンプルへのアクセス状況下におけるキャリブレーション距離の効率的な計算と推定を目指す。
- 分布が均一でありラベルがノイズレスの場合，キャリブレーション距離を正確に計算する効率的なアルゴリズムを開発した。
- 分布またはラベルの仮定を取り除くと，問題はNP困難となる。
- 一般的なケースに対しては，多項式時間近似スキームを拡張した。
Link: https://arxiv.org/abs/2603.18391
RE-SAC：バス隊列制御における偶然的リスクと認識的リスクの分離：安定かつロバストなアンサンブル強化学習アプローチ [cs.LG, cs.RO]目的：バス隊列制御における偶然的リスクと認識的リスクの分離
- 公共交通機関の効率化は重要であり，バス隊列制御はその鍵となる技術の一つである。
- 従来の強化学習アルゴリズムは，不確実性の高い環境下でQ値が不安定になりやすい。
- 偶然的リスクと認識的リスクを分離することで，ロバストなバス隊列制御を実現することを目指す。
- 提案手法RE-SACは，積分確率測度（IPM）に基づく重み正則化を導入し，偶然的リスクへのヘッジを行うことで，ロバストなベルマン作用素の滑らかな下限を導出する。
- さらに，多様なQアンサンブルによるペナルティを用いることで，認識的リスクに対処し，過信された価値推定を抑制する。
- シミュレーション実験の結果，RE-SACは従来のSACと比較して，累積報酬が向上し，稀な状態におけるOracle Q値推定誤差を最大62%削減した。
Link: https://arxiv.org/abs/2603.18396
FlowMS：質量スペクトルからの新規構造解明のためのフローマッチング [cs.LG]目的：質量スペクトルに基づいた新規分子構造の生成
- 分子同定の基盤技術である質量分析において，構造決定は重要な課題である。
- 化学空間の複雑さとスペクトル断片化パターンの曖昧さにより，新規構造解明は困難である。
- フローマッチングを用いて，計算効率の高い構造生成を目指す。
- FlowMSは，NPLIB1ベンチマークにおいて6/6の指標のうち5つで最先端の性能を達成した。
- トップ1精度は9.15%であり，DiffMSと比較して9.7%の改善が見られた。
- トップ10 MCESは7.96であり，MS-BARTと比較して4.2%の改善が見られた。
Link: https://arxiv.org/abs/2603.18397
TARo：LLMテスト時アライメントのためのトークンレベル適応ルーティング [cs.RO, cs.CL, cs.CL, cs.AI, cs.LG]目的：LLMのテスト時アライメントによる推論能力の向上
- 大規模言語モデルは強力だが，高性能には高コストな追加学習が必要。
- 既存のテスト時アライメントは，推論能力ではなく嗜好のアライメントに焦点を当てていた。
- 推論プロセス全体をテスト時に誘導し，汎用的な推論能力を向上させる。
- TARoは，ベースモデルと比較して最大22.4%，既存手法と比較して8.4%推論性能を向上させた。
- 臨床推論（MedXpertQA）や指示への追従（AlpacaEval）においても性能が向上した。
- TARoは，小規模モデルから大規模モデルへの汎化が可能であり，再学習が不要である。
Link: https://arxiv.org/abs/2603.18411
企業によるAIの虚偽表示が企業におけるグリーンイノベーションに与える波及効果 [cs.CY, cs.AI]目的：企業によるAIの虚偽表示とグリーンイノベーションの関係
- 企業の持続可能性への取り組みが重要視される中で，技術革新は経済成長と環境保全の両立に不可欠である。
- AI技術の導入状況に関する情報開示の透明性が欠如しており，企業がAIを装う「AIウォッシング」が横行している。
- 本研究は，AIウォッシングがグリーンイノベーションを阻害するメカニズムを解明し，市場の均衡改善策を提示する。
- 企業によるAIウォッシングは，グリーンイノベーションを抑制する効果を持つことが明らかになった。
- この抑制効果は，製品市場と資本市場という二つの経路を通じて伝播する。
- 特に，中小企業や競争の激しい業界では，AIウォッシングによる悪影響がより顕著である。
Link: https://arxiv.org/abs/2603.18415
自己調整型疎な注意機構：Transformer高速化のための多忠実度ハイパーパラメータ最適化 [cs.LG, cs.AI]目的：Transformerの高速化に向けたハイパーパラメータの自動最適化
- Transformerは自然言語処理の基盤技術であり，長文処理能力の向上が求められている。
- 従来の疎な注意機構は，最適なハイパーパラメータが層やモデルによって大きく異なる点が課題であった。
- AFBS-BOを用いて，手動調整なしで最適なハイパーパラメータを自動的に探索し，高速化を実現する。
- 提案手法AFBS-BOは，グリッドサーチと比較してハイパーパラメータ探索を3.4倍高速化し，評価回数を8.8倍削減した。
- AFBS-BOは高疎度な設定を見つけ，既存の疎な注意機構よりも性能を向上させつつ，密な注意機構の品質を維持した。
- 疎な注意機構を自己最適化可能な要素に変換することで，多様なTransformerアーキテクチャへの適用を容易にした。
Link: https://arxiv.org/abs/2603.18417
稀な皮膚疾患の診断は，診断推論を通じて信頼性高く行えるか [cs.CV, cs.AI]目的：稀な皮膚疾患の診断推論における課題と評価方法
- 皮膚科領域における診断は，視覚情報とテキスト情報を統合的に判断する必要があり，専門知識が不可欠である。
- 既存の評価ベンチマークは一般的疾患に偏っており，複雑な症例における臨床推論プロセスを評価できていない。
- 臨床推論プロセスを評価可能なベンチマークを構築し，大規模言語モデルの診断能力の限界を明らかにすること。
- DermCaseという，症例報告に基づいた長文脈ベンチマークを構築し，26,030組の画像-テキストペアと6,354件の難易度の高い症例を提供した。
- DermLIPに基づく類似度指標を確立し，皮膚科医の判断との整合性が高い評価を可能にした。
- 22の主要な大規模言語モデルの評価により，診断精度，鑑別診断，臨床推論において顕著な課題が明らかになった。
Link: https://arxiv.org/abs/2603.18418
トピックから遷移構造へ：予測的関連記憶を用いたコーパス規模での教師なし概念発見 [cs.AI, cs.CL, cs.IR, cs.LG]目的：コーパス規模での概念発見
- 文学研究において，テキストの構造的特徴を理解することは，作品の解釈やジャンルの分類に不可欠である。
- 既存の埋め込みモデルは意味内容に焦点を当てており，テキストの機能や文脈に依存する遷移構造を捉えることが難しい。
- テキスト内の時間的共起関係から，文脈依存的な概念を抽出し，新たな概念マップの構築を目指す。
- 予測的関連記憶（PAM）を拡張し，多段階の対照学習と圧縮により，構造的パターンを抽出することに成功した。
- クラスタリングの結果，テキストの機能，登録，文学的伝統に基づいて概念が分類され，トピックに基づく埋め込みモデルとの差異が明確になった。
- 学習済みのモデルを用いて未知の小説を既存のクラスタに割り当てることができ，汎用性が確認された。
Link: https://arxiv.org/abs/2603.18420
企業のAIウォッシングが農家のデジタル金融行動に与える影響：デジタル金融からの排除の視点からの分析 [cs.CY, cs.AI]目的：企業のAIウォッシングが農家のデジタル金融行動に与える影響の分析
- デジタル金融は，金融包摂を促進し，農業の発展に貢献する重要な手段である。
- 一部の金融技術企業は，AI能力を誇張し，実際のAI投資が不足する「AIウォッシング」を行っている。
- AIウォッシングが農家のデジタル金融行動に及ぼす負の影響を解明し，対策を提案すること。
- AIウォッシングは，農家のデジタル金融行動を抑制する効果が認められた。
- AIウォッシングは，知識的排除やリスク排除を悪化させ，間接的に農家の行動を阻害する。
- 社会的資本は，AIウォッシングの負の影響を緩和する効果があることが示された。
Link: https://arxiv.org/abs/2603.18421
プルーニングと量子化の順序：ジョイントモデル圧縮における圧縮順序の影響の理解 [eess.SY, cs.CE, cs.SY, cs.CL, cs.AI]目的：ジョイントモデル圧縮における圧縮順序の影響
- モデル圧縮は，計算資源の制約下での効率的な推論を実現するために重要である。
- 既存研究では，圧縮手法の順序がモデル性能に与える影響が十分に解明されていない。
- 圧縮順序の最適化を通じて，モデル性能の向上を目指す。
- 圧縮順序がモデル性能に重要な影響を与えることを理論的・実験的に示した。
- 弱い摂動を先に適用し，強い摂動を後に行うという「漸進的強度仮説」が検証された。
- この仮説は，言語モデルおよび画像モデルにおいて広く成立し，多段階圧縮や混合精度量子化にも適用可能であることが示された。
Link: https://arxiv.org/abs/2603.18426
セマンティックセグメンテーションのための合成データ拡張における信頼性と多様性のバランス [cs.CV, cs.AI]目的：セマンティックセグメンテーションにおける合成データ拡張パイプライン
- ピクセルレベルのセグメンテーションは，自動運転や医療画像解析など，多くの分野で重要である。
- 高品質なアノテーション付きデータセットの作成には多大な労力とコストがかかる。
- 生成モデルによるデータ拡張の信頼性と多様性のバランスを取り，セグメンテーション性能を向上させる。
- 提案手法は，制御可能な拡散モデルとクラスアウェアプロンプティング，視覚的事前知識のブレンドを組み合わせることで，高品質な合成データを生成する。
- PASCAL VOCやBDD100Kといったベンチマークデータセットでの評価により，データが少ない状況下でのセマンティックセグメンテーション性能が大幅に向上することが示された。
- 実世界のアプリケーションにおけるモデルの頑健性も向上し，合成データと実データの間のギャップを効果的に埋めている。
Link: https://arxiv.org/abs/2603.18427
テスト時ポリシー学習による適応的デコーディング：自己改善生成に向けて [cs.CL, cs.AI]目的：大規模言語モデルの生成品質向上
- LLMの性能はデコーディング戦略に大きく依存する。多様なタスクへの適応が求められる。
- 既存のデコーディング手法は静的で，タスク固有の最適化が難しく，品質にばらつきが生じる。
- テスト時にデコーディングパラメータを動的に調整し，モデル再学習なしに生成品質を向上させる。
- 提示手法はBookSumデータセットで最大88％，WikiHowデータセットで最大79％の相対的な改善を達成した。
- 報酬関数の構成要素において，重複のみを評価する手法よりも複合的な報酬の方が優れた性能を示した。
- 長さ，カバレッジ，反復，完全性などの構造化されたシェーピング項が安定した改善に貢献した。
Link: https://arxiv.org/abs/2603.18428
ノイズ耐性量子多腕バンディットおよび確率的線形バンディット [cs.LG]目的：量子多腕バンディットおよび確率的線形バンディットにおけるノイズ耐性の向上
- 量子計算は古典計算に対し指数関数的な高速化をもたらす可能性があり，機械学習への応用が期待されている。
- 既存の量子バンディットアルゴリズムは理想的な量子モンテカルロ法を前提としており，現実のノイズの影響を考慮していない。
- ノイズの多いNISQデバイス環境下でも量子バンディットの性能を維持し，古典的手法に対する優位性を保つことを目指す。
- 提案するノイズ耐性のある量子モンテカルロ法は，量子報酬オラクルへのクエリにおける推定精度を向上させる。
- ノイズ耐性量子多腕バンディットおよび確率的線形バンディットアルゴリズムは，ノイズ環境下で性能が向上することが実験的に示された。
- 本研究は，量子バンディットアルゴリズムの実用化に向けた重要な一歩となる。
Link: https://arxiv.org/abs/2603.18431
時系列予測のための多重効果の解釈可能な低ランク周波数振幅分解 (MLOW) [cs.LG]目的：時系列データの多重効果分解による予測精度の向上
- 時系列データ分析は，経済，気象，医療など幅広い分野で不可欠であり，予測精度の向上が重要である。
- 既存の時系列予測モデルは，解釈可能な多重効果分解が困難であり，滑らか化手法に依存しがちである。
- 本研究は，周波数に基づいた分解パイプラインを提案し，ノイズに強く解釈可能な多重効果分解を実現することを目指す。
- MLOWは，時系列を振幅スペクトルと位相を考慮した基底関数との積として表現し，多重効果のパターンを捉える。
- Hyperplane-NMFを提案し，既存の低ランク分解手法（PCA，NMF，Semi-NMF）の課題を克服し，解釈性，効率性，汎化性能を両立する。
- 入力期間と周波数レベルの柔軟な選択メカニズムを導入することで，周波数漏洩を抑制し，高精度な低ランク分解を可能にする。
Link: https://arxiv.org/abs/2603.18432
注意ベースのソフトアンサーセット：エンドツーエンド微分可能なニューロ・ソフトシンボリック推論アーキテクチャ [cs.HC, cs.AI]目的：注意ベースのソフトアンサーセットによるニューロ・ソフトシンボリック推論アーキテクチャの開発
- ニューロシンボリックAIは，記号推論とニューラルネットワークの強みを組み合わせることで，より高度な推論能力を実現する。
- 従来のニューロシンボリックAIは，ニューラルモジュールと記号ソルバーの間に非微分可能な境界があり，学習が困難である。
- 微分可能な固定点演算子を用いて，エンドツーエンドでの学習を可能にし，より柔軟な推論システムを構築する。
- AS2は，Visual Sudokuにおいて99.89%のセル精度と100%の制約充足率を達成し，外部ソルバーを必要としない。
- MNIST Additionにおいても，2, 4, 8桁の加算で99.7%以上の桁精度を達成した。
- 制約を意識した注意機構と宣言的な制約記述により，従来のニューロシンボリックシステムと同等以上の性能を示す。
Link: https://arxiv.org/abs/2603.18436
サンプル効率的な強化学習のための割引ベータ・ベルヌーイ報酬推定：検証可能な報酬付き [cs.LG, cs.AI]目的：強化学習における報酬推定手法
- 大規模言語モデルの推論能力向上に，検証可能な報酬を用いた強化学習が有効。
- 既存手法は，少数のロールアウトからの報酬点推定に依存し，サンプル効率が低い。
- 報酬分布の推定を通じて，推定分散を低減し，サンプル効率を改善することを目指す。
- 割引ベータ・ベルヌーイ（DBB）報酬推定により，報酬分布の推定における分散が低減された。
- DBBは，標準的な点推定よりも低い平均二乗誤差を達成した。
- 実験の結果，DBBを用いたGRPOは，様々なベンチマークでnaive GRPOを上回り，高い性能を示した。
Link: https://arxiv.org/abs/2603.18444
UT-ACA：不確実性トリガー適応的コンテキスト割当による長文推論 [cs.CL, cs.LG]目的：長文推論における不確実性に基づいた適応的なコンテキスト割当
- 大規模言語モデルの性能向上は，自然言語処理の発展に不可欠である。
- 長文推論において，注意機構の希薄化と分布外劣化が課題となっている。
- トークンごとの不確実性に応じてコンテキストウィンドウを動的に調整し，効率的な推論を実現する。
- UT-ACAは，トークンごとの不確実性検出器を用いて，コンテキストウィンドウを動的に調整する。
- 不確実性が高い場合，コンテキストウィンドウを拡張し，追加情報を用いて再生成を行う。
- 実験により，UT-ACAはコンテキスト使用量を削減しつつ，生成品質を維持することが示された。
Link: https://arxiv.org/abs/2603.18446
SODIUM：オープンウェブデータからクエリ可能なデータベースへ [cs.DB, cs.AI, cs.CL, cs.CV, cs.IR]目的：オープンウェブからのデータ統合とクエリ可能なデータベースの構築
- 研究者は多様な情報源からデータを集約する必要があり，その効率化が求められている。
- ウェブデータの探索，抽出，整理には多大な労力がかかり，分析のボトルネックとなっている。
- ウェブを潜在的なデータベースと捉え，自動的にクエリ可能な状態にすることを目指す。
- 本研究では，オープンウェブの探索，情報抽出，データベース化のプロセスを自動化するSODIUMタスクを提案した。
- 評価ベンチマークSODIUM-Benchを構築し，既存のAIエージェントの性能が低いことを示した。
- 提案手法SODIUM-Agentは，ベンチマークで91.1%の精度を達成し，既存手法を大幅に上回った。
Link: https://arxiv.org/abs/2603.18447
汎用的なショット言語理解ソリューションの探求 [cs.LG]目的：映画分析のためのショット言語理解の精度向上
- 映画作品の理解を深める上で，ショットの言語的解釈は不可欠である。
- 既存のビジョン言語モデルと映画専門家の判断に乖離が見られる。
- モデルのボトルネック特定とデータの影響評価に基づき，精度向上を目指す。
- 大規模データセットSLU-SUITEを用いて，VLMベースのショット言語理解における課題を特定した。
- 動的データ混合による汎用モデルUniShotと，プロンプトによる専門家クラスタAgentShotsを提案した。
- 提案手法は，イン・ドメインおよびアウト・オブ・ドメインのタスクで既存モデルを上回る性能を示した。
Link: https://arxiv.org/abs/2603.18448
HypeMed：ハイパーグラフに基づく患者関係を利用した薬剤推奨の強化 [cs.IR, cs.AI]目的：薬剤推奨における安全性と有効性の向上
- 医療記録からの薬剤推奨は，患者の健康を維持・改善するために不可欠である。
- 希薄かつノイズの多い医療記録から患者の状態を正確に推論することが困難である。
- ハイパーグラフを用いて，患者間の複雑な関係性を捉え，薬剤推奨の精度向上を目指す。
- HypeMedは，訪問レベルの情報を保持し，過去の情報を活用することで，従来のモデルの限界を克服する。
- MedRepモジュールは，知識に基づいたコントラスティブ事前学習により，一貫性のある埋め込み空間を構築する。
- SimMRモジュールは，この空間内で動的な検索を行い，薬剤予測を改善する。実データによる評価で，既存手法を上回る結果が得られた。
Link: https://arxiv.org/abs/2603.18459
小規模MRI画像群を用いた解釈可能な前立腺がん検出 [cs.CV, cs.AI]目的：前立腺がんの自動検出のための解釈可能なフレームワーク
- 前立腺がんは男性の主要な死亡原因であり，早期発見が重要である。
- T2強調MRI画像の解釈は，病変が微細で不均一なため困難を伴う。
- 小規模データセットでも高い精度で前立腺がんを検出すること。
- 転移学習を用いたResNet18が，1100万パラメータで90.9%の精度，95.2%の感度，AUC 0.905を達成した。
- HOG+SVMもAUC 0.917と高い精度を示し，小規模データセットにおける手動特徴量の有効性を示した。
- AIモデルは，読影医の平均感度67.5%（Fleiss Kappa = 0.524）に対し，95.2%の感度を示し，見逃しを減らす可能性を示唆した。
Link: https://arxiv.org/abs/2603.18460
AlignMamba-2：モダリティ認識Mambaによるマルチモーダル融合と感情分析の強化 [cs.AI]目的：マルチモーダル融合と感情分析のための効率的なフレームワーク
- 大規模言語モデルの発展に伴い，特定の感情分析タスクへの知識転移が重要視されている。
- Transformerモデルの計算コストが課題であり，長系列データへの適用が制限される。
- Mambaモデルの弱点である非系列関係の捕捉を改善し，マルチモーダルデータに対応する。
- AlignMamba-2は，Optimal Transport距離とMaximum Mean Discrepancyによる二重アラインメント戦略を導入した。
- モダリティ固有および共有の専門家を持つモダリティ認識Mamba層を設計し，データ異質性を明示的に処理した。
- CMU-MOSI，CMU-MOSEI，NYU-Depth V2，MVSA-Singleの4つのベンチマークで最先端の結果を達成した。
Link: https://arxiv.org/abs/2603.18462
AcceRL：大規模ビジョン-言語-行動モデルのための分散非同期強化学習およびワールドモデルフレームワーク [cs.LG]目的：大規模VLAモデルに対する効率的な強化学習とデータ収集の改善
- VLAモデルは，ロボティクスなどの分野で重要な役割を担うため，性能向上が不可欠である。
- 大規模VLAモデルへの強化学習の適用には，計算コストとデータ効率の課題が存在する。
- 分散非同期フレームワークとワールドモデルによる効率的な学習とスケーラビリティの実現を目指す。
- AcceRLは，学習，推論，ロールアウトを物理的に分離する非同期分散フレームワークである。
- LIBEROベンチマークにおいて，AcceRLは最先端の性能を達成した。
- ワールドモデルの統合により，サンプル効率と学習安定性が大幅に向上した。
Link: https://arxiv.org/abs/2603.18464
離散記号理解のためのマルチモーダル大規模言語モデルにおける認知的不一致 [cs.AI, cs.CV]目的：マルチモーダル大規模言語モデルの離散記号理解能力の評価
- 人間認知の基盤となる離散記号の理解は，AIの高度化に不可欠である。
- 現在のマルチモーダル大規模言語モデルは，離散記号の正確な解釈に課題がある。
- モデルが記号認識と複雑な推論で異なる挙動を示す「認知的不一致」の解明。
- トップティアのマルチモーダル大規模言語モデルにおいて，基本的な記号認識で失敗しつつ，複雑な推論では成功する現象が確認された。
- これは，モデルが真の視覚的知覚よりも言語的な確率に依存している可能性を示唆する。
- 科学的発見や抽象的思考を支える記号言語の理解というAIの重要なギャップが浮き彫りになった。
Link: https://arxiv.org/abs/2603.18472
WASD：LLMの行動を説明・制御するための十分条件となる重要ニューロンの特定 [cs.CL, cs.AI]目的：LLMの行動を説明・制御するための十分条件となるニューロンの特定
- LLMの高度な応用には，正確な行動制御が不可欠であるため，そのメカニズム解明が重要である。
- 既存手法は，高コスト，自然言語による制御の欠如，意味の一貫性の低下といった課題を抱えている。
- LLMの行動を説明し制御するための，より安定で正確かつ簡潔な手法を開発することを目的とする。
- 本研究で提案するWASDは，トークン生成における十分な神経条件を特定することで，モデルの行動を説明する。
- SST-2とCounterFactの実験結果から，WASDが従来の帰属グラフよりも安定，正確，簡潔な説明を生成することが示された。
- WASDは，クロスリンガルな出力生成の制御において，モデルの行動を制御する実用的な有効性を持つことがケーススタディで確認された。
Link: https://arxiv.org/abs/2603.18474
ゲームにおける人間の没入度をビジョン言語モデルは理解しているか？ [cs.CV, cs.AI, cs.HC]目的：ゲームプレイ動画からの人間の没入度推論
- ゲームデザインやプレイヤー体験研究において，没入度の理解は不可欠である。
- 視覚情報のみから潜在的な心理状態である没入度を推論することは困難である。
- 既存のビジョン言語モデルの没入度推論能力の限界を明らかにすること。
- ゼロショット予測では，単純なベースラインよりも性能が低い場合が多いことが示された。
- メモリや検索を活用したプロンプティングは，特定の状況下で没入度の予測精度を向上させる。
- 理論に基づいたプロンプティングは，必ずしも改善をもたらさず，表面的な手がかりに依存する可能性がある。
Link: https://arxiv.org/abs/2603.18480
T-QPM：オープンワールドにおけるビジョン言語モデルの時系列外分布検出とドメイン汎化の実現 [cs.CV, cs.LG]目的：オープンワールドにおけるビジョン言語モデルの時系列外分布検出とドメイン汎化
- 現実世界のデータは常に変化するため，モデルが未知の分布に対応できる能力が重要である。
- 既存手法は固定的なルールに依存し，時系列の変化やデータ分布の変動に弱いという課題がある。
- 時系列データにおける外分布検出のロバスト性を向上させ，非定常環境に対応するフレームワークを構築する。
- 提案手法T-QPMは，画像とテキストの説明を組み合わせることで，IDと外分布データの間のクロスモーダルの一貫性を導入し，識別境界を改善する。
- 軽量な融合重みを学習することで，セマンティックマッチングと視覚的典型性の最適な組み合わせを実現し，時系列分布シフトに対処する。
- 平均閾値信頼度（ATC）に基づく明示的な正則化により，分布が進化しても性能劣化を防ぎ，安定性を確保する。
Link: https://arxiv.org/abs/2603.18481
切り捨ての盲点：デコーディング戦略が人間らしいトークン選択を系統的に排除する方法 [cs.CL, cs.LG, stat.ML]目的：テキスト生成におけるデコーディング戦略の限界と，人間らしいテキスト生成の可能性
- 自然言語処理の発展に伴い，より人間らしいテキスト生成が求められている。
- 従来のデコーディング戦略は確率に基づいており，人間のような文脈適応性に欠ける。
- 確率に基づくデコーディング戦略の盲点を明らかにし，検出しやすさの軽減策を探る。
- テキスト生成における確率的デコーディング戦略では，人間が選択するトークンの8-18%が切り捨ての範囲外に存在することが判明した。
- 予測可能性と語彙の多様性に基づく単純な分類器は，高い検出率を達成した。
- モデルの規模やアーキテクチャよりも，切り捨てパラメータが検出可能性の大部分を説明しており，自然なテキスト生成と検出回避は相反する目標であることが示唆された。
Link: https://arxiv.org/abs/2603.18482
AIMER：キャリブレーションフリーなタスク非依存MoEプルーニング [cs.CL, cs.LG]目的：MoEモデルにおける専門家プルーニングの基準
- 大規模言語モデルの性能向上にはパラメータ数の増加が不可欠だが，計算コストの増大を抑える必要がある。
- 既存の専門家プルーニング手法はキャリブレーションデータに依存し，その選択が結果に影響を与える。
- キャリブレーションデータなしで，効果的な専門家プルーニングを可能にすること。
- AIMERは，キャリブレーションフリーでありながら，既存のキャリブレーションベース手法と同等以上の性能を示す。
- 専門家間の重要度を明確に分離し，層内スコアの分離と明確な専門家階層化を実現する。
- 7Bから30BのMoEモデルで，16のベンチマークにおいて，AIMERはわずか0.22～1.27秒で専門家をスコアリングできる。
Link: https://arxiv.org/abs/2603.18492
FILT3R：ストリーミング3D再構成のための潜在状態適応カルマンフィルター [cs.CV, cs.AI, cs.LG]目的：ストリーミング3D再構成における潜在状態の更新規則の改善
- 3D再構成は，ロボット工学や自動運転など，様々な分野で重要な役割を果たす。
- 既存手法では，状態更新の積極性と保守性のバランスが難しく，長期的な安定性が課題である。
- 本研究は，潜在状態の更新を適応的に制御し，長期的な安定性を向上させることを目指す。
- FILT3Rは，トークン空間における確率的状態推定として，再帰的な状態更新を捉えることで，学習不要な潜在フィルタリング層を提供する。
- FILT3Rは，トークンごとの分散を維持し，カルマンフィルター様のゲインを計算することで，メモリ保持と新しい観測のバランスを適応的に調整する。
- 実験の結果，FILT3Rは，奥行き，姿勢，3D再構成において既存手法よりも長期的な安定性が向上することが示された。
Link: https://arxiv.org/abs/2603.18493
ニューロシンボリック反事実的推論によるドメイン横断型デモからコード生成 [cs.RO, cs.AI]目的：ドメイン横断型ロボットプログラミングにおけるタスク手順の適応
- 近年のビジョン言語モデルの発展により，ロボットにデモからプログラムを学習させることが可能となった。
- デモ環境と実環境の差異により，手順の不整合が発生し，ロボットの汎化性能を阻害する。
- 環境の変化に対応可能な，検証可能なタスク手順の適応手法を確立すること。
- 提案手法NeSyCRは，ビデオデモをシンボリックな軌跡に抽象化し，タスクの手順を捉える。
- 実環境の観測から反事実的状態を導出し，ドメイン間の不適合性を明らかにする。
- 検証可能なチェックを用いて，シンボリック状態空間を探索し，手順の修正を提案することで適応を実現した。Statlerと比較してタスク成功率が31.14%向上した。
Link: https://arxiv.org/abs/2603.18495
ビデオ圧縮のための疎な情報伝送による効率的なビデオ拡散 [cs.CV, cs.AI]目的：ビデオ圧縮における再構成品質と知覚品質の最大化
- ビデオ圧縮は，限られた帯域幅で高品質な映像伝送を実現するために不可欠である。
- 超低ビットレートでは，従来の圧縮モデルは知覚的に質の低いぼやけた画像を生成しやすい。
- 時間的な一貫性を保ちつつ，超低ビットレートでの知覚品質を向上させることを目指す。
- 提案手法Diff-SITは，疎な時間符号化モジュール(STEM)とワンステップビデオ拡散モジュール(ODFTE)から構成される。
- STEMにより元のフレーム系列を情報豊かな中間系列に疎に符号化し，ビットレートを大幅に削減する。
- ODFTEは時間相関を活用し，フレームタイプ埋め込み(FTE)により，フレームタイプに応じた適応的な再構成を行うことで全体的な品質を最適化する。
Link: https://arxiv.org/abs/2603.18501
専門家ペルソナはLLMの整合性を向上させるが，精度を損なう：PRISMによる意図に基づくペルソナルーティングのブートストラップ [cs.AI]目的：LLMの整合性と精度の関係性に関する調査
- LLMの性能向上が，多様な相互作用を必要とするマルチエージェントシステム等に不可欠である。
- ペルソナプロンプティングの有効性に関する先行研究は意見が分かれており，一貫した結果が得られていない。
- ペルソナの利点を最大限に活用し，悪影響を回避するためのメカニズムの包括的な調査が必要とされる。
- 専門家ペルソナは，LLMの生成における人間との整合性を向上させる一方で，精度を低下させる可能性が示唆された。
- PRISM（意図に基づく自己モデリングによるペルソナルーティング）というパイプラインを開発し，外部データやモデルを必要とせずにペルソナを効果的に活用できるようになった。
- PRISMは，生成タスクにおける人間との整合性と安全性を向上させ，識別タスクにおける精度を維持し，メモリと計算のオーバーヘッドを最小限に抑える。
Link: https://arxiv.org/abs/2603.18507
自動車保険における人工知能の基礎とアーキテクチャ [cs.CV, cs.AI]目的：自動車保険のための人工知能の基礎とアーキテクチャ
- 自動車保険業界における効率化やリスク管理の高度化が求められている
- 従来のシステムでは，複雑な損害評価や査定に手間とコストがかかる
- AIを活用し，損害分析，評価，引き受け業務を自動化し，効率化を図る
- 本研究は，知覚，マルチモーダル推論，および運用基盤を統合する，垂直統合型AIパラダイムを提案する
- ドメイン適応型Transformerアーキテクチャを開発し，車両損傷分析，保険金評価，引受業務の自動化を可能にする
- 機械学習アルゴリズムとMLOpsプラクティスの共同進化を重視し，信頼性の高い実運用システムを構築する枠組みを確立する
Link: https://arxiv.org/abs/2603.18508
CAFlow：効率的な病理組織超解像のための適応的深さ単段フローマッチング [cs.CV, cs.AI]目的：病理組織の超解像処理における効率化
- デジタル病理画像はギガピクセルを超えるため，計算資源が必要であり，実用化が課題。
- 既存の超解像技術は計算コストが高く，日常的な運用には不向きな場合が多い。
- 計算コストを抑えつつ，高い超解像画質を維持することを目指す。
- CAFlowは，画像タイルを適切な深さのネットワークへルーティングすることで，計算量を削減。
- x4超解像では，フル深度モデルと同等のPSNRを達成しつつ，計算量を削減することに成功。
- 最小限の画質低下（-0.02dB）で，未知の組織への汎化性能も確認された。
Link: https://arxiv.org/abs/2603.18513
回路の数え上げ：大規模ビジョン言語モデルにおける視覚的推論のメカニズム解釈 [cs.IR, cs.RO, cs.CV, cs.AI]目的：大規模ビジョン言語モデルにおける視覚的推論メカニズムの解明
- 視覚的推論は，AIの重要な能力であり，人間レベルの知能を実現する上で不可欠である。
- 大規模言語モデルの視覚的推論メカニズムはブラックボックスであり，その内部動作が不明確である。
- 視覚的推論の基本要素である数え上げ能力を分析し，そのメカニズムを解明すること。
- 大規模ビジョン言語モデルは，小規模な数では正確に数え上げられ，大規模な数ではノイズの影響を受けるという，人間と同様の数え上げ行動を示すことが明らかになった。
- Visual Activation PatchingとHeadLensという新しい解釈手法により，様々な視覚的推論タスクで共有される「数え上げ回路」が発見された。
- 数え上げに特化した微調整によって，合成データだけでなく，分布外のデータや複雑な視覚的推論タスクにおいても性能が向上することが示された。
Link: https://arxiv.org/abs/2603.18523
構成的生成のための相関重み付き多報酬最適化 [cs.AI]目的：構成的生成における性能向上
- 画像生成モデルの発展は，自然言語による指示への対応を可能にした。
- 複雑な指示に対応する際，複数の概念を同時に満たすことが困難である。
- 概念間の相関を考慮し，報酬の重みを調整することで，生成精度を高める。
- 提案手法は，概念間の報酬相関を活用し，最適化時に各属性概念を適応的に重み付けする。
- これにより，競合する報酬信号のバランスを取り，部分的に満たされつつも一貫性がない概念を重視する。
- SD3.5やFLUX.1-devを用いた実験で，ConceptMix等のベンチマークにおいて一貫した改善が確認された。
Link: https://arxiv.org/abs/2603.18528
名前が判断を変える：介入一貫性がLLMの意思決定における系統的バイアスを明らかにする [cs.CL, cs.AI, cs.CY, cs.LG]目的：LLMの意思決定における偽の特徴への依存性の検出
- LLMは重要な判断に利用される機会が増えているため，その公平性と信頼性の評価が不可欠である。
- LLMは表面的な特徴に影響を受けやすく，不公平な判断を下す可能性があることが懸念されている。
- 偽の特徴への依存性を検出し，バイアスを軽減するためのフレームワークを開発すること。
- 介入一貫性テストに基づくICE-Guardフレームワークによって，人口統計，権威，フレーミングの3種類のバイアスが検出された。
- 権威バイアスとフレーミングバイアスは，人口統計バイアスよりも顕著であり，従来の人口統計的バイアスへの注目が集まりすぎていることが示唆された。
- 構造化分解はバイアスを大幅に軽減し，ICEガイドによる反復的なプロンプト調整で78%のバイアス削減を達成した。
Link: https://arxiv.org/abs/2603.18530
ロボットVLAのためのスケーラブルなシミュレーションから現実世界への強化学習：生成3Dワールドを活用して [cs.RO, cs.AI, cs.LG]目的：ロボットVLAの強化学習によるファインチューニング
- 近年，大規模なビジョン-言語モデルの性能向上に伴い，ロボット工学におけるVLAモデルのファインチューニングへの応用が期待されている。
- 現実世界での強化学習は，シミュレーションから現実世界へのギャップの問題を回避できるものの，多様なシーンやオブジェクトの準備が困難である。
- 生成3Dワールドモデルを利用することで，多様なインタラクティブなシーンを効率的に生成し，VLAの汎化性能を維持しつつ，強化学習をスケールさせる。
- 生成3Dワールドを活用したシミュレーション訓練により，成功率が9.7%から79.8%に向上し，タスク完了時間が1.25倍向上した。
- 高品質なデジタルツインとドメインランダム化により，シミュレーションから現実世界への転移が成功し，現実世界での成功率が21.7%から75%に向上し，タスク完了時間が1.13倍向上した。
- シーンの多様性を増やすことで，ゼロショット汎化性能が向上することが確認された。
Link: https://arxiv.org/abs/2603.18532
推論負荷のバランス：効率的かつ堅牢な強化学習のための長さ再分配による難易度微分型方策最適化 [cs.LG, cs.CL]目的：複雑なタスクと単純なタスクを分離し，過信現象に基づいた方策を最適化すること
- 大規模言語モデルの推論能力は高いが，過剰な思考や冗長な出力が課題となる。
- モデルの能力を超える問題に対しては，過信により短く不正確な回答を生成しやすい。
- 出力長の最適化を通じて，精度と長さのトレードオフを改善し，性能向上を目指す。
- DDPOは，複数のベンチマークにおいて，GRPOと比較して平均回答長を12%削減し，精度を1.85%向上させた。
- DDPOは，単純なタスクでは出力長を短縮し，複雑なタスクでは探索空間を拡大することで，精度を維持・向上させる。
- 最適な出力長分布は，期待される精度を最大化するための理論的条件を満たすことが示された。
Link: https://arxiv.org/abs/2603.18533