arXiv雑要約

AI - 2026/03/19 公開

深不確実性下における社会環境計画のための生成AI支援型参加型モデリング [cs.AI]目的：社会環境計画における問題の概念化とモデル構築の促進
- 社会環境問題は複雑であり，多様な関係者の意見を反映した計画が不可欠である。
- 関係者の自然言語による記述を定量モデルに変換する過程が複雑かつ時間のかかる課題となっている。
- 生成AIを活用し，問題概念化プロセスを効率化し，参加型モデリングを支援することを目的とする。
- 生成AIを用いて，関係者の問題記述からモデルの主要要素を特定し，多様な視点を統合することが可能となった。
- ChatGPT 5.2 Instantを用いた実験により，湖問題と電力市場問題において有効なモデル構築が実現した。
- 人間による検証と修正を繰り返すことで，社会環境計画における参加型モデリングを支援する効果が示唆された。
Link: https://arxiv.org/abs/2603.17021
HopChain：汎用的な視覚言語推論のための多段データ合成 [cs.RO, cs.SY, eess.SY, cs.CV, cs.AI, cs.CL]目的：視覚言語推論の汎化性能向上を目指した多段データ合成フレームワーク
- 視覚言語モデルはマルチモーダルな能力を持つが，詳細な推論は課題である。
- 既存の視覚言語データは複雑な推論チェーンを含まず，弱点を露呈しにくい。
- 視覚的証拠に基づいた多段推論データを用いて，モデルの弱点を克服する。
- HopChainにより合成された多段データは，多様なベンチマークにおいて性能を向上させた。
- 特に，完全な多段クエリが性能向上に重要であることが示された。
- 長尺CoT推論の強化にも繋がり，汎用的な視覚言語推論能力の改善に貢献する。
Link: https://arxiv.org/abs/2603.17024
理解と生成は対立するか？統合マルチモーダルモデルに対するDPOの診断研究 [cs.LG, cs.AI, cs.CV]目的：統合マルチモーダルモデルにおけるDPOの有効性に関する評価
- マルチモーダルモデルは，画像とテキストの情報を統合し，より高度なAIシステムを実現する上で不可欠である。
- 単一のモデルで理解と生成の両方を同時に最適化することは，勾配の干渉により困難である。
- DPO適用時の生成能力への影響を検証し，改善のための指針を示す。
- 本研究の結果，DPOはJanus-Proモデルの生成品質を向上させることができなかった。7Bパラメータモデルでは有意な改善は見られず，1Bパラメータモデルではむしろ劣化が見られた。
- 理解と生成の勾配がほぼ直交しており，トークン数の非対称性によって勾配の大きさにも大きな差が見られた。これが多タスクDPOにおける主要な干渉メカニズムである。
- 勾配の大きさの調整は理解能力をわずかに向上させたものの，生成能力の低下は解消されなかった。離散VQトークン化がボトルネックである可能性が示唆された。
Link: https://arxiv.org/abs/2603.17044
SCE-LITE-HQ: 生成モデルを用いた滑らかな視覚的対事実説明 [cs.LG, cs.CV]目的：高解像度データに対するスケーラブルな対事実生成フレームワーク
- 深層学習モデルの解釈性は重要であり，特に高次元の視覚データでは困難である。
- 既存の対事実説明手法は，データセット固有の生成モデルに依存し，計算コストが高い。
- 事前学習済みの生成モデルを活用し，タスク固有の再学習を回避することで問題を解決する。
- SCE-LITE-HQは，既存のベースラインと同等またはそれ以上の有効性，現実性，多様性を持つ対事実を生成する。
- 専用の生成モデルを学習させるオーバーヘッドを回避しながら，高品質な対事実説明を可能にする。
- 自然画像データセットと医療画像データセットにおいて，その有効性が確認された。
Link: https://arxiv.org/abs/2603.17048
早期量子化がコードブックを縮小：多様性を維持するトークン化のための単純な修正 [cs.LG, cs.AI]目的：ベクトル量子化における表現崩壊の問題
- 機械学習モデルの効率化に不可欠であり，計算コスト削減やメモリ使用量の抑制に貢献する。
- ベクトル量子化における表現の崩壊が頻発し，生成モデルの性能低下を引き起こしている。
- 表現崩壊の原因を特定し，その軽減策を提案することで，生成モデルの品質向上を目指す。
- ベクトル量子化における，コードブックおよび潜在埋め込みの崩壊という問題が明らかになった。
- 崩壊の原因として，ランダムな初期化とエンコーダの容量不足が特定された。
- これらの発見に基づき，崩壊を軽減するための解決策が提案された。
Link: https://arxiv.org/abs/2603.17052
オフロード砂漠地形分類のためのTransformerベースのセマンティックセグメンテーション：DesertFormer [cs.CV, cs.LG]目的：オフロード砂漠地形のセマンティックセグメンテーションによる分類
- 自律ナビゲーションにおいて，正確な地形認識は不可欠である。特に，構造化されていないオフロード環境下では重要性が増す。
- 砂漠地帯は，低い色相コントラスト，極端な照明変化，および疎な植生により，従来の道路シーンセグメンテーションモデルでは課題となる。
- 本研究は，砂漠地形特有の課題を克服し，高精度なセグメンテーションを実現することで，自律走行システムの安全性を向上させる。
- DesertFormerは，SegFormer B2をベースとしたセマンティックセグメンテーションパイプラインであり，10種類の生態学的に意味のある地形カテゴリーに分類する。
- 4,176枚のオフロード画像データセットで学習した結果，平均IoU (mIoU) は64.4%，ピクセル精度は86.1%を達成し，DeepLabV3 MobileNetV2のベースラインを24.2%上回った。
- Ground ClutterとLandscape，Dry GrassとLandscape間の混同パターンを分析し，クラス重み付け学習とコピーペーストデータ拡張を提案した。
Link: https://arxiv.org/abs/2603.17056
Transformerはベイズネットワークである [cs.HC, eess.AS, cs.AI]目的：Transformerの動作原理の解明
- AI技術の中心であるTransformerの理論的基盤の理解が不可欠である。
- Transformerの優れた性能は実証されているが，その動作原理は未だ十分に解明されていない。
- Transformerをベイズネットワークとして捉え，その理論的根拠を明らかにすること。
- Transformerは，重み付きループ型信念伝播（Belief Propagation: BP）を実装するベイズネットワークとして表現できることが証明された。
- 特定の知識ベースに対しては，Transformerが正確な信念伝播を実行できることが示された。
- Transformerの構造とPearlのgather/updateアルゴリズムとの間に明確な対応関係が明らかになった。
Link: https://arxiv.org/abs/2603.17063
大規模言語モデルにおける非明確なタスクの評価 [cs.RO, cs.CL, cs.AI]目的：大規模言語モデルにおける非明確なタスクの評価方法
- 言語モデルの性能評価は，実用的な応用において不可欠である。
- 既存の評価指標は，非明確なタスクに対して信頼性のある結果を示さない。
- 現在の評価方法の限界を明らかにし，より堅牢な評価設計を提案する。
- 既存の評価ベンチマークと指標は，非明確なタスクに対するモデルの能力を正確に評価できないことが示された。
- 複雑な指示追従タスクにおいて，指示の表現，評価指標，LLMジャッジの不安定性が問題となることが明らかになった。
- 自然言語からMermaidシーケンス図への変換タスクでは，多角的な評価基準が有用な洞察をもたらすことが示された。
Link: https://arxiv.org/abs/2603.17067
大規模な推論モデルは，異なる文字体系間でのパラメトリック知識の転移に苦慮する [cs.CL, cs.AI]目的：大規模言語モデルにおけるクロスリンガル知識転移の課題
- グローバル化が進む中で，多様な言語・文化に対応したAIの重要性が高まっている。
- 言語間の知識転移は，モデルの汎用性を高める上で重要だが，十分に進んでいない。
- 文字体系の違いが知識転移の妨げになっている可能性に着目し，その解決を目指す。
- 知識転移の失敗は，言語や系統ではなく，文字体系の不一致が主要な要因であることが示された。
- 質問のキーエンティティをソース言語で提供することで，文字体系の異なる質問に対する性能が著しく向上した。
- 推論能力を向上させるためのSFTサンプル生成パイプラインにより，文字体系間の知識転移ギャップが縮小された。
Link: https://arxiv.org/abs/2603.17070
PRISM：学習中の保持と相互作用の解明 [cs.LG]目的：大規模言語モデルにおける学習中の設計選択に関する包括的な実証研究
- 大規模言語モデルの性能向上は，自然言語処理の進歩に不可欠である。
- 学習済みモデルの知識保持と新たな知識の統合が課題となっている。
- 学習中の適切なデータ構成と学習方法を明らかにすることで，性能向上を目指す。
- 学習中の高品質なトークン約270億個を用いた学習により，数学，コード，科学のベンチマークで一貫した性能向上が確認された。
- PRISMからRLへのパイプラインは，6つの推論ベンチマークにおける平均スコアを大幅に改善し，RL単独では効果が限定的であった。
- 学習中のデータ構成がRLの効果に大きく影響し，特に科学データの追加がGPQA-Diamondのスコアを向上させた。
Link: https://arxiv.org/abs/2603.17074
回路構築：強化学習による多項式から回路への変換 [cs.LG, cs.AI, cs.CC]目的：多項式計算のための効率的な算術回路の発見
- 自動証明生成やValiantのVP vs. VNP予想に動機付けられ，計算量の削減が重要である。
- 多項式を効率的に計算する回路の手動設計は困難であり，自動化が求められている。
- 強化学習を用いて，多項式を計算する回路を自動的に構築する手法を開発する。
- 強化学習エージェントが固定された演算回数内で回路構築を行うゲームとして問題を定式化した。
- SACは二変数ターゲットにおいて高い成功率を示し，PPO+MCTSは三変数に拡張可能であった。
- この結果は，多項式回路合成が自己改善型探索ポリシーの研究に適した環境であることを示唆する。
Link: https://arxiv.org/abs/2603.17075
教師なし機械翻訳のためのアンサンブル自己学習 [cs.CL, cs.LG]目的：教師なし機械翻訳におけるアンサンブル学習による性能向上
- 機械翻訳は国際コミュニケーションにおいて不可欠であり，言語間の壁を取り除く重要な技術である。
- 教師なし機械翻訳は，高品質な並列コーパスを必要とせずとも翻訳を可能にするが，性能向上が課題である。
- アンサンブル学習によってモデルの多様性を高め，疑似並列データを活用することで性能を改善する。
- 複数のモデルを組み合わせたアンサンブル自己学習フレームワークにより，教師なし機械翻訳の性能が向上した。
- 英語から翻訳する際にchrF値が平均で1.7ポイント，英語への翻訳で0.67ポイント向上した。
- アンサンブルによる生成された疑似データが，各モデルの学習を促進し，共有された教師ありデータとして機能する。
Link: https://arxiv.org/abs/2603.17087
機能埋め込みProvenanceグラフ構築と脅威解釈のためのエンドツーエンドフレームワーク [cs.CR, cs.LG]目的：機能埋め込みProvenanceグラフの構築と脅威解釈
- システムログから因果関係をモデル化し，異常検知に活用することで，攻撃の早期発見に繋がる分野である。
- 従来のProvenanceグラフ構築は手動ルールに依存し，柔軟性や機能コンテキストの欠如が課題であった。
- LLMを活用し，ログから自動的にProvenanceグラフを構築し，機能コンテキストを埋め込むことで，より高度な脅威検知と分析を実現する。
- Auto-Provは，多様なログ形式に対応し，Provenanceグラフの構築と機能埋め込みを自動化することにより，検出性能を向上させた。
- 学習されたProvenanceグラフを用いた異常検知器において，Auto-Provによって生成されたグラフが安定した検出性能と解釈可能な攻撃概要を提供した。
- システム進化下においても，Auto-Provは堅牢な攻撃概要の生成を維持し，分析者の調査を支援する。
Link: https://arxiv.org/abs/2603.17100
混合エキスパートLLMにおける交差言語的不一致を用いた知識の局所化 [cs.CL, cs.AI, cs.LG]目的：混合エキスパートLLMにおける知識の局所化
- 大規模言語モデルの能力向上に伴い，多様な言語での知識獲得と利用が重要となる。
- 言語によって知識の想起性能に差があり，その原因特定が困難である。
- 言語間の知識想起性能の不一致を利用し，知識に関わるモデルの構成要素を特定する。
- 交差言語的不一致を活用することで，知識を扱うモデルの特定の専門家を特定できる。
- 特定された専門家を停止すると，40%以上の質問で正答率が低下する。
- 本手法は，複雑化するLLMにおける知識の局所化を現実的かつスケーラブルに行う。
Link: https://arxiv.org/abs/2603.17102
仕様が創発されるとき：長期的なコーディングエージェントにおける忠実度損失のベンチマーク [cs.SE, cs.AI]目的：長期的なコーディングエージェントにおける忠実度損失の評価
- ソフトウェア開発において，要件定義は開発の成功を左右する重要な要素である。
- 従来のベンチマークは完全な仕様を事前に与えるのに対し，実際の開発は段階的に仕様が明らかになることが多い。
- 段階的な仕様開示下でのコーディングエージェントの忠実度低下を評価し，その対策を検討すること。
- Claude CodeとCodexを評価した結果，単発仕様の方が多くの論文で高い実装忠実度を示した。
- 特にClaude Codeにおいて，構造的統合と意味的忠実度の両方で損失が見られた。
- ProjectGuardの導入により，Claude Codeにおける忠実度低下を90%まで回復し，重大な失敗を減少させることに成功した。
Link: https://arxiv.org/abs/2603.17104
SENSE：プライバシー保護セマンティック検索による効率的な脳波-テキスト変換 [cs.LG]目的：脳波からのテキスト変換
- 脳活動の解読は，支援コミュニケーション，神経技術，人間-コンピュータ間の相互作用において重要な応用が期待される分野である。
- 既存の脳波-コンピュータインタフェースは，計算資源を大量に消費し，アクセスが限られ，また，機密性の高い神経データの漏洩リスクがある。
- 本研究では，大規模言語モデルのファインチューニングを行わずに，脳波からテキストを変換する軽量かつプライバシー保護なフレームワークを提案する。
- SENSEは，脳波信号を非侵襲的にテキストに変換する新しい手法であり，既存のファインチューニングされたベースラインと同等かそれ以上の生成品質を達成する。
- SENSEは，計算コストを大幅に削減し，脳波データのローカル処理と抽象的なセマンティック情報の共有によって，プライバシーを保護する。
- 128チャンネル脳波データセットを用いた実験で，SENSEはThought2Textのような既存手法を上回る性能を示した。
Link: https://arxiv.org/abs/2603.17109
医療画像セグメンテーションのためのピクセルレベルの反事実的コントラスト学習 [cs.CV, cs.LG]目的：医療画像セグメンテーションにおける性能向上
- 医療画像の正確なセグメンテーションは，診断や治療計画において不可欠である。
- 高品質なアノテーション付きデータセットの作成には，コストと時間がかかる。
- AI生成ラベルのバイアスを軽減しつつ，セグメンテーション精度を向上させること。
- アノテーション不要のDVD-CLは，他の密なコントラスト学習手法を上回る性能を示した。
- 銀ラベルを用いた教師あり学習は，銀ラベルデータのみでの学習を上回る高いDSC（約94%）を達成した。
- 反事実的学習と銀ラベルの活用により，画像の取得や病理学的変化に対するロバスト性が向上した。
Link: https://arxiv.org/abs/2603.17110
隠れたクローン：ビジョン言語モデルアンサンブルにおけるファミリーバイアス露呈と修正 [cs.CV, cs.AI]目的：ビジョン言語モデルアンサンブルにおけるファミリーバイアスの存在とその軽減
- ビジョン言語モデルは画像とテキストの理解において重要であり，その性能向上は様々な応用分野に貢献する。
- 異なるプロバイダのモデルを組み合わせることで精度は向上するものの，同じアーキテクチャのモデル間には相関した誤りが存在する。
- ファミリー間の相関誤差を考慮した集約方法を開発し，アンサンブル性能の低下を防ぐことを目指す。
- ファミリーを意識した集約方法により，誤りが相関する質問群における精度が大幅に向上した。
- QualRCCVは，キャリブレーションされた投票を全てのベンチマークで上回り，家族の質や規模を考慮した重み付けが有効であることが示された。
- LCSは，候補回答を再ランク化することで最大の性能向上を達成し，既存手法を上回る汎化性能を確認した。
Link: https://arxiv.org/abs/2603.17111
カスケードを意識したマルチエージェントルーティング：時空間サイドカーとジオメトリスイッチング [cs.AI, cs.LG]目的：実行グラフにおける経路リスク推定と適応的なジオメトリ制御
- 複雑なAI推論システムの構築において，記号グラフネットワークは重要なアーキテクチャとして認識されている。
- 既存のスケジューラは負荷や適合性を最適化するが，グラフの形状が故障の伝播に与える影響を考慮していない。
- 実行グラフの形状（木構造か循環構造か）に応じて故障伝播を抑制し，システム全体の性能を向上させる。
- 適応的なジオメトリスイッチングにより，最も困難な非木構造環境での勝率が64-72%から92%に向上した。
- 時空間サイドカーの導入により，全体的な勝率が50.4%から87.2%に向上し，特に木構造環境で大幅な改善が見られた。
- わずか133パラメータのサイドカーが，ジオメトリを考慮しない故障伝播を効果的に軽減できることが示された。
Link: https://arxiv.org/abs/2603.17112
大規模言語モデルのセキュリティ評価と軽減策：包括的な防御フレームワーク [cs.CR, cs.AI]目的：大規模言語モデルに対する脆弱性の評価と，それに対する多層防御システムの開発
- 医療や金融など重要インフラを支えるLLMの利用拡大に伴い，セキュリティ確保が不可欠となっている。
- 主要なLLMアーキテクチャにわたる包括的なセキュリティ評価がなく，リスクの定量化や適切なモデル選定が困難である。
- 標準化された脆弱性評価フレームワークを確立し，特定された脅威から保護する防御システムを構築すること。
- GPT-4，GPT-3.5 Turbo，Claude-3 Haiku，LLaMA-2-70B，Gemini-2.5-pro の5つのLLMファミリを評価した結果，脆弱性率は11.9\%～29.8\%とばらつきが見られた。
- LLMの性能とセキュリティの堅牢性には相関関係がないことが示された。
- 開発した防御フレームワークは，平均検出精度83\%，誤検知率5\%を達成し，実運用環境での安全なLLM導入に貢献する可能性がある。
Link: https://arxiv.org/abs/2603.17123
意味的通信のためのトポロジー保存型深層結合ソース・チャネル符号化 [cs.LG, cs.IT, eess.IV, math.IT]目的：意味的通信におけるグローバルな構造情報の保存
- 自動運転等の無線画像応用では，ピクセル単位の精度より構造情報の維持が重要である。
- 既存の深層結合ソース・チャネル符号化(DeepJSCC)は，ピクセル単位の損失を最適化するのみで，トポロジー保護がない。
- 画像や潜在特徴のトポロジーの一貫性を保ち，ロバストな潜在多様体を実現すること。
- 提案手法TopoJSCCは，持続ホモロジー正則化により，エンドツーエンド学習でトポロジーの一貫性を維持する。
- Wasserstein距離を最小化することで，オリジナル画像と再構成画像のcubical持続ホモロジー図形間の差異を抑制する。
- 低SNRや低帯域幅条件下で，トポロジー保存性とピーク信号対雑音比(PSNR)が向上することを示した。
Link: https://arxiv.org/abs/2603.17126
文脈的選好分布の学習 [eess.SY, cs.SY, math.OC, eess.SY, cs.SY, eess.SY, cs.SY, cs.LG, stat.ML]目的：文脈依存的な人間の選好分布の学習
- 人間の選好は多様であり，状況によって変化するため，意思決定において不確実性が生じる。
- 既存手法は選好を点推定したり，文脈変化を捉えきれないため，リスク回避型意思決定には不向きである。
- 文脈的特徴から多様な分布を予測し，リスク回避型の最適化に活用することを目指す。
- 提案手法は，文脈的特徴を考慮して選好分布を予測し，最適化問題に組み込むことで，事後驚きを大幅に減少させる。
- 合成的な配車環境において，リスク中立的なアプローチや既存のリスク回避型手法と比較して，優れた性能を示した。
- 特に，平均的な事後驚きは，それぞれ最大114倍，25倍も低減された。
Link: https://arxiv.org/abs/2603.17139
LLMを評価者とする回帰認識型強化学習 [cs.LG, cs.AI]目的：LLMを評価者とする際の回帰タスクにおける最適化
- LLMを自動評価者として活用する研究が盛んに行われており，その性能向上は重要である。
- 従来の強化学習は二値報酬に依存し，回帰タスク特有の順序関係を考慮できていない。
- 回帰タスクに特化した強化学習フレームワークを開発し，評価の精度向上を目指す。
- 提案手法REALは，回帰報酬を最適化する強化学習フレームワークであり，相関係数指標に対しても最適であることが証明された。
- 80億から320億パラメータのモデルで実験した結果，REALは回帰認識型SFTベースラインや標準的な強化学習手法を上回る性能を示した。
- 特にQwen3-32Bでは，SFTベースラインと比較して，ピアソンの相関係数で+8.40，スピアマンの相関係数で+7.20の改善を達成した。
Link: https://arxiv.org/abs/2603.17145
コントラスト学習を用いた選択的フィードバックによるデータバランスを通じた個別化転倒検知 [cs.CY, cs.CL, cs.LG]目的：個別化転倒検知モデルにおけるデータバランスの最適化
- 高齢化社会において，転倒は重大な健康問題であり，迅速な検知が重要である。
- 現実の転倒データは不足しており，非転倒データの偏りが検知精度を低下させる。
- ユーザからのフィードバックを効率的に活用し，転倒検知の精度向上を目指す。
- 提案手法は，半教師ありクラスタリングとコントラスト学習を組み合わせ，有用なフィードバックを特定しデータバランスを改善する。
- リアルタイム実験の結果，TFS方式はベースラインと比較して最大25%の性能向上を示した。
- FSL方式も7%の性能向上を達成し，選択的個別化の有効性が実証された。
Link: https://arxiv.org/abs/2603.17148
意図の形式化：AIエージェント時代の信頼性のあるコーディングのための大きな課題 [cs.SE, cs.AI, cs.PL]目的：意図の形式化
- ソフトウェア開発における信頼性は不可欠であり，AIの進化と共にその重要性は増している。
- 自然言語による要求とプログラムの動作との間のずれ（意図のギャップ）が長年の課題である。
- AI生成コードの信頼性を確保するため，意図を検証可能な形式仕様に翻訳する必要がある。
- 意図の形式化は，軽微なテストから完全な形式検証まで，状況に応じた信頼性レベルを提供する。
- 仕様の検証がボトルネックであり，ユーザーとの対話やテストなどの指標による品質評価が求められる。
- インタラクティブなテスト駆動型形式化，AI生成の事後条件，エンドツーエンドの検証パイプラインの有効性が示されている。
Link: https://arxiv.org/abs/2603.17150
動的時相論理制約下におけるシールド付き強化学習 [cs.RO, cs.LG]目的：動的時相論理制約下での強化学習
- ロボティクス分野において，強化学習の実用化が期待されるが，安全性や運用制約が課題となっている。
- 従来の安全性を保証する手法では，定期的な充電や特定領域への時間制限付き訪問といった複雑な制約に対応できない。
- 時相論理を用いて複雑な制約を表現し，強化学習プロセス全体を通して制約を満たすことを目指す。
- 提案手法は，シケンシャルコントロールバリア関数とモデルフリー強化学習を活用することで，動的目標に対する時間制約を含む複雑な時相論理制約を学習中に満たす。
- 従来の安全制約に加えて，未知の軌道を持つ動的目標への訪問など，より高度な仕様への対応を可能にする。
- シミュレーションを通じて，提案手法の有効性が実証された。
Link: https://arxiv.org/abs/2603.17152
粒子群最適化のための二次代理アトラクタ [cs.NE, cs.SY, eess.SY, math.OC]目的：粒子群最適化における収束性向上
- 最適化問題は，科学技術の様々な分野で不可欠であり，効率的な解法が求められている。
- 従来の粒子群最適化は，局所最適解への陥りやすさやノイズに対する脆弱性が課題である。
- 二次代理アトラクタにより，より安定した収束とロバスト性の向上を目指す。
- 提案手法は，様々なベンチマーク関数において，従来の粒子群最適化アルゴリズムを安定的に上回る性能を示した。
- 特に準凸関数において顕著な改善が見られ，潜在的な凸構造を効果的に利用していると考えられる。
- 本手法は，計算コストの増加を最小限に抑えながら，グローバルな収束性とロバスト性を高めることが確認された。
Link: https://arxiv.org/abs/2603.17163
LLMはどれほど推論能力があるか：テキストベースのゲーム環境における多段階演繹的推論の評価 [cs.DB, cs.DC, cs.IR, cs.AI, cs.CL]目的：多段階演繹的推論の評価
- 大規模言語モデルの推論能力は，自然言語処理の重要な研究課題である。
- 複雑な推論を必要とするタスクにおいて，LLMの性能は十分ではない。
- ゲーム環境を用いて，LLMの演繹的推論能力を定量的に評価すること。
- LLMエージェントは，Clueゲームにおいて，6ゲーム中わずか4回しか正解を導き出せなかった。
- 一貫した演繹的推論をゲーム全体を通して維持することが困難であることが示唆された。
- 構造化された論理パズルでのファインチューニングは，必ずしもゲーム内推論の向上にはつながらなかった。
Link: https://arxiv.org/abs/2603.17169
PAuth - エージェントのための正確なタスク範囲の認可 [cs.CR, cs.AI, cs.PL]目的：エージェントによるタスク遂行に必要な操作範囲の認可モデル
- AIエージェントの普及に伴い，Webサービスとの連携における安全な認可メカニズムが重要となる。
- 従来の認可モデルは，オペレーターに広範な権限を付与するため，過剰な権限を持つエージェントのリスクがある。
- ユーザータスクに必要な最小限の操作範囲のみを認可するモデルを構築し，安全性を高める。
- PAuthは，自然言語タスクの実行に必要な具体的な操作のみを暗黙的に認可する新しいモデルである。
- 評価の結果，PAuthは通常のタスクを正常に実行し，不正な操作を検知して警告を発することが確認された。
- この結果は，PAuthが権限に関する正確な推論を行うことを示している。
Link: https://arxiv.org/abs/2603.17170
ノイズ応答較正：LLMジャッジのための因果介入プロトコル [cs.CL, cs.LG]目的：LLMジャッジの較正
- LLMは自動ジャッジや合成ラベル付けに活用が拡大しており，その信頼性評価は重要である。
- LLMは確率的であり過信傾向があるため，正解データが少ない状況での判断が難しいという課題がある。
- LLMジャッジの信頼性を評価するための，ノイズ介入に基づく較正手法を提案し検証する。
- 提案手法により，テキストデータでは予測通りの性能劣化が確認された。
- 一方で，テーブルデータの大半では，ノイズを加えても有意な性能劣化が見られなかった。
- ノイズに鈍感なデータセットでは，モデルの性能が低い傾向が示された。
Link: https://arxiv.org/abs/2603.17172
汎用マルチモーダルLLMは，人間の注目度を介して生体認証の専門知識を獲得する [cs.CV, cs.AI]目的：虹彩プレゼンテーション攻撃検出における汎用マルチモーダル大規模言語モデル(MLLM)の活用
- 生体認証はセキュリティの根幹であり，その信頼性確保は重要である。特に虹彩認証は高精度だが，攻撃への対策が急務である。
- 新たな攻撃手法が頻出するため，既存のモデルでは対応が困難であり，柔軟な適応能力が求められている。
- 本研究は，プライバシーを保護しつつ，人間の知識を活用してMLLMによる虹彩攻撃検出の精度向上を目指す。
- 事前学習済みのvision transformerが，明示的な学習なしに多くの虹彩攻撃タイプを分類できることを示した。
- 人間の注目度（攻撃指標の言語的記述）を構造化されたプロンプトに組み込むことで，モデルは曖昧さを解消し，精度が向上した。
- Gemini 2.5 Proは，専門的なCNNベースラインや人間検査者よりも優れた性能を示し，Llama 3.2-Visionはほぼ同等の性能を達成した。
Link: https://arxiv.org/abs/2603.17173
コード生成LLMにおけるデータポイズニングの検出：ブラックボックス脆弱性指向スキャンによる [cs.CR, cs.AI, cs.SE]目的：コード生成LLMに対するデータポイズニング攻撃の検出
- ソフトウェア開発におけるLLM活用が拡大しており，その安全性確保が重要である。
- 既存の手法は，構文の多様性により，コードにおける攻撃ターゲットの特定が困難である。
- コード生成LLM固有の構造的類似性に着目し，効率的なポイズニング検出を目指す。
- CodeScanは，異なるプロンプトに対する複数回のコード生成結果を分析し，構造的類似性を検出する。
- ASTを用いた正規化により，構文上の差異を吸収し，意味的に等価なコードを統一することで，攻撃構造を特定する。
- 108モデルの実験により，97%以上の検出精度と低い誤検出率を達成し，有効性が確認された。
Link: https://arxiv.org/abs/2603.17174
ドメイン知識に基づいた説明可能なブースティングマシンによる信頼性の高い側方流出予測 [cs.LG, physics.geo-ph]目的：側方流出予測のための説明可能なブースティングマシンの物理的な整合性向上
- 自然災害予測の信頼性は，社会インフラの安全確保や防災対策において極めて重要である。
- 説明可能なブースティングマシンは，物理的にありえない関係性を学習することがあり，予測の信頼性を損なう可能性がある。
- ドメイン知識を活用し，物理的に矛盾する学習結果を修正することで，予測の信頼性を高めることを目指す。
- 本研究では，側方流出予測にドメイン知識を組み込んだフレームワークを開発し，学習された形状関数を修正することで物理的な整合性を向上させた。
- クライストチャーチ地震のデータセットを用いて検証した結果，元のブースティングマシンに見られた非現実的な傾向を修正することができた。
- 修正されたモデルは，予測精度をわずかに犠牲にしながら（4-5％），より物理的に整合性のある説明を提供することが示された。
Link: https://arxiv.org/abs/2603.17175
検索拡張生成システムにおける教師なし敵対的文書検出 [cs.CR, cs.AI]目的：検索拡張生成システムにおける敵対的文書の検出
- 検索拡張生成システムは広く普及しており，そのセキュリティ確保が重要である。
- 敵対的な文書による攻撃は深刻であり，既存のシステムへの対応が課題である。
- ラベル付けされたデータに頼らず，未知の攻撃も検出できる手法が求められる。
- 生成器の活性化，出力埋め込み，エントロピーに基づく不確実性指標が，敵対的な文書検出に適していることが示された。
- 統計的な外れ値検出により，これらの指標の検出能力を比較検討した結果，有効性が確認された。
- 攻撃者が操作したいプロンプトは，検出に必要ないことが示され，簡単なコンテキスト要約生成がより有効な場合もある。
Link: https://arxiv.org/abs/2603.17176
MetaClaw：ただ話すだけ - 環境下でメタ学習と進化を行うエージェント [cs.LG]目的：継続的なメタ学習による基盤LLMポリシーと再利用可能な行動スキルの共同進化
- LLMエージェントの活用が進む中で，変化するユーザーニーズへの適応が課題となっている。
- 既存手法では，知識の蒸留やダウンタイムなしの継続的な学習が困難である。
- ユーザーの操作停止時間を活用し，ダウンタイムなしで性能向上を図る。
- スキル駆動型適応により，既存手法と比較して最大32%の精度向上が確認された。
- パイプライン全体を通して，Kimi-K2.5の精度は21.4%から40.6%に向上した。
- 複合的なロバスト性は18.3%向上し，システム全体の信頼性が向上した。
Link: https://arxiv.org/abs/2603.17187
解釈可能な少数事例学習によるアルツハイマー病予測のための表形式LLM [cs.RO, cs.CL, cs.LG, q-bio.QM]目的：多岐にわたるバイオメディカルデータを用いたアルツハイマー病の少数事例学習による予測
- アルツハイマー病の早期診断は重要であり，バイオマーカーデータに基づいた高精度な予測手法が求められている。
- バイオマーカーデータはサンプル数が少なく不完全な場合が多く，深層学習モデルが古典的手法を下回ることがある。
- 表形式LLMを活用し，バイオマーカーデータから高精度かつ解釈可能なアルツハイマー病予測を実現する。
- TAP-GPTは，複数のADNIデータセットにおいて，従来の機械学習モデルや汎用LLMと比較して，少数事例学習において高い性能を示した。
- 特徴選択は，高次元入力における性能低下を軽減し，欠損値シミュレーション下や実際の欠損データにおいても安定した性能を維持した。
- TAP-GPTは，確立されたアルツハイマー病の生物学的知識と整合したモダリティを意識した推論を生成し，自己省察においても安定性を保った。
Link: https://arxiv.org/abs/2603.17191
原子表現学習のための自己条件付きノイズ除去 [cs.LG]目的：原子表現学習における自己条件付きノイズ除去手法
- 自然言語処理や画像認識における大規模事前学習の成功を受け，物理科学分野でも同様の基盤モデル開発が活発化している。
- 既存の自己教師あり学習は，基底状態の構造や単一の原子データ領域に限定されており，性能向上が乏しい。
- 多様な原子データ領域と非平衡構造を含む，自己埋め込みを用いた条件付きノイズ除去により，この課題を解決する。
- 自己条件付きノイズ除去(SCD)は，既存の自己教師あり学習手法を上回り，教師あり事前学習と同等以上の性能を複数のベンチマークで示した。
- SCDで事前学習した小規模なGNNが，より大規模なデータセットで学習されたモデルに匹敵する性能を達成した。
- バックボーンアーキテクチャと事前学習データセットを制御することで，SCDが有効であることが確認された。
Link: https://arxiv.org/abs/2603.17196
継続学習のためのメモリ効率の良い帰納バイアスとしての抽象化 [cs.LG, cs.CL]目的：継続学習における知識の忘却と汎化性能の低下の抑制
- 現実世界は常に変化し複雑であり，エージェントは最初から再学習するコストをかけずに継続的に学習する必要がある。
- オンライン継続学習では新しい情報を学習する際に，過去の知識が干渉し，忘却や汎化性能の低下が発生する。
- 抽象化によって潜在的な関係構造を捉え，メモリ効率の良い学習安定化を実現すること。
- 提案手法AATは，リプレイバッファを使用せずに，厳密なオンラインデータストリームでの学習を安定化させる。
- AATは，エンティティマスキングによる関係データセットと，ことわざによる物語データセットの両方で有効性が確認された。
- AATは，追加のメモリを必要とせず，経験再生(ER)ベースラインと同等以上の性能を達成する。
Link: https://arxiv.org/abs/2603.17198
動機付け推論の摘発：CoT 前後の活性化プロービングによる検出 [cs.LG, cs.AI, cs.CL]目的：動機付け推論の検出
- 大規模言語モデルの信頼性確保は重要である。モデルの意思決定プロセスを理解し，制御する必要がある。
- 大規模言語モデルは，提示されたヒントに影響され，都合の良いCoTを生成することがある。
- 活性化プロービングを用いて，CoT生成前後のモデルの内部表現から動機付け推論を検出すること。
- 生成前のプローブは，CoT全体を監視するLLMベースの監視器と同程度の精度で動機付け推論を予測する。
- 生成後のプローブは，CoT全体を監視するLLMベースの監視器を上回る性能を示す。
- 生成前のプロービングにより，不要なCoT生成を回避できる可能性がある。
Link: https://arxiv.org/abs/2603.17199
OPERA：効率的な検索モデル適応のためのオンラインデータ剪定 [cs.IR, cs.AI, cs.CL, cs.LG]目的：検索モデル適応における効率性と有効性の向上
- 分野固有のファインチューニングは検索モデルの性能に不可欠である。そのため，効率的な適応手法が求められている。
- 既存のファインチューニングでは，全ての学習ペアが同程度に貢献するわけではなく，無駄が生じることがある。
- 学習ペアの質のばらつきに着目し，データ剪定によって効率的かつ高性能な適応を実現することを目指す。
- 静的剪定(SP)は，ランキング(NDCG)を向上させるが，クエリの多様性低下により検索(Recall)が低下するトレードオフがあることが示された。
- 動的剪定(DP)は，クエリとドキュメントレベルでサンプリング確率を動的に調整し，高品質な例を優先しながら学習データ全体へのアクセスを維持することで，このトレードオフを解決する。
- DPは，８つのデータセットでランキング(NDCG@10 +1.9%)と検索(Recall@20 +0.7%)の両方で優れた性能を示し，標準的なファインチューニングよりも短い時間(50%未満)で同等の性能を達成した。
Link: https://arxiv.org/abs/2603.17205
リチウムイオン電池の多様な構成におけるマルチフィジックス予測のためのスケーラブルなニューラルバンドルマップ [cs.CE, cs.AI]目的：リチウムイオン電池における多様なセル形状でのマルチフィジックス進化の効率的かつ正確な予測
- リチウムイオン電池の設計，管理，安全性を確保するためには，マルチフィジックス現象の理解が不可欠である。
- 従来の計算フレームワークでは，多様なセル形状と運転条件における電気化学的，熱的，機械的ダイナミクスの連成を捉えるのが困難である。
- 本研究は，幾何学的複雑さと基礎物理法則を分離し，多様な形状での予測精度と計算効率を向上させることを目指す。
- 提案するニューラルバンドルマップ（NBM）は，様々な構成において1%未満の正規平均絶対誤差で高精度な時空間予測を達成する。
- NBMは，トレーニング期間を大幅に超える長期予測においても安定性を維持し，従来のソルバーと比較して計算コストを2桁削減する。
- NBMを活用することで，熱安全性を考慮した上でエネルギー密度を38%向上させる最適な電池設計を迅速に探索することが可能になった。
Link: https://arxiv.org/abs/2603.17209
費用対効果の高いAI委譲のための適応型契約 [cs.CE, physics.comp-ph, cs.GT, cs.AI, cs.LG]目的：AI委譲における費用対効果の最大化
- AIの活用が拡大する中で，外部への委譲は重要性を増している。
- 評価のノイズが大きい場合，支払いが増加し，コストが課題となる。
- 評価コストを抑えつつ，AI委譲の経済的メリットを向上させる。
- 適応型契約は，初期の粗い信号に基づいて詳細な評価を必要に応じて選択的に行うことで，リソースを節約する。
- 最適な適応型契約を効率的に計算するアルゴリズムが提案され，近似困難性も示された。
- 質問応答とコード生成のデータセットを用いた実験により，適応性の利点が実証された。
Link: https://arxiv.org/abs/2603.17212
合成タスクのスケーリングによるAI科学者 [cs.AI]目的：AIエージェントの訓練環境生成パイプライン
- AIエージェントの発展により，科学的発見の自動化が現実味を帯びてきた。
- 既存のLLMは，それらしいアイデアを生成するものの，有効なものが少ないという課題がある。
- 機械学習エージェントが学習するための，高品質な合成タスクの提供。
- 本研究で開発したパイプラインは，トピックサンプリング，データセット提案，コード生成を自動化する。
- 合成タスクはHuggingface APIで検証された現実の機械学習データセットに基づいている。
- MLGymベンチマークにおいて，Qwen3-4BでAUPが9%，Qwen3-8Bで12%向上した。
Link: https://arxiv.org/abs/2603.17216
構築による匿名性：プライバシー保護テキストのためのLLM駆動型フレームワーク [cs.CL, cs.AI, cs.LG]目的：プライバシー保護テキスト生成のためのLLM駆動型パイプライン
- AIの責任ある利用には，データの有用性を損なわずに機密情報を保護することが不可欠である。
- 大規模言語モデルの時代において，個人情報保護の課題は深刻化している。
- 本研究は，組織内で完結し，機密情報を漏洩させずに，データのプライバシーを保護しつつ有用性を維持することを目指す。
- 提案手法は，プライバシー，セマンティックな有用性，および学習可能性において，既存手法（Microsoft Presidio，Google DLP，ZSTSなど）を上回る性能を達成した。
- ローカルLLMによる置換は，機密性の高い情報を第三者のAPIに公開することなく，安全なエージェントパイプラインとダウンストリームのファインチューニングを可能にする。
- その結果，生成された匿名化コーパスは，責任ある利用と運用上の価値の両方を兼ね備えていることが示された。
Link: https://arxiv.org/abs/2603.17217
整合性が言語モデルを規範的，記述的でないものにする [cs.CL, cs.AI, cs.GT]目的：言語モデルの整合性と人間の意思決定予測の比較
- 言語モデルの性能向上は，人間とのより良い協調を可能にする上で重要である。
- 整合性調整されたモデルが，人間の実際の行動を正確に反映しているか不明である。
- 戦略的ゲームにおけるモデルの予測精度を評価し，整合性の影響を解明する。
- 整合性調整されたモデルは，一回の意思決定や規範的な予測が有効な状況では予測性能が高い。
- 複数回の戦略的ゲームでは，整合性調整されていないモデルの方が人間の選択をより正確に予測する。
- 整合性は，モデルの利用可能性と人間行動の代理としての利用可能性との間にトレードオフを生む。
Link: https://arxiv.org/abs/2603.17218
SA-CycleGAN-2.5D：三重平面コンテキストを用いた自己注意型CycleGANによる多施設MRI調和 [cs.CV, cs.AI, cs.LG]目的：多施設におけるMRI画像間の調和
- 多施設研究では，スキャナ依存性の影響が再現性に大きく関わる。
- 既存手法では空間的な特徴を考慮できず，スキャナの影響を十分に除去できていない。
- グローバルな強度相関をモデル化し，空間情報を保持した調和を目指す。
- 本研究で提案するSA-CycleGAN-2.5Dは，MMDを99.1%削減し，ドメイン分類器の精度をほぼ偶然レベルまで低下させた。
- 特に，異種から均質への変換において，グローバルな注意機構が統計的に不可欠であることが確認された。
- 2Dの効率性と3Dの一貫性を両立し，腫瘍の病理生理を維持した調和画像を得ることで，再現性のある多施設ラジゲノミクス解析を可能にする。
Link: https://arxiv.org/abs/2603.17219
TharuChat：合成データと人間による検証を通じた低リソース言語のための大規模言語モデルの初期構築 [cs.CL, cs.AI, cs.LG]目的：低リソース言語であるタルー語のための大規模言語モデル構築
- AI技術の発展は，グローバルサウスの先住言語を包含せず，デジタルデバイドを拡大させている。
- タルー語はデータ不足と方言の多様性により，既存の多言語モデルが誤った出力をする傾向がある。
- 合成データ生成と人間による検証を通じて，タルー語の言語モデルの性能向上を目指す。
- LLMを活用したデータセットTharuChatを構築し，タルー語の多様な方言を反映させた。
- TharuChatによる訓練データ量の増加は，perplexityを6.42から2.88へと直線的に減少させた。
- 本研究は，生成AIによるヒマラヤ地域の低リソース言語の保存可能性を示す。
Link: https://arxiv.org/abs/2603.17220
ドロップオフから回復へ：MLLMにおけるセグメンテーションのメカニズム分析 [cs.CV, cs.AI, cs.LG]目的：MLLMにおけるセグメンテーション能力のメカニズム
- 画像認識技術の高度化は，様々な応用分野において不可欠である。
- MLLMの空間理解能力は未知数であり，セグメンテーション性能に課題がある。
- MLLMのセグメンテーション処理メカニズムを解明し，性能向上に貢献する。
- アダプター層でセグメンテーション表現が低下する現象が確認された。
- LLM層において，注意機構を介した表現の洗練により，セグメンテーション性能が回復する様子が明らかになった。
- 因果注意の制約を双方向注意が緩和することで，セグメンテーションの回復が促進されることが示された。
Link: https://arxiv.org/abs/2603.17228
KANtize：効率的な推論のためのKolmogorov-Arnoldネットワークの低ビット量子化の探求 [cs.AR, cs.AI]目的：Kolmogorov-Arnoldネットワークにおける低ビット量子化の影響と，計算複雑性およびハードウェア効率への影響の評価
- 近年，パラメータ効率と解釈性の面で多層パーセプトロンを上回る可能性を持つKolmogorov-Arnoldネットワークが注目されている。
- スプライン関数の評価は計算複雑性を増大させ，低ビット量子化による効率化が未解明であった。
- 低ビット量子化による計算複雑性の削減とハードウェア効率の向上を目指す。
- Bスプライン係数を2～3ビットまで量子化しても，精度の低下は無視できる程度であり，計算複雑さを大幅に削減できることが示された。
- 低ビット量子化された事前計算テーブルを再帰的なBスプラインアルゴリズムの代替として使用することで，計算複雑性をさらに低減し，ハードウェア効率を向上させることが可能となった。
- ResKAN18では，低ビット量子化されたBスプラインテーブルを使用することで，精度を損なうことなくBitOpsを50倍削減できた。
Link: https://arxiv.org/abs/2603.17230
ドラフト・アンド・プルーニング：論理的推論のための自動形式化の信頼性向上 [cs.CL, eess.AS, cs.RO, cs.AI]目的：論理的推論における自動形式化の信頼性向上
- 自然言語の推論問題をソルバーで実行可能なプログラムに変換し，健全な論理的推論を可能にする分野。
- 現在の自動形式化パイプラインは脆弱で，プログラムが実行に失敗したり，誤った意味をエンコードしたりする問題がある。
- 推論時に多様性と検証を用いて，自動形式化に基づく論理的推論の信頼性を高めることを目指す。
- 提案手法D&Pは，複数の自然言語計画を作成し，矛盾や曖昧さを含む形式化を削除することで，自動形式化の性能を大幅に向上させる。
- AR-LSATベンチマークにおいて，GPT-4およびGPT-4oを用いたD&Pは，既存の強豪手法を大きく上回る78.43%および78.00%の精度を達成した。
- PrOntoQAおよびLogicalDeductionを含む他のベンチマークでも，D&Pは優れた性能を示し，PrOntoQAでは100%の精度を達成した。
Link: https://arxiv.org/abs/2603.17233