arXiv雑要約

AI - 2026/03/09 公開

生成AIにおける文化的視点と期待：グローバル調査アプローチ [cs.CL, cs.AI]目的：生成AIと文化の関係に関するグローバルな理解と信念
- AI技術の発展に伴い，文化への影響が重要視されている。
- 生成AIにおける文化表現のあり方に関する実証的な知見が不足している。
- 生成AI開発における文化的多様性への配慮を促す。
- 本調査では，多様な地域からのデータに基づき，文化の定義を明確化した。
- 文化的側面（宗教，伝統など）を重視し，地理的範囲を超えた文化次元の優先順位付けが示唆された。
- 文化的な「レッドライン」への配慮と，参加型アプローチの重要性が強調された。
Link: https://arxiv.org/abs/2603.05723
LTLGuard：コンパクトな言語モデルと軽量な記号推論によるLTL仕様の形式化 [cs.LO, cs.AI, cs.SE]目的：LTL仕様の生成と一貫性検証
- 要求仕様の正確性はシステム開発において不可欠であり，形式的な検証が重要である。
- 自然言語による要求記述は曖昧さを持ちやすく，形式仕様への変換が困難である。
- 小規模言語モデルによるLTL仕様の自動生成における，文法誤りや矛盾の解決。
- LTLGuardは，制約付き生成と形式的な一貫性チェックを組み合わせたツールチェーンである。
- 生成されたLTL仕様は，矛盾がないことが確認されている。
- 軽量な自動推論ツールを用いて，候補仕様を反復的に改善し，矛盾の原因を特定する。
Link: https://arxiv.org/abs/2603.05728
推論時アラインメントにおけるBest-of-Nの（準）最適性に関する再検討 [cs.LG, cs.AI]目的：推論時アラインメントにおけるBest-of-Nサンプリングの最適性
- 言語モデルの性能向上には，生成されるテキストの質的改善が不可欠である。
- 報酬モデルの脆弱性を突いたハッキングによる性能向上の誤認が問題となる。
- win-rateに着目し，Best-of-Nの最適性を理論的に検証し，改善策を提案する。
- 適切な条件の下で，調整されたBest-of-Nは計算効率と統計的効率の両方でwin-rateの最大化において最適である。
- 報酬ハッキングに対する脆弱性を解消するため，最適性能を維持しつつハッキングを排除する手法を提案する。
- win-rateを考慮しない既存手法は，必ずしも最適とは限らないことが示された。
Link: https://arxiv.org/abs/2603.05739
画像ベースライティングのためのフルダイナミックレンジ空モデル [cs.RO, cs.CL, cs.RO, cs.HC, cs.RO, cs.RO, cs.CV, cs.GR, cs.LG]目的：画像ベースライティングにおける，フルダイナミックレンジの空のモデル化
- リアルな環境描写は，芸術，VR，科学技術など広範な分野で不可欠である。
- 既存の空モデルは，高解像度環境下で太陽光領域の再現に課題を抱えている。
- フルダイナミックレンジの空を学習し，より正確なライティングを実現すること。
- 本研究で提案するIcarusは，フルダイナミックレンジの屋外画像を学習可能な空モデルである。
- Icarusは，太陽や雲の位置を直感的に操作でき，大気表現のテクスチャ制御も可能である。
- 評価実験により，Icarusが既存モデルや実測データと同等の，高精度なライティングを実現することが示された。
Link: https://arxiv.org/abs/2603.05758
MIRACL：多目的多段階組合せサプライチェーン最適化のための多様なメタ強化学習 [cs.LG]目的：多目的多段階組合せサプライチェーン最適化における汎化能力の向上
- サプライチェーン最適化は，経済活動の効率化に不可欠であり，その重要性は増している。
- 従来の強化学習は，環境変化への適応にコストがかかり，タスク固有の再学習が必要となる。
- 本研究は，動的な環境下での効率的な適応を可能にするメタ強化学習フレームワークを提案する。
- MIRACLは，多様なタスクへの少数の試行での汎化を可能にする階層的なメタ強化学習フレームワークである。
- 従来のMORLと比較して，単純から中程度のタスクにおいて，ハイパーボリュームが最大10%向上し，期待効用が5%改善された。
- MIRACLは，サプライチェーン以外の様々な多目的動的意思決定問題にも応用可能であると考えられる。
Link: https://arxiv.org/abs/2603.05760
スコア誘導型近接射影：修正フロー編集のための統一的な幾何学的フレームワーク [cs.LG]目的：修正フロー編集における制御可能性の向上
- 生成モデルの品質向上は重要だが，編集や復元といった特定のタスクへの制御は課題である。
- 既存手法は，幾何学的ロックや計算コスト，不安定性といった問題を抱えている。
- 決定論的最適化と確率的サンプリングのギャップを埋め，より効果的な制御を可能にする。
- 提案手法SGPPは，入力と生成モデルのリアリズムのバランスを取る近接最適化問題として復元タスクを定式化する。
- 理論的に，この目的関数が正規収縮特性を誘導し，分布外入力をデータ多様体に引き寄せることを証明した。
- SGPPは既存の編集手法を一般化し，厳密なアイデンティティ保持と生成の自由度との間で連続的なトレードオフを可能にする。
Link: https://arxiv.org/abs/2603.05761
TML-Bench：表形式機械学習タスクにおけるデータサイエンスエージェントのベンチマーク [eess.SY, cs.SY, cs.LG, cs.AI]目的：表形式機械学習タスクにおけるデータサイエンスエージェントの性能評価
- データサイエンスの自動化は，効率的な問題解決に不可欠であり，その評価基準が重要である。
- 既存の評価方法では，エージェントの信頼性や時間制約下での性能が十分に検証されていない。
- 時間制約下でのエージェントの正確性と信頼性を評価するためのベンチマーク環境の確立。
- TML-Benchは，Kaggleスタイルの表形式機械学習タスクにおけるデータサイエンスエージェントを評価するためのベンチマークである。
- 10のOSS LLMを4つのKaggleコンペティションで評価した結果，MiniMax-M2.1が最も高い総合スコアを獲得した。
- 時間予算を増やすことで平均性能は向上するが，モデルによっては変動が大きいことが示された。
Link: https://arxiv.org/abs/2603.05764
部分空間を意識したモデルのマージによるドメイン間の橋渡し [cs.DC, cs.CE, math.OC, cs.RO, cs.LG, cs.AI, cs.CV]目的：複数のタスク固有モデルを統合した単一のモデルの汎化性能向上
- モデルマージは，効率的な知識集約と計算資源の節約に貢献する重要な技術である。
- ドメイン外のデータに対する汎化性能は，モデルマージにおける未解決の問題として残されている。
- 異なるドメインで学習したモデルのマージにおける部分空間の競合を軽減し，汎化性能を向上させる。
- 本研究では，タスク行列の特異値分解により，ドメインシフトが異なるモデルのマージが，従来のマルチタスク学習よりも強い部分空間の競合を引き起こすことを示した。
- 提案手法SCOREは，すべてのモデルの主要な特異ベクトルを連結し，共有の直交基底を計算することで，そのような部分空間の競合を緩和する。
- 実験の結果，SCOREは様々なアーキテクチャとモデル規模において，既存のマージ手法を上回り，ドメイン汎化性能において有効性とスケーラビリティを示すことができた。
Link: https://arxiv.org/abs/2603.05768
深層安全注意ヘッドからの脱獄：大規模言語モデルに対する攻撃 [eess.SY, cs.SY, math.DS, math.OC, cs.CR, cs.AI]目的：大規模言語モデルの安全性を脅かす脆弱性の発見と，より効果的な脱獄攻撃手法の確立
- 大規模言語モデルは生成能力が高い一方，公開されたモデルは悪意のある攻撃に晒されるリスクがある。
- 既存の攻撃は表面的な層に集中しており，モデル深層部の脆弱性を捉えきれていない。
- 深層部の注意ヘッドに着目し，より安全性の低い出力を誘発する攻撃手法を開発する。
- 提案手法SAHAは，既存の最先端手法と比較して攻撃成功率を14%向上させた。
- 深層の注意層が脱獄攻撃に対してより脆弱であることが示された。
- SAHAは，注意ヘッドレベルでの脆弱性を明らかにし，より安全なモデル開発に貢献する。
Link: https://arxiv.org/abs/2603.05772
行動を伴わない認識：大規模言語モデルにおける安全性メカニズムの解きほぐされた幾何学 [cs.CR, cs.AI, cs.LG]目的：大規模言語モデルの安全性メカニズムの幾何学的構造の解明
- 大規模言語モデルの安全性は，社会実装において不可欠であり，倫理的・社会的な影響を考慮した開発が求められている。
- 既存の安全性対策は，巧妙な攻撃（jailbreak）によって回避されることが多く，根本的なメカニズムの理解が不足している。
- 安全性計算の分離に着目し，認識と行動の軸を解きほぐすことで，より堅牢な安全性確保を目指す。
- 安全性計算が「認識」と「行動」という異なる空間で独立して行われることを幾何学的に示した。
- 新たな攻撃手法「Refusal Erasure Attack (REA)」を提案し，最先端の攻撃成功率を達成した。
- Llama3.1とQwen2.5のアーキテクチャにおける安全性制御の違いを明らかにした。
Link: https://arxiv.org/abs/2603.05773
確率的制約を持つ分散型確率的ミニマックス最適化のための，一次Softmax重み切り替え勾配法 [cs.LG, cs.DC]目的：確率的制約下における分散型確率的ミニマックス最適化
- 機械学習の分散化が進み，プライバシー保護と計算資源の有効活用が重要になっている。
- 分散環境における最適化は，クライアント間の不均衡や通信コストが課題となっている。
- クライアントの多様性を考慮し，最悪ケースの性能を安定的に向上させる手法が求められている。
- 提案手法は，最適性ギャップと実行可能性許容誤差の両方を統一的な枠組みで評価し，標準的な計算量である$\mathcal{O}(\epsilon^{-4})$を達成する。
- クライアント参加率が低い状況下でも，クライアントサンプリングノイズを考慮した理論解析を行い，ロバスト性を保証する。
- 従来の双対法やペナルティ法にみられたハイパーパラメータ依存性や振動を回避し，安定した最適化を可能にする。
Link: https://arxiv.org/abs/2603.05774
PVminerLLM：大規模言語モデルを用いた患者生成テキストからの患者の声の構造化抽出 [cs.CL, cs.AI]目的：患者生成テキストからの患者の声の構造化抽出
- 患者の経験，社会状況，医療への関与は，治療遵守や医療の質に影響する。
- 患者の声は構造化された形式で利用されにくく，研究や品質改善の妨げとなっている。
- 大規模な患者生成テキストから非臨床的な健康アウトカム要因を理解し，対処すること。
- PVminerLLMは，プロンプトベースのベースラインを大幅に上回り，高いF1スコアを達成した。
- コード予測で最大83.82％，サブコード予測で80.74％，エビデンススパン抽出で87.03％である。
- 比較的小規模なモデルでも高い性能が得られ，大規模モデルが不要であることが示された。
Link: https://arxiv.org/abs/2603.05776
国内とグローバルな視点のバランス：デュアルキャリブレーションとLLM生成によるナッジの評価 [cs.CL, cs.IR, cs.AI, cs.HC]目的：多様なニュース推薦のためのデュアルキャリブレーションとLLM生成ナッジの評価
- ニュース消費は社会参加の基礎であり，多様な視点からの情報接触が重要である。
- 既存のニュース推薦システムは，ユーザーの過去の興味に偏りやすく，情報が偏在しやすい。
- ユーザーのニュース消費の多様性を高め，バランスの取れた情報摂取を促すこと。
- アルゴリズムによるナッジは，ニュースの露出と消費の多様性を効果的に高めることが確認された。
- LLMに基づいた提示ナッジの効果は，ユーザーの関心度によって差が見られた。
- 過去に読んだ記事との関連性を強調するナッジが，一般的なトピックベースやパーソナライズなしよりも優れている。
Link: https://arxiv.org/abs/2603.05780
ビジュアルワードとBM25：画像検索のためのスパース・オートエンコーダ・ビジュアルワードスコアリング [cs.CV, cs.AI]目的：画像検索におけるビジュアルワードのスコアリング手法
- 画像検索は，大量の画像データから目的の画像を効率的に見つけ出すために不可欠である。
- 高密度な画像検索は精度が高いものの，計算コストが高く，解釈性に乏しいという課題がある。
- スパースな表現を用いた高速かつ解釈可能な画像検索手法を確立すること。
- 本研究では，Vision Transformerの特徴量から得られるスパースなビジュアルワードに対してBM25スコアリングを適用する手法BM25-Vを提案する。
- BM25-Vは，高い再現率（Recall@200 ≥ 0.993）で候補画像を高速に絞り込み，その後の高精度なランキング処理を可能にする。
- ImageNet-1Kで学習したSAEは，追加のファインチューニングなしに7つのファインチューニング済みベンチマークにゼロショットで転移可能であり，BM25-Vの検索決定は特定のビジュアルワードに起因する。
Link: https://arxiv.org/abs/2603.05781
AIエージェントにおけるガードレールの証明と，その信頼性 [cs.RO, cs.CR, cs.AI, cs.CL]目的：AIエージェントのガードレールの実行証明
- AIエージェントの利用拡大に伴い，安全性確保の重要性が増している。
- 開発者が安全性について主張するものの，虚偽の可能性が存在する。
- ガードレールの実行を暗号学的に証明し，安全性への誤解を防ぐ。
- 本研究では，ガードレールの実行を証明する「proof-of-guardrail」システムを提案した。
- Trusted Execution Environment（TEE）を用いて，ガードレールのコード実行の真正性を保証する。
- OpenClawエージェントへの実装と評価を行い，遅延や導入コストを検証した。
Link: https://arxiv.org/abs/2603.05786
協調のギャップ：多エージェント「元恋人の戦い」における時間的ダイナミクスのための交互性指標 [cs.DC, cs.MA, cs.GT, cs.LG]目的：多エージェント協調における時間構造と集団ダイナミクスを捉える指標の開発
- 多エージェントシステムは現実世界の多くの問題をモデル化でき，協調は重要である。
- 従来の評価指標は時間的構造を考慮せず，協調の質を正確に評価できない。
- 時間的ダイナミクスに敏感な新規指標を導入し，協調の質を評価することを試みる。
- 従来の指標では高い報酬が得られても，実際には時間的な協調が不十分な場合があることが示された。
- 提案する交互性指標を用いることで，学習されたポリシーがランダムなポリシーよりも最大81%劣ることが明らかになった。
- 多エージェントゲームにおける協調分析には，時間的情報を考慮した評価指標とランダムポリシーの基準が不可欠である。
Link: https://arxiv.org/abs/2603.05789
StreamWise：大規模なリアルタイムマルチモーダル生成の提供 [cs.NI, cs.HC, cs.DC, cs.AI]目的：リアルタイムかつ大規模なマルチモーダル生成の提供方法
- マルチモーダル生成モデルは，ストーリーテリングやメディア合成など，新たな応用を可能にする重要な技術である。
- 既存のシステムでは，リアルタイムかつ大規模なマルチモーダルワークフローの提供は，コストと複雑さの課題がある。
- 本研究は，ポッドキャスト動画生成を例に，厳しい制約下での効率的な提供システムを開発し，その課題を解決する。
- StreamWiseは，画質，並列処理，リソーススケジューリングを動的に調整することで，リアルタイム性を実現した。
- 低コストな構成では，10分間のポッドキャスト動画をA100 GPUで1.4時間で生成可能(8.4倍の遅延)であり，費用は25ドル以下である。
- StreamWiseを用いることで，起動遅延を1秒未満に抑えつつ，高品質なリアルタイムストリーミングを45ドル以下で実現できる。
Link: https://arxiv.org/abs/2603.05800
LLMによる曖昧性の崩壊：認識的リスクの分類 [cs.CY, cs.AI]目的：LLMによる曖昧性の取り扱いに関する認識的リスクの分類
- LLMは価値判断を含む曖昧な概念の解釈に用いられ，社会実装が進んでいるため，その影響を理解することが重要である。
- LLMは多様な解釈が可能な概念を単一の解釈に固定化し，人間による意味交渉のプロセスを無視する可能性がある。
- LLMによる曖昧性崩壊のリスクを特定し，曖昧性を適切に管理するための多層的な緩和策を提案する。
- 本研究では，曖昧性崩壊が，議論の機会損失，認知能力の発達阻害，概念形成の歪み，共有語彙の変化など，プロセス，アウトプット，生態系レベルで認識的リスクをもたらすことを示した。
- ３つの事例研究を通じて，これらのリスクを具体的に説明し，LLMの訓練，導入設計，インターフェース，プロンプト管理など，多層的な緩和策の必要性を示唆した。
- 曖昧性を表面化させ，維持し，責任ある形で管理するシステム設計が，今後の重要な課題となる。
Link: https://arxiv.org/abs/2603.05801
MoEとDenseモデルの差異分析のためのSparse Crosscoder [cs.SI, cs.RO, cs.LG]目的：MoEとDenseモデルの内部表現の比較
- モデルのスケーラビリティ向上が重要であり，MoEはその効率的な手法として注目されている。
- MoEの内部表現はDenseモデルと比較して解明が遅れており，その理解が課題となっている。
- MoEとDenseモデルの内部表現の違いを明らかにし，MoEの特性を理解することを目指す。
- Sparse Crosscoderを用いて，MoEとDenseモデルの活性化空間を共同でモデル化し，特徴量の分散を説明できた。
- MoEはDenseモデルと比較して，学習するユニークな特徴量が少ないことが明らかになった。
- MoE固有の特徴量は活性密度が高く，Denseモデル固有の特徴量は低いことが示された。
Link: https://arxiv.org/abs/2603.05805
MoEレンズ -- 専門家がいれば十分 [cs.LG]目的：MoEモデルにおける専門家特化性の分析
- 大規模言語モデルの性能向上には，パラメータ効率の良いスケーリングが不可欠である。
- MoEモデルの推論コストとメモリコストは依然として課題であり，専門家特化性の理解が不十分である。
- MoEモデルにおける専門家特化性を解明し，推論最適化の可能性を提示すること。
- DeepSeekMoEモデルの分析から，64の専門家が存在するにも関わらず，ごく少数の専門家が大部分の処理を担っていることが明らかになった。
- 特に，上位の専門家の出力は，アンサンブル予測にほぼ匹敵する精度を示すことが確認された。
- 本研究は，MoEモデルの専門家が高度に特化していることを示唆し，専門家プルーニングによる推論最適化の可能性を示唆する。
Link: https://arxiv.org/abs/2603.05806
マージンと一貫性に基づく監視による，キャリブレーションとロバストなビジョンモデル [cs.CV, cs.AI, cs.LG]目的：キャリブレーションとロバスト性を備えたビジョンモデルの構築
- 深層学習による画像認識は高い精度を達成する一方で，汎化性能やロバスト性に課題が残る。
- 既存モデルは，分布のわずかな変化に弱く，信頼性の低い予測を行う可能性がある。
- ロジット空間での分離と局所的な予測安定性を同時に強化することで，モデルの性能向上を目指す。
- MaCSは，既存のクロスエントロピー損失関数に，マージンペナルティと一貫性正則化項を追加するシンプルな手法である。
- 複数の画像分類ベンチマークにおいて，MaCSはキャリブレーションとロバスト性を改善し，同時にトップ1精度を維持または向上させた。
- 本手法は追加データやアーキテクチャ変更を必要とせず，推論時のオーバーヘッドも無視できるほど小さく，容易に導入可能である。
Link: https://arxiv.org/abs/2603.05812
少数ショット3D医療画像セグメンテーションのための自己監査型パラメータ効率的ファインチューニング [cs.LG]目的：少数ショット3D医療画像セグメンテーションにおける適応プロセス自動化
- 医療画像解析の精度向上は，診断・治療の質を大きく左右するため重要である。
- 医療機関固有のデータ分布の違い（ドメインシフト）が，モデルの汎化性能を阻害する。
- 専門家によるアダプター設計・学習レシピ調整の負担を軽減し，迅速な適応を可能にする。
- SEA-PEFTは，アダプター構成をオンラインで割り当てることで，適応プロセスを自動化する。
- 既存の固定トポロジーPEFT手法と比較して，平均Dice係数を2.4〜2.8ポイント向上させた。
- 1/5/10ショット設定において，パラメータ全体の1%未満を学習しながら高い性能を達成した。
Link: https://arxiv.org/abs/2603.05822
テスト時適応：多数ショットプロンプティングの利点，限界，および落とし穴 [cs.CL, cs.LG, cs.CL]目的：テスト時適応における多数ショットプロンプティングの有効性，限界，および問題点の評価
- 大規模言語モデルの活用が広がる中で，推論時の適応能力向上は重要な課題である。
- 多数ショットプロンプティングは効果的だが，その信頼性や限界が十分に解明されていない。
- 多数ショットプロンプティングが有効なタスクとそうでないタスクの識別を目指す。
- 構造化されたタスクでは，多数ショットプロンプティングが有効であり，高い情報量をもたらすデモンストレーションが効果的である。
- オープンエンドな生成タスクでは，選択戦略に敏感であり，その効果は限定的であることが示された。
- 入力空間における更新が，有益である場合と有害である場合を特定し，プロンプトベースのテスト時適応の限界を明らかにした。
Link: https://arxiv.org/abs/2603.05829
会話型ビジュアル分析のための大規模言語モデル評価ツールキットLexara [cs.RO, cs.DC, cs.HC, cs.AI]目的：会話型ビジュアル分析における大規模言語モデルの評価
- データ分析における自然言語処理の活用が重要性を増しており，LLMはその中心的技術である。
- LLMの評価はプログラミングスキルが必要で，現実世界の複雑さを考慮せず，解釈可能な指標が不足している。
- 現実的な評価基準とツールを提供し，LLMの適切な選択とプロンプト設計を支援すること。
- Lexaraは，実際の利用状況を網羅したテストケースと解釈可能な指標を提供することで，評価プロセスを支援する。
- 可視化の質と言語の質を評価する指標として，ルールベースとLLM-as-a-Judgeの手法を組み合わせている。
- 2週間の日記調査により，Lexaraがモデルとプロンプトの適切な選択を導く効果が実証された。
Link: https://arxiv.org/abs/2603.05832
LLMと人間による信頼モデルとの整合性の評価 [cs.RO, cs.MA, cs.AI]目的：大規模言語モデルにおける信頼の概念化と推論の内部表現
- 信頼は，人間関係やマルチエージェントシステムにおいて，協力，不確実性の軽減，意思決定を促進する上で不可欠である。
- 大規模言語モデルが信頼をどのように内部的に概念化し，推論しているのかについては，理解が限られている。
- 確立された人間による信頼モデルを用いて，LLMにおける信頼の表現を分析し，整合性を評価すること。
- EleutherAI/gpt-j-6Bの内部表現は，Castelfranchiの社会認知モデルとの整合性が最も高く，次いでMarshモデルとの整合性が高いことが示された。
- LLMは，その活性化空間において，社会認知構造をエンコードしており，有意義な比較分析を可能にする。
- 本研究は，社会認知理論の発展と，人間とAIの協調システムの設計に貢献する。
Link: https://arxiv.org/abs/2603.05839
深層アンサンブル学習を用いたリモートセンシング画像分類 [cs.RO, cs.CV, cs.AI]目的：リモートセンシング画像分類のための融合モデル
- リモートセンシングは多岐にわたる応用分野で重要であり，正確な画像分類技術が不可欠である。
- CNNは局所特徴抽出に優れるが，グローバルな文脈情報の把握が課題であった。
- CNNとViTの長所を組み合わせ，冗長な特徴表現による性能ボトルネックを解消する。
- 提案手法は，UC Merced，RSSCN7，MSRSIデータセットにおいてそれぞれ98.10%，94.46%，95.45%の精度を達成した。
- この結果は既存手法を上回り，提案手法の有効性を示している。
- 特に，学習時の計算資源効率が良い点が特徴である。
Link: https://arxiv.org/abs/2603.05844
経験に基づく自己スキル発見による医療画像診断支援エージェントの進化 [cs.AI, cs.CV]目的：医療画像診断支援エージェントにおける自己スキル発見と進化のメカニズム
- 医療画像診断は，専門知識とツールを組み合わせた多段階プロセスであり，高度なAI支援が求められている。
- 従来のAIシステムはツールや手順が固定されており，現実世界の変動や多様な診断ニーズに対応しにくい。
- 本研究では，経験に基づき自動的に有用なツールシーケンスを発見・合成し，自己進化するエージェントを提案する。
- 提案手法MACROは，実行履歴から有効なツールシーケンスを自律的に発見し，再利用可能な複合ツールとして登録する。
- 画像特徴メモリとGRPO様の学習ループにより，複合ツールの信頼性の高い実行を強化し，自己改善を実現する。
- 多様な医療画像データセットにおける実験により，提案手法が既存手法を上回り，汎化性能が向上することが示された。
Link: https://arxiv.org/abs/2603.05860
ReflexiCoder：強化学習による自己省察と自己修正を通じて，大規模言語モデルにコード生成能力を学習させる [cs.RO, cs.CL, cs.LG, cs.SE]目的：大規模言語モデルにおける，自己省察と自己修正によるコード生成能力の向上
- コード生成において，大規模言語モデルの活用が期待される。複雑な課題解決には限界がある。
- 従来の反復改善戦略は，外部からの情報や計算コストが高い。
- モデル内部で，自己省察と自己修正を可能にし，外部依存性を低減する。
- ReflexiCoder-8Bは，HumanEval (Plus)で94.51% (87.20%)，MBPP (Plus)で81.80% (78.57%)を達成し，オープンソースモデルの最先端性能を確立した。
- BigCodeBench，LiveCodeBench，CodeForcesといったベンチマークにおいても高い性能を示し，GPT-5.1に匹敵またはそれを上回る結果を出した。
- 規律ある高速な推論と自己省察により，推論時間の計算コストを約40%削減した。
Link: https://arxiv.org/abs/2603.05863
時間的モチーフ遷移による確率的イベント予測 [cs.LG, cs.SI]目的：確率的イベント予測の新たな枠組み
- 社会，金融，生物学など広範な分野で時間軸を持つ相互作用の予測が重要視されている。
- 既存手法は二値分類に焦点を当て，相互作用の順序や相関性を十分に活用できていない。
- 時間的モチーフ遷移に着目し，連続時間における順序予測問題としてイベント予測を解決する。
- STEPは，ポアソン過程に従う離散的な時間的モチーフ遷移を通じてイベントの動的変化をモデル化する。
- 分類タスクにおいて，最先端のベースラインと比較して平均精度が最大21%向上した。
- 次数のkステップ先までの順序予測において，0.99という高い精度を達成し，既存手法よりも高速に実行できた。
Link: https://arxiv.org/abs/2603.05874
ROSE：より高精度なワンショット大規模言語モデルプルーニングのための再配置されたSparseGPT [cs.CL, cs.LG]目的：大規模言語モデルのプルーニングによるパラメータ削減と，効率的なデプロイメントおよび推論の実現
- 大規模言語モデルの規模拡大に伴い，計算資源の効率的な利用が重要になっている。
- 既存のSparseGPTでは，左から右への固定されたプルーニング順序が性能低下の要因となる場合がある。
- プルーニング誤差の大きい重みを優先的に削除することで，SparseGPTの性能改善を目指す。
- 提案手法ROSEは，SparseGPTと比較して，LLaMA2，LLaMA3，Mistralといった主要な大規模言語モデルにおいて優れた性能を示す。
- ROSEは，カラムパターンを考慮した再配置により，ブロック損失とカラム損失を最小化する。
- ブロック損失の相対的な範囲を指標として用いることで，カラム構造を持つ層を特定し，適応的な再配置を行う。
Link: https://arxiv.org/abs/2603.05878
創発的基盤・エージェントAI時代の計算病理：臨床統合とトランスレーショナルレディネスに関する国際専門家の視点 [cs.CL, cs.CE, cs.AI]目的：計算病理における創発的なAIシステムの臨床統合と実用化に向けた現状と課題
- 病理診断の精度向上と効率化が，より良い患者ケアに不可欠である。
- AI技術の進歩と臨床応用との間に，経済的・技術的・制度的な障壁が存在する。
- AIシステムの臨床現場への責任ある導入を促進し，実用化を加速させる。
- 近年のAIの進歩により，診断，予後予測，治療反応予測などの分野で性能が向上している。
- 臨床応用への期待は高いものの，実際の導入は経済的，技術的，管理上の課題により遅れている。
- 国際的な専門家の意見を参考に，AIシステムの臨床的妥当性と技術的成熟度を評価し，導入の障壁を分析した。
Link: https://arxiv.org/abs/2603.05884
PixARMesh：自己回帰的メッシュネイティブ単一視点シーン再構成 [cs.CV, cs.GR, cs.LG]目的：単一のRGB画像からの完全な3D屋内シーンメッシュの再構成
- 3Dシーンの理解は，ロボット工学や拡張現実など，幅広い分野で重要である。
- 従来の再構成手法は，暗黙的な符号付き距離場に依存し，後処理が必要であった。
- 単一画像から高品質なメッシュを効率的に生成し，ダウンストリームアプリケーションに活用すること。
- PixARMeshは，オブジェクトのレイアウトとジオメトリを統合的に予測することで，一貫性のある高品質なメッシュを生成する。
- ポイントクラウドエンコーダにピクセルアライメントされた画像特徴とクロスアテンションを導入することで，単一画像からの空間推論を可能にした。
- 合成データセットと実世界データセットにおいて，最先端の再構成品質と軽量なメッシュ生成を達成した。
Link: https://arxiv.org/abs/2603.05888
長編ストーリー生成における一貫性の欠陥：LLMによる物語の迷子 [cs.HC, cs.CY, cs.CL, cs.AI]目的：長編ストーリー生成におけるナラティブの一貫性評価
- LLMによる長編ストーリー生成は可能になったが，一貫性の維持が課題である。
- 既存の評価指標はプロット品質や流暢性に偏っており，一貫性の欠陥の評価が不十分である。
- 長編ストーリー生成における一貫性の問題を定量的に評価するためのベンチマークを開発する。
- ConStory-Benchは，2,000のプロンプトと5つのエラーカテゴリを含む，ナラティブの一貫性を評価するためのベンチマークである。
- 一貫性のエラーは，事実と時間に関する情報において特に頻繁に発生し，物語の中盤で多く見られる。
- トークンレベルのエントロピーが高い箇所でエラーが発生しやすく，特定のエラータイプは同時に発生する傾向にあることが示された。
Link: https://arxiv.org/abs/2603.05890
公平かつ解釈可能な画像分類のためのコンセプトボトルネックモデルにおけるバイアス軽減 [cs.CV, cs.LG]目的：画像分類におけるバイアス軽減
- 画像認識技術の社会実装が進む中で，公平性の確保は重要な課題である。
- コンセプトボトルネックモデルは解釈性を高めるものの，バイアスが残存する可能性がある。
- コンセプトボトルネックモデルのバイアスを軽減し，公平性と解釈性の両立を目指す。
- 提案手法は，既存手法と比較して，公平性と性能のトレードオフにおいて優れている。
- トップkコンセプトフィルタ，バイアス概念の除去，敵対的デバイアスが，バイアス軽減に効果的である。
- 本研究は，公平かつ解釈可能な画像分類に向けた重要な一歩となる。
Link: https://arxiv.org/abs/2603.05899
LLMの推論を活用した分子最適化のための参照ガイド型方策最適化 [cs.LG, cs.AI]目的：分子最適化におけるLLMの推論能力向上
- 創薬や材料科学において，分子構造の最適化は重要な課題であり，効率的な手法が求められている。
- 既存のLLMのファインチューニング手法は，分子最適化のような指示に基づいたタスクでは性能が低い。
- 参照分子を活用しつつ，探索と活用を両立させることで，分子最適化の効率と精度を向上させる。
- 提案手法RePOは，参照分子をガイドとして活用することで，探索を促進し，報酬の疎性を軽減する。
- RePOは，既存のSFTやRLVRの手法と比較して，分子最適化ベンチマークにおいて一貫して高い性能を示す。
- 特に，最適化指標（成功率×類似度）の向上，競合する目的間のバランス改善，未知の指示スタイルへの汎化性能に優れる。
Link: https://arxiv.org/abs/2603.05900
LLM誘導によるGPUアーキテクチャ探索：ボトルネック分析を通じたアプローチ [cs.RO, cs.SY, eess.SY, cs.AR, cs.AI]目的：GPUアーキテクチャ探索の効率化と有効性の向上
- AIワークロードの複雑化に伴い，GPU設計の最適化が重要となっている。
- GPUの設計空間が広大であるため，探索コストが非常に高く，最適化が困難である。
- LLMを活用することで，探索コストを削減し，高品質な設計を効率的に導出すること。
- LUMINAは，LLMを活用してボトルネック分析を行い，470万通りの設計空間からA100 GPUよりも優れた6つの設計を効率的に特定した。
- 従来の機械学習ベースラインと比較して，探索効率は17.5倍，設計品質（パレートハイパーボリューム）は32.9%向上した。
- LUMINAは，LLMの能力を評価するための包括的なDSEベンチマークを提供し，アーキテクチャ最適化に必要なモデル選択の基盤を確立した。
Link: https://arxiv.org/abs/2603.05904
静止しない世界：エージェントベンチマークのためのプログラム可能な進化 [cs.CL, cs.AI]目的：エージェントの環境変化への適応能力の評価
- 現実世界は常に変化するため，エージェントには環境への適応能力が不可欠である。
- 既存のベンチマークは環境が静的である前提であり，現実世界の動的な変化に対応できていない。
- エージェントの環境変化への適応能力を，プログラム可能かつ制御可能な方法で評価すること。
- ProEvolveは，環境をグラフ構造で表現し，プログラム的に進化させるフレームワークである。
- グラフ変換を通じて，ツール，スキーマ，データアクセスを整合的に更新できる。
- 200個の環境と3,000個のタスクサンドボックスを生成し，エージェントのベンチマークを行った。
Link: https://arxiv.org/abs/2603.05910
複雑な病変に対する推論駆動型セグメンテーション：強化学習によるCORE-Seg [cs.CV, cs.AI]目的：複雑な病変のセグメンテーションにおける推論駆動型アプローチ
- 医療画像解析は，診断・治療において不可欠であり，その精度向上が常に求められている。
- 既存のセグメンテーションモデルは，ピクセルレベルの精度は高いが，論理的な解釈が困難である。
- 専門的な視覚的推論能力を備えたセグメンテーションモデルの開発によって，この課題を解決することを目指す。
- 本研究では，推論とセグメンテーションを統合するCORE-Segフレームワークを提案し，新たなベンチマークComLesion-14Kを構築した。
- 提案手法は，平均Dice係数37.06%を達成し，既存手法を大幅に上回る性能を示した。
- また，失敗率を18.42%に低減し，より信頼性の高いセグメンテーションを実現した。
Link: https://arxiv.org/abs/2603.05911
DeepFact：深層研究の事実性に関するベンチマークとエージェントの共進化 [cs.AI]目的：深層研究報告書の主張レベルの事実性の検証
- 大規模言語モデルの活用が進む中で，研究報告書の信頼性確保が重要となる。
- 既存のファクトチェックツールは，一般的な知識に基づいた単純な主張向けであり，研究報告書には不向きである。
- 専門家による検証の精度向上と，検証可能なベンチマークの構築を目指す。
- 専門家による一次評価の精度は低いが，検証・修正を繰り返すことで精度が向上することが示された。
- 監査・採点型ベンチマーク（AtS）を実装したDeepFact-Benchは，研究報告書の事実性評価における新たな基準となる。
- DeepFact-Evalは，既存の検証ツールと比較して，DeepFact-Benchおよび他のデータセットにおいて優れた性能を示す。
Link: https://arxiv.org/abs/2603.05912
ノードTransformerアーキテクチャとBERT感情分析を統合した株価予測 [cs.RO, cs.LG, cs.AI, q-fin.ST]目的：株価予測の精度向上
- 株価予測は，投資家，金融機関，政策立案者にとって不可欠な課題であり，複雑な市場環境下での意思決定を支援する。
- 従来の予測手法では，金融市場に固有の複雑なパターンや相互依存関係を捉えきれないという問題がある。
- 本研究は，ノードTransformerとBERT感情分析を組み合わせることで，より精度の高い株価予測モデルを構築し，予測精度改善を目指す。
- 提案モデルは，20銘柄のS&P500株価データを用いて検証した結果，1日先の予測における平均絶対パーセント誤差（MAPE）は0.80%であった。
- これは，ARIMA（1.20%）やLSTM（1.00%）といったベースラインモデルと比較して，大幅な改善を示す。
- 感情分析により全体的な予測誤差が10%削減され，決算発表時には25%の誤差削減効果が確認された。また，グラフベースのモデリングにより15%の精度向上が見られた。
Link: https://arxiv.org/abs/2603.05917
多腕バンディットアルゴリズムの比較のための実験設計 [cs.LG, math.ST, stat.ML, stat.TH]目的：多腕バンディットアルゴリズム比較のための実験手法
- オンラインプラットフォームでは，最適なポリシー選定のため，多腕バンディットアルゴリズムの比較が不可欠である。
- 従来のA/Bテストとは異なり，バンディットアルゴリズムは過去のインタラクションに依存するため，信頼性の高い推論には多数の再実行が必要となる。
- 実験コストを削減し，迅速な意思決定を可能にする新たな実験設計手法の確立を目指す。
- 本研究では，過去の軌跡を再利用するArtificial Replay（AR）という新しい実験設計を提案する。
- ARは，実験に必要なユーザーインタラクション数をほぼ半分に削減し，コスト効率を高める。
- 提案手法は，推定量のバイアスがなく，分散の増加も抑制されることが理論的に証明され，数値実験によっても確認された。
Link: https://arxiv.org/abs/2603.05919
BlackMirror：指示応答のずれによるテキスト-画像モデルのバックドア検出 [cs.CV, cs.AI]目的：テキスト-画像モデルにおけるバックドアの検出
- AIモデルの悪用を防ぐため，セキュリティ確保が不可欠である。
- 既存手法は多様なバックドア攻撃に脆弱であり，汎化性能が低い。
- 指示と生成画像のずれに着目し，バックドアを検出する新しい手法を提案する。
- BlackMirrorは，視覚的パターンと指示を比較し，意味的なずれを検出するMirrorMatchを用いる。
- 多様なプロンプトに対するずれの安定性を評価するMirrorVerifyにより，誤検知を抑制する。
- 幅広い攻撃に対し，高精度なバックドア検出が可能であることを実験で示した。
Link: https://arxiv.org/abs/2603.05921
Weak-SIGReg：安定した深層学習のための共分散正則化 [cs.CL, cs.HC, cs.LG]目的：深層学習の最適化安定化
- 深層学習の性能向上には，アーキテクチャの工夫が不可欠である。学習の安定化が課題となる。
- データ量が少ない場合やアグレッシブなデータ拡張を行う場合，最適化が崩壊しやすい。
- 表現崩壊を防ぎ，学習を安定させるための汎用的な正則化手法を提案する。
- 提案手法Weak-SIGRegは，ViTのCIFAR-100における学習精度を20.73%から72.02%に改善した。
- アーキテクチャの変更なしで，学習の安定化を実現した。
- 純粋なSGDによる深層MLPの収束性も大幅に向上した。
Link: https://arxiv.org/abs/2603.05924
RAC：修正フローオートコーダー [cs.CV, cs.AI]目的：修正フローに基づく生成モデルの提案
- 潜在空間の学習と生成は，機械学習における重要な課題である。
- 従来のVAEは，生成と再構成の間にギャップが存在する。
- 多段階デコードによる高品質な生成と計算コストの削減を目指す。
- RACは，VAEの代替として，多段階デコードによる生成を行う。
- デコード経路の修正可能性により，生成品質の向上を実現した。
- 実験により，再構成と生成の両方において，既存のVAEを凌駕し，計算コストを約70%削減できることが示された。
Link: https://arxiv.org/abs/2603.05925
大規模言語モデルにおける生態学的誤謬への対処：人間コンテキストの活用 [cs.CL, cs.AI, cs.HC, cs.LG]目的：言語モデルにおける生態学的誤謬の克服
- 言語モデルの性能向上には，言語使用者の特性理解が不可欠である。
- 従来の言語モデルは，同一人物による複数テキスト間の依存性を無視している。
- 大規模言語モデルにおいても，著者の言語コンテキストを考慮することで性能改善を目指す。
- ファインチューニング時に生態学的誤謬に対処することで，8Bモデルの性能が向上する。
- HuLM事前学習とQLoRAを用いた継続学習により，汎化性能の高い人間を意識したモデルが得られる。
- 著者の言語コンテキストのモデリングは，言語モデルの性能向上に重要な貢献をする。
Link: https://arxiv.org/abs/2603.05928
FPGA 上でのメモリ制約線形注意機構デコード用持続状態データフローアクセラレータ [cs.AR, cs.LG]目的：メモリ制約の線形注意機構デコードにおける性能向上
- 大規模言語モデルの高性能化には，計算資源の効率的な利用が不可欠である。
- 従来の線形注意機構は，メモリ帯域幅がボトルネックとなり，性能が制限される。
- FPGA を用いて，オンチップメモリに状態を保持し，メモリボトルネックを解消することを目指す。
- 提案手法により，NVIDIA H100 PCIe と比較して4.5倍高速な63μs/トークンのデコード速度を達成した。
- オンチップ消費電力は9.96Wであり，トークンあたりで最大60倍高いエネルギー効率を実現した。
- データフローパイプラインとグループ化された値注意機構により，効率的なハードウェア実装を実現した。
Link: https://arxiv.org/abs/2603.05931
暗黙的なスタイル条件付け：低リソース文字モデリングのための構造化スタイル書き換えフレームワーク [cs.CL, cs.LG]目的：低リソース環境下でのキャラクターモデリングにおけるスタイルの一貫性と意味的忠実性の向上
- 大規模言語モデルの役割演技能力は高いが，小規模モデルではデータ不足とスタイル分離の困難さから，高品質なキャラクターモデリングが課題である。
- 従来の教師ありファインチューニングは表面的な意味しか捉えられず，キャラクターの複雑な構文・語用論的ニュアンスを再現できず，設定崩壊を引き起こしやすい。
- 本研究は，明示的なスタイル特徴と潜在表現を整合させ，推論時に明示的な指示なしで高忠実度のスタイル生成を可能にする。
- 提案手法は，PMI，PCFGルール，語用論的スタイルという３つの解釈可能な次元を用いてスタイルを明示的に分離する構造化スタイル書き換えフレームワークを導入した。
- Chain-of-Thought蒸留による暗黙的なスタイル条件付けにより，モデルの潜在表現を構造化されたスタイル特徴に整合させ，より自然なスタイル生成を実現した。
- 実験の結果，Qwen-1.7Bモデルがより大規模なベースラインモデルを凌駕し，スタイルの一貫性と意味的忠実性の両方において優れた性能を示した。
Link: https://arxiv.org/abs/2603.05933
残差マスキングネットワークを用いた表情認識 [cs.CV, cs.AI]目的：表情認識性能の向上
- 人間とコンピュータの円滑な対話を可能にする技術として，表情認識の重要性が高まっている。
- 既存手法では，表情認識において無関係な情報に注意が散漫になり，精度が低下することが課題である。
- 本研究は，注目メカニズムとマスキング技術を組み合わせ，より正確な表情認識を目指す。
- 提案手法である残差マスキングネットワークは，広く利用されているFER2013データセットにおいて，最先端の性能を達成した。
- また，独自に収集したVEMOデータセットにおいても，同様に高い精度を示した。
- 本手法は，顔画像から重要な特徴を効果的に抽出し，表情認識の精度向上に貢献すると考えられる。
Link: https://arxiv.org/abs/2603.05937
コーディングエージェントの失敗に対するXAI：生の実行トレースを実用的な洞察に変換 [cs.SE, cs.AI]目的：コーディングエージェントの失敗原因の特定と修正の効率化
- ソフトウェア開発の自動化は生産性向上に不可欠であり，LLMベースのエージェントはその重要な役割を担う。
- エージェントの失敗原因は解明が難しく，開発者の負担となるため，迅速な特定と修正が求められる。
- 生の実行トレースから，人間が理解しやすい構造化された説明を生成し，問題解決を支援する。
- 本研究で開発したXAIアプローチは，失敗原因の特定時間を2.8倍短縮することに成功した。
- また，適切な修正提案の精度を73%向上させ，生の実行トレースと比較して大幅な改善が見られた。
- 構造化されたアプローチは，既存の生成AIモデルによる説明よりも一貫性のある，ドメイン特化型の洞察を提供した。
Link: https://arxiv.org/abs/2603.05941
エネルギー駆動適応視覚トークン刈り込みによる効率的な視覚言語モデル [cs.CV, cs.AI]目的：視覚言語モデルの効率化のための視覚トークン削減手法
- 視覚言語モデルは，画像とテキストの理解において重要な役割を担うため，その高速化が求められている。
- 既存手法は固定予算を用いるため，画像の情報密度に応じた柔軟な対応が課題となっていた。
- 画像の情報密度に応じてトークン数を動的に調整し，計算効率を改善することを目的とする。
- E-AdaPruneは，視覚特徴空間の特異値スペクトルからトークン予算を決定することで，情報密度の高い画像に多くのトークンを割り当てる。
- 9つのベンチマークと3つのVLMバックボーンにおいて，平均で0.6%の性能向上を示し，特にMMVet推論タスクでは+5.1%の改善が見られた。
- ランダム化された特異値分解を用いることで，追加の遅延は1画像あたり8ms以内に抑えられている。
Link: https://arxiv.org/abs/2603.05950