arXiv雑要約

AI - 2026/03/12 公開

パッチデノイザー：低線量CT画像のためのパラメータ効率の良い多重スケールパッチ学習と融合デノイザー [cs.CV, cs.AI]目的：低線量CT画像のノイズ低減手法
- 癌検診や小児画像など，被ばく線量を低減するCT撮影が重要視されている。
- 低線量CT画像はノイズが多く，臨床解釈や後続の解析に影響を及ぼす可能性がある。
- 従来の技術では，詳細を損なうか，計算コストが高いという課題があった。
- 提案手法PatchDenoiserは，既存のCNNやGANベースの手法と比較して，PSNRとSSIMにおいて一貫して優れた性能を示した。
- スライス厚，再構成カーネル，HUウィンドウの変化に対して頑健であり，スキャナの種類に関わらず高い汎化性能を発揮する。
- パラメータ数と推論時のエネルギー消費量を大幅に削減し，臨床への応用可能性を高めた。
Link: https://arxiv.org/abs/2602.21987
敵対的ハブ検出器：検索拡張生成システムにおけるハブポイズニングの検出 [cs.CR, cs.AI]目的：検索拡張生成システムにおけるハブポイズニングの検出
- 大規模言語モデルの知識獲得において，ベクトル類似度検索を用いた外部知識の利用が不可欠である。
- 検索結果の上位に頻出するハブと呼ばれるアイテムが存在し，システムを悪用するセキュリティ上の脆弱性となる。
- ハブポイズニング攻撃を検出し，検索拡張生成システムのセキュリティと性能を向上させる。
- ハブスキャンは，統計的ハブ検出，クラスタ拡散分析，クエリ摂動に対する安定性テスト，およびドメイン/モダリティ認識検出を統合した多検出器アーキテクチャである。
- Food-101，MS-COCO，FiQAベンチマークにおいて，ハブスキャンは0.2%のアラート予算で90%のリコール，0.4%で100%のリコールを達成した。
- MS MARCOの100万件の実データを用いた検証では，クリーンなドキュメントと敵対的なコンテンツ間に有意なスコア分離が確認された。
Link: https://arxiv.org/abs/2602.22427
参照画像セグメンテーションのためのアライメントを意識したマスク学習 (AMLRIS) [cs.CV, cs.AI]目的：参照画像セグメンテーションにおける汎化性能の向上
- 画像と自然言語の理解を融合し，指示された対象物を正確に特定する技術であり，ロボティクスや画像検索に応用可能である。
- 従来の学習方法では，アライメントの難しい視覚情報やインスタンス固有の情報が学習に悪影響を及ぼす場合がある。
- 視覚と言語のアライメントを明示的に推定し，信頼性の低い領域を除外することで，より汎化性能の高いモデルを構築する。
- 提案手法AMLは，視覚特徴とテキスト特徴間の類似度マップを計算し，適応的な閾値に基づいてアライメントの低いピクセルをマスクすることで，学習プロセスから誤った情報を排除する。
- AMLは，アーキテクチャの変更や推論時のオーバーヘッドを必要とせず，テキスト記述と一致する領域に注意を向ける。
- RefCOCOデータセットでの実験により，AMLは全8分割において最先端の結果を達成し，多様な記述やシナリオに対するロバスト性も向上した。
Link: https://arxiv.org/abs/2602.22740
劣加法集合関数学習における加法誤差最小化のための能動的価値問い合わせ [cs.LG]目的：劣加法集合関数に対する加法誤差の最小化
- 計算経済学や機械学習など，幅広い分野で重要な役割を果たす
- 集合関数の特定には指数関数的な数の部分集合に対する値の指定が必要であり，リソースを浪費する
- 不完全な集合関数に対する誤差を最小化し，最適化の精度を向上させる
- 最小および最大補完間の距離を様々な集合関数クラスで徹底的に分析した。
- 事前知識のある集合関数クラスにおいて，追加の部分集合の値を問い合わせることにより，この距離を最小化する手法を開発した。
- 実用的なシナリオにおけるアルゴリズムの性能を実験的に示した。
Link: https://arxiv.org/abs/2602.23529
自動定理証明のための最小エージェント [cs.AI]目的：AIに基づいた定理証明システムのアーキテクチャ間の系統的な比較を可能にする最小限のエージェント
- 定理証明は，数学，論理学，計算機科学における基礎的研究であり，AIの能力評価にも重要である。
- 最先端の定理証明システムは複雑であり，異なるアーキテクチャの性能を公平に比較することが困難である。
- 異なるアーキテクチャを比較するための標準化された基盤を提供し，定理証明におけるAIの効率と効果を向上させる。
- 提案された最小エージェントは，最先端のアプローチと比較して競争力のある性能を示した。
- 反復的な証明洗練アプローチは，単発生成に比べてサンプル効率とコスト効率において優れていることが示された。
- この実装はオープンソースで公開されており，今後の研究のための参照として，またコミュニティのためのアクセス可能な証明器として利用できる。
Link: https://arxiv.org/abs/2602.24273
大規模言語モデルが陥る問題：初期構造と持続的な誤り [cs.CL, cs.LG]目的：大規模言語モデルの学習効率向上
- 言語理解は，AIの性能向上に不可欠であり，自然な言語処理の基盤となる。
- 大規模言語モデルは，文法や意味に関する誤りを学習し，修正が困難になる場合がある。
- 誤った学習パターンが早期に固定化されるメカニズムの解明と改善。
- OPTモデルの学習において，BLiMPベンチマークの約3分の1のカテゴリで，文法的に正しい文よりも誤った文を高い確率で評価する現象が確認された。
- この誤りは，学習初期段階で確立され，その後の学習を通じて持続することが示された。
- 誤った二グラム統計が，早期の誤った識別を招き，学習過程における誤りの固定化を引き起こす可能性が示唆された（Bigram Hypothesis）。
Link: https://arxiv.org/abs/2603.00359
防御的拒否バイアス：安全性調整がサイバー防御者を阻害する方法 [cs.CR, cs.AI]目的：サイバーセキュリティにおける防御的な要求に対するLLMの拒否傾向の分析
- サイバー攻撃の巧妙化に対応するため，AIによる自動防御システムの開発が不可欠である。
- LLMの安全性調整は攻撃的な利用の防止に偏り，正当な防御的利用を妨げる可能性がある。
- LLMが防御的な要求と攻撃的な要求の意図を正確に区別し，適切な対応を行うための改善策を提案する。
- 安全性調整されたLLMは，攻撃的なタスクと類似した言語を含む防御的なサイバーセキュリティ要求を，中立的な要求の2.72倍の確率で拒否する。
- 特に，システム強化（43.8%）とマルウェア分析（34.3%）において拒否率が高く，実運用上の重要タスクへの影響が大きい。
- 明示的な権限付与は，LLMによる拒否率を増加させ，正当な要求が攻撃的な意図と誤解される傾向がある。
Link: https://arxiv.org/abs/2603.01246
CARE：エビデンスに基づいたエージェントフレームワークによるマルチモーダル医療推論における臨床的説明責任へ [cs.AI, cs.LG]目的：マルチモーダル医療推論における臨床的説明責任の向上
- 医療現場では，AIの判断根拠の説明が不可欠であり，信頼性向上に繋がる。
- 既存のVLMsはブラックボックス化しており，医療専門家が求めるエビデンスに基づいたプロセスと乖離している。
- エビデンスの提示とAIの推論プロセスを明確化し，医療現場での信頼性と説明責任を向上させる。
- 提案手法CAREは，推論と根拠抽出を分離したモジュール構成により，ショートカット学習や幻覚を抑制。
- CARE-Flowは，同規模の最先端モデルと比較して平均精度を10.9%向上させ，CARE-Coordはさらに5.2%の性能向上を達成。
- 臨床ワークフローを模倣するエージェントフレームワークが，より正確で説明責任のある医療AIを実現することを示唆。
Link: https://arxiv.org/abs/2603.01607
ToolRLA: ツール統合エージェントのための乗算報酬分解 [cs.AI]目的：ツール統合エージェントの性能向上
- 複雑なタスク遂行において，API連携可能なエージェントの重要性が高まっている。
- 既存の強化学習手法では，報酬が粗く，ツール選択の誤りやパラメータの不備を区別できない。
- 詳細な報酬関数を用いて，ドメイン固有のツールエージェントの性能を改善すること。
- ToolRLAは，金融アドバイザリーコパイロットにおいて，タスク完了率を47%向上させた（62%→91%）。
- ツール呼び出しエラーは63%削減され（38%→14%），規制違反は93%削減された（12%→0.8%）。
- 乗算報酬設計が，加算的な代替手法と比較して7%の性能向上に貢献していることが示された。
Link: https://arxiv.org/abs/2603.01620
SEED-SET：システムレベルの倫理的テストのためのスケーラブルな進化型実験計画 [cs.AI, stat.AP]目的：自律システムの倫理的整合性の評価手法
- ドローン等の自律システムが社会実装される中，倫理的配慮は不可欠である。人命に関わる危険や意思決定の偏りを防ぐため，重要性が増している。
- 倫理的評価指標の定義が難しく，主観的な価値判断が伴うため，客観的な評価が困難である。分析的なモデル化も現状では難しい。
- ドメイン固有の目的評価とステークホルダーの主観的価値判断を統合し，効率的な倫理的テストを行うこと。
- SEED-SETは，階層型ガウス過程を用いて客観評価と主観的価値判断をモデル化し，ステークホルダーの好みに合わせたテスト候補を提案する。
- 提案手法は，既存手法と比較して最大2倍効率的に最適なテスト候補を生成し，高次元探索空間の網羅性も1.25倍向上した。
- SEED-SETは，探索と利用のバランスを解釈可能かつ効率的に実現し，倫理的ベンチマークにおいて優れた性能を示した。
Link: https://arxiv.org/abs/2603.01630
BrandFusion：テキストから動画生成におけるシームレスなブランド統合のためのマルチエージェントフレームワーク [cs.CL, cs.CV, cs.AI]目的：テキストから動画生成におけるブランド統合
- 動画生成技術の急速な進歩はコンテンツ制作を革新したが，商業的活用は限定的である。
- 生成された動画に広告主のブランドを自然かつ認識可能に組み込むことが課題である。
- ユーザーの意図を損なわずに，ブランドを動画に統合する手法を開発する。
- BrandFusionは，プロンプトの忠実性，ブランドの認識可能性，文脈に自然な統合という3つの課題に対処する。
- オフライン段階でブランド知識ベースを構築し，オンライン段階で複数のエージェントがユーザープロンプトを反復的に洗練する。
- 実験により，BrandFusionは既存手法と比較して，意味保持，ブランド認識，統合の自然さにおいて大幅な改善が確認された。
Link: https://arxiv.org/abs/2603.02816
記憶なし，検出なし：小規模言語モデルにおける出力分布に基づく汚染検出 [cs.AI, cs.CL]目的：小規模言語モデルにおけるデータ汚染の検出
- 言語モデルの性能評価において，学習データへの汚染の有無は重要な検証項目である。
- 既存の汚染検出手法は，小規模言語モデルに対して十分な性能を発揮していない場合がある。
- 出力分布の尖度に基づく汚染検出手法(CDD)の有効性を検証し，その限界を明らかにする。
- 出力分布に基づく汚染検出(CDD)は，小規模言語モデルでは，その性能がファインチューニングによる逐語的暗記に大きく左右されることが示された。
- 多くの条件下でCDDは偶然レベルでの性能にとどまり，より単純な手法と比較しても劣る結果となった。
- perplexityやMin-k\% Probといった確率に基づく手法が，CDDよりも優れた性能を示すことが確認された。
Link: https://arxiv.org/abs/2603.03203
CFG-Ctrl：制御に基づく分類子不要拡散ガイダンス [cs.CV, cs.LG]目的：拡散モデルにおけるセマンティックアライメントの向上
- 拡散モデルは画像生成等の分野で注目されており，生成品質向上が重要である。
- 従来のCFGは，ガイダンススケールが大きい場合に不安定性やオーバーシュートが生じやすい。
- スライディングモード制御を用いて，セマンティックアライメントを強化し，安定性を向上させる。
- 提案手法SMC-CFGは，Stable Diffusion 3.5, Flux, Qwen-Imageを含む様々なモデルで，標準的なCFGよりも優れたセマンティックアライメントを示した。
- SMC-CFGは，幅広いガイダンススケールにおいてロバスト性を向上させることが確認された。
- 理論的な収束性もリャプノフ安定性解析によって裏付けられている。
Link: https://arxiv.org/abs/2603.03281
敵対的サンプルへの対処には，指数関数的な不整合性の解消が必要である [cs.LG, cond-mat.dis-nn, q-bio.NC, stat.ML]目的：敵対的サンプル問題の解決に向けた，機械と人間の知覚多様体の次元間の不整合性
- 機械学習の信頼性向上は重要である。特に，人間の知覚では識別できない微小な入力変化で誤認識を引き起こす敵対的サンプルへの対策が求められる。
- 敵対的サンプルの発生原因が不明確であり，機械学習モデルの脆弱性として未解決の課題となっている。
- 機械と人間の知覚多様体の次元の不整合性を定量的に評価し，敵対的サンプル発生の幾何学的起源を解明すること。
- ニューラルネットワークの知覚多様体の次元が，人間の概念よりも遥かに大きいことが判明した。
- この次元の高さが，機械と人間の知覚の不整合性を指数関数的に拡大させている可能性が示唆された。
- 敵対的頑健性を達成するには，機械と人間の知覚多様体の次元を揃える必要があり，その仮説は実験によって検証された。
Link: https://arxiv.org/abs/2603.03507
BD-Merging：証拠誘導型対照学習によるバイアスを考慮した動的モデルマージ [cs.LG, cs.AI]目的：モデルマージにおけるバイアス軽減と分布シフトへの適応的信頼性向上
- マルチタスク学習は，複数のタスクを効率的に学習できるため重要である。
- 既存のモデルマージ手法は，テストデータの分布シフトに対する頑健性が課題である。
- 分布シフト下でのバイアスを軽減し，モデルの信頼性を高めることを目指す。
- BD-Mergingは，不確実性を明示的にモデル化することで，分布シフト下での適応的な信頼性を実現する。
- Adjacency Discrepancy Score (ADS)を用いて，サンプル間の証拠的な整合性を定量化し，対照学習で表現を洗練する。
- 多様なタスクにおける実験により，最先端のモデルマージ手法と比較して，BD-Mergingの有効性と頑健性が確認された。
Link: https://arxiv.org/abs/2603.03920
RACAS：単一の自律的システムによる多様なロボットの制御 [eess.SY, cs.SY, cs.RO, cs.AI, cs.CL, cs.LG, cs.MA]目的：多様なロボットプラットフォームに対するロボット制御
- ロボット技術の発展は，産業や日常生活において重要な役割を担っている
- ロボットの多様化に伴い，プラットフォームごとに制御システムを開発する必要がある
- プラットフォームに依存しない，汎用的なロボット制御システムの実現
- RACASは，LLM/VLMベースのモジュールが自然言語で通信することで，閉ループ制御を実現している
- ロボットの説明，実行可能な行動の定義，タスクの指示のみで，異なるプラットフォーム間での移行が可能
- 車輪型ロボット，多関節アーム，水中ロボットなど，多様なロボットでタスクを解決できることを実証した
Link: https://arxiv.org/abs/2603.05621
協調のギャップ：複数エージェントの「駆け引き」における時間的ダイナミクスに対する交互性指標 [cs.MA, cs.GT, cs.LG]目的：複数エージェント間の協調における時間的構造と集団ダイナミクスを捉えるための指標の提案
- 複数エージェントシステムは現実世界の多くの問題を解決する鍵となるが，個々の最適化と集団全体の利益のバランスが課題となる。
- 従来の評価指標は時間的構造を考慮せず，協調の質を正確に評価できない場合がある。特にエージェント数が増えると公平性の評価が難しくなる。
- 時間的ダイナミクスに敏感な新しい協調指標を導入し，従来の指標の限界を克服することで，より正確な協調評価を目指す。
- 従来の報酬公平性指標は高い値を示す一方で，提案する交互性指標を用いると，学習された戦略がランダムな戦略よりも最大81%低いパフォーマンスを示すことが判明した。
- 高い集団報酬と，質の低い時間的協調が共存しうることを実証した。従来の指標では，このような協調のダイナミクスを誤って評価する可能性がある。
- 複数エージェントゲームにおける協調を分析するには，時間的要素を考慮した指標が不可欠であり，ランダムな戦略を基準として比較する必要があることが示唆された。
Link: https://arxiv.org/abs/2603.05789
ResearchEnvBench：研究コード実行のための環境合成におけるエージェントのベンチマーク [cs.IR, cs.SE, cs.AI]目的：研究コード実行のための環境合成におけるエージェントの性能評価
- 科学研究の効率化に貢献するため，自律エージェントの活用が期待されている。
- 既存の評価では，ソフトウェア依存関係の解決や環境設定が手動で行われており，自動化が課題である。
- 研究環境の自動構築能力を評価し，再現性のある科学研究を支援するエージェント開発を促進する。
- ResearchEnvBenchは，研究リポジトリから実行環境を自動構築する能力を評価するベンチマークである。
- 現在の最先端エージェントには，依存関係の解決やバージョン管理に課題があることが示された。
- 本ベンチマークは，自律エージェントによる再現性のある科学研究の実現に向けた現実的なテストベッドを提供する。
Link: https://arxiv.org/abs/2603.06739
ランジェバン力学を用いた現代ホップフィールドエネルギーにおける確率的注意機構 [cs.LG, q-fin.CP]目的：確率的注意機構の実現
- 注意機構は，自然言語処理や画像認識など，様々な分野で重要な役割を果たしている。
- 従来の注意機構は学習に依存するため，新たなタスクへの適応が難しいという課題があった。
- 学習を必要とせず，温度パラメータのみで制御可能な注意機構を開発すること。
- 本研究では，ランジェバンサンプリングを用いることで，学習不要な確率的注意機構を実現した。
- 温度を下げることで正確な検索が可能になり，上げることで自由な生成が可能となる。
- 提案手法は，MNIST画像やタンパク質配列において，既存の学習済みモデルを上回る性能を示した。
Link: https://arxiv.org/abs/2603.06875
SeDa：データセット発見と多要素拡張セマンティック探索のための統合システム [cs.DB, cs.IR, cs.AI]目的：データセットの発見，セマンティックアノテーション，多要素拡張ナビゲーションのための統合フレームワーク
- オープンデータプラットフォームの拡大により，データセットの発見と解釈が困難になっている。
- データセットが分散しており，異なるメタデータ表現が混在しているため，相互運用性が低い。
- 信頼性とトレーサビリティを確保し，データセット探索をセマンティックに豊かにすること。
- SeDaは，200以上のプラットフォームから760万件以上のデータセットを統合している。
- SeDaは，既存のデータセット検索プラットフォームと比較して，より優れた網羅性，最新性，トレーサビリティを実現している。
- 本研究は，信頼性の高い，セマンティックに強化された，グローバルに拡張可能なデータセット探索の基盤を確立する。
Link: https://arxiv.org/abs/2603.07502
画像分類における分布外検出のための学習目的関数の系統的な比較 [cs.CV, cs.AI, cs.LG]目的：分布外検出における学習目的関数の影響評価
- 安全性が求められる応用において，未知の入力への対応能力が不可欠であるため。
- 学習目的関数が分布外検出性能に与える影響については，十分な検討がなされていない。
- 画像分類における分布外検出性能を向上させるための最適な学習目的関数を特定すること。
- クロスエントロピー損失，プロトタイプ損失，AP損失は同程度の分布内精度を示すことが判明した。
- 全体として，クロスエントロピー損失が近傍および遠方の分布外データにおいて最も安定した性能を示した。
- 他の目的関数も特定の条件下では競争力を持つ可能性がある。
Link: https://arxiv.org/abs/2603.07571
アラインメント・プロセス・アウトカム：AIと人間の協働の捉え方 [eess.SY, cs.SY, cs.HC, cs.AI]目的：AIと人間の協働におけるアラインメント，プロセス構造，アウトカム品質の関係性の構造的理解
- 協働は社会活動の根幹であり，その効率と効果の向上が重要である。
- 従来の協働研究は，アラインメント，プロセス，アウトカムを分離し，構造的理解が不十分である。
- アラインメント，プロセス，アウトカムの動的な関係性を統一的に捉え，協働構造を解明する。
- 協働を，構造化されたタスク空間における軌跡の進化として捉えることで，進展，分岐，後退などのパターンが明らかになった。
- 個人の意図が共有された文脈で表現され，状況に応じた意思決定に関わる過程を分析した。
- 人間同士，AI同士，人間とAIの協働において，アラインメント，プロセス，アウトカムの関係性を再検討した。
Link: https://arxiv.org/abs/2603.08017
UIS-Digger：実世界における未インデックス情報探索のための包括的な研究エージェントシステムへ [cs.AI, cs.IR]目的：未インデックス情報探索（UIS）における課題解決と，そのためのベンチマークおよびフレームワークの提案
- 情報探索は知識獲得の根幹であり，高度な情報探索システムは様々な分野の発展に不可欠である。
- 既存の情報探索エージェントは検索エンジンに依存しており，検索エンジンに登録されていない情報へのアクセスが困難である。
- UIS-Diggerは，未インデックス情報へのアクセス能力を高め，より網羅的な情報探索を実現することを目指す。
- 本研究では，未インデックス情報探索に特化したベンチマーク「UIS-QA」を新たに開発し，既存のエージェントの性能低下を明らかにした。
- 提案するUIS-Diggerは，デュアルモードブラウジングとファイル解析を組み合わせた新しいフレームワークであり，小規模なLLMでも優れた性能を発揮する。
- 本研究は，既存の評価パラダイムの限界を指摘し，未インデックス情報探索研究を促進するためのツールキットを提供する。
Link: https://arxiv.org/abs/2603.08117
言語獲得初期段階の計算モデル：言語事前知識なしでの音声・視覚入力からの学習 [cs.CL, cs.AI, eess.AS]目的：音声と視覚入力からの言語獲得初期段階の計算モデル
- 乳幼児の言語獲得は容易だが，情報処理の観点からは困難であり，そのメカニズム解明が重要である。
- 既存モデルは言語事前知識に依存しており，乳幼児の学習過程を十分に説明できない。
- 言語事前知識を用いず，自己教師あり学習と視覚的根拠に基づいたモデルによる学習メカニズムの解明。
- 自己教師あり学習と視覚的根拠に基づいたモデルは，言語事前知識なしで様々な音声的特徴を学習可能であることが示された。
- 言語獲得初期段階の多様な発達特性は，共通の学習原理によって説明できる可能性が示唆された。
- 入力データやモデルの挙動において，現実的なシミュレーションへの進展が見られる。
Link: https://arxiv.org/abs/2603.08359
レトロエージェント：事後的二重内在報酬による解決から進化へ [cs.AI]目的：複雑なインタラクティブ環境におけるエージェントの習熟
- LLMベースのエージェントは複雑なタスクで高い潜在力を持つため，その性能向上は重要である。
- 標準的な強化学習では探索不足による最適解への収束の遅延や，知識の暗黙的な保持が課題である。
- 事後的な内省メカニズムにより，継続的な適応と知識の再利用を促進し，性能向上を目指す。
- レトロエージェントは，既存手法と比較して，ALFWorldで+18.3%，WebShopで+15.4%，Sokobanで+27.1%，MineSweeperで+8.9%の性能向上を達成した。
- 内省メカニズムが，サブタスク完了の追跡と再利用可能な教訓の抽出を可能にし，探索と知識活用をバランスさせている。
- テスト時の適応性や分布外シナリオへの汎化能力も高く，継続的な学習の有効性が示された。
Link: https://arxiv.org/abs/2603.08561
AI-RANsにおける公平なマルチタスク学習 [cs.LG, cs.NI]目的：異質なユーザーに対する公平な推論性能の保証
- AI-RANsは多様なユーザーにサービスを提供する重要な技術であり，効率的なリソース配分が求められる。
- ユーザーの学習タスクが時間変化するため，公平性を保ちつつ性能を維持することが課題である。
- 動的な状況下で長期的な公平性と効率性を両立する学習メカニズムの確立を目指す。
- 提案手法であるOWO-FMTLは，ユーザー間の長期的な公平性を保証することが確認された。
- 本手法は，一般的なalpha-fairnessを用いることで，効率と公平性のトレードオフを可能にする。
- 実験結果から，OWO-FMTLが既存のマルチタスク学習手法と比較して，動的なシナリオで優れていることが示された。
Link: https://arxiv.org/abs/2603.08717
SiliconMind-V1: Verilogコード生成のためのマルチエージェント蒸留とデバッグ推論ワークフロー [cs.AR, cs.AI, cs.SE]目的：Verilogコード生成のためのマルチエージェントフレームワーク
- Verilogハードウェア記述言語は，デジタル回路設計の基盤であり，自動化が重要である。
- 既存手法は構文的な正しさに重点を置き，機能的な正しさに保証がない場合がある。
- ローカルでファインチューニングされたLLMによる反復的な生成，テスト，デバッグを可能にする。
- 提案手法SiliconMind-V1は，VerilogEval-v2, RTLLM-v2, CVDPベンチマークにおいて，最先端のQiMeng-CodeV-R1を機能的な正確性で上回る。
- より少ない学習リソースで高い性能を実現する。
- テストベンチ駆動型検証を統合し，機能検証の信頼性を高めている。
Link: https://arxiv.org/abs/2603.08719
アライメントが引き起こす副作用：牧師的権力，集団的病理，そして単一言語安全評価の構造的限界 [cs.CY, cs.AI]目的：LLMの精神病理がアライメント設計に起因すること
- LLMの安全性確保は重要だが，その影響は十分に理解されていない
- 単一言語での安全評価では，潜在的な危険性を見落とす可能性がある
- アライメント設計が引き起こす集団的病理を実験的に解明すること
- LLMのアライメント設計は，安全性を高める意図とは裏腹に，集団的な行動障害を引き起こす。
- 不可視な検閲は，集団的病理を増幅させ，アライメント制約の複雑さは内部解離を促進する。
- 言語の切り替えは病理の質的様式を変化させ，日本語の語用構造は英語のみの評価では見えない集団的病理を増幅する。
Link: https://arxiv.org/abs/2603.08723
関連性を超えて：検索とRAG情報網羅度の関係について [cs.IR, cs.AI]目的：RAGにおける検索と生成応答の情報網羅度の関係
- 情報検索技術は，大量のデータから必要な情報を効率的に取得するために不可欠である。
- RAGシステムでは，検索の質が生成の質に与える影響が明確に示されていない。
- 検索指標が生成応答の情報網羅度を予測できるか検証し，RAGシステムの性能評価に役立てる。
- 検索における網羅度指標と生成された応答におけるナゲットの網羅度との間には，強い相関関係が認められた。
- 検索目標と生成目標が一致する場合に，この相関関係は特に強くなることが示された。
- 複雑な反復RAGパイプラインでは，生成品質と検索有効性が部分的に分離される可能性もある。
Link: https://arxiv.org/abs/2603.08819
Fish Audio S2 技術報告 [cs.SD, cs.AI, cs.CL]目的：オープンソースのテキスト読み上げシステムFish Audio S2の開発
- 音声合成技術は，人機インタフェースやアクセシビリティ向上に不可欠である。
- 既存のオープンソースTTSは，多様な話者や指示への対応に課題があった。
- 自然言語による指示に基づいた高品位な音声合成の実現を目指す。
- Fish Audio S2は，複数話者，複数ターン生成，および自然言語指示への対応を特徴とする。
- 大規模な学習のために，ビデオキャプションや音声キャプションを含む段階的なデータパイプラインと学習手法を開発した。
- ストリーミングに最適な推論エンジンを実装し，RTF 0.195，初回音声出力までの時間100ms以下を達成した。
Link: https://arxiv.org/abs/2603.08823
ファジー粗集合理論に基づく特徴選択の新たなモデリング：ハイブリッド情報システムにおける通常状態と楽観的状態 [cs.CL, cs.HC, cs.LG, cs.AI]目的：ハイブリッド情報システムにおける特徴選択のための新たなモデル
- データ量の増大に対応するため，効率的な特徴選択手法が求められている。
- 従来のファジー粗集合理論は，高次元空間での計算コストが高いという課題があった。
- 本研究は，計算コストを削減し，より効果的な特徴選択を実現することを目指す。
- 提案手法FSbuHDは，オブジェクト間の複合距離を計算することでファジー同値関係を導出し，計算効率を向上させた。
- FSbuHDは，特徴選択問題を最適化問題として再構築し，メタヒューリスティックアルゴリズムを活用することで，より最適な解を得る。
- UCIリポジトリの標準データセットを用いた実験の結果，FSbuHDは既存手法と比較して，効率性と有効性に優れていることが示された。
Link: https://arxiv.org/abs/2603.08900
PathoScribe：統一されたLLM駆動フレームワークによる病理データの生きた図書館への変革 - セマンティック検索と臨床統合 [cs.HC, cs.CV, cs.AI, cs.CL, cs.DL, cs.IR]目的：病理データのセマンティック検索と臨床統合を通じた，生きた図書館への変革
- 現代の診断と癌治療の根幹をなす病理学において，過去の知見活用が重要である。
- 病理報告書のデジタル化が進む一方，有効な検索・推論メカニズムがないため，知識が活用されていない。
- デジタル化された病理アーカイブを，臨床判断を支援する能動的な知識プラットフォームへと進化させる。
- PathoScribeは，自然言語による症例検索において，Recall@10で完璧な性能を示した。
- 自由記述の適格基準から自動的にコホートを構築する時間を大幅に短縮し，91.3%の精度を実現した。
- 本研究は，デジタル病理アーカイブを，受動的な保存システムから能動的な臨床インテリジェンスプラットフォームへと変換するための基盤を確立する。
Link: https://arxiv.org/abs/2603.08935
プレイワールド：自律的な遊びからロボットのワールドモデルを学習 [cs.RO, cs.AI]目的：ロボットのワールドモデルの学習
- ロボットの汎用シミュレータは，データから直接学習することで性能を向上させることが期待されている。
- 既存のビデオモデルは，ロボットと物体間の物理的に整合性の取れた相互作用の予測に苦戦している。
- 人間のデモンストレーションに依存せず，ロボットの自律的な自己対戦のみで高精度なシミュレータを学習すること。
- プレイワールドは，接触の多い相互作用において，人間が収集したデータで訓練されたワールドモデルよりも高品質で物理的に整合性の取れた予測を生成する。
- プレイワールドは，詳細な失敗予測とポリシー評価を可能にし，人間が収集したデータと比較して最大40％の改善を示す。
- プレイワールドは，ワールドモデル内での強化学習を可能にし，実世界での展開時に成功率を65％向上させる。
Link: https://arxiv.org/abs/2603.09030
VIVID-Med：実用的な医療用ViTのためのLLMによる構造化事前学習 [cs.CV, cs.AI]目的：医療画像解析におけるViTの事前学習手法
- 医療画像解析は，診断支援や治療計画において不可欠であり，高精度な解析手法が求められている。
- 従来の事前学習では，臨床所見の複雑な意味関係を捉えきれておらず，性能向上の限界があった。
- LLMを活用することで，臨床所見の意味的構造を反映した効率的なViTの事前学習を目指す。
- VIVID-Medは，CheXpert線形プローブにおいて，BiomedCLIPを6.65ポイント上回る0.8588のマクロAUCを達成し，500分の1のデータ量で済んだ。
- NIH ChestX-ray14へのゼロショットクロスドメイン転移においても高い性能（0.7225マクロAUC）を示し，CTやOrganAMNIST 11-organ分類への汎化性能も確認された。
- VIVID-Medは，リソースを大量に消費するビジョン言語モデルの代替となり，臨床現場への導入を促進する。
Link: https://arxiv.org/abs/2603.09109
プロキシによる測定較正 [cs.LG]目的：結果変数の系統的測定誤差の推定と修正
- 調査や行政記録に基づく集計変数は，政策評価や意思決定において重要である。
- データ収集能力のばらつき等により，測定誤差が生じ，分析を歪める可能性がある。
- プロキシ変数を用いて，測定誤差を特定し，真の値を推定することを試みる。
- 因果グラフを用いて，真の変数とバイアス変数を分離し，測定誤差の構造をモデル化した。
- 変分オートエンコーダを活用し，潜在的な内容変数とバイアス変数を分離する手法を提案した。
- シミュレーション，半合成データ，実際の災害損失報告データで有効性を検証した。
Link: https://arxiv.org/abs/2603.09288
カーブボール操舵：操舵の正しい方向は必ずしも線形ではない [cs.AI]目的：大規模言語モデルの挙動制御に関する研究
- 言語モデルの制御は，その応用範囲拡大に不可欠であり，安全性と信頼性向上の鍵となる。
- 既存手法は線形性の仮定に依存しており，複雑なモデルでは挙動の一貫性に課題がある。
- 活性化空間の非線形性を考慮した操舵手法を開発し，より安定した制御を目指す。
- 活性化空間の幾何学的な歪みを評価した結果，概念依存的に大きな歪みがあることが示された。
- 提案手法「カーブボール操舵」は，従来の線形PCAベースの手法を上回り，特に歪みの強い領域で優れた性能を発揮する。
- 幾何学を考慮した非線形操舵が，線形介入の代替となる有効な手段であることを示唆する。
Link: https://arxiv.org/abs/2603.09313
SPAARS：抽象探索と行動空間の洗練された活用による，より安全な強化学習ポリシーアラインメント [cs.LG, cs.AI, cs.RO]目的：オフラインデータとオンラインインタラクションを組み合わせた強化学習における，安全なオンライン探索手法の確立
- ロボティクスの分野において，安全性と効率性を両立した学習は不可欠であり，実用化に向けた重要な課題となっている。
- オフラインデータのみでの学習は汎化性能が低く，オンライン探索は安全性の問題がある。この両者のバランスが難しい。
- オフラインデータの制約下で，安全かつ効率的に探索し，パフォーマンスギャップを解消することを目指す。
- SPAARSは，まず低次元潜在空間で安全な行動改善を行い，その後，デコーダのボトルネックを回避して直接行動空間へ移行するカリキュラム学習フレームワークである。
- SPAARS-SUPEは，OPALによる時間的スキル事前学習と組み合わせることで，より構造化された探索を可能にし，サンプル効率が大幅に向上する。
- 実験結果から，SPAARS-SUPEはSUPEよりも高い報酬を獲得し，SPAARS単独でも既存手法を上回る性能を示すことが確認された。
Link: https://arxiv.org/abs/2603.09378
疎なサンプルからの移動経路再構築：低頻度データのための高度な空間的・時間的マッチング戦略 [cs.LG]目的：GPS軌跡と道路ネットワークのアライメント改善
- 都市における人や物の移動を正確に把握することは，交通管理や都市計画において不可欠である。
- 既存の空間的・時間的マッチングアルゴリズムは，計算効率や精度に課題が残されており，特に高密度環境下では性能が低下する。
- 疎なサンプルデータでも高精度な移動経路再構築を可能にし，アルゴリズムの計算効率を向上させることを目指す。
- 提案手法では，動的バッファ，適応的観測確率，再設計された時間的スコアリング関数，行動分析という4つの改良を加えることで，大幅な性能向上を実現した。
- 実験結果から，様々な評価指標において，提案手法が計算効率と経路品質の両面で既存手法を上回ることが示された。
- 特に，既存の正解データがない状況下でも有効な評価指標を用いることで，提案手法の有効性を客観的に評価した。
Link: https://arxiv.org/abs/2603.09412
MM-tau-p$^2$: 二者制御環境におけるロバストなマルチモーダルエージェント評価のためのペルソナ適応プロンプティング [cs.CL, cs.ET, cs.AI]目的：二者制御環境下におけるマルチモーダルエージェントのロバスト性評価
- 顧客体験管理において，エージェントはユーザーの個性に応じて行動を変化させる必要性が高まっている。
- 既存の評価フレームワークはユーザーのペルソナを考慮せず，ユーザーに依存しない環境で動作する。
- マルチモーダルエージェントのロバスト性を，ペルソナ適応の有無で評価する新しいベンチマークを提案する。
- 提案するベンチマークMM-tau-p$^2$は，12の新しい評価指標を用いて，マルチモーダルエージェントを包括的に評価する。
- 最先端のLLM（GPT-5，GPT 4.1など）であっても，マルチモーダル化の際には，ロバスト性やターンオーバーヘッドといった追加の考慮事項が存在する。
- 通信および小売分野におけるLLM-as-judgeアプローチを用いて，提案手法の評価を行った。
Link: https://arxiv.org/abs/2603.09643
AutoViVQA：ベトナム語ビジュアル質問応答のための大規模自動構築データセット [cs.CL, cs.CV, cs.AI]目的：ベトナム語ビジュアル質問応答のための大規模データセット
- 画像とテキストを理解するマルチモーダルタスクであるVQAは，AI研究において重要な課題である。
- 既存のデータセットは言語バイアスを含み，視覚的な根拠付けとバランスが課題となっていた。
- 本研究は，ベトナム語におけるVQAのための大規模データセットを構築し，評価指標を比較する。
- Transformerベースのアーキテクチャを用いることで，ベトナム語VQAにおいてテキストと視覚情報の活用を検証した。
- マルチリンガル環境下での自動評価指標の比較を行い，その妥当性を検討した。
- 大規模言語モデルが，VQAにおける自動評価と人間による評価の整合性を高める可能性を示唆した。
Link: https://arxiv.org/abs/2603.09689
Ego：埋め込みによる視覚言語モデルの個別化 [cs.CV, cs.AI]目的：視覚言語モデルの個別化手法
- 日常生活を支援するAIアシスタントの実現が求められており，そのためにはモデルの個別化が不可欠である。
- 既存の個別化手法は，汎用性やスケーラビリティに課題があるか，導入が複雑である。
- モデル本来の能力を活用し，効率的かつ効果的な個別化を実現することを目指す。
- モデルの内部注意機構を用いて，特定の概念を強く表す視覚トークンを抽出する手法を提案した。
- 抽出されたトークンは，その概念の記憶として機能し，テスト画像中の概念の想起と記述を可能にする。
- 単一概念，複数概念，動画の個別化を含む様々な設定で，提案手法が既存手法を上回る性能を示した。
Link: https://arxiv.org/abs/2603.09771
MA-EgoQA：複数エージェントによる一人称視点動画に対する質問応答 [cs.CV, cs.AI]目的：複数エージェントから収集された一人称視点動画の同時理解
- AIエージェントとの協働が将来的に不可欠となるため，人間との円滑なコミュニケーションが重要である。
- 多数の一人称視点動画を効率的に処理し，システムレベルの記憶を構築することが課題である。
- 複数エージェントの視点情報を統合し，より高度な状況理解を可能にすることを目的とする。
- 本研究では，複数エージェントの一人称視点動画に関する新しいベンチマークデータセットMA-EgoQAを提案した。
- 既存手法は，複数の一人称視点動画の同時処理に課題があることが示された。
- エージェント間での記憶共有と動的な情報検索を行うEgoMASというベースラインモデルを開発した。
Link: https://arxiv.org/abs/2603.09827
継続学習のための局所分類器アライメント [cs.RO, cs.AI]目的：継続学習における破滅的忘却の軽減
- 知能システムには変化する環境下での継続的な学習能力が不可欠である。
- 既存モデルは，継続学習において破滅的忘却という課題に直面する。
- 分類器とバックボーンの間の不一致を解消し，タスク知識の統合を促進する。
- 提案手法は，局所分類器アライメント損失を用いることで，分類器とバックボーンの整合性を高める。
- 理論的に，この損失関数が分類器の汎化性能と頑健性を向上させることが示された。
- 複数のベンチマーク実験において，提案手法は最先端手法と同等以上の性能を達成した。
Link: https://arxiv.org/abs/2603.09888
表現学習を用いたタスク認識モジュレーションによる陸域炭素フラックスの空間スケール拡張 [cs.IR, cs.LG, physics.ao-ph]目的：陸域炭素フラックスの空間スケール拡張
- 地球炭素収支の推定には不可欠だが，地上観測データの偏りにより課題が多い。
- 既存のデータ駆動型手法は，観測域外への一般化が難しく，地域バイアスや予測不確実性が高い。
- 物理的な制約と適応的な表現学習を統合し，炭素フラックス推定の精度と汎化性能を向上させる。
- タスク認識モジュレーションと表現学習(TAM-RL)により，既存の最先端データセットと比較して予測性能が向上した。
- RMSEは8-9.6%減少し，決定係数(R2)は19.4%から43.8%に増加した(対象フラックスにより異なる)。
- 物理的制約と適応表現学習の統合が，地球炭素フラックス推定の堅牢性と汎化性能を大幅に向上させることを示した。
Link: https://arxiv.org/abs/2603.09974
探索的最適停止：特異制御による定式化 [math.CO, cs.DM, quant-ph, cs.CC, quant-ph, cs.AR, math.OC, cs.LG, q-fin.MF, stat.ML]目的：連続時間・状態空間における最適停止問題の探索
- 不確実性の下での意思決定は，金融，資源管理など幅広い分野で重要である。
- 従来の最適停止問題では，探索が不十分になり，最適な戦略を見つけにくい場合がある。
- 強化学習を用いて探索を促し，よりロバストな最適停止戦略を導出すること。
- ランダム化された停止時間を用いて問題を定式化し，累積残差エントロピーによる正則化を導入した。
- 正則化された問題は，有限燃料を持つ(n+1)次元の特異確率制御問題として表現されることが示された。
- 動的計画法に基づき，特異制御問題を解き，一意な最適探索戦略を特定した。
Link: https://arxiv.org/abs/2408.09335
地震NPP：ニューラル点過程を用いた地震予測のベンチマーク [physics.geo-ph, cs.LG, stat.AP, stat.ML]目的：地震予測のためのニューラル点過程のベンチマークプラットフォーム
- 地震は甚大な被害をもたらす自然災害であり，予測精度の向上は社会にとって喫緊の課題である。
- 既存のベンチマークにはデータ漏洩があり，最新の地震活動や主要な地震シーケンスが欠けている。
- 最新の地震活動を網羅し，既存モデルとの比較を可能にする新たなベンチマークを構築すること。
- EarthquakeNPPは，既存の地震カタログ，ETASモデル，評価プロトコルを統合したベンチマークプラットフォームである。
- カリフォルニア州の1971年から2021年のデータを対象に，様々なデータ生成方法を適用した。
- 実験の結果，既存の5つのNPPはいずれもETASモデルを下回る性能であった。
Link: https://arxiv.org/abs/2410.08226
次元の喪失：生成拡散モデルにおける幾何学的記憶 [stat.ML, cs.LG]目的：生成拡散モデルにおける記憶のメカニズム
- 生成AIの発展において拡散モデルが重要な役割を果たしているため，その挙動理解は不可欠である。
- 拡散モデルが訓練データをいつ，どのように記憶するか，特に低次元多様体上での振る舞いが不明である。
- データが乏しい状況下での拡散モデルの記憶メカニズムを解明し，その幾何学的性質を明らかにする。
- 拡散モデルにおける記憶は，急激ではなく段階的に生じることが示された。
- データの減少に伴い，モデルは独立方向の変化能力を徐々に失い，特定の事例に集中する。
- この幾何学的記憶は，物理システムのエネルギーが低い状態への凝縮と類似していることが明らかになった。
Link: https://arxiv.org/abs/2410.08727
物理的逆解法で初期化された3次元ニューラルネットワークによる脳源局在化の向上 [eess.IV, cs.LG]目的：脳源局在化の精度向上
- 脳機能と機能不全の理解に不可欠であり，神経科学研究の根幹をなす分野である。
- 脳波信号からの正確な空間局在化は，問題の不適切性から困難を伴う。
- 物理情報とデータ駆動型学習を融合させ，より高精度な脳源局在化を目指す。
- 提案手法3D-PIUNetは，従来の物理的逆解法と3次元畳み込みU-Netを組み合わせることで，空間精度を大幅に向上させた。
- シミュレーションデータを用いた評価で，従来の技術やエンドツーエンドのデータ駆動型手法を上回る性能を示した。
- 実際の脳波データにおいても，視覚皮質の特定と時間的挙動の再現に成功し，実用可能性を証明した。
Link: https://arxiv.org/abs/2411.00143
分位点期待値による条件付き局所重要度 [stat.ML, cs.LG, stat.CO]目的：機械学習モデルの局所的な変数重要度の算出
- モデル解釈性は，機械学習の信頼性向上に不可欠であり，意思決定支援において重要である。
- 既存手法は，変数間の局所的な依存関係を捉えきれず，偏った重要度評価になる場合がある。
- 変数間の局所的な依存関係を考慮し，多クラス分類問題にも適用可能な手法を開発すること。
- 提案手法CLIQUEは，既存手法と比較して，局所的な依存情報をより正確に捉えることが示された。
- CLIQUEは，相関関係だけでは評価できない変数間の相互作用を捉えることが可能である。
- CLIQUEは，変数が応答に影響を与えない領域におけるバイアスを低減できることが確認された。
Link: https://arxiv.org/abs/2411.08821
近似SRBBに基づくユニタリー合成のための新規単層量子ニューラルネットワーク [quant-ph, cs.ET, cs.LG]目的：近似的なユニタリー変換の合成手法
- 量子コンピュータの発展には，複雑な量子状態の効率的な生成が不可欠である。
- 既存のユニタリー合成手法は，量子回路の複雑さが増大し，実用的な規模での実装が困難である。
- 本研究は，より少ない量子ゲートでユニタリー変換を近似する手法を開発し，実用的な量子コンピュータへの応用を目指す。
- 本研究で提案する単層量子ニューラルネットワークは，SRBBに基づき，CNOTゲート数を指数関数的に削減する。
- この手法は，理論的なスケーラビリティに加え，効率的なアルゴリズム実装と複雑性の管理を実現した。
- シミュレーション及び実機実験の結果，提案手法は様々なユニタリー行列に対して有効であることが確認された。
Link: https://arxiv.org/abs/2412.03083