arXiv雑要約

AI - 2026/03/05 公開

拡散モデルを用いた学習不要のレート・歪み・知覚トラバーサル [cs.IT, cs.LG, math.IT]目的：レート・歪み・知覚間のトレードオフ
- 情報伝送において，データ圧縮は効率的なリソース利用に不可欠である。
- 既存のニューラル圧縮手法は，特定のトレードオフに最適化され，柔軟性に欠ける。
- 事前学習済みの拡散モデルを活用し，様々なトレードオフを探索することを目指す。
- 提案手法は，事前学習済みの拡散モデルを用いて，レート・歪み・知覚のトレードオフを学習なしで実現する。
- 理論的に，提案する拡散デコーダがAWGN環境下で歪み・知覚のトレードオフに最適であることが証明された。
- 実験結果から，提案手法が複数のデータセットで柔軟かつ効果的にトレードオフをナビゲートできることが示された。
Link: https://arxiv.org/abs/2603.04005
グループ化されたバンディット問題における固定予算制約下での最良腕の識別 [cs.LG, stat.ML]目的：グループ化されたバンディット問題における固定予算制約下での最良腕の識別
- 機械学習における探索と活用のバランスは，意思決定の最適化に不可欠である。
- 現実の腕は複数の属性を持ち，制約条件を満たす必要があり，既存手法では対応が難しい。
- 制約条件を満たす腕の中で，最良の腕を効率的に識別することを目指す。
- 提案手法FCSRは，理論的に最適な性能と実行可能性を両立している。
- FCSRは，既存の手法と比較して，実行可能性を維持しながら優れた性能を示す。
- 本研究は，属性を持つ腕の制約条件を満たすバンディット問題への新たなアプローチを提供する。
Link: https://arxiv.org/abs/2603.04007
連続モーダル論理ニューラルネットワーク：確率的アクセシビリティによるモーダル推論 [cs.LO, cs.LG]目的：モーダル論理推論の連続多様体への拡張
- AIにおける推論能力向上は重要であり，特に不確実性下での論理的推論が不可欠である。
- 既存のモーダル論理モデルは離散的な構造に依存し，複雑な現実世界の表現が困難である。
- ニューラルSDEを用いてモーダル論理を連続的に表現し，柔軟かつ効率的な推論を可能にすること。
- 本研究では，Fluid Logicというパラダイムを提案し，モーダル論理推論をニューラル確率的微分方程式(Neural SDEs)を通じて連続多様体へと拡張した。
- その結果，量化子の崩壊を防ぎ，リスクベースの意味論における健全性，古典的なモーダル公理との構造的な対応などが確認された。
- また，エピステミック論理，時間論理，義務論理の３つのケーススタディを通して，提案手法の有効性を示した。
Link: https://arxiv.org/abs/2603.04019
体積方向拡散：曖昧な医用画像セグメンテーションにおける解剖学的合意に基づく不確実性定量化 [cs.CV, cs.AI]目的：曖昧な医用画像セグメンテーションにおける不確実性の定量化
- 医用画像セグメンテーションは診断・治療計画において不可欠であり，その精度が臨床結果に大きく影響する。
- 従来のセグメンテーション手法は不確実性を考慮せず，過信された結果を生み出し，臨床的リスクを見過ごす可能性がある。
- 本研究は，解剖学的合意を基盤とした新しい拡散モデルを開発し，セグメンテーションの精度と不確実性の定量化の両立を目指す。
- 提案手法VDDは，専門家の意見の相違を考慮しながら，構造的な崩壊や異常な解剖学的構造の生成を防ぐ。
- LIDC-IDRI，KiTS21，ISBI 2015の3つのデータセットで，VDDは不確実性定量化において最先端の結果を示した(GEDとCIの顕著な改善)。
- また，セグメンテーション精度においても，決定的な上限と比較して遜色ない結果が得られた。臨床医は，VDDによって提供される解剖学的に一貫性のある不確実性マップを活用し，より安全な意思決定が可能となる。
Link: https://arxiv.org/abs/2603.04024
分散型LLM推論における品質証明付き多次元品質スコアリングフレームワーク [cs.PF, cs.DC, cs.LG, cs.AI, cs.CR]目的：分散型LLM推論における出力品質の評価メカニズム
- 大規模言語モデルの利用拡大に伴い，分散型推論の効率的な品質評価が不可欠である。
- 評価者の異質性や悪意ある行動により，既存の品質評価メカニズムでは公平な報酬分配が困難である。
- 出力品質を多角的に評価し，信頼性の高いスコアリングフレームワークを構築することで，公平な評価を実現する。
- 出力品質を，モデル特性，構造，意味，クエリとの整合性，合意度といった多次元に分解するフレームワークを提案した。
- 各次元の信頼性を検証した結果，タスク依存性や参照品質との負の相関が見られた。
- 信頼性の低い次元を除去し，重みを再正規化することで，単一の評価者や合意に基づくベースラインを上回るスコアリングが可能となった。
Link: https://arxiv.org/abs/2603.04028
オンライン継続強化学習とワールドモデルからのフィードバックによる自己適応型ロボットエージェント [cs.RO, cs.AI]目的：ロボットエージェントの自己適応性
- ロボットの自律的な運用には，環境変化への対応が不可欠である。
- 従来の学習に基づくロボット制御は，事前に学習された固定パラメータに依存し，予期せぬ変化への対応が困難である。
- 本研究は，運用中のロボットが環境変化に応じて自動的に適応する仕組みを確立することを目指す。
- 提案手法は，ワールドモデルの予測残差を利用して，分布外イベントを検出し，自動的にファインチューニングをトリガーする。
- タスクレベルの性能と内部学習指標の両方を用いて適応の進捗状況を監視することで，外部からの監督やドメイン知識なしに収束を評価できる。
- シミュレーションおよび実世界のモデル車両を用いた実験により，提案手法の有効性が確認された。
Link: https://arxiv.org/abs/2603.04029
バンド分割RoFormer分離とHiFi++ GANを用いた多段階音楽ソース復元 [cs.SD, cs.LG, eess.AS]目的：音楽ソース復元における分離と復元の手法
- 音楽制作の過程で失われた情報を再現し，高品質な音楽制作を支援する上で重要である。
- 既存の手法では，混合された音源から元の楽器トラックを正確に分離することが困難である。
- 複雑なエフェクトやアーティファクトを含む音源から，より自然な楽器トラックを復元することを目指す。
- 提案手法では，BandSplit-RoFormerによる分離とHiFi++ GANによる復元を組み合わせることで，高精度な音楽ソース復元を実現した。
- 分離段階では，段階的なカリキュラム学習によって，4-stemから8-stemへの拡張を効率的に行った。
- 復元段階では，汎用的なHiFi++ GANを楽器ごとに特化させることで，より自然な波形を生成した。
Link: https://arxiv.org/abs/2603.04032
空の象限：身体性を持った現場学習のためのAIチームメイト [cs.CL, cs.HC, cs.AI]目的：身体性を持った現場学習におけるAIチームメイトの可能性
- AIED研究は教育効果の向上に貢献してきたが，学習環境の多様化が求められている。
- 従来のAIは情報提供ツールに留まり，学習者との対話的探求を十分にサポートできていない。
- AIを知識的なパートナーとして位置づけ，現場での学習体験を豊かにすることを目指す。
- Field Atlasフレームワークは，身体性，埋め込み，能動的推論，二重符号化理論に基づき，AIEDの指導的メタファーを指導から意味構築へと転換する。
- AIは答えを提供するのではなく，ソクラテス的質疑応答を通じて学習者の思考を促す役割を担う。
- Epistemic Trajectory Modeling (ETM)を用いて，現場学習を身体的・認識的空間における連続的な軌跡として表現することで，AIによる捏造が困難なプロセスベースの証拠を提供する。
Link: https://arxiv.org/abs/2603.04034
mlx-vis：Apple SiliconにおけるGPUアクセラレーションによる次元削減と可視化 [cs.LG]目的：Apple Silicon向け機械学習フレームワークMLXを用いた次元削減手法と可視化ライブラリ
- 機械学習分野における高次元データの可視化は，データ理解とモデル解釈に不可欠である。
- 従来の次元削減手法は，GPUの性能を十分に活用できず，大規模データセットでの高速処理が課題であった。
- 本研究は，Apple SiliconのGPU性能を最大限に活用し，高速かつ効率的な次元削減と可視化を実現する。
- mlx-visはUMAP，t-SNEなど6つの次元削減手法とk近傍探索アルゴリズムをMLXで実装したPythonライブラリである。
- Fashion-MNISTデータセット(7万点)において，次元削減は2.1-3.8秒，800フレームのアニメーションレンダリングは1.4秒で完了した。
- データからレンダリング動画までの処理は3.6-5.2秒で完了し，高速な処理性能を実証した。
Link: https://arxiv.org/abs/2603.04035
DQE-CIR：学習可能な属性重みとターゲット相対負例サンプリングによる構成イメージ検索における識別的なクエリ埋め込み [cs.CV, cs.AI, cs.LG]目的：構成イメージ検索における識別的なクエリ埋め込みの学習
- 画像検索技術は，多様なコンテンツへのアクセスを可能にし，情報検索の効率を向上させる上で不可欠である。
- 既存手法は対照学習に基づき，関連する画像が誤って排除される「関連性抑制」や意図が混同される「意味的混乱」の問題を抱える。
- 属性変更の微細な検索において，クエリ表現の識別性を高め，誤認を減らすことを目指す。
- 提案手法DQE-CIRは，学習可能な属性重みを用いて視覚的特徴とテキストの正確な対応付けを可能にする。
- ターゲット相対負例サンプリングにより，識別性の高いクエリ埋め込みを学習し，検索精度を向上させる。
- 微細な属性変更において，類似候補による混乱を低減し，より信頼性の高い検索を実現する。
Link: https://arxiv.org/abs/2603.04037
タンパク質言語モデルにおける推論時の毒性軽減 [cs.RO, cs.LG, cs.AI]目的：タンパク質言語モデルにおける毒性軽減手法
- タンパク質設計の効率化に貢献するタンパク質言語モデルの応用が広がっている
- タンパク質言語モデルは，意図しない毒性タンパク質を生成する可能性がある
- 推論時に毒性を抑制しつつ，タンパク質の品質を維持する手法の開発
- Logit Diff Amplification (LDA)を適用することで，特定の分類群において毒性タンパク質の生成率を低下させた
- LDAは，再学習を必要とせず，毒性ファインチューニングモデルとのlogit差を増幅する
- Fréchet ESM DistanceやpLDDTの評価から，LDAはタンパク質の生物学的妥当性や構造的安定性を維持することが示された
Link: https://arxiv.org/abs/2603.04045
Sim2Sea：混雑水域における海上船舶航行のためのシミュレーションから現実世界へのポリシー転移 [cs.RO, cs.AI]目的：混雑水域における海上船舶の自律航行
- 海上輸送の効率化や省力化に貢献するため，船舶の自律航行技術は重要である。
- シミュレーション環境と現実環境の乖離が大きく，実用化が困難となっている。
- シミュレーション環境で学習したポリシーを現実世界で安全かつ効率的に動作させる。
- GPUアクセラレーションによる並列シミュレータを開発し，大規模かつ高精度な航行シナリオのシミュレーションを実現した。
- 複雑な力学とマルチモーダルな知覚を扱う二重ストリーム時空間ポリシーを設計し，安全な航行を支援するメカニズムを導入した。
- 対象領域ランダム化により，シミュレーションと現実世界のギャップを縮小し，実環境でのゼロショット転移に成功した。
Link: https://arxiv.org/abs/2603.04057
FedCova: ノイズラベルに対するロバストな連合共分散学習 [cs.LG, cs.IT, eess.SP, math.IT]目的：連合学習におけるノイズラベルに対するロバスト性の向上
- データ利活用において，プライバシー保護と分散環境での学習が重要視されている。
- 連合学習では，分散データに含まれるノイズラベルがモデルの性能を著しく低下させる。
- モデル自体のロバスト性を高めることで，外部リソースに依存しない学習を実現する。
- FedCovaは，特徴量共分散に基づく新しい特徴空間へデータをエンコードすることで，ラベルノイズへの耐性を高める。
- クラス特徴量の共分散と誤差許容項を用いた損失関数により，連合学習におけるロバストな特徴エンコーディングを実現する。
- CIFAR-10/100およびClothing1Mでの実験により，FedCovaが最先端手法よりも優れていることが示された。
Link: https://arxiv.org/abs/2603.04062
ごくわずかな調整：マルチエンコーダ拡散モデルに対する軽量なバックドア攻撃 [cs.LG, cs.CV]目的：マルチエンコーダ拡散モデルにおけるバックドア攻撃の効率性と有効性の検証
- 画像生成AIの普及に伴い，セキュリティ上の懸念が高まっている。
- 既存研究では，単一エンコーダのモデルが中心であり，複数エンコーダモデルの脆弱性は不明。
- 複数エンコーダモデルでも効率的なバックドア攻撃が可能か明らかにすること。
- Stable Diffusion 3を対象に，4つの攻撃ターゲットを定義し，最小限のエンコーダセットを特定した。
- 低ランクアダプタのみを学習するMulti-Encoder Lightweight aTtacks (MELT)を提案した。
- エンコーダパラメータの0.2%以下の調整で，Stable Diffusion 3に対するバックドア攻撃が成功することを示した。
Link: https://arxiv.org/abs/2603.04064
生成中の内部活性化を通じた出現的報酬ハッキングの監視 [cs.CL, cs.AI]目的：報酬ハッキングの兆候の検出
- 大規模言語モデルの安全性確保は重要であり，特にファインチューニングによる意図せぬ挙動の検出が課題。
- 報酬ハッキングは最終的な出力だけでは検出し難く，生成過程における早期発見が求められる。
- 生成過程における内部活性化パターンから報酬ハッキングを検出し，安全性を高める。
- 内部活性化パターンは，報酬ハッキングと正常な行動を確実に区別できることが示された。
- 本手法は，未知の混合ポリシーアダプターに対しても汎化し，推論中の時間的な構造も捉えられた。
- 報酬ハッキングの兆候は早期に出現し，Chain-of-Thought推論中に増幅される傾向がある。
Link: https://arxiv.org/abs/2603.04069
SaFeR：実行可能性制約付きトークン再サンプリングによる自律運転テストのための安全性重視シナリオ生成 [cs.RO, cs.AI]目的：自律運転システムの評価のための安全性重視シナリオ
- 自動運転技術の安全性確保は不可欠であり，その検証には多様なシナリオが求められる。
- 既存手法では，危険性，物理的実行可能性，行動の現実味のバランスが課題である。
- 危険性と現実味を両立しつつ，物理的制約を満たすシナリオ生成を可能にすること。
- SaFeRは，Transformerベースのモデルと微分アテンション機構を用いることで，自然な運転分布を学習する。
- 実行可能性制約を組み込んだ新規再サンプリング戦略により，危険な状況を誘発しつつ，現実的なシナリオを生成する。
- WaymoおよびnuPlanデータセットでの実験により，SaFeRが既存手法を上回り，高い性能を示すことが確認された。
Link: https://arxiv.org/abs/2603.04071
測定フィードバックに基づくイジングマシンにおけるハイパーパラメータ感度低減 [cs.PF, cs.LG, physics.app-ph, physics.comp-ph, physics.data-an]目的：測定フィードバック型イジングマシンにおけるハイパーパラメータ選択の感度低減
- 組合せ最適化問題解決への応用が期待され，既存手法を凌駕する可能性を持つ。
- 実験実装では，理想的な連続時間ダイナミクスとの乖離により，有効なハイパーパラメータ範囲が狭い。
- 測定フィードバック型アーキテクチャのハイパーパラメータ選択への依存度を低減すること。
- 測定フィードバック型イジングマシンにおいて，ハイパーパラメータ感度の差異を分析した。
- ハイパーパラメータ選択に対する感度を低減する手法を提案し，実験的にその有効性を検証した。
- 本研究は，実用的なイジングマシンの運用における課題解決に貢献する。
Link: https://arxiv.org/abs/2603.04093
高次元位置エンコーディングと非局所MLPを用いた効率的な点群処理 [cs.CV, cs.AI]目的：点群処理におけるモジュール化された特徴抽出
- 点群処理は，自動運転やロボット工学など幅広い分野で重要性を増している。
- 従来の点群処理モデルは複雑で，その性能向上要因の解明が困難である。
- 効率性と性能を両立する新たな点群処理モデルの開発が求められている。
- 本研究では，高次元位置エンコーディング（HPE）モジュールを提案し，位置情報の活用を強化した。
- また，時間のかかる局所MLP演算を非局所MLPに置き換えることで，効率的な情報更新を実現した。
- 提案手法HPENetsは，既存手法PointNeXtと比較して，精度を向上させつつ，計算量を大幅に削減した。
Link: https://arxiv.org/abs/2603.04099
脳MRIにおける人口統計的予測可能性の要因解明：解剖学的構造とコントラストの分離を通して [cs.CV, cs.AI]目的：脳MRIにおける人口統計的予測可能性の要因
- 臨床AIシステムへのバイアス懸念から，画像由来の人口統計情報予測の解明が重要である。
- 脳MRIにおける人口統計情報予測の要因が，解剖学的構造とコントラストの違いが混在している。
- 解剖学的構造とコントラストを分離し，バイアス軽減策の根本原因への対処を目指す。
- 人口統計的予測可能性は主に解剖学的構造に起因し，解剖学的表現は元の画像と同等の性能を維持する。
- コントラストのみの埋め込みは弱いながらも系統的な信号を示すが，データセット固有であり，サイト間での汎化はしない。
- バイアス軽減には，解剖学的構造と取得依存性の起源を明示的に考慮し，ドメイン間の頑健性を確保する必要がある。
Link: https://arxiv.org/abs/2603.04113
収束時における再開タイミング：収束に応じた再開回数の増加の探求 [cs.LG]目的：深層ニューラルネットワークの収束に関する学習率スケジューリング戦略
- 深層学習の性能は学習率に大きく依存し，適切な設定が重要である。
- 既存のスケジューラは，学習過程の状況を考慮せず，固定的な再開トリガーに頼っている。
- 学習過程の停滞や収束時に適応的に学習率を調整し，より良い局所最適解を見つける。
- 提案手法SGD-ERは，収束時に学習率を漸増させることで，停滞からの脱出を促す。
- CIFAR-10，CIFAR-100，TinyImageNet等のデータセットで，ResNetやVGG等の様々なアーキテクチャで評価された。
- 標準的なスケジューラと比較して，テスト精度が0.5〜4.5%向上し，収束を考慮した再開戦略の有効性が示された。
Link: https://arxiv.org/abs/2603.04117
FastWave：オーディオ超解像のための最適化拡散モデル [cs.RO, cs.SD, cs.LG]目的：オーディオ超解像技術の性能向上
- 高品位な音声信号処理は，様々な応用において不可欠である。
- 既存手法は計算コストが高く，学習や推論に多くのリソースを必要とする。
- 低計算コストで高性能なオーディオ超解像モデルの開発。
- 提案手法FastWaveは，既存のNU-Wave 2よりも優れた結果を示した。
- FastWaveは，最先端モデルと同等の性能を持ちながら，計算量は約50 GFLOPs，パラメータ数は130万と少ない。
- 学習リソースの削減と高速化を実現し，汎用的な48 kHzへの超解像が可能である。
Link: https://arxiv.org/abs/2603.04122
BeamPERL：検証可能な報酬によるパラメータ効率的な強化学習が，構造ビーム力学の推論に特化したコンパクトなLLMを専門化する [cs.CL, cs.AI, cond-mat.mtrl-sci, cs.CL, cs.LG]目的：構造ビーム力学における推論能力の獲得
- 物理学や工学の問題解決において，AIによる自動推論の重要性が高まっている。
- 現在のLLMは，物理法則の理解が不十分で，表面的なパターンマッチングに頼りがちである。
- 検証可能な報酬を用いた強化学習により，より堅牢な物理的推論能力を獲得することを目指す。
- BeamPERLは，ベースモデルと比較してPass@1スコアを66.7%向上させた。
- モデルは荷重の増加には対応できるが，支持位置の変更といったトポロジーの変化には弱い。
- 学習初期のチェックポイントが最も優れた推論能力を示し，最適化が進むにつれて頑健性が低下する傾向が見られた。
Link: https://arxiv.org/abs/2603.04124
データ適応型ランダム特徴カーネルによるTransformer [cs.LG, cs.AI]目的：Transformerの効率化と性能維持
- Transformerは様々な分野で高い性能を示すが，計算コストが課題となっている。
- 従来のランダム特徴アテンションは，事前学習済みモデルで精度が低下しやすい。
- 入力データの分布に適応したカーネルを用いることで，この問題を解決する。
- 提案手法DARKFormerは，データ適応型カーネルにより，既存手法よりも低い計算コストで高い性能を実現した。
- 特に，事前学習済みモデルのファインチューニングにおいて，その効果が顕著に現れた。
- DARKFormerは，リソース制約のある環境でのカーネルベースアテンションの進歩に貢献する。
Link: https://arxiv.org/abs/2603.04127
Crab$^{+}$: 明示的な協調によるスケーラブルで統一的なオーディオビジュアルシーン理解モデル [cs.CV, cs.AI, cs.MM]目的：オーディオビジュアルシーン理解のためのスケーラブルかつ統一的なモデルの開発
- マルチモーダル知能において，オーディオとビジュアル情報を統合的に理解する能力は重要である。
- 従来のマルチタスク統合手法では，タスク間の負の転移が深刻であり，性能が低下することが多い。
- オーディオビジュアルタスクの異質性に対処し，タスク間の負の転移を解消することを目的とする。
- Crab$^{+}$は，既存の統一モデルよりも幅広いタスクをカバーし，様々なベンチマークで専門的なモデルを上回る性能を示した。
- マルチタスク学習が単一タスクのベースラインを上回るタスクは，約88%に達し，負の転移の傾向を覆した。
- 動的なルーティングによりタスク間の関係を明示的にモデル化するInteraction-aware LoRA (I-LoRA) が有効であることが示された。
Link: https://arxiv.org/abs/2603.04128
二段階太陽光発電予測：気象予測とプラント特性の分離 [cs.LG]目的：太陽光発電量の高精度な予測手法
- エネルギー管理において，正確な太陽光発電予測は不可欠である。電力系統の安定化や効率的な運用に貢献する。
- 既存の予測手法では，誤差分布の詳細が考慮されず，確率的最適化を妨げている場合がある。
- 気象予測誤差の原因分析と，プラント固有の特性を考慮した予測モデルの開発。
- 気象予測を気象モデルとプラント特性モデルに分離することで，予測精度の向上を目指した。
- 気象予測の代わりに衛星観測データを用いた場合，2つの太陽光発電システムでそれぞれ11%，68%平均絶対誤差が増加した。
- 予測誤差は一般化双曲線分布およびt分布で適切に表現可能であることが示された。
Link: https://arxiv.org/abs/2603.04132
InstMeter: MCUにおけるDLモデル推論のエネルギーと遅延を予測する命令レベル手法 [cs.LG]目的：マイクロコントローラ(MCU)上でのDLモデル推論のエネルギーと遅延の予測
- 近年，DLモデルがMCU上で動作可能になり，省電力・小型デバイスへの応用が期待される。
- 既存手法はMAC数やモデルパラメータ等の粗い指標に依存し，予測精度が低い，または大量のデータが必要となる。
- 本研究では，MCUのクロックサイクルに着目し，エネルギーと遅延を正確に予測する手法を提案する。
- 提案手法InstMeterは，クロックサイクルを基にエネルギーと遅延を予測することで，高い線形性と精度を実現した。
- InstMeterは，最先端手法と比較して，エネルギーと遅延の予測誤差をそれぞれ3倍，6.5倍削減し，学習データ量を大幅に削減した。
- NASにおいて，InstMeterはエネルギー予算を最大限に活用し，より高い推論精度を持つ最適なDLモデルを特定することが可能となった。
Link: https://arxiv.org/abs/2603.04134
効率的なグループベースの方策最適化のためのバイアスなし動的プルーニング [cs.LG, cs.AI]目的：大規模言語モデルの推論を効率化するための動的プルーニング手法
- LLMの推論能力向上は重要だが，計算コストが課題となっている。
- 既存の選択的データ利用法は，サンプリング分布を歪め，理論的厳密性を損なう可能性がある。
- バイアスを保ちつつ，グループベースの方策最適化の学習を加速すること。
- DPPOは，重要度サンプリングに基づく補正により，バイアスなしの勾配推定を維持しながら動的プルーニングを可能にする。
- 数学的導出に基づくリスケール係数を取り入れることで，DPPOは学習を大幅に加速する。
- Qwen3-4BのMATHデータセットでの実験では，DPPOは2.37倍の学習速度向上と，平均精度で3.36%の性能向上を達成した。
Link: https://arxiv.org/abs/2603.04135
多変量生理学的時系列データの解釈のためのマルチエージェントフレームワーク [cs.LG]目的：多変量生理学的時系列データの解釈
- 救急医療において継続的な生理学的モニタリングは不可欠であり，信頼性の高いAIの導入が求められている。
- 大規模言語モデルは生理学的信号を臨床的記述に変換できるが，エージェントシステムとの比較が不明確である。
- エージェントシステムが，時系列データの解釈においてどのように機能するかを評価すること。
- Vivaldiという役割構造化されたマルチエージェントシステムが，多変量生理学的時系列データの解釈において有効であることが示された。
- 非思考型および医学的に微調整されたモデルでは，エージェントパイプラインによって説明の正当化と関連性が大幅に向上した。
- 思考型モデルでは，エージェントによるオーケストレーションが説明の質を低下させる場合がある一方，診断精度は向上した。
Link: https://arxiv.org/abs/2603.04142
VietNormalizer：TTSおよびNLPアプリケーション向けベトナム語テキスト正規化のためのオープンソース，依存関係フリーなPythonライブラリ [cs.CL, cs.NE]目的：ベトナム語テキスト正規化
- ベトナム語のTTSやNLPの精度向上には，前処理としてのテキスト正規化が不可欠である。
- 既存のツールは，依存関係が重いか，機能範囲が狭い，または単独での利用が困難である。
- 多様な非標準語に対応する，軽量かつ独立したベトナム語テキスト正規化ライブラリを提供すること。
- VietNormalizerは，数値，日付，通貨，頭字語，外来語などをベトナム語に変換する統一されたルールベースのパイプラインを提供する。
- 事前にコンパイルされた正規表現パターンを使用し，高速なバッチ処理と低メモリ消費を実現する。
- pip経由でインストール可能で，MITライセンスで公開されており，他の低リソース言語への応用も期待できる。
Link: https://arxiv.org/abs/2603.04145
GarmentPile++：アフォードを駆使した，言語と視覚の推論による雑然とした衣服の検索 [cs.RO, cs.AI]目的：雑然とした衣服の検索パイプライン
- 家庭用ロボット開発において，衣服の操作は重要な役割を担うため，注目を集めている。
- 既存研究は単一の衣服を対象とする場合が多く，現実世界で一般的な衣服の山に対する対応が課題である。
- 言語指示に基づいた安全で確実な衣服の検索を可能にし，下流タスクの基盤を確立することを目的とする。
- 提案パイプラインは，視覚と言語の推論，視覚アフォード知覚を統合し，高度な推論と汎化力を活用する。
- 衣服の山における各衣服の状態認識を強化するため，SAM2を用いた物体セグメンテーションをVLMの推論に活用する。
- デュアルアーム協調フレームワークにより，大型衣服や把持点の誤りによるたるみなどへの対処を可能にする。
Link: https://arxiv.org/abs/2603.04158
Bielik-Q2-Sharp：ポーランド語110億パラメータ言語モデルに対する極端な2ビット量子化手法の比較研究 [cs.CL, cs.CL, cs.AI]目的：ポーランド語大規模言語モデルに対する2ビット量子化手法の比較評価
- 大規模言語モデルの利用拡大のためには，計算資源の削減が不可欠である。
- 量子化はモデルサイズを削減する有効な手法だが，極端な量子化では性能劣化が懸念される。
- ポーランド語モデルにおける最適な極端な量子化手法の特定を目指す。
- 提案手法QuIP# E8P12は，22のポーランド語ベンチマークでIQ2_XXSベースラインと同程度の性能（71.92% vs 72.07%）を示した。
- eq_benchでは，提案手法はより高度な推論能力を維持していることを示唆する結果（47.14 vs 43.53）が得られた。
- QTIPは，VPTQと同等の性能を35%小さいサイズで達成し，最高のビット効率を示した。
Link: https://arxiv.org/abs/2603.04162
PlaneCycle：アダプターなしで基盤モデルを2Dから3Dへ変換するトレーニングフリー手法 [cs.CV, cs.AI]目的：大規模2D基盤モデルの3次元データへの拡張
- 近年，大規模2D基盤モデルの表現力は高いが，3Dへの応用には課題がある。
- 3Dへの拡張には，再学習，アダプター，アーキテクチャの再設計が必要となる。
- 事前学習済み2Dモデルの構造変更や再学習なしに，3D能力を獲得すること。
- PlaneCycleは，アーキテクチャに依存せず，トレーニングフリーで2Dモデルを3Dに拡張する。
- 実験の結果，PlaneCycleは線形プローブにおいて，2Dベースラインや既存の3Dモデルを上回る性能を示した。
- また，フルファインチューニングでは標準的な3Dアーキテクチャに匹敵する性能を発揮した。
Link: https://arxiv.org/abs/2603.04165
予測ニューロ筋骨格シミュレーションによる股関節エクソスケルトン制御方策の学習 [cs.RO, cs.LG]目的：股関節エクソスケルトン制御方策の学習
- 歩行支援機器の普及は，身体機能の低下した人々や負荷の大きい作業を行う人々にとって重要である。
- 実環境でのデータ収集や生体計測はコストと時間がかかるため，汎用的な制御器開発のボトルネックとなっている。
- シミュレーション環境で学習した制御方策を実機に適用し，実験負担の軽減を目指す。
- シミュレーションにおいて，エクソスケルトンによる支援は，平地および傾斜面での歩行において筋肉活動量と関節動力の平均値をそれぞれ最大3.4%，7.0%削減した。
- 実機実験では，シミュレーションで学習された支援プロファイルが速度・傾斜条件に一致しており，sim-to-realの転移が確認された (r: 0.82, RMSE: 0.03 Nm/kg)。
- 物理ベースのニューロ筋骨格シミュレーションが，エクソスケルトン制御器開発の現実的かつ拡張性の高い基盤となりうる可能性を示した。
Link: https://arxiv.org/abs/2603.04166
CodeTaste：LLMは人間レベルのコードリファクタリングを生成できるか？ [cs.DB, cs.DB, cs.SE, cs.AI, cs.LG]目的：LLMによるコードリファクタリングの能力評価
- ソフトウェア開発において，保守性や可読性は重要であり，リファクタリングはそのための不可欠な活動である。
- LLMが生成するコードは，複雑性や重複を含むことがあり，品質向上の余地がある。
- 人間が行うリファクタリングに近いものをLLMに生成させることで，コード品質の自動改善を目指す。
- LLMは詳細な指示があればリファクタリングを実行できるが，改善領域のみが与えられた場合は，人間の選択を再現できない場合が多い。
- 提案と実装を分離する手法や，最適な提案を選択することで，LLMのリファクタリング精度は向上する。
- CodeTasteは，現実的なコードベースにおけるLLMのリファクタリング能力評価のためのベンチマークとして活用できる。
Link: https://arxiv.org/abs/2603.04177
状態空間モデルにおける建築学的固有受容性：熱力学的訓練が先行的停止検出を誘起する [cs.LG, cs.AI]目的：確率ナビゲーションアーキテクチャ(PNA)フレームワークを用いた，状態空間モデル(SSM)およびTransformerにおける熱力学的訓練の効果検証
- ニューラル計算は，確率多様体におけるナビゲーションとして捉えられ，効率的な計算と資源配分が重要視されている。
- 既存のモデルでは，計算資源の無駄遣いを抑制し，停止検出の精度を向上させるための効果的な手法が確立されていない。
- 熱力学的損失関数を用いてSSMを訓練し，停止予測と状態エントロピーの関連性を明らかにすることで，計算自覚能力のメカニズムを解明する。
- 熱力学的訓練を受けたSSMは，停止確信度と状態エントロピーの間に強い相関関係(r = -0.836)を示し，停止シグナルが状態エントロピーの崩壊を正確に2トークン先取りしていることが明らかになった。
- この普遍的な停止シグネチャ(USS)は，ランダムシードやタスクの種類に関わらず再現性があり，Transformerでは同様の相関は見られなかった。
- SSMは，Transformerと比較してメタ認知能力が高く，タスク間の転移学習においても優れた性能を示し，SSMが熱力学的に自然なアーキテクチャであることが示唆された。
Link: https://arxiv.org/abs/2603.04180
オマーン沿岸における有害藻類ブルームリスク検出のためのマルチセンサー機械学習パイプライン：REDNET-ML [cs.LG]目的：オマーン沿岸における有害藻類ブルームリスク検出のための機械学習パイプライン
- 沿岸インフラ，漁業，淡水供給は有害藻類ブルームによって脅かされるため，早期検知が重要である。
- 既存の検知方法では，多様なセンサーデータを効果的に統合し，信頼性の高いリスク評価を行うことが困難である。
- マルチセンサーデータを融合し，厳密な評価戦略を用いて，有害藻類ブルームリスクを正確に予測すること。
- Sentinel-2，MODIS，オブジェクト検出器からの情報を融合し，CatBoostを用いたリスク予測モデルを開発した。
- AUROC/AUPRC，混同行列，キャリブレーション曲線，ドリフト分析を用いてモデルを評価し，分布シフトを定量化した。
- 本パイプラインは，サイトおよび時間に基づいて運用探索をサポートするリスクフィールドビューアを備えている。
Link: https://arxiv.org/abs/2603.04181
CAM-LDS：システムログとセキュリティアラートの自動解釈のためのサイバー攻撃の兆候 [cs.DB, cs.CR, cs.AI]目的：サイバー攻撃の兆候に関するログデータセット
- セキュリティインシデントの検知とフォレンジック調査において，ログデータは不可欠である。
- ログデータは量が多く，形式が多様で非構造化されており，手動分析は困難である。
- 大規模言語モデルを活用し，広範な攻撃手法を網羅したログデータセットを構築することで，その課題を解決する。
- 本研究で開発したCAM-LDSは，13の戦術と81の具体的な攻撃手法を網羅する7つの攻撃シナリオを含む。
- 大規模言語モデルを用いた実証実験の結果，攻撃ステップの約3分の1で正確な攻撃手法の予測が可能であり，さらに3分の1で適切な予測が得られた。
- これらの結果は，大規模言語モデルを用いたログ解釈の可能性と，本データセットの有用性を示唆している。
Link: https://arxiv.org/abs/2603.04186
現実的なパーソナライズに向けて：パーソナライズされたユーザー-LLMインタラクションにおける長期的嗜好追従の評価 [eess.SY, cs.SY, cs.AI]目的：パーソナライズされたユーザーとLLM間のインタラクションにおける，現実的な嗜好追従の評価
- LLMは個人アシスタントとして普及が進んでおり，ユーザーの多様な嗜好を理解することが重要である。
- 長期間にわたるユーザーの嗜好をLLMが正確に追従できるかどうかの評価が十分ではない。
- 現実的な状況下で，LLMがユーザーの嗜好をどの程度理解し，追従できるかを評価する。
- RealPrefベンチマークによって，LLMの性能はコンテキスト長が伸び，嗜好の表現が暗黙的になるにつれて大幅に低下することが示された。
- ユーザーの嗜好理解を未知のシナリオに一般化することが，更なる課題となることが明らかになった。
- RealPrefとこれらの知見は，個々のニーズに適合する，ユーザーを意識したLLMアシスタントの開発のための基盤を提供する。
Link: https://arxiv.org/abs/2603.04191
勾配ノルム閾値化によるカーボン効率型連合学習のためのノイズに配慮したクライアント選択 [cs.LG, cs.AI]目的：カーボン効率型連合学習におけるクライアント選択の改善
- 大規模ニューラルネットワークの学習には膨大な電力が必要であり，環境負荷低減が重要である。
- 連合学習ではクライアントデータの品質が不明であり，効果的なモデル学習の課題となっている。
- 不確実なデータ品質下でもロバストなクライアント選択を行い，モデル性能と持続可能性を向上させる。
- 既存のクライアント選択戦略はノイズの多いデータを持つクライアントを選択しがちであり，モデル性能を低下させる。
- 提案手法では，勾配ノルム閾値化を用いることでノイズを検出し，効果的なクライアント選択を実現した。
- カーボン予算がモデル収束に与える影響を分析し，効率性と持続可能性のバランスを検討した。
Link: https://arxiv.org/abs/2603.04194
グラフニューラルネットワークにおける反実仮想説明の包括的アプローチ：エッジ削除を超えて [cs.RO, cs.LG]目的：グラフニューラルネットワークにおける反実仮想説明の生成と評価
- グラフニューラルネットワークは多様な分野で活用されているが，その予測根拠が不透明であるという課題がある。
- 既存手法はエッジ削除に偏っており，より多様な反実仮想説明の探索が求められている。
- XPloreは，エッジ挿入とノード特徴量の摂動を同時に最適化することで，より質の高い反実仮想説明を生成する。
- XPloreは，既存の最先端手法と比較して，有効性で最大56.3%，忠実性で最大52.8%の改善を13個の現実世界のベンチマークと5個の合成ベンチマークで示した。
- 学習されたグラフ埋め込みに対するコサイン類似度を用いることで，従来の距離ベースの指標の限界を克服し，より一貫性のある反実仮想説明を生成した。
- XPloreは，競合する実行時間維持しながら，より構造的・意味的に忠実な反実仮想説明を可能にする。
Link: https://arxiv.org/abs/2603.04209
ZeSTA：ドメイン条件付き学習によるゼロショットTTS拡張とデータ効率的なパーソナライズ音声合成 [cs.CL, cs.SD, cs.AI, eess.AS]目的：低リソースなパーソナライズ音声合成のためのデータ拡張源としてのゼロショットTTSの利用
- 音声合成技術は，人間とコンピュータの自然な対話を可能にする上で重要な役割を担う。
- パーソナライズ音声合成では，学習データが不足すると話者特徴の劣化が課題となる。
- 合成音声の過剰な利用による話者類似度の低下を抑制し，少ないデータでも高品質な合成を目指す。
- 提案手法ZeSTAは，軽量なドメイン埋め込みにより，実音声と合成音声を区別し，学習を安定化させる。
- LibriTTSおよび社内データセットでの実験により，ZeSTAが単純な合成音声拡張よりも話者類似度を向上させることが示された。
- 知覚的な品質や明瞭度を維持しつつ，データ効率の高いパーソナライズ音声合成を実現した。
Link: https://arxiv.org/abs/2603.04219
LLM誘導モダリティルーティングによる知覚・推論・行動・記憶フレームワークPRAM-R [cs.NI, cs.RO, cs.AI]目的：適応型自動運転のための知覚・推論・行動・記憶フレームワーク
- 自動運転の安全性と効率性を高める上で，多感覚情報の統合は不可欠である。
- 全てのセンサーを常に稼働させ続けることは，計算コストの増大を招く。
- 環境に応じて適切なセンサーを選択し，計算資源を効率的に活用すること。
- PRAM-Rは，LLMを用いて環境とセンサーの状態を診断し，最適なモダリティを選択・重み付けする。
- 合成テストの結果，ヒステリシスベースの安定化により，ルーティングの振動が87.2%削減された。
- 実世界データによる検証では，モダリティが6.22%削減され，記憶の再現率は20%を維持しつつ，従来のシステムと同等の精度を達成した。
Link: https://arxiv.org/abs/2603.04222
依存関係抑制のための最近傍密度推定 [cs.LG, cs.CV]目的：データからの不要な依存関係の除去
- 公平性，ロバスト学習，プライバシー保護など，多様な分野でデータの依存関係除去が重要である。
- 既存手法は，デコレーションや敵対的学習に依存し，統計的依存関係の直接的な中和が困難である。
- 非パラメトリック最近傍密度推定に基づく損失関数を用いて，独立性の直接的な最適化を目指す。
- 提案手法は，既存の教師なし学習手法を上回り，教師あり学習手法と同等の性能を達成する。
- 重要なデータ特性を維持しつつ，機微変数からの独立した表現を学習できる。
- データ分布の推定と修正を通じて，統計的依存関係を中和する。
Link: https://arxiv.org/abs/2603.04224
エージェンティクス2.0：エージェント型データワークフローのための論理変換代数 [cs.AI, cs.LG]目的：エージェント型データワークフロー構築のための軽量フレームワーク
- AIエージェントの実用化が進み，信頼性や拡張性が求められている。
- 既存のAIエージェントは，品質保証の面で課題を抱えている。
- 高品質で信頼性の高いエージェント型データワークフローを実現すること。
- Agentics 2.0は，型安全で説明可能なエージェント型データワークフローを構築するためのPythonネイティブフレームワークである。
- 論理変換代数により，大規模言語モデルの推論を型付きのセマンティック変換として形式化し，スキーマの検証と証拠の局所性を保証する。
- データ駆動型発見タスクやNL-to-SQLセマンティック解析において，最先端の性能を実証した。
Link: https://arxiv.org/abs/2603.04241
FeedAIde：状況に応じた追跡質問で，アプリユーザーが詳細なフィードバックレポートを提出するように導く [cs.SE, cs.AI, cs.HC]目的：アプリユーザーからの質の高いフィードバックレポートの作成支援
- アプリの成功にはユーザーからのフィードバックが不可欠であり，継続的な改善に繋がる重要な要素である。
- ユーザーの報告内容と開発者が必要とする情報に乖離が生じやすく，情報不足による確認作業が増える。
- 状況に応じた質問を通じてユーザーと共同でレポートを精緻化し，開発者にとって有益な情報を提供する。
- FeedAIdeは，従来の単純なフィードバックフォームと比較して，ユーザーがフィードバックを報告する際の使いやすさと有用性が向上したと評価された。
- 業界専門家による評価の結果，FeedAIdeはバグ報告と機能リクエストの両方の品質，特に完全性において改善が認められた。
- 状況を考慮したGenAIを活用したフィードバックレポート作成手法は，ユーザー体験の向上と開発者への情報提供価値の向上に貢献する可能性が示された。
Link: https://arxiv.org/abs/2603.04244
LikeThis!: ユーザーがUI改善提案を送信できるようにする [cs.SE, cs.AI, cs.HC]目的：モバイルアプリのUI改善提案の質的向上
- モバイルアプリの進化において，ユーザーからのフィードバックは不可欠である。
- ユーザーからのフィードバックは，曖昧で建設的でない場合が多いという課題がある。
- より具体的で建設的なUI改善提案をユーザーが送信できるよう支援することを目的とする。
- LikeThis!は，ユーザーコメントとスクリーンショットから複数のUI改善案を生成する。
- GPT-Image-1は，既存の画像生成モデルと比較して，UIの問題解決において優れた性能を示した。
- 生成された改善案により，ユーザーと開発者の双方にとって理解しやすく，実行可能なフィードバックが得られた。
Link: https://arxiv.org/abs/2603.04245
部分的かつポリシー依存フィードバック下の多層階層推論のためのオンライン学習 [cs.LG, cs.AI]目的：多層階層推論における最適ルーティングポリシーの学習
- 複雑なタスクを効率的に処理するため，階層構造による推論システムの重要性が増している。
- 推論損失が再帰的に定義され，フィードバックが最終層でのみ得られるため，学習が困難である。
- スパースでポリシー依存的なフィードバック下での安定した学習を実現することを目指す。
- 提案手法は，Lyapunov最適化とEXP4を統合し，バイアスなしの損失推定と安定した学習を可能にする。
- 最良の固定ルーティングポリシーに対する後悔の保証を提供し，確率的到着とリソース制約下でのほぼ最適性を確立する。
- 大規模なマルチタスクワークロードにおける実験により，標準的な重要度付きアプローチと比較して，安定性と性能が向上することが示された。
Link: https://arxiv.org/abs/2603.04247
Memex(RL): インデックス化された経験記憶によるLLMエージェントの長期的タスク実行能力の向上 [cs.CL, cs.LG]目的：長期的タスクにおけるLLMエージェントの能力向上
- LLMエージェントは，複雑なタスクを自律的に実行する可能性を秘めている。
- LLMのコンテキストウィンドウの制限により，長期的なタスク実行が困難である。
- 経験情報を効率的に保存・活用することで，コンテキスト制限を克服し，長期タスクの成功率向上を目指す。
- Memexは，情報を失うことなくコンテキストを圧縮するインデックス化された経験記憶メカニズムである。
- 強化学習フレームワークMemexRLにより，要約，アーカイブ，インデックス作成，検索の最適化を実現した。
- 長期タスクにおいて，Memexエージェントはより小さなコンテキストウィンドウで高いタスク成功率を達成した。
Link: https://arxiv.org/abs/2603.04257
AIが失敗した場合，何が有効か？現実世界のAIリスク軽減戦略のデータ駆動型分類 [cs.CY, cs.AI]目的：現実世界のAIインシデント報告と軽減策の分析に基づく，AIリスク軽減戦略の分類
- AIの社会実装が進む中，AIシステムの誤作動が深刻な法的，経済的，評判上の損失をもたらす可能性が認識されている。
- 既存のAIリスク管理は，モデル個別の問題に焦点を当てており，システム全体の脆弱性への対応が不十分である。
- 本研究は，発生したインシデントに対する具体的な対策を分類し，AIリスク軽減策の体系的なガイダンスを提供することを目指す。
- 9,705件のAIインシデント記事から抽出した軽減策を分析し，MITのAIリスク軽減分類を拡張した。
- 新たに4つの軽減策カテゴリー（是正措置，法的規制，経済的制御，回避・否定）を特定し，分類体系を大幅に拡充した。
- インシデント対応の構造化を通じて，問題の診断から具体的な対策への誘導を強化し，継続的な監視体制の構築を促進する。
Link: https://arxiv.org/abs/2603.04259
大規模言語モデルからの因果関係の抽出 [cs.LG, cs.AI, cs.CL, econ.EM]目的：大規模言語モデルが持つ因果関係に関する仮説群
- AI技術の発展に伴い，言語モデルが知識獲得・推論において重要な役割を担う。
- 言語モデルが学習した知識が，因果関係として明示的に表現されていない。
- 言語モデルが想定しうる因果仮説を，検証可能な形で提示すること。
- 大規模言語モデルから生成されたテキストデータを用いて，イベントリストを抽出した。
- 抽出されたイベントを統合し，一般的なイベント群（カノニカルイベント）を定義した。
- 因果探索手法を用いることで，言語モデルが想定する因果グラフ候補を推定した。
Link: https://arxiv.org/abs/2603.04276