arXiv雑要約

AI - 2026/03/10 公開

  • GRD-Net:領域関心モジュールを用いた生成・再構成・識別的異常検知 [cs.CV, cs.AI, cs.LG]目的:異常検知のための新たなアーキテクチャの開発
    • 産業応用において,製品の品質管理における異常検知の重要性が高まっている。
    • 従来の異常検知は,データセットに依存した前処理が必要であり,汎化性能が低い。
    • 関心領域に焦点を当てることで,前処理の削減と検知精度の向上を目指す。
    • 生成・再構成ネットワーク(GAN)と画像セグメンテーションを組み合わせた新しいアーキテクチャを提案した。
    • 関心領域(ROI)を用いた識別ネットワークにより,異常が起こりやすい領域を学習することで,汎化性能を高めた。
    • MVTecデータセットおよび医薬品BFSストリップのデータセットを用いた実験で,有効性を検証した。

    Link: https://arxiv.org/abs/2603.07566

  • 現実的な仮定下でのLiRAメンバーシップ推論攻撃の再検討 [cs.CR, cs.LG]目的:機械学習におけるプライバシー漏洩の評価
    • 機械学習の利用拡大に伴い,個人情報保護は重要課題となっている。
    • メンバーシップ推論攻撃は強力だが,過信したモデルへの攻撃や不適切な閾値設定で効果が誇張される場合がある。
    • 現実的な設定下でのLiRA攻撃の有効性を再評価し,信頼性の高いプライバシー監査手法を確立すること。
    • アンチオーバーフィッティング(AOF)や転移学習(TL)を用いることで,LiRAの攻撃効果が大幅に低下することが示された。
    • シャドウモデルに基づいた閾値と偏ったメンバーシップ事前確率を用いると,LiRAの陽性予測値(PPV)が顕著に低下する。
    • 非常に低いFPRにおける脆弱な集合は再現性が低い一方,尤度比のランキングは安定している。

    Link: https://arxiv.org/abs/2603.07567

  • 制約行列拡散に基づく生成ニューラルソルバー:車両経路問題への応用 [cs.LG]目的:車両経路問題に対する制約学習と解生成
    • 車両経路問題は,物流効率化に不可欠であり,その解決は経済的損失の低減に繋がる。
    • 既存のニューラルソルバーは,問題パラメータ分布の変化に弱く,汎化性能が課題である。
    • 本研究は,制約行列拡散モデルを用いて,多様な問題設定下でのロバスト性を向上させる。
    • 提案手法は,問題の制約を効果的に捉え,既存のベンチマークデータセットにおいて最先端の性能を達成した。
    • 離散ノイズグラフ拡散モデルによって,車両経路問題の潜在的な制約を学習し,制約割当行列を生成する。
    • 生成された制約割当行列を特徴表現学習と意思決定過程に統合し,グローバルな視点とローカルな特徴統合を両立した解を生成する。

    Link: https://arxiv.org/abs/2603.07568

  • 画像分類における分布外検出のための学習目的関数の系統比較 [cs.CV, cs.AI, cs.LG]目的:画像分類における分布外検出のための学習目的関数の比較
    • 安全性が求められる応用において,未知のデータへの対応能力が重要であるため。
    • 学習目的関数が分布外データ検出性能に与える影響は,十分に検討されていない。
    • 様々な学習目的関数が分布外検出性能に及ぼす影響を系統的に評価すること。
    • クロスエントロピー損失,プロトタイプ損失,AP損失は,分布内精度で同程度の性能を示す。
    • 全体として,クロスエントロピー損失が分布内および分布外データに対する最も安定した性能を示す。
    • 他の目的関数は,特定の条件下で競争力を持つ可能性がある。

    Link: https://arxiv.org/abs/2603.07571

  • 産業時系列ビッグデータ解析のためのマルチモーダル大規模言語モデルフレームワーク [cs.LG]目的:産業時系列ビッグデータの解析
    • 産業設備の予知保全には,正確な時系列データ解析が不可欠である。
    • 既存手法は単一のモダリティに焦点を当て,時系列,周波数,テキスト間の相互補完性を活かせていない。
    • 時系列,周波数,テキストを統合的にモデル化することで,解析精度を向上させる。
    • 提案手法TS-MLLMは,時系列データの長期的な動的特性を捉えるIndustrial time-series Patch Modelingを開発した。
    • 周波数領域と意味的文脈を統合するSpectrum-aware Vision-Language Model Adaptation (SVLMA)機構を導入した。
    • 時系列特徴量をクエリとして,関連する視覚的・テキスト的情報を抽出するTemporal-centric Multi-modal Attention Fusion (TMAF)機構を設計した。

    Link: https://arxiv.org/abs/2603.07572

  • 高速産業ラインにおける深層生成異常検知アルゴリズムの統合 [cs.CV, cs.AI, cs.LG]目的:医薬品製造における異常検知手法
    • 医薬品製造において,品質管理は安全性と有効性を保証する上で極めて重要である。
    • 従来の検査方法は,作業者のばらつきやスループットの限界,多様な生産状況への対応の難しさがある。
    • 本研究は,高速産業ラインでのリアルタイムな異常検知を可能にし,品質管理の自動化を目指す。
    • 生成敵対ネットワークと残差オートエンコーダを用いた半教師あり異常検知フレームワークを提案した。
    • 正常サンプルのみで学習し,再構成残差により異常を検出し,分類と空間的な局在化を実現した。
    • 実際の工業試験キットを用いた実験で,500msの取得スロット内で高い検出性能とタイミング制約を満たした。

    Link: https://arxiv.org/abs/2603.07577

  • エンジンサウンドデータセットの解析駆動型手続き的生成:制御注釈の埋め込み [cs.RO, cs.SD, cs.LG, eess.AS]目的:エンジンサウンドデータセットの生成
    • 自動車産業において,エンジン音の計算モデルは,アクティブサウンドデザインや仮想プロトタイピングに不可欠である。
    • 高品質なエンジン音のデータセットは,コスト,測定機器,ノイズ汚染のため入手が困難である。
    • 本研究は,高品質なエンジン音と制御注釈を効率的に生成することを目指す。
    • 提案手法は,実録音から調和構造を抽出し,拡張されたパラメトリックハーモニックプラスノイズシンセサイザーを駆動する。
    • 手続き的エンジンサウンドデータセット(19時間,5,935ファイル)を生成し,RPMとトルクの正確な注釈を付与した。
    • 合成データは,実録音の調和構造を保持し,機械学習タスクに適していることが実験的に確認された。

    Link: https://arxiv.org/abs/2603.07584

  • モデルはレゴビルダー:無害なブロックから意味的青写真を通して悪意を組み立てる [cs.CC, cs.CV, cs.LG]目的:大規模ビジョン言語モデルにおける安全性脆弱性の悪用
    • 視覚情報を統合するモデルの安全性確保は重要であり,悪意ある利用を防ぐ必要がある。
    • 既存モデルは,一見無害な入力を組み合わせて悪意のある出力を生成される脆弱性を抱えている。
    • 構造化された視覚的プロンプトを用いて,モデルの推論能力を悪用し,安全機構を回避する手法を提案する。
    • 提案手法StructAttackは,有害なクエリを無害なスロットタイプに分解し,構造化された視覚的プロンプトとして埋め込む。
    • モデルはこれらのスロットを再構成し,安全機構を作動させずに悪意のある出力を生成する。
    • 複数のモデルとベンチマークにおける実験により,StructAttackの有効性が示された。

    Link: https://arxiv.org/abs/2603.07590

  • 思考の短縮,同じ回答:難易度に応じた区分的強化学習によるCoT圧縮 [cs.AI, cs.LG]目的:CoT圧縮のための難易度スケーリングされた区分的強化学習手法
    • 大規模言語モデルの推論能力向上にはCoTが有効だが,計算コストが高い。
    • CoTの圧縮は,難易度,モデル能力,学習状態に依存するため困難である。
    • 思考部分のみを圧縮し,回答部分を維持することで,CoTの効率化を目指す。
    • 提案手法DSS-GRPOは,思考と回答を分離し,セグメントごとに強化学習を行う。
    • 難易度に応じたスケーリングにより,簡潔な推論を促しつつ,回答の質を維持する。
    • 思考部分のみへの圧縮更新と,回答部分への整合性維持を同時に実現した。

    Link: https://arxiv.org/abs/2603.07598

  • TT-Sparse:微分可能な真理値表を用いたスパースなルールモデルの学習 [cs.IR, cs.LG]目的:スパースなルールモデルの学習
    • 説明責任,透明性,信頼性が求められる分野で,解釈可能な機械学習が不可欠である。
    • 高い予測性能と,人間が理解できる低複雑度を両立するルールセットの学習が困難である。
    • 微分可能な真理値表を利用し,効率的なスパースな特徴選択を実現し,解釈可能なルールを学習すること。
    • 提案手法TT-Sparseは,微分可能な真理値表をノードとして活用することで,スパースで効果的な接続を学習する。
    • 新たなソフトTopK演算子により,離散的でカーディナリティ制約のある特徴選択をエンドツーエンドで学習可能にした。
    • 実験結果から,学習されたスパースルールは,既存手法と比較して優れた予測性能と低い複雑度を示すことがわかった。

    Link: https://arxiv.org/abs/2603.07606

  • MAS-H2:全体的なクラウドネイティブ自動スケーリングのための階層型マルチエージェントシステム [cs.DC, cs.LG]目的:クラウドネイティブ環境における自動スケーリングの最適化
    • クラウドネイティブ環境は,アジャイルな開発と迅速なデプロイを可能にする重要な基盤技術である。
    • 従来の自動スケーリングは,ビジネス戦略とリソースプロビジョニングの乖離により,資源の無駄や性能劣化を引き起こす。
    • 本研究は,ビジネス戦略に基づいたプロアクティブなスケーリング計画を実現し,資源効率と性能を向上させることを目指す。
    • Heartbeatワークロードにおいて,MAS-H2はアプリケーションのCPU使用率を40%以下に維持し,ネイティブHPAと比較して持続的なCPU負荷を50%以上削減した。
    • Chaotic Flash Saleシナリオでは,MAS-H2はノイズを除去し,より多くのレプリカをデプロイすることでピーク時のCPU負荷を55%削減し,リソース不足を回避した。
    • MAS-H2は,ダウンタイムなしで,コストと性能が最適化された2つのインフラストラクチャ間で戦略的な移行をシームレスに実行した。

    Link: https://arxiv.org/abs/2603.07607

  • 拡散基礎モデルによる暗黙的な視覚表現:圧縮を適応として [cs.LG, cs.CV]目的:拡散基礎モデルを用いた視覚情報の暗黙的な表現方法
    • 近年,視覚生成モデルの発展により,大量の視覚知識が利用可能になった。
    • 既存の視覚表現はモデル外部にあり,学習済み知識の活用が限定的である。
    • 生成過程を関数として捉え,視覚情報の圧縮と生成を統合する枠組みを提案する。
    • 拡散基礎モデルに低ランク適応を付加し,信号を関数として暗黙的に表現する。
    • この表現はコンパクトなベクトルにハッシュ化され,極めて低いビットレートで優れた知覚的ビデオ圧縮を実現する。
    • 表現の関数的性質により,推論時のスケーリングや制御が可能となり,圧縮性能の微調整が容易である。

    Link: https://arxiv.org/abs/2603.07615

  • SMAT:協調適応型外骨格制御のための段階的マルチエージェント学習 [cs.RO, cs.AI, cs.LG]目的:協調適応型外骨格制御のための学習方法
    • 外骨格アシストは,リハビリテーションや運動機能拡張に不可欠であり,その有効性が求められている。
    • 既存の学習手法では,人間の運動適応の順序性を考慮せず,学習の不安定性やタイミングのずれが生じやすい。
    • 人間の自然な適応過程を模倣した学習方法を開発し,外骨格の制御性能と安定性を向上させる。
    • 提案手法SMATは,シミュレーション環境において,非アシスト時と比較して股関節筋の活動量を平均10.1%削減することを示した。
    • オフライン検証ではオープンソースの歩行データを用いて有効性を確認し,実際に装着型外骨格を用いた実験で5人の被験者に対して一貫したアシスト効果が得られた。
    • 結果として,明示的なタイミング調整なしに,正の機械的パワーを安定して供給することが示された(平均正のパワー:6 Nm RMSトルクで13.6 W,9.3 Nm RMSトルクで23.8 W)。

    Link: https://arxiv.org/abs/2603.07618

  • シリコンフォトニクスを用いた生成AIアプリケーション向け拡散モデルの高速化 [cs.AR, cs.LG]目的:拡散モデルの高速化
    • 生成AIの発展は目覚ましく,高品質なデータ生成が求められている。
    • 拡散モデルは計算負荷が高く,エネルギー消費が課題となっている。
    • 持続可能な高速化を実現するため,新たなハードウェアアーキテクチャが必要である。
    • 本研究では,シリコンフォトニクスに基づく拡散モデルアクセラレータを提案した。
    • 実験評価により,提案手法は既存アクセラレータと比較して,少なくとも3倍のエネルギー効率と5.5倍のスループット向上を達成した。

    Link: https://arxiv.org/abs/2603.07626

  • シミュレーションにおける生物学的関節モーメントの低減を目指した外骨格制御 [cs.HC, cs.RO, cs.LG]目的:外骨格支援方針の学習と,オープンソース歩行データセットを用いた検証
    • バイオメカニクス推定や外骨格制御において,実験室ベースの手法に代わる効率的な手法が求められている。
    • シミュレーションで訓練された外骨格トルク予測器の定量的な検証が十分ではない。
    • シミュレーション訓練された外骨格制御器の妥当性を検証し,課題を明確化すること。
    • シミュレーション訓練された多層パーセプトロン(MLP)コントローラが,水平歩行と傾斜歩行において生物学的関節モーメントの減少を実現した。
    • 予測された支援トルクは,速度や傾斜にかかわらず,タスク強度を維持する傾向を示し,特に股関節において高い相関関係(最大0.98)が得られた。
    • 速度や傾斜が大きくなるほど,特に膝関節においてずれが生じ,関節パワーの比較では顕著であった。遅延調整がパワー注入に影響することが示された。

    Link: https://arxiv.org/abs/2603.07629

  • ヘリックス:オープンエンドな科学的問題解決のための進化型強化学習 [cs.LG]目的:オープンエンドな科学的問題解決のための強化学習フレームワーク
    • 科学的発見は,人類の進歩に不可欠であり,その効率化は重要である。
    • 既存の手法では,探索効率が低く,汎化性能が十分でない場合がある。
    • 多様な探索と反復的な改善を通して,より高度な解を発見すること。
    • ヘリックスは,文脈内学習と強化学習を組み合わせることで,効率的な探索と解の質の向上を実現した。
    • 円充填問題において,14Bモデルのみを用いて,最先端の結果(半径の合計2.63598308)を達成した。
    • 標準的な機械学習ベンチマークでは,GPT-4oを上回り,AdultおよびBank Marketingデータセットで平均F1スコアを5.95ポイント改善した。

    Link: https://arxiv.org/abs/2603.07642

  • 空港物流における手荷物トロリー検出のための合成データ評価 [cs.RO, cs.CV, cs.AI, cs.LG]目的:空港における手荷物トロリー検出のための合成データ利用可能性の評価
    • 空港運営における効率化が求められており,手荷物トロリーの適切な管理はその重要な要素である。
    • セキュリティ上の制約やプライバシー保護の観点から,十分な量の学習データ収集が困難である。
    • 現実的なトロリー配置に対応できる高品質な学習データを効率的に生成し,検出精度向上を目指す。
    • 合成データと実データ40%の混合学習により,実データのみでの学習と同等以上の精度(mAP@50:0.94, mAP@50-95:0.77)を達成した。
    • アノテーション作業量を25~35%削減できることが示され,合成データの有効性が確認された。
    • 複数回の実験により再現性が高く,mAP@50の標準偏差が0.01以下で安定した結果が得られた。

    Link: https://arxiv.org/abs/2603.07645

  • AtomicVLA:ロボットにおけるアトミックスキル学習の可能性を解き放つ [cs.RO, cs.RO, cs.AI, cs.CV]目的:ロボットにおけるアトミックスキル学習の可能性
    • ロボット工学の発展には,複雑なタスクを自律的に実行できる能力が不可欠である。
    • 既存のVLAモデルは,スケーラビリティに課題があり,長期的かつ継続的なスキル獲得が困難である。
    • アトミックスキル抽象化と動的エキスパート構成により,長期的かつ生涯にわたるロボットタスクを解決する。
    • AtomicVLAは,LIBEROおよびLIBERO-LONGにおいて,既存モデルπ₀をそれぞれ2.4%,10%上回る性能を示した。
    • CALVINにおける平均タスク長では,π₀およびπ₀.5をそれぞれ0.22,0.25上回る結果が得られた。
    • 実環境の長期的タスクと継続学習においても,AtomicVLAはベースラインをそれぞれ18.3%,21%上回る性能を達成した。

    Link: https://arxiv.org/abs/2603.07648

  • 機械学習の時代における偏微分方程式:古典的,機械学習,およびハイブリッド手法の批判的統合 [cs.LG, math.AP]目的:偏微分方程式の解法に関する古典的手法,機械学習手法,およびそれらのハイブリッド手法の評価
    • 科学技術のあらゆる分野において,物理現象を記述する偏微分方程式は不可欠である。
    • 高次元や複雑な形状における解法が困難であり,計算コストが大きいという課題が存在する。
    • 古典的手法と機械学習手法の相補性を明らかにし,ハイブリッド手法の設計指針を提示する。
    • 古典的手法は構造保存性や厳密な収束性を持つが,高次元問題や複雑形状問題には限界がある。
    • 機械学習手法は,物理知識の組み込み度合いによって分類され,古典的手法と同様の評価基準で検証される。
    • ハイブリッド手法における構造継承問題への取り組みや,誤差項の分解など,新たな設計原則が提案されている。

    Link: https://arxiv.org/abs/2603.07655

  • Ref-DGS:反射双ガウススプラッティング [cs.RO, cs.CV, cs.AI, cs.GR]目的:反射性のあるシーンにおける表面再構成と新規視点合成の精度向上
    • 現実世界の物体は反射性を持つため,その正確な再現は重要である。
    • 既存手法では,近距離の強い反射をモデル化するのが困難であった。
    • 効率的なラスタライズパイプラインで反射を捉え,計算コストを削減すること。
    • Ref-DGSは,ジオメトリガウスと局所反射ガウスの二重表現を用いることで,明瞭な反射を効率的に捉える。
    • グローバルな環境反射場と軽量な混合シェーダにより,遠距離・近距離の反射を統合的にモデル化する。
    • 実験により,既存のレイトレーシングベースの手法よりも高速に,反射性のあるシーンで高い性能を達成することが示された。

    Link: https://arxiv.org/abs/2603.07664

  • 自律型LLMエージェントのメモリ:メカニズム,評価,そして新たなフロンティア [cs.AI]目的:LLMベースのエージェントにおけるメモリの設計,実装,評価に関する体系的な概観
    • LLMエージェントは複雑なタスク遂行において不可欠であり,その性能向上にはメモリの重要性が増している。
    • 単一のコンテキストウィンドウでは,過去の情報や学習内容を全て保持することは困難であるという課題がある。
    • エージェントが適応的に行動するために必要なメモリの仕組みを明確にし,その評価方法を提示すること。
    • メモリは,LLMを単なるテキスト生成器から, genuinely adaptive なエージェントへと変える重要な要素である。
    • メモリの設計は,「書き込み-管理-読み込み」のループとして捉えられ,時間的範囲,表現基盤,制御ポリシーの3次元タクソノミーが提案されている。
    • 現在のシステムには,記憶の維持,矛盾の処理,遅延,プライバシーなどの課題が残されており,今後の研究の方向性も示されている。

    Link: https://arxiv.org/abs/2603.07670

  • 代理損失を超えて:評価指標間の関係性の定量分析 [cs.LG]目的:評価指標間の関係性の定量化
    • 機械学習モデルの性能評価は重要であり,適切な指標選択が不可欠である。
    • 異なる評価指標間の直接的な関係性が未解明であり,実用上の課題となっている。
    • オフライン評価とオンライン性能の乖離を解消する評価システムの設計を目指す。
    • 本研究では,評価指標を分類し,ベイズ最適集合と後悔転送を用いて関係性を分析する。
    • 後悔転送における構造的不対称性を明らかにし,理論的に保証された評価システムの設計を可能にする。
    • オフラインでの改善がオンライン目標に一致する評価システムの構築に貢献する。

    Link: https://arxiv.org/abs/2603.07671

  • 近傍多源位置特定のための進化フレームワーク入門 [cs.RO, cs.NE, eess.SP]目的:近傍多源位置特定のためのモデル駆動型進化フレームワーク
    • 音源位置特定は,ロボット工学や音響センシングなど多くの分野で重要である。
    • 従来のグリッドベース手法や深層学習アプローチは,データ依存性や制約などの課題を抱えている。
    • 本研究は,ラベル不要で任意の配列形状に対応可能な,柔軟な位置特定手法を提案する。
    • 提案手法は,連続球波信号モデル上で直接動作し,残差最小二乗法と空間分離制約を用いて位置を推定する。
    • 大規模な出力差がある場合でもロバストな性能を発揮する,別の進化フレームワークも提案する。
    • 数値実験により,提案手法の有効性が様々なシステム構成下で確認された。

    Link: https://arxiv.org/abs/2603.07676

  • 機械学習とデータに基づいたマイクロアーキテクチャ技術によるメモリボトルネックの緩和 [cs.AR, cs.DC, cs.LG, cs.OS]目的:メモリボトルネックの緩和
    • 現代の計算システムにおいて,メモリは性能とエネルギー効率の主要な制約要因となっている。
    • データ量増加の速度が技術の進歩を上回り,既存の手法では十分な効果が得られていない。
    • 実行時のデータとシステム情報を活用し,データに基づいたマイクロアーキテクチャ設計を実現する。
    • 提案手法は,従来の最先端手法と比較して,性能とエネルギー効率を大幅に向上させる。
    • 軽量な機械学習技術と,これまで十分に活用されていなかったデータ特性を活用している点が特徴である。
    • ハードウェアprefetcher,メモリリクエスト識別predictor,prefetch/prediction協調機構,命令削除機構を提案した。

    Link: https://arxiv.org/abs/2603.07683

  • Megatron Core を用いた Mixture-of-Experts モデルのスケーラブルな学習 [cs.DC, cs.CL, cs.LG]目的:Mixture-of-Experts モデルの学習におけるシステム課題の解決
    • 近年,パラメータ数を大幅に増加させる Mixture-of-Experts モデルが注目されている。
    • MoE モデルの学習では,メモリ,通信,計算資源の制約が複雑に絡み合い,最適化が困難である。
    • 本研究では,システム全体の設計を最適化することで,MoE モデルのスケーラブルな学習を実現する。
    • メモリ,通信,計算に関する統合的な最適化手法を開発し,学習効率を向上させた。
    • NVIDIA GB300 および GB200 上で,DeepSeek-V3-685B と Qwen3-235B の学習において,それぞれ 1,233/1,048 TFLOPS/GPU,974/919 TFLOPS/GPU を達成した。
    • 開発したフレームワークは,学術研究および産業界で広く利用されており,大規模な MoE モデルの学習に貢献している。

    Link: https://arxiv.org/abs/2603.07685

  • 圧縮領域を考慮したオンラインビデオ超解像 [cs.CV, cs.AI]目的:オンラインビデオ超解像における品質と効率のバランス
    • 帯域幅制限下でのオンライン動画配信は,実用上重要であり,高画質化技術の需要が高い。
    • 既存のオンラインVSR手法は計算コストが高く,高解像度でのリアルタイム処理が困難である。
    • 圧縮領域情報を活用し,効率的な動き推定と処理を行うことで,リアルタイム性を実現する。
    • 提案手法CDA-VSRは,既存最先端手法TMPと比較して,最大0.13dBのPSNR改善を達成した。
    • CDA-VSRは,TMPよりも2倍以上の推論速度を実現し,効率性の向上を示した。
    • 動きベクトルを活用した変形アライメントモジュールにより,高精度かつ低計算量な処理を実現した。

    Link: https://arxiv.org/abs/2603.07694

  • ニューラルネットワークに基づく制約付きマルコフ決定過程のグローバル収束性 [cs.LG]目的:制約付きマルコフ決定過程における報酬の平均収束
    • 強化学習は,ロボット制御やゲームなど,幅広い分野で応用されており,その理論的基盤の確立が重要である。
    • 既存の研究は,単純な方策や線形近似に依存しており,高次元で連続的な制御問題への適用が困難である。
    • 本研究は,一般的な方策と多層ニューラルネットワークを用いる制約付きマルコフ決定過程における収束性を保証することを目的とする。
    • 提案手法は,ニューラルネットワークによる価値関数近似と自然方策勾配法を組み合わせることで,関数近似誤差を制御する。
    • マルコフサンプリング下で,混合時間オラクルなしに,ニューラル正接核理論を活用することで実現した。
    • 方策と価値関数のクラスに起因する近似誤差を考慮し,$\tilde{\mathcal{O}}(T^-1/4)$の累積制約違反率のグローバル収束性を証明した。

    Link: https://arxiv.org/abs/2603.07698

  • TDM-R1:微分不可能な報酬による少ステップ拡散モデルの強化 [cs.RO, cs.CV, cs.AI]目的:少ステップ拡散モデルにおける,微分不可能な報酬を用いた性能向上
    • 画像生成AIは進化を続けており,その効率化が重要課題である。
    • 既存の強化学習は微分可能な報酬に依存し,実世界の多様な報酬に対応できない。
    • 微分不可能な報酬も活用し,少ステップモデルの性能を向上させることを目指す。
    • TDM-R1は,少ステップモデルに強化学習を適用する新たな手法を提供する。
    • 提案手法は,テキストレンダリング,画質,好みの整合性において最先端の性能を達成した。
    • TDM-R1は,Z-Imageモデルにおいても有効であり,少ない計算量で優れた結果を得る。

    Link: https://arxiv.org/abs/2603.07700

  • 貪欲型スパース学習におけるステップサイズ減衰と構造的停滞 [cs.LG, cs.NA, math.NA]目的:貪欲型スパース学習におけるステップサイズ減衰と構造的停滞のメカニズム
    • スパース近似は,高次元データ処理において重要な役割を果たすため,その効率的な学習アルゴリズムの開発が求められている。
    • ステップサイズの減衰が速すぎると,アルゴリズムが局所解に陥り,学習が停滞する可能性がある。
    • 本研究は,構造的停滞が起こる条件を明確にし,適切なステップサイズ設計の指針を示すことを目指す。
    • ステップサイズが速く減衰する場合,一般のヒルベルト空間において収束しないことが示された。
    • 特徴量のコヒーレンスが低い低次元のスパース設定でも,過剰な減衰により構造的停滞が発生することが理論的に証明された。
    • 数値実験により,理論的予測が検証され,特徴量のコヒーレンスがステップサイズ設計に重要な役割を果たすことが示唆された。

    Link: https://arxiv.org/abs/2603.07703

  • 微分可能平衡ブロックを用いた深層インセンティブ設計 [cs.GT, cs.LG]目的:望ましい均衡結果をもたらすマルチエージェント間の相互作用の自動設計
    • 経済学や計算機科学において,インセンティブ設計は資源配分の効率化や協調行動の促進に不可欠である。
    • 均衡の計算困難性,非一意性,不安定性により,望ましい均衡を達成することが難しい場合がある。
    • 微分可能平衡ブロックを用いて,様々なインセンティブ設計問題を統一的に解決することを目指す。
    • 本研究では,ゲームに依存しない微分可能平衡ブロック(DEB)を導入し,深層インセンティブ設計(DID)と呼ばれる新しいフレームワークを提案した。
    • 契約設計,機械スケジューリング,逆均衡問題という3つの異なるタスクにおいて,単一のニューラルネットワークで問題インスタンスの分布全体を解決可能であることを示した。
    • 提案手法は,プレイヤーごとの行動数が2から16まで変化する様々な規模のゲームに対応できる。

    Link: https://arxiv.org/abs/2603.07705

  • VoiceSHIELD-Small: リアルタイムでの悪意のある音声の検知と文字起こし [cs.SD, cs.AI]目的:悪意のある音声の検知と文字起こし
    • 音声インターフェースの普及に伴い,セキュリティリスクへの対策が急務となっている。
    • 従来の音声セキュリティは,文字起こしに時間を要し,音声の重要な手がかりを見落とす可能性がある。
    • リアルタイムで音声の安全性評価と文字起こしを同時に行うことで,遅延と見落としを解消する。
    • VoiceSHIELD-Smallは,OpenAIのWhisper-smallを基盤とし,リアルタイム処理を実現している。
    • 947個の音声データセットで99.16%の精度と0.9865のF1スコアを達成した。
    • 悪意のある入力の検出漏れ率は2.33%であり,クロスバリデーションでも安定した性能を示している。

    Link: https://arxiv.org/abs/2603.07708

  • YAQIN:イギリス在住イスラム女性のメンタルヘルスケア支援のための,文化に配慮した主体的なAI [cs.HC, cs.AI]目的:イギリス在住イスラム女性のメンタルヘルスケアにおける,文化と信仰に配慮したエンゲージメントを支援するAIアプリケーションYAQINの設計と評価
    • メンタルヘルスケアは重要である。特に,文化的背景が異なる人々への対応は不可欠であり,そのニーズに応えることが課題である。
    • イギリスのメンタルヘルスケアサービスは,イスラム女性の文化的ニーズに対応するツールやリソースが不足しており,信頼関係構築が困難である。
    • YAQINは,イスラムの価値観に基づいたメンタルヘルスケアを提供することで,既存のサービスにおける文化的ギャップを埋めることを目指す。
    • YAQINは,ユーザー中心設計とイスラム心理学に基づき,信仰を意識したチャットボットとガイド付きジャーナリングツールを提供することで,匿名性と継続的なサポートを実現する。
    • ユーザー研究の結果,YAQINは信頼関係と治療への自信を高める上で有効であることが示唆された。言語の多様性やルーチンガイダンスの追加も提案された。
    • 本研究は,文化に配慮したAIが,疎外されたコミュニティのメンタルヘルスケアへのアクセスと信頼性を向上させる可能性を示している。

    Link: https://arxiv.org/abs/2603.07709

  • 逆蒸留:タンパク質言語モデル表現の一貫したスケール拡大 [cs.LG, q-bio.BM]目的:タンパク質言語モデル表現のスケール拡大手法
    • タンパク質構造予測や機能解析において,タンパク質言語モデルの性能向上が重要である。
    • 従来のタンパク質言語モデルは,モデルサイズを拡大しても性能が頭打ちになる,あるいは低下することがある。
    • より大規模なモデルでも一貫して性能向上を可能とする新しい手法の開発。
    • 逆蒸留により,大規模モデルの表現をより小規模なモデルの表現に組み込むことで,整合性の高い構造を実現した。
    • その結果,逆蒸留を適用したモデルは,同じ次元数で基盤モデルを上回る性能を示した。
    • 特に,150億パラメータのESM-2モデルにおいて,最高性能を達成した。

    Link: https://arxiv.org/abs/2603.07710

  • LLMバンディットにおける剛性:人間とAIの協調への示唆 [cs.AI, cs.GT, cs.HC]目的:LLMの頑健な意思決定バイアスの検証
    • AIとの協調が重要となる中で,AIの意思決定特性を理解することは不可欠である。
    • LLMは学習過程においてバイアスを生じやすく,その影響は予測が困難である。
    • LLMの意思決定におけるバイアスを定量化し,そのメカニズムを解明すること。
    • LLMは,対称報酬下で位置的な順序を頑固に優先する傾向を示した。
    • 非対称報酬下では,剛直に報酬を追求したが,最適解を下回る性能にとどまり,再検証は稀であった。
    • 階層的Rescorla-Wagner-softmaxモデルの結果,学習率の低さと高い逆温度がバイアスの増幅と硬直的な行動を説明した。

    Link: https://arxiv.org/abs/2603.07717

  • ブランドオークション広告のための軽量MPC入札フレームワーク [cs.GT, cs.LG, cs.SY, eess.SY]目的:ブランドオークション広告における入札戦略
    • ブランド広告は消費者認知度とロイヤリティ向上に不可欠であり,広告主にとって重要な施策である。
    • リアルタイム入札は研究されているが,ブランド広告特有の特性を活かしたアルゴリズムは少ない。
    • ブランド広告の安定したエンゲージメントと迅速なフィードバックを活用し,効率的な入札を可能とする。
    • 本フレームワークは,オンライン等方回帰を用いて入札と費用,入札とコンバージョン間の単調モデルを構築する。
    • 複雑な機械学習モデルを必要とせず,低コストで実用的なリアルタイム入札を実現する。
    • シミュレーション結果から,費用対効果とコスト管理において既存手法を上回る効果が確認された。

    Link: https://arxiv.org/abs/2603.07721

  • 大規模言語モデルにおける多段階構造モデリングの幻覚を低減する新しいマルチエージェントアーキテクチャ [cs.HC, cs.AI]目的:大規模言語モデルの幻覚低減と構造モデリングの自動化
    • 構造物の安全性評価において,高性能な構造モデルの構築は不可欠である。
    • 大規模言語モデルは構造モデリングに活用されつつあるが,長大な処理過程で誤りが蓄積しやすい。
    • 本研究は,マルチエージェントアーキテクチャを通じて,構造モデリングの精度と効率を向上させることを目指す。
    • 提案アーキテクチャは,20件のフレーム問題において,18件で100%の精度,残りの2件で90%の精度を達成した。
    • 計算効率の向上と大規模構造システムへの拡張性も実証された。
    • 問題分析・計画策定エージェントがユーザー記述からパラメータを抽出し,段階的なモデリング計画を策定する。

    Link: https://arxiv.org/abs/2603.07728

  • 離散最適化問題に対する大規模言語モデル:評価と段階的推論 [cs.AI, cs.CL, math.OC]目的:離散最適化問題の解決における大規模言語モデルの能力評価
    • 組み合わせ最適化は,現実世界の多くの問題を解決するための基盤技術である。
    • 大規模なパラメータを持つ問題に対するLLMの性能評価が不足している。
    • LLMを用いた離散最適化問題の自動解決能力向上に資する知見を提供する。
    • 大規模言語モデルの性能は,一般的にモデルの規模に比例して向上する。
    • CoT(Chain-of-Thought)法は,必ずしも性能向上に繋がらず,問題設定に依存する。
    • データセットの質がLLMの性能に影響を与え,構造化されていないデータでも単純な問題では有効である。

    Link: https://arxiv.org/abs/2603.07733

  • 隠れ場所と発見:連合グラフ学習に対する分散型敵対的攻撃 [cs.LG, cs.AI]目的:連合グラフ学習への敵対的攻撃手法の開発
    • グラフ構造データは,様々な分野で活用が広がっているため,その安全性確保が重要である。
    • 既存の攻撃手法は,成功率が低く,計算コストが高く,防御アルゴリズムに容易に対処されてしまう。
    • 攻撃のステルス性と堅牢性を高め,効率的な攻撃手法を確立すること。
    • 提案手法FedShiftは,2段階の「隠蔽と発見」アプローチにより,高い攻撃成功率を達成した。
    • FedShiftは,主要な3つの堅牢な連合学習防御アルゴリズムを回避し,計算コストを90%以上削減した。
    • 大規模データセットを用いた実験により,既存の高度な攻撃手法と比較して,優れた有効性が確認された。

    Link: https://arxiv.org/abs/2603.07743

  • 不確実性ゲート付き生成モデリング [cs.LG]目的:金融時系列予測におけるリスク管理
    • 金融市場の予測は重要であり,些細なミスが大きな損失に繋がる可能性がある。
    • 従来のモデルは,市場の変化やショックに対して過信し,予測精度が低下しやすい。
    • 不確実性を考慮したモデルを構築し,予測の信頼性を向上させることを目指す。
    • 提案手法であるUGGMは,不確実性を内部制御信号として活用し,表現,伝播,生成の各段階を制御する。
    • NYISOのデータを用いた実験で,平均二乗誤差を63.5%削減し,ショック区間におけるロバスト性も向上した。
    • 不確実性に基づいた正則化とキャリブレーションにより,モデルの誤った自信を抑制することに成功した。

    Link: https://arxiv.org/abs/2603.07753

  • DECADE: Rb-82動的心臓PET画像ノイズ軽減のための時間的に一貫性のある教師なし拡散モデル [cs.CV, cs.AI]目的:Rb-82動的心臓PET画像のノイズ軽減
    • 心臓血管疾患の臨床診断においてRb-82動的PET画像は重要だが,短半減期によりノイズが多い。
    • 既存の深層学習ノイズ軽減法は,ペアデータ不足やトレーサー動態,フレーム依存性ノイズ変動により限界がある。
    • 本研究は,ペアデータなしでRb-82動的心臓PET画像のノイズを効果的に軽減することを目的とする。
    • DECADEは,早期から後期までの動的フレームに一般化する教師なし拡散フレームワークである。
    • DECADEは,ノイズが多いフレームをガイダンスとして活用し,定量的な精度を維持した高品質な動的・パラメトリック画像を実現した。
    • DECADEは,UNetベースや他の拡散モデルと比較して,画像品質とK1/MBF定量化において優れた性能を示した。

    Link: https://arxiv.org/abs/2603.07759

  • GPUとLLMの利用は非線形実数算術問題において有用である [cs.LG]目的:非線形実数算術問題の効率的な解法
    • 実数算術問題は,自動検証や最適化など,様々な分野で基礎となる重要な問題である。
    • 非線形実数算術問題は計算困難であり,既存手法では解決に時間がかかる場合が多い。
    • GPUとLLMを活用することで,既存手法よりも高速かつ効率的に問題を解くことを目指す。
    • GANRAは,既存の最先端手法と比較して,2つのNRAベンチマークにおいて大幅な改善を実証した。
    • 特にSturm-MBOベンチマークでは,より多くのインスタンスを,以前の最先端手法の1/20以下の時間で充足可能であることを証明できた。
    • この結果は,GPUとLLMの組み合わせが非線形実数算術問題の解決に有効であることを示唆する。

    Link: https://arxiv.org/abs/2603.07764

  • SemEval-2026タスク3におけるQuadAI:ハイブリッドRoBERTaとLLMのアンサンブル学習による次元アスペクトベース感情分析 [cs.CL, cs.AI]目的:次元アスペクトベース感情分析におけるシステム
    • 感情分析は,顧客の意見や市場動向を把握する上で不可欠である。
    • 従来の感情分析は,感情の微妙なニュアンスや多次元性を捉えるのが困難である。
    • 感情の連続的な側面と離散的な側面を統合し,より正確な感情予測を実現する。
    • ハイブリッドRoBERTaエンコーダは,回帰と離散化された分類ヘッドを組み合わせることで,予測の安定性を向上させる。
    • LLMとの予測レベルアンサンブル学習により,個々のモデルよりもパフォーマンスが大幅に向上し,RMSEが大幅に減少し,相関スコアが向上した。
    • エンコーダベースのアプローチとLLMベースのアプローチは,次元感情分析において互いに補完的な強みを持つことが示された。

    Link: https://arxiv.org/abs/2603.07766

  • コーディングモデルにおける学習のボトルネック解消:効果的かつ安定な強化学習 [cs.LG, cs.CL, cs.GL]目的:コーディングモデルの性能向上
    • 近年のコード生成モデルの進化により,従来手法では性能向上が困難になっている。
    • 長文出力や多様性確保が課題であり,学習の安定性も重要である。
    • ボトルネックを解消し,より効果的かつ安定な学習を実現すること。
    • 提案手法MicroCoder-GRPOは,LiveCodeBench v6において強力なベースラインに対し,最大17.6%の相対的な性能向上を達成した。
    • MicroCoder-Datasetは,既存のデータセットと比較して3倍の性能向上を実現し,MicroCoder-Evaluatorは評価精度と速度を向上させた。
    • 34の学習に関する洞察が得られ,適切な学習により大規模モデルと同等の性能が期待できることが示された。

    Link: https://arxiv.org/abs/2603.07777

  • スケーリング可能な難易度設定:強化学習によるコーディングモデルの性能向上 [cs.CL, cs.GL, cs.LG]目的:コーディングモデルの性能向上のためのデータセット構築
    • コード生成モデルは,次世代のソフトウェア開発において重要な役割を担う。
    • 既存のデータセットは,難易度の偏りや品質のばらつきといった課題を抱えている。
    • 難易度を考慮したデータキュレーションにより,モデルの性能向上を目指す。
    • MicroCoderデータセットは,既存のデータセットと比較して,3倍の性能向上を300ステップで達成した。
    • 特に,モデルの能力が求められる中~高難易度の問題で顕著な改善が見られた(最大17.2%の相対的な性能向上)。
    • 難易度を意識したデータキュレーションが,コーディングモデルの性能向上に有効であることが示された。

    Link: https://arxiv.org/abs/2603.07779

  • 進捗を意識した報酬による継続的強化学習エージェントProgAgent [eess.SY, cs.SY, math.OC, cs.LG, cs.AI]目的:継続的強化学習における進捗を意識した報酬学習と,高性能なJAXベースシステムアーキテクチャの統合
    • ロボットの生涯学習は,忘却や報酬設計の困難さを抱えるため,効率的な学習手法が求められている。
    • 従来の強化学習では,報酬の設計が難しく,また学習中に過去の知識を忘れてしまう問題が存在する。
    • 本研究は,専門家の行動から進捗を推定し,報酬を自動的に生成することで,これらの課題を解決することを目指す。
    • ProgAgentは,専門家のビデオデータを用いて,タスクの進捗を推定する知覚モデルを学習し,高密度な報酬を生成する。
    • 実験結果から,ProgAgentは忘却を大幅に軽減し,学習速度を向上させることが示された。
    • 実機ロボットによる実験でも,ProgAgentが複雑な操作スキルを効率的に学習できることが確認された。

    Link: https://arxiv.org/abs/2603.07784

  • 学習を止めることのないVision Transformer [cs.LG]目的:継続学習における可塑性の喪失機構の解明
    • 継続学習は,モデルが新しいタスクに適応する能力が不可欠であり,その課題の一つが可塑性の喪失である。
    • 従来の均質なニューラルネットワークでは研究が進んでいるが,Vision Transformerのような構造の異なるモデルでは可塑性喪失のメカニズムが不明である。
    • Vision Transformerにおける可塑性喪失の原因を特定し,その回復方法を模索することを目的とする。
    • Vision Transformerの注意層の不安定性と,フィードフォワード層の劣化が可塑性喪失を悪化させることを明らかにした。
    • パラメータの再初期化は効果がない一方,更新過程を制御する手法が有効であることが示された。
    • 提案手法ARROWは,オンラインの曲率推定を用いて勾配方向を適応的に再形成し,可塑性を改善し,新しいタスクにおける性能を維持する。

    Link: https://arxiv.org/abs/2603.07787

  • 大規模言語モデルにおける社会的な偏見の二重指標評価:ネパール文化の事例 [cs.CL, cs.AI, cs.CY]目的:大規模言語モデルにおける社会的な偏見の存在とその程度
    • グローバルなデジタル環境において,大規模言語モデルの影響力が増大しており,その公平性が重要視されている。
    • 大規模言語モデルが持つ社会・文化的偏見は,特に少数言語や文化的背景において十分に理解されていない。
    • ネパール文化における偏見の現状を分析し,より公平な言語モデルの開発に貢献することを目的とする。
    • 7つの最先端言語モデルにおいて,性別役割に関する偏見が確認され,ステレオタイプな記述への同意率は0.36〜0.43であった。
    • 言語モデルがステレオタイプな文を補完する傾向は高く,その率は0.740〜0.755に達し,温度パラメータによって非線形な関係が示された。
    • 明示的な偏見と暗黙の偏見は必ずしも相関せず,従来の偏見評価指標では生成される偏見を十分に捉えられないことが示唆された。

    Link: https://arxiv.org/abs/2603.07792

  • 人間の運動のための逆強化学習によるグローバルな意図推論に向けて [cs.RO, cs.RO, cs.RO, cs.LG]目的:人間のリーチ動作を説明・予測する単一の統合コスト関数
    • 人間の運動解釈は,ロボット制御やリハビリテーションなど,幅広い応用分野で重要である。
    • 既存研究では,被験者や姿勢に特化した最適化基準に依存しており,汎用性に課題があった。
    • 姿勢や被験者に依存しない,統一的な最適性原理の存在を示すことを目指す。
    • 最小観測逆強化学習(MO-IRL)アルゴリズムにより,時間変動するコスト重みを効率的に推定した。
    • 時間変動する重みを用いることで,軌道再構成の精度が大幅に向上し,RMSEが平均27%減少した。
    • 関節加速度の制御が支配的であり,トルク変化のスムーズさが補完的な役割を果たしていることが示唆された。

    Link: https://arxiv.org/abs/2603.07797

  • 複雑射影空間におけるニューラル事前符号化 [cs.RO, cs.CG, eess.SY, cs.SY, cs.LG]目的:多入力多出力システムにおけるニューラル事前符号化手法
    • 無線通信の容量拡大には,効率的な事前符号化が不可欠である。特に,多ユーザーMISOシステムでは重要性が高い。
    • 従来の事前符号化手法では,チャネルと符号化ベクトルの位相の冗長性を考慮せず,学習効率や汎化性能が制限される。
    • 複雑射影空間を用いることで,位相の冗長性を除去し,チャネルと符号化ベクトルの幾何学的な関係を学習することを目指す。
    • 複雑射影空間に基づくフレームワークは,従来の表現よりも優れた和レート性能と汎化性能を示すことがシミュレーションで確認された。
    • 提案手法は,モデルの複雑性をほとんど増加させることなく,パフォーマンスの大幅な向上を実現した。
    • 実数値埋め込みと複素超球面座標に基づく2種類の複雑射影空間パラメータ化が比較検討された。

    Link: https://arxiv.org/abs/2603.07811

  • ハイブリッドスティッチ:拡散モデル加速のためのピクセルレベルとタイムステップレベルのモデル結合 [cs.HC, cs.CY, cs.CV, cs.AI]目的:拡散モデルの高速化
    • 画像生成の分野において,拡散モデルは高性能だが計算コストが高いという課題がある。
    • 既存手法では一部タイムステップの計算を削減するのみで,タイムステップ内の計算負荷の差が無視されている。
    • 画像内の複雑さに応じてモデルを切り替えることで,計算効率を向上させる。
    • ハイブリッドスティッチは,Stable Diffusion 3において既存手法よりも高速な1.83倍の速度向上を達成した。
    • 生成画像を,容易にレンダリング可能な領域と,より複雑な領域に分離する。
    • 小規模モデルで粗いスケッチを作成し,大規模モデルで複雑な領域を編集・改良する。

    Link: https://arxiv.org/abs/2603.07815