arXiv雑要約

AI - 2026/03/18 公開

  • V-Co:コ・デノイジングによる視覚表現アラインメントの精査 [cs.CV, cs.AI]目的:視覚表現アラインメントの有効成分の特定
    • 画像生成技術の発展は,様々な応用分野において重要な役割を担っている。
    • ピクセル空間拡散モデルは,事前学習済みのオートエンコーダを必要としないが,十分なセマンティックな監督信号を得ることが課題である。
    • 既存のコ・デノイジング手法における設計選択の重要度を明確にし,効果的な手法を確立すること。
    • V-Coは,統一されたJiTベースのフレームワークを用いて,視覚的コ・デノイジングの有効成分を体系的に研究した。
    • その結果,特徴量固有の計算を維持しつつクロスストリーム間の柔軟な相互作用を可能にするデュアルストリームアーキテクチャが重要であることが示された。
    • ImageNet-256での実験により,V-Coは既存のピクセル空間拡散モデルや他の手法と比較して,より少ない学習エポックで優れた性能を発揮することが確認された。

    Link: https://arxiv.org/abs/2603.16792

  • プラグアンドプレイ拡散サンプリングに対する適応モーメントの驚くべき有効性 [cs.LG, cs.CV]目的:拡散サンプリングにおけるノイズ低減と精度向上
    • 拡散モデルは高品質なデータ生成を可能にするが,計算コストが高い。
    • 尤度スコアの近似に伴うノイズがサンプリングのダイナミクスを不安定にする。
    • 適応モーメント推定によるノイズ軽減で,サンプリング精度を向上させる。
    • 提案手法は画像修復とクラス条件付き生成タスクにおいて最先端の結果を達成した。
    • 複雑な手法と比較して計算コストが低く,高い性能を維持する。
    • 合成データと実データを用いた実験で,適応モーメントの有効性が確認された。

    Link: https://arxiv.org/abs/2603.16797

  • 実現可能な汚染下における高次元ガウス平均推定 [cs.LG, cs.DS, math.ST, stat.ML, stat.TH]目的:高次元ガウス分布の平均推定
    • データ解析において,データの分布を正確に把握することは重要である。
    • 欠損データは一般的な問題であり,欠損メカニズムによっては推定が困難になる。
    • 欠損メカニズムが特定可能な範囲で,効率的な推定手法を確立すること。
    • 実現可能な汚染モデルにおいて,情報理論的な限界と計算量のトレードオフが存在することが示された。
    • 統計的クエリモデルにおいて,サンプル数と計算時間の間にギャップがあることが証明された。
    • 提案されたアルゴリズムは,理論的な限界に近いサンプル・時間トレードオフを実現している。

    Link: https://arxiv.org/abs/2603.16798

  • 関係性を考慮した拡散非対称グラフ対照学習による推薦システム [cs.LG]目的:推薦システムにおける関係性を考慮した拡散非対称グラフ対照学習フレームワーク
    • 推薦システムの精度向上は,ユーザーエクスペリエンスの向上とビジネス価値の最大化に不可欠である。
    • 既存手法では,ランダムなエッジ擾乱が構造的信号を歪め,データの疎疎性が協調シグナルの伝播を阻害する。
    • ノイズの多い環境や疎なデータ下でも,よりロバストで汎化性能の高い推薦を実現すること。
    • RaDARは,グラフ生成モデルと関係性を考慮したノイズ除去モデルを組み合わせることで,効果的に構造を捉え,ノイズを抑制する。
    • 非対称対照学習と拡散ガイドされた拡張により,ノイズに対するロバスト性を向上させるとともに,セマンティックな整合性を維持する。
    • 3つの公開ベンチマークにおいて,RaDARは最先端の手法を凌駕し,特にノイズが多く,疎な条件下で優れた性能を発揮する。

    Link: https://arxiv.org/abs/2603.16800

  • DexGrasp-Zero:形態整合型ポリシーによるゼロショットクロスエンボディメント精密把持 [cs.RO, cs.AI]目的:多様なロボットハンドへのゼロショット汎化が可能な把持ポリシーの開発
    • ロボットハンドの多様性が増す中,異なるハードウェア間での把持能力の汎用性が重要になっている。
    • 既存手法では,中間運動ターゲットの再ターゲット処理が誤差を生じやすく,ロボット固有の制約に違反しやすい。
    • ロボットの形態差を考慮し,各ハンドの制約に適応した把持ポリシーを学習することで,汎化性能を高める。
    • 提案手法DexGrasp-Zeroは,4種類のロボットハンドで学習し,未知のハードウェアで85%の成功率を達成した。
    • 形態整合型グラフ表現と物理的特性の注入により,ロボット固有の制約を考慮した把持が可能になった。
    • 実機実験においても,3つのロボットプラットフォームで82%の平均成功率を示し,既存手法を大幅に上回った。

    Link: https://arxiv.org/abs/2603.16806

  • 文脈を考慮した行動木接地:ロボット操作のための [cs.RO, cs.AI]目的:ロボット操作のための完全かつ整合性のある行動木システムの自動構築
    • ロボット制御は,複雑なタスクを効率的に実行するために不可欠であり,その自動化が求められている。
    • 行動木の設計には専門知識が必要であり,行動木システムの接地は手作業で行われることが多い。
    • 行動木システムの自動的な接地を行い,専門知識や手作業を削減することを目指す。
    • CABTOは,事前学習済みの大規模言語モデルを活用して,行動モデルと制御ポリシーの探索を効率的に行う。
    • CABTOは,行動木プランナーからの文脈的フィードバックと環境観察に基づいて探索を誘導する。
    • 実験により,CABTOが3つのロボット操作シナリオで,完全かつ整合性のある行動木システムを生成できることが示された。

    Link: https://arxiv.org/abs/2603.16809

  • リプレイ駆動シミュレーションとエミュレーションによるODINベースのCPU-GPUアーキテクチャ [cs.DC, cs.AI, cs.AR]目的:CPU-GPUサブシステムの事前検証手法
    • AIやグラフィックス処理において,CPUとGPUの統合は不可欠であり,制御処理と大規模並列計算を組み合わせる。
    • チップレットベースアーキテクチャの複雑さから,CPU-GPUサブシステムの検証には,設定の難しさ,規模の大きさ,非決定的な実行などが課題。
    • チップレット境界における複雑なプロトコルインタラクションを解決し,検証サイクルを短縮すること。
    • 決定的な波形キャプチャとリプレイを活用することで,複雑なGPUワークロードやプロトコルシーケンスをシステムレベルで確実に再現できる。
    • この手法により,デバッグが加速し,統合に対する信頼性が向上し,シングルクォーターでのシステムブートとワークロード実行が可能になった。
    • リプレイベース検証は,チップレットベースシステム向けの拡張性のある検証手法として有効であることが示された。

    Link: https://arxiv.org/abs/2603.16812

  • 精度を超えて:多段階在庫コストによる予測モデルの評価 [cs.AI]目的:予測モデルの運用影響評価
    • サプライチェーンの最適化は,コスト削減と顧客満足度向上に不可欠である。
    • 従来の予測手法では,複雑なサプライチェーン全体の最適化が困難である。
    • データ駆動型アプローチによる,多段階在庫システムの最適化を目指す。
    • Temporal CNNおよびLSTMモデルは,統計的ベースラインと比較して,在庫コストを大幅に削減し,補充率を向上させた。
    • 感度分析および多段階分析により,これらのモデルのロバスト性とスケーラビリティが示された。
    • 本研究は,現代のサプライチェーンのためのデータ駆動型意思決定支援ツールを提供する。

    Link: https://arxiv.org/abs/2603.16815

  • RAGベースLLMにおける適合性的事実性の頑健性:新規指標と体系的な考察 [cs.AI, cs.CL, cs.LG]目的:RAGベースLLMにおける適合性的事実性の信頼性と有用性の分析
    • 大規模言語モデルの利用が進む中で,知識集約型アプリケーションにおける信頼性が重要視されている。
    • LLMは幻覚を起こしやすく,RAGは証拠に基づく応答を目指すものの,出力の正確性を保証するものではない。
    • 分布シフトやノイズに対する適合性的事実性の脆弱性を明らかにし,信頼性と有用性を両立する新たな手法の必要性を示す。
    • 適合性的事実性フィルタリングは高い事実性レベルにおいて,内容が空虚な出力を生成し,有用性が低いという問題が明らかになった。
    • 適合性的事実性の保証は,分布の変化や外乱に対して脆弱であり,校正データがデプロイ環境と一致する必要があることが示された。
    • 軽量な含意ベースの検証器が,LLMベースの信頼度スコアリング器と同等以上の性能を発揮しつつ,計算コストを大幅に削減できることが示された。

    Link: https://arxiv.org/abs/2603.16817

  • Surg$\Sigma$: 外科知能のための大規模マルチモーダルデータと基盤モデル [cs.PF, cs.AI]目的:外科知能のための大規模マルチモーダルデータと基盤モデルの提供
    • 外科医療の安全性と一貫性を向上させるために,AIの活用が不可欠である。
    • 既存の外科AIは特定のタスクに限定され,異なる手術や施設間での汎化が困難である。
    • 大規模かつ体系的に整備されたマルチモーダルデータの不足を解消し,外科AIの発展を促進する。
    • Surg$\Sigma$-DBは,多様な外科タスクを支援するための大規模マルチモーダルデータ基盤を提供する。
    • Surg$\Sigma$-DBは,異なるデータソースを統合し,ラベルの一貫性とデータ標準化を向上させる。
    • Surg$\Sigma$-DB上に構築された基盤モデルは,タスク間の汎化性能と解釈性を向上させる実証的な証拠を示した。

    Link: https://arxiv.org/abs/2603.16822

  • 脳制御リハビリテーション外骨格における運動開始・終了のリアルタイム解読 [cs.RO, cs.AI, cs.HC]目的:脳波を用いた運動開始と終了のリアルタイム解読
    • 神経損傷後のリハビリテーションにおいて,高頻度かつ課題特異的な訓練は重要である。
    • 既存のロボット支援療法は,神経回路を直接的に活性化できず,効果が限定的である。
    • 脳波による運動開始・終了の直接制御により,神経可塑性を促進するリハビリテーションを目指す。
    • 運動開始と終了の解読において,それぞれ61.5%,64.5%という高いヒット率が確認された。
    • 非対称マージン診断により,一般的な課題ベースのリセンタリングによる系統的なバイアスが明らかになった。
    • クラスに依存しない固定ベースのリセンタリング法が,分離可能性を大幅に向上させ,バイアスを軽減した。

    Link: https://arxiv.org/abs/2603.16825

  • 大規模言語モデルにおける文化バイアスと整合性のためのプロンプトプログラミング [cs.AI, cs.CL]目的:大規模言語モデルの文化バイアスと整合性向上
    • 文化は思考,価値観,優先順位,戦略的意思決定に影響を与える。LLM利用拡大に伴い,文化適合性が重要。
    • LLMはしばしば文化バイアスを示し,対象集団との価値観のずれが生じる。意思決定への影響が懸念される。
    • オープンウェイトLLMにおいても文化的なずれを軽減し,文化適合性を高めるためのプロンプト最適化手法を確立する。
    • 本研究では,文化バイアスの評価指標を再現し,オープンウェイトLLMでも同様の文化的な偏りと条件付けの効果が確認された。
    • プロンプトをモジュール化・最適化するDSPyを用いたプロンプトプログラミングにより,文化距離の最適化が可能となった。
    • プロンプトの最適化は,手動による文化プロンプトエンジニアリングを上回り,より安定した文化適合性をもたらすことが示された。

    Link: https://arxiv.org/abs/2603.16827

  • プレゼンテーションの作成:エージェントによるスライド生成のための逆指定報酬 [cs.AI]目的:エージェントによるプロフェッショナルなHTMLスライドプレゼンテーションの生成
    • 自動プレゼンテーション生成は,一貫性のあるコンテンツ,視覚的なデザイン,そして聴衆を意識したコミュニケーションが求められる重要な課題である。
    • 既存の手法では,生成されたスライドが意図した目的をどれだけ忠実に伝えているかを定量化することが難しい。
    • 生成されたスライドが元の仕様をどれだけ正確に反映しているかを評価する逆指定報酬を導入し,高品質なプレゼンテーション生成を目指す。
    • 本研究では,LLMエージェントがツールを活用し,トピックを調査,コンテンツを計画,そしてプロフェッショナルなスライドを生成する強化学習環境を提案した。
    • Qwen2.5-Coder-7BをGRPOを用いてファインチューニングした結果,Claude Opus 4.6の品質の91.2%を達成し,ベースモデルと比較して33.1%の改善が見られた。
    • モデルの性能は,パラメータ数よりも指示への追従性とツール使用の遵守度に大きく依存することが明らかになった。

    Link: https://arxiv.org/abs/2603.16839

  • 強化学習における方策収束を確率的リセットが加速する [eess.SY, cs.SY, math.PR, cs.LG, cond-mat.dis-nn, cond-mat.stat-mech, cs.SY, eess.SY, physics.bio-ph]目的:強化学習における方策収束の加速
    • 効率的な学習は,複雑なタスクを解決する上で不可欠であり,その重要性は増している。
    • 強化学習では,探索の困難さや報酬の希薄さが,学習の遅延を引き起こす課題となる。
    • 本研究は,確率的リセットを導入することで,上記の課題を克服し,学習を加速することを目的とする。
    • 確率的リセットは,古典的な初回通過最適化を超えた新たなメカニズムにより,方策の収束を加速することが示された。
    • 報酬が希薄で探索が困難な連続制御タスクにおいて,確率的リセットは深層強化学習の性能を向上させる。
    • 確率的リセットは,最適な方策を維持しながら,価値伝播を強化し,学習を加速する簡便で調整可能なメカニズムである。

    Link: https://arxiv.org/abs/2603.16842

  • 反省的経験からの主体性の内面化 [cs.AI]目的:反省的経験から主体性を学習するフレームワーク
    • 複雑な環境下での長期的な問題解決能力が求められる自律エージェントの重要性が増している。
    • 従来の強化学習手法では,成功率のみを最適化し,環境からの豊富なフィードバックを十分に活用できていない。
    • 環境からのフィードバックを基に,エージェントが自己修正能力を獲得し,問題解決能力を向上させることを目指す。
    • LEAFEは,環境からのフィードバックを要約し,過去の意思決定ポイントに戻って代替案を探索することで,主体性を学習する。
    • 実験の結果,LEAFEはベースモデルと比較してPass@1を向上させ,既存のベースライン手法よりも高いPass@kを達成した。
    • 特にPass@128において,最大14%の改善が見られた。

    Link: https://arxiv.org/abs/2603.16843

  • ビザンチン耐性のある連合学習のための動的メタ層集約 [cs.LG]目的:ビザンチン攻撃に対する連合学習の堅牢性向上
    • 連合学習は,プライバシー保護を実現しつつ,医療,金融,IoTなどの分野でモデルの共同学習を可能とする重要な技術である。
    • 連合学習は,悪意のある更新を注入するビザンチン攻撃に脆弱であり,グローバルモデルの性能を著しく損なう可能性がある。
    • 本研究は,特定の攻撃タイプに依存せず,未踏の攻撃シナリオでも堅牢性を維持できる防御機構を開発することを目的とする。
    • 提案手法FedAOTは,メタ学習に着想を得た適応集約フレームワークを用いて,多ラベル反転やノイズ・バックドアパターンの組み合わせに対する耐性を高める。
    • FedAOTは,クライアント更新の信頼性に基づいて動的に重みを調整し,事前に定義された閾値や攻撃の仮定に頼らず,敵対的な影響を抑制する。
    • 実験結果から,FedAOTはモデル精度と回復力を大幅に向上させ,計算効率を維持し,安全な連合学習のためのスケーラブルで実用的なソリューションとなることが示された。

    Link: https://arxiv.org/abs/2603.16846

  • スケーラブルなグラフニューラル演算のためのゲージ不変スペクトルTransformer [cs.CL, cs.LG]目的:グラフ構造データにおけるTransformerの位置エンコーディング適応
    • グラフ構造データ解析は,分子構造やソーシャルネットワークなど,様々な分野で重要である。
    • 従来のスペクトル法は計算コストが高く,ゲージ不変性を損なう可能性がある。
    • ゲージ不変性を保ちつつ,計算効率の良いTransformerアーキテクチャを開発すること。
    • GISTは,ランダム射影を用いることで,$\mathcal{O}(N)$の複雑度を達成し,エンドツーエンド学習を実現した。
    • GISTは,離散化不変学習を理論的に保証し,異なるメッシュ解像度間でのパラメータ転移を可能にした。
    • PPIベンチマークで最先端の結果を達成し,大規模なメッシュベースのニューラル演算ベンチマークにおいても高い性能を示した。

    Link: https://arxiv.org/abs/2603.16849

  • 最適化とダイナミクスを統合し,逐次計算を並列化する:逐次ボトルネックを解消するための並列ニュートン法ガイド [math.NA, cs.AI, cs.DC, cs.NA, math.DS, math.OC]目的:逐次計算の並列化手法
    • 大規模並列ハードウェアと長序列データの普及により,機械学習における並列アルゴリズムの重要性が増している。
    • 再帰型ニューラルネットワークやマルコフ連鎖モンテカルロ法のようなダイナミクス系は,逐次処理のボトルネックに悩まされていた。
    • 並列ニュートン法によるダイナミクス系の並列化における,非効率性,不安定性,収束性の問題を解決する。
    • 本研究では,準ニュートン法と信頼領域法に基づいた,スケーラブルで安定な並列ニュートン法を開発した。
    • ピカール反復やヤコビ反復を含む,多くの固定点法を並列ニュートン法フレームワークに統合することに成功した。
    • ダイナミクス系の最大リアプノフ指数が,並列ニュートン法の収束速度を決定する条件を明確化した。

    Link: https://arxiv.org/abs/2603.16850

  • インシデントを考慮した時空間変換器による長期的交通予測 [cs.CL, cs.LG]目的:長期的交通予測の精度向上
    • 交通予測は,交通システムの最適化や渋滞緩和に不可欠である。
    • 交通状況は確率的で,インシデントや時間帯による空間依存性の変化が予測精度を低下させる。
    • インシデント情報を組み込んだ動的なグラフ構造により,予測の不確実性を考慮する。
    • 提案手法は,ODOTの交通データと事故記録を用いて,複数時間先の交通予測を高い精度で実現した。
    • 時間帯ごとの変動を考慮した新しい隣接行列構築戦略が,予測精度向上に貢献した。
    • SUMOシミュレーションとモンテカルロ法を用いた検証により,予測区間の信頼性が確認された。

    Link: https://arxiv.org/abs/2603.16857

  • SOMA:パラメータ化された人体モデルの統合 [cs.CV, cs.AI]目的:異種の人体モデル間の互換性確保
    • 人体再構成,アニメーション,シミュレーションの基礎となる技術であり,その重要性は高い。
    • 各モデルのメッシュ構造やパラメータ化が異なり,連携が困難であるという課題がある。
    • 異なる人体モデルを統一的に扱うことで,それぞれの利点を活用しやすくすることを目指す。
    • SOMAは,3層の抽象化レイヤーを通じて異種表現をブリッジすることで,多様な人体モデルを統合する。
    • 本手法により,従来$O(M^2)$の複雑さであったモデル間のアダプター問題を$O(M)$に削減することに成功した。
    • 推論時に異なるモデルの識別情報とポーズデータを自由に組み合わせることが可能となる。

    Link: https://arxiv.org/abs/2603.16858

  • SocialOmni:全能モデルにおけるオーディオ・ビジュアルな社会的インタラクションのベンチマーク [cs.AI]目的:全能モデルにおける社会的インタラクティブ性の評価
    • 人間と機械の自然な対話実現に不可欠な要素であり,高度なコミュニケーション能力が求められる。
    • 既存の評価指標は静的なタスクに偏り,動的な対話における社会的インタラクションの評価が不十分である。
    • 社会的インタラクティブ性を定量的に評価し,全能モデルの改善に資する指標の提供を目指す。
    • SocialOmniは,話者分離・識別,割り込みタイミング制御,自然な割り込み生成の3側面から社会的インタラクションを評価する。
    • 12の主要な全能モデルを評価した結果,モデル間で社会的インタラクション能力に大きなばらつきが見られた。
    • 知覚的精度と適切な割り込み生成能力の間には乖離があり,理解度だけでは社会的コンピテンシーを評価できないことが示唆された。

    Link: https://arxiv.org/abs/2603.16859

  • SparkVSR:疎なキーフレーム伝播によるインタラクティブなビデオ超解像 [cs.RO, cs.RO, cs.CL, cs.CV, cs.AI]目的:ビデオ超解像における,ユーザーによる修正を可能にするインタラクティブなフレームワーク
    • ビデオの画質向上は,視聴体験の向上や様々な応用分野において重要である。
    • 既存のビデオ超解像手法では,生成されたアーティファクトの修正が難しく,柔軟性に欠ける。
    • ユーザーがキーフレームを通じてビデオ超解像を制御し,高品質な結果を得ることを目指す。
    • 提案手法SparkVSRは,疎なキーフレームを制御信号として利用することで,インタラクティブなビデオ超解像を実現した。
    • キーフレームの選択方法(手動指定,コーデックIフレーム抽出,ランダムサンプリング)が柔軟であり,参照キーフレームがなくてもロバストな性能を示す。
    • CLIP-IQA,DOVER,MUSIQなどのベンチマークで,既存手法を最大24.6%,21.8%,5.6%上回る性能を達成した。

    Link: https://arxiv.org/abs/2603.16864

  • ManiTwin: 10万件のデータ生成対応デジタルオブジェクトデータセットへの拡張 [cs.RO, cs.AI, cs.GR, cs.LG, cs.SE]目的:データ生成対応デジタルオブジェクトデータセットの構築
    • ロボットの操作能力向上にはシミュレーション学習が有効だが,大規模かつ多様なデジタルアセットが不足している。
    • シミュレーション学習に必要な,高品質な3Dアセットの準備がボトルネックとなっている。
    • 単一画像からシミュレーション可能な3Dアセットを自動生成し,データセットを大規模化することでこの課題を解決する。
    • ManiTwinは,単一画像からシミュレーション可能な3Dアセットを効率的に生成するパイプラインである。
    • ManiTwin-100Kは,10万件の高品質なアノテーション付き3Dアセットを含むデータセットである。
    • 実験により,ManiTwinが効率的なアセット合成・アノテーションワークフローを提供し,多様なアセットが操作データ生成などに有用であることが示された。

    Link: https://arxiv.org/abs/2603.16866

  • エッジにおける効率的な推論 [cs.LG, cs.CL]目的:エッジデバイス上での大規模言語モデルによる推論の効率化
    • 複雑な問題解決において,大規模言語モデルの性能は高いが,リソース制約のあるエッジ環境での利用が課題となっている。
    • 大規模言語モデルは推論過程で冗長なテキストを生成し,大量のメモリを消費するため,モバイルデバイスへの実装が困難である。
    • LoRAアダプターと強化学習を用いて,小規模言語モデルにおける推論を軽量化し,リソース制約下での効率的な推論を実現する。
    • LoRAアダプターと予算強制による強化学習により,応答長さを大幅に削減しつつ,高い精度を維持した。
    • 並列テスト時スケーリングを活用することで,メモリ制約下でのデコード精度を向上させ,遅延をわずかに増加させた。
    • 動的なアダプター切り替え機構とKVキャッシュ共有戦略により,初回トークンまでの時間を短縮し,エッジデバイス上での推論を高速化した。

    Link: https://arxiv.org/abs/2603.16867

  • MessyKitchens:接触情報を豊富に含むオブジェクトレベルの3Dシーン再構成 [cs.CV, cs.AI, cs.RO]目的:複雑なシーンにおけるオブジェクトレベルの3Dシーン再構成
    • ロボティクスやアニメーション等,物理シミュレーションの精度向上が求められている。
    • 多様な物体,頻繁な隠蔽,複雑な物体間の関係が,再構成の課題となっている。
    • 物理的に妥当な接触を考慮した,高精度なオブジェクトレベル再構成を目指す。
    • 新しいデータセットMessyKitchensを構築し,現実世界の散らかったキッチン環境を提供した。
    • SAM 3Dを拡張したMulti-Object Decoder(MOD)により,複数オブジェクトの再構成精度を向上させた。
    • MessyKitchensは既存データセットと比較して,登録精度と物体間の貫通の減少において優れた結果を示した。

    Link: https://arxiv.org/abs/2603.16868

  • ビデオ推論の解明 [cs.CV, cs.AI]目的:ビデオモデルにおける推論メカニズムの解明
    • 近年のビデオ生成技術の発展は目覚ましく,新たな知能の基盤として期待されている。
    • 既存研究では,ビデオモデルの推論はフレーム順に展開されると考えられていたが,そのメカニズムは不明確であった。
    • 本研究は,ビデオモデルにおける推論が拡散過程においてどのように生まれるかを明らかにすることを目的とする。
    • ビデオモデルの推論は,フレームの連鎖(CoF)ではなく,拡散ノイズ除去ステップの連鎖(CoS)によって主に生まれることが示された。
    • モデルは初期ステップで複数の候補解を探索し,徐々に一つの答えに収束する様子が確認された。
    • ワーキングメモリ,自己修正,知覚先行行動などの推論行動に加え,拡散Transformer内の機能的専門化が明らかになった。

    Link: https://arxiv.org/abs/2603.16870

  • 局所リプシッツ定数の適応的推定を用いた効率的な大域的最適化アルゴリズム [math.OC, cs.LG, stat.ML]目的:局所リプシッツ定数の推定に基づく大域的最適化手法
    • 最適化問題は科学技術の様々な分野において不可欠であり,効率的な解法が求められている。
    • 従来のグローバル最適化アルゴリズムは,パラメータ調整が難しい場合や,複雑な問題に対して性能が低下することが課題である。
    • 本研究は,パラメータ調整が不要で,複雑な最適化問題にも対応可能な新たなアルゴリズムを開発し,その有効性を示す。
    • 提案手法HALOは,目的関数の領域を分割し,各領域における局所リプシッツ定数を推定することで,効率的に大域的最小値を探索する。
    • HALOはハイパーパラメータ調整を必要とせず,最適化問題の重要な変数を特定するのに役立つ。
    • 数値実験の結果,HALOは既存のグローバル最適化アルゴリズムと比較して,実用的なブラックボックス最適化問題において有望な結果を示した。

    Link: https://arxiv.org/abs/2211.04129

  • 境界条件に基づくニューラル偏微分方程式ソルバーにおける演算子族 [cs.LG, cs.AI, cs.NA, math.NA]目的:境界条件が変動する場合におけるニューラル偏微分方程式ソルバーの学習メカニズム
    • 偏微分方程式ソルバーは科学技術計算の根幹であり,その高速化と高精度化が重要である。
    • 従来のニューラル偏微分方程式ソルバーは,境界条件の変化に対する汎化性能が低いという課題がある。
    • 学習データに含まれない境界条件に対する外挿性能の限界を明らかにすること。
    • 標準的なニューラル演算子学習は,境界条件に依存した演算子族を暗黙的に学習していることが示された。
    • 境界条件分布のサポート外における非識別可能性の結果が導かれ,境界条件間の汎化性能が問題となることが明らかになった。
    • ポアソン方程式を用いた実験により,境界条件の変化に対する性能劣化や,異なる境界条件分布間の失敗が確認された。

    Link: https://arxiv.org/abs/2603.01406

  • BrainBench:大規模言語モデルにおける常識推論のギャップを明らかにする [cs.AI, cs.CL]目的:大規模言語モデルの常識推論における課題の特定
    • 大規模言語モデルは急速に発展しているが,人間の基本的な推論能力には及ばない点が課題である。
    • 既存のベンチマークでは,大規模言語モデルの常識的な判断能力を十分に評価できない。
    • 大規模言語モデルの推論における弱点を明らかにし,改善に資すること。
    • BrainBenchは,大規模言語モデルの常識推論の失敗パターンを特定するための100問のテスト群である。
    • 最良のモデルであるClaude Opus 4.6でさえ,正答率は80.3%にとどまり,GPT-4oは39.7%であった。
    • モデルの性能にはばらつきが見られ,最良モデルでも正答率と一貫性に6-16%の差が生じている。

    Link: https://arxiv.org/abs/2603.14761

  • 乾燥後のパターンから溶媒を機械学習で特定する [cond-mat.soft, cs.LG, physics.app-ph, physics.comp-ph, physics.data-an]目的:乾燥ひび割れパターン分類による溶媒特定
    • 物質の乾燥過程理解は,食品,塗料,医薬品など広範な分野で重要である。
    • 溶媒の種類が乾燥パターンに影響するが,溶媒が蒸発後,特定は困難である。
    • 乾燥パターン画像から溶媒を高い精度で特定する手法を確立すること。
    • 人工ニューラルネットワークを用いて,溶媒の特定精度を96%まで向上させた。
    • ひび割れ面積分布を含む特徴量セットが,最も高い識別精度を示した。
    • 本プロトコルは,他の分野におけるパターン認識の最適化にも応用可能である。

    Link: https://arxiv.org/abs/2603.15660

  • 破滅保険テールリスク価格設定のための量子振幅推定:経験的収束とNISQノイズ解析 [stat.AP, cs.AI, cs.CE, stat.ML]目的:破滅保険テールリスクの価格設定
    • 自然災害による甚大な経済損失が頻発しており,適切なリスク評価が不可欠である。
    • 従来のモンテカルロ法では,テール部分の正確な推定に膨大な計算コストが必要となる。
    • 量子振幅推定により,計算コストを削減し,より正確なテールリスク評価を実現すること。
    • 量子振幅推定は,古典的なモンテカルロ法と比較して,理論上は計算量の削減が可能であることが示された。
    • ただし,実験結果からは,解析的にアクセス可能な場合に古典的なベースラインの方が優位性を示すことがわかった。
    • 現在のボトルネックは,推定ではなく,離散化にあることが示唆された。

    Link: https://arxiv.org/abs/2603.15664

  • 距離を超えて:持続ホモロジーと動的最適輸送による点群ダイナミクスの定量化 [stat.ML, cs.LG]目的:時間発展点群におけるトポロジカルティッピングの分析手法
    • 点群データは多様な分野で利用され,そのダイナミクス理解は重要である。
    • 従来の距離指標では,動的な位相変化における局所的な構造再編を捉えにくい。
    • 動的位相変化を捉えるため,多重スケールな指標を開発し,点群のトポロジー変化を定量化する。
    • 提案手法は,トポロジカル最適輸送距離を拡張し,空間幾何学に基づいた再構成戦略を用いることで,物理的整合性を確保している。
    • トポロジカル歪み,持続エントロピー,ハイパーグラフエントロピーといった多重スケール指標を導入し,グローバルな変化と局所的な再配線検出を可能にした。
    • 物理系,生物学的集団,脳機能画像データへの適用により,動的トポロジカル分析への有用性が示された。

    Link: https://arxiv.org/abs/2603.15683

  • 全ての有機化学物質のライフサイクルアセスメント [physics.chem-ph, cs.CE, cs.LG]目的:有機化学物質のライフサイクルアセスメントに関するデータ基盤
    • 現代社会のあらゆる側面に化学物質が不可欠であり,持続可能性への関心が高まっている。
    • 既存のLCIデータベースは取引される化学物質のごく一部しか網羅しておらず,データが限られ,一貫性・透明性に課題がある。
    • 分子構造に基づき,LCIデータを自動生成し,化学物質生産における環境負荷の特定を目指す。
    • CRYSTALフレームワークにより,7万種類以上の有機化学物質,11万件以上のLCIデータセットを含む一貫性のあるデータベースを構築した。
    • このデータベースから,有機化学物質の生産における環境負荷の主要なホットスポット50種類と,重要なハブ化学物質を特定した。
    • CRYSTALフレームワークは,化学物質のライフサイクルアセスメントを改善するための体系的な指針を提供する。

    Link: https://arxiv.org/abs/2603.15686

  • LLM駆動による高エントロピー触媒の発見:検索拡張生成によるアプローチ [cond-mat.mtrl-sci, cs.AI]目的:高エントロピー触媒の発見プロセス
    • 二酸化炭素削減には高性能触媒が不可欠であり,持続可能な社会実現への貢献が期待される。
    • 触媒材料の開発には専門知識と長期間を要し,材料探索のボトルネックとなっている。
    • LLMを活用することで,触媒探索の効率化と新たな材料設計の可能性を拓く。
    • LLMと材料データベースを組み合わせた検索拡張生成フレームワークを開発し,触媒候補を効率的に生成した。
    • 生成された触媒候補の82%が熱力学的に安定であり,コスト,伝導性,機械的安定性を同時に満たした。
    • 特にFe0.2Co0.2Ni0.2Ir0.1Ru0.3はIrO2比で25%向上する0.285Vの制限電位を示し,Cr0.2Fe0.2Co0.3Ni0.2Mo0.1はコストと性能のバランスに優れていた。

    Link: https://arxiv.org/abs/2603.15712

  • 部分ラベルと適応的最近傍法による学習可能性 [stat.ML, cs.LG]目的:部分ラベル学習における学習可能性の条件の数学的特徴付け
    • ラベル付けコストが高い場合に,複数ラベルを許容する部分ラベル学習は重要な研究分野である。
    • 部分ラベル学習が有効となる条件が明確でなく,特定の状況下でのみ有効な手法が多い。
    • 部分ラベル学習が可能な一般的な条件を明らかにし,それを実現するアルゴリズムを開発すること。
    • 部分ラベル学習の実行可能性に関する数学的な条件を明確に示した。
    • 適応的最近傍法に基づく新しいアルゴリズムPL A-$k$NNを提案し,一般的なシナリオで有効であることを示した。
    • 実験結果から,PL A-$k$NNは最先端の手法を上回る性能を発揮することが確認された。

    Link: https://arxiv.org/abs/2603.15781

  • トランスフォーマーによる記憶学習:直交埋め込みを超えて [stat.ML, cs.LG]目的:トークン検索タスクにおけるトランスフォーマーの記憶容量
    • 大規模言語モデルの知識の格納・検索能力は重要であり,その根幹をなすのがトランスフォーマーである。
    • 既存研究は理想的な仮定のもと分析が進んでおり,現実的な有限データや非直交埋め込み環境への対応が課題であった。
    • 非直交埋め込み下でのトランスフォーマーの記憶容量を解析し,そのスケーリング則を明らかにすること。
    • 単層トランスフォーマーの勾配降下法による学習初期段階を解析し,記憶容量の明示的な公式を導出した。
    • 記憶容量は,サンプルサイズ,埋め込み次元,シーケンス長の積に依存することが示された。
    • 数値検証と統計的下限により,この乗算的なスケーリングが非直交埋め込み下で本質的であることが確認された。

    Link: https://arxiv.org/abs/2603.15923

  • AIのための医療画像の大規模標準化 [math.OC, cs.SY, eess.SY, math.OC, cs.SY, eess.SY, eess.IV, cs.AI, physics.optics]目的:医療画像の大規模標準化
    • AI医療応用には,多様な医療データの活用が不可欠である。しかし,データ形式のばらつきが課題となっている。
    • 画像取得機器やプロトコルの違いにより,データに大きな偏りが生じ,AIの汎化性能を低下させている。
    • 光学物理学に基づき,医療画像の非意味的な変動を抑制し,診断に必要な情報を維持することを目的とする。
    • PhyCVフレームワークの適用により,Camelyon17-WILDSベンチマークにおける乳がん分類の精度が大幅に向上した。
    • 従来手法(Empirical Risk Minimization)の精度70.8%に対し,90.9%の精度を達成し,データ拡張やドメイン汎化手法を上回る結果が得られた。
    • PhyCVは,解釈可能性が高く,計算コストも低い汎用的なデータ精製ツールとして,臨床AIシステムの信頼性向上に貢献する。

    Link: https://arxiv.org/abs/2603.15980

  • 何もないところから:失語症性発話の重症度推定のためのデータ拡張 [eess.AS, cs.AI, cs.LG]目的:失語症性発話の重症度推定におけるロバスト性の向上
    • 臨床診断や包括的な音声技術において,失語症性発話の品質評価は不可欠である。
    • 主観評価にはコストがかかり,スケールアップが困難であり,ラベル付きデータの不足が頑健なモデル構築を阻害している。
    • ラベルなしデータと大規模な通常の音声データを用いて,学習データの規模を拡大し,重症度推定の精度向上を目指す。
    • 教師ありモデルがラベルなしデータに擬似ラベルを付与し,ラベルを意識したコントラスト学習により,多様な話者と音響条件への適応性を高める。
    • 事前学習済みモデルは,ダウンストリームのDSQAタスクに対してファインチューニングされ,未知のデータセットでも高い性能を発揮する。
    • 提案手法は,SpICEなどの最先端のDSQA予測器を凌駕し,平均SRCCで0.761を達成した。

    Link: https://arxiv.org/abs/2603.15988

  • 予測力に基づく推論のための検出力分析 [stat.ME, cs.LG]目的:機械学習モデルの予測力を考慮した統計的検出力
    • 現代の研究では機械学習の予測が活用され,その妥当な統計的推論が重要である。
    • 従来の検出力計算式は,機械学習による予測を十分に考慮できていない。
    • 予測力の高い機械学習モデルを用いた場合に必要な標本サイズを決定すること。
    • 予測精度(R2値)が高いほど,古典的な設計と比較して必要な標本サイズは減少する。
    • 導出された検出力公式は,二標本比較や2x2表の危険度指標など,幅広い状況で適用可能である。
    • 提案手法は,単一細胞トランスクリプトミクス,臨床血圧測定,皮膚鏡検査といった実際の生物医学的応用で検証された。

    Link: https://arxiv.org/abs/2603.16041

  • 双対リプシッツ連続性とカーネル条件化による確率的ミラー降下法のシャッフル [math.OC, cs.LG, stat.ML]目的:制約付き非凸相対滑らかな問題に対する確率的ミラー降下法の複雑性解析とイテレート収束
    • 最適化アルゴリズムの性能評価において,リプシッツ滑らかさ条件は基礎となる。しかし,この条件がない場合の研究が求められている。
    • 相対滑らかさの枠組みでは,勾配のずれに対するリプシッツ型束縛が必要であり,多くの手法の解析が未解決のままである。
    • 双対カーネル条件化(DKC)正則化条件を導入し,勾配の双対空間におけるリプシッツ連続性を保証することでこの問題を解決する。
    • 双対カーネル条件化(DKC)は,広く用いられるカーネルによって満たされ,アフィン合成と円錐結合に関して閉じていることが確認された。
    • DKCと相対滑らかさを組み合わせることで,勾配写像が原始空間ではリプシッツ連続でなくても,双対空間では連続性を保つ。
    • 制約付き非凸相対滑らかな問題に対する確率的ミラー降下法の複雑性限界とイテレート収束が初めて確立された。

    Link: https://arxiv.org/abs/2603.16042

  • 共変量シフト下における安全な分布ロバスト特徴選択 [stat.ML, cs.LG]目的:共変量シフト下における分布ロバスト特徴選択
    • 機械学習モデルの利用環境は多様であり,実環境での性能維持が重要である。
    • 展開環境が開発時と異なる場合,最適な性能を発揮できないセンサー不足が生じうる。
    • 展開環境の変化に対応し,誤った特徴量の削除を防ぐ安全な特徴選択手法を提案する。
    • 提案手法Safe-DRFSは,入力分布のシフト範囲全体で最適となる特徴量部分集合を特定する。
    • Safe-DRFSは,従来のスパースモデリングにおける安全なスクリーニングを分布ロバスト設定に拡張する。
    • 有限サンプル理論保証により,誤った特徴量の削除がないことが確認された。

    Link: https://arxiv.org/abs/2603.16062

  • 信頼性の高い近距離ビーム予測のための構造を考慮したマルチモーダルLLMフレームワーク [eess.SP, cs.AI]目的:近距離ビーム予測の信頼性向上
    • 大規模MIMOシステムは,無線通信の容量と信頼性を飛躍的に向上させる重要な技術である。
    • 近距離環境では,従来のビームトレーニングが非効率であり,高精度なビームアライメントが課題である。
    • 環境理解能力を高め,効率的かつ正確なビーム予測を実現すること。
    • 提案手法は,GPSデータ,RGB画像,LiDARデータ,テキストプロンプトを融合することで,複雑な空間ダイナミクスを学習する。
    • LLMの推論・汎化能力を活用し,環境の深い理解を可能にする。
    • その結果,従来のビームトレーニングよりも優れた環境認識能力とビーム予測精度を達成する。

    Link: https://arxiv.org/abs/2603.16143

  • 深層適応モデルに基づく実験計画法 [stat.ML, cs.LG, cs.SY, eess.SY, stat.ME]目的:非線形動的システムの効率的なパラメータ推定
    • 複雑なシステムのモデル化・制御において,実験計画法は不可欠である。
    • 従来の適応型実験計画法は計算コストが高く,リアルタイムでの適用が困難である。
    • 深層学習を用いて,リアルタイムで効率的な実験計画を可能にすること。
    • 深層適応設計(DAD)と微分可能なメカニズムモデルを組み合わせることで,リアルタイム性を実現した。
    • Transformerベースのポリシーアーキテクチャにより,動的システムの時間的構造を考慮した設計が可能となった。
    • 4つのシステムの検証により,提案手法の有効性が確認された。

    Link: https://arxiv.org/abs/2603.16146

  • ロバストな生成オーディオ品質評価:品質と見かけ上の相関の分離 [math.OC, cs.SY, eess.SY, math.OC, cs.SY, eess.SY, eess.AS, cs.AI, cs.SD, eess.SP]目的:生成オーディオの知覚的品質評価指標のロバスト性向上
    • AI生成コンテンツの急増により,高品質な品質評価が不可欠となっている。
    • MOS予測モデルはデータ不足により,汎化品質特徴ではなく,見かけ上の相関を学習しやすい。
    • ドメイン敵対的学習を用いて,真の品質知覚と不要な要素を分離し,バイアスを軽減すること。
    • ドメイン定義戦略は一概に最適解はなく,評価するMOSの側面によって異なる。
    • 提案手法は,特定の側面に基づいたドメイン戦略により,音響バイアスを効果的に軽減した。
    • 人間の評価との相関が向上し,未知の生成シナリオにおける汎化性能が向上した。

    Link: https://arxiv.org/abs/2603.16201

  • 電波天文学データ処理のための説明可能な機械学習ワークフロー [astro-ph.IM, cs.AI]目的:電波天文学におけるデータ処理パイプラインの自動化
    • 電波天文学は,科学的成果を得るために効率的なデータ処理が不可欠である。
    • データ量の増加に伴い,手動でのパイプライン設定は現実的でなくなっている。
    • 機械学習を活用しつつ,天文学者が判断根拠を理解できるパイプラインを構築する。
    • ファジー推論と深層学習を組み合わせることで,データ処理パイプラインの説明可能性を高めた。
    • シミュレーションにより,提案手法が従来の機械学習と同等の精度を保ちつつ,説明可能性が向上することが示された。
    • 特に電波天文学の較正において,提案手法の有効性を確認した。

    Link: https://arxiv.org/abs/2603.16350

  • LenghuSky-8:星の位置を考慮したマスクと高度方位較正を備えた8年間の全天雲画像データセット(セグメンテーションと短期予報用) [astro-ph.IM, cs.AI, cs.CV]目的:セグメンテーションおよび短期予報のための全天雲画像データセット
    • 地上型時間領域観測には,分単位の雲カバーの把握が不可欠であり,天候に左右される観測の効率化に貢献する。
    • 既存の全天データセットは期間が短い,昼間データに偏っている,または天体測定較正が不十分であるという課題があった。
    • 本研究は,セグメンテーション,短期予報,および自律的な天文台運用を支援するための高品質な雲画像データセットを提供する。
    • LenghuSky-8は,2018年から2025年までの8年間におよぶ全天画像429,620枚を提供し,夜間データが81.2%を占める。
    • DINOv3の特徴量を用いた学習により,雲セグメンテーションの全体精度は93.3% ± 1.1%を達成し,昼夜や月の位相に依存しない頑健なセグメンテーションを実現した。
    • 各画素を高精度に高度方位座標にマッピングし,天頂部で約0.37度,高度30度で約1.34度の較正不確かさを確認し,望遠鏡スケジューラとの連携を可能とした。

    Link: https://arxiv.org/abs/2603.16429

  • スパースなスパイクニューラルネットワークのための線形化ブレグマン反復 [eess.SP, cs.NE]目的:スパイクニューラルネットワークの学習における疎性
    • エネルギー効率の高いニューラルネットワークの実現が求められている
    • 従来のニューラルネットワークはパラメータ数が多く,計算コストが高い
    • 疎性を促進し,パラメータ数を削減することで効率的な学習を目指す
    • 線形化ブレグマン反復 (LBI) を最適化手法として導入し,スパース性を高めた
    • SHD,SSC,PSMNISTデータセットにおいて,LBIはパラメータ数を約50%削減
    • Adamと同等の精度を維持し,凸疎性誘導法の有効性を示した

    Link: https://arxiv.org/abs/2603.16462

  • 深層学習駆動ピクセルス化出力コンバイナを持つブラックボックス Dohertyパワーアンプと拡張効率範囲 [eess.SP, cs.AI, cs.AR, cs.SY, eess.SY]目的:深層学習を用いた Dohertyパワーアンプの逆設計手法
    • 高効率な無線通信システムの実現には,高出力で高効率なパワーアンプが不可欠である。
    • 従来の Dohertyアンプ設計は複雑であり,効率と線形性の両立が課題であった。
    • 深層学習を用いてDohertyアンプの設計を自動化し,効率と線形性の向上を目指す。
    • 深層学習モデルを用いてピクセルス化された出力コンバイナのSパラメータを高速かつ正確に予測することに成功した。
    • 遺伝的アルゴリズムと組み合わせることで,効率範囲が拡大されたDohertyコンバイナを設計し,GaN HEMTトランジスタを用いたプロトタイプを製作した。
    • 実測では,プロトタイプは74%を超えるドレイン効率と44.1 dBmを超える出力電力を達成し,9dBバックオフ電力レベルでは52%以上のドレイン効率を維持した。

    Link: https://arxiv.org/abs/2603.16565

  • 欠損データにおける高次元推定:統計的・計算的限界 [physics.soc-ph, cs.CY, math.ST, cs.DS, cs.LG, stat.ML, stat.TH]目的:欠損データ下の母集団パラメータ推定
    • データ解析において,欠損データは頻繁に遭遇する課題であり,その適切な処理が重要である。
    • 欠損メカニズムが未知の場合,推定のバイアスや効率低下を引き起こす可能性がある。
    • 統計的限界と計算的限界を明らかにし,効率的な推定手法を確立すること。
    • 真のデータがガウス分布に従う場合,平均推定において,統計的・計算的なギャップが存在することが示された。
    • 効率的なアルゴリズムはサンプル数がより多く必要であり,sum-of-squaresに基づくアルゴリズムが理論限界に近づくことが示された。
    • 線形回帰においては,そのようなギャップは存在せず,強凸な経験リスク最小化が情報理論的下限をほぼ達成することが示された。

    Link: https://arxiv.org/abs/2603.16712

  • データ駆動による最小最大表現を用いた非線形復元力の解析 [math.DS, cs.LG, nlin.CD]目的:非線形復元力を持つ機械システムの非線形性同定
    • 機械システムの挙動を正確に予測するためには,非線形性のモデル化が不可欠である。
    • 従来のモデル化手法では,複雑な非線形性を表現することが困難であった。
    • データ駆動アプローチにより,複雑な非線形性を効率的に同定し,高精度な予測を可能にすること。
    • 提案手法は,人工ニューラルネットワークの活性化関数として,初期ギャップを持つ線形スプリングを利用する。
    • Duffing振動子や片持ちプレートの実験データに対し,提案手法を適用し,非線形性を正確に同定できた。
    • 得られたモデルを用いて強制応答解析を行い,元のシステムとの一致性が確認された。

    Link: https://arxiv.org/abs/2603.16746