arXiv雑要約

画像・音声 - 2026/03/06 公開

ViRC：推論チャンクを用いた視覚的インターリーブ数学CoTの強化 [cs.CV]目的：多Modal数学的推論における視覚情報の活用と，問題解決過程の構造化
- 大規模言語モデル(LLM)の推論能力向上は，複雑な問題解決に不可欠である。
- 既存の多Modal LLMは，静的な画像のみに依存し，動的な視覚獲得を考慮していない。
- 人間の問題解決プロセスを模倣し，段階的な推論を支援するフレームワークを構築する。
- 提案手法ViRCは，推論チャンク機構により，多Modal数学CoTをCritical Reasoning Units(CRUs)に構造化する。
- CRUXデータセットは，複数の推論経路に対するCRUsを明示的にアノテーションし，モデルの学習を促進する。
- ViRC-7Bモデルは，数学的ベンチマークにおいてベースラインを平均18.8%上回る性能を示した。
Link: https://arxiv.org/abs/2512.14654
FluenceFormer：Transformer駆動型マルチビーム蛍光マップ回帰による放射線治療計画 [cs.CV, cs.AI]目的：放射線治療計画のための蛍光マップ予測
- 放射線治療はがん治療の重要な手段であり，計画の効率化と質の向上が求められている。
- 蛍光マップ予測は困難な逆問題であり，既存の畳み込みニューラルネットワークは長距離依存性を捉えにくい。
- 本研究は，Transformerを用いて高精度で物理的に妥当な蛍光マップを予測し，放射線治療計画の自動化を促進する。
- FluenceFormerは，様々なTransformerバックボーンと組み合わせ可能であり，汎用性の高いフレームワークである。
- Swin UNETRを用いたFluenceFormerは，既存のCNNやシングルステージ手法と比較して優れた性能を発揮する。
- エネルギー誤差を4.5％に削減し，構造的忠実度においても有意な改善が見られた(p < 0.05)。
Link: https://arxiv.org/abs/2512.22425
残差ディリクレ最適化による並列拡散ソルバー [cs.DC, cs.CV]目的：低遅延での高品質な画像生成
- 拡散モデルは生成性能が高いが，逐次的なノイズ除去によりサンプリングに時間がかかる。
- 既存の高速化手法は，低遅延時には高曲率領域の積分誤差により画質が低下する。
- 並列評価による誤差軽減と，効率的な最適化で高速かつ高品質な生成を実現する。
- 本研究では，アンサンブル並列方向ソルバー(EPD-Solver)を提案し，並列勾配評価により積分誤差を軽減する。
- EPD-Solverは，ベクトルの平均値の定理を利用し，低次元多様体上での積分をより正確に近似する。
- パラメータ効率の良い強化学習により，ソルバー空間内での最適化を行い，報酬ハッキングを抑制しつつ性能を向上させる。
Link: https://arxiv.org/abs/2512.22796
物理法則を意識したグループワイズ直接選好最適化による物理的に整合性のあるテキストからの動画生成 [cs.CV]目的：物理法則に忠実な動画生成
- 動画生成技術の発展は目覚ましいが，現実世界の物理法則を正確に再現することは困難である。
- 単純なシミュレーション環境に限定されるか，暗黙の物理的推論の学習に課題がある。
- 豊富な物理相互作用を含む学習データの不足を解消し，物理法則を考慮した動画生成を実現する。
- 大規模な物理動画データセットPhyVidGen-135Kを構築し，物理現象の学習を促進した。
- 物理を意識したグループワイズ直接選好最適化(PhyGDPO)フレームワークを提案し，より現実的な動画生成を可能にした。
- 提案手法は，PhyGenBenchとVideoPhy2において，既存の最先端手法を大きく上回る性能を示した。
Link: https://arxiv.org/abs/2512.24551
MorphAny3D：3Dモーフィングにおける構造化潜在表現の力を解き放つ [cs.CV]目的：3Dモーフィングのための高品質な変形生成
- 3D表現は，コンピュータグラフィックス，アニメーション，視覚効果等，様々な分野で重要な役割を担っている。
- カテゴリを跨いだモーフィングにおいて，意味的に一貫性があり，時間的に滑らかな変形を生成することが困難である。
- 構造化潜在表現を活用し，一貫性と滑らか性を向上させた3Dモーフィング手法を提案し，その性能を検証する。
- 提案手法MorphAny3Dは，トレーニングを必要とせず，構造化潜在表現を利用して高品質な3Dモーフィングを実現する。
- Morphing Cross-AttentionとTemporal-Fused Self-Attentionを導入することで，構造的な一貫性と時間的な滑らかさを向上させている。
- 様々な実験により，特にクロスカテゴリ間のモーフィングにおいて，最先端の結果が得られていることを示している。
Link: https://arxiv.org/abs/2601.00204
EmboTeam：PDDL を介してLLM の推論を反応型行動木に落とし込み，具現化されたマルチロボット協調を実現する [cs.RO, cs.AI, cs.CV, cs.LG, cs.MA]目的：具現化されたマルチロボット協調のためのタスク計画
- ロボットが人間からの指示を理解し，複雑なタスクを実行することは，自律システムの重要な課題である。
- LLM は指示の解釈には優れるが，長期的推論や動的なマルチロボット協調が困難である。
- LLM の推論能力と古典的プランナーの探索能力を組み合わせ，ロボットの行動計画を改善すること。
- EmboTeam は，LLM で指示を解析し，PDDL 問題記述を生成することで，命令を形式的な計画問題に変換する。
- MACE-THOR データセットを用いた実験により，タスク成功率が12%から55%に，目標条件再現率が32%から72%に向上した。
- 共有ブラックボード機構により，異なる種類のロボットチームが動的に規模を変えながら連携できる。
Link: https://arxiv.org/abs/2601.11063
マルチモーダル目標地点はどこか：基盤モデルが文脈的に重要な瞬間を認識する能力について [cs.HC, cs.CV, cs.AI, cs.CL]目的：マルチモーダルイベントにおける最も重要なサブイベントの識別
- 言語生成を含む様々な実世界アプリケーションにおいて，マルチモーダルデータの活用が不可欠である。
- マルチモーダルイベントのナレーションや要約において，重要なサブイベントを正確に特定することが課題である。
- 既存のモデルがマルチモーダルデータから重要な情報を統合する能力の限界を明らかにする。
- 最先端のマルチモーダルモデルは，重要なサブイベントの識別において偶然レベルに近い性能しか示さない。
- モデルは単一の優勢なモダリティに依存しがちであり，複数の情報源からの情報統合が不十分である。
- サンプルレベルの多様性に対応できるモジュール型アーキテクチャや，クロスモーダルシナジーを最大化する訓練方法の重要性が示唆される。
Link: https://arxiv.org/abs/2601.16333
エージェントによる超長編動画理解 [cs.CV, cs.LG]目的：長編動画における状況理解と，そのためのシステム構築
- ウェアラブルデバイスの普及により，継続的な状況理解の重要性が高まっている。
- 既存手法は，動画の文脈窓の制限や，多段推論の困難さといった課題を抱えている。
- Entity Scene Graphを用いたエージェントフレームワークにより，これらの課題を克服することを目指す。
- 提案手法EGAgentは，Entity Scene Graphを活用し，構造化された検索と推論を可能にした。
- EgoLifeQAデータセットにおいて，最先端の性能(57.5%)を達成した。
- Video-MME(Long)データセットにおいても，競争力のある性能(74.1%)を示した。
Link: https://arxiv.org/abs/2601.18157
MiTA Attention：上位k個の活性化の混合による効率的な高速重みスケーリング [cs.LG, cs.CV]目的：Transformerにおける注意機構の効率化
- Transformerは自然言語処理や画像認識で高い性能を示す。その中核をなす注意機構の計算コストが課題。
- Transformerの注意機構は系列長に比例して計算量が増加し，長系列データの処理が困難となる。
- 上位k個の活性化に着目し，高速重みスケーリングを効率的に行うMiTA Attentionを提案する。
- MiTA Attentionは，注意機構を高速重みMLPと捉え，ランドマーククエリと上位k活性化キーバリューペアを用いて圧縮とルーティングを行う。
- この手法により，注意機構の計算コストを削減しつつ，表現能力を維持できると考えられる。
- 画像認識タスクでの予備実験により，MiTA Attentionの有効性が示唆された。
Link: https://arxiv.org/abs/2602.01219
DDP-WM：効率的なワールドモデルのための分離されたダイナミクス予測 [cs.CV, cs.RO]目的：自律ロボットの計画のためのワールドモデルの効率化
- ロボットの自律的な計画において，周囲環境の理解は不可欠であり，ワールドモデルはその基盤となる。
- 既存の密なTransformerベースのワールドモデルは高性能だが，計算コストが高く，リアルタイムでの利用が困難である。
- 物理相互作用と背景更新を分離することで，計算効率と性能の両立を目指す。
- DDP-WMは，効率的な履歴処理と動的な局所化により，主要なダイナミクスを分離する。
- Push-Tタスクにおいて，最先端のモデルと比較して約9倍の推論速度向上と，MPCの成功率が90%から98%に向上した。
- 本研究は，効率的で高精度なワールドモデル開発の有望な道を示す。
Link: https://arxiv.org/abs/2602.01780
ローリングシンク：自己回帰型ビデオ拡散における限定された学習期間と無限のテスト期間の架け橋 [cs.CV]目的：自己回帰型ビデオ拡散モデルにおける学習期間とテスト期間のギャップの解消
- 近年，ビデオ生成において自己回帰型拡散モデルが注目されており，高品質な映像生成が可能である。
- 学習期間が限られているため，テスト時に長い時間軸で映像を生成すると，画質の劣化が急速に進むという課題がある。
- 学習期間外でのテストギャップを解消し，長時間の映像生成を可能にすることを目的とする。
- 本研究では，学習を行わずに自己回帰型キャッシュの維持に関する分析を行い，ローリングシンクを提案する。
- ローリングシンクは，5秒の短いクリップで学習したモデルを用いて，テスト時に最長30分間の長尺のビデオを生成できる。
- 実験の結果，ローリングシンクは既存手法と比較して，長時間の映像における視覚的な忠実度と時間的な一貫性が優れていることが示された。
Link: https://arxiv.org/abs/2602.07775
Pailitao-VL：リアルタイムマルチモーダル産業検索のための統一埋め込みと再ランク付け [cs.IR, cs.AI, cs.CV]目的：高精度かつリアルタイムな産業検索を実現するための包括的なマルチモーダル検索システム
- 産業分野における検索技術は，業務効率化や顧客体験向上に不可欠である。
- 既存の検索システムは，検索粒度の不足や環境ノイズへの脆弱性，効率と性能のギャップといった課題を抱えている。
- 本研究は，これらの課題を克服し，大規模な産業環境における高度な検索システムの実装可能性を示す。
- 埋め込みモデルを従来の対照学習から絶対的なID認識タスクへ移行することで，検索精度と粒度を向上させた。
- 再ランク付けモデルを点ごとの評価からリスト全体の比較と調整を行う方式へ進化させ，識別能力と処理速度を両立した。
- AlibabaのEコマースプラットフォームでのオフライン評価およびA/Bテストの結果，Pailitao-VLが最先端の性能を達成し，ビジネスに大きな影響を与えていることが確認された。
Link: https://arxiv.org/abs/2602.13704
脳波に基づく運転疲労認識のための双方向時間ダイナミクスモデリング [cs.OH, cs.CV]目的：運転疲労の認識
- 運転疲労は交通事故の主要な原因であり，道路安全に対する深刻な脅威であるため，その軽減が重要である。
- 脳波に基づく疲労認識は，脳波の強い非定常性と非対称な神経ダイナミクスによって困難が生じている。
- 本研究は，脳波の双方向時間ダイナミクスを明示的にモデル化することで，運転疲労認識の精度向上を目指す。
- 提案手法DeltaGateNetは，公開データセットSEED-VIGおよびSADTにおいて，既存手法を凌駕する性能を示した。
- SEED-VIGにおけるDeltaGateNetの被験者内精度は81.89%，被験者間精度は55.55%を達成した。
- SADT 2022データセットでは，被験者内精度96.81%，被験者間精度83.21%を，SADT 2952データセットでは，被験者内精度96.84%，被験者間精度84.49%をそれぞれ示した。
Link: https://arxiv.org/abs/2602.14071
未知のゲームにおける推薦学習 [cs.GT]目的：マルチエージェントゲームにおける推薦を通じた選好学習
- 戦略的相互作用下でのAI推薦システムの理論的基盤を構築することの重要性
- エージェントの効用関数が未知であるため，効果的な推薦が困難であること
- 戦略的相互作用によって推薦の遵守が左右される環境下での推薦学習問題に取り組むこと
- 量子応答フィードバック下では，ゲームは所望の精度に応じて対数的なサンプル複雑性で学習可能である。
- 最良応答フィードバックでは，エージェントの効用関数のより大きな集合しか特定できない。
- エージェントの逸脱インセンティブに基づいた後悔の概念を導入し，両方のフィードバックモデル下で低い後悔を持つオンラインアルゴリズムを設計した。
Link: https://arxiv.org/abs/2602.16998
EA-Swin：埋め込み非依存Swin TransformerによるAI生成動画検出 [cs.CV]目的：AI生成動画の検出
- AI技術の発展に伴い，高品質な生成動画が容易に作成可能となり，その識別が重要となっている。
- 既存の検出手法は，浅い埋め込み軌跡や画像ベースのアダプテーションに依存し，性能が十分でない。
- 汎用的なViTスタイルのエンコーダと互換性のある，スケーラブルかつロバストな検出手法を確立すること。
- 提案手法EA-Swinは，事前学習済みの動画埋め込みに対して直接時空間依存性をモデル化し，高い精度を達成した。
- 主要な生成モデルにおいて0.97-0.99の精度を示し，既存の最先端手法を5-20%上回る性能を発揮した。
- EA-Videoデータセットを構築し，厳格なクロス分布評価を実施することで，汎化性能の高さを示した。
Link: https://arxiv.org/abs/2602.17260
CityGuard：都市カメラ間のバイアスに強い個人検索のためのグラフ認識型プライベート記述子 [cs.CV, cs.LG]目的：都市規模の分散カメラにおける個人再識別
- 都市における安全・安心の確保には，監視カメラを用いた効率的な個人特定が不可欠である。
- プライバシー保護の観点から，生画像データの共有が制限され，個人再識別が困難になっている。
- プライバシーを保護しつつ，変化する外観やドメインシフトに対応した高精度な個人再識別を実現する。
- 提案手法CityGuardは，分散型監視におけるプライバシー保護のための個人検索フレームワークである。
- 特徴量の拡散に応じてマージンを調整し，粗い幾何学的情報を活用することで，視点変化やオクルージョンに強い記述子を生成する。
- 差分プライバシーを用いた埋め込みマップと近似インデックスにより，安全かつ効率的な展開を可能にする。
Link: https://arxiv.org/abs/2602.18047
RA-QA：現実世界の多様性下における呼吸音質問応答のためのベンチマークシステム [cs.SD, cs.LG, eess.AS]目的：呼吸音質問応答のベンチマークシステム
- モバイルヘルスケアにおける呼吸音の重要性が高まる中，正確なスクリーニングが求められている。
- 既存の研究は，多様な環境や質問形式を考慮せず，現実世界での性能評価が不十分である。
- 現実世界の多様性を考慮した呼吸音質問応答の評価基準を確立し，性能向上を目指す。
- RA-QAベンチマークは，900万組の多様な質問応答ペアを含む統一されたデータセットを提供する。
- 従来の機械学習モデルとマルチモーダル音声言語モデルの性能を比較し，基準点を確立した。
- 現在のモデルが現実世界の多様性下で課題を抱えることを明らかにした。
Link: https://arxiv.org/abs/2602.18452
CARE：適応領域モデリングを用いた分子誘導型基礎モデル：全スライド画像解析への応用 [cs.RO, eess.SY, cs.SY, cs.CV]目的：全スライド画像の解析における基礎モデルの構築
- 病理診断の精度向上に貢献する計算病理学は，医療分野において重要性が高まっている。
- 既存のモデルは組織形態に特化した設計ではないため，病理学的関心領域の均一性を捉えきれていない。
- CAREは，分子情報を活用し，より生物学的に妥当な領域を識別することで，解釈性と臨床的意義の向上を目指す。
- CAREは，自己教師あり学習と交差モードアラインメントの二段階の事前学習戦略を用いることで，効果的な表現を獲得した。
- 従来の基礎モデルで使用されるデータの1/10程度のデータ量で，33のベンチマークにおいて優れた性能を達成した。
- 形態学的分類，分子予測，生存率解析など，幅広い病理関連タスクにおいて，他の基礎モデルを上回る性能を示した。
Link: https://arxiv.org/abs/2602.21637
LoRAの裏切り：良性のAdapterを装ったText-to-Imageモデルへのバックドア攻撃 [cs.CV]目的：Text-to-Imageモデルへのバックドア攻撃手法の開発
- 拡散モデルの効率的な微調整手法としてLoRAが普及し，モデル共有が活発になっている。
- LoRAの柔軟性が，攻撃対象領域を拡大するリスクがある。
- LoRAモジュールを悪用した，隠蔽性の高いバックドア攻撃とその脅威を明らかにする。
- MasqLoRAは，独立したLoRAモジュールを用いてText-to-Imageモデルにバックドアを注入する攻撃フレームワークである。
- わずかなトリガーワードとターゲット画像ペアで学習可能であり，高い攻撃成功率（99.8%）を達成する。
- AIサプライチェーンにおける新たな脅威を明らかにし，LoRA中心のエコシステムに対する防御策の必要性を示唆する。
Link: https://arxiv.org/abs/2602.21977
RobustVisRAG：視覚的劣化に対する因果性に基づいた視覚ベースの検索拡張生成 [cs.CV]目的：視覚的劣化下における，視覚ベースの検索拡張生成のロバスト性向上
- 画像と言語を結びつける技術は，多様な応用において重要性が増している。
- 視覚入力に歪みが生じると，既存モデルの性能が低下しやすい。
- 歪みと意味情報を分離し，安定した検索と生成を実現すること。
- RobustVisRAGは，歪み信号を捉え，意味情報を精製する二重経路フレームワークを用いる。
- Distortion-VisRAGデータセットを用いて，現実的な条件下でのロバスト性を評価した。
- 現実世界の歪みに対して，検索，生成，およびエンドツーエンド性能がそれぞれ7.35%，6.35%，12.40%向上した。
Link: https://arxiv.org/abs/2602.22013
運転学習は無料の贈り物：姿勢情報なしの野生環境ビデオからの大規模なラベルフリー自律運転事前学習 [cs.CV]目的：自律運転表現学習
- 自動運転技術の発展には，大量の視覚データの活用が不可欠である。
- オンライン上の運転ビデオは豊富だが，アノテーションがないため，意味構造と3D形状を捉えた表現学習が困難である。
- 姿勢情報やラベルなしのビデオから，効率的に自律運転のための表現を学習することを目指す。
- 提案手法LFGは，教師ありガイダンスによって，YouTubeビデオから統一された疑似4D表現を学習する。
- LFGは，NAVSIMベンチマークにおいて，単眼カメラのみでマルチカメラやLiDARベースラインを上回る性能を達成した。
- LFGは，意味的，幾何学的，および運動予測タスクにおいても高い性能を示し，自律運転のための強力なビデオ中心の基礎モデルとなる。
Link: https://arxiv.org/abs/2602.22091
拡散プローブ：CNNプローブを用いた生成画像結果の予測 [cs.CV]目的：生成画像の品質予測手法
- 画像生成AIの発展に伴い，高品質な画像を効率的に生成する技術が重要になっている。
- テキストから画像を生成する拡散モデルでは，生成初期段階での品質評価が難しく，試行錯誤のコストが高い。
- 生成初期段階の内部表現から最終的な品質を予測し，無駄な計算を削減することを目的とする。
- 拡散モデルの初期段階におけるクロスアテンション分布と最終的な画像品質との強い相関関係を明らかにした。
- クロスアテンションマップの統計的特徴量を基に，画像の品質を予測する軽量な予測器「拡散プローブ」を開発した。
- 多様な評価指標において，高い相関（PCC > 0.7）と分類性能（AUC-ROC > 0.9）を達成し，実用的な計算コスト削減効果が確認された。
Link: https://arxiv.org/abs/2602.23783
拡散調和器：オンライン拡散エンハンサーによるニューラル再構成とフォトリアリスティックなシミュレーションの架け橋 [cs.CV, cs.AI, cs.LG]目的：ニューラル再構成とフォトリアリスティックなシミュレーションの融合
- 自動運転ロボットの開発にはシミュレーションが不可欠であり，現実世界の多様な状況を再現する必要がある。
- NeRFや3Dガウススプラッティングは視覚的に優れているが，新規視点でのレンダリングにアーティファクトが生じやすい。
- 現実感のない動的オブジェクトの統合という課題を解決し，シミュレーションの忠実度を向上させる。
- DiffusionHarmonizerは，不完全なシーンからのレンダリングを一時的に整合性のとれた，より現実的な出力に変換する。
- 事前学習済みの画像拡散モデルを基盤とし，単一のGPU上でオンラインシミュレーターで動作可能である。
- 外観の調和，アーティファクトの修正，照明の現実感を強調するカスタムデータキュレーションパイプラインにより，効果的な学習を実現している。
Link: https://arxiv.org/abs/2602.24096
UFO-4D: 2枚の画像からの姿勢未定4次元再構成 [cs.CV]目的：姿勢未定画像からの高密度4次元再構成
- 視覚情報の理解やロボット工学など，様々な分野で3次元構造の把握が重要である。
- 既存手法は，処理速度が遅いか，特定のタスクに限定されたモデルであるという課題がある。
- 2枚の画像から，高速かつ高精度に4次元表現を再構成することを目指す。
- UFO-4Dは，Dynamic 3D Gaussian Splatsを用いて，3次元形状，運動，カメラ姿勢を同時に推定する。
- 単一の表現から複数の信号を微分可能にレンダリングすることで，自己教師あり学習を可能にし，精度向上を実現した。
- 既存手法と比較して，3次元形状，運動，カメラ姿勢の推定精度が最大3倍向上することを示した。
Link: https://arxiv.org/abs/2602.24290
視覚大規模言語モデルにおけるGRPO訓練の再検討：知覚指向型設計によるアプローチ [cs.CV, cs.AI]目的：視覚大規模言語モデルのGRPO訓練における課題と改善策
- 大規模言語モデルの発展は，画像認識などの視覚タスクへの応用を促している。
- 言語推論向けに設計された訓練手法が，視覚認識にそのまま適用できるという前提が未検証であった。
- 視覚タスク特有の課題を克服し，GRPO訓練の有効性を高めることを目指す。
- 実験の結果，言語推論と視覚認識は本質的に異なり，出力空間の広さと安定した報酬設計が重要であることが示された。
- 提案手法Dr.Segは，Look-to-Confirm機構とDistribution-Ranked Rewardモジュールにより，既存のVLLMに容易に組み込むことができる。
- 複雑な視覚シナリオにおいて性能が向上し，高い汎化能力を維持することが実験で確認された。
Link: https://arxiv.org/abs/2603.00152
拡張ヒアリングのためのきめ細かい音景制御 [cs.SD, cs.LG, eess.AS]目的：拡張ヒアリングにおける音景のきめ細かい制御
- 補聴器等の普及に伴い，より自然で快適な聴覚体験の提供が重要になっている。
- 従来の音響制御は粗雑であり，個々の音源を独立して調整することが困難であった。
- 複数の音源を同時に処理し，ユーザーが自由に音量を調整できるシステムを開発すること。
- Aurchestraは，リソースに制約のあるヒアラブルデバイス上で，リアルタイムなきめ細かい音景制御を可能にする最初のシステムである。
- アクティブな音源のみを表示する動的インターフェースと，各音源を分離するリアルタイム抽出ネットワークを搭載。
- 実環境での実験により，音源ごとの音量調整による聴覚体験の向上と，干渉音の抑制が確認された。
Link: https://arxiv.org/abs/2603.00395
AlignVAR：画像超解像のためのグローバル一貫性のある視覚自己回帰 [cs.CV, cs.AI]目的：画像超解像のためのグローバル一貫性のある視覚自己回帰フレームワーク
- 画像生成技術は，その高品質な出力から，様々な分野で重要視されている。
- 既存の自己回帰モデルは，局所的な特徴に偏り，スケール間でエラーが累積しやすい。
- 再構成画像のグローバルな一貫性を向上させ，効率的な超解像を実現することを目指す。
- AlignVARは，構造的に相関のある領域への注意を再調整することで，空間的な一貫性を強化する。
- 階層的な一貫性制約により，各スケールでの完全再構成を supervision することで，エラーの早期発見と安定した微調整を実現する。
- 実験により，AlignVARが既存手法よりも構造的なコヒーレンスと知覚的な忠実度を向上させ，高速な推論とパラメータ削減を達成することが示された。
Link: https://arxiv.org/abs/2603.00589
内在的な自己確信度報酬によるテキスト画像生成の改善 [cs.CV, cs.AI]目的：テキスト画像生成における改善手法
- デザイン，メディア，データ拡張など，コンテンツ作成の基盤技術であり，その重要性は高い。
- 生成モデルが人間の好みや事実に基づいた正確性，美的感覚に合致していない場合がある。
- 外部からの報酬を用いず，モデル自身の自己確信度に基づき改善を目指す。
- SOLACEは，自己ノイズ除去プローブによるノイズ復元精度を評価し，内在的な自己確信度信号を報酬とする。
- SOLACEは追加のデータやアノテーター，報酬モデルなしで，完全に教師なしで最適化を可能にする。
- 高い確信度での生成を強化することで，構成的生成，テキストレンダリング，テキスト画像整合性において一貫した改善が見られた。
Link: https://arxiv.org/abs/2603.00918
Dr.Occ：周囲視点カメラによる深度・領域誘導3次元占有率推定 [cs.CV]目的：自動運転のための3次元セマンティック占有率予測
- 自動運転において，周囲環境の正確な理解は安全性確保に不可欠であるため。
- 既存手法は，深度推定の精度不足による視点変換時の幾何学的ずれが課題となっている。
- 本研究は，高精度な深度情報と領域特化的な学習により，幾何学的ずれと空間的なクラス不均衡を解消する。
- 提案手法Dr.Occは，MoGe-2からの高品質な深度情報を活用し，信頼性の高い幾何学的事前情報を用いて正確なボクセル特徴のアライメントを実現する。
- MoEフレームワークに着想を得た領域誘導エキスパートTransformerにより，空間的なセマンティック変動に対応し，領域特化的な学習を可能にする。
- Occ3D--nuScenesベンチマークにおいて，既存のBEVDet4DをmIoUで7.43%，IoUで3.09%向上させることを示した。
Link: https://arxiv.org/abs/2603.01007
FreeAct：LLM量子化のための活性化の解放 [cs.CL, cs.AI, cs.CV]目的：LLM量子化における性能向上
- 大規模言語モデルの利用拡大には，メモリと計算コストの削減が不可欠である。
- 既存手法は活性化の動的なパターンに対応できず，特に拡散LLMやマルチモーダルLLMで課題となる。
- 活性化側の変換に柔軟性を持たせ，動的な活性化の差異を考慮することで性能改善を目指す。
- FreeActは，既存の量子化手法と比較して，最大5.3%の性能向上を達成した。
- 活性化変換をトークンタイプに応じて変化させることで，より効率的な量子化を実現した。
- 活性化と重みの変換を分離することで，理論的な解空間を拡張し，性能向上に貢献した。
Link: https://arxiv.org/abs/2603.01776
Kiwi-Edit：指示と参照による汎用的な動画編集 [cs.CV, cs.AI]目的：指示と参照に基づく動画編集のためのデータセットとアーキテクチャ
- 動画編集技術は，コンテンツ制作や表現において不可欠であり，その重要性は増している。
- 自然言語だけでは複雑な視覚的ニュアンスを正確に伝えることが難しく，編集の精度が課題となっている。
- 高品質な参照データ不足を解消し，指示と参照を組み合わせたより高度な動画編集を実現することを目指す。
- 大規模なデータセットRefVIEと評価ベンチマークRefVIE-Benchを構築し，動画編集タスクの包括的な評価を可能にした。
- Kiwi-Editという統合編集アーキテクチャを提案し，参照のセマンティックガイダンスを効果的に活用することで，編集精度を向上させた。
- 提案手法は，段階的なマルチステージ学習により，制御可能な動画編集において最先端の性能を達成した。
Link: https://arxiv.org/abs/2603.02175
Track4World：前方伝播による世界中心の稠密3Dトラッキング [cs.CV]目的：単眼動画の全ピクセルの3D軌跡推定
- 動画の3D動態を包括的に理解する上で，3D軌跡推定は不可欠である。
- 既存手法は，最初のフレームの疎な点のみを追跡するか，稠密トラッキングのための最適化が遅い。
- 本研究は，全ピクセルの効率的な3Dトラッキングを実現する。
- 提案手法Track4Worldは，世界中心座標系で効率的な3Dトラッキングを可能にする。
- ViTを基盤とし，新規な3D相関スキームを用いて2D/3D稠密フローを同時に推定する。
- 複数のベンチマークにおいて，既存手法を上回り，ロバスト性とスケーラビリティを示す。
Link: https://arxiv.org/abs/2603.02573
ゲート付き微分線形注意：高精度な医療画像セグメンテーションのための線形時間デコーダ [cs.CV]目的：高精度な医療画像セグメンテーションのための線形時間デコーダの実現
- 医療画像セグメンテーションは，正確な診断と治療計画に不可欠であり，臨床応用が求められている。
- Transformerは高性能だが計算コストが高く，CNNは効率的だがグローバルな推論が苦手である。
- 線形注意の不安定性や注意の希薄化を改善し，高精度かつ効率的なセグメンテーションを実現する。
- 提案手法PVT-GDLAは，CT，MRI，超音波，皮膚鏡検査など複数のベンチマークにおいて最先端の精度を達成した。
- パラメータ数は既存手法と同程度でありながら，FLOPsを削減し，計算効率を向上させた。
- 臨床環境やリソースが限られた環境での，高速かつスケーラブルな高精度な医療画像セグメンテーションへの道を開く。
Link: https://arxiv.org/abs/2603.02727
拡散モデルを用いた画像合成のための複数影生成：MultiShadow [cs.CV]目的：複数オブジェクトの影生成
- 画像合成において，写実的な影は重要な要素である。現実感のある合成結果を得るために不可欠。
- 既存手法は単一オブジェクトに焦点を当てており，複数オブジェクトの合成における影の一貫性が課題。
- 複数オブジェクトの影を，幾何学，付着，位置関係において整合性のある形で生成することを目指す。
- 本手法は，事前学習済みのテキスト-画像拡散モデルの多様性を活用し，高品質な影を生成する。
- 画像パスとテキストパスを組み合わせ，オブジェクトのバウンディングボックス情報を効果的に利用することで，空間的な整合性を高める。
- DESOBAv2データセットを拡張し，複数オブジェクトを含む合成シーンを構築することで，学習データの多様性を確保した。
Link: https://arxiv.org/abs/2603.02743
IoUCert：アンカーベースの物体検出器に対するロバスト性検証 [cs.LG, cs.AI, cs.CR, cs.CV]目的：アンカーベースの物体検出器のロバスト性検証
- 画像認識の分野で形式的なロバスト性検証が重要視される中，物体検出への応用は課題であった。
- 複雑な非線形変換やIoU指標により，物体検出におけるロバスト性保証は困難であった。
- アンカーベースの物体検出器における物体位置のロバスト性を検証する手法を確立する。
- IoUCertは，非線形ボックス予測関数の緩和を回避し，アンカーボックスオフセットに対して直接最適化を行う。
- 新しい区間境界伝播法により，最適なIoU境界を導出することに成功した。
- SSD，YOLOv2，YOLOv3などの現実的なモデルに対して，入力摂動に対するロバスト性検証を初めて実現した。
Link: https://arxiv.org/abs/2603.03043
DMD拡張非ペアニューラルシュレーディンガーブリッジによる超低磁場MRI画質の向上 [cs.RO, cs.CV, cs.AI, cs.LG]目的：超低磁場脳MRIの画質向上
- 脳MRIは臨床診断に不可欠だが，高価な装置と専門知識が必要。
- 超低磁場MRIは低コストだが，画質が従来のMRIに劣る。
- 非ペアデータを用いた画質変換により，超低磁場MRIの実用化を目指す。
- 提案手法は，DMD2スタイル拡散ガイド分布マッチングにより，ターゲット分布への整合性を強化する。
- PatchNCEと解剖学的構造保存正則化により，大域的な構造を明示的に制約する。
- 評価実験により，提案手法が現実感と構造的忠実性のバランスを改善することが示された。
Link: https://arxiv.org/abs/2603.03769
腫瘍フロー：物理に基づいたグリオブラストーマ成長の縦断的MRI合成 [cs.CV]目的：グリオブラストーマの成長に関する縦断的MRI合成手法
- グリオブラストーマは浸潤性が高く，患者ごとに異質な成長パターンを示すため，正確な診断が困難である。
- 従来のMRIでは腫瘍の全範囲を捉えきれず，治療計画や経過観察に課題がある。
- 物理モデルに基づいたMRI合成により，腫瘍の浸潤と進行をより正確に予測することを目指す。
- 本手法は，腫瘍濃度場から生物学的に妥当な3D脳MRI画像を合成し，時間経過に伴う腫瘍の成長を再現する。
- 生成されたMRIシーケンスは，時間的に一貫性があり，腫瘍の変化と周囲組織への影響をリアルに表現する。
- 縦断的予測において，バイオフィジカルモデルとのDice係数は75%を維持し，周囲組織のPSNRは25で一定である。
Link: https://arxiv.org/abs/2603.04058
NOVA3R：非ピクセルアラインメント型Visual Transformerによるアモダル3D再構成 [cs.CV]目的：非ピクセルアラインメント3D再構成手法
- 3D再構成は，ロボティクスやAR/VRなど幅広い分野で重要な技術である。
- 従来のピクセルアラインメント型手法では，ピクセル精度に依存し，不完全な再構成や重複構造が生じやすい。
- ピクセルアラインメントから独立したグローバルなシーン表現を学習し，完全かつ物理的に妥当な3D再構成を目指す。
- NOVA3Rは，複数の未ポーズ画像から，フィードフォワード方式で効果的な3D再構成を実現する。
- シーン・トークン機構と拡散ベースの3Dデコーダにより，視点に依存しないシーン表現を学習し，可視/不可視領域の両方を高精度に再構成する。
- 実験の結果，既存の最先端手法と比較して，再構成精度と完全性の点でNOVA3Rが優れていることが示された。
Link: https://arxiv.org/abs/2603.04179
lacuneおよび拡張血管周囲腔の同時検出のための統合的フレームワーク [cs.DC, cs.FL, cs.CV]目的：lacuneおよび拡張血管周囲腔の同時検出のためのフレームワーク
- 脳小血管疾患の早期発見は，認知症予防や脳卒中リスク評価において重要である。
- lacuneと拡張血管周囲腔は画像上の類似性が高く，正確な自動検出が困難である。
- 両者の特徴的形状を利用し，画像解析における誤検出を抑制することを目指す。
- 提案手法は，VALDO 2021データセットにおいて，lacune検出の精度・F1スコアで既存手法を上回った。
- Zero-Initialized Gated Cross-Task Attentionにより，拡張血管周囲腔の情報がlacune検出に有効に活用された。
- 外部EPADデータセットでの評価により，大規模な集団研究への適用可能性が示された。
Link: https://arxiv.org/abs/2603.04243
ガウシアンワードローブ：自由形式のバーチャル試着のための構成的3Dガウシアンアバター [cs.CV, cs.GR]目的：構成的な3Dニューラルアバターのデジタル化
- バーチャル環境における人間表現のリアリティ向上は，エンターテイメントやコミュニケーションの質を高める上で重要である。
- 既存手法では，人体と衣服が一体として扱われ，複雑な衣服の動きや異なる個人への再利用が困難である。
- 衣服を独立した層として扱うことで，自由形式の衣服のダイナミクスを捉え，衣服の汎用性を高めることを目指す。
- 本研究では，複数枚の衣服層からアバターを構築する新しい構成的な3Dガウシアン表現を提案する。
- 提案手法は，衣服層をマルチビュー動画から分離し，形状に依存しない空間に変換することで，高精度なアバターのモデリングを可能にする。
- 実験の結果，新しい姿勢合成ベンチマークで最先端の性能を達成し，衣服を異なる被験者に自由に転送可能なバーチャル試着アプリケーションを実現した。
Link: https://arxiv.org/abs/2603.04290
格子構造を必要としない単調比較静学 [cs.CL, econ.TH, cs.GT]目的：単調比較静学の理論の拡張
- 経済学やゲーム理論における政策や行動の変化の影響分析に不可欠な理論である。
- 従来の理論は格子構造を必要とし，混合戦略ゲームなどへの適用が制限されていた。
- 格子構造を必要としない拡張された理論を構築し，適用範囲を広げる。
- 従来の理論の主要な結果を，より弱い「擬格子性」を用いて維持することに成功した。
- この枠組みにより，擬準超モジュラーゲームへの比較静学の適用が可能になった。
- 混合戦略ナッシュ均衡および震え手完全均衡の比較静学分析を初めて実現した。
Link: https://arxiv.org/abs/1911.06442
自己教師あり音声表現における話者固有属性の大規模プロービング分析 [eess.AS, cs.SD]目的：自己教師あり音声学習モデルにおける話者固有情報の符号化機構
- 音声処理システムの信頼性向上には，その内部動作の解釈可能性が不可欠である。
- 自己教師あり学習モデルがどのように話者情報を符号化しているかは未解明な部分が多い。
- 音声モデルの層ごとの表現が，話者情報をどの程度保持しているかを明らかにする。
- 初期層は基本的な音響特徴を，中間層は抽象的な特性を符号化するという階層構造が確認された。
- 深層においては，モデルサイズが大きいほど話者識別能力が高いという，従来の認識とは異なる知見が得られた。
- 自己教師あり学習モデルの中間表現は，専用の話者埋め込みよりも動的な韻律をより良く捉えることが示された。
Link: https://arxiv.org/abs/2501.05310
MedFuncta：効率的な医療ニューラル場の学習のための統一的フレームワーク [eess.IV, cs.CV]目的：大規模医療データに対するニューラル場学習の統一的フレームワーク
- 医療画像解析は，高解像度化が難しく，連続的な信号の本質を捉えきれない離散表現に依存してきた。
- 単一事例のニューラル場は成功例があるものの，大規模医療データセットへの拡張が課題であった。
- 多様な医療信号に対するニューラル場学習を効率化し，大規模データへの適用を可能にすること。
- MedFunctaは，データを1次元潜在ベクトルにエンコードし，共有のメタ学習されたニューラル場を調整することで，データセット全体への汎化を可能にする。
- SIREN活性化関数における周波数パラメータωの導入と，層ごとの学習率との関係性を明らかにした。
- スパースな教師データを用いたスケーラブルなメタ学習戦略により，メモリ消費量を削減しつつ，高い性能を維持した。
Link: https://arxiv.org/abs/2502.14401
適応的脳腫瘍セグメンテーションのためのグラフベースマルチモーダル軽量ネットワーク [eess.IV, cs.CV]目的：適応的脳腫瘍セグメンテーションのためのグラフベースマルチモーダル軽量ネットワークの開発
- 脳腫瘍の正確なセグメンテーションは，診断，治療計画，予後予測において極めて重要である。
- 既存のセグメンテーションモデルは計算コストが高く，実用的な展開が困難であるという課題がある。
- 計算資源が限られた環境でも高精度なセグメンテーションを実現し，実用性を高めることを目指す。
- 提案手法GMLN-BTSは，BraTS 2017, 2019, 2021のベンチマークにおいて，軽量モデルとして最先端の性能を達成した。
- パラメータ数を従来の3D Transformersと比較して98%削減し，4.58Mのパラメータで高い精度を実現した。
- M2AE，G2MCIM，VRUMの3つの主要コンポーネントにより，効率的で高精度なセグメンテーションを実現している。
Link: https://arxiv.org/abs/2507.09995
BabyHuBERT：子どもの音声に特化した多言語自己教師あり学習による長時間の録音における話者分離 [eess.AS, cs.LG, cs.SD]目的：子どもの言語発達研究に不可欠な長時間の録音データにおける話者分離
- 子どもの言語発達研究において，自然な環境で得られた音声データは貴重な情報源である。
- 成人向けに訓練された音声モデルは，子どもの音声の特徴と異なるため，精度が低いという課題がある。
- 多様な言語の子どもの音声データに対応可能な，高精度な話者分離モデルを開発すること。
- BabyHuBERTは，40以上の言語の子どもの音声13,000時間で自己教師あり学習を行うことで，高い性能を実現した。
- 話者タイプ分類タスクにおいて，既存のモデル(W2V2-LL4300, HuBERT)を大きく上回り，F1スコア52.1%から74.4%を達成した。
- 特に，バヌアツやソロモン諸島などの低リソース言語において，HuBERTと比較して13.2点，15.9点の大幅な改善が見られた。
Link: https://arxiv.org/abs/2509.15001
人間のように選択する：医療画像のための説明可能なアクティブラーニング [eess.IV, cs.AI, cs.CV]目的：医療画像に対する効果的なサンプル選択戦略
- 医療画像解析では，モデルの学習に大量のラベル付きデータが必要不可欠である。
- 既存のアクティブラーニングは予測不確実性のみに依存し，臨床的に意味のある特徴学習を考慮していない。
- モデルが臨床的に重要な特徴に注目するように，アクティブラーニングのサンプル選択を改善すること。
- 提案手法は，予測性能と空間解釈性の両方を向上させる効率的なデータ選択を可能にする。
- BraTS，VinDr-CXR，SIIM-COVID-19の各データセットで，ランダムサンプリングと比較して高い精度を達成した。
- Grad-CAM可視化により，提案手法で学習したモデルが診断上重要な領域に注目していることが確認された。
Link: https://arxiv.org/abs/2602.13308
VoxKnesset：高齢話者モデリングのための大規模時系列ヘブライ語音声データセット [eess.AS, cs.CL, cs.LG, cs.SD, eess.SP]目的：高齢話者モデリングのためのヘブライ語音声データセット
- 音声処理技術は，高齢化社会において重要性が増している。話者の年齢変化に対応したシステムが求められている。
- 既存のデータセットでは，長期的な話者変化を評価するための十分なデータが不足している。
- 本研究は，話者の年齢変化を考慮した音声処理システムの開発を支援することを目的としている。
- VoxKnessetは，2009年から2025年までのヘブライ語議会音声約2,300時間を収録した大規模データセットである。
- 最良のモデルにおいて，15年間の話者認証EERは2.15%から4.58%に上昇し，時系列的に訓練されたモデルは話者の年齢変化を捉えることができた。
- 本データセットとパイプラインを公開することで，高齢化に強い音声システムの開発を促進する。
Link: https://arxiv.org/abs/2603.01270