arXiv雑要約

画像・音声 - 2026/04/29 公開

深層学習と手動特徴の融合による心音図からの小児先天性心疾患の自動検出 [cs.LG, cs.CV]目的：小児先天性心疾患の早期自動検出
- 先天性心疾患は出生直後の主要な疾患であり，早期発見が重要である。
- 専門医の判断にばらつきがあり，診断の遅れや誤診が生じる可能性がある。
- 心音図を用いた，低コストでアクセス可能な検査法の開発を目指す。
- 提案モデルは，患者単位で70%の学習，20%の検証，10%のテストの分割において，92%の精度を達成した。
- 感度と特異度も91%であり，受取動作特性曲線下面積（AUROC）は96%，F1スコアは92%であった。
- 本モデルは，低リソース環境における費用対効果の高いスクリーニングツールとして，効率的なリアルタイム遠隔検出を可能にする。
Link: https://arxiv.org/abs/2604.24767
高齢者音声合成による高齢者向け自動音声認識データ拡張 [cs.CL, cs.SD]目的：高齢者向け自動音声認識のデータ不足に対する解決策
- 高齢化社会の進展に伴い，高齢者の音声認識技術の重要性が増している。
- 高齢者の音声は特徴が多様であり，学習データが不足しているため，認識精度が低い。
- 既存のデータを拡張し，認識精度を向上させることで，実用的なシステム構築を目指す。
- 大規模言語モデルによる高齢者向け言い換えとテキスト読み上げ合成を組み合わせたデータ拡張パイプラインを提案。
- 提案手法は，英語と韓国語の高齢者音声データセットで，従来のデータ拡張手法を上回る性能改善を実現。
- 特に，Whisperベースラインと比較して，語彙誤り率を最大58.2%削減。
Link: https://arxiv.org/abs/2604.24770
MotionBricks：モジュール型潜在的生成モデルとスマートプリミティブを用いたスケーラブルなリアルタイムモーション [cs.RO, cs.AI, cs.GR, cs.LG]目的：スケーラブルなリアルタイムモーション生成のためのフレームワーク開発
- モーション生成技術は発展しているが，リアルタイムインタラクティブ制御は伝統的な手法に頼っている現状がある。
- リアルタイム性，大規模なモーションスキルセットの生成，多様な制御への対応が課題となっている。
- モーション生成の品質とスケーラビリティを両立させ，多様な制御インターフェースを提供する。
- MotionBricksは，35万件以上のモーションクリップを単一モデルで効率的に学習可能。
- オープンソースおよび独自のデータセットにおいて，最先端のモーション品質を達成。リアルタイム処理速度は15,000 FPS，遅延は2ms。
- アニメーションデモや二足歩行ロボットUnitree G1を用いた実験で，汎用性と実用性が確認された。
Link: https://arxiv.org/abs/2604.24833
ESICA：テキスト誘導3D医療画像セグメンテーションのためのスケーラブルなフレームワーク [cs.CV]目的：テキスト誘導3D医療画像セグメンテーションの精度向上と効率化
- 医療画像解析は，疾患診断や治療計画において不可欠であり，自動化技術の発展が求められている。
- 既存のテキスト誘導セグメンテーション手法は，計算コストが高く，解像度が低いという課題があった。
- ESICAは，これらの課題を解決し，臨床現場での実用性を高めることを目指している。
- ESICAは，類似度行列に基づいたマスク予測と効率的なデコーダーにより，セマンティックなアライメントと高精度な体積復元を実現した。
- CVPR BiomedSegFMベンチマークにおいて，最先端のセグメンテーション精度を達成した。
- 軽量版ESICA4 Liteは，パラメータ数を削減しつつ，同等の性能を維持することで，効率と精度のバランスを改善した。
Link: https://arxiv.org/abs/2604.24876
拡散モデルにおける照明制御の学習 [cs.CV, cs.AI, cs.LG, eess.IV]目的：拡散モデルにおける照明制御の学習パイプライン
- 写真や視覚コンテンツ制作において，照明制御は不可欠な技術である。
- 既存のオープンソースモデルは，深度マップ等の複雑な入力が必要か，データやコードが公開されていない。
- 本研究は，完全にオープンソースで再現可能な照明制御手法を確立することを目指す。
- 本研究で開発したパイプラインは，well-lit画像から照明制御用の学習データセットを生成する。
- 生成されたデータセットを用いて拡散モデルをファインチューニングすることで，ベースラインモデルよりも高い性能を達成した。
- 全てのコード，データ，モデルウェイトを公開し，再現性を担保した。
Link: https://arxiv.org/abs/2604.24877
VibeToken：1次元画像トークナイザーと自己回帰モデルの動的解像度生成への拡張 [cs.CV, cs.LG]目的：動的な解像度に対応した画像生成手法の開発
- 画像生成技術は，コンテンツ制作やデータ拡張など，様々な分野で重要性が増している。
- 従来の自己回帰モデルは解像度が高くなるほど計算コストが増大するという課題があった。
- 解像度に依存せず効率的な画像生成を可能にする新しいトークナイザーと生成モデルの提案。
- VibeTokenは，画像を32-256個のトークンからなる動的な系列に変換する1次元Transformerベースの画像トークナイザーである。
- VibeToken-Genは，VibeTokenを活用し，任意の解像度に対応した自己回帰生成器であり，計算資源を大幅に削減する。
- 1024x1024画像生成において，拡散モデルと比較して同等以上の性能 (3.94 gFID) を，より少ない計算量で実現した。
Link: https://arxiv.org/abs/2604.24885
ユーザからのフィードバックを用いたインタラクティブなエピソード記憶 [cs.CV]目的：自然言語による質問に対応するエピソード記憶のインタラクティブな改善
- 個人の行動記録を活用し，記憶想起を支援する技術は，日常生活のサポートに不可欠である。
- 自然言語による質問は曖昧になりやすく，一度の検索では適切な回答が得られない場合がある。
- ユーザからのフィードバックを通じてモデルを改善し，実用的なエピソード記憶システムを実現すること。
- 本研究では，ユーザからの質問とフィードバックを用いた新たなタスク（EM-QnF）を提案し，モデルの予測精度向上を示した。
- 軽量な学習手法とFeedback ALignment Module (FALM)により，既存のモデルに容易にフィードバック機能を組み込めることを示した。
- ３つのベンチマークにおいて最先端技術を上回り，大規模言語モデルと遜色ない性能でありながら効率的であることを実証した。
Link: https://arxiv.org/abs/2604.24893
VISION-SLS：学習された視覚表現を介したシステムレベル合成による安全な知覚ベース制御 [cs.RO, cs.CV, cs.LG, cs.SY, eess.SY, math.OC]目的：高解像度RGB画像からの非線形出力帰還制御手法
- ロボット工学において，環境認識と制御は不可欠であり，安全性の確保が重要課題である。
- 従来の制御手法では，高次元の視覚情報処理と安全性の保証が困難であった。
- 学習された視覚表現とシステムレベル合成を組み合わせることで，安全性を保証しつつスケーラブルな制御を実現する。
- VISION-SLSは，不確実性，ノイズ，非線形ダイナミクス下においても，安全な制約充足を保証する。
- 事前学習済みの視覚特徴から低次元の観測マップを学習し，状態依存エラー境界を確立することで，スケーラビリティと保証を両立する。
- シミュレーションと実機実験の両方で，安全な情報収集行動と高い安全性率を実証した。
Link: https://arxiv.org/abs/2604.24894
リモートセンシングのためのエージェントAI：技術的課題と研究方向 [cs.CV]目的：リモートセンシングにおける多段階分析ワークフローの実現
- 地球観測は，静的な予測から，データ，ツール，地理空間状態を連携させた推論を必要とする多段階分析へと進化している。
- 汎用的なエージェントAIの枠組みでは，地理参照データ特有の制約や誤差伝播の問題に対処できない。
- 地理空間状態，ツール認識，検証に基づく実行，妥当性評価を含む，地球観測に特化したエージェント設計を提案する。
- 汎用エージェントAIモデルの暗黙の前提が，地理空間ワークフローにおいてどのように破綻するかを分析した。
- 地理空間および物理的妥当性に合致した学習目標を設定することで，信頼性の高い地理空間エージェントを構築する必要性を示した。
- 地球観測特有のベンチマーク，ハイブリッド学習，制約付き自己改善，軌跡レベル評価などの研究方向性を提示した。
Link: https://arxiv.org/abs/2604.24919
Libra-VLA：非同期粗調整・微調整二重システムによる学習均衡の達成 [cs.RO, cs.AI, cs.CL, cs.CV]目的：ビジョン・言語・行動モデルにおける学習均衡の達成
- 汎用的なロボット操作を実現するため，高レベルな指示を具体的な行動に落とし込むVLAモデルの重要性が高まっている。
- 既存手法は，視覚・言語情報を直接低レベルのモーター制御に変換するため，複雑な行動の階層構造を捉えきれていない。
- 本研究は，粗調整と微調整の二重システムにより学習の複雑さを分離し，VLAモデルの性能向上を目指す。
- 提案手法Libra-VLAは，粗調整段階で行動の方向性を決定し，微調整段階で精密な位置合わせを行うことで，学習のバランスを取っている。
- 実験結果から，行動分解の粒度が学習難易度と釣り合う点がピーク性能を示すことが明らかになった。
- 非同期設計により，提案手法はスケーラブルで堅牢かつ応答性の高いオープンワールド操作を実現する。
Link: https://arxiv.org/abs/2604.24921
S-SONDO：汎用オーディオ基盤モデルのための自己教師あり知識蒸留 [cs.NI, cs.PF, cs.AI, cs.SD]目的：汎用オーディオ基盤モデルの知識蒸留によるモデル圧縮
- 近年，多様なタスクで高性能な汎用オーディオ基盤モデルが開発されている。
- 最先端モデルは巨大であり，推論コストが高く，エッジデバイスへの展開が困難である。
- 埋め込み出力のみを出力するモデルでも知識蒸留を可能にし，モデル圧縮を促進する。
- S-SONDOは，教師モデルの出力埋め込みのみを用いて知識蒸留を行う初のフレームワークである。
- アーキテクチャに依存せず，幅広い埋め込みベースの教師モデルに適用可能である。
- 教師モデルの性能を最大96%維持しつつ，最大61倍までモデルを小型化できることが示された。
Link: https://arxiv.org/abs/2604.24933
風景動画における主観的な人物領域クロッピングと時間的注釈平滑化 [cs.CL, q-bio.NC, cs.CV]目的：風景動画における人物領域クロッピングに関する大規模データベースの構築と評価
- モバイルデバイスでの動画視聴が普及し，多様な画面サイズに対応する必要性が高まっている。
- 静的なクロッピングや境界線の追加では画質が低下し，歪みは動画の意味を変えてしまう可能性がある。
- 動画の内容を損なわずに，適切なクロッピングを実現するための客観的な基準を確立すること。
- 新たに構築したLIVE-YT VCデータベースは，1800本の動画と90人の被験者による注釈を含む，公開されている中で最大規模の動画クロッピングデータベースである。
- データベースに対し，時間的な平滑化フィルターを適用したLIVE-YT VC++を開発し，注釈の信頼性を向上させた。
- SmartVidCropアルゴリズムや最先端のビデオグラウンディングモデルを用いて，本データベースの有用性を実証し，今後の研究のベンチマークとしての活用を促す。
Link: https://arxiv.org/abs/2604.24947
ノイズの多い嗜好からの学習：直接嗜好最適化への半教師あり学習アプローチ [eess.SY, cs.SY, cs.CV, cs.AI]目的：ノイズを含む嗜好データを用いた，直接嗜好最適化の性能向上
- 人間の視覚的嗜好は複雑であり，その理解は画像生成AIの品質向上に不可欠である。
- 既存のデータセットは単純な勝敗データのみ提供するため，多次元的な嗜好を捉えきれていない。
- 多次元的な嗜好を反映した，ノイズの多い嗜好データからの学習方法を確立すること。
- 提案手法Semi-DPOは，一貫性のあるペアをクリーンなラベルデータ，矛盾するペアをノイズとみなし学習する。
- まず，合意フィルタリングされたクリーンなサブセットで学習し，そのモデルを暗黙の分類器として利用する。
- ノイズのあるデータセットに対する疑似ラベル生成と反復的な改良により，最先端の性能を達成した。
Link: https://arxiv.org/abs/2604.24952
ViPO：大規模な視覚的嗜好度最適化 [cs.CV, cs.AI]目的：視覚的生成モデルの改善のための嗜好度最適化手法
- 視覚的生成モデルの性能向上には，人間の嗜好を反映した学習が不可欠である。
- 既存の嗜好度データセットには，矛盾した嗜好パターンが含まれている場合が多い。
- ノイズの多いデータセットに対するロバストな嗜好度最適化手法を開発すること。
- 提案手法Poly-DPOは，データセットの特性に基づいてモデルの確信度を動的に調整する多項式項を追加することで，ノイズに対するロバスト性を高める。
- 大規模な視覚的嗜好度データセットViPOを構築し，高品質なデータによって標準的なDPOでも良好な結果が得られることを示した。
- ノイズの多いデータセットでは，Poly-DPOがDiffusion-DPOを上回り，ViPOを用いた学習では既存のデータセットを上回る性能を達成した。
Link: https://arxiv.org/abs/2604.24953
Nemotron 3 Nano Omni：効率的でオープンなマルチモーダル知能 [cs.LG, cs.AI, cs.CV]目的：マルチモーダル知能モデルの性能向上
- AI技術の発展は，社会の様々な分野において革新をもたらす可能性を秘めている。
- 既存のマルチモーダルモデルは，計算コストが高く，推論速度が遅いという課題がある。
- 効率性と性能を両立する，新しいマルチモーダルモデルの開発が求められている。
- Nemotron 3 Nano Omniは，テキスト，画像，音声，動画の入力に対応し，既存モデルよりも高い精度を実現した。
- アーキテクチャの改良，学習データの拡充，推論最適化により，低遅延かつ高スループットな処理が可能となった。
- モデルチェックポイントや学習データの一部を公開し，今後の研究開発を促進する。
Link: https://arxiv.org/abs/2604.24954
新たなネットワークの形？ニューラル・セル・オートマトンに関するレビューと参照実装 [cs.CV]目的：ニューラル・セル・オートマトンに関する既存研究のレビューと，統一的なモジュールフレームワーク及び参照実装
- 複雑な系のモデル化において，微分方程式等の既存の数学的定式化の代替案が求められている
- セル・オートマトンは有望視されつつも，科学的応用における大きな進展は限定的であった
- ウォルフラムのアイデアとニューラルネットワークを組み合わせたニューラル・セル・オートマトンの可能性を探る
- ニューラル・セル・オートマトンは，データサンプルからセル・オートマトンの複雑な更新ルールを学習可能である
- 本研究では，統一的なフレームワークと表記法を提示し，NCAtorchによる参照実装を提供する
- これにより，複雑で自己組織化する生成システムのモデル化への応用が期待される
Link: https://arxiv.org/abs/2604.24990
パワーフォーム：リアルタイム微分可能レイトレーシングとラスタライズの統合 [cs.GR, cs.CV]目的：リアルタイム微分可能レンダリングのための統一的表現
- リアルタイムレンダリング技術は，ゲームやシミュレーションなど幅広い分野で重要である。
- レイトレーシングとラスタライズはそれぞれ長所・短所があり，両者の統合が課題であった。
- 既存の表現の限界を克服し，効率的なレイトレーシングとラスタライズを両立させる。
- 提案手法であるパワーフォームは，効率的なレイトレースと競争力のあるラスタライズ性能を両立している。
- パワーフォームは，制御可能なセル範囲を持つパワーダイアグラムを用いることで，ラスタライズの効率化を実現している。
- 表面の向きを明示的にモデル化することで，幾何学と外観を分離し，微分可能なテクスチャを埋め込むことを可能にした。
Link: https://arxiv.org/abs/2604.24994
DouC：学習不要のオープンボキャブラリセグメンテーションのための二分岐CLIP [cs.CV]目的：オープンボキャブラリセマンティックセグメンテーションにおける性能向上
- 画像認識の分野において，既存のカテゴリに限定されない柔軟なセグメンテーションが求められている。
- CLIPベースのアプローチは汎化性能が高いが，局所的なトークンの信頼性や空間的な一貫性に課題がある。
- 局所的な信頼性と構造的情報を統合し，セグメンテーション精度を向上させることを目指す。
- DouCは，学習不要で二つの分岐を持つCLIPフレームワークを提案し，局所的な信頼性と構造的情報を同時に考慮する。
- OG-CLIPは推論時にトークンゲーティングを行い，FADE-CLIPは外部の構造的情報を注入することで，パッチレベルの信頼性を高める。
- 8つのベンチマークにおいて，DouCは既存手法を凌駕し，モデルの容量に応じて性能が向上することを示した。
Link: https://arxiv.org/abs/2604.24997
BifDet：気道樹モデリングのための3D分岐検出データセット [cs.CV, cs.AI]目的：3D気道分岐検出のためのデータセット
- 呼吸器疾患の理解に不可欠な気道樹の構造解析において，分岐点の分析が重要である。
- 分岐点検出のための注釈付きデータセットが不足しており，自動検出ツールの開発が阻害されている。
- 3D気道分岐検出に特化した公開データセットを提供し，関連研究の進展に貢献すること。
- 本研究で公開したBifDetデータセットは，気道分岐検出のための重要なリソースとなる。
- RetinaNetおよびDETRを微調整し，CTスキャンにおける3D気道分岐検出の性能を評価した。
- 様々な最小バウンディングボックスサイズで詳細な結果を提供し，今後の研究のベンチマークとして活用できる。
Link: https://arxiv.org/abs/2604.24999
後悔アルゴリズムの階層 [cs.GT]目的：二人プレイヤーゲームにおける後悔アルゴリズムのユーティリティに関する研究
- ゲーム理論において，合理的プレイヤーの行動を予測・分析する上で重要な役割を果たす。
- 後悔最小化アルゴリズムの性能は，対戦相手の戦略に大きく依存する点が課題である。
- 後悔の強さの違いがプレイヤーのユーティリティに与える影響を明らかにすること。
- 多くのゲームにおいて，より強い後悔保証を持つno-swap-regretアルゴリズムが，必ずしもプレイヤーにとって有利ではないことが示された。
- この現象の根本原因は，no-swap-regretアルゴリズムがno-regretアルゴリズムよりも学習速度が遅いことにある。
- 学習速度を調整することで，両アルゴリズム間のユーティリティの差を縮小できることが確認された。ただし，特定のゲームにおいてはno-swap-regretアルゴリズムが優位性を示す場合もある。
Link: https://arxiv.org/abs/2604.25045
ShapeY：最近傍探索による形状認識能力を測る原理的なフレームワーク [cs.CV]目的：形状認識能力の評価
- 人間は形状情報を頼りに物体を認識する。AIにおける形状認識の重要性は高い。
- 深層ネットワークは，テクスチャなどに依存し，形状認識の汎化性能が低い場合がある。
- 形状に基づく認識能力を評価し，人間の形状認識に迫るAIシステムを目指す。
- ShapeYは，200種類の3Dオブジェクトの画像を様々な視点から生成し，形状認識能力を評価するフレームワークである。
- 最近傍探索タスクにより，3D形状の類似性に基づいた物体視点のクラスタリングを評価する。
- 多くの事前学習済みネットワークは，視点や外観の変化に対して頑健な形状認識が困難であるという課題が明らかになった。
Link: https://arxiv.org/abs/2604.25065
非対称情報資源配分ゲーム：意図的な欺瞞に対する線形計画法アプローチ [cs.GT, cs.MA, cs.SY, eess.SY]目的：意図的な欺瞞を伴う資源配分
- 資源配分は，セキュリティや経済学において重要な問題であり，最適な戦略決定が求められる。
- 従来のゲーム理論では，プレイヤーが常に真実を伝える前提があり，欺瞞の存在を考慮していない。
- 欺瞞がパフォーマンス向上に繋がる場合，その戦略を特定し，最適な資源配分を導く。
- 提案する線形計画法により，効率的かつ反復的でないアプローチで，Perfect Bayesian Nash Equilibrium (PBNE) を求めることが可能。
- シミュレーション結果から，効果的な資源配分と信念操作のバランスが自然に成立し，欺瞞的な行動が創発されることが示された。
- 欺瞞は，攻撃者を真の資産から逸らすために戦略的に行われ，防御側のパフォーマンスを向上させる。
Link: https://arxiv.org/abs/2604.25070
補助識別子を必要としないスケーラブルな安全な生体認証 [cs.CR, cs.AI, cs.CV, cs.LG]目的：大規模生体認証システムの安全性確保
- 利便性から生体認証利用が増加しており，パスワード不要化が期待される。
- クラウドデータベースの漏洩は，登録された大量の生体情報を危険に晒す重大な問題である。
- データベース漏洩に対する安全性を保証しつつ，実用的なスケーラビリティと性能を実現すること。
- 本研究は，補助識別子なしで実用的なプライバシー保護生体認証が可能であることを初めて示した。
- AIと高度な暗号技術を組み合わせることで，データ漏洩に対する証明可能なセキュリティを確保した。
- 提案システムはスケーラブルかつ高性能であり，産業界での普及とさらなる研究を促進すると考えられる。
Link: https://arxiv.org/abs/2604.25071
精度を超えて：統一マルチモーダルモデルにおけるクロス task 一貫性のベンチマーク [cs.CV]目的：統一マルチモーダルモデルにおけるクロス task 視覚的意味の一貫性の評価
- 視覚理解と生成を統合するモデルは，多様な応用を可能にする重要な研究分野である。
- 既存の評価方法は，視覚理解と生成を独立して評価しており，意味的な整合性が不明である。
- 視覚概念に対する一貫性のある統合表現学習の状況を明らかにする。
- XTC-Benchは，シーングラフに基づいてクロス task 視覚的意味の一貫性を測定する評価フレームワークである。
- 生成プロンプトと理解クエリを構造化されたシーングラフから導出し，オブジェクト，属性，関係レベルでの事実の整合性を分析する。
- 実験の結果，高い生成または理解性能は必ずしも強いクロス task 整合性を示唆しないことが明らかになった。
Link: https://arxiv.org/abs/2604.25072
敵対的エージェントの最適監査 [cs.GT, cs.AI, cs.CY]目的：不正行為の検出と抑制のための監査方針
- 資源配分における不正は，社会サービスや信用供与など様々な分野で問題となる。
- エージェントが自己の利益のために虚偽の報告を行うことが，資源配分の公平性を損なう。
- 最適な監査方針を設計することで，不正行為を検出し，資源配分の効率性を高める。
- 複数のエージェントが存在する状況下での監査方針設計を，プリンシパル・エージェントゲームとして定式化した。
- 監査方針がエージェントの報告分布に応じて変化する適応的設定と，変化しない非適応的設定の両方について検討した。
- 両設定において最適な監査方針を計算するための効率的なアルゴリズムを提示し，監査予算が限られた状況への拡張も行った。
Link: https://arxiv.org/abs/2604.25085
一つの摂動，二つの失敗モード：埋め込み誘導タイポグラフィ摂動によるVLMの安全性検証 [cs.CV]目的：ビジョン言語モデル（VLM）の安全性に関する脆弱性の評価
- VLMは自律エージェントの基盤技術であり，その安全性の確保は不可欠である。
- 既存研究は攻撃成功率の最大化に偏り，安全対策が回避される理由が不明確である。
- 埋め込み距離と攻撃成功率の関係を解明し，VLMの安全性向上に貢献すること。
- マルチモーダル埋め込み距離と攻撃成功率の間には強い負の相関が認められた（r = -0.71〜-0.93）。
- 埋め込み距離を最小化することで攻撃成功率が向上するが，知覚的な可読性と安全対策が影響する。
- 最適化により可読性が回復し，安全対策による拒否反応が減少することが確認された。
Link: https://arxiv.org/abs/2604.25102
M$^3$-VQA：マルチモーダル，多エンティティ，多段階の視覚的質問応答のためのベンチマーク [cs.CL, cs.CV, cs.AI]目的：マルチモーダル大規模言語モデルにおける，詳細なマルチモーダルエンティティ理解と複雑な多段階推論の評価強化
- 視覚情報と言語情報を統合した理解は，AIの応用範囲を広げ，より高度な知能を実現する上で重要である。
- 既存のVQAデータセットは，粗いカテゴリと単一エンティティに関する単純な推論に焦点を当てており，複雑な状況への対応が困難である。
- 複数のエンティティと文書を対象とした，より高度な推論能力を必要とするVQAデータセットを構築し，評価すること。
- M$^3$-VQAは，マルチモーダル大規模言語モデルにおける知識獲得と推論に，依然として大きな課題が存在することを示した。
- 外部情報なしでは性能が低いものの，正確な証拠が与えられると大幅に向上し，構造化された推論の重要性が示唆された。
- 推論を意識したエージェントによる検索手法が，ヒューリスティックな手法を上回り，複雑なマルチモーダル理解には構造化された推論が不可欠であることが強調された。
Link: https://arxiv.org/abs/2604.25122
生成画像に対するリセット可能な初期潜在空間を通じた，テキストによる精密な画像編集 [cs.RO, cs.CV]目的：拡散モデルによって生成された画像の局所的な領域を修正し，全体構造を維持すること
- 拡散モデルの進歩により高品質な画像生成が可能になり，生成後の編集へのニーズが高まっている
- 既存の潜在空間反転手法では，初期潜在空間の質が低く，編集の忠実度や構造の一貫性が損なわれる場合がある
- 生成過程で潜在情報を組み込み，反転時に復元することで，より高品質な編集を可能にすること
- ResetEditは，拡散過程に潜在空間の差異を注入し，それを反転時に抽出することで，真の開始状態に近い潜在空間を再構築する
- VAEの非対称性による再構成バイアスを補正するための軽量な潜在空間最適化モジュールも組み込まれている
- Stable Diffusion上で動作し，既存の編集手法と統合することで，制御性と視覚的な忠実度において最先端の基盤モデルを上回る性能を示す
Link: https://arxiv.org/abs/2604.25128
8DNA：分布学習による8次元ニューラルアセット光輸送 [cs.GR, cs.CV]目的：高忠実度3Dアセットの光輸送効果の事前焼き込み
- 現実的な3D描写には，複雑な光の相互作用の正確なシミュレーションが不可欠である。
- 従来の光輸送シミュレーションは計算コストが高く，特に複雑なアセットでは困難が生じる。
- ニアフィールド照明下での正確なレンダリングを可能にする，効率的な光輸送表現の実現。
- 8DNAは，従来の6次元関数に比べて，より高次元の8次元光輸送を学習することで，ニアフィールド照明下でのレンダリング精度を向上させている。
- 分布学習という新たな手法を採用することで，学習時の最適化のばらつきを低減し，少ない計算資源で効率的な学習を可能にしている。
- 実験結果は，8DNAが様々なシーン構成下でパストレースの結果とほぼ一致し，高速な推論速度を実現することを示している。
Link: https://arxiv.org/abs/2604.25129
韓国の愛嬌表現に見られるF1の系統的な上昇：幼い特徴の信号 [cs.CL, cs.CL, cs.SD, eess.AS]目的：韓国の愛嬌表現における母音空間の変化
- 社会的なコミュニケーションにおいて，年齢や性別といった社会的特徴が音声に影響を及ぼす点が重要である。
- 成人における愛嬌表現の音声的な特徴は十分に解明されておらず，そのメカニズムが不明である。
- 愛嬌表現における母音空間の変化を定量的に分析し，その音声的な特徴を明らかにすること。
- 愛嬌表現において，母音のF1値が有意に上昇し，前母音の母音空間が拡大することが確認された。
- このF1の上昇は，成人が子供の短い声道を模倣することで，幼い印象を演出している可能性を示唆する。
- 愛嬌表現は，母音空間の全体的な低下と部分的な前舌化によって特徴づけられることが示された。
Link: https://arxiv.org/abs/2604.25133
IAM：アイデンティティを考慮した人間の動作と形状の同時生成 [cs.CV]目的：人間の動作と形状の同時生成に関する研究
- 人間行動の理解は，ロボット工学やバーチャルリアリティなど，多様な分野で重要である。
- 従来の生成モデルは身体特徴を無視しており，物理的に不自然な動作となる場合がある。
- 身体特徴と動作の関連性を明示的にモデル化し，より現実的な動作生成を目指す。
- 提案手法は，自然言語と視覚情報を組み合わせることで，個人のアイデンティティを考慮した動作生成を可能にする。
- 動作と形状を同時に生成することで，身体特徴が動作に直接影響を与える状況を再現する。
- モーションキャプチャデータと実環境の動画を用いた実験により，生成された動作のリアリティとアイデンティティの一貫性が向上することが示された。
Link: https://arxiv.org/abs/2604.25164
マルチドメイン小売請求書デジタル化のための適応的改善を備えたOCRパイプラインのベンチマーク [cs.CV, cs.LG]目的：マルチドメイン小売請求書デジタル化のための知的な品質認識型適応的OCRパイプラインの提案とベンチマーク
- 小売業における請求書処理の自動化は，業務効率化とコスト削減に不可欠である。
- スキャン品質のばらつき，レイアウトの多様性，業界ごとの違いがデジタル化の課題となっている。
- 多様な小売業界の請求書に対し，高精度かつ高速なデジタル化を実現することを目指す。
- 提案システムは，18.4%の文字誤り率(CER)と27.6%の単語誤り率(WER)を達成し，Raw Tesseractと比較してそれぞれ26.4%と31.2%の改善を示した。
- テキスト密度は画像あたり108.3語，ノイズ比は2.3%であり，処理時間は画像あたり3.64秒で，EasyOCRと比較して6.4倍高速である。
- MEDIUMおよびLOW品質の画像に対する画像品質PSNR分析では，平均28.7dBの向上が確認され，有意な改善が示された。
Link: https://arxiv.org/abs/2604.25176
XGBoost駆動ルックアップテーブルによる軽量リアルタイムレンダリングパラメータ最適化 [cs.CV]目的：レンダリング時間と画質のバランスを最適化する手法
- ゲームやレンダリングエンジンにおいて，画質とリアルタイム性能の両立は常に重要な課題である。
- 既存手法は，事前計算に時間がかかる，ニューラルネットワークの推論コストが高い，汎用性に欠けるといった問題がある。
- 本研究は，軽量かつ汎用的なリアルタイムレンダリングパラメータ最適化フレームワークを開発し，上記の問題を解決する。
- LUT-Optは，オフラインでXGBoost回帰モデルを学習し，それをコンパクトなルックアップテーブルに変換する。
- ランタイムでは，このテーブルを参照することで，亜ミリ秒単位でパラメータを選択し，リアルタイム適応を可能にする。
- 実験の結果，サブサーフェススキャタリングのレンダリング時間を約40%，アンビエントオクルージョンを約70%削減し，画質への影響はわずか2%程度で済んだ。
Link: https://arxiv.org/abs/2604.25178
FCMBench-Video：ドキュメントビデオ知能のベンチマーク [cs.CL, cs.AR, cs.CV, cs.CE, cs.MM]目的：ドキュメントビデオ知能の評価基準
- 金融信用審査等において，正確性と証拠の追跡可能性が重要であり，ドキュメント理解能力が不可欠である。
- 従来の静止画とは異なり，ドキュメントビデオは時間的な冗長性や証拠の統合，真正性確認が必要となる。
- 現実的な条件下のドキュメントビデオ理解における，認識，時間的配置，証拠に基づく推論を評価する基準を確立する。
- FCMBench-Videoは，ドキュメントビデオ知能を評価するためのベンチマークとして構築された。495個の基本ビデオと1200個の長編ビデオで構成される。
- ビデオの長さに対するカウントの感度，複数ドキュメント間の検証，証拠に基づく選択によってシステム間の分離が確認された。
- FCMBench-Videoは，ドキュメントビデオ理解におけるVideo-MLLMの進捗を追跡し，信頼性の高い信用分野での能力境界を調査するための基準となる。
Link: https://arxiv.org/abs/2604.25186
ランダム膨張畳み込みとマルチブランチ特徴抽出，コンテキスト励起による画像分類 [eess.SY, cs.SY, cs.CV]目的：画像分類の精度向上
- 画像認識はコンピュータビジョンの基礎であり，様々な応用分野で重要である。
- 従来の畳み込みニューラルネットワークは，多規模コンテキスト情報の把握やノイズへの対応が課題であった。
- 本研究は，微細な特徴抽出と背景ノイズの抑制を同時に実現する画像分類モデルを提案し，精度向上を目指す。
- 提案手法RDCNetは，5つのベンチマークデータセットで最先端の分類精度を達成した。
- 競合手法と比較して，それぞれ0.02%，1.12%，0.18%，4.73%，3.56%の性能向上を示した。
- ランダム膨張畳み込み，微細特徴強調，コンテキスト励起モジュールが有効であることが検証された。
Link: https://arxiv.org/abs/2604.25188
Hu\'i S\`u：双方向フィードバック装置の共同構築 [cs.SD]目的：二つの知能を持つ楽器と演奏者間の双方向フィードバックループを通じた共同創造
- 音楽表現におけるAIの可能性を追求する研究は，新たな創造性の源泉となり得る。
- 従来のAI楽器は入力に対する予測可能な反応に留まり，自律的な音楽生成が課題であった。
- AI楽器の内部状態を記憶・再利用し，人間との交渉による音楽表現の創出を目指す。
- S\`uは潜在表現を介して音声領域で動作し，過去の音響履歴が音生成に影響を与える。
- Agentierは制御領域で機能し，制御ジェスチャーが再帰型ニューラルネットワークにフィードバックされる。
- 音声と制御のドメインにおけるフィードバックの対比を通じて，人間とAIの間の共有された能動性，抵抗，交渉を探求する。
Link: https://arxiv.org/abs/2604.25207
シームレスな月面モザイクに向けて：Chandrayaan-2 TMCデータを用いたセンサー間軌道画像に対する深層放射測度正規化 [cs.CV, astro-ph.IM]目的：多任務軌道画像からのシームレスな月面モザイク生成
- 月探査において，高精度な月面地図の作成は科学的理解と将来の活動計画に不可欠である。
- 異なるセンサーの画像間には放射測度の不一致があり，シームレスなモザイク作成の大きな課題となっている。
- 深層学習による放射測度正規化を用いて，月面モザイクの品質向上を目指す。
- 提案手法は，Chandrayaan-2 TMCデータとSELENEデータを用いて，放射測度の不一致を効果的に低減する。
- 構造類似性指標(SSIM)，ピーク信号対雑音比(PSNR)，二乗平均平方根誤差(RMSE)の評価により，従来のヒストグラムに基づく手法と比較して性能が向上することが示された。
- 本研究は，大規模惑星モザイクにおける学習ベースの放射測度正規化の有効性を示し，高忠実度な月面地図作成への応用可能性を示唆する。
Link: https://arxiv.org/abs/2604.25208
偽造者が裁判官であるとき：GPT-Image-2は自身の偽造文書を認識できない [cs.CV]目的：GPT-Image-2による文書偽造の検出性能評価
- AIによる画像編集技術の発展は，文書の信頼性に対する懸念を高めている。
- AIによる高度な文書偽造は，従来の検査方法では検知が困難になりつつある。
- GPT-Image-2による文書偽造に特化した検出手法の限界を明らかにすること。
- 人間による識別実験では，GPT-Image-2による偽造文書と原本の区別は偶然レベルであった。
- 既存のフォレンジックツールも，GPT-Image-2による偽造文書の検出に十分な性能を示さなかった。
- GPT-Image-2自身による自己評価においても，偽造検出能力は低い結果となった。
Link: https://arxiv.org/abs/2604.25213
DRAGON：図表に対する根拠に基づいた視覚的推論のベンチマーク [cs.CV, cs.AI, cs.CL]目的：図表における根拠に基づいた視覚的推論の評価
- 視覚的情報を理解するAIの重要性が増しており，図表の解釈能力は不可欠である。
- 既存モデルは正答率が高いものの，図の根拠に基づいた推論ができているか不明である。
- 図表から正答に至る根拠領域の特定を通して，推論の信頼性と解釈性を向上させる。
- DRAGONは，ChartQA，Circuit-VQA等6つの既存データセットから収集された11,664件の質問インスタンスを含む。
- 評価の結果，最新のVLMsでも，多様な図表領域において根拠領域を特定することが困難であることが示された。
- DRAGONは，図表推論の体系的な評価を可能にし，視覚的根拠に基づいた予測を行うモデルの研究を支援する。
Link: https://arxiv.org/abs/2604.25231
VLMジャッジは順位付けはできるがスコアリングはできない：マルチモーダル評価におけるタスク依存的不確実性 [cs.LG, cs.CL, cs.CV, stat.ML]目的：マルチモーダル評価におけるVLM（Vision-Language Model）ジャッジの信頼性評価
- マルチモーダルシステム評価において，VLMジャッジの利用が一般的になってきている。
- VLMジャッジのスコアだけでは，その信頼性を判断することが困難である。
- VLMジャッジのスコアから信頼区間を導き出し，タスクごとの不確実性を定量化すること。
- VLMジャッジの不確実性はタスクに強く依存し，美観や自然画像のタスクでは信頼区間が狭く，グラフや数学的推論のタスクでは広くなる。
- VLMジャッジは高い順位付け相関を示す一方で，信頼性の低い絶対スコアを生成する「順位付けとスコアリングの乖離」という問題が明らかになった。
- 信頼区間の幅は，主にタスクの難易度とアノテーションの品質に依存することが示された。
Link: https://arxiv.org/abs/2604.25235
音声保持型表情操作のためのパーソナライズされたクロスモーダル感情相関学習 [cs.CV]目的：音声保持型表情操作における感情操作の精度向上
- 感情豊かなコミュニケーションの実現には，表情の自然な操作が不可欠である。
- 表情操作において，同一人物の異なる表情と音声のペアデータが不足している。
- 視覚言語モデルの潜在能力を引き出し，個人差に適応した感情操作を実現する。
- 提案手法は，視覚情報に基づいたパーソナライズされたプロンプト学習により，感情表現の個人差を考慮したより詳細な視覚-意味的相関を確立する。
- さらに，特徴量差分を用いることで，視覚的特徴の変化と意味的特徴の変化を一致させ，より正確な supervision を提供する。
- 様々なデータセットを用いた実験により，提案手法の有効性が確認された。
Link: https://arxiv.org/abs/2604.25255
大規模マルチモーダルモデルにおける視覚的無視と意味ドリフトの抑制：高精度なクロスモーダル検索に向けて [cs.CV]目的：クロスモーダル検索の性能向上
- マルチモーダルな情報処理は，人間のように多様な感覚情報を統合的に理解する上で不可欠である。
- 既存手法では，サンプルレベルでの学習に偏り，複雑なクエリにおける意味的な一貫性の維持が課題となっていた。
- 視覚的な重要な要素を明示的にモデル化することで，視覚情報の活用を促進し，検索精度を向上させる。
- 提案手法SSA-MEは，LMMと視覚専門家を活用し，画像-テキストペア内の重要な視覚的概念を特定・強調する。
- SSA-MEは，サリエンシーマップに基づく目的関数により，クロスモーダルな注意を意味のある領域に集中させ，特徴再生成モジュールで視覚特徴を調整する。
- MMEBベンチマークにおける実験により，提案手法が最先端の性能を達成し，主観レベルのモデリングがマルチモーダル検索を大幅に改善することが示された。
Link: https://arxiv.org/abs/2604.25273
OmniVTG：オープンワールド動画時間的グラウンディングのための大規模データセットと学習パラダイム [cs.CV]目的：オープンワールド動画時間的グラウンディングのための大規模データセットと学習パラダイム
- 動画理解は，人間と機械のコミュニケーションにおいて重要な役割を担う。そのため，精度向上が求められている。
- 既存データセットの規模と意味的多様性が限られており，一般的概念と稀有概念の性能格差が生じている。
- 大規模データセットと学習パラダイムにより，稀有概念のグラウンディング性能の向上を目指す。
- 新しい大規模データセットOmniVTGを構築し，セマンティックカバレッジ反復拡張パイプラインを活用した。
- Self-Correction Chain-of-Thought (CoT) 学習パラダイムを提案し，MLLMのグラウンディング能力を強化した。
- OmniVTGおよび既存のVTGベンチマークにおいて，最先端の性能を達成した。
Link: https://arxiv.org/abs/2604.25276
拡散生成モデルにおける時間条件付けの探求：分離されたノイズデータ多様体からのアプローチ [cs.LG, cs.CV]目的：拡散モデルにおける時間条件付けの役割の幾何学的分析
- 拡散モデルは画像生成などで注目されており，その性能向上が求められている。
- DDIMのような決定論的サンプリング法では，時間条件付けがないと性能が低下する問題がある。
- ノイズデータ多様体をフローマッチングに沿うように調整することで，時間条件付けなしで高画質生成を実現する。
- 拡散過程におけるノイズデータ分布は，高次元空間において低次元のハイパーシリンダー状多様体に集中する。
- DDIMの拡散過程を修正することで，時間条件付けなしでも高画質生成が可能となる。
- クラス条件生成においては，クラスを異なる時間空間に分離することで，クラス非条件のノイズ除去モデルでクラス条件合成を実現する。
Link: https://arxiv.org/abs/2604.25289
思考ピクセル：マルチモーダル拡散潜在空間における再帰的疎な推論 [cs.HC, cs.CV, cs.AI]目的：マルチモーダル拡散モデルにおける再帰的疎な推論の枠組み
- 拡散モデルは高品質なデータ合成に成功するが，複雑な構造的推論能力には限界がある。
- 言語モデルで進展している潜在的推論や再帰構造を，連続的な視覚トークンを持つ画像生成に適用するのが困難である。
- モジュール化された人間の認知にヒントを得て，拡散モデルに再帰的疎な専門家混合モデルを導入し，推論能力の向上を目指す。
- 提案手法は，ジョイントアテンション層内に再帰的要素を組み込み，効率的なパラメータ共有を実現する。
- ゲートネットワークが視覚トークン，拡散ステップ，条件情報に基づいて専門家モジュールを動的に選択する。
- ImageNetやGenEval，DPGベンチマークにおける評価で，提案手法が画像生成性能を向上させることが示された。
Link: https://arxiv.org/abs/2604.25299
DenseScout：エッジプラットフォームにおける予算制約下での微小物体選択のためのアルゴリズム・システム協調設計 [cs.CV, eess.IV]目的：予算制約下での微小物体選択
- エッジデバイスでのリアルタイム処理は，様々な応用において重要である。
- 既存の物体検出器は，低予算での微小物体選択には適していない。
- アルゴリズムとシステムを協調的に設計することで，エッジでの微小物体認識の性能向上を目指す。
- DenseScoutは，軽量な応答選択器であり，従来の検出器ベースの手法よりも低予算下での微小物体選択性能に優れる。
- 異機種のエッジデバイス(RK3588, Jetson Orin NX)上での実験により，性能は選択器の品質とランタイム実現効率に依存することが示された。
- エッジでの微小物体認識は，モデル選択ではなく，アルゴリズムとシステムの協調設計として最適化されるべきである。
Link: https://arxiv.org/abs/2604.25300
時間依存型処理時間を持つジョブスケジューリングゲーム [cs.GT]目的：時間依存型処理時間を持つジョブスケジューリングゲームにおける均衡の存在と効率性
- 現実のシステムでは，処理時間が開始時間に依存するケースが多い。サイバーセキュリティや高頻度取引など，多様な分野で重要。
- 従来のジョブスケジューリングゲームでは処理時間が固定と仮定されており，時間依存性を考慮した分析が不足していた。
- 遅延回避型エージェントの概念を導入し，時間依存型処理時間における均衡の存在条件と効率性を明らかにすること。
- 遅延回避型ジョブの場合，安定性が保たれ，純粋ナッシュ均衡が効率的に計算可能であることが示された。
- 遅延回避型でないジョブの場合，ナッシュ均衡が存在しない可能性があり，存在判定はNP困難であることが示された。
- SBPT，SDR，LBDRなどの調整メカニズムを提案し，価格の無秩序度（PoA）を改善することに成功した。
Link: https://arxiv.org/abs/2604.25301
強散乱媒体中における物理情報ニューロモルフィック斑点解析による高速追跡 [cs.CV, eess.IV]目的：強散乱媒体中における高速移動物体の追跡
- 視覚センシング技術は，ロボット工学や自動運転などの分野において不可欠である。
- 従来のカメラは，低照度環境下や散乱媒体中では，追跡性能が著しく低下する。
- 本研究は，ニューロモルフィックセンシングと斑点解析を組み合わせ，追跡性能の向上を目指す。
- 提案手法は，従来のシステムと比較して，10倍高速な動きと10倍暗い照明下での追跡を可能にする。
- 非同期イベントセンシングとタスク駆動型斑点解析を組み合わせることで，ロバストな運動推定を実現した。
- 時間的・空間的パラメータを最適化することで，極限状態下での追跡安定性を最大化する。
Link: https://arxiv.org/abs/2604.25310
ゴールデンRPG：構成的テキストから画像生成のための信頼度適応型領域認識ノイズ [cs.CV]目的：構成的テキストから画像生成における，複数のサブプロンプトに対応した画像領域の再現
- テキストから画像生成技術は，多様なコンテンツ作成を可能にする重要な研究分野である。
- 複雑なシーンにおける領域ごとのプロンプトの忠実な反映が課題となっていた。
- 領域ごとの情報を考慮し，より高精度な画像生成を実現することを目指す。
- 提案手法「Golden RPG」は，既存のRPGベンチマークとT2I-CompBenchにおいて，クロス領域一貫性スコアで最高の性能を達成した。
- 絶対的なCLIPスコアやCLIP-IQAにおいても，既存の最良手法と同等の性能を示した。
- ペア比較によるユーザー調査では，既存の最良手法と比較して約67%の好ましい結果が得られた。
Link: https://arxiv.org/abs/2604.25314
特徴量デコレーション：特徴量非相関によるニューラルネットワーク解釈性の向上 [cs.CV]目的：ニューラルネットワークの解釈性向上
- 深層学習の応用拡大に伴い，モデルの判断根拠の説明が重要になっている。
- 勾配に基づく解釈手法はノイズが多く，意味のある特徴と一致しにくいという課題がある。
- 特徴量間の相関を抑制することで，解釈の信頼性を高めることを目指す。
- SaliencyDecorは，特徴量非相関を促す学習フレームワークであり，既存の解釈手法やモデル構造を変更しない。
- 実験結果から，SaliencyDecorは，より鮮明で対象物に焦点を当てたサリエンシーマップを生成することが示された。
- また，予測精度も向上しており，解釈性と精度の従来のトレードオフを打破する可能性を示唆している。
Link: https://arxiv.org/abs/2604.25315