arXiv雑要約

画像・音声 - 2026/04/21 公開

部屋音響モデリングのための境界積分方程式のステート空間表現 [eess.AS, cs.SD]目的：部屋音響のステート空間モデル
- 建築音響は，快適な音環境設計に不可欠であり，その精度向上は重要である。
- 従来の音響モデルは計算コストが高く，リアルタイム処理が困難な場合がある。
- 境界積分方程式に基づくステート空間モデルで計算効率を高める。
- 境界積分演算子ステート空間 (BIOSS) モデルを提案し，積分演算子の物理的解釈を示した。
- BIOSS表現から，フィードバック型または並列フィードフォワード型の伝達関数表現が得られる。
- BIOSSフレームワークと既存の音響モデルとの等価性を示し，新たなモデル開発の可能性を示唆した。
Link: https://arxiv.org/abs/2604.16970
ランダム割り当てにおける分解羨望フリー性 [econ.TH, cs.GT]目的：ランダム割り当てにおける分解羨望フリー性の確立
- 公正な資源配分は社会経済活動の根幹であり，公平性の確保は重要課題である。
- 確率的優越羨望フリー性は公平性指標の一つだが，分解において新たな羨望が生じることがある。
- 分解における羨望を抑制し，より公平な割り当てを可能とする指標の提案。
- 確率的優越羨望フリーな割り当ては，３人以下または好みが２種類以下のエージェントに対して分解羨望フリーな分解を常に持つ。
- 分解羨望フリー性は，割り当て行列ではなく分解自体の特性として定義される。
Link: https://arxiv.org/abs/2604.16973
腸管10器官のコロナMRエンテログラフィーにおけるセグメンテーションのための二段階深層学習フレームワーク [eess.IV, cs.AI, cs.CV]目的：腸管MRエンテログラフィー画像からの10種類の腸管器官のセグメンテーション
- 炎症性腸疾患（IBD）の診断には，正確な腸管器官のセグメンテーションが不可欠である。
- 解剖学的変動，クラス不均衡，低い組織コントラストが，信頼性の高い自動化を妨げる。
- これらの課題に対処し，器官特異的なセグメンテーションの精度向上を目指す。
- 初期段階のDenseNet201-UNet++モデルは，ROI抽出のための良好な器官局在化を実現した。
- 第2段階のDenseNet121-SelfONN-UNetモデルは，すべての腸管構造のセグメンテーションを大幅に改善した。
- 本フレームワークは，腸管MRエンテログラフィーにおける粗いものから細かいものへの，器官を意識したセグメンテーション戦略の有効性を示した。
Link: https://arxiv.org/abs/2604.17118
VIBE：現実世界の音声による大規模オーディオ言語モデルのバイアス評価 [eess.AS, cs.CL, cs.SD]目的：大規模オーディオ言語モデルにおける生成バイアスの評価
- 音声と言語を扱うモデルの利用拡大に伴い，社会的な公平性の担保が重要である。
- 既存の公平性評価は合成音声や選択式問題に依存し，現実世界の複雑な状況を捉えきれていない。
- 現実の音声データを用いた自由記述タスクを通して，潜在的なバイアスを明らかにすることを目指す。
- 11種類の最先端LALMを評価した結果，現実的なシナリオにおいて系統的なバイアスが確認された。
- 性別の手がかりがアクセントよりも大きな分布の変化を引き起こすことが示され，既存モデルが社会的な固定観念を再現している可能性が示唆された。
- VIBEは，既存の選択式問題では捉えきれないステレオタイプな連想を自然に顕在化させることができる。
Link: https://arxiv.org/abs/2604.17248
少量データにおける医療画像分類のためのカオス増強プロトタイプネットワーク [eess.IV, cs.AI, cs.CV]目的：少量データ医療画像分類におけるプロトタイプネットワークの性能向上
- 腫瘍学における臨床データの不足から，医師の診断支援において少量学習が重要である。
- 既存のプロトタイプネットワークは，脳腫瘍画像におけるノイズやクラス内分散により，プロトタイプの不安定性を示す。
- ロジスティックカオスの摂動を注入し，特徴空間の安定性を高めることで，少量データ環境下での分類精度向上を目指す。
- ロジスティックカオスの摂動注入により，高次元クラスタの安定化とクラス分散の低減が確認された。
- 15%のカオス注入レベルが最も効果的であり，標準的なプロトタイプネットワークを上回る84.52%のテスト精度を達成した。
- カオス的摂動は，データ不足の状況下における効率的な正則化手法として有効であることが示唆された。
Link: https://arxiv.org/abs/2604.17300
RAW画像ノイズ除去のための学習型非局所特徴量マッチングとフィルタリング [eess.IV, cs.CV]目的：RAW画像ノイズ除去のための新しいアーキテクチャの提案
- 画像処理におけるノイズ除去は古典的な課題であり，近年では深層学習の進展により重要性が再認識されている。
- 深層学習を用いたノイズ除去はパラメータ数が多く，解釈が困難であるという課題があった。
- 古典的なノイズ除去手法の知見を深層学習に組み込み，少ないパラメータで高性能なノイズ除去を実現する。
- 提案手法は，学習可能な多重スケール特徴表現上で動作する非局所ブロックを導入し，効率的に受容野を拡大する。
- 実機RAWデータと合成ノイズを用いた学習により，センサーに依存しない汎用性の高いノイズ除去器を構築した。
- ベンチマークや実写写真における評価で，最先端の畳み込みニューラルネットワークやTransformerベースの手法と同等の性能を示した。
Link: https://arxiv.org/abs/2604.17453
医療AIのための検証済み画像データセット標準：VIDS [eess.IV, cs.CV]目的：医療AI開発におけるデータセットの構造，アノテーションの系統，品質，機械学習の準備状況などを検証可能な標準の確立
- 医療AIの発展には高品質なアノテーション付きデータセットが不可欠であるため，その標準化は重要である。
- 既存の標準では，アノテーションの作成者，時期，ツール，品質といったキュレーション層の情報管理が不十分である。
- データセットの信頼性と再現性を高め，AI開発の効率化と品質向上に貢献することを目的とする。
- VIDSは，フォルダ構成，ファイル命名規則，アノテーションの系統記録，品質ドキュメント，そして21の機械可読な検証ルールを定義するオープンな仕様である。
- 主要な公開データセットの評価では，VIDSの基準を満たす割合が20～39%にとどまり，系統記録と品質ドキュメントが最も課題であった。
- VIDS準拠の参照データセットLIDC-Hybrid-100を公開し，4人の放射線科医のアノテーション一致度（Dice係数0.7765）を確認した。
Link: https://arxiv.org/abs/2604.17525
意味とデータを最適に結びつける：シュレーディンガー橋を用いた生成的な意味的通信 [eess.IV, cs.CV]目的：狭帯域・高雑音チャネルにおける画像伝送のための生成的な意味的通信
- 通信技術の発展は，限られた帯域幅やノイズ環境下での効率的な画像伝送を可能にする点で重要である。
- 既存の生成的な意味的通信方法は，ガウス分布から画像分布への間接的な経路に依存し，幻覚や計算コストが高いという課題がある。
- シュレーディンガー橋を利用し，意味から画像への直接的な生成デコードを可能にすることで，上記課題の解決を目指す。
- 提案手法DSBGSCは，最先端の生成的な意味的通信手法と比較して，FIDを少なくとも38％，SSIMを49.3％改善した。
- シュレーディンガーポテンシャルを用いて拡散モデルの非線形ドリフト項を再構成することで，幻覚を抑制し，計算負荷を軽減した。
- 自己整合性に基づく目的関数により，サンプリングステップ数を大幅に削減し，推論速度を8倍以上向上させた。
Link: https://arxiv.org/abs/2604.17802
MINT-Bench：指示応答型テキスト読み上げの包括的 multilingual ベンチマーク [eess.AS, cs.SD]目的：指示応答型テキスト読み上げの評価
- 音声合成技術の高度化に伴い，制御性と表現力が重要視されている。
- 既存のベンチマークは言語対応や評価の粒度が十分でなく，現状の把握が困難である。
- 多言語に対応し，詳細な評価が可能なベンチマークを開発し，課題を明確化する。
- MINT-Benchは，コンテンツの一貫性，指示の追従性，知覚的品質を評価する階層的ハイブリッド評価プロトコルを備えている。
- 10言語での実験の結果，既存システムはまだ課題が多く，特に複雑な制御がボトルネックとなっていることが示された。
- 中国語などの特定言語においては，オープンソースモデルが商用モデルを上回る性能を示す場合がある。
Link: https://arxiv.org/abs/2604.17958
NIM4-ASR：効率的，堅牢，かつカスタマイズ可能なリアルタイムLLMベース音声認識に向けて [eess.AS, cs.CL, cs.SD]目的：効率性，堅牢性，カスタマイズ性を備えたLLMベース音声認識フレームワークの開発
- 近年の音声認識分野では，LLMの活用が主流となりつつあり，その性能向上に貢献している。
- 既存のLLMベース音声認識モデルは，リソース制約のある環境でのスケーラビリティや，劣悪な環境下での誤認識といった課題が残されている。
- 本研究では，エンコーダとLLMの役割分担を明確化し，効率性と堅牢性を両立する音声認識フレームワークを提案することで，上記の課題解決を目指す。
- NIM4-ASRは，2.3Bパラメータという小規模なモデルサイズでありながら，複数の公開ベンチマークで最先端の性能を達成した。
- 特に，エンティティの多い実環境において，より大規模な競合モデルを大幅に上回る性能を示した。
- さらに，検索拡張生成（RAG）により，ミリ秒以下の検索遅延で百万規模のホットワードカスタマイズを可能にし，効率的な適応を実現した。
Link: https://arxiv.org/abs/2604.18105
弾性測地グリッドのグローバル同期展開のための幾何学的ガイダンス [cs.NI, cs.OS, cs.DM, cs.DC, cs.GR, cs.CG]目的：弾性測地グリッド展開における同期化された変形軌跡の生成
- シミュレーションの精度向上のため，複雑な非線形運動をロバストに表現する方法が求められている。
- 弾性測地グリッドの展開は非線形性が高く，シミュレーションでの安定性が課題である。
- 展開過程における中間的な座屈を回避し，展開誘発されるプレストレスを捕捉する手法を開発する。
- 本手法は，逆トレースによって実現可能なノードパスを得て，同期化された時間ステップを選択する問題を解く。
- その結果，コンパクトで同期化された変位シーケンスを全てのパスに対して同時に生成できる。
- 有限要素法シミュレーションにおいて，本手法は中間的な座屈を回避し，展開誘発プレストレスを捉えることが示された。
Link: https://arxiv.org/abs/2312.17181
欠損モダリティを伴うマルチモーダル感情分析：知識転移アプローチ [cs.SD, cs.AI, cs.CL, cs.LG, eess.AS]目的：マルチモーダル感情分析における欠損モダリティへの対処法
- 人間は視覚，言語，音声など多様な情報から感情を読み取るため，より自然な対話システム構築に重要。
- 既存研究は全てのモダリティが揃っていることを前提とし，一部欠損する状況への対応が課題。
- 欠損したモダリティを他のモダリティから再構築し，感情認識の精度向上を目指す。
- 提案手法では，知識転移ネットワークを用いて欠損した音声特徴量を再構築する。
- 再構築された特徴量と観測された特徴量から，クロスモダリティ注意機構により情報を最大限に抽出する。
- 3つの公開データセットで顕著な性能向上を示し，完全なマルチモーダルデータを用いた既存手法と同等の結果を達成した。
Link: https://arxiv.org/abs/2401.10747
VADv2: 確率的計画によるベクトル化された自律運転 [cs.CV, cs.RO]目的：大規模な運転実演データからの人間らしい運転ポリシーの学習
- 自動運転技術は，交通効率の向上や事故削減に不可欠であり，社会実装が期待されている。
- 既存の学習ベースの計画手法は決定論的であり，不確実性への対応が課題となっている。
- 不確実性を考慮した，よりロバストな自律運転システムの実現を目指す。
- 提案手法VADv2は，CARLA Town05ベンチマークにおいて既存手法を大きく上回る性能を達成した。
- また，Bench2Driveベンチマークにおいても最高性能を示し，実用性も確認された。
- NAVSIMや大規模3DGSベースベンチマークでの評価により，実世界アプリケーションへの有効性が示された。
Link: https://arxiv.org/abs/2402.13243
CORP：キャンパス向け路辺知覚タスクのためのマルチモーダルデータセット [cs.IR, cs.CV]目的：キャンパス環境における路辺知覚タスク用マルチモーダルデータセット
- 自動運転や知能交通システムの発展には，多様な環境下でのデータが不可欠である。
- 既存のデータセットは都市部の主要道路に偏り，キャンパスなど住宅地特有の環境が不足している。
- キャンパス環境におけるマルチモーダル知覚の課題に対応するためのベンチマークデータセットを構築する。
- 本研究では，大学キャンパスで収集した20万枚以上の画像と10万件以上の点群データから構成されるCORPデータセットを提案する。
- CORPは，多様な視点からのデータを提供し，2D/3Dバウンディングボックスに加え，インスタンスセグメンテーションやID情報などの多次元アノテーションを含む。
- このデータセットは，都市交通以外の環境におけるマルチモーダル知覚の課題を浮き彫りにし，今後の研究開発を促進する。
Link: https://arxiv.org/abs/2404.03191
少数視点からのエピポーラ幾何を用いたニューラル表面再構成 [cs.CV]目的：少数視点画像からの正確な表面再構成
- 3次元モデルの作成は，ロボティクスやコンピュータビジョンの根幹技術である。
- 視点数が少ない場合，幾何学的曖昧さやオクルージョンにより，正確な再構成が困難である。
- エピポーラ幾何を利用し，視点依存な幾何学的構造を保持することで，より高精度な再構成を目指す。
- 提案手法EpiSは，エピポーラ幾何を利用することで，少ない視点からの表面再構成において既存手法を大きく上回る性能を達成した。
- EpiSは，コーストボリュームの特徴とエピポーラ線に沿ってサンプリングされた微細な特徴を統合することで，幾何学的構造をより正確に捉える。
- 事前学習済みの単眼深度モデルによるジオメトリ正則化により，少ない視点下での情報損失をさらに軽減している。
Link: https://arxiv.org/abs/2406.04301
Vision-Braille：点字翻訳のためのカリキュラム学習ツールキットと点字-中国語コーパス [cs.CL, cs.CV]目的：視覚障碍のある学生の学習支援を目的とした，点字から中国語への翻訳システム
- 視覚障碍者の教育機会均等化は重要であり，学習支援技術の発展が求められている。
- 点字データは学習リソースが限られており，特に中国語点字の自動翻訳は困難である。
- 中国語点字の自動翻訳の精度向上と，教育現場での活用を目指す。
- Vision-Brailleは，画像から抽出された中国語点字を中国語に翻訳する初の公開システムである。
- カリキュラム学習により，83.28 BLEUスコアを達成した（10%の音調保持率）。
- 教師が点字の宿題を採点する際の負担を軽減し，より包摂的な教育を可能にする。
Link: https://arxiv.org/abs/2407.06048
テキストと動画の不一致検出と局所的な修正による自己修正型テキスト-トゥ-ビデオ生成 [cs.RO, cs.CV, cs.AI, cs.CL]目的：テキストと動画の不一致の検出と局所的な修正による動画生成の品質向上
- 近年の動画生成技術の進歩は目覚ましいが，複雑な指示への対応が課題である。
- 複数のオブジェクトや関係性が指定された場合に，テキストと動画の整合性が損なわれやすい。
- 生成された動画の不一致箇所を検出し，局所的に修正することで，整合性の高い動画生成を目指す。
- VideoRepairは，テキストと動画の不一致を自動的に検出し，対象領域を特定して修正するフレームワークである。
- 既存の動画生成モデルを改良することなく，不一致箇所のみを選択的に再生成する。
- 複数の評価指標において，最新のベースラインと比較して大幅な性能向上を達成した。
Link: https://arxiv.org/abs/2411.15115
マルチモーダル同期のメカニズム：デコーダーベースのビデオ・テキスト・トゥ・スピーチ合成からの洞察 [cs.MM, cs.CV, cs.SD, eess.AS]目的：マルチモーダル生成における同期メカニズムの解明
- 多様なデータ形式を統合し，人間らしい情報伝達を実現するため，マルチモーダル技術の重要性が増している。
- 異なるサンプリングレートを持つモーダル間の同期メカニズムが不明確であり，効果的な統合が課題となっている。
- ビデオ・テキスト・トゥ・スピーチ合成を通じて，統一的なデコーダーモデルにおける同期メカニズムを明らかにすることを目指す。
- 異なるモーダルは補完的な情報を持ち寄り，テキストは明瞭性を，ビデオは時間的特徴と感情表現を提供する。
- 「グローバルシーケンシャルインデックス」と「同時時系列インデックス」の双方が高い同期性能を発揮し，特に後者は明示的なタイムスタンプメタデータなしで実現可能。
- モーダルの順序は性能と汎化性のトレードオフに影響し，ビデオ優先はインドメイン性能を，テキスト優先はクロスドメイン汎化を向上させる。
Link: https://arxiv.org/abs/2411.17690
テキストから動画生成における動的オブジェクトのインタラクション改善：AIフィードバックによるアプローチ [cs.CL, cs.LG, cs.AI, cs.CV]目的：テキストから動画生成モデルにおけるオブジェクトの動的インタラクションの品質向上
- 動画生成技術は多様な応用可能性を持つが，リアルな動きの表現が課題である。
- 既存モデルは動的オブジェクトのインタラクション描写が不正確で，物理法則に反する動きを示す場合が多い。
- AIフィードバックを活用し，オブジェクトの動きの不整合と非現実的なインタラクションを改善する。
- AIによる二値フィードバックが，動画内のインタラクションシーンの品質を最も大きく向上させることを実験で確認した。
- 特に，複数のオブジェクトが複雑にインタラクションする場面や，物体の落下などにおいて，視覚言語モデルからのシグナルが著しい効果を示すことがわかった。
- オフラインRLファインチューニングアルゴリズムは，統一的な確率的目標から等価であることが示され，報酬とデータの質が重要である。
Link: https://arxiv.org/abs/2412.02617
Stimpack: スケーラブルなクラウドゲーミングのための適応型レンダリング最適化システム [cs.DC, cs.ET, cs.GR, cs.MM]目的：スケーラブルなクラウドゲーミングにおける適応型レンダリング最適化
- クラウドゲーミングは，ネットワーク環境に左右されやすいが，没入感の高い体験を提供する重要な技術である。
- ネットワーク帯域幅の制約により，画質を落とす必要があり，サーバー側の計算資源が無駄になる場合がある。
- レンダリング品質とユーザー体験のバランスを最適化し，システム全体の効率を向上させることを目指す。
- Stimpackは，サーバー側の計算コストとユーザーが認識する画質を考慮して，ゲームのレンダリング品質を動的に最適化する。
- 実験結果から，Stimpackは既存手法と比較して最大24%高いサービス品質を実現し，同じリソースで2倍のユーザーをサポートできることが示された。
- ユーザー調査により，Stimpackは測定可能なほど優れたユーザー体験を提供することが確認された。
Link: https://arxiv.org/abs/2412.19446
操作された顔画像に対する帰属レポートの生成：データセットとベースライン [cs.CV, cs.AI]目的：顔画像操作の帰属レポート生成
- デジタルフォレンジック技術の重要性が増しており，画像改ざん検出の高度化が求められている。
- 既存手法は二値分類やピクセルレベルの局所化に偏り，改ざんの本質的な理解を妨げている。
- 改ざん箇所とその理由を特定し，操作内容を包括的に理解するための基盤を構築する。
- 新たなタスクである改ざん帰属レポート生成を提案し，改ざん領域の特定と自然言語による説明を両立した。
- 大規模データセットMMTTを構築し，高品質なアノテーションと豊かな言語的特徴を提供した。
- 画像とテキスト情報を統合するForgeryTalkerを開発し，競争力のある性能を達成した。
Link: https://arxiv.org/abs/2412.19685
LLaVA-Octopus：ビデオ理解のための命令駆動型適応プロジェクター融合 [cs.CV, cs.AI]目的：ビデオ理解のための命令駆動型適応プロジェクター融合手法
- マルチモーダルな情報処理は，画像とテキストの理解を深め，様々な応用を可能にする重要な研究分野である。
- 異なる視覚プロジェクターは得意分野が異なり，最適な特徴量の組み合わせが課題となっていた。
- ユーザーの指示に応じて最適な特徴量を動的に選択し，融合することで，ビデオ理解の性能向上を目指す。
- LLaVA-Octopusは，ユーザー指示に基づき異なる視覚プロジェクターの特徴量を適応的に重み付けすることで，それぞれの強みを活かす。
- 実験結果から，ビデオ質問応答，長編ビデオ理解，多肢選択問題など，複数のベンチマークにおいて優れた性能が確認された。
- この手法は，マルチモーダルタスクにおける幅広い応用可能性を示唆している。
Link: https://arxiv.org/abs/2501.05067
学習に基づくボリュームレンダリング時間予測 [cs.GR, cs.CV, cs.LG]目的：ボリュームレンダリング時間の予測
- 科学的可視化において，リアルタイムレンダリングは重要であり，そのためには正確な時間予測が不可欠である。
- 従来のレンダリング時間予測は，計算コストが高く，データセットや設定への適応が難しいという課題があった。
- 多様なデータセットや設定に対応可能な，高速かつ高精度な時間予測モデルを開発すること。
- 提案手法ENTIREは，ボリュームデータの構造的特徴とレンダリングパラメータを組み合わせることで，高い予測精度を実現した。
- ENTIREは，CPU/GPU環境や，単一散乱の有無にかかわらず，様々なレンダリングフレームワークで有効であることが示された。
- 少ないサンプルでのファインチューニングにより，新しいシナリオへの適応も容易であり，動的なパラメータ調整や負荷分散に貢献する。
Link: https://arxiv.org/abs/2501.12119
文脈を考慮した人間アフォードジェネレーションのための相互クロスモーダルアテンションの探求 [cs.CV, cs.MM]目的：人間のアフォード学習における，文脈に即した新規ポーズ予測
- 機械知覚や自律ナビゲーションエージェントの基礎となる研究分野である。
- 2次元シーンにおける人間アフォード予測のためのデータセットと手法が限られている。
- 複雑な2次元シーンにおいて人間アフォードを注入する性能向上を目指す。
- 提案手法では，異なるモダリティからの空間特徴マップに対して相互に注意を払うクロスアテンションメカニズムを用いる。
- タスクを個別のサブタスクに分解することで，問題の複雑さを効率的に削減している。
- 実験結果から，提案手法が既存のベースラインを大きく上回ることが示された。
Link: https://arxiv.org/abs/2502.13637
書の表紙で判断：複数ページの筆跡文書書き起こしにおけるマルチモーダルLLMの調査 [cs.LG, cs.AI, cs.CV]目的：複数ページの筆跡文書のゼロショット書き起こし手法の検討
- 筆跡文書認識は重要である。歴史的資料や個人文書のデジタル化に不可欠であり，情報へのアクセスを容易にする。
- 既存手法はラベル付きデータの必要性や，ページレベルでの処理に偏りがあり，複数ページ文書の文脈活用が不足している。
- 複数ページ文書における文脈共有を活かした，より効率的なゼロショット書き起こし手法を開発することを目指す。
- OCR，LLM後処理，マルチモーダルLLMによる書き起こしを組み合わせた手法を調査した結果，既存手法を上回る性能を示した。
- 特に，OCR+PAGE-1とOCR+PAGE-Nという新しいプロンプティング戦略は，ページ間の文脈を共有することで，書き起こし精度を向上させた。
- 既存のシングルページデータセットと新たに作成したMalvern-Hillsデータセットを用いて，このタスクのベンチマークを確立した。
Link: https://arxiv.org/abs/2502.20295
承認制委員会投票における不確実性下での社会厚生最大化 [cs.GT]目的：承認制委員会投票における社会厚生の最大化
- 多数の候補者を選ぶ投票方式として重要であり，幅広い分野で活用されている。
- 投票者の選好が不確実な場合，最適な候補者の選定が困難である。
- 不確実性下での社会厚生最大化に関するアルゴリズムを開発し，よりロバストな結果を得る。
- 提案手法により，ある結果の社会厚生確率分布を計算できることが示された。
- ある結果が社会厚生最大化となる確率を計算する手法が開発された。
- 社会厚生最大化となる確率が最も高い結果を求めることが可能となった。
Link: https://arxiv.org/abs/2503.00885
NullFace：トレーニング不要な局所顔匿名化 [cs.CV]目的：顔匿名化手法
- 監視カメラの増加に伴い，プライバシー保護の重要性が高まっている。
- 既存の匿名化手法は，画像利用可能性の維持が課題である。
- 顔の識別情報を維持しつつ，プライバシーを保護する。
- 本手法は，事前学習済みの拡散モデルを用いて，トレーニングなしで顔匿名化を実現する。
- 顔の識別情報を変更することで，元の個人と異なる匿名化顔を生成する。
- 局所的な匿名化も可能であり，匿名化領域を制御できる。
Link: https://arxiv.org/abs/2503.08478
DualToken：二つの視覚語彙を用いた視覚的理解と生成の統合に向けて [cs.CV, cs.CL]目的：視覚的理解と生成のための表現空間の統一
- 大規模言語モデルにおける視覚情報の活用は重要であり，その性能向上は様々な応用を可能にする。
- 視覚的理解と生成では異なる表現空間が必要であり，これらを統一することが課題となっている。
- 二つの視覚語彙を用いることで，視覚的理解と生成の両方を高めることを目指す。
- DualTokenは，ImageNetにおいて0.25のrFIDと82.0%のゼロショット精度を達成した。
- 10個の視覚的理解ベンチマークでVILA-Uを平均5.8ポイント上回り，GenAI-Benchで13%の改善を見せた。
- 二種類の視覚トークンを用いることが，視覚的理解と生成の両タスクにおいて単一のトークンタイプよりも優れていることが示された。
Link: https://arxiv.org/abs/2503.14324
MathFlow：視覚数学問題に対するMLLMの知覚的流れの強化 [cs.CV]目的：視覚数学問題に対するMLLMの知覚と推論能力の評価
- 近年，MLLMは様々なタスクで高い性能を示すが，視覚数学問題の解決には課題が残る。
- 既存のMLLMは，図表から重要な情報を正確に把握し，解釈することが苦手である。
- 図表の知覚能力を向上させ，推論の質を高めることで，視覚数学問題の解決精度向上を目指す。
- FlowVerseというベンチマークを導入し，MLLMの知覚・推論能力を詳細に評価した結果，既存モデルには限界が明らかになった。
- MathFlowは，知覚と推論を分離したモジュール型パイプラインであり，それぞれの段階を最適化する。
- 専用の知覚モデルMathFlow-P-7Bを開発し，様々な推論モデルと統合することで，大幅な性能向上を達成した。
Link: https://arxiv.org/abs/2503.16549
カテゴリ制約下における分割不可能なアイテムの公平かつ効率的な配分 [cs.GT]目的：カテゴリ制約下における分割不可能なアイテムの公平な配分
- 資源配分は，社会の公平性と効率性を高める上で不可欠な研究分野である。
- 分割不可能なアイテムの配分において，公平性を保証しつつ効率的な解を見つけることが困難である。
- エージェント数が多い場合の，近似的に公平な配分を効率的に求める方法を確立すること。
- エージェント数$n$に対して，各エージェントへのアイテムの再配分数を最小限に抑えつつ，パレート最適解を得られることを示した。
- 特にエージェント数が一定の場合には，そのような配分を多項式時間で計算するアルゴリズムを提案した。
- この研究では，KKM補題を分割不可能なアイテムを含む公平配分問題に応用する新たな手法を提示した。
Link: https://arxiv.org/abs/2503.20260
RA-RRG：キーフレーズ抽出によるマルチモーダル検索拡張放射線レポート生成 [cs.CV, cs.CL, cs.LG]目的：放射線レポート生成における，マルチモーダル検索と大規模言語モデルの組み合わせによる手法
- 放射線科医の業務負荷軽減は喫緊の課題であり，自動レポート生成が注目されている。
- 既存のマルチモーダル大規模言語モデルは，計算コストが高く，大規模データが必要で，幻覚が生じやすい。
- 本研究は，幻覚抑制と計算コスト削減を実現するレポート生成手法を提案する。
- RA-RRGは，臨床的に重要なキーフレーズを抽出・検索することで，幻覚を効果的に抑制することを示した。
- MIMIC-CXRおよびIU X-rayデータセットにおいて，CheXbert指標で最先端の結果，RadGraph F1スコアで競争力のある性能を達成した。
- RA-RRGは，複数画像からのフレーズ集約により，多視点レポート生成にも自然に拡張可能であり，臨床応用への道を開く。
Link: https://arxiv.org/abs/2504.07415
TextTIGER：エンティティプロンプト改良によるテキストベースのインテリジェント画像生成 [cs.RO, cs.CL, cs.CV]目的：テキストから画像を生成する際のエンティティに関する知識の保持と性能向上
- 画像生成技術は多様な分野で活用が期待されており，その精度向上が重要である。
- エンティティ数は膨大であり，全てを記憶することは現実的ではない。プロンプトが長くなりすぎると性能が低下する。
- 外部情報を活用しエンティティ情報を強化，要約することで，性能低下を防ぎ，より高品質な画像を生成すること。
- TextTIGERは，プロンプト中のエンティティに関する知識を強化し，外部情報を付加することで画像生成性能を向上させる。
- 新たに構築したデータセットを用いた実験の結果，TextTIGERは既存手法と比較して，画像生成の評価指標において改善が見られた。
- Multimodal LLMを用いた評価においても，TextTIGERは一貫して高いスコアを獲得し，その有効性が示された。
Link: https://arxiv.org/abs/2504.18269
EmbodiTTA：埋め込み型ビジュアルシステムのためのリソース効率的なテスト時適応 [cs.RO, cs.LG, cs.CV]目的：埋め込み型ビジュアルシステムにおけるテスト時適応の効率化
- ロボットなどのエッジデバイスでの実用化には，計算資源の制約が重要となる。
- 従来のテスト時適応は，メモリ消費量とエネルギー消費量が大きすぎるという課題がある。
- リソースの限られた環境下でも実用的なテスト時適応を実現することを目指す。
- 提案手法OD-TTAは，ドメインシフトの検出に基づき，必要な場合にのみ適応を行うことで計算コストを削減する。
- 適切なソースモデルの選択と，デカップルドバッチ正規化更新により，高精度かつメモリ効率の良い適応を実現する。
- 実験結果から，OD-TTAは既存手法と同等以上の性能を発揮し，エネルギー消費量と計算量を大幅に削減できることが示された。
Link: https://arxiv.org/abs/2505.00986
CROC：疑似・人間ラベリングによる対照的な頑健性チェックを用いたT2I評価指標の評価と学習 [cs.CV, cs.CL]目的：テキストから画像生成タスクにおける評価指標の適切な判断
- 画像生成技術の発展に伴い，生成画像の品質評価の重要性が増している。
- 既存の評価指標の性能を客観的に評価するメタ評価は，コストと時間がかかる。
- 対照的な頑健性チェックにより，評価指標の信頼性を自動的に評価・改善すること。
- CROCフレームワークは，画像特性に基づく対照的なテストケースを生成し，評価指標の頑健性を定量的に評価する。
- CROCを用いて，100万組を超える疑似ラベルデータセットを構築し，評価指標の比較を可能にした。
- このデータセットを用いて学習したCROCScoreは，オープンソース手法の中で最先端の性能を達成した。
Link: https://arxiv.org/abs/2505.11314
ScienceBoard：現実的な科学的ワークフローにおけるマルチモーダル自律エージェントの評価 [cs.AI, cs.CL, cs.CV, cs.HC]目的：現実的な科学的ワークフローにおけるマルチモーダル自律エージェントの性能評価
- 科学研究の効率化が求められており，LLMを活用した自動化技術への期待が高まっている。
- 既存のエージェントは，複雑な科学的ワークフローにおいて十分な信頼性を確保できていない。
- 複雑な科学的ワークフローを自律的に実行可能なエージェントの開発を促進すること。
- ScienceBoardは，動的な科学的ワークフローとプロフェッショナルソフトウェアを統合した，現実的な環境を提供する。
- 169の高品質なタスクによるベンチマークを通じて，最先端エージェントの性能を評価した結果，全体的な成功率は15%に留まった。
- 詳細な分析から，エージェントの限界と，より効果的な設計原則に関する知見が得られた。
Link: https://arxiv.org/abs/2505.19897
VLM-3R：命令に沿った3D再構成で拡張されたビジョン言語モデル [cs.CV, cs.CL]目的：単眼動画からの3D空間理解と，それに基づいた言語指示への対応
- 人間のような視覚空間知能実現のため，2D画像・動画モデルを3Dシーンに拡張する研究が重要である。
- 既存手法は外部センサーや既存アルゴリズムに依存し，単眼動画やリアルタイム処理において拡張性に課題がある。
- 本研究は，命令に沿った3D再構成により，単眼動画からの3D空間理解と言語指示の対応を目指す。
- VLM-3Rは，空間情報を暗黙的な3Dトークンとしてエンコードし，言語指示との整合性を高める。
- 空間・視覚・視点融合と，20万件以上の3D再構成命令データセットを活用し，優れた性能を実現した。
- 新たに提案したVision-Spatial-Temporal Intelligenceベンチマークにおいて，時間的推論能力も高いことを示した。
Link: https://arxiv.org/abs/2505.20279
MUSEG：タイムスタンプを考慮したマルチセグメントグラウンディングによる動画の時系列理解の強化 [cs.CV, cs.CL]目的：動画の時系列理解の強化
- マルチモーダル大規模言語モデルにおいて，動画内のイベントを推論するには時系列理解が不可欠である。
- 既存のモデルは，微細な時系列推論に課題があり，特に時間依存性の高いタスクで性能が低い。
- タイムスタンプを考慮したマルチセグメントグラウンディングを通じて，時系列理解能力を向上させる。
- MUSEGは，クエリと複数の関連動画セグメントを整合させることで，より包括的な時系列推論を可能にする。
- 段階的な報酬を用いたカスタムRL学習レシピにより，効率的な学習を促進する。
- 実験の結果，MUSEGは既存手法を大幅に上回り，様々な時系列理解シナリオで高い汎化性能を示す。
Link: https://arxiv.org/abs/2505.20715
適応的クロスアダマール積による表現力と効率性の両立 [cs.CV]目的：深層学習における効率的な特徴量拡張
- 近年，深層学習の性能向上に不可欠な非線形表現や高次元マッピングの重要性が認識されている。
- アダマール積は有効だが，リソース制約のある画像認識モデルへの応用は限定的であった。
- アダマール積の潜在能力を引き出し，効率的な画像認識モデルの構築を目指す。
- 提案手法である適応的クロスアダマール (ACH) モジュールは，学習可能な離散サンプリングと動的なソフトサイン正規化により，効率的な特徴量の再利用を可能にする。
- ニューラルアーキテクチャ探索により構築されたHadamative-Netは，優れた効率性を実現した。
- 画像分類タスクにおいて，最先端の精度と速度のトレードオフを達成し，アダマール演算が効率的な画像認識モデルの基盤となることを示した。
Link: https://arxiv.org/abs/2505.22226
視覚言語モデルは偏りを持つ [cs.CL, cs.LG, cs.CV]目的：視覚言語モデルにおける知識の偏りが，客観的な視覚タスクの精度に与える影響の検証
- 視覚言語モデルは，多様な応用において高い性能を示すが，その知識源に内在する偏りが問題となりうる。
- 視覚言語モデルは，インターネット上の大量の知識を記憶するため，誤った回答や偏った回答を生み出す可能性がある。
- 視覚タスクにおける知識の偏りが精度に与える影響を特定し，その軽減策を検討する。
- 最先端の視覚言語モデルは，ストライプ数カウントなどのタスクで著しい偏りを示し，平均精度は17.05%に留まる。
- 背景除去により精度は約21.09%向上し，文脈的な視覚的手がかりが偏った応答を引き起こすことが示唆された。
- 推論トークン数が増加すると精度は一時的に向上するが，過度な推論は精度を低下させる傾向がある。
Link: https://arxiv.org/abs/2505.23941
野生環境における読書認識 [cs.CV, cs.LG]目的：読書認識のための手法
- 常に起動しているスマートグラスにおける文脈理解AIの実現には，利用者の世界とのインタラクションの記録が不可欠である。
- 既存の読書理解研究は，限定された環境下で実施されている場合が多く，多様性と現実味に欠ける。
- 多様で現実的なシナリオにおける読書認識の精度向上を目指す。
- 大規模なマルチモーダル読書データセット「Reading in the Wild」を構築した。
- RGB画像，視線，頭部ポーズの3つのモダリティが読書認識に有効であることを示した。
- 柔軟なTransformerモデルを用いて，各モダリティの効率的なエンコード方法と組み合わせによる効果を検証した。
Link: https://arxiv.org/abs/2505.24848
皮肉検出における大規模言語モデルの活用：皮肉表現の音声アノテーション [cs.CL, cs.SD, eess.AS]目的：皮肉表現の音声アノテーションのためのパイプライン構築と，それを用いた大規模データセットの作成
- 音声における皮肉の検出は，コミュニケーション理解において重要である。人間の自然な会話をAIに理解させる上での課題となる。
- 皮肉検出のためのデータ不足が課題である。また，既存手法は多Modalデータを必要とし，音声のみの環境では利用が制限される。
- 大規模言語モデルを活用し，音声のみで皮肉を検出するためのデータセットを構築し，その有用性を示す。
- 大規模言語モデル(GPT-4o, LLaMA 3)を用いたアノテーションと人間の検証を組み合わせることで，質の高い皮肉データセットを効率的に作成した。
- 構築した皮肉音声データセット(PodSarc)を用いた皮肉検出モデルは，F1スコア73.63%を達成し，高い性能を示した。
- 本研究は，音声のみの皮肉検出研究における新たなベンチマークデータセットの提供と，大規模言語モデルの有効性を示すものである。
Link: https://arxiv.org/abs/2506.00955
OD3：オブジェクト検出のための最適化不要データセット蒸留 [cs.CV]目的：オブジェクト検出のためのコンパクトなデータセットの合成
- 大規模データセットでの学習は計算資源を必要とする。効率化が求められている。
- データセット蒸留は画像分類に限定されており，より複雑な検出タスクへの応用が遅れている。
- 計算資源を削減しつつ，オブジェクト検出の精度を維持することを目的とする。
- OD3は，最適化を必要としない新しいデータ蒸留フレームワークである。
- 候補選択とスクリーニングの2段階で，合成画像に適切なオブジェクトを配置する。
- MS COCOとPASCAL VOCで，既存手法を上回り，COCO mAP50で14%以上の性能向上を達成した。
Link: https://arxiv.org/abs/2506.01942
大規模ビジョン言語モデルにおけるアンラーニング後の挙動の再検討 [cs.CL, cs.LG, cs.AI, cs.CV]目的：大規模ビジョン言語モデルのプライバシー保護と情報性の両立
- 画像とテキストを理解するモデルの応用が広がる中で，個人のプライバシー保護は重要課題となっている。
- 従来のアンラーニング手法では，忘れ去った情報に代わる適切な出力が考慮されず，不自然な応答が生じることがある。
- プライバシー侵害を防ぎつつ，有益で根拠のある応答を生成できるアンラーニング手法の開発を目指す。
- 既存手法ではプライバシー侵害は抑制できるものの，その後の応答に問題が生じることが示された。
- 提案手法PUBGは，アンラーニング後の挙動を制御し，自然で情報性の高い応答を生成できることが確認された。
- PUBGは，忘れ去った対象に関するプライバシー漏洩を防ぎつつ，視覚的に根拠のある応答を可能にする。
Link: https://arxiv.org/abs/2506.02541
R3D2：拡散によるリアルな3Dアセット挿入 - 自律運転シミュレーション向け [cs.CL, cs.CV, cs.LG, cs.RO]目的：自律運転シミュレーションにおける現実的な3Dアセットの挿入
- 自律運転システムの検証には多様なテストが不可欠であり，写実的な仮想環境が求められる。
- 既存のシミュレーションは，スケーラビリティと実環境とのギャップが課題である。
- 3D Gaussian Splattingの弱点を克服し，リアルなアセット挿入を実現する。
- R3D2は，既存のシーンへの3Dアセットのリアルな挿入を可能にする軽量な拡散モデルである。
- R3D2は，影や照明などの現実的なレンダリング効果をリアルタイムに生成する。
- 本研究により，テキストからの3Dアセット生成やシーン間のオブジェクト転送といった応用が可能となり，自律運転の検証におけるスケーラビリティが向上する。
Link: https://arxiv.org/abs/2506.07826
StableMTL：部分注釈付き合成データセットからのマルチタスク学習のための潜在拡散モデルの再利用 [cs.CV, cs.AI, cs.LG]目的：密な予測のためのマルチタスク学習
- 画像認識等の分野で，複数のタスクを同時に学習することで効率化が期待される。
- 各タスクに対する大規模なアノテーションデータが必要であり，コストと時間がかかる。
- 合成データセットと拡散モデルを活用し，アノテーションコストを削減する。
- 提案手法StableMTLは，潜在回帰のための画像生成器の再利用により，ゼロショットでのマルチタスク学習を実現した。
- タスクエンコーディングやタスクアテンション機構を導入し，タスク間の相互作用を効率的に捉え，知識の共有を促進する。
- 8つのベンチマークにおいて7つのタスクで既存手法を上回る性能を示した。
Link: https://arxiv.org/abs/2506.08013
依存度が低いほど学習が進む：最小限の3D知識で疎な未ポーズ画像から新規視点を合成する [cs.CV]目的：疎な未ポーズ画像からの新規視点合成
- 画像から新しい視点を生成する技術は，VR/AR等の応用において重要であり，近年急速に発展している。
- 従来の技術は，3D知識やカメラ姿勢の正確な情報に依存しており，大規模データへの適用が困難であった。
- 本研究は，3D知識への依存を極力排除することで，より大規模なデータから効率的に学習する手法を提案する。
- データ量が増加するにつれて，3D知識への依存度が低い手法の方が性能向上の速度が速く，最終的には3D知識を活用する手法を上回る。
- 提案手法は，明示的なシーン構造やカメラ姿勢の情報を必要とせず，大量の2D画像から暗黙的に3D情報を学習する。
- 実験結果から，提案手法が既存の最先端手法を凌駕する性能を達成し，データ中心的なアプローチの有効性が確認された。
Link: https://arxiv.org/abs/2506.09885
マルチターン接地に基づく強化学習による高解像度視覚推論 [cs.CL, cs.CV]目的：高解像度画像における視覚的推論能力の向上
- 大規模マルチモーダルモデルの応用範囲拡大には，高解像度画像処理能力が不可欠である。
- 高解像度画像は大量の視覚トークンを生成し，タスクに関係ない情報も含むため，計算コストが増大する。
- モデルが自動的に重要な視覚領域に焦点を当てられるようにし，効率的な推論を可能にすること。
- MGPOは，強化学習によってモデルが自動的にサブ画像を切り出すことで，重要な視覚領域に反復的に焦点を当てられることを示した。
- 追加の接地アノテーションなしで学習することで，モデルは強化学習の過程でロバストな接地能力を獲得できることがわかった。
- Qwen2.5-VL-7BにMGPOを適用した結果，OpenAIのo1やGPT-4oモデルを凌駕する性能が，V* Benchにおいて示された。
Link: https://arxiv.org/abs/2507.05920
視覚が知識を上書きするとき：視覚言語モデルにおける知識の衝突の解明 [cs.CV, cs.AI]目的：視覚言語モデルにおける知識の衝突解決メカニズムの調査
- 近年，視覚とテキスト情報を組み合わせるモデルが発展し，複雑なタスクの実行が可能となっている。
- モデル内部の知識と視覚入力の矛盾が，誤った予測や幻覚を引き起こす可能性がある。
- モデルが知識の衝突をどのように解決するか，そのメカニズムを明らかにすること。
- モデル内の少数の注意ヘッドが，この衝突を仲介していることが判明した。
- これらのヘッドに介入することで，モデルの知識または視覚情報への誘導が可能になる。
- 特定された注意ヘッドのパターンは，勾配ベースの手法よりも正確な帰属を提供し，視覚的優先の根拠となる画像領域を特定する。
Link: https://arxiv.org/abs/2507.13868
DriveAgent-R1：積極的知覚とハイブリッド思考によるVLMベースの自動運転の進歩 [cs.CV]目的：VLMベースの自動運転における積極的知覚とハイブリッド思考の実現
- 自動運転技術は，交通の安全性向上や移動の効率化に不可欠であり，社会実装が期待されている。
- 既存の自動運転システムは，テキストベースの推論に依存しており，不確実な状況下での積極的な情報収集が課題である。
- 本研究は，視覚的証拠に基づいた意思決定を可能にし，自動運転システムの解釈性と信頼性を高めることを目指す。
- DriveAgent-R1は，自動運転において積極的知覚を可能にする初のシステムであり，状況に応じてテキスト推論と視覚的推論を使い分けるハイブリッド思考フレームワークを導入した。
- Drive-InternalおよびnuScenesデータセットでの実験により，30億パラメータという比較的小さな規模で，GPT-5などのトップレベルシステムや人間の運転と同等の性能を達成した。
- これにより，よりインテリジェントな自動運転システムの構築に向けた実現可能な道筋が示された。
Link: https://arxiv.org/abs/2507.20879
HiPrune：Vision-Languageモデルにおける効率的なトークンプルーニングのための階層的アテンション [cs.CV]目的：Vision-Languageモデルにおけるトークン冗長性の削減と計算コストの低減
- 画像とテキストを理解するVision-Languageモデルは，多様な応用において重要性が増している。
- Vision-Languageモデルの画像エンコーダーは多くのトークンを生成し，計算コストが高いという課題がある。
- 階層的なアテンションパターンを利用し，モデルの性能を維持しつつトークン数を削減することを目指す。
- 提案手法HiPruneは，モデルに依存せずトレーニング不要でトークンをプルーニングできる。
- HiPruneは，トークン数を大幅に削減（最大1/3）しても，タスク精度を99.3%まで維持できる。
- 改良版HiPrune++は，トークン数をさらに削減（最大2/9）しても，高い精度（最大99.7%）を維持する。
Link: https://arxiv.org/abs/2508.00553