arXiv雑要約

画像・音声 - 2026/04/21 公開

AeroRAG：詳細な航空視覚推論のための構造化されたマルチモーダル検索拡張LLM [cs.RO, cs.RO, cs.CV]目的：航空写真における詳細な視覚的推論のためのフレームワーク
- 航空写真解析は，災害状況把握や都市計画など，多様な分野で不可欠である。
- 既存のモデルは，航空写真内の小さな物体や関係性を捉えるのが困難である。
- 構造化された知識を利用し，視覚情報を言語モデルに効果的に伝えることを目指す。
- AeroRAGは，航空写真からオブジェクト，数量，位置，関係性を抽出する。
- 抽出された情報を基に，関連する情報を検索し，簡潔なプロンプトを生成する。
- AUGデータセットとVG-150ベンチマークで，既存モデルを上回る性能を示した。
Link: https://arxiv.org/abs/2604.17889
ReTrack：証拠に基づいた双方向ストリームによる方向性アンカーキャリブレーションネットワークを用いた合成動画検索 [cs.CV]目的：合成動画検索における検索性能の向上
- 動画データが急速に増加しており，効率的な動画検索技術の重要性が高まっている。
- 動画とテキストという異なるモダリティ間の情報密度の差が大きく，検索精度を低下させている。
- モダリティ間の貢献度の絡み合い，合成特徴量の最適化，検索の不確実性を解決し，より正確な動画検索を実現する。
- 提案手法ReTrackは，合成特徴量における方向性バイアスをキャリブレーションすることで，マルチモーダルクエリの理解を向上させる初のCVRフレームワークである。
- ReTrackは，各モダリティのセマンティックな貢献度を推定し，方向性バイアスをキャリブレーションすることで，信頼性の高い合成-ターゲット間の類似度推定を可能にする。
- CVRおよびCIRの両タスクにおいて，３つのベンチマークデータセットで最先端の性能を達成し，高い汎化性を示す。
Link: https://arxiv.org/abs/2604.17898
微表情認識のための運動・感情特徴分離ネットワークMEDN [cs.CV]目的：微表情認識における運動特徴と感情特徴の分離
- 微表情は，行動分析や心理状態の把握において重要な情報源である。
- 微表情は，表情筋の動きが小さく，明確な感情表現と結びつかない場合がある。
- 運動と感情の特徴を分離し，より正確な微表情認識を目指す。
- MEDNは，運動特徴と感情特徴を分離するデュアルブランチフレームワークを設計した。
- 運動ブランチでは，AU検出タスクと直交損失によって，運動と感情の特徴の結合を抑制した。
- Sparse Emotion Vision Transformer (SEVit)を用いて，感情情報を効果的にモデル化した。
Link: https://arxiv.org/abs/2604.17899
二値対比を超えて：遷移アンカーを用いた連続的な骨格行動空間のモデル化 [cs.CV]目的：骨格に基づく行動認識のための連続的な表現学習
- 人間の行動認識は，ロボット工学やヒューマンコンピュータインタラクションなど，様々な分野で重要である。
- 既存手法は二値対比学習に依存し，人間の動きの連続性を考慮できていないため，特徴クラスターが分断されやすい。
- 行動空間の連続的な幾何構造を捉え，より滑らかで識別可能な表現空間を学習することを目指す。
- 提案手法TranCLRは，遷移アンカーを用いた対比学習により，行動の連続性を効果的に捉えることができた。
- ATAC（行動遷移アンカー構築）とMGMC（多段階幾何多様体較正）のメカニズムにより，表現空間の精度とキャリブレーション性能が向上した。
- NTU RGB+D，NTU RGB+D 120，PKU-MMDデータセットでの実験で，TranCLRは既存手法を上回る性能を示した。
Link: https://arxiv.org/abs/2604.17914
OneDrive：ビジョン・言語・行動モデルによる統一マルチパラダイム駆動 [cs.CV]目的：ビジョン・言語・行動モデルを用いた，自律運転のための統一的なフレームワーク
- 自動運転技術は，交通渋滞の緩和や交通事故の削減に貢献し，社会全体の効率化に不可欠である。
- 既存の自律運転システムは，異なるタスクに対応するため複雑な構造となり，モデルの再利用が制限されている。
- 本研究は，統一的なフレームワークにより，多様なタスクを効率的に処理し，性能向上を目指す。
- 事前学習済みのビジョン・言語モデルの注意機構が，言語モデリング以外のタスクにも高い転移性を持つことを示した。
- 視覚情報と構造化クエリを単一のデコーダ内で統合することで，安定した共同最適化を実現した。
- nuScenesおよびNAVSIMベンチマークにおいて，最先端の性能を達成し，低遅延な推論も可能であることを示した。
Link: https://arxiv.org/abs/2604.17915
SAR画像におけるゼロショット船舶インスタンスセグメンテーションのための基盤モデルのプロンプティング [cs.CV, cs.AI, cs.LG]目的：SAR画像におけるゼロショット船舶インスタンスセグメンテーションの実現
- 海上監視においてSARは不可欠だが，深層学習の適用にはピクセルレベルのアノテーション不足が課題。
- SAR画像に対する深層学習は，高コストなピクセルレベルのアノテーションがボトルネックになっている。
- 汎用基盤モデルを活用し，アノテーション不要でSAR画像の船舶セグメンテーションを可能にすること。
- SAR画像で学習済みの検出器による空間制約が，基盤モデルの予測を効果的に正則化できることを示した。
- SSDDベンチマークにおいて，平均IoU 0.637（フルスーパーバイズドベースラインの89％）を達成した。
- 船舶検出率は89.2%であり，スケーラブルかつアノテーション効率の良いSAR画像理解への道筋を示す。
Link: https://arxiv.org/abs/2604.17920
脳に触発されたキャプチャ：視覚デコーディングのための証拠に基づいた神経模倣知覚シミュレーション [cs.CV, cs.AI]目的：神経生理学的信号からの視覚デコーディング手法
- 脳とコンピュータのインターフェースや計算神経科学において，視覚情報の解読は重要な課題である。
- 従来の視覚デコーディング手法は，神経信号と視覚情報の間のギャップや，人間の視覚システムの計算メカニズムの無視といった課題を抱えている。
- 人間の視覚システムを模倣した知覚シミュレーションにより，神経信号と視覚情報のギャップを埋め，よりロバストなデコーディングを目指す。
- 提案手法であるBI-Capは，人間の視覚システムを模倣したパイプラインと，相互情報に基づく動的なぼかし調整により，視覚処理をシミュレートする。
- また，神経活動の非定常性を軽減するために，証拠に基づいた潜在空間表現を導入し，不確実性を明示的にモデル化することで，ロバストな神経埋め込みを実現する。
- 公開ベンチマークを用いた実験の結果，BI-Capは最先端の手法と比較して，それぞれ9.2%と8.0%の相対的な性能向上を達成した。
Link: https://arxiv.org/abs/2604.17927
ヘッドからニューロンへ：マルチタスクVision-Languageモデルにおける因果帰属と操向 [cs.CV, cs.CL]目的：マルチタスクVision-Languageモデルにおけるニューロンの因果帰属と操向に関する研究
- Vision-Languageモデルの解釈可能性向上は，AIの信頼性向上に不可欠である。
- 既存研究では，タスク間でのニューロン重要度の比較が困難であった。
- タスク関連注意ヘッドに着目し，ニューロンの因果的寄与度を評価・操向する。
- HONESは，既存手法と比較して，タスクに重要なニューロンの特定性能が優れている。
- HONESによるニューロンの操向により，モデルの性能が向上することが確認された。
- タスク関連注意ヘッドを考慮することで，ニューロンの多義性によるノイズを抑制している。
Link: https://arxiv.org/abs/2604.17941
ZSG-IAD：ゼロショット地上化型産業異常検知のためのマルチモーダルフレームワーク [cs.CV]目的：ゼロショット地上化型産業異常検知のためのマルチモーダルフレームワーク
- 産業設備の異常検知は，生産性維持や安全性確保に不可欠であり，その重要性は高い。
- 従来の深層学習モデルは解釈性が低く，異常原因の根拠を説明することが困難である。
- RGB画像，センサー画像，点群データを活用し，物理的に根拠のある異常検知を実現すること。
- ZSG-IADは，異常報告書とピクセルレベルの異常マスクを生成することで，透明性の高い異常検知を実現した。
- 言語誘導型二段階のグラウンディングモジュールにより，マルチモーダル特徴から証拠となる潜在スロットを選択し，空間的な支持を得る。
- 実行可能ルールGRPOを用いることで，構造化された出力，異常領域の一貫性，および推論の妥当性を向上させた。
Link: https://arxiv.org/abs/2604.17949
上半身の表現豊かな人体姿勢と形状推定 [cs.CL, cs.CV, cs.GR]目的：上半身の表現豊かな人体姿勢と形状推定の精度向上
- AR/VR等の応用において人体姿勢と形状推定は不可欠であり，その重要性は増している。
- 顔や手の領域の推定精度が課題であり，未知の画像への汎化性能が限られている。
- 顔・手・胴体間の強い結合と意味的依存関係を捉え，上半身の推定精度を向上させる。
- 提案手法CoEvoerは，上半身の姿勢と形状推定に特化した初のフレームワークである。
- CoEvoerは，異なる体部位間の特徴レベルでの相互作用を可能にし，相互補完的な情報交換を実現する。
- 実験の結果，CoEvoerは既存の最高性能手法を上回り，未知の画像に対しても高い汎化性能を示した。
Link: https://arxiv.org/abs/2604.17959
DifFoundMAD：基盤モデルと差分モルフィング攻撃検出 [cs.CV]目的：差分モルフィング攻撃検出のためのフレームワーク
- 顔認証技術のセキュリティ確保は重要であり，モルフィング攻撃への対策が不可欠である。
- 既存手法は特徴量の設計や顔認識に依存し，汎化性能に課題がある。
- 基盤モデルを活用し，より高精度かつロバストなモルフィング攻撃検出を実現する。
- DifFoundMADは，既存の最先端システムと比較して，一貫した性能向上を示した。
- 特に，国境管理などの運用環境で求められる厳格なセキュリティレベルにおいて，高い効果を発揮する。
- DifFoundMADにより，高セキュリティレベルにおける誤り率を6.16%から2.17%に低減することに成功した。
Link: https://arxiv.org/abs/2604.17961
MU-GeNeRF：妨害物対応シーンのための多視点不確実性に基づく汎化ニューラル放射場 [cs.CV]目的：妨害物に対するロバスト性を高めた汎化ニューラル放射場モデルの構築
- 現実世界の視覚データはノイズや変動が多く，正確な3Dシーン再構成は困難である。
- 汎化ニューラル放射場は，少ない視点からの再構成が可能だが，動的な妨害物に弱い。
- 多視点不確実性を活用し，妨害物の影響を抑制することで，再構成精度を向上させる。
- 提案手法MU-GeNeRFは，ソース視点とターゲット視点の不確実性を分離し，それぞれ異なる誤差源に対応する。
- 不確実性の情報をヘテロスケダスティック再構成損失に組み込み，モデルが適応的に学習を調整する。
- 実験により，既存の汎化ニューラル放射場と比較して性能が向上し，シーン特化型手法と同等の結果が得られた。
Link: https://arxiv.org/abs/2604.17965
E3VS-Bench：3Dガウススプラッティングシーンにおける視点依存型アクティブ知覚のベンチマーク [cs.CV]目的：3D環境における視点依存型アクティブ知覚のためのベンチマーク
- 3D環境での視覚探索は，現実世界のロボット工学や拡張現実において重要な課題である。
- 既存のベンチマークは静的な観察や制約された視点移動に依存しており，自由な視点制御下の視点依存性を評価していない。
- 本研究は，5-DoFの自由な視点制御下で，視点依存型知覚を評価するためのベンチマークを構築する。
- E3VS-Benchは，3Dガウススプラッティングを用いて構築された99個の高忠実度3Dシーンと，2,014個の質問駆動型エピソードで構成される。
- 最先端のVLMを評価した結果，いずれも人間と比較して大きな性能差が見られ，5-DoFの視点変化下におけるアクティブ知覚と一貫性のある視点計画の限界が示唆された。
- 3Dガウススプラッティングは，メッシュベースのシミュレーターでは失われがちな微細な視覚的詳細を保持し，単一の視点では答えられない質問の構築を可能にする。
Link: https://arxiv.org/abs/2604.17969
行動認識モデルにおける倫理的バイアスの特定 [cs.CV]目的：行動認識モデルのバイアス監査フレームワーク
- 行動認識技術は社会実装が進んでおり，公平性の確保が不可欠である。
- 既存研究では，静止画像や姿勢推定に偏り，時間的な一貫性が考慮されていない。
- 皮膚の色などの属性変更がモデル予測に与える影響を検証し，バイアスを特定する。
- BEDLAMシミュレーションを用いて実験した結果，一部のモデルに皮膚の色による統計的に有意なバイアスが確認された。
- モデルが意図しない視覚的関連性を学習し，グループ間で系統的な誤りが生じていることが示された。
- 本研究は，行動認識モデルの監査フレームワークを提供し，透明性と説明責任のあるシステムの開発を支援する。
Link: https://arxiv.org/abs/2604.17971
段階的自己報酬によるマルチモーダルな幻覚の軽減 [cs.IR, cs.CV, cs.CL]目的：大規模ビジョン言語モデルにおける幻覚軽減策
- 近年，画像とテキストを扱うAIモデルの性能向上は目覚ましいが，視覚情報との矛盾した内容を生成する幻覚問題が課題となっている。
- 従来の対策は，大量のデータや静的な後処理に依存しており，幻覚の動的な発生に対応できないという問題点があった。
- 本研究は，外部の教師データなしに，推論時に幻覚を動的に軽減する新たな自己報酬フレームワークを提案する。
- 視覚的幻覚は，各意味段階の開始時にピークを迎える段階的な動的パターンを示すことが明らかになった。
- 提案手法PSRDは，段階的な自己報酬信号に基づいてオンラインで幻覚を修正し，LLaVA-1.5-7Bの幻覚発生率を50.0%削減した。
- 既存の後処理手法と比較して，複数の評価ベンチマークで一貫して高い性能と効率性を実現していることが確認された。
Link: https://arxiv.org/abs/2604.17982
潜在フーリエ変換 [cs.SD, cs.AI]目的：生成音楽モデルに対する新たな周波数領域制御
- 音楽生成の分野では，より高度な制御と多様な表現が求められている。
- 既存の手法では，音楽構造を直感的に制御することが困難であった。
- 潜在空間における周波数制御を通じて音楽構造の操作を目指す。
- 潜在フーリエ変換(LatentFT)は，拡散オートエンコーダと潜在空間におけるフーリエ変換を組み合わせることで，音楽パターンを時間スケールごとに分離する。
- 学習時に周波数領域の潜在変数をマスクすることで，推論時に整合性のある操作を可能にし，音楽のバリエーションやブレンドを生成する。
- 実験とリスニングテストの結果，LatentFTは条件への適合性と品質がベースラインよりも向上することが示された。
Link: https://arxiv.org/abs/2604.17986
信頼性の高い内視鏡超解像 [cs.RO, cs.CV]目的：内視鏡画像における超解像の信頼性向上
- 低侵襲手術や診断の精度向上に貢献し，ハードウェア制約下での映像処理ニーズに応える。
- 超解像処理が，誤った構造の生成やノイズの増幅を引き起こし，安全性が求められる医療現場での信頼性が課題。
- 超解像処理の再構成における潜在的な失敗箇所を特定し，信頼性の低い領域を検出する。
- 提案手法は，中間表現に対する軽量な誤差予測ネットワークを用いて，ピクセル単位での再構成誤差を推定する。
- Conformal Failure Masks（CFM）を構築することで，超解像出力の信頼性を判断するための領域を特定する。
- 実験結果から，本手法が内視鏡およびロボット手術における信頼性の低い再構成を効果的に検出できることが示された。
Link: https://arxiv.org/abs/2604.18001
スケッチに基づく3D形状検索のためのマルチビュー階層グラフニューラルネットワーク [cs.CV]目的：スケッチに基づく3D形状検索の性能向上
- 3Dモデルの検索は，様々な分野で活用されており，その効率化が求められている。
- 既存手法では，3D形状の多視点特徴を十分に活用できておらず，表現力が低いという課題がある。
- 多視点情報を効果的に統合し，より詳細な3D形状表現を獲得することで，検索精度を向上させる。
- 提案手法MV-HGNNは，ビューレベルグラフを用いて多視点間の幾何学的関係を捉え，より識別力の高い階層的な3D表現を獲得する。
- CLIPテキスト埋込みをセマンティックプロトタイプとして活用することで，カテゴリに依存しないアラインメントを実現し，過学習を抑制する。
- 公開ベンチマークを用いた実験により，MV-HGNNが最先端手法を上回る性能を示すことが確認された。
Link: https://arxiv.org/abs/2604.18019
CFSR：幾何条件に基づく物理的解きほぐしによる影の除去 [cs.CV]目的：影の除去における物理制約復元プロセス
- 画像処理技術は，現実世界の理解や応用において不可欠である。特に，照明環境の影響を考慮した画像処理は重要。
- 従来の影除去手法は，物理的な解釈が不足しており，局所的なテクスチャと全体的な照明の一貫性を両立できていない。
- 幾何学的制約と大規模モデルのセマンティクスを統合し，物理的に整合性のある影除去を実現することを目指す。
- CFSRは，3D幾何学的情報と大規模モデルのセマンティクスを統合し，2D-3D間のギャップを埋めることで，影除去を物理制約復元として捉える。
- 提案手法では，HVI色空間とRGBデータ，深度情報を融合し，幾何学的・セマンティックな二重明示的誘導注意メカニズムを用いて物理的な照明制約を構造的に適用する。
- FCRMにより，高周波の遮蔽境界と低周波の全体照明の復元を円滑に行い，複数のベンチマークで最先端の性能を達成した。
Link: https://arxiv.org/abs/2604.18032
SignDPO：骨格ベースの手話翻訳のための多段階直接選好最適化 [cs.CL, cs.CV]目的：骨格ベースの手話翻訳における，空間・時間・言語の各次元での構造化された選好アライメント
- 手話翻訳は，聴覚障害者と健聴者の間のコミュニケーションを円滑にする上で不可欠である。
- 既存の骨格ベースの手話翻訳モデルは，意味のずれが生じやすく，微妙な手話のニュアンスを捉えにくい。
- SignDPOは，選好アライメントを通じて，骨格データの高エントロピー性と離散的な言語意味とのギャップを埋めることを目指す。
- SignDPOは，空間および時間的摂動戦略と自己誘導メカニズムにより，手話の重要な領域を識別し，より効果的な学習を可能にする。
- 自動言語レベルの選好生成器を用いることで，手動アノテーションの必要性をなくし，複雑な出力レベルの失敗モードを捉える。
- CSL-Daily，How2Sign，OpenASLの３つのベンチマークにおいて，最先端の技術を上回り，従来のグロスベースの手法にも匹敵する性能を示した。
Link: https://arxiv.org/abs/2604.18034
HABIT：合成画像検索のための時系列相乗効果を用いた堅牢な漸進的学習フレームワーク [cs.CV]目的：合成画像検索におけるノイズ耐性向上
- 画像検索は，パーソナライズされた検索や推薦システムにおいて重要な役割を担う技術である。
- 合成画像検索では，トリプレットデータの注釈コストと主観性が高く，ノイズを含むデータに弱く，性能が低下しやすい。
- 本研究は，合成セマンティックずれの正確な推定と修正ずれへの漸進的適応という課題を解決し，ノイズに対するロバスト性を高める。
- 提案手法HABITは，相互情報量の推移率に基づき，サンプル品質を定量化することで，意図した修正セマンティクスに合致するクリーンなサンプルを特定する。
- また，過去モデルと現在のモデル間の協調メカニズムを導入することで，人間の習慣形成を模倣し，良好な特徴を保持し，不良な特徴を調整することで，ノイズに対する頑健性を実現する。
- 二つの標準CIRデータセットを用いた実験により，HABITは様々なノイズ比率において既存手法を大きく上回り，優れたロバスト性と検索性能を示すことが確認された。
Link: https://arxiv.org/abs/2604.18037
GS-STVSR：2Dガウススプラッティングによる超効率連続空間的・時間的ビデオ超解像 [cs.HC, cs.CL, cs.CY, cs.DC, cs.CE, cs.MA, cs.CV]目的：連続空間的・時間的ビデオ超解像の実現
- ビデオ解像度とフレームレートの向上は，様々な応用において重要である。
- 既存手法は計算コストが高く，特に大規模な時間的拡大において効率が課題となっていた。
- 高効率で任意のスケールに対応可能なビデオ超解像手法を開発する。
- GS-STVSRは，2Dガウススプラッティングを活用し，従来のグリッドクエリに依存しない効率的なフレームワークを実現した。
- Vid4，GoPro，Adobe240等のデータセットで最先端の品質を達成した。
- X2～X8のスケールではほぼ一定の推論時間を維持し，X32のような大規模なスケールでは3倍以上の高速化を達成した。
Link: https://arxiv.org/abs/2604.18047
ロバストな合成画像検索のための不変性と識別力を考慮したノイズ軽減 [cs.CV]目的：合成画像検索におけるノイズ軽減手法
- 画像検索は情報アクセスにおいて不可欠であり，その精度向上は重要な課題である。
- 合成画像検索データセットにはアノテーションエラーが含まれており，検索性能を低下させている。
- クロスモーダルとモダリティ内在性の両方のノイズに対処し，検索のロバスト性を高める。
- 提案手法INTENTは，FFTを用いた視覚的不変性によるモダリティ内在性ノイズの抑制を実現した。
- INTENTは，協調最適化と動的な決定境界により，クロスモーダルノイズに対する識別能力を向上させた。
- 広範な実験により，INTENTが既存手法よりも優れた性能とロバスト性を示すことが確認された。
Link: https://arxiv.org/abs/2604.18051
動的なプレフィックス重み付けによる視覚言語モデルの継続学習の強化 [cs.CV]目的：視覚言語モデルにおけるドメイン・クラス増分学習の性能向上
- 視覚言語モデルは，画像とテキストを同時に理解する能力が求められ，多様な応用分野で重要性が高まっている。
- 従来の増分学習手法では，新しいタスクに適応する際に，既存の知識を忘れてしまう「破滅的忘却」の問題が存在する。
- 本研究は，入力トークンごとに異なる重み付けを行うことで，破滅的忘却を抑制し，継続学習の性能を向上させることを目指す。
- 提案手法であるDPWは，プレフィックスの重みを動的に調整するゲーティングモジュールと，アダプターの出力をプレフィックス重みの残差として算出するメカニズムで構成される。
- DPWは，アダプターを必要に応じてのみ活用することで，効率的なモデル適応を実現する。
- 実験結果から，DPWが視覚言語モデルのドメイン・クラス増分学習において，最先端の性能を達成することが示された。
Link: https://arxiv.org/abs/2604.18075
クラス特化型拡散モデルによる低データ領域における軍事物体の検出性能向上 [cs.CV, cs.AI]目的：低データ環境下における軍事車両の検出性能向上
- 軍事分野におけるAI技術の応用は重要性が高いが，十分な学習データが不足している場合が多い。
- 限られたデータでの学習は，AIモデルの汎化性能を低下させ，誤検出や未検出を引き起こす可能性がある。
- 拡散モデルを用いて合成データを生成し，少ない実データでAIモデルの性能を向上させることを目指す。
- 拡散モデルFLUX.1をLoRAでファインチューニングし，クラス特化型モデルを生成することで，軍事車両検出性能が向上した。
- 特にデータが少ない場合（8枚の実データ）において，最大8.0%のmAP$_{50}$の改善が確認された。
- ControlNetを用いた構造化ガイダンスにより，さらに性能が向上したが，実データが比較的多い場合は効果が限定的であった。
Link: https://arxiv.org/abs/2604.18076
溺水者捜索・救助のための自律型無人航空機システム：画像に基づく位置特定とミッションシミュレーション [cs.CV, cs.AI, stat.AP]目的：溺水者の早期発見と救助を目的とした自律型無人航空機システムの開発
- 水辺での活動において溺水は常にリスクであり，迅速な救助が求められる。
- 広大な水域や正確な溺水者の位置特定，救助隊員の輸送などが課題である。
- 無人航空機システムによる救助活動の効率化と時間短縮を目指す。
- 画像認識アーキテクチャYOLOを用いて溺水者の自動位置特定を行った結果，YOLOv8が最も高い精度を示した。
- 離散事象シミュレーションにより，従来型の救助活動と比較して，無人航空機システムが救助時間を大幅に短縮できることを示した。
- 2機の無人航空機と2つの格納庫を持つ小規模なシステムでも，救助時間を5分の1に短縮できることがわかった。
Link: https://arxiv.org/abs/2604.18088
文化を考慮したユーモラスなキャプション生成：文化的背景を越えたマルチモーダルなユーモア生成 [cs.RO, cond-mat.mtrl-sci, cond-mat.soft, physics.app-ph, cs.CL, cs.CV]目的：文化を考慮したユーモラスなキャプション生成
- 画像とテキストの理解はAI研究の重要な課題であり，人間らしいコミュニケーションを実現する上で不可欠である。
- 既存のモデルは，特定の文化的背景におけるユーモアの生成において，文脈との整合性や品質の維持が困難である。
- 異なる文化的背景に適応したユーモラスなキャプションを生成する能力の向上を目指す。
- 提案手法は，提示された評価フレームワークにおいて，全体的な性能が向上し，特に文脈適合性が大幅に改善された。
- 画像との関連性とユーモアのバランスが，文化的制約下でより適切に保たれることが示された。
- 段階的アライメントフレームワークにより，報酬ハッキングを抑制しつつ，効果的な文化的適応を実現した。
Link: https://arxiv.org/abs/2604.18091
ViTの説明可能性のための決定を意識した注意伝播 [cs.CV]目的：Vision Transformerの説明可能性向上
- 画像認識においてViTが主流となり，その内部メカニズムの解明が重要である。
- 既存の説明手法は，最終的な決定を十分に反映しておらず，クラス識別能が低い。
- 決定に重要な情報を注意伝播に組み込み，ViTの解釈性を高める。
- DAPは，勾配に基づいた局所化によりトークン重要度を推定し，層ごとの注意展開に統合する。
- その結果，従来の注意ベース手法よりもクラス感受性が高く，簡潔で忠実な帰属マップを生成する。
- 様々なViTモデルでの実験により，DAPが定量評価と定性評価の両方で既存手法を上回ることが示された。
Link: https://arxiv.org/abs/2604.18094
テスト時摂動学習と遅延フィードバックを用いた視覚言語行動モデル [cs.CL, cs.CV]目的：視覚言語行動モデルにおけるテスト時のロバスト性向上
- 視覚言語行動モデルは，複雑なタスク実行において高い性能を示すが，環境変化に弱いという課題がある。
- モデルが行動と対象物間の見かけ上の相関関係に過剰適合し，環境変化に柔軟に対応できない。
- テスト時の摂動学習と遅延フィードバックにより，モデルの過剰適合を軽減し，ロバスト性を高める。
- 提案手法であるPDFは，追加学習なしにテスト時の性能を向上させる。
- 不確実性に基づくデータ拡張と行動投票により，見かけ上の相関関係を軽減する。
- LIBEROとAtariにおける実験で，PDFが既存手法よりも高い成功率とスコアを達成した。
Link: https://arxiv.org/abs/2604.18107
FLiP：多言語・多様式文埋め込みの理解と解釈に向けて [cs.CL, cs.SD]目的：事前学習済み文埋め込み空間の理解
- 自然言語処理の高度化には，文の意味を正確に捉える埋め込み表現が不可欠である。
- 既存の埋め込み表現は，言語や様式によって偏りが存在し，汎用性に課題がある。
- 埋め込み表現の内部構造を分析し，言語・様式ごとの偏りを明らかにすること。
- FLiPモデルを用いることで，多言語・多様式埋め込みから75%以上の語彙情報を再現できることが示された。
- FLiPは従来のモデルよりも高い性能を示し，埋め込み表現の診断ツールとしての有効性が確認された。
- 本研究は，埋め込み表現の言語・様式バイアスを明らかにし，より公平なモデル開発に貢献する。
Link: https://arxiv.org/abs/2604.18109
条件付き軌道予測におけるチャット [cs.RO, cs.CV]目的：人間行動の相互依存性を考慮した，ロボットと人間が相互作用するシステムにおける，周囲の主体の軌道予測
- ロボットと人間が共存する社会において，安全な経路計画と衝突回避には，周囲の行動予測が不可欠である。
- 既存の軌道予測手法は，自身の運動を考慮せず，静的な情報のみに基づいて相互作用をモデル化している。
- 自身の行動意図と周囲の相互作用を考慮することで，より高精度な軌道予測を実現し，安全な行動計画を支援する。
- 提案手法CiTは，時間領域を跨いだ行動意図の分析により，異なる時間領域間の情報補完と統合を実現した。
- CiTは，自身の時間領域における意図を，他者の時間領域からの社会的相互作用情報で修正し，より正確な意図表現を獲得する。
- 実験の結果，提案手法CiTは既存手法を大幅に上回り，最先端の性能を達成した。
Link: https://arxiv.org/abs/2604.18126
LLM生成テキストは外科的ビジョン-言語事前学習を強化するか？ [cs.CV]目的：LLM生成テキストを用いた外科手術のビジョン-言語事前学習フレームワーク
- 外科手術支援AIの発展には，視覚情報と自然言語処理を組み合わせた高度な理解が不可欠である。
- 専門家によるテキスト注釈のコストが高く，大規模な学習データセットの作成が困難である。
- LLMを活用し，低コストで大規模な学習データセットを構築し，事前学習の性能向上を目指す。
- LLM生成テキストを用いた大規模マルチモーダルデータセットLIMEを構築した。
- LIMEに含まれる誤りを軽減するため，信頼性の高いクロスモーダルアライメントを学習するSurgLIMEを提案した。
- SurgLIMEは，既存の視覚モデルの性能を維持しつつ，ゼロショットのクロスモーダルアライメント性能で高い結果を示した。
Link: https://arxiv.org/abs/2604.18134
大規模データセット蒸留のためのソフトラベルプルーニングと量子化 [cs.CV, cs.AI, cs.LG]目的：大規模データセット蒸留におけるソフトラベルのサイズ削減
- データセットサイズ削減は，効率的なモデル学習と展開に不可欠である。
- 大規模データセット蒸留では，ソフトラベルのサイズがボトルネックとなりやすい。
- ソフトラベルの冗長性を削減し，データ圧縮率を向上させることを目指す。
- 本研究では，ソフトラベルのプルーニングと量子化により，ImageNet-1Kで78倍，ImageNet-21Kで500倍のストレージ削減を実現した。
- 提案手法は，合成画像の多様性と教師シグナルの多様性を高めることで，高い圧縮率下での精度劣化を抑制する。
- 様々なネットワークアーキテクチャと蒸留手法において，LPQLDの優位性が確認された。
Link: https://arxiv.org/abs/2604.18135
3D医療画像における領域に基づいたレポート生成：詳細なデータセットとグラフ強化フレームワーク [eess.SY, cs.SY, eess.SY, cs.SY, cs.CV, cs.AI]目的：3D PET/CT画像に対する医療レポートの自動生成
- 医療画像診断支援は，医師の負担軽減と診断精度の向上に不可欠である。
- 3D医療画像の解析は高次元であり，アノテーション付きデータセットが不足している。
- 低リソース言語における領域に基づいたレポート生成の実現を目指す。
- 本研究では，詳細なRoIアノテーション付きのデータセットVietPET-RoIを公開した。
- 提案手法HiRRAは，RoI間の依存関係をグラフで捉え，診断ワークフローを模倣する。
- RoI CoverageとRoI Quality Indexという新たな評価指標を導入し，臨床的信頼性の向上を示した。
Link: https://arxiv.org/abs/2604.18145
自動胎児頭部セグメンテーションのためのAttention-ResUNet [cs.CV, cs.LG]目的：胎児頭部セグメンテーションの自動化
- 周産期医療において，正確な生体計測は胎児の成長評価に不可欠である。
- 超音波画像は低コントラスト，ノイズ，複雑な解剖学的境界という課題を抱えている。
- 超音波画像における胎児頭部セグメンテーションの精度向上を目指す。
- 提案手法Attention-ResUNetは，HC18データセットにおいて平均Dice係数99.30±0.14%を達成した。
- 既存のResUNet，Attention U-Net等の5つのベースラインと比較して有意に高い性能を示した(p<0.001)。
- サルイエンシーマップ分析により，解剖学的に整合性の高い活性化パターンが確認され，解釈性の向上に貢献する。
Link: https://arxiv.org/abs/2604.18148
気候変動による洪水リスクに対処するためのAIを活用した廃棄物マッピング [eess.SY, cs.SY, math.DS, cs.CV, cs.CY]目的：都市部の廃棄物分布の把握
- 都市の急成長に伴い，気候変動による洪水被害が増加しており，その対策が急務である。
- 不十分な廃棄物管理が排水システムを塞ぎ，洪水リスクを増幅させるという課題がある。
- AIを活用し，都市全体の廃棄物分布を効率的に把握し，対策の優先順位付けを行う。
- タンザニアのダルエスサラームにおいて，AIを用いた廃棄物マッピングを実施し，高解像度な廃棄物分布を明らかにした。
- 廃棄物の堆積は，貧困層居住地域や社会経済的要因と関連していることが示された。
- 水路における廃棄物蓄積は，周辺地域と比較して最大3倍高く，洪水リスクの高い場所を特定した。
Link: https://arxiv.org/abs/2604.18151
MM-JudgeBias：MLLMを評価器とする際の構成的バイアスの評価ベンチマーク [cs.CL, cs.AI, cs.CV]目的：MLLMを評価器とする際の構成的バイアスの評価
- 近年のMLLMは自動評価器として活用が進んでいる。評価の信頼性確保は重要である。
- MLLM評価器は，視覚的・テキスト的情報の統合が不十分な場合がある。
- 構成的バイアスの定義と評価ベンチマークの開発により，評価器の信頼性向上を目指す。
- MM-JudgeBiasは，クエリ，画像，応答に対する制御された摂動を導入し，バイアスの評価を行う。
- 実験の結果，最先端のMLLMにおいてモダリティの無視や非対称な評価傾向が明らかになった。
- 信頼性の高い評価器開発のために，バイアスに強いMLLMの実現が不可欠であることが示唆された。
Link: https://arxiv.org/abs/2604.18164
埋め込み演算：テキスト-画像モデルにおける事後バイアス軽減のための軽量でチューニング不要なフレームワーク [cs.CV]目的：テキスト-画像モデルにおける社会的なバイアスの軽減
- 画像生成AIの普及に伴い，倫理的な問題が顕在化しており，バイアス軽減が重要である。
- 既存のテキスト-画像モデルは，有害な社会的バイアスを増幅する傾向がある。
- モデルの重みやデータセットを変更せずに，バイアスを軽減し，公平性とコヒーレンスを両立すること。
- 埋め込み演算を用いることで，埋め込み空間におけるバイアスの構造を解析し，修正することが可能となった。
- FLUX 1.0-DevとStable Diffusion 3.5-Largeを用いた実験により，既存手法と比較して多様性が向上し，概念コヒーレンスを維持することが示された。
- Concept Coherence Score（CCS）という新しい指標を提案し，バイアス軽減と意味保持のバランスを評価した。
Link: https://arxiv.org/abs/2604.18167
クラスラベルからテキストへのワンステップ画像生成の拡張：識別的なテキスト表現を通して [cs.CV]目的：クラスラベルからテキストへのワンステップ画像生成の実現
- 画像生成技術は，コンテンツ制作において重要な役割を担うため，その効率化と多様性の拡大が求められている。
- 既存のワンステップ画像生成法は，クラスラベルに限定されており，より柔軟なテキスト入力への対応が課題となっていた。
- テキストによる制御を可能にし，多様なコンテンツ生成を実現するための新たな手法を開発すること。
- 強力なLLMベースのテキストエンコーダをMeanFlowフレームワークに組み込むことで，テキスト条件付きの効率的な画像合成に初めて成功した。
- テキスト特徴表現の識別力がMeanFlow生成において重要であることを明らかにした。
- 提案手法は，広く利用されている拡散モデルにおいても生成性能の大幅な向上を実証した。
Link: https://arxiv.org/abs/2604.18168
正準視点誘導による多視点連続手話認識 [cs.CV]目的：多視点環境下における連続手話認識のロバスト性の向上
- 手話認識は，聴覚障がい者と健常者のコミュニケーションを支援する上で不可欠である。
- 既存の手話認識手法は単一視点に依存しており，現実世界の多様な視点変化に対応できない。
- 本研究は，多視点からの情報を活用し，視点変化に頑健な手話認識手法を開発する。
- 提案手法CanonSLRは，正準視点(正面視点)を基準とした教師あり学習戦略を採用し，多視点の手話認識精度を向上させる。
- シーケンスレベルのソフトターゲット蒸留により，視点間の意味的差異を低減し，隠蔽や投影変化による曖昧さを軽減する。
- PT14-MVおよびCSL-MVデータセットを用いた実験により，CanonSLRが既存手法を上回り，特に非正面視点において高いロバスト性を示すことが確認された。
Link: https://arxiv.org/abs/2604.18184
Audio-DeepThinker：音声言語モデルにおける高品質な思考連鎖の創発のための段階的推論認識強化学習 [cs.SD, cs.CL]目的：音声言語モデルにおける思考連鎖の創発
- 音声理解の分野は，近年の大規模言語モデルの発展により飛躍的に進歩している。
- 既存の手法では，思考連鎖の質を直接評価する報酬設計が難しく，音響的根拠に基づいた推論が不足している。
- 強化学習を通して，教師なしで高品質な思考連鎖を創発させることを目指す。
- 提案手法Audio-DeepThinkerは，MMAR，MMAU-test-mini，MMSUにおいて最先端の結果を達成し，Interspeech 2026 Audio Reasoning Challengeで1位を獲得した。
- ハイブリッドな報酬関数と段階的なカリキュラムにより，事前知識なしのモデルから高品質な思考連鎖が創発することが示された。
- 強化学習は，主に上層のMoEゲート機構を再構築し，思考連鎖が上層のTransformer層で徐々に結晶化していく様子が観察された。
Link: https://arxiv.org/abs/2604.18187
引力，斥力，摩擦：摩擦を増強したドリフトモデルDMFの導入 [cs.HC, cs.CY, cs.LG, cs.CV]目的：ドリフトモデルにおける収縮閾値の導出と，摩擦係数の線形スケジュールによる誤差軌跡の有限水平線上の制約
- 生成モデルの性能向上は，画像生成やデータ変換といった応用において重要な課題である。
- ドリフトモデルの理論的解析が不十分であり，ドリフト消失が分布の一致を保証する条件が不明確である。
- ドリフトモデルの理論的限界を明らかにし，摩擦項を加えることでモデルの性能と安定性を向上させる。
- 本研究では，代用モデルに対する収縮閾値を導出し，線形スケジュール摩擦係数の有効性を示した。
- ガウスカーネル下では，ドリフト場の平衡が識別可能であり，ドリフト消失は分布の一致を意味することが証明された。
- 提案するDMFモデルは，学習計算コストを16分の1に削減しながら，最適なフローマッチングと同等またはそれ以上の性能を達成した。
Link: https://arxiv.org/abs/2604.18194
拡散SAM：リモートセンシング画像のための拡散誘導ゼロショット物体グラウンディング [cs.HC, cs.RO, cs.CL, cs.IR, cs.CV, cs.LG]目的：リモートセンシング画像における物体グラウンディングの精度向上
- リモートセンシング画像解析は，土地利用，環境モニタリング等に不可欠である。
- 複雑なシーンにおける正確な物体検出・位置特定が課題である。
- 拡散モデルとセグメンテーションモデルの融合による高精度化を目指す。
- 本研究では，拡散モデルを基盤とした新たなパイプラインを提案した。
- 提案手法は，既存手法と比較してAcc@0.5で14%以上の性能向上を達成した。
- 拡散モデルとセグメンテーションモデルの組み合わせが，ロバストな物体位置特定に貢献する。
Link: https://arxiv.org/abs/2604.18201
NeRFとGaussian Splattingにおける幾何学的精度の比較評価 [cs.CL, cs.CL, cs.CV, cs.RO]目的：NeRFとGaussian Splattingの幾何学的精度の比較
- ロボティクスなどにおいて，正確な3次元形状は重要な役割を担う。
- 既存の評価指標は視覚的品質に偏り，幾何学的精度が軽視されがちである。
- ニューラルレンダリング法の幾何学的精度を定量的に評価するパイプラインの構築。
- 提案手法により，19種類の多様なシーンを用いた再構成手法の幾何学的精度を体系的に評価できることが示された。
- 従来の視覚的指標と補完する形で，表面形状の忠実性を評価することが可能となった。
Link: https://arxiv.org/abs/2604.18205
対称性に対する感受性を考慮した姿勢推定：対称オブジェクトクラスに対する回転表現 [cs.CV, math.GT]目的：対称オブジェクトの姿勢推定における回転表現の改良
- 日常生活や産業において対称オブジェクトは一般的であり，その正確な姿勢推定は様々な応用において重要である。
- 対称オブジェクトの持つ内在的な方向の曖昧性は，深層学習ネットワークの学習を妨げる要因となっているが，十分に議論されていない。
- 本研究は，対称性に着目した回転表現を用いて，姿勢推定における曖昧性の問題を解決することを目的とする。
- 提案手法SARRは，T-LESSおよびITODDデータセットにおいて，一意かつ連続的な姿勢表現を可能にした。
- SARRを用いたネットワークは，対称性感受性のある評価指標AR_Cにおいて，既存手法を上回る性能を示した。
- 本手法は3Dモデルを必要とせず，奥行き画像やRGB/グレースケール画像のみを入力として使用できる。
Link: https://arxiv.org/abs/2604.18208
必要に応じて記憶：空間的に一貫性のある長尺ビデオ生成のための分離されたメモリ制御 [cs.SI, cs.CV]目的：空間的整合性と生成能力の向上
- ビデオ生成技術は，多様な応用分野において重要な役割を担う。
- 既存手法では，メモリモデリングとビデオ生成が密結合であり，一貫性に課題がある。
- 歴史的観察からの空間的整合性を正確に学習し，生成能力を維持すること。
- 提案手法は，メモリと生成を分離することで，訓練コストを大幅に削減する。
- 生成されたフレームが，空間的に最も関連性の高い過去情報のみに基づいて条件付けされる。
- 実験により，提案手法が視覚品質と空間的整合性の両方において最先端の性能を達成することが示された。
Link: https://arxiv.org/abs/2604.18215
EFX に対する反例：3 人以上のエージェント，n+5 個以上のアイテム，単調な評価 [cs.GT, cs.DS]目的：公平な物品分配における EFX（任意の物品を取り除いた場合でも他のエージェントの分配を羨まない状態）の存在可能性に関する反例の提示
- 公平な資源配分は，社会的な公正性の観点から重要であり，経済学，計算機科学など多くの分野で研究されている。
- EFX 分配は，理論上は魅力的な概念であるが，特定の条件下では存在しない可能性が指摘されており，その条件を特定することが課題となっている。
- エージェント数とアイテム数がある条件下で EFX 分配が存在しないことを示すことで，公平な配分の限界を明らかにする。
- 3 人のエージェントと 7 つの物品の場合，EFX 分配が存在することの証明を SPASS-SAT を用いて行った（計算規模：約 30GB，時間：約 30 時間）。
- 3 人のエージェントと 8 つの物品の場合，EFX 分配が存在しないことを示す反例を SPASS-SAT によって見つけた（計算時間：約 20 時間）。
- この反例は，離散的な公平分割理論における重要な問題の一つに否定的な答えを与えている。
Link: https://arxiv.org/abs/2604.18216
命令を状態として：環境誘導と状態条件による埋め込み型ナビゲーションのための意味理解 [cs.CV]目的：視覚的に変化する環境における自然言語指示への追従
- 実世界でのロボット操作において，言語による指示は不可欠であり，その理解がナビゲーション性能に大きく影響する。
- 従来のモデルは指示を静的な表現として扱うため，視覚的コンテキストの変化に対応できず，指示の解釈が誤りが生じやすい。
- 環境の状況に応じて指示の意味を動的に変化させ，より正確なナビゲーションを可能にするための仕組みを構築する。
- 提案手法S-EGIUは，観察に基づいて関連する指示セグメントを活性化し，トークンレベルでの意味を洗練させることで，指示の状態を更新する。
- 実験の結果，REVERIE Test Unseenにおいて+2.68%のSPL向上を示し，複数のVLNベンチマークで一貫した効率向上が確認された。
- この成果は，動的な指示と知覚の連携がVLNタスクにおいて重要な役割を果たすことを示唆している。
Link: https://arxiv.org/abs/2604.18223
SAM3は病理セグメンテーションの準備ができているか [cs.CV, cs.AI]目的：病理画像セグメンテーションにおけるSAM3の能力評価
- 病理診断の精度向上には，組織や細胞核の正確なセグメンテーションが不可欠である。
- 従来のセグメンテーション手法は，高コストなアノテーションと汎化性能の低さが課題である。
- SAM3のプロンプトによる概念セグメンテーションの有効性を病理画像において検証し，適用範囲を明確にする。
- テキストのみのプロンプトでは，核の概念が十分に活性化されないことが示された。
- セグメンテーション性能は，視覚プロンプトの種類や予算に大きく依存することが明らかになった。
- 少量学習は性能向上に貢献するものの，SAM3は視覚プロンプトのノイズに弱いという課題が残った。
Link: https://arxiv.org/abs/2604.18225
医療画像理解が視覚的指示チューニングにより生存予測を向上させる [cs.CL, cs.CV]目的：医療画像からの生存予測性能向上
- 臨床判断や患者管理において，正確な予後予測とリスク評価は不可欠である。
- CT画像からの専門家による特徴抽出は知識を要し，視覚情報をテキスト化する際に情報損失が生じる。
- 視覚的指示チューニングを用いて，臨床的に意味のある表現学習と生存予測の改善を目指す。
- 提案手法は，CT画像と臨床データを用いた生存予測において，既存手法を上回る性能を示した。
- 特に，臨床データのみでは予測が難しい場合に，その効果が顕著に現れた。
- 視覚と言語を組み合わせることで，臨床的に意味のある言語応答を生成することも可能となった。
Link: https://arxiv.org/abs/2604.18250