arXiv雑要約

画像・音声 - 2026/04/02 公開

AdaLoRA-QAT：適応低ランクと量子化認識セグメンテーション [eess.IV, cs.AI, cs.CV]目的：胸部X線画像セグメンテーションにおける効率性と精度向上
- 医療診断支援において，胸部X線画像セグメンテーションは重要な役割を担う。
- 大規模な基盤モデルの計算資源制約から臨床現場への導入が困難である。
- モデルのパラメータ効率と圧縮率を高め，臨床的信頼性を損なわずにセグメンテーション精度を維持すること。
- AdaLoRA-QATは，ダイス係数95.6%を達成し，フル精度SAMデコーダーのファインチューニングと同等の性能を示した。
- 学習可能なパラメータ数を16.6倍，モデル圧縮率を2.24倍削減することに成功した。
- Wilcoxonの符号順位検定により，量子化がセグメンテーション精度を著しく低下させないことが確認された。
Link: https://arxiv.org/abs/2604.01167
CHEEM：再利用，新規，適応，スキップによる継続学習 -- 階層的探索・利用アプローチ [cs.CV, cs.LG]目的：継続的な環境変化に対応するための知識獲得・更新・蓄積メカニズム
- 現実世界の複雑な環境に適応するには，継続学習が不可欠である。
- 既存の深層学習システムは，過去知識の忘却（破滅的忘却）が課題となる。
- 安定性と可塑性の両立を目指し，タスクに応じた効率的なモデル構築を可能にする。
- 提案手法CHEEMは，MTILおよびVDDベンチマークにおいて最先端のプロンプトベース手法を大幅に上回る性能を示した。
- CHEEMは，タスクの複雑さに応じてモデル構造を適応的に学習し，意味的に有意な構造を獲得する。
- HEE-NASという効率的なニューラルアーキテクチャ探索により，タスクストリーム全体を通して選択されたコンポーネントを動的に更新する。
Link: https://arxiv.org/abs/2303.08250
Few-Shot分類のための局所表現の活用 [cs.CV]目的：Few-Shot分類における汎化性能の向上
- 画像認識の分野では，学習データに存在しないクラスへの対応が重要である。
- Few-Shot分類において，局所表現を有効活用できていない点が課題である。
- 局所表現の学習方法と，特徴量間の距離指標の適応性を改善することを目指す。
- 特徴抽出器の事前学習に，ソフトラベルを用いたランダムクロップパッチ学習を導入した。
- 局所特徴集合間の距離を測る際に，エントロピー正則化された最適輸送問題を導入し，適応性を高めた。
- ３つのベンチマークで最先端の性能を達成し，特にファイングレインなシナリオで優れた結果を示した。
Link: https://arxiv.org/abs/2407.01967
視覚ニューラルデコーディングにおける，改善された視覚-脳波意味的一貫性 [cs.CV, cs.HC]目的：視覚ニューラルデコーディングの性能向上
- 脳活動から直接視覚経験を解釈する試みは，脳科学研究の進展に不可欠である。
- 既存手法は，脳波特徴量と画像埋め込み空間の間のマッピングバイアスが課題となっていた。
- 視覚画像と脳波信号間のギャップを埋め，意味的一貫性を高めることを目指す。
- 提案手法は，視覚-脳波共同意味空間を構築し，意味的レベルでのクロスモーダルアライメントを実現した。
- VE-SDNは，モダリティ表現から意味成分を分離し，NGICは視覚表現のロバスト性を高めた。
- 大規模な視覚-脳波データセットで，既存の最先端手法と比較して，Top-1/Top-5の精度が大幅に向上した。
Link: https://arxiv.org/abs/2408.06788
視覚情報強化マルチモーダル大規模言語モデルによるゼロショット異常検知 [cs.AR, cs.CV]目的：ゼロショット異常検知における性能向上
- 柔軟な産業製造において，未見の異常を検知・特定する技術の重要性が高まっている。
- 既存手法は，定義済みのプロンプトに依存し，未知の欠陥への対応が困難である。
- 視覚情報と言語モデルを融合し，微細な異常をより正確に検知することを目指す。
- 提案手法VMADは，視覚情報を活用し，大規模言語モデルの異常検知能力を向上させる。
- 欠陥に敏感な構造学習により，視覚的特徴を言語モデルに転送し，異常の識別精度を高める。
- 新たに構築した実産業異常検知データセットRIADを用いて，最先端手法を上回る性能を実証した。
Link: https://arxiv.org/abs/2409.20146
U-Net マスク化オートエンコーダと EfficientNet-B7を用いた自己教師あり学習によるビデオカプセル内視鏡検査における消化器異常分類の改善 [cs.RO, cs.CV]目的：ビデオカプセル内視鏡画像における消化器異常の多クラス分類
- 消化器疾患の診断において，非侵襲的かつ高解像度な画像取得が可能なカプセル内視鏡検査の重要性が高まっている。
- 検査によるデータ量が膨大であるため，医師による手動検査は労力がかかり，観察者間のばらつきが生じやすいという課題がある。
- 教師あり学習におけるデータ不足と不均衡性といった問題を，自己教師あり学習と特徴量融合によって解決することを試みる。
- 提案手法は，Capsule Vision 2024 Challenge データセットにおいて，検証精度94%を達成し，単独アーキテクチャやアテンション機構を用いた融合手法を上回った。
- 自己教師あり学習によるロバストな特徴表現の獲得と，EfficientNet-B7の特徴量との融合が，消化器異常分類の性能向上に貢献している。
- 本研究は，医療画像におけるクラス不均衡への対処と診断精度の向上において，自己教師あり表現学習と特徴量融合の有効性を示唆する。
Link: https://arxiv.org/abs/2410.19899
特徴分離と対照学習によるクロスカメラ運転者注意散漫分類 [cs.CV, cs.AI, cs.CY]目的：運転者の注意散漫状態の分類
- 安全運転確保のため，運転者の状態把握が不可欠であり，その中でも注意散漫の検出は重要である。
- 既存モデルは，訓練データと異なる条件下で精度が低下する問題がある。
- 車両内カメラ位置の変化にロバストな，汎化性能の高いモデルを開発する。
- 提案手法DBMNetは，特徴からカメラ視点情報を除去し，対照学習で運転行動の符号化を強化する。
- 100-Driverデータセットを用いたクロス検証で有効性が確認され，AUCDD-V1，EZZ2021，SFDのベンチマークデータセットでも優位性を示した。
- 既存手法と比較して，Top-1精度が7%向上し，推論速度，省電力性にも優れる。
Link: https://arxiv.org/abs/2411.13181
組合せマルコフ探索 [cs.GT]目的：代替案の探索と選択における報酬の最大化
- 意思決定において，不確実な情報を持つ代替案から最適なものを選択することは重要である。
- 代替案の評価にはコストがかかり，探索の順番や選択方法が結果に影響する。
- コストと報酬を考慮した最適な探索・選択戦略を確立することを目指す。
- 本研究では，代替案を「マルコフ探索過程」としてモデル化し，最適な報酬獲得戦略を分析した。
- 様々な制約下で，最適な預言者不等式が成立することを示した。
- 特に，マトロイド制約下では，計算効率の良い $\frac{1}{2}-\epsilon$ 預言者不等式が得られた。
Link: https://arxiv.org/abs/2502.08976
視覚障碍者・弱視者が好む大規模視覚言語モデル生成のシーン記述 [cs.CV, cs.AI]目的：視覚障碍者・弱視者におけるシーン記述の好み
- 複雑な環境での移動は，視覚障碍者・弱視者にとって危険を伴うため，支援技術が重要である。
- 大規模視覚言語モデルのシーン記述は有望だが，視覚障碍者・弱視者にとっての有効性は未解明な点が多い。
- 視覚障碍者・弱視者のニーズに合致した，より適切なシーン記述の生成を目指す。
- ユーザー調査の結果，シーン記述は不安軽減や行動可能性の向上に貢献する一方で，十分性や簡潔性にばらつきが見られた。
- GPT-4oは潜在能力が高いにも関わらず，必ずしも参加者から一貫して好まれるものではなかった。
- 本研究の知見に基づき，視覚障碍者・弱視者の好みを捉える自動評価指標の構築に向けたトレーニングデータを作成した。
Link: https://arxiv.org/abs/2502.14883
オンラインにおけるマルチモーダル社会的相互作用理解に向けて [cs.CV]目的：オンライン環境下でのマルチモーダル社会的相互作用理解
- 人間とAIの円滑なコミュニケーション実現には，社会的相互作用の理解が不可欠である。
- 過去の情報のみで社会的相互作用を理解することは，性能低下を引き起こす。
- 将来の文脈なしでも，リアルタイムな参照解決能力を向上させることを目指す。
- 提案手法Online-MMSI-VLMは，マルチモーダル大規模言語モデルを基盤としている。
- 会話予測と視覚的プロンプティングにより，社会的文脈を考慮した理解を実現した。
- 2つのデータセットにおける3つのタスクで，最先端の結果を達成した。
Link: https://arxiv.org/abs/2503.19851
Science-T2I：画像合成における科学的誤謬への対処 [cs.CV, cs.AI, cs.LG]目的：科学的画像生成における課題克服
- 画像生成技術は科学分野における可視化に貢献するが，現実との乖離が課題。
- 既存モデルは見た目は良くても，科学的に妥当な画像を生成できない。
- 科学的根拠に基づいた正確な画像生成を実現する。
- ScienceT2Iデータセットは，16の科学分野にわたる2万件以上の敵対的画像ペアと9千件のプロンプトを含む。
- 現在の画像生成モデルは，科学的な指示のみでは低いスコアしか得られず，詳細な指示があれば改善されることが示された。
- SciScoreは，CLIP-Hを微調整した報酬モデルであり，GPT-4oや人間による評価よりも高い精度で科学的現象を捉える。
Link: https://arxiv.org/abs/2504.13129
WaveGuard：双方向木構造複素ウェーブレットとグラフニューラルネットワークによる堅牢なディープフェイク検出と出所追跡 [cs.CV]目的：ディープフェイク検出と出所追跡の堅牢性向上
- プライバシー侵害やなりすましなど，ディープフェイク技術によるリスクが増大しており，対策が急務である。
- 既存のディープフェイク検出手法は，攻撃に対して脆弱である場合や，視覚品質を損なう場合がある。
- ディープフェイクに不可視なウォーターマークを埋め込み，堅牢性と視覚品質を両立した検出手法を開発する。
- WaveGuardは，周波数領域への埋め込みとグラフベースの構造的一貫性により，堅牢性と不可視性を高める。
- 顔入れ替えおよび再演タスクにおいて，WaveGuardは最先端の手法よりも堅牢性と視覚品質で優れていることが示された。
- 双方向木構造複素ウェーブレット変換(DT-CWT)と構造的一貫性グラフニューラルネットワーク(SC-GNN)を活用している。
Link: https://arxiv.org/abs/2505.08614
MATHDance：一様トークン化を用いたMamba-Transformerアーキテクチャによる高品質3Dダンス生成 [cs.SD, cs.GR, cs.MM, eess.AS]目的：3Dダンス生成のためのアーキテクチャ
- バーチャルリアリティやコンテンツ生成において，ダンス生成は重要な課題である。
- 既存手法では，一貫性のある振り付けの生成が困難である。
- 音楽とダンスの一貫性を高めるための新たなフレームワークを提案する。
- 提案手法MATHDanceは，運動の潜在表現を構築し，振り付けの一貫性を向上させる。
- 運動を潜在表現にエンコードするKinematic-Dynamic-based Quantization Stage(KDQS)と，音楽から潜在表現へのマッピングを行うHybrid Music-to-Dance Generation Stage(HMDGS)の二段階構成である。
- FineDanceデータセットでの実験により，最先端の性能が示された。
Link: https://arxiv.org/abs/2505.14222
3Dスキャンから植物のパラメータ化表現を学習する [cs.CV]目的：植物のパラメータ化表現の推論
- 植物の形態解析は，育種や環境適応研究において重要である。
- 複雑な3次元構造と自己遮蔽により，植物の正確な再構成は困難である。
- 3Dスキャンデータから植物の構造とパラメータを効率的に推論することを目指す。
- 提案手法は，3D点群クラウドから植物のパラメータ化された樹状表現を推論可能である。
- 再構成，セグメンテーション，骨格化といった植物表現の重要課題において，既存手法と同等以上の性能を達成した。
- 合成データのみで学習したモデルが，実際の3Dスキャンデータに対しても高い汎化性能を示すことが確認された。
Link: https://arxiv.org/abs/2505.22337
インタラクティブな社会環境における人間の行動予測：HUMOF [cs.RO, cs.SY, eess.SY, cs.CV]目的：インタラクティブな社会環境における人間の行動予測手法
- 社会生活の理解や安全確保のため，人間の行動予測は重要である。
- 複雑な状況下では，人間同士や環境との相互作用が予測を困難にする。
- 相互作用を考慮したより高精度な行動予測を実現する。
- 本研究では，階層的な相互作用特徴表現と粗い段階から細かい段階への推論モジュールを提案した。
- これにより，空間的・周波数的な視点から相互作用を効率的に活用し，予測精度を向上させた。
- 提案手法は4つの公開データセットで最先端の性能を達成した。
Link: https://arxiv.org/abs/2506.03753
二段階Vision Transformerとハードマスキングによるロバストな物体表現 [cs.CL, cs.CV, cs.AI]目的：物体表現のロバスト性向上
- 物体認識は，画像理解の基礎であり，様々な応用分野で不可欠である。
- 推論時に分布外の背景が出現すると，物体表現に望ましくないバイアスが生じやすい。
- 文脈を必要としながらも，ノイズとなる可能性のある背景情報を除去する。
- 提案手法は，物体認識における分布外背景へのロバスト性を大幅に向上させる。
- 二段階のフレームワークにより，重要な領域への注意を集中し，誤った相関関係を抑制する。
- セマンティックマスクの明示的な利用により，モデルの推論過程を可視化し，テスト時の介入を可能にする。
Link: https://arxiv.org/abs/2506.08915
MemeMind：有害ミーム検出のための思考連鎖推論を備えた大規模マルチモーダルデータセット [cs.CL, cs.AI, cs.CV]目的：有害ミームの検出
- インターネット上での有害コンテンツ拡散防止は，社会的な課題として重要である。
- ミームは比喩やユーモアを伴うため，有害な意図が隠されており，検出が困難である。
- ミームに内在する暗黙の危険性とニュアンスを捉え，有害ミーム検出の精度向上を目指す。
- 大規模な有害ミームデータセットMemeMindを構築し，詳細な思考連鎖推論アノテーションを付与した。
- 思考連鎖推論を重視したマルチモーダル検出フレームワークMemeGuardを提案し，検出精度と解釈性を向上させた。
- MemeMindデータセット上で，MemeGuardが既存の最先端手法を上回る性能を示した。
Link: https://arxiv.org/abs/2506.18919
訓練済みネットワークの高速化と圧縮のための分散に基づくプルーニング [cs.CV, cs.LG]目的：訓練済みネットワークの圧縮と高速化
- モデル規模の増大に伴い，学習コストが増大しているため，既存の高性能ネットワークの再利用が重要である。
- ネットワークの展開には，遅延，計算コスト，メモリ消費量が課題であり，特にリソース制約のあるハードウェアでは深刻である。
- 構造化プルーニング後の性能維持と，大規模な再学習の回避を目指す。
- 提案手法（分散に基づくプルーニング）は，わずかな微調整で効率的にネットワークを圧縮できる。
- ImageNet-1kにおいて，DeiT-Baseはプルーニング直後に元の性能の70%以上を維持し，10エポックの微調整で99%の精度を回復する。
- MACsは35%削減，モデルサイズは36%削減され，速度が1.44倍向上する。
Link: https://arxiv.org/abs/2507.12988
解釈可能性に基づく音声事前学習モデルにおける話者分離 [eess.SY, cs.SY, cs.SD, eess.AS]目的：音声事前学習モデルにおける話者情報の残存量測定と，その除去手法
- 音声認識の性能向上には，よりロバストな特徴表現が不可欠である。
- 事前学習モデルが話者情報と内容情報を混在して学習することが課題。
- 話者情報を取り除くことで，認識精度の向上とプライバシー保護を目指す。
- InterpTRQE-SptMEベンチマークにより，話者情報の残存量を定量的に評価可能となった。
- InterpTF-SptMEは，SHAP Noiseフィルタリングにより話者残差をほぼゼロに削減することに成功した。
- 本手法はモデルに依存せず，再学習も不要であり，汎用的に利用可能である。
Link: https://arxiv.org/abs/2507.17851
MRI-iUSマッチングと登録のための3次元クロスモーダルキーポイント記述子 [cs.CV]目的：MRIとリアルタイム超音波の対応付けおよび登録
- 手術中のナビゲーション精度向上に，術前MRIと術中超音波の正確な位置合わせが不可欠である。
- MRIと超音波は画像特性が大きく異なるため，自動的な正確な対応付けが困難である。
- 両モダリティ間の画像差を克服し，安定したキーポイントの対応付けを可能にすること。
- 提案手法は，患者固有の合成超音波画像を生成し，教師あり学習によって共通の記述子空間を学習する。
- 実験結果から，提案手法は既存のキーポイントマッチング手法と比較して高い精度を示した（平均精度69.8%）。
- ReMIND2Regベンチマークにおける平均ターゲット登録誤差は2.39mmであり，競争力のある性能を示す。
Link: https://arxiv.org/abs/2507.18551
物体のアフォードランス認識とグラウンディング：マルチスケールクロスモーダル表現学習によるアプローチ [cs.CV]目的：物体のアフォードランスの認識と，それを3次元空間に結び付けること
- 具現化されたAIにおいて，人間のように観察から物体の操作を学習することは重要である。
- 既存研究では，グラウンディングと分類を分離して扱っており，その依存関係のモデリングが不十分である。
- 画像に表現された不完全なアフォードランス領域だけでなく，潜在的なアフォードランス領域全体を予測すること。
- 提案手法では，アフォードランスを意識した3次元表現を学習し，グラウンディングと分類の間の依存関係を活用する段階的な推論戦略を用いる。
- 効率的な融合とマルチスケール幾何学的特徴伝搬を通じてクロスモーダルな3次元表現を開発し，適切な領域スケールで潜在的なアフォードランス領域全体を推論する。
- グラウンディングと分類を効果的に結合するシンプルな二段階予測メカニズムを採用し，アフォードランス理解の精度向上を実現した。
Link: https://arxiv.org/abs/2508.01184
視覚エンコーダにおける処理と取得の痕跡：CLIPはあなたのカメラについて何を認識しているか [cs.CV]目的：視覚エンコーダにおける画像取得プロセスと変換パラメータのエンコード
- 画像認識の性能は，視覚エンコーダの堅牢性に大きく依存する。
- 訓練時に見られなかった画像変換や破損は，性能低下を引き起こす。
- 人間の目には知覚できない微細なパラメータが，エンコードされている可能性に着目する。
- 視覚表現には，画像取得や処理に関するパラメータが体系的にエンコードされていることが明らかになった。
- これらのパラメータは容易に復元でき，意味予測に大きな影響を与える。
- 意味ラベルとこれらのパラメータの相関関係によって，予測への影響は変化する。
Link: https://arxiv.org/abs/2508.10637
物理情報ニューラルネットワークと準共形写像によるノイズ画像からの2次元血流と血管形状の同時再構成 [math.NA, cs.CV, cs.NA]目的：ノイズを含む画像からの血流と血管形状の再構成
- 血管系内の血流解析は，診断や治療計画において不可欠である。そのため，高精度な血流画像取得が求められる。
- 短時間での撮像や機器由来の誤差により，質の高い血流画像を得ることが困難であるという課題が存在する。
- ナビエ・ストークス方程式に基づき，ノイズの影響を低減し，高精度な血流画像と血管形状を再構成することを目的とする。
- 提案手法は，物理情報ニューラルネットワークと準共形写像を組み合わせることで，ノイズの多い血流画像から高精度な再構成を可能にした。
- 収束チャネル形状と大動脈形状の合成データ及び実データを用いた実験により，提案手法の有効性とロバスト性が確認された。
- 主要パラメータの感度分析により，手法の性能に与える影響を評価した。
Link: https://arxiv.org/abs/2508.11216
量子化された拡散モデルにおける誤差伝播メカニズムと補償戦略 [cs.CV]目的：拡散モデルにおける誤差伝播の理論的解明と補償スキームの開発
- 画像合成において高品質・高創造性を実現する拡散モデルは，実用化が期待されている。
- 量子化による高速化は有効だが，誤差が累積し，画像品質が低下する課題がある。
- 誤差伝播メカニズムを解明し，累積誤差を補償することで画質劣化を防ぐことを目指す。
- 誤差伝播の数理モデルを構築し，各ステップにおける誤差伝播方程式と累積誤差の閉形式解を導出した。
- ステップを考慮した累積誤差補償スキームを提案し，既存の量子化手法の性能を大幅に向上させた。
- SDXL W4A4においてSVDQuantと比較してPSNRが1.2向上し，わずかな時間オーバーヘッドで実現した。
Link: https://arxiv.org/abs/2508.12094
FedKLPR：KL制約によるプルーニング適応型連合学習を用いた人物再識別 [cs.CV, cs.AI, cs.LG]目的：人物再識別のための，軽量かつ通信効率の良い連合学習フレームワーク
- 人物再識別は，知能監視や公共の安全において不可欠な技術であるため，その重要性は高い。
- 連合学習を現実世界の再識別システムに適用する際，クライアント間の統計的異質性や通信オーバーヘッドが課題となる。
- 統計的異質性を緩和し，通信コストを削減することで，連合学習による人物再識別性能の向上を目指す。
- 提案手法FedKLPRは，KLダイバージェンス正則化損失を用いて，クライアント間の統計的異質性を軽減し，収束安定性を高める。
- KLダイバージェンス・プルーニング重み付き集約により，プルーニングされたローカルモデルを効果的に集約し，モデルのロバスト性を向上させる。
- 動的なプルーニング制御機構Cross-Round Recoveryにより，過剰なプルーニングを防ぎ，モデル精度を維持しながら通信コストを40-42%削減する。
Link: https://arxiv.org/abs/2508.17431
セマンティックシーン生成と補完のためのオクトリー拡散 [cs.CV]目的：3Dセマンティックシーンの生成，補完，拡張に関する研究
- ロボットのナビゲーションや探索において，3D環境理解は不可欠である。
- 既存手法は，シーン生成と補完を分離し，ドメイン特化しやすい。
- ドメインを問わず，シーン生成，補完，拡張を統一的に実現すること。
- 提案手法は，効率的なオクトリーグラフ潜在表現上で拡散モデルを用いることで，高品質なシーン生成と補完を実現した。
- 単一のLiDARスキャンからのロバストな補完と，未知のLiDARデータへのゼロショット汎化が可能であることを示した。
- 生成による補完は，実世界のロボット知覚タスクにおいて，回帰ベースの手法に代わる実用的かつスケーラブルな選択肢となる。
Link: https://arxiv.org/abs/2509.16483
MOLM：LoRAマーカーの混合 [cs.CV, cs.CR, cs.LG]目的：生成モデルによる画像生成の検出と出所特定
- 生成モデルの進化により，画像生成の精度が向上し，その真偽の識別が重要になっている。
- 既存のウォーターマーク技術は，歪みや除去攻撃に弱く，鍵の更新にもコストがかかる。
- 鍵に依存するパラメータ摂動による汎用的なウォーターマークフレームワークを構築し，その実現方法を提案する。
- MOLMは，Stable DiffusionおよびFLUXにおいて，画像品質を維持しながら，様々な攻撃に対して堅牢な鍵復元を実現した。
- 本手法は，鍵固有の再学習を回避し，秘匿性，忠実性，検証可能性，堅牢性を兼ね備えている。
- ルーティングベースのLoRAアダプターを使用することで，軽量かつ効率的なウォーターマーク埋め込みを実現している。
Link: https://arxiv.org/abs/2510.00293
消去されても忘れられない：消去された修正フロー変換器はコンセプトアタック下でも依然として安全でない [cs.CV]目的：最新の修正フローベースT2Iフレームワークにおけるコンセプト消去の堅牢性評価
- 近年のテキストから画像生成モデルの発展は目覚ましいが，有害コンテンツ生成のリスクが懸念される。
- 既存のコンセプト消去技術はStable Diffusionに最適化されており，Fluxのような次世代モデルへの転移が困難である。
- 修正フロー変換器におけるコンセプト消去の脆弱性を明らかにし，評価基準を確立すること。
- 本研究で開発したReFluxは，修正フローベースT2Iフレームワークのコンセプト消去に対する初の効果的な攻撃手法である。
- ReFluxは，注意機構の局所化という現象に着目し，逆注意最適化戦略と速度誘導ダイナミクスを組み合わせることで，抑制された信号を効果的に再活性化する。
- 実験により，提案手法の有効性と効率性が確認され，修正フロー変換器におけるコンセプト消去戦略の堅牢性を評価するための信頼性の高いベンチマークが確立された。
Link: https://arxiv.org/abs/2510.00635
大規模視覚言語モデルは視覚障碍者への誘導に役立つか？ [cs.CV, cs.AI]目的：視覚障碍者または低視力者の支援における大規模視覚言語モデルの有用性評価
- 視覚障碍者への支援技術の進歩は，生活の質向上に不可欠である。
- 既存の評価方法は，視覚障碍者のニーズを十分に捉えられていない。
- 視覚障碍者の視点に基づいた，より適切な自動評価手法の確立を目指す。
- 大規模なユーザー調査から，視覚障碍者のナビゲーションの好みを定量化し，VL-GUIDEDATAデータセットを構築した。
- VL-GUIDE-Sは，既存の評価手法と比較して，人間との相関性と推論効率において優れていることが示された。
- 本研究は，安全でアクセスしやすいナビゲーションを支援するAI評価基盤の構築に貢献する。
Link: https://arxiv.org/abs/2510.00766
テキストから画像生成におけるアイデンティティ危機を解決する [cs.CV]目的：複数人物を含む画像生成におけるアイデンティティ多様性の最適化
- 画像生成技術は，コンテンツ制作や視覚化に不可欠であり，その重要性は増している。
- 既存のテキストから画像生成モデルでは，複数人物の生成時に同一人物の重複や混同が生じる問題がある。
- 本研究は，複数人物の画像生成におけるアイデンティティの重複を防ぎ，多様性を確保することを目的とする。
- 提案手法DisCoは，画像内およびサンプル群全体でアイデンティティの多様性を最適化する強化学習フレームワークである。
- DisCoは，顔の類似度へのペナルティ，アイデンティティの繰り返し抑制，正確な人数カウント，そして人間の好みに基づき，多様性と品質を両立させている。
- DiverseHumans Testsetにおいて，DisCoは98.6%のユニークな顔精度とほぼ完璧なグローバルアイデンティティスプレッドを達成し，既存モデルを上回る性能を示した。
Link: https://arxiv.org/abs/2510.01399
TempoControl：テキストから動画モデルにおける時間的注意誘導 [cs.CV, cs.AI, cs.LG]目的：動画生成における視覚要素の時間的配置制御
- 近年の動画生成技術の発展は目覚ましいが，より高度な制御が求められている。
- 既存モデルでは，特定の視覚要素がいつ表示されるかを指定する時間的制御が不十分である。
- 本研究は，再学習や追加の教師データなしに，時間的な配置を精密に制御することを目的とする。
- TempoControlは，クロスアテンションマップを最適化することで，視覚概念の時間的なタイミングを誘導する。
- 相関，振幅，エントロピーの3つの原則を組み合わせることで，高品質かつ多様な動画生成を可能にする。
- 単一/複数オブジェクトの時間的並べ替え，アクションのタイミング調整，音声同期動画生成など，様々な応用例で有効性が確認された。
Link: https://arxiv.org/abs/2510.02226
パルプモーション：フレームを考慮したマルチモーダルカメラと人物モーション生成 [cs.GR, cs.CV]目的：人物モーションとカメラ軌跡の同時生成
- 映像制作において，人物の演技とカメラワークは不可分であり，その関係性を考慮した研究が重要である。
- 従来，人物モーションとカメラ軌跡を別々に生成するため，画面上での整合性が失われるという課題があった。
- 画面上でのフレーミングを維持しつつ，人物モーションとカメラ軌跡を整合的に生成することを目指す。
- 提案手法は，人物の関節位置をカメラに投影することでフレーミングを補助的なモダリティとして利用し，マルチモーダルの一貫性を強化する。
- 実験の結果，DiT-およびMAR-ベースのアーキテクチャにおいて，提案手法が汎用性と有効性を示すことが確認された。
- 生成された人物とカメラの動きは，より映画的な意味を持つフレーミングを実現し，最先端の性能を達成した。
Link: https://arxiv.org/abs/2510.05097
CLoD-GS：3Dガウススプラッティングによる連続的なレベル・オブ・ディテール [cs.GR, cs.CV]目的：リアルタイムコンピュータグラフィックスにおける複雑なシーンのレンダリングコスト管理と視覚的忠実度の維持
- 複雑な3Dシーンを効率的に表示するためには不可欠な技術であり，没入感を高める上で重要である。
- 従来の離散的なLoDでは，モデルの複数コピーが必要で，切り替え時に視覚的なポップアップが発生する。
- 3Dガウススプラッティングの特性を活かし，単一モデル内で滑らかな品質調整を実現する。
- 本研究では，各ガウスプリミティブに距離依存の減衰パラメータを導入し，視点からの距離に応じて不透明度を動的に調整する。
- これにより，重要度の低いプリミティブを段階的にフィルタリングし，単一モデル内で連続的なディテールスペクトルを作成する。
- 実験により，CLoD-GSが滑らかな品質調整を実現し，幅広いパフォーマンス目標に対して高品質な結果を提供することが示された。
Link: https://arxiv.org/abs/2510.09997
移動光源適応大腸内視鏡再構成：照明減衰を考慮した3Dガウススプラッティング [cs.CV]目的：移動光源下における大腸内視鏡画像の高品質な新規視点合成と正確な形状再構成
- 大腸内視鏡検査は，大腸癌の早期発見に不可欠であり，高精度な画像再構成が求められる。
- 従来の3Dガウススプラッティングは静的な照明を前提としており，大腸内視鏡検査のような移動光源環境下では，減衰補正が不十分となり，形状精度が低下する。
- 本研究は，照明の物理特性を考慮した減衰モデルを導入することで，移動光源環境下でも高精度な再構成を実現することを目指す。
- 提案手法ColIAGSは，既存手法と比較して，レンダリング品質とDepth MSEの両面で優れた性能を示す。
- 照明減衰を考慮した新しい照明モデルと，幾何構造と外観を改善するモデリング手法を導入したことが，性能向上に貢献している。
- ColIAGSは，高品質な新規視点合成と正確な形状再構成を両立し，大腸内視鏡検査における画像解析の精度向上に貢献する。
Link: https://arxiv.org/abs/2510.18739
$\Sigma^P_2$ における曖昧性を持たない問題の複雑性 [cs.CC, cs.GT]目的：曖昧性を持たない $\Sigma_{2}^P$ 問題の複雑性に関する理解の深化
- ゲーム理論や社会選択などの応用分野において，$\Sigma_{2}^P$ 問題は頻繁に現れるため，その複雑性理解は重要である。
- $\Sigma_{2}^P$ 問題の複雑性は未解明な点が多く，効率的なアルゴリズム設計の妨げとなっている。
- 問題の構造に着目し，曖昧性を持たない $\Sigma_{2}^P$ 問題の新たな分類と複雑性評価を行う。
- 曖昧性を持たない $\Sigma_{2}^P$ 問題の３つの構文的サブクラス (PTW, PCW, PMA) が特定された。
- これらのクラスは全て $S_2^P$ に含まれることが示され，従来の $\Sigma_{2}^P$ 上界よりも大幅に複雑性が低いことが明らかになった。
- Brandt と Bullinger らの未解決問題に対し，付加的ヘドニックゲームにおける強い人気度の複雑性について解答を得た。
Link: https://arxiv.org/abs/2510.19084
WAON：日本語文化タスクのモデル性能向上に向けた大規模日本語画像テキストペアデータセット [cs.RO, eess.SY, cs.SY, cs.CV, cs.CL]目的：大規模日本語画像テキストペアデータセット
- 画像とテキストの関連性を学習する研究は，AIの多角的理解に不可欠である。
- 日本語の画像テキストペアデータセットは規模が小さく，文化特有のタスクへの応用が課題であった。
- WAONは，日本語文化タスクにおけるモデル性能向上を目指す。
- WAONは，Common Crawlから構築された約1億5500万例を含む大規模データセットである。
- WAONによるファインチューニングは，既存データセットよりも効率的に日本語文化ベンチマークの性能を向上させる。
- WAON-Benchは，既存ベンチマークの課題を解決する374クラスの日本語文化画像分類ベンチマークである。
Link: https://arxiv.org/abs/2510.22276
シャプレー値による公平な不可分報酬の分配 [eess.SY, cs.SY, cs.RO, cs.GT, cs.AI]目的：不可分な協力ゲームにおける報酬分配方法
- 資源配分は，政治，医療，機械学習など，様々な分野で重要である。
- 従来の分配方法は公平性を欠いたり，計算が困難であったりする。
- 公平性を保証しつつ，不可分な資源を効率的に分配することを目指す。
- 不可分シャプレー値を定義し，その特性を数学的に示した。
- 議席配分，腎臓交換，画像分類の重要領域特定など，3つの事例研究で有効性を示した。
- 画像分類タスクにおいて，モデルの出力に貢献する主要な画像領域を特定できることを示した。
Link: https://arxiv.org/abs/2510.24906
RefTon：参照人物による試着支援バーチャル試着 [cs.DB, cs.IR, cs.CV]目的：ペアの人物画像から衣服のバーチャル試着結果
- ファッション分野において，バーチャル試着技術は顧客体験向上と購買促進に不可欠である。
- 従来のバーチャル試着技術は，複雑な前処理や補助情報に依存し，汎用性に課題があった。
- 参照画像を用いて，衣服の質感と形状をより自然に再現し，多様な入力に対応すること。
- RefTonは，衣服の構造や補助情報を必要とせず，入力画像と衣服画像から直接試着結果を生成する。
- 参照人物画像を用いることで，テクスチャの配置精度と衣服の詳細を向上させる。
- 公開データセットでの実験により，既存手法と同等以上の性能を達成している。
Link: https://arxiv.org/abs/2511.00956
マルチモーダル感情分析におけるモダリティ最適化と動的プライマリモダリティ選択による性能向上 [cs.CL, cs.CV]目的：マルチモーダル感情分析の性能向上
- 感情分析は，人間とコンピュータ間の自然なコミュニケーションに不可欠であり，様々な応用分野で重要性が増している。
- 既存手法では，モダリティ間の性能バランスが不均衡な場合，最適な融合表現が得られないという課題がある。
- 各サンプルにおけるモダリティの重要性の動的な変化に対応し，冗長なノイズを削減することで分析精度を向上させる。
- 提案手法MODSは，グラフベースの動的シーケンス圧縮器(GDC)を用いて，音声・視覚モダリティの冗長性を削減する。
- サンプル適応型プライマリモダリティセレクター(MSelector)により，動的に優位なモダリティを決定する。
- プライマリモダリティ中心クロスアテンション(PCCA)モジュールは，優位なモダリティを強化し，モダリティ間の相互作用を促進する。
Link: https://arxiv.org/abs/2511.06328
近傍の意味的認識とオープンフォームフローによる判定：ロバストなゼロショットスケルトンアクション認識に向けて [cs.CV]目的：未知のスケルトンアクションカテゴリの認識
- 人間の行動認識は，ロボット工学やビデオ監視など，様々な分野で重要な役割を担う。
- 既存手法は，不完全な意味的理解による脆弱な点と点の整合性や，静的な決定境界による制限がある。
- 近傍の文脈を考慮した柔軟な意味的調整と，分布を意識したフロー分類器により，これらの課題を解決する。
- 提案手法Floraは，3つのベンチマークデータセットで有効性が確認され，特に少ない学習データでも優れた性能を示した。
- 方向性を持つ地域的意味を形成するために，近傍クラスの文脈的ヒントをテキスト意味に柔軟に組み込む。
- ノイズのないフローマッチングにより，意味的潜在埋め込みとスケルトン潜在埋め込みの間のモダリティギャップを解消する。
Link: https://arxiv.org/abs/2511.09388
事後的洞察から先見性へ：知識ベース型視覚的質問応答のための自己啓発型事後蒸留 [cs.CV]目的：知識ベース型視覚的質問応答における知識推論能力の向上
- 視覚的質問応答は，画像と質問を理解するAI技術であり，多様な応用が期待される。
- 既存手法では，推論過程がブラックボックス化しており，解釈可能性が低いという課題がある。
- 大規模言語モデル内の知識推論能力を明示的に引き出し，より信頼性の高い応答を目指す。
- 本研究では，事後蒸留（Hindsight Distillation）というフレームワークを提案し，大規模言語モデルの知識推論能力を自己啓発的に向上させる。
- 正解を知った状態での推論過程を教師データとして活用することで，正解を知らないモデルがより適切な推論経路を学習する。
- OK-VQAおよびA-OKVQAの実験結果から，提案手法が既存手法を凌駕する性能を示すことが確認された。
Link: https://arxiv.org/abs/2511.11132
画像を超えて：心電図と解剖学的知識を活用した遅延ガドリニウム強調画像からの心筋瘢痕分割 [cs.CL, cs.CV, cs.AI]目的：心筋瘢痕の分割
- 心不全治療において，心筋の健全な組織と瘢痕組織の評価が重要である。
- 遅延ガドリニウム強調心臓MRI画像は画質にばらつきがあり，正確な瘢痕分割が困難である。
- 心電図と解剖学的知識を統合することで，よりロバストな瘢痕分割を目指す。
- 心電図由来の電気生理学的情報と解剖学的事前知識を統合する新しいマルチモーダルフレームワークを提案した。
- 提案手法は，既存の画像のみを利用する手法と比較して，Dice係数を大幅に向上させた（0.6149 → 0.8463）。
- 精度（0.9115）と感度（0.9043）も高く，生理学的に妥当な心筋瘢痕分割が可能になった。
Link: https://arxiv.org/abs/2511.14702
D4C：コントラスト学習による言語画像事前学習モデルのためのデータフリー量子化 [cs.CV, cs.LG]目的：コントラスト学習を用いた言語画像事前学習モデルのデータフリー量子化手法
- プライバシー保護の重要性が高まる中，実データなしでのモデル圧縮技術が求められている。
- データフリー量子化は有望だが，CLIPのようなビジョン言語モデルへの適用は未開拓な分野である。
- CLIPモデルに対するデータフリー量子化の性能劣化を改善し，実用的な圧縮を可能にすること。
- D4Cは，テキストプロンプトによる意味的注入，構造的コントラスト生成，摂動を考慮した強化の3要素により，CLIPモデルに適した疑似画像を生成する。
- 生成された画像は，意味的情報と構造的多様性を兼ね備え，データフリー量子化の性能ギャップを効果的に埋める。
- 様々なビット幅とモデルにおいて，D4Cが有意な性能向上を実証した。
Link: https://arxiv.org/abs/2511.15411
Q-REAL: AI生成コンテンツのリアリズムと妥当性の評価に向けて [cs.CV]目的：AI生成画像のリアリズムと妥当性の評価に関するデータセット
- AI技術の発展に伴い，生成モデルの能力評価と改善が重要となっている。
- 既存の評価指標は粗雑であり，生成モデルの改善に向けた具体的指針を得にくい。
- リアリズムと妥当性に着目し，AI生成画像の評価をより詳細に行えるデータセットを構築する。
- Q-Realデータセットは，人気のあるテキストから画像を生成するモデルによって生成された3,088枚の画像で構成される。
- データセットには，主要なエンティティの位置注釈，リアリズムと妥当性に関する判断問題，および属性記述が含まれている。
- マルチモーダル大規模言語モデル（MLLM）を用いた実験により，データセットとベンチマークの有用性が示された。
Link: https://arxiv.org/abs/2511.16908
現実の屈折：リアルな透明オブジェクトの画像生成 [cs.CV]目的：リアルな透明オブジェクトを含む画像の生成
- 画像生成技術は発展しているが，透明オブジェクトの生成は困難である。
- 透明オブジェクトの屈折，反射，吸収，散乱の再現が難しい。
- 光の法則に基づき，透明オブジェクトの屈折を正確に再現する。
- 生成された画像において，スネルの法則を用いてオブジェクト内外のピクセルを同期させた。
- 間接的に見える表面の表現は，パノラマ画像との同期によって再現した。
- 物理的制約を尊重し，光学的に妥当性の高い画像を生成することに成功した。
Link: https://arxiv.org/abs/2511.17340
高解像度編集には低解像度編集で十分である [cs.CV]目的：高解像度画像編集のメカニズム
- 画像は視覚的表現の基本であり，コンテンツ作成において重要性が増している。
- 既存手法は低解像度設定に限定され，1K程度の解像度しかサポートしていない。
- 高解像度画像編集を可能にし，ユーザーの意図に沿ったコンテンツ作成を支援すること。
- 本研究では，高解像度画像に対してパッチごとの最適化を行い，詳細なテクスチャを転送する手法を提案した。
- 提案手法は，パッチ間の整合性を維持するための新しい同期戦略を採用している。
- 実験の結果，高品質な編集が可能であり，高解像度コンテンツの作成に貢献することが示された。
Link: https://arxiv.org/abs/2511.19945
DuoTok：ソースを考慮したデュアルトラックトークン化による多トラック音楽言語モデリング [cs.SD, cs.AI]目的：多トラック音楽言語モデリングのためのトークン化手法
- 音楽情報処理において，音楽の構造を理解し生成するためには，効率的な表現が不可欠である。
- 既存のトークン化手法では，音質の再現性，言語モデルの予測性能，トラック間の対応性のバランスが課題であった。
- 上記の課題を解決し，より高品質な音楽生成を可能にするトークン化手法の開発。
- DuoTokは，段階的な分離を通して，上記のトレードオフを解決するソースを考慮したデュアルトラックトークナイザーである。
- DuoTokは，標準的なベンチマークにおいて，優れた予測性能と音質を両立し，cnBPTを最小化しつつ，0.75kbpsでの競争力のある再構成を達成した。
- 制御された診断により，トラック間の構造や非局所的な履歴を活用していることが示唆された。
Link: https://arxiv.org/abs/2511.20224
EoS-FM：専門モデルのアンサンブルは汎用的な特徴抽出器として機能するか？ [cs.CV]目的：リモートセンシング基礎モデル（RSFM）構築のための専門モデルアンサンブルフレームワーク
- 地球観測技術の発展は，環境変動監視や資源管理に不可欠であり，その重要性は増している。
- 大規模モデルの学習には膨大な計算資源とデータが必要であり，研究機関の規模によって格差が生じている。
- 計算資源が限られた環境でも，効率的かつ持続可能なRSFMを構築することを目的とする。
- 本研究では，軽量なタスク特化型専門モデルをアンサンブルすることで，効率性，解釈性，拡張性を実現した。
- 提案手法は，分散学習やモデルの剪定，継続的な専門家統合を自然にサポートし，共同研究に適している。
- スケーラブルで効率的なRSFM構築の新たな方向性を示すことができた。
Link: https://arxiv.org/abs/2511.21523
Ar2Can：キャンバスを活用した複数人物生成のためのアーキテクトとアーティスト [cs.CV]目的：複数人物生成における空間計画と人物描写の分離
- 画像生成技術の進展に伴い，複数人物の自然な配置と描写が課題となっている。
- 既存モデルでは，複数人物の生成時に顔の融合や個人識別が困難になる問題が存在する。
- 空間配置の計画と人物描写を分離することで，より自然で正確な複数人物画像を生成する。
- Ar2Canは，空間計画を行う「アーキテクト」と画像合成を行う「アーティスト」の二段階フレームワークである。
- 「アーキテクト」が人物の配置を予測し，「アーティスト」が顔の一致報酬に基づいて写実的な画像を生成する。
- MultiHuman-Testbenchでの評価において，人物数精度と個人識別において大幅な改善が確認された。
Link: https://arxiv.org/abs/2511.22690
床図認識の向上：Mix-TransformerとU-Netのハイブリッドアプローチによる高精度な壁セグメンテーション [cs.RO, cs.MA, cs.SY, eess.SY, cs.CV, cs.AI]目的：高精度な壁セグメンテーションのためのハイブリッドニューラルネットワーク
- 2D床図からの自動3D空間再構成は，内装設計やロボットナビゲーション等で重要である。
- 既存手法は，薄い構造の検出や幾何学的精度維持に課題を抱えている。
- 本研究は，壁の構造的正確性と境界精度の向上を目指している。
- 提案手法MitUNetは，Mix-TransformerエンコーダとU-Netデコーダを組み合わせることで，大域的な意味的文脈と詳細な構造的特徴を捉える。
- CubiCasa5kデータセットと地域データセットでの実験により，MitUNetは標準モデルを上回る性能を示した。
- Tversky損失関数を用いた最適化により，精度と再現率のバランスが取られ，正確な境界復元を実現している。
Link: https://arxiv.org/abs/2512.02413