arXiv雑要約

画像・音声 - 2026/06/18 公開

臨床的に整合した幾何学的制約によるロバストなIVUS血管境界セグメンテーション [cs.CV, cs.LG]目的：IVUS血管境界の正確なセグメンテーション
- 冠動脈疾患の診断と治療において，血管構造の正確な定量評価が重要である。
- 従来のセグメンテーション手法では，境界のずれやトポロジーエラーが発生し，臨床測定の精度が低下する。
- 臨床的に重要な幾何学的特徴量を直接的に制約することで，より正確なセグメンテーションを実現する。
- GeoCatは，Dice係数0.93を達成し，95HDを0.14mmに低減，トポロジーエラーを1.0%まで抑制した。
- 直径誤差を0.13-0.16mm，角度誤差を約8度に抑え，信頼性の高いプラーク容積の定量化を支援する。
- 二つの商用IVUSシステムで取得した146人の患者の12,242フレームのデータを用いて検証した結果，幾何学的忠実性が大幅に向上した。
Link: https://arxiv.org/abs/2606.18723
合成イベントデータとハイブリッドSNNを用いた低コスト脳型転倒検知 [cs.LG, cs.CV]目的：脳型ニューラルネットワークと畳み込みニューラルネットワークを組み合わせたハイブリッドモデルの開発
- 高齢化社会において，転倒は深刻な問題であり，早期発見と迅速な対応が重要である。
- 従来の転倒検知システムは，計算コストが高く，エネルギー消費が大きいという課題があった。
- エネルギー効率の高い脳型ニューラルネットワークを用いて，低コストな転倒検知システムの実現を目指す。
- シミュレーションの結果，従来の機械学習モデルと同等の精度を維持しつつ，大幅な効率向上が確認された。
- 動画フレームをイベントベースデータに変換することで，脳型ニューラルネットワークの省エネルギー性と時空間処理能力を活用した。
- 本研究は，現実環境における複雑なタスクにSNNとDVS技術を組み合わせる可能性を示唆している。
Link: https://arxiv.org/abs/2606.18732
GRIDEX：深偽スペクトログラム分析のためのグリッドに基づく法科学的説明 [cs.NI, cs.SD]目的：深偽スペクトログラムの異常に対する法科学的説明の生成
- 音声生成技術の進歩により，深偽音声の検出が重要な課題となっている。
- 既存の深偽検出モデルは，音声のどの部分に異常があるかを示せていない。
- 異常箇所の特定と，その音響的な解釈を通した説明を自動化することを目指す。
- 提案手法GRIDEXは，深偽スペクトログラム内の異常領域を特定し，カテゴリー化された音響的特徴と解釈文を提示する。
- GRIDEXは，教師ありファインチューニングとグループ相対ポリシー最適化を組み合わせた二段階学習パラダイムで訓練される。
- 実験の結果，既存のビジョン言語モデルと比較して，異常箇所の特定精度と説明の質が向上した。
Link: https://arxiv.org/abs/2606.18738
3D医療画像におけるトレーニング不要ゼロショット異常検知：2D基盤モデルを用いたバッチベースアプローチ [cs.CV]目的：3D医療画像におけるゼロショット異常検知のためのフレームワーク
- 臨床現場では，多様な画像プロトコル，患者群，病理に対応する必要があり，異常検知技術が重要である。
- 大規模な3Dボリューム基盤モデルが不足しており，ボリューム全体の文脈利用が困難であるという課題がある。
- 2D基盤モデルを活用し，トレーニングデータなしで3D医療画像の異常を検知する手法を開発すること。
- 提案手法CS3Fは，2D基盤モデルを用いて3D医療画像の異常検知を，トレーニングなしで実現可能であることを示した。
- ボリュームをスライスに分解し，隣接スライス特徴量をプーリングすることで，局所的なボリュームトークンを作成する。
- 病変コントラストと画像モダリティによって，高解像度トークン化の利点が変化することが示された。
Link: https://arxiv.org/abs/2606.18749
SMART：高解像度画像データからの柔軟かつ解釈可能でスケーラブルな空間的・時間的脳アトラス [cs.CV]目的：空間的・時間的脳アトラスの学習
- 脳疾患の進行理解と診断支援に不可欠な脳構造の変化を定量的に捉える重要性
- 既存手法はブラックボックスモデルが多く，柔軟性，解釈性，高次元データへの対応に課題がある
- 疾患の進行を柔軟かつ解釈可能にモデル化し，大規模データにも対応できる手法を開発する
- SMARTは，疾患の進行を連続的に捉え，患者固有の解剖学的特徴と集団全体の進行パターンを分離する
- 解剖学的制約に基づき，各領域の進行を微分方程式で記述し，柔軟なニューラルセルオートマトンを用いて個々の解剖構造に適合させる
- アルツハイマー病データセットを用いた評価で，SMARTは最先端の予測精度と時間的一貫性を示す
Link: https://arxiv.org/abs/2606.18753
スペクトルDiT：フローマッチングDiTのためのタイムステップ条件付きスペクトル残差補正 [eess.SY, cs.SY, cs.NI, cs.NI, cs.NI, cs.CV]目的：フローマッチング拡散Transformerにおけるスペクトル残差補正の改善
- 拡散モデルは高品質な画像生成を可能にする重要な技術であり，その性能向上は広く求められている。
- 既存の拡散モデルは高周波成分の再現に課題があり，生成画像の品質に影響を与える場合がある。
- 本研究は，スペクトル残差補正によって高周波成分の再現性を向上させ，生成画像の品質を高めることを目指す。
- スペクトルDiTは，CIFAR-10の画像生成においてFIDスコアを20.78から19.71に改善し，ラジアルフーリエスペクトルギャップを減少させた。
- ImageNet-100の潜在拡散においても，わずかな計算コスト増（0.6% FLOPs，1.36%パラメータ）でFIDスコアを8.7%削減することに成功した。
- CIFAR-10におけるアブレーション研究とゲートの可視化により，ブロック固有の安定したスペクトル補正パターンが確認された。
Link: https://arxiv.org/abs/2606.18765
SAMA：意味的アンカーに整合した拡張による，統一された低リソースマルチモーダル情報抽出 [cs.CV, cs.CL, cs.MM]目的：マルチモーダル情報抽出におけるデータ拡張手法
- マルチメディアコンテンツの理解には不可欠だが，データ不足が課題。
- 既存手法は粗いクロスモーダル整合性やタスク固有設計により，知識共有が不十分。
- 意味的アンカーに基づいた高精度な合成データ生成により，この問題を解決する。
- SAMAは，MNER，MRE，MEEのベンチマークデータセットにおいて，最先端の拡張手法を凌駕する性能を示した。
- 教師あり学習と低リソース設定の両方で，汎用性，堅牢性，有効性が確認された。
- 意味的アンカーとクロスモーダル整合性に基づいたフィルタリングモジュールにより，検証作業が不要となった。
Link: https://arxiv.org/abs/2606.18780
SCR誘導による難易度を考慮した最適化：赤外線微小ターゲット検出に向けて [cs.CV]目的：赤外線微小ターゲット検出における性能向上
- 赤外線画像は，監視やセキュリティなど幅広い分野で活用されており，微小ターゲットの正確な検出が重要である。
- 背景のノイズや低いコントラスト，ターゲットの微弱な空間応答により，従来の検出手法では十分な性能が得られない場合が多い。
- 信号対クラッタ比（SCR）に着目し，難易度に応じた最適化を行うことで，低視認性ターゲットの検出精度を向上させる。
- 提案手法REEMは，SCRを物理的に意味のある視認性事前情報として活用し，U-NetベースのMSHNetに統合することで，追加のパラメータや計算コストを抑えた。
- 実験結果から，REEMはベースラインと比較して，IoUと検出確率(Pd)が向上し，誤検出率(FA)が大幅に低減することが示された。
- 特に，低視認性条件下において顕著な効果が認められ，SCR誘導による難易度を考慮した最適化が有効であることが示唆された。
Link: https://arxiv.org/abs/2606.18783
UDFベース点群再構成のための学習半径推定 [cs.CV]目的：点群からの表面再構成における精度向上
- AR/VRや屋内スキャンなど，消費者向け3Dキャプチャ技術の発展に不可欠な分野である。
- 従来のUDF法では，固定半径や単純な曲率ヒューリスティックにより，複雑な形状の再構成精度が制限されていた。
- 学習による半径選択により，多様な局所形状に対応し，再構成精度を向上させることを目指す。
- 提案手法では，キャッシュされたUDF誤差曲線を用いて，点ごとに最適なサポート半径を予測する学習モジュールを導入した。
- このモジュールは，既存のLoSF-UDFバックボーンに組み込むことができ，軽量でありながら高い汎用性を保つ。
- 実験により，提案手法が微細な形状の再構成精度を向上させることが示された。
Link: https://arxiv.org/abs/2606.18787
HandwritingAgent：スケーラブルなベクトル空間における言語駆動型手書き合成 [cs.CV, cs.CL]目的：自然な手書きスタイルを模倣するための機械学習手法
- 手書き文字は，個人の特徴を反映するため，識別や認証など様々な応用が期待される。
- 既存手法は，特定のスタイルに依存したり，大量のデータが必要だったり，制御が難しかった。
- 言語による指示と参照画像に基づいて，多様な手書きスタイルを効率的に生成すること。
- HandwritingAgentは，スタイル特有の学習を必要とせず，SVG形式で自然な手書きシーケンスを直接合成できる。
- 大規模な推論モデルを用いてグリッド状のキャンバス上で文字を生成し，会話形式または非会話形式のテキスト，参照手書きスタイル画像で条件付けを行う。
- 多様な手書きタスクにおいて，最先端の手法と同等またはそれ以上の性能を示し，より効率的で制御可能，かつ汎用性の高い合成手法となる。
Link: https://arxiv.org/abs/2606.18788
閉ループ：記号音楽生成における解釈可能な活性化ベクトル操舵のためのPIDフィードバック制御 [eess.SY, cs.SY, cs.SD, cs.AI, cs.LG]目的：記号音楽生成における解釈可能な活性化ベクトル操舵
- 音楽生成の分野は，創造性と技術の融合であり，新たな表現手段の可能性を秘めている。
- Transformerモデルは強力だが，離散的な信号属性の微調整や解釈可能性に課題がある。
- 推論時の活性化ベクトル操舵により，モデルの再学習なしに属性をdeterministicに制御する。
- DiffMean法を用いて，MMT内のピッチと音価の潜在的な方向性を特定し，線形表現仮説を検証した。
- 多属性操舵における特徴量の絡み合いに対処するため，グラム・シュミットの直交化を利用したDual Steeringフレームワークを導入した。
- 幾何学的なデカップリングが概念的な干渉と信号劣化を軽減し，強い自己回帰的条件付け下でも独立した制御を可能にした。
Link: https://arxiv.org/abs/2606.18790
手書き中国字の構造を考慮した拡張のためのファジー幾何学的分岐点モデリング [cs.CV]目的：手書き中国字の構造を考慮した拡張手法の開発
- 高セキュリティ認証において，手書き文字認識は重要な役割を担うため，その精度向上が求められている。
- データ不足と構造歪みが，手書き文字認識の性能を大きく制限しているという課題がある。
- 複雑な中国字の構造劣化に対応し，より堅牢な拡張手法を提供することで，認識精度を向上させる。
- 提案手法FGSAは，既存手法と比較して単語レベルエラー率を大幅に低減することを示した。
- 分岐点をファジー集合としてモデル化することで，手動アノテーションなしでロバストなストローク分離を実現した。
- 大規模データセットLZUSigを構築し，中国字の手書き署名の構造劣化に対する評価を可能にした。
Link: https://arxiv.org/abs/2606.18793
歩行者の進路はどこへ？エゴセントリック動画からの多様性のある歩行者行動予測モデル [eess.SY, cs.SY, cs.CV, cs.LG]目的：歩行者の多岐にわたる行動予測
- 自動運転や歩行者支援システムの安全性向上に不可欠な研究分野である。
- 従来の予測モデルは，歩行者の意図や周囲の状況を十分に考慮できていない。
- 歩行者の行動モードを分離し，より自然で信頼性の高い予測を実現すること。
- 提案手法MMPMは，歩行者の視線，頭部，手の動きを考慮し，車両や環境との相互作用を捉える。
- MMPMは，道路横断と非横断という２つのモードで将来の軌跡分布をモデル化することで，より現実的な予測を可能にする。
- PIEおよびJAADデータセットにおいて，既存の最先端手法を上回る性能を実証した。
Link: https://arxiv.org/abs/2606.18824
DreamReg：信念駆動型ワールドモデルによる2D-3D超音波登録 [cs.CV]目的：2D-3D超音波登録のための信念駆動型ワールドモデルの構築
- 手術ナビゲーションにおいて超音波が広く用いられるため，その精度向上が重要である。
- 術中2D画像と術前3Dボリュームのリアルタイム登録は，観測の不完全性やノイズにより困難である。
- 過去の観察と姿勢情報を統合し，リアルタイムでの正確な登録を実現することを目指す。
- DreamRegは，剛体変換に関する信念の更新として2D-3D登録を定式化する。
- 学習されたダイナミクスを通じて信念を継続的に洗練し，臨床的なスキャン行動を模倣する。
- 内部的な想像により登録を改善し，CAMUSおよびu-RegProデータセットで高い精度とロバスト性を示した。
Link: https://arxiv.org/abs/2606.18825
ビジョン言語モデルのセマンティック頑健性認証 [cs.LG, cs.CV]目的：ビジョン言語モデルにおけるセマンティックレベル変換に対する頑健性の認証
- 近年，ビジョン言語モデルは多様なタスクで利用が拡大しており，その信頼性確保が重要である。
- 現実世界では，入力のセマンティックな変化（形状，サイズ，スタイル等）により，モデルの予測性能が変動する可能性がある。
- セマンティックレベル変換下での頑健性を，追加データなしに定量的に認証する手法を開発すること。
- 提案手法は，テキストプロンプトをセマンティック変換のパラメータとして利用し，変換範囲を制御する。
- モデルの決定境界を解析的に特徴づけることで，予測クラスが変化しないセマンティック変換範囲を定量的に認証する。
- 合成データと実データを用いた実験により，多様なセマンティック変化に対する頑健性の認証が可能であることを示した。
Link: https://arxiv.org/abs/2606.18839
航空地上協調の再考：段階的なクロスTaskベンチマークと社会化学習フレームワーク [cs.CV]目的：航空地上協調知覚の改善
- 現実世界の動的な環境において，ロバストな視覚的理解には航空地上協調が不可欠である。
- 既存研究では，協調を単一タスクのクロスビュー融合として捉え，局所化，ターゲット関連付け，詳細解析間の機能的依存関係が見過ごされている。
- 異質な航空・地上視点の幾何学的，スケール，オクルージョンの差異を克服し，タスク条件付きの協調による知覚性能向上を目指す。
- 提案手法SCPは，航空地上協調知覚のための段階的なフレームワークであり，粗い段階から細かい段階へと協調を組織する。
- AGPCベンチマークは745K以上の生のビデオフレームで構成され，空間的・時間的に整合した協調タスクを可能にする。
- 実験結果から，SCPは3.73％の共進化的な利点と，平均的な下流タスク性能で7.86％の改善を達成することが示された。
Link: https://arxiv.org/abs/2606.18841
バウンディングボックスから視覚的推論へ：ビジョン言語モデルのためのオンポリシーデータアノテーションツール [cs.CV]目的：ビジョン言語モデルの高度な視覚的推論能力を育成するためのデータアノテーション
- ビジョン言語モデルは急速に進歩しており，高度な視覚的理解が求められている。
- 既存のアノテーションツールは，空間座標，記述，属性，関係性を統合する複雑なデータに対応できない。
- 本研究は，アノテーションの表現力，学習との連携，データ再利用性の問題を解決することを目指す。
- ScreenAnnotatorは，空間，意味，構造の要素を統一的に扱うアノテーションスキーマを定義した。
- ベイジアンアノテーション検証器(BAV)を組み込んだオンポリシーアノテーションループを実装し，アノテーションの受容率を高めた。
- フローチャートのタスクにおいて，VLMの平均精度が35.1%ポイント向上し，76.1%を達成した。
Link: https://arxiv.org/abs/2606.18846
医療画像セグメンテーションにおける敵対的モデルによる不確実性の定量化 [cs.CV, cs.LG]目的：医療画像セグメンテーションにおける不確実性の定量化手法
- 医療画像診断の精度向上は，患者の予後改善に不可欠であり，信頼性の高い不確実性評価が求められる。
- 従来の深層学習モデルは，しばしば誤ったキャリブレーションに陥り，病理境界における脆弱性を隠蔽する。
- 予測の不安定性を示すピクセルを特定し，意思決定の脆弱な領域を強調することで，信頼性の高い不確実性評価を実現する。
- 提案手法QUAM-SMは，敵対的探索を用いて「敵対的に脆い」ピクセルを特定するpost-hocフレームワークである。
- QUAM-SMは，複数の専門家によるアノテーションを含む2つの公開データセットで，既存の不確実性推定手法よりも信頼性と境界感度において優れた性能を示した。
- 本手法は，認識的不確実性と確率的不確実性を分離することが可能である。
Link: https://arxiv.org/abs/2606.18860
RGB-Dシーケンスからの微分可能な関節推論とエネルギー整合性検証によるURDF合成 [cs.CV, cs.AI]目的：関節を持つ物体のデジタルツイン生成
- ロボット工学やコンピュータビジョンの発展において，現実世界の物体をシミュレーション環境で再現する重要性が高まっている。
- 既存手法では，形状再構成と力学パラメータ推定が分離されており，エネルギー保存則などの物理法則を満たさないモデルが生成されやすい。
- この研究は，形状，関節構造，パラメータを同時に推論し，物理法則に整合したURDFを生成することで，シミュレーションの精度向上を目指す。
- KinemaForgeは，形状，関節トポロジー，関節パラメータをRGB-Dシーケンスから同時に推論するパイプラインである。
- 実験の結果，既存手法PARISと比較して，関節軸誤差を平均で37.4%削減し，Dittoと比較すると46.6%削減された。
- また，シミュレーションにおけるドリフトを64%低減し，閉ループ操作の成功率を14.6%向上させた。
Link: https://arxiv.org/abs/2606.18861
歪みを学習する：前立腺DWI補正のための弱学習画像品質変換 [cs.CV]目的：前立腺DWI画像の幾何学的歪み補正手法の開発
- 前立腺DWIは診断に重要だが，歪みにより正確な診断が困難になることがある。
- 歪み補正のためのペアデータが不足しており，自動補正法の開発が課題となっている。
- 弱学習を用いて歪み補正のための画像品質変換モデルを構築し，診断精度向上を目指す。
- 歪み画像を生成するプロトタイプフローマッチングアルゴリズムにより，臨床的な劣化を模倣した現実的なペアデータを作成した。
- 生成された画像は実際の歪みによる診断妨害を成功裏に再現し，より効果的な歪み補正モデルの学習を可能にした。
- PI-RADSおよびGleasonスコア分類において，既存手法と比較して高い臨床的タスク性能を示した。
Link: https://arxiv.org/abs/2606.18869
単一の歪みアーチファクトと多因子臨床的品質の架橋：歪み学習プロトタイプネットワークによる少数のショットでバイパラメトリックMRI品質評価 [cs.CV]目的：少数のサンプルからMRI画像の品質を自動的に評価する手法の開発
- 前立腺MRIは診断に不可欠だが，高品質なDWI画像が歪みにより阻害される場合がある。
- DWI画像の歪みは発生率が高く，医師による品質評価は主観的で時間もかかる。
- 歪みに関するラベル付きデータを用いて，限られた臨床データでも高品質な評価を実現する。
- 歪み学習によって前訓練されたプロトタイプネットワークは，わずか5つの代表サンプルでPI-QUALスコアを予測できる。
- 2つのデータセットでの実験により，本手法が既存の少数のショット学習手法を大幅に上回ることが示された。
- 臨床ワークフローにおける前立腺MRIの品質管理の標準化に，実用的かつデータ効率の良い解決策を提供する。
Link: https://arxiv.org/abs/2606.18872
光学コヒーレンス断層撮影における軌道整合時間不変フローを用いたテスト時適応 [cs.CL, cs.CV, cs.LG]目的：光学コヒーレンス断層撮影における画像品質の改善
- 眼科において不可欠な技術であり，疾患診断や治療効果の評価に広く用いられている。
- 低コスト機器では画像品質が不安定であり，自動解析の精度が低下する課題がある。
- テストデータと訓練データの分布のずれを解消し，ノイズの多い画像から高品質な画像を生成する。
- 提案手法は，テスト画像のヒストグラムを合成された参照軌道に合わせることで，入力と期待される分布を整合させる。
- ネットワークの時間的条件付けを取り除くことで，現実世界のノイズ分布のわずかなずれに対応する。
- 加齢黄斑変性症の段階における重要なバイオマーカーのセグメンテーションにおいて，最先端の性能を達成した。
Link: https://arxiv.org/abs/2606.18876
ラテン文字とアラビア文字の筆跡認識における性能差分析 [cs.RO, cs.CV]目的：ラテン文字とアラビア文字の筆跡認識性能差
- 筆跡認識技術は，歴史的文書のデジタル化や手書き情報の活用において重要である。
- アラビア文字の筆跡認識は，ラテン文字に比べて性能が低いことが課題となっていた。
- 性能差の原因を明らかにし，アラビア文字認識の精度向上を目指す。
- ラテン文字とアラビア文字の筆跡認識性能差は，データ量が少ない場合に大きく，増加するにつれて縮小するが，完全に解消されることはない。
- アノテーション品質が性能に影響し，ラベルエラーの修正は性能向上に寄与するものの，性能差をなくすには至らない。
- アラビア文字は視覚的な多様性が高く，同程度の表現を学習するには，より多くのデータが必要となることが示された。
Link: https://arxiv.org/abs/2606.18884
LARE：テキスト画像検索のための低注意領域エンコーディング [cs.CV, cs.IR]目的：テキスト画像検索における低注意領域のモデリング
- 画像検索は多様な応用を支える重要な技術であり，その精度向上は社会的なニーズが高い。
- 従来の画像エンコーダは主要な物体に偏り，検索において重要な低注意領域を見落とす場合がある。
- 本研究は，従来のモデルでは見過ごされがちな低注意領域を明示的に捉え，検索精度を向上させることを目指す。
- 提案手法LAREは，画像全体と低注意領域を並行してエンコードすることで，より多様で情報量の多い画像埋め込み表現を獲得する。
- 新たなデータセットDense-Setを導入し，密集したシーンにおける画像検索の課題を明確化し，厳密な評価を可能にした。
- 実験結果から，LAREが潜在空間において微細な視覚的特徴を保持し，検索性能を改善することが示された。
Link: https://arxiv.org/abs/2606.18885
DINO-Med3D：漸進的適応による体積セグメンテーションにおける次元とドメインのギャップの解消 [cs.CV]目的：体積医療セグメンテーションのためのDINOv3エンコーダの再利用
- 医療画像解析は，疾患診断や治療計画において不可欠であり，高精度なセグメンテーションが求められる。
- 自然画像で学習したモデルを医療画像に適用する際，次元やドメインの差異が課題となる。
- DINOv3の性能を医療画像セグメンテーションに応用し，既存手法の精度向上を目指す。
- DINO-Med3Dは，DINOv3を医療ドメインに適応させるための二段階の漸進的フレームワークである。
- マルチスライス埋め込みモジュールとセグメンテーションプロキシタスクにより，次元ギャップとドメインギャップを軽減する。
- 軽量な3Dアダプターと並列な詳細復元ストリームにより，体積理解を向上させ，境界情報の損失を補完する。
Link: https://arxiv.org/abs/2606.18886
最短経路に基づく層区別によるCFRP顕微鏡写真の層別解析 [cs.CL, cs.CV]目的：CFRP顕微鏡写真のセマンティックセグメンテーションマスクにおける層の識別
- 炭素繊維強化プラスチックは軽量で高強度であり，航空機や自動車などの幅広い分野で利用が拡大している。
- 従来の層解析は手作業に頼る部分が多く，効率性や客観性に課題があった。
- セグメンテーションと層インスタンスセグメンテーションのギャップを埋め，より詳細な層解析を可能にすること。
- 最短経路アルゴリズムを用いて，セマンティックセグメンテーションマスクから層を区別するパスを効率的に算出することに成功した。
- 算出されたパスに基づき，各繊維ピクセルを層に割り当てることで，局所的な繊維体積分率や層厚さの定量的な解析が可能となった。
- 本手法は，人工的なギャップ，異なる積層順序，貫通クラックなど，多様な特性を持つ顕微鏡写真に対して適用可能であることが示された。
Link: https://arxiv.org/abs/2606.18894
BindEdit：注意漏洩を抑制し，高精度な複数オブジェクト画像編集を実現 [cs.DC, cs.CL, cs.CV]目的：複数オブジェクト画像編集における注意漏洩の抑制と，それによる編集精度の向上
- 画像編集技術は，視覚コンテンツの精密な操作を可能にする重要な技術分野である。
- 既存手法は，複雑な複数オブジェクトのシナリオにおいて，意味的な混同やオブジェクトの重複，不完全な編集といった課題を抱えている。
- 注意漏洩という問題に対処し，複数オブジェクト編集における精度とロバスト性を向上させることを目指す。
- BindEditは，単一の拡散軌跡内で注意レベルの制約を適用することで，注意漏洩を抑制する。
- Edit-Token Leakageに対しては，ターゲットトークン群と対応する空間領域の束縛とインスタンスレベルの分離を共同で正則化する。
- Source Dominance Leakageに対しては，ターゲットトークンの影響を増幅し，編集可能な領域内の残余ソースセマンティクスを減衰させるクロスアテンション再平衡メカニズムを採用する。
Link: https://arxiv.org/abs/2606.18906
認識的ペアワイズ・マキシミンシェア [cs.GT]目的：分割不可能な資源の公正な分割に関する新たな公平性概念の提案
- 資源配分における公平性の確保は，社会的な効率性と公平性を両立させる上で重要である。
- ペアワイズ・マキシミンシェア(PMMS)は，既存の公平性概念よりも強い制約を持つため，実現が困難である。
- 認識的視点を取り入れることでPMMSの実現可能性を向上させることを目指す。
- 加法的な評価関数を持つ場合，4/5-EPMMS割り当てが存在し，効率的に計算可能である。
- 二値評価関数を持つ場合，EPMMS割り当てが存在し，より強い保証である認識的グループワイズ・マキシミンシェア(EGMMS)も実現可能である。
- 3人の加法的なエージェントまたは2種類の加法的なエージェントが存在する場合，EPMMS割り当ては存在する。
Link: https://arxiv.org/abs/2606.18921
誰が対立に勝つのか？音声LLMにおけるテキストバイアスのメカニズム解釈 [cs.SD]目的：音声LLMにおけるテキストバイアスのメカニズム
- マルチモーダル理解は重要だが，テキストへの過度な依存が課題となっている。
- 音声とテキストの矛盾時，モデルがテキストを優先し，幻覚を引き起こす現象が問題視されている。
- モデルの内部メカニズムを解明し，テキストバイアスを軽減することを目指している。
- テキスト優位性はモデル間で系統的に観察され，機能的に異なる経路が最終層で意味空間に収束することが判明した。
- テキスト経路は音声情報を消去するのではなく，むしろ活発に抑制していることが明らかになった。
- バックパッチングにより音声表現を増幅し，テキストによる抑制を克服することで，テキスト優位性を一貫して軽減できた。
Link: https://arxiv.org/abs/2606.18924
物理IQ検証済み [cs.CV]目的：ビデオ生成モデルにおける物理的理解度の評価基準の改善
- ビデオ生成モデルは，世界モデル構築を含む多様な応用が期待され，その発展には物理法則の理解が不可欠である。
- 既存の物理IQベンチマークには課題があり，ビデオ生成モデルの物理的理解度を正確に測れない可能性があった。
- より信頼性の高い物理的理解度の評価基準を提示し，物理的に正確なビデオ生成モデルの開発を促進すること。
- 物理IQベンチマークのサンプル約57.6%とプロンプト約34.8%を改善した。
- 6つの画像からビデオへの生成モデルを用いた比較実験で，ランキングに有意な変化が見られた (Kendall's τ = 0.46)。
- 物理IQ検証済みは，物理的に正確なビデオ生成モデルの開発に向けた，より信頼性の高い指標を提供する。
Link: https://arxiv.org/abs/2606.18943
SP-TransientBench：実キャプチャ単一光子知覚ベンチマーク [cs.RO, cs.CV]目的：単一光子LiDARを用いた実環境における単一光子知覚の評価基準
- 単一光子アバランシェダイオード（SPAD）測位は高感度で時間分解能に優れ，暗所での3D知覚に貢献する。
- 実環境では，ノイズや多重反射の影響が大きく，幾何学的再構成や意味的シーン理解が困難である。
- 実環境で取得したデータを用いた，単一光子知覚の包括的な評価基準を確立すること。
- SP-TransientBench (STB) は，10種類の多様なシーンと10,297ビューから構成される実キャプチャのマルチタスクベンチマークである。
- 各ビューは，多重反射を含む飛行時間ヒストグラム，標準化されたメタデータ，マルチビュー評価のためのキャリブレーションされたカメラポーズを提供する。
- データ分割と評価プロトコルにより，一貫性のある再現性のあるベンチマークが可能となる。
Link: https://arxiv.org/abs/2606.18952
運動に着目した潜在的行動表現による，人間一人称視点動画からの汎用VLA学習 [cs.RO, cs.CL, cs.CV, cs.RO]目的：汎用的な視覚言語行動(VLA)モデルの学習
- ロボットに汎用的な知能を与えるには，多様な環境下での行動学習が不可欠である。
- 高品質な行動アノテーション付きロボットデータセットの作成にはコストと時間がかかる。
- ラベル付けされていない人間の一人称視点動画から行動知識を獲得し，学習コストを削減する。
- 提案手法は，物理マスクを用いて運動情報を背景から分離し，行動コードブックを構築する。
- 人間動画での事前学習により，行動意図の深い表現を獲得し，異なるロボットへの適応を可能にする。
- 大量のアノテーション付きデータセットと同等の性能を，50件の軌跡による適応のみで達成した。
Link: https://arxiv.org/abs/2606.18955
Mem-World：記憶を増強した行動条件付きワールドモデルによる持続的なロボットマニピュレーション [cs.DC, cs.OS, cs.RO, cs.CV, cs.RO]目的：ロボットの持続的なマニピュレーションのための，記憶を増強した行動条件付きワールドモデルの開発
- ロボット学習において，実世界での実験コストを削減するため，シミュレーションによる学習が重要視されている。
- 複雑なマニピュレーション環境下では，エンドエフェクタの遮蔽やカメラの急激な動きにより，過去の情報を保持することが困難である。
- 過去の観測情報を適切に活用し，より正確な未来予測を実現することで，ロボットの学習効率を向上させる。
- Mem-Worldは，サーフェルをインデックスとした4D視点中心の記憶W-VMemを導入し，時間とともに変化するサーフェル要素に観測情報を紐付ける。
- W-VMemは，行動条件に基づいた関連する過去フレームの検索を可能にし，予測に必要な情報を提供することで，持続的なロールアウトを実現する。
- 実験により，Mem-WorldがCtrl-Worldよりも信頼性の高いポリシー評価を可能にし，実世界との相関を14.5%向上させることが示された。
Link: https://arxiv.org/abs/2606.18960
繰り返し囚人のジレンマにおける再開付き複製力学の収束 [cs.GT]目的：繰り返し囚人のジレンマにおける協力戦略の安定性
- 社会性や協力行動の進化を理解する上で，ゲーム理論は重要な役割を果たす。
- 利己的な行動が優勢となりやすく，協力関係が維持されにくいという問題がある。
- 戦略の長さが協力戦略の安定性に与える影響を明らかにすること。
- 戦略の長さが増加すると，協力関係が出現し，安定化することが示された。
- 安定的な戦略列の数を正確に算出することで，安定性に必要な構造的特性が明らかになった。
- 最適な協力戦略よりも，初期の裏切り期間が長い戦略が好まれる傾向があることが示された。
Link: https://arxiv.org/abs/2606.18965
脳MRIに対する量子潜在GAN拡張の制御されたベンチマーク [cs.LG, cs.AI, cs.CV]目的：脳MRI画像の生成拡張による分類性能の向上
- 医療画像診断の精度向上には大量の学習データが必要であり，その確保は課題である。
- データ不足を補う生成モデルは存在するが，量子生成モデルの効果は検証が不十分である。
- 量子生成モデルと古典生成モデルを公平に比較し，その効果を厳密に評価する。
- データ拡張によって分類精度が向上することは確認されなかった。
- 量子生成モデルと古典生成モデルの間には統計的な差は認められなかった。
- データが少ない状況下での効果は正則化によるものであり，データの拡張とは言えない。
Link: https://arxiv.org/abs/2606.18970
Visual-OPSD：効率的な統合マルチモーダル推論のためのクロスモーダルオンポリシー自己知識蒸留 [cs.CV]目的：効率的な統合マルチモーダル推論のための手法
- マルチモーダルな情報処理は，画像とテキストを組み合わせることで，より高度な認識・推論を可能にするため重要である。
- 既存のマルチモーダルモデルは，推論コストが高く，実用性に課題がある。
- 生成過程で得られる情報を活用し，推論コストを削減しつつ，性能を向上させる。
- Visual-OPSDは，教師モデルと生徒モデルで知識蒸留を行うことで，推論速度を14.3倍に向上させた。
- 9つのベンチマークにおいて，既存の生成モデルと比較して精度が+3.40pp向上し，同規模のVLMと比較して+63.83pp向上した。
- 生成過程におけるセマンティックな内容が性能向上に寄与していることが，ガウシアンノイズによる制御実験で確認された。
Link: https://arxiv.org/abs/2606.18974
見せる，問わない：ターン有効カバレッジによる合成画像検索のための生成視覚的曖昧性解消 [cs.CV]目的：合成画像検索における曖昧性解消
- 画像検索の精度向上は，情報検索分野において不可欠な課題である。
- 合成画像検索では，クエリが複数の解釈を許しやすく，ユーザーの意図が不明確になりやすい。
- 視覚的な代替案提示を通じて，ユーザーの意図をより直接的に把握し，曖昧性を解消することを目指す。
- CLARAは，視覚的な代替案を示すことで曖昧性を解消し，テキスト質問に頼る手法と同等以上の検索性能を実現する。
- 複数回のインタラクションラウンドにおいても，有効なカバレッジを維持する。
- 特に，視点や細部の属性に関する曖昧性解消において，テキスト質問よりも効果的である。
Link: https://arxiv.org/abs/2606.18992
FlowObject：生成モデルの事前知識と再構成の忠実性を繋ぐフロー制御 [cs.CV]目的：少数画像からの完全な3D形状復元の実現
- 3D形状の復元は，コンピュータビジョン分野における重要な課題であり，様々な応用が期待されている。
- 既存の生成モデルは事前知識に偏りやすく，観察データとの整合性に課題がある。最適化手法は観察可能な表面の再現に優れるが，隠れた形状の推論が苦手。
- 生成モデルの事前知識と観察データの一貫性を両立させ，高精度な3D形状の復元を可能にすること。
- FlowObjectは，フローマッチングモデルのODE軌道を誘導する二重空間ガイダンス戦略を用いることで，学習済みの事前知識を活用しつつ，実世界の観察データとの整合性を確保する。
- 3D Gaussian Splattingによる後処理段階を組み込むことで，生成された結果と写真測量による再構成の間のギャップを埋め，写実的な再構成を可能にする。
- 合成データおよび実データを用いた評価により，FlowObjectが幾何学的な完全性と視点依存の外観の忠実度において最先端手法を大きく上回ることが示された。
Link: https://arxiv.org/abs/2606.19019
スパイクニューラルネットワークのための適応型音声-スパイク符号化 [cs.IR, cs.NE, cs.LG, cs.SD]目的：スパイクニューラルネットワークにおける音声処理の効率化
- 脳型情報処理の実現に向け，エネルギー効率の高い音声認識が求められている。
- 従来の音声-スパイク符号化は固定されており，SNNの性能を制限する要因となっていた。
- 学習可能な符号化器を用いて，タスクに適応したスパイク表現を学習することで，性能向上を目指す。
- 提案手法はGoogle Speech Commands v2ベンチマークにおいて，最大94.97%の認識精度を達成した。
- 35kパラメータというコンパクトなモデルでも89.8%の精度を維持し，既存手法と同等以上の性能を示した。
- 符号化器は信号の忠実な再構成ではなく，クラス分離性を高めるようなスパイク表現を学習していることが示された。
- DFAによるバイオインスパイアな学習則は91.5%の精度を達成し，性能トレードオフを定量化した。
Link: https://arxiv.org/abs/2606.19039
分数正則化とKy Fan p-kノルムに基づく低ランクテンソル補完 [cs.CV]目的：低ランクテンソル補完における新たな非凸な代替表現の提案
- データ解析において，高次元データは低ランク構造を持つことが多く，効率的な処理が求められている。
- 既存手法では，テンソル階数近似の精度と計算効率のバランスが課題であった。
- テンソルチューブランクを正確に近似し，効率的な補完モデルを構築すること。
- 提案手法は，テンソル核ノルムとKy Fan p-kノルムの比を用いることで，既存手法よりも高精度な近似を実現した。
- テンソル零空間性質（NSP）の下で，低ランクテンソルが提案モデルの局所最適解となることを数学的に証明した。
- 合成データと実データに対する実験の結果，提案手法は最先端の手法と比較して優れた性能を発揮した。
Link: https://arxiv.org/abs/2606.19046
ファインチ grained画像タスクにおける大規模視覚言語モデルのベンチマーク：評価から診断へ [cs.CL, cs.DL, cs.IR, cs.CV]目的：大規模視覚言語モデルのファインチ grained画像タスクにおける性能評価と課題特定
- 画像認識はコンピュータビジョンの根幹であり，その性能向上は様々な応用分野に不可欠である。
- 大規模視覚言語モデルのファインチ grained画像タスクに対する能力は十分には理解されていない。
- 現在のモデルの限界を診断し，より信頼性の高いモデル開発のための指針を示す。
- 現在のLVLMはファインチ grainedな認識において不十分であり，視覚表現，意味的 grounding，モダリティ alignment，カテゴリ知識に複合的なボトルネックが存在する。
- FG-BMKは，101万の質問と28万の画像を含む包括的なベンチマークであり，多様なシナリオを網羅している。
- 視覚および言語の摂動がLVLMの予測に及ぼす影響を分析し，モデル改善のためのデータ構築と設計指針を提案する。
Link: https://arxiv.org/abs/2606.19053
DREAM：二重目的エンコーディングによる視覚言語モデルの拡張とクロスモーダル検索 [cs.CV]目的：クロスモーダル検索のための視覚言語モデルの性能向上
- 現代社会では動画コンテンツが急増しており，自然言語による関連動画の検索が不可欠となっている。
- 従来の動画検索システムは，複雑な意味や時間的変化を捉えきれないという課題があった。
- DREAMは，高度な視覚・テキストエンコーディングにより，この課題を克服することを目指している。
- DREAMは，MSRVTT，MSVD，LSMDCの各ベンチマークデータセットで，R1スコアにおいて最高水準の性能を達成した。
- 特に，MSRVTTでは49.4%，MSVDでは49.7%，LSMDCでは27.3%という高いR1スコアを記録した。
- 定性的な分析により，フレーム間の整合性のある注意機構と，動的な動画コンテンツと複雑なクエリの整合性が確認された。
Link: https://arxiv.org/abs/2606.19062
センサー構成が重要である：四脚ロボットにおけるマルチモーダルSLAMの系統的評価 [cs.RO, cs.CV]目的：四脚ロボットにおけるマルチモーダルSLAMの性能に対するセンサー構成の影響評価
- 多様な環境での自律航行には，頑健なSLAMが不可欠。ロボットの応用範囲拡大に伴い重要性が増している。
- 四脚ロボット特有の振動や衝撃が，従来のSLAMシステムの性能を低下させる問題がある。
- 本研究は，センサー構成が四脚ロボットのSLAM性能に与える影響を定量的に明らかにすることを目的とする。
- ステレオ構成は，モノキュラーやRGB-D構成よりも一貫して優れた性能を発揮することが示された。
- グローバルシャッターカメラは，ローリングシャッターカメラと比較して，動きによるトラッキング失敗を大幅に軽減した。
- 標準的な慣性積分が，過酷な四脚歩行下で，主にビジョンベースのフレームワークの性能を低下させる可能性があることが明らかになった。
Link: https://arxiv.org/abs/2606.19067
画像HOI編集のためのI2Vモデルの制御：認知ベンチマークとエージェントによる自己修正フレームワーク [cs.CV]目的：画像における人間と物体のインタラクション（HOI）編集の性能評価と改善
- 画像編集技術は進歩しているが，動的なHOI編集は依然として困難であり，その評価が不十分である。
- 既存のベンチマークはHOIと静的な属性を混同しており，HOIの複雑な側面を評価できない。
- 動的なHOI編集に適したI2Vモデルを活用し，自己修正フレームワークによって編集精度を向上させる。
- HOI-Editという新しいベンチマークとHOI-Evalという自動評価指標を導入し，HOI編集の認知レベルに応じた評価を可能にした。
- I2Vモデルが動的な編集に適していることを示し，その失敗過程の可視化を通じてエラーの原因を特定できることを明らかにした。
- SCPEという自己修正フレームワークを提案し，反復的なプロンプト調整によってHOI編集の精度を向上させ，最先端モデルに匹敵する性能を達成した。
Link: https://arxiv.org/abs/2606.19073
PorTEXTO：ヨーロッパポルトガル語のビジュアルテキスト抽出ベンチマーク [eess.SY, cs.SY, cs.RO, cs.RO, cs.RO, cs.CV]目的：ヨーロッパポルトガル語のビジュアルテキスト抽出に関するベンチマーク
- OCR技術は，デジタル化された文書へのアクセスを可能にし，情報処理の効率化に貢献する。
- 既存のOCRベンチマークは高リソース言語に偏っており，ヨーロッパポルトガル語はほとんど含まれていない。
- 現代的なヨーロッパポルトガル語のビジュアルテキスト抽出に対応するベンチマークの構築と評価。
- PorTEXTOは，現代的で文化的に関連性の高いヨーロッパポルトガル語のビジュアルテキスト抽出のための初のベンチマークである。
- 合成データと実世界のデータ間には性能低下がみられ，モデルサイズや解像度よりも，専門的な多言語データが性能向上に重要であることが示された。
- ヨーロッパポルトガル語のOCRリソースを公開することで，今後の研究開発を促進する。
Link: https://arxiv.org/abs/2606.19096
劣化を考慮した画像復元のための視覚的事前知識アライメントネットワーク [cs.CV]目的：多様な劣化タイプに対応するための画像復元フレームワーク
- 画像劣化は，画像の質を低下させ，様々な応用において問題となるため，その復元は重要である。
- 既存手法は，固定的な劣化仮定に依存しており，複雑な劣化や局所的な損傷への対応が困難である。
- 本研究は，複雑な劣化環境下での画像復元能力と，損傷領域における構造的詳細の復元を目指す。
- DVANetは，半二乗分割最適化アルゴリズムに着想を得た深層アンフォールディングネットワークである。
- 劣化を考慮した観測整合性と，視覚的事前知識による再構成という2つの協調的なアンフォールディングプロセスを用いる。
- 実験の結果，DVANetは様々な劣化シナリオやクロスドメイン画像復元タスクにおいて優れた性能を示した。
Link: https://arxiv.org/abs/2606.19097
AMALIA-VL：ヨーロッパポルトガル語向けオープンソースのビジョンと言語モデル [cs.CV]目的：ヨーロッパポルトガル語に特化したオープンソースのビジョンと言語モデルの構築
- 大規模なビジョンと言語モデルは進歩したが，ヨーロッパポルトガル語の対応は遅れている。
- 既存のモデルはブラジルポルトガル語と混同したり，学習データにおける表現が不十分である。
- ヨーロッパポルトガル語に特化したマルチモーダルデータの不足を解消し，モデル開発を支援する。
- AMALIA-VLは，ヨーロッパポルトガル語にネイティブ対応した初のオープンソースの命令チューニング型LVLMを確立した。
- ビジョンと言語の整合性，視覚的指示チューニング，嗜好最適化という3段階の学習プロセスが有効であることが示された。
- モデルの重み，学習データ，構築パイプライン，機械翻訳された評価ベンチマークを公開し，開発を促進する。
Link: https://arxiv.org/abs/2606.19100
指示に基づく画像編集における製品の一貫性：SFTとRLによる製品識別性の維持向上 [cs.CV, cs.AI]目的：製品を中心とした画像編集における製品識別性の維持
- 製品画像編集は，マーケティング等において重要であり，ブランドイメージの維持に不可欠である。
- 既存モデルは，製品の特徴やテキスト要素の維持が不十分であり，製品識別性が損なわれる場合がある。
- 製品識別性を維持した画像編集を可能にするためのデータセットと評価基準の提供。
- 本研究では，製品を中心とした画像編集を改善するためのProductConsistencyデータセットを開発した。
- Qwen-Image-Edit-2511とFlux.1-Kontext-devをファインチューニングした結果，OCR，知覚指標，MLLM評価において性能が向上し，製品の一貫性，テキストのレンダリング品質が向上した。
- 特にQwen-Image-Edit-2511では，文字エラー率が5分の1に減少した。
Link: https://arxiv.org/abs/2606.19103
推論に先立つ視覚：ショートカットに強いマルチモーダルオンポリシー自己蒸留のための知覚と推論の分離 [cs.AR, cs.DC, cs.LG, cs.CV]目的：マルチモーダル大規模言語モデルにおける自己蒸留のフレームワーク
- マルチモーダル大規模言語モデルの性能向上は，現実世界の多様なタスクへの応用を可能にする上で重要である。
- 既存の自己蒸留手法は，テキスト情報に過度に依存し，視覚情報の活用が不十分になる可能性がある。
- 視覚情報に基づいた記述生成と推論を分離することで，よりロバストな学習を目指す。
- 提案手法ViGOSは，画像のみを用いた知覚教師により，視覚記述の質を向上させる。
- ViGOSは，テキスト情報への過度な依存を抑制し，画像に根ざした推論能力を高める。
- 様々なベンチマークにおいて，ViGOSは自己蒸留の利点を維持しつつ，ショートカットに強い性能を示す。
Link: https://arxiv.org/abs/2606.19120
ウルドゥー・カティブ手書きデータセット：CRNNベースライン評価によるオフラインウルドゥー手書き文字認識のための歴史的文書データセット [cs.CV, cs.CL]目的：ウルドゥー手書き文字認識のための歴史的文書データセット
- 手書き文字認識は重要な技術であり，特に曲線文字が多い言語では高度な技術が求められる。
- ウルドゥー文字の手書き文字認識の研究は，文字の複雑さとベンチマークデータセットの不足により遅れている。
- 本研究は，ウルドゥー手書き文字認識の研究を促進するためのデータセットの提供と，最適なモデルの特定を目的とする。
- ウルドゥー・カティブ手書きデータセット（UKHD）は，歴史的なカティブ（書記）によって書かれた資料から収集された初のオフラインデータセットである。
- 評価の結果，CNN-BGRU-CTCモデルが最も堅牢な性能を示し，低い文字誤り率（CER）と単語誤り率（WER）を達成した。
- 本研究は，ウルドゥー手書き文献の保存を目的とした，より堅牢な認識システムの開発を支援する。
Link: https://arxiv.org/abs/2606.19139