arXiv雑要約

画像・音声 - 2026/06/11 公開

ARGUS：被写体維持のための多視点IDモザイク注入 [cs.HC, cs.CY, cs.CV, cs.AI]目的：被写体維持型ビデオ生成の性能向上
- ビデオ生成技術は，エンターテイメントからセキュリティまで幅広い分野で応用が期待されている。
- 既存手法では，視点や表情の変化，オクルージョンなどにより，被写体の同一性を維持することが困難である。
- 多様な視点からのID情報を活用し，動的なID表現を構築することで，被写体維持性能の向上を目指す。
- Argusは，MLLMが選択したID情報を3x3のモザイクに変換し，拡散過程に注入することで，動的なID表現を実現した。
- 新たなベンチマークHardID-Celebを用いて評価した結果，既存手法を大幅に上回る性能を示した。
- 大規模な反事実的自己教師あり学習と，ID情報の動的な記憶が，被写体維持型ビデオ生成において効果的であることが示された。
Link: https://arxiv.org/abs/2606.11670
SpAArSIST：効率的で信頼性の高い反詐欺のための疎化されたAASIST [cs.SD, cs.LG]目的：自己教師あり学習に基づく反詐欺のためのAASISTグラフプーリングバックエンドの効率化
- 音声詐欺は，セキュリティシステムの脆弱性を突く重要な問題であり，対策が急務である。
- 既存のAASISTバックエンドは，計算量が多く，モデルサイズが大きいという課題があった。
- SpAArSISTは，計算量とモデルサイズの削減と同時に，反詐欺性能の向上を目指す。
- SpAArSISTは，学習と推論のグラフプーリング比率，ノードスコアリング，平均集約を明示的に選択することで，計算量を20.7%削減した。
- モデルサイズも4.1%削減され，ASVspoof5における性能を維持しつつ，In-the-Wildデータに対するロバスト性が向上した。
- 精度，キャリブレーション，計算量をまとめた複合選択スコアを提供し，バランスの取れたモデル選択を支援する。
Link: https://arxiv.org/abs/2606.11674
UR-BERT：ユニバーサル・ロマ字化と音声トークン予測による大規模多言語TTSのためのテキストエンコーダの拡張 [cs.CL, cs.SD]目的：大規模多言語TTSシステムのための，ロマ字化された転写に基づくテキストエンコーダ
- グローバル化が進む中で，多様な言語に対応したTTSの需要が高まっている。
- 信頼性の高いG2Pリソースの不足が，従来のG2Pベースのアプローチの言語適用範囲を制限している。
- 多様な文字体系を統一的なロマ字化表現に変換することで，より多くの言語に対応可能にすること。
- UR-BERTは，従来のテキストエンコーダのベースラインを，幅広い言語とリソース条件下で一貫して上回る性能を示した。
- 音声トークン予測の導入により，データ効率の良い，音声認識に配慮した音素表現の学習が可能となった。
- UR-BERTは，未知の言語に対する高い汎化能力も実証されている。
Link: https://arxiv.org/abs/2606.11681
表形式データと画像を用いたマルチモーダル学習におけるパラメータ効率の良いアダプターチューニング [cs.CV, cs.LG]目的：表形式データと画像のマルチモーダル学習における予測モデリングの改善
- 構造化データと視覚データの融合は，予測精度の向上に不可欠である。
- 事前学習済みモデルの完全なファインチューニングは計算コストが高く，凍結したままでは適応能力が低い。
- 計算コストを抑えつつ，タスク固有の適応性を高める効率的な学習手法の確立。
- 提案手法TI-Adapterは，表形式データと画像の両モダリティに対してアダプターを導入することで，効率的なマルチモーダル適応を実現する。
- 実験の結果，TI-Adapterは完全なファインチューニングと同等かそれ以上の予測性能を，大幅に少ない学習パラメータ数で達成した。
- アダプターの配置場所が性能と効率のバランスに重要な影響を与えることが示された。
Link: https://arxiv.org/abs/2606.11682
理由付け，そして再理由付け：クロスビュー再検討が空間推論を改善する [cs.CV, cs.AI]目的：空間推論の性能向上
- ロボット工学や拡張現実など，様々な分野で空間理解が不可欠である。
- 既存手法は単一ターン推論に依存し，曖昧な幾何学的情報を解決できない。
- 異なる視点からの情報を活用し，推論の信頼性を高めることを目指す。
- 提案手法ReReは，オリジナル動画と合成された新規視点動画を組み合わせることで空間推論を改善する。
- ReReは，予測された3D幾何学情報に基づいて，最適な新規視点動画を生成するGeometry-to-Videoパイプラインを用いる。
- VSI-BenchとSTI-Benchでの評価において，ReReはオープンソースのMLLMの性能を大幅に向上させ，商用モデルに匹敵する結果を示した。
Link: https://arxiv.org/abs/2606.11683
DroneShield-AI：紛争 airspace におけるリアルタイム自律ドローン脅威検知，行動意図分類，スウォームインテリジェンスのためのマルチモーダルセンサー融合フレームワーク [cs.CV, cs.LG, cs.RO]目的：ドローン脅威のリアルタイム自律検知，行動意図の分類，およびスウォームインテリジェンス
- ドローンはセキュリティ上の重要な課題となっており，効果的な対策が求められている。
- 既存のシステムでは，ドローンの脅威を正確かつ迅速に検知・分類することが困難である。
- 複数のセンサー情報を統合し，ドローンの行動を予測することで，脅威への対応を支援する。
- 提案手法 DroneShield-AI は，RF信号，音響，画像認識の6つの処理層を統合したフレームワークである。
- 公開データセットを用いた評価で，96.1%の検知精度，3.2%の誤検知率，AUC-ROC: 0.981 を達成した。
- 行動意図分類エンジン(BICE)は，ドローンの飛行パターンを6つの脅威クラスに分類し，30秒の事前警告を提供する。
Link: https://arxiv.org/abs/2606.11687
RankVR：低ランク構造の認識と価値再調整によるロバストな合成画像検索 [cs.CV]目的：合成画像検索におけるロバスト性の向上
- 画像検索技術は，大量の画像データから目的の画像を効率的に見つけ出す上で不可欠である。
- 大規模データセットにはノイズが多く含まれており，画像検索の精度を低下させる要因となっている。
- ノイズに対するロバスト性を高め，より正確な合成画像検索を実現することを目指す。
- RankVRは，グローバル構造の一貫性と動的な価値認識を通じて，ロバストな合成画像検索モデルを構築する。
- 相関行列の有効ランクを利用し，クリーンなサンプルと構造的ノイズを分離するGSCPモジュールを導入した。
- 訓練ポテンシャルと信頼性を統合し，各トリプレットのセマンティック値を動的に定量化するASVCモジュールを開発した。
Link: https://arxiv.org/abs/2606.11689
MedCTA：臨床ツールエージェントのベンチマーク [cs.CV, cs.AI, cs.CL]目的：臨床ツールエージェントの評価基準
- 医療AIの発展には，臨床現場での意思決定支援が不可欠である。そのため，高度なツール利用能力が求められる。
- 既存のベンチマークは，単一タスクの評価に偏っており，複雑な臨床シナリオにおけるエージェントの信頼性が不明である。
- 現実的な臨床データを用いた多段階タスクを通して，ツール利用におけるAIエージェントの脆弱性を評価し，改善を目指す。
- MedCTAは，臨床医が検証した107の臨床タスクを含むベンチマークであり，放射線画像や病理スライドなど多様な入力に対応する。
- 18の既存モデルを評価した結果，最先端モデルであっても，多段階のツール利用においてプロトコル違反や誤ったツール選択が頻発することが示された。
- このベンチマークは，医療AIエージェントの信頼性を監査・診断し，改善するための厳格なテスト環境を提供する。
Link: https://arxiv.org/abs/2606.11702
ERN-Net：ドキュメント二値化のための進化型推論ノード・ネット [cs.CV]目的：ドキュメント画像二値化の効率化
- 文書画像認識の精度向上は，デジタルアーカイブや情報検索において不可欠である。
- 低品質な文書画像では，文字の判別が困難であり，二値化処理の性能が課題となる。
- 微細な文字やノイズの影響を受けにくい，堅牢な二値化手法の開発。
- ERN-Netは，進化型推論ノードとマルチスケール推論により，劣化しやすい領域の改善に貢献する。
- ConvNeXt-Tinyが，精度とメモリ使用量のバランスに優れた実用的な選択肢であることが示された。
- DIBCOベースの事前学習は，モデルのメモリ消費量を増加させることなく二値化性能を向上させる。
Link: https://arxiv.org/abs/2606.11710
オウロボロス-空間：空間推論のためのデータ・モデルループの閉環 [cs.AR, cs.AR, cs.CV, cs.AI]目的：空間推論のためのデータ・モデルループの閉環
- マルチモーダル大規模言語モデルの性能向上には，空間推論能力が不可欠である。
- 既存手法は静的なデータセットに依存し，モデルの学習段階に応じたデータ選択が困難である。
- モデル能力とデータ分布を相互に進化させ，効率的な学習を実現する。
- 提案手法Ouroboros-Spatialは，モデル自身が問題生成と解答を行うことで学習ループを閉じる。
- 6つの空間推論ベンチマークで，Qwen3-VL-4BとQwen3-VL-8Bの大幅な性能向上を実証した。
- VSI-Benchにおいて，4Bモデルで9.9ポイント，8Bモデルで6.8ポイントの絶対的な性能向上を達成した。
Link: https://arxiv.org/abs/2606.11719
公共交通車両向けマルチビュー車内監視システム [cs.CV, cs.AI]目的：公共交通機関における車内監視のためのマルチビューデータセット
- 公共交通機関の安全性向上は喫緊の課題であり，乗客の行動監視が不可欠である。
- 既存の監視システムでは，カメラの死角やプライバシーへの配慮が課題となっていた。
- マルチビューデータセットとツールを提供し，車内における3D物体検出の精度向上を目指す。
- 本研究では，4つの車内向けカメラとLiDARを使用したマルチビューデータセットを構築した。
- データセットには9,136サンプルが含まれており，3D人体姿勢推定や3Dバウンディングボックスの生成パイプラインも提供する。
- Lift-Splat-ShootやBEVFusion等のモデルを用いたベンチマークを実施し，評価環境を整備した。
Link: https://arxiv.org/abs/2606.11739
UniReason-Med：2Dから3Dへの転移学習のための医療VQAにおける共有された根拠に基づく推論インターフェース [cs.CV, cs.CL]目的：2Dと3Dの医療画像に対するVQAにおける，根拠に基づく推論能力の向上
- 医療画像診断支援において，より高精度なVQAは重要な課題である。医師の負担軽減や診断精度の向上に貢献しうる。
- 3D医療画像のVQAは，2D画像と比較してデータ不足や計算コストの問題があり，性能向上が難しい。
- 2D画像で培った推論能力を3D画像に転移することで，3D VQAの性能を向上させることを目指す。
- UniReason-Medは，2D画像と3Dボリュームを共通の推論インターフェースで処理することで，両方の入力タイプで一貫性のある根拠に基づく推論を可能にする。
- 構築されたデータセットUniMed-CoTを用いることで，2Dと3Dのデータを用いた共同学習が，3D VQAの性能を大幅に向上させることを示した。
- IoU/Dice報酬を用いない強化学習により，根拠に基づいた推論トレースを生成できることを示した。
Link: https://arxiv.org/abs/2606.11740
TacCoRL：シミュレーションによる触覚フィードバックをVLAに統合 [cs.RO, cs.GR, cs.LG]目的：ロボット操作における視覚，言語，行動の事前知識を提供するVLAモデルへの触覚フィードバック統合
- ロボット操作において，視覚情報だけでは不十分な場合が多く，触覚情報は重要な役割を果たす。
- 接触の多いタスクでは，視覚のみでは局所的な接触状態を捉えきれず，ロボットの制御が困難になる。
- シミュレーションと実環境の協調学習により，大規模な触覚事前学習なしにVLAモデルを改善すること。
- TacCoRLは，シミュレーション環境で触覚情報を活用し，VLAポリシーを効率的に学習するフレームワークである。
- 実環境とシミュレーション間のギャップを埋めることで，実ロボットへの直接的な転移を実現している。
- 4つの両手での接触が多いタスクにおいて，TacCoRLはベースラインと比較して平均成功率を22.5%向上させた。
Link: https://arxiv.org/abs/2606.11743
プロンプトからトークンへ：ビジョン言語モデルにおける因果的監督の内部化とマルチ画像因果推論 [cs.CV, cs.AI]目的：マルチ画像入力に対する因果的推論におけるビジョン言語モデルの性能向上
- 物理世界を理解し介入するためには，視覚情報からの因果関係の特定が不可欠である。
- 既存のビジョン言語モデルは，特にマルチ画像入力における介入・反事実的な質問に対し，脆さを抱えている。
- モデル実行に因果メカニズムを組み込み，より信頼性の高い制御を可能にすることを目指す。
- 提案手法BridgeVLMは，CausalVLBenchの介入タスクで54.4%の精度を達成し，プロンプトレベルの監督と比較して大幅に向上した。
- Causal3Dの性能も43.6%から49.0%へと改善され，因果構造学習においても顕著な成果が得られた($F_1$: 33.4% $\rightarrow$ 75.1%)。
- マルチ画像入力から因果グラフを誘導し，LLMデコーダーに注入されたRAMP層によって因果メッセージパッシングを行うことで，因果的推論を内部化した。
Link: https://arxiv.org/abs/2606.11745
複数回の画像編集における因果的記憶を用いた時間的一貫性の維持：AnchorEdit [cs.IR, cs.CV, cs.AI]目的：複数回の画像編集における，時間的一貫性の維持
- 反復的なデザイン作業において，画像編集は不可欠なプロセスである。
- 既存モデルは，複数回の編集においてIDの変動やエラーの蓄積といった課題を抱えている。
- 本研究は，長期間にわたる編集における安定性とIDの維持を目的とする。
- AnchorEditは，高解像度かつ長期的な複数回編集に特化した自己回帰型拡散モデルである。
- 3段階のトレーニングカリキュラムにより，IDの保持と一貫性を実現している。
- 実験結果から，AnchorEditが10回以上の編集においても，優れた性能と安定性を示すことが確認された。
Link: https://arxiv.org/abs/2606.11751
転移学習を用いたX線画像におけるバッテリー検出 [cs.DC, cs.CV]目的：X線画像からのバッテリー検出と分類
- バッテリー利用の増加に伴い，安全管理やリサイクルの効率化が重要である。
- X線画像からのバッテリー検出は，従来の画像処理技術では困難な場合がある。
- 転移学習を用いて，高精度かつ高速なバッテリー検出手法を確立すること。
- 転移学習によるバッテリー検出の精度は94%に達し，事前学習済みYOLOv5mと比較して5%向上した。
- バッテリーの種類（プリズム型，パウチ型，円筒型）の識別も可能となった。
- 推論時間は22msであり，実用的な速度であることが示された。
Link: https://arxiv.org/abs/2606.11779
重要度に着目した知覚的ラッパー：3Dガウススプラッティングのための共通乱数 [cs.CV]目的：3Dガウススプラッティングのレンダリング品質向上
- 3Dガウススプラッティングはリアルタイムレンダリングに優れるが，高周波テクスチャの合成に課題がある。
- メモリ制約やレート歪み最適化パイプライン下では，高周波テクスチャの合成が困難になる。
- 知覚的に妥当なテクスチャを合成し，レンダリング品質を向上させることを目指す。
- 提案手法は，既存の3DGS表現の出力に対して，コンテンツおよび視点に依存した知覚的ラッパーを適用する。
- 擬似乱数ガウスノイズを条件とした軽量な合成ネットワークを使用し，局所的な特徴統計量をマッチさせることで，鮮明度の低い問題を軽減する。
- 様々な3DGS手法（バニラ，メモリ制約，RDO）において，主観評価・客観評価ともに既存手法を上回る知覚品質が確認された。
Link: https://arxiv.org/abs/2606.11782
オープン領域におけるカスタマイズ動画生成のための包括的エコシステム [cs.CV]目的：多様なアイデンティティ固有の属性を捉えた大規模注釈データセットの不足を解消し，オープン領域におけるカスタマイズ動画生成を可能とすること。
- 動画生成技術は目覚ましい進歩を遂げているが，実用的な応用には多様なデータセットが不可欠である。
- 既存のベンチマークはカテゴリ数が少なく，現実世界の問題に対応するには不十分である。
- 本研究は，大規模データセットと効率的なモデルにより，より多様なカスタマイズ動画生成を可能とする。
- PexelsCustom-1Mという，100万規模のアイデンティティ保持動画生成データセットを新たに公開した。
- CustoMDiTという，事前学習済みのマルチモーダル拡散変換器をわずか8%の追加学習パラメータでカスタマイズ動画生成器として適応させる，パラメータ効率の良いフレームワークを提案した。
- ImageNetとMS-COCOの知識融合により，1,000以上のカテゴリを持つ新しいベンチマークOpenCustomを構築し，その有用性を実証した。
Link: https://arxiv.org/abs/2606.11783
MultiToP：ビデオ大規模多Modalモデルにおける幻覚を軽減するための視覚トークンパッチ学習 [cs.CL, cs.DB, cs.CV, cs.AI, cs.CL]目的：ビデオ大規模多Modalモデルにおける幻覚軽減のための視覚トークンパッチング手法
- ビデオ理解の分野は急速に進歩しているが，生成された応答の信頼性が課題となっている。
- 大規模多Modalモデルは，入力ビデオと矛盾する内容（幻覚）を生成する可能性がある。
- 入力ビデオ中の信頼性の低い視覚トークンを修正し，より正確な応答を生成することを目指す。
- MultiToPは，軽量な視覚トークンパッチャを用いて，信頼性の低いトークンを動的なグローバルパッチトークンに選択的に置換する。
- 回答条件付きのフレームレベル情報を活用したランク較正により，パッチャの学習効率を向上させている。
- Vript-HALにおいて，Qwen3-VL-4B-InstructのF1スコアを50.60%向上させ，ActivityNet-QAではVideo-LLaVA-7Bの精度を18.58%向上させた。
Link: https://arxiv.org/abs/2606.11792
TextHOI-3D：離散多視点生成と結合メッシュ最適化によるテキストからの3Dハンド・オブジェクト相互作用 [cs.CV, cs.AI]目的：テキストからの3Dハンド・オブジェクト相互作用の生成
- 3Dコンテンツ生成技術は，現実世界の再現やバーチャルリアリティなど，様々な分野で重要性が増している。
- ハンドとオブジェクトの相互作用を伴う3Dモデルの生成は，形状，姿勢，接触の物理的妥当性を両立させる必要があり，難易度が高い。
- テキストに基づいた3Dハンド・オブジェクトモデル生成において，多視点情報を活用し，幾何学的精度を高めることを目指す。
- 提案手法TextHOI-3Dは，テキストと生成された多視点画像から，ハンドとオブジェクトの3Dメッシュを生成する。
- 多視点設定は，単一視点設定と比較して，オブジェクトのCD値を17.26mmから4.92mmに，貫通体積を5.3721cm^3から0.2193cm^3に削減する効果を示した。
- 本研究は，テキスト駆動型3Dハンド・オブジェクトメッシュ作成において，多視点視覚トークンが効果的な中間表現であることを支持する。
Link: https://arxiv.org/abs/2606.11805
再構成歪に対するロバスト性を備えた特徴量アラインメント型音声透かし [cs.SD, cs.AI, cs.CR, cs.MM]目的：再構成歪に対するロバストな音声透かし技術の開発
- 音声の改ざん防止や著作権保護のため，透かし技術の重要性が高まっている。
- 従来の透かし技術は，音質劣化を抑えるため，ロバスト性に課題があった。
- 再構成モデルによる歪みへの耐性を高めつつ，音質の劣化を抑制することを目指す。
- 提案手法は，元の音声の特徴量分布に透かしをアラインメントすることで，高エネルギー化を実現し，ロバスト性を向上させた。
- VAD損失と知覚損失を導入することで，音声領域内への透かし埋め込みを誘導し，不可聴性を維持した。
- 実験により，既存手法と同等の不可聴性を維持しつつ，既知・未知の再構成モデルに対するロバスト性が大幅に向上することが示された。
Link: https://arxiv.org/abs/2606.11828
音声基盤モデルに対するパラメータクラスタリングを用いたデータフリーかつ学習フリーな圧縮手法 [cs.SD, cs.AI, eess.AS]目的：音声基盤モデルのデータフリーかつ学習フリーな圧縮
- 近年，音声基盤モデルは様々な音声タスクで高い性能を示すが，モデルサイズが巨大であるという課題がある。
- モデルサイズの削減は，計算資源の制約や実用上の展開において重要な課題となっている。
- 本研究は，データや学習を必要としない圧縮手法によって，モデルサイズの削減と性能維持の両立を目指す。
- HuBERT-largeにおいて，50%の疎性化を行った場合，Magnitudeベースのプルーニングと比較して，fine-tuning前にtest-cleanで27.73%，test-otherで18.61%のWER絶対削減が確認された。
- fine-tuning後（3 epoch）には，test-cleanで0.19%，test-otherで0.79%のWER絶対削減が確認された。
- Whisper-large-v3において，10%の疎性化を行った場合，Magnitudeベースのプルーニングと比較して，2.86%/5.02%のWER絶対削減が確認され，ベースラインと比較して有意なWER増加は見られなかった。
Link: https://arxiv.org/abs/2606.11836
オープンボキャブラリシーンスケッチ意味セグメンテーションのための弱教師あり学習法 LASA [cs.CV, cs.AI]目的：オープンボキャブラリシーンスケッチ意味セグメンテーションにおける性能向上
- シーン理解はロボット工学や画像検索などに応用され，その重要性は高い。
- スケッチはテクスチャや色情報が乏しく，構造や配置に依存するため，意味理解が難しい。
- 多層的な注意機構を統合し，構造的情報を強化することで，セグメンテーション精度を向上させる。
- 提案手法LASAは，異なる層のVision Transformerからの注意マップを統合することで，構造的な事前知識を強化する。
- FS-COCO，SFSD，FrISSにおける実験で，既存の弱教師あり学習法と比較してmIoUが大幅に向上した。
- LASAは，セグメンテーション精度と空間的な一貫性の両方で，一貫した改善を示している。
Link: https://arxiv.org/abs/2606.11837
計画と検証に基づくビデオ報酬推論：時空間シーングラフによる根拠付け [cs.CV]目的：テキストからビデオ生成における報酬モデルの精度向上
- ビデオ生成の質を向上させるには，報酬モデルによる評価が不可欠である。
- 既存の報酬モデルは，プロンプトの細部まで正確に反映できていない。
- プロンプトの各条件を体系的に検証し，視覚的根拠を明示することで，この問題を解決する。
- SG-PVRは，プロンプトを構成要素に分解し，各要素を検証する計画と検証の枠組みを採用している。
- 時空間シーングラフを用いることで，ビデオの内容を構造化された視覚的参照として維持し，根拠に基づいた判断を可能にしている。
- 実験結果から，SG-PVRは意味的な整合性，特に細かな時間的整合性において高い性能を発揮することが示された。
Link: https://arxiv.org/abs/2606.11838
低照度3Dガウススプラッティングにおける擬似正解データ生成のためのシーン適応型非線形トーンカーブ [cs.CV]目的：低照度環境における新規視点合成のための擬似正解データ生成手法
- 近年，3Dシーンの再構成技術が発展しているが，低照度環境下での高品質な再構成は依然として困難である。
- 既存の擬似正解データ生成手法は，線形なゲイン調整しか行わず，明域の飽和や暗域の強調不足といった問題がある。
- シーンに適応的な非線形トーンカーブを用いることで，擬似正解データの品質を向上させ，再構成精度を高めることを目指す。
- 提案手法では，パーセンタイルに基づいた正規化とシーン適応的なオフセット調整により，シーンに依存しないトーンカーブを適用する。
- Adaptive SoftExp（ASE）とAdaptive Poly3（AP3）という2つの補完的なトーンカーブを導入し，LOMおよびRealX3Dのベンチマークにおいて線形ベースラインを上回る性能を実証した。
- 異なる数学的形状を持つ両方のカーブが同様の性能を発揮したことから，提案手法の効果はカーブの種類に依存しないことが示唆された。
Link: https://arxiv.org/abs/2606.11841
SheafStain：空間的・生物学的に整合性のあるバーチャル染色のための層理論的シュレーディンガー橋 [cs.CV]目的：空間的・生物学的な整合性を備えたバーチャル染色
- 癌診断・予後において，迅速かつ低コストなバイオマーカー定量が求められている。
- ギガピクセル全スライド画像(WSI)に対するパッチごとの推論では，空間的な連続性が維持されず，アーチファクトが発生する。
- 病理Vision Foundation Models(VFMs)の文脈汚染問題を層理論的に解決し，より正確なバーチャル染色を実現する。
- SheafStainは，VFMsの特徴量を層のようなセクションとして解釈することで，空間的・生物学的な整合性を向上させる。
- クラス・パッチトークンをシュレーディンガー橋の枠組みに統合し，生物学的一貫性と空間マップを確立する。
- HER2, ER, PR, Ki-67の評価において，既存の6つの手法と比較して有望な結果を示し，パッチ境界のアーチファクトを軽減する。
Link: https://arxiv.org/abs/2606.11846
タスクを意識した構造化メモリによる動的なマルチモーダル文脈内学習 [cs.DM, math.CO, math.OC, cs.CV, cs.AI]目的：マルチモーダル大規模言語モデルにおける，動的な文脈内学習のための構造化メモリ
- マルチモーダルLLMの急速なタスク適応は重要だが，文脈長の制限とKVキャッシュのコストが課題。
- 既存のメモリ圧縮手法は，バイアスやセマンティック構造の破壊，静的なメモリという問題がある。
- タスクを意識し，構造を維持しつつ，動的にアクセス可能なメモリ構築を目指す。
- TASMは，タスクベクトルをガイドとした圧縮により，サンプル固有の情報ではなくタスクレベルの関連性を捉える。
- セマンティクスを考慮したトークンマージにより，破壊的な削除なしでトークンを統合し，基盤となる多様体を維持する。
- コンパクトなコアメモリと潜在銀行の階層構造により，クエリ適応的な動的検索を実現し，高い性能を維持する。
Link: https://arxiv.org/abs/2606.11853
対話システムにおける多言語感情検証を通じた，より深い感情的サポートの実現 [cs.CL, cs.SD]目的：多言語感情検証のための対話データセット及び感情認識モデル
- 人間関係において感情的なサポートは重要であり，精神的な健康に大きく影響する。
- 対話システムにおける感情的なサポートは未発達であり，自然な感情検証が困難である。
- 多言語に対応した感情検証技術を開発し，対話システムの感情サポート能力を向上させる。
- M-EDESConvおよびM-TESCという，英語と日本語の対話データセットを構築・公開した。
- MEGUMIという，多言語感情認識モデルを提案し，既存モデルを上回る性能を示した。
- GPT-4.1 NanoとLlama-3.1 8Bの検証の結果，感情理解には改善の余地があることが示された。
Link: https://arxiv.org/abs/2606.11875
3Dシーングラフに基づく逐次的な視覚局所化 [cs.CV]目的：複雑な屋内環境における逐次的な視覚局所化手法
- ロボティクスやAR応用に不可欠であり，環境理解と自己位置推定は重要課題である。
- 既存手法は，大規模な画像データベースや点群の保存を必要とし，計算コストが高い。
- 3Dシーングラフを利用し，軽量かつ効率的な局所化を実現する。
- 提案手法は，環境をコンパクトなシーングラフで表現し，セマンティック特徴を用いたオブジェクトの識別を行う。
- パーティクルフィルタの枠組み内で局所化を行い，可視性に基づくオブジェクト識別の類似度でパーティクルの重みを決定する。
- シーングラフの活用により，ストレージコストを削減しつつ，実環境データセットで高い性能を維持する。
Link: https://arxiv.org/abs/2606.11880
オープンフェイス画像品質基準からの指標を用いた身分証の画像品質評価 [eess.SY, cs.SY, cs.CV, cs.CR]目的：身分証画像の画像品質評価
- 遠隔検証システムにおいて，身分証の信頼性は認証精度を左右する重要な要素である。
- 身分証画像の品質がPAD(プレゼンテーション攻撃検知)性能に与える影響は十分に解明されていない。
- OFIQ基準の指標を用いて身分証画像の品質を評価し，PAD性能向上に貢献すること。
- OFIQ指標を用いた品質評価が，PADアルゴリズムの性能向上に寄与する可能性が示された。
- 特に，一部のOFIQ指標がPAD性能を大幅に改善することが確認された。
- 身分証画像の品質評価は，より安全な遠隔検証システムの実現に不可欠である。
Link: https://arxiv.org/abs/2606.11884
リアルタイム言語モデル妨害：ライブ音楽伴奏生成における事例研究 [cs.SD, cs.OS]目的：リアルタイム言語モデルによるフレーム同期ストリーミング推論の実現
- 言語モデルは現代の生成モデリングにおいて重要な役割を果たしており，その応用範囲は広い。
- リアルタイム処理速度に加え，生成内容とタイミングの外部信号との正確な同期が課題である。
- 外部信号に同期した言語モデルの生成を実現し，ライブ音楽伴奏といった実用的な応用を目指す。
- StreamMUSEフレームワークにより，クライアント・サーバーアーキテクチャにおけるリアルタイム同期が可能となった。
- システムハイパーパラメータと往復遅延との関係が明らかになり，最適な設定が環境によって変化することが示された。
- システム性能と音楽品質との間には一貫した相関関係が認められ，提案手法の有効性が確認された。
Link: https://arxiv.org/abs/2606.11886
自動運転におけるハザード検知のためのビジョン言語モデルのタスク適合安定性分析 [cs.CV, cs.AI, cs.RO]目的：自動運転におけるハザード検知のためのビジョン言語モデルの安定性
- 自動運転の安全性向上には，周囲環境の正確な理解が不可欠であるため，ビジョン言語モデルの信頼性が重要となる。
- 既存の安定性分析はタスクに依存せず，実際のハザード検知性能の変動を十分に捉えられていないという課題がある。
- ハザード検知タスクに適合した安定性指標を導入することで，より実用的な安定性評価を目指す。
- 制御された摂動を加えたBDD100Kの道路シーンにおいて，埋め込みのドリフトとハザードスコアの変化との関係を評価した。
- 摂動の種類によって，埋め込みドリフトと意思決定ドリフトの結びつきの強さに違いが見られた。
- 遮蔽による摂動は偽陽性を引き起こす傾向があり，ベンチマーク設計において非対称な故障モードを考慮する必要があることが示唆された。
Link: https://arxiv.org/abs/2606.11889
Wild3R：制約のない疎な写真コレクションからのフィードフォワード3Dガウススプラッティング [cs.CV]目的：制約のない疎な写真コレクションからの3Dガウススプラッティング手法
- 3Dシーン再構成は，VR/ARなどの応用に不可欠であり，その効率化が求められている。
- 従来の3DGSはシーン毎の最適化が必要で時間がかかる。フィードフォワード手法は高速だが，実写データへの適用が困難。
- 多様な照明条件や動的物体を含む実写データに対応できる，ロバストなシーン表現の学習を目指す。
- 本研究では，多視点，多様な照明，動的変化を含む大規模データセットWildCityを構築した。
- 提案手法Wild3Rは，参照画像に基づいた視点間の一貫性を学習し，動的物体を除去する。
- 実験により，既存のフィードフォワード手法を上回り，最適化ベースの手法と遜色ない結果が得られた。
Link: https://arxiv.org/abs/2606.11894
スナップが重要：文脈を考慮した自動音楽書き起こしにおける音高開始位置の精度向上 [cs.SD]目的：自動音楽書き起こしシステムにおける音高開始位置の精度向上
- 音楽書き起こしは，音楽情報処理の重要な分野であり，自動演奏や音楽分析への応用が期待される。
- 実際の録音データにおける高品質な音高開始位置の注釈データは不足しており，学習データの作成が課題である。
- 弱アライメントデータからの学習を可能にするため，音高開始位置のスナップ処理の精度向上を目指す。
- スナップ処理は，弱アライメントデータからの学習において不可欠であり，性能に大きく影響することが示された。
- スナップ処理を音高ごとの割り当て問題として定式化し，二部グラフマッチングを用いて文脈を考慮した音高開始位置の決定を行った。
- ピアノ，室内楽，オーケストラ録音を用いた実験の結果，貪欲法によるスナップ処理と比較して，精度が向上することが確認された。
Link: https://arxiv.org/abs/2606.11903
コンテンツから知識へ：ニューラル知識表現による超高速長尺ビデオ理解 [cs.CL, cs.CV]目的：長尺ビデオのニューラル知識表現
- ビデオ理解は，映像情報の活用に不可欠であり，様々な応用分野で重要性が高まっている。
- 既存手法では，長尺ビデオの処理に膨大な計算資源と時間がかかるという課題があった。
- ビデオ情報を効率的に表現し，高速な理解を実現することを目指している。
- 本研究では，ビデオをニューラル知識表現（NKR）として捉え，VLMバックボーンにネットワーク重みを付加する手法を提案した。
- 提案手法では，Agentic Knowledge Distillation（AKD）により，ビデオのセマンティックコンテンツをNKRにエンコードし，再利用可能な資産へと変換する。
- LVBenchベンチマーク実験により，本手法が最先端手法と同等の性能を維持しつつ，推論遅延を大幅に削減できることが示された。
Link: https://arxiv.org/abs/2606.11913
呼吸音分類のための品質適応角度マージン学習 [cs.SD, cs.AI]目的：呼吸音分類における特徴量の汎化性能向上
- 呼吸音は健康状態の重要な指標であり，異常の早期発見に貢献しうる。
- 呼吸音データは録音環境に強く依存し，品質のばらつきが分類精度を低下させる。
- 録音品質に応じた角度マージンを適応的に調整し，分類精度の向上を目指す。
- 提案手法QLungは，ICBHIデータセットにおいて，クロスエントロピー基準線と比較して2.46%の性能向上を達成した。
- 特に，SPRSoundデータセットにおける分布外性能において，既存の最先端手法と比較して最も優れた結果を示した。
- スペクトルエントロピーと二乗平均エネルギーに基づく無参照音質マージンを用いることで，録音品質に応じた角度マージンを調整している。
Link: https://arxiv.org/abs/2606.11915
Lung-SRAD：二軸パッチミックス対照学習を用いたスペクトル認識正則化された呼吸音分類のためのAudio DASS [cs.SD, cs.AI]目的：呼吸音分類のためのスペクトル認識正則化されたAudio DASSモデルの開発
- 呼吸音分類は，呼吸器疾患の早期発見や重症度評価に不可欠であり，医療現場での活用が期待される。
- 従来の呼吸音分類手法は，局所的な異常パターンへの感度が低いという課題があった。
- スペクトル情報を考慮した正則化と対照学習により，局所的な異常パターンをより正確に検出することを目指す。
- 提案手法は，既存のASTベースラインと比較して，ICBHIベンチマークにおいて5%高い64.48%のスコアを達成した。
- Distilled Audio State Spaceモデルにおける中間表現のスペクトル応答曲線分析により，高周波成分の保持が確認された。
- スペクトル認識正則化と二軸パッチミックス対照学習が，ロバストな表現学習に貢献することが示された。
Link: https://arxiv.org/abs/2606.11922
LLM誘導ビデオステッチングによる手話翻訳のためのコーパス拡張 [cs.CV, cs.LG]目的：手話翻訳の性能向上
- 手話翻訳は，手話使用者と非使用者間のコミュニケーションを支援し，アクセシビリティ向上に貢献する重要な技術である。
- 長尺語彙や未知の構文に対する汎化性能を制限する，高品質な手話動画とテキストのペアの不足が課題となっている。
- 既存のコーパスとLLMを用いて，追加の注釈や外部データ，生成モデルなしに手話翻訳コーパスを拡張することを試みる。
- 提案手法は，既存のベースラインと比較してBLEU-4スコアで+2.92の改善を達成し，アーキテクチャや学習プロトコルを変更していない。
- 合成データは，ビジョン言語事前学習の目的は改善するものの，その性能を低下させる可能性があることが判明した。
- 視覚的な滑らかさを追求したクリップ遷移の最適化は，L2基準下では逆効果であり，急激な境界が暗黙的な正則化として機能する可能性が示唆された。
Link: https://arxiv.org/abs/2606.11925
非同期ビデオ面接における性格特性と認知能力評価のための凍結型マルチモーダル埋め込み [cs.HC, cs.AI, cs.CV]目的：非同期ビデオ面接からの性格特性と認知能力の予測
- ビデオ面接は，大規模なデータ収集と客観的な評価が可能であり，人材選考などに活用が期待される。
- 性格特性や認知能力の予測には，多次元な視覚，聴覚，言語情報を統合する必要があるが，ラベル付きデータが不足している。
- 本研究は，限られたデータでも高精度な予測を可能にする表現学習手法の開発を目指す。
- 性格特性予測において，提案手法は公式ベースラインよりも平均二乗誤差を19.1%削減し，優れた性能を示した。
- 認知能力予測においては，公式ベースラインを上回る精度が得られたものの，データセット特有のショートカットの影響が示唆された。
- 性格特性評価にはマルチモーダルな特性固有モデリングが有効だが，認知能力予測にはデータセットの制御が重要である。
Link: https://arxiv.org/abs/2606.11930
植物成長段階推定のための特徴抽出 [cs.CV]目的：植物成長段階の推定
- 精密農業において，リアルタイムな植物成長段階の把握は不可欠である。
- 異なる成長段階の植物は形態的特徴が類似しており，自動推定が困難である。
- 成長段階推定における特徴抽出手法の改善により，資源の無駄を削減すること。
- Gaborフィルタと形態学的処理，および事前学習済みのCNNを用いた2つの特徴抽出手法を提案した。
- 公開データセットを用いて評価した結果，CNN特徴量が手動特徴量よりも高速かつ高精度であった。
- VGG-19特徴量とRBF-SVMを用いたシステムは，98.4%の精度で0.08秒で画像処理を完了した。
Link: https://arxiv.org/abs/2606.11966
SpecLoR：モーションの一貫性を考慮したテキストから動画生成のためのスペクトル先読み修正 [cs.CV]目的：モーションの一貫性を持つ動画生成のための手法
- 動画生成技術は，多様なコンテンツ作成を可能にする重要な分野であり，その発展が求められている。
- 既存手法では，潜在状態の誤差累積により，動画に空間的・時間的な不整合が生じるという課題があった。
- SpecLoRは，ノイズの影響を回避し，周波数領域で修正を行うことで，この不整合を軽減することを目指す。
- SpecLoRは，先読み予測によりノイズを回避し，周波数領域で修正することで，物理的なアーティファクトを大幅に削減する。
- 複数のベンチマークにおいて，SpecLoRはモーションの一貫性を向上させ，わずかな計算オーバーヘッドで高い性能を発揮する。
- 本手法は，Flow Matchingの推論プロセスに容易に組み込むことが可能である。
Link: https://arxiv.org/abs/2606.11969
ドキュメント解析のための選択的マルチモーダル修正エージェントフレームワークParseFixer [cs.CV]目的：ドキュメントページ画像からの構造化されたMarkdownドキュメントの復元
- ドキュメント解析は，情報抽出や知識獲得において不可欠な技術である。
- 従来のドキュメント解析手法は，構造と内容の両方を正確に復元することが困難である。
- ParseFixerは，信頼性の高いバックボーン予測を維持しながら，重要な要素の復元精度を向上させる。
- ParseFixerは，バックボーン解析と選択的修正のためのエージェントフレームワークである。
- Full-Page Backbone Parsing (FBP)とAgentic Selective Correction (ASC)の2つの主要モジュールで構成される。
- テストセットにおいて，全体スコア61.78を達成し，トラック1で3位となった。
Link: https://arxiv.org/abs/2606.11977
名目強度から相当降雨量へ：自律運転知覚テストにおけるシミュレーション降雨の信頼性評価フレームワーク [cs.CV]目的：自律運転知覚テスト用シミュレーション降雨の信頼性評価手法
- 自動運転システムの安全性確保は重要であり，その検証には様々な環境下での知覚性能評価が不可欠である。
- 従来の降雨試験は名目強度のみで表されることが多く，実際の降雨との関連性や試験結果の汎用性に課題がある。
- シミュレーション降雨の経路ごとの信頼性を評価することで，より現実的な試験環境の構築を目指す。
- 空間的な不均一性が同じ名目条件でも残存することが確認され，経路ベースの評価の必要性が示唆された。
- Path IVとPath VIが好ましい候補として特定され，それぞれ11.54±0.31 mm/h (RRD=0.43)と8.28±0.34 mm/h (RRD=0.46)という結果が得られた。
- 提案手法は，経路選択，条件記述，および自律運転知覚テストの結果の信頼性の高い解釈を支援する。
Link: https://arxiv.org/abs/2606.11989
マルチユーザーセマンティックMIMO通信のためのゲーム理論的潜在空間アライメント [eess.SY, cs.SY, eess.SY, cs.SY, cs.CL, cs.GT, cs.IT, math.IT]目的：マルチユーザーセマンティックMIMO干渉ネットワークにおける潜在空間アライメント
- AI技術の活用により，無線システムはデータ本質を伝達するセマンティック通信へと進化している。
- エージェント間で潜在空間が異なり，意味的な不一致が生じやすく，通信性能を低下させる。
- 干渉抑制とセマンティック表現のアライメントを同時に実現し，通信効率とタスク性能を向上させる。
- 提案手法は，セマンティックアライメントを非協力ゲームとして定式化し，線形セマンティックMIMOトランシーバーの最適化解を導出した。
- 問題を低次元の電力配分ゲームに変換し，反復的なセマンティック水張りアルゴリズムを開発した。
- ナッシュ均衡の存在，一意性，大域的収束に関する十分条件を確立し，セマンティックアライメントと物理チャネルの関係を明確化した。
Link: https://arxiv.org/abs/2606.12005
レイアウトガイドを用いた自動応答型主題図作成 [cs.CG, cs.GR]目的：異なる表示サイズに対応する主題図の効率的な計算手法
- 地理情報を視覚的に伝える主題図は，統計データの理解に不可欠である。
- 従来の応答型主題図作成は手間がかかり，デバイスごとに異なる視覚表現を組み合わせる必要があった。
- 表示サイズに応じて滑らかに変化する主題図の自動生成を可能にする。
- 本研究では，レイアウトガイドと呼ばれる組み合わせ構造を導入し，主題図の視覚的要件と地理的コンテキストを同時に考慮する。
- 提案手法は，入力コンテナのわずかな変化に対して安定したレイアウトガイドを生成し，一貫性を保つ。
- 矩形図やDemers変換図を用いた実験により，本手法の有効性が確認された。
Link: https://arxiv.org/abs/2606.12008
FitVTON：体型を考慮したバーチャル試着 - 服装と体サイズの制御による [cs.CV]目的：体型を考慮したバーチャル試着モデルの開発
- 近年，バーチャル試着技術はECサイト等で顧客体験向上の鍵となり，その重要性が増している。
- 既存手法は画像生成に注力し，多様な体型における服装のフィット感の再現が課題であった。
- 本研究は，体型と服装サイズの情報を活用し，より自然なフィット感を実現することを目指す。
- FitVTONは，服装と体型サイズを構造化されたテキストプロンプトで表現することで，体型に合わせたバーチャル試着を可能にする。
- 本手法では，服装と露出した体部のマスクを予測する補助ヘッドを導入し，シルエットのフィット感を改善している。
- 実世界データセットFittingEffect3Kを用いた評価により，FitVTONは最先端手法と比較して，サイズ精度と形状保持に優れていることが示された。
Link: https://arxiv.org/abs/2606.12012
ViT-FREE：早期終了と合成適応による効率的な顔認識 [cs.CV]目的：効率的な顔認識推論のための手法
- 顔認識はセキュリティや認証など，多様な分野で不可欠な技術である。
- Vision Transformerは計算コストが高く，リソース制約のある環境での利用が課題である。
- 事前学習済みViTの早期終了により，効率と精度のバランスを取ることを目指す。
- 提案手法ViT-FREEは，バックボーンモデルの修正や再学習なしに，中間表現から直接顔検証を可能にする。
- 層10での早期終了は，検証性能をわずかに低下させつつ，最大20%の高速化を実現する。
- ViT-FREE_FTは，少量の合成データを用いた出口層固有のファインチューニング戦略であり，浅い層の性能を向上させる。
Link: https://arxiv.org/abs/2606.12023
SpikeTAD：エンドツーエンド時系列行動検出のためのスパイクニューラルネットワーク [cs.CV]目的：時系列行動検出におけるスパイクニューラルネットワークの応用
- 動画理解はコンピュータビジョンの重要な分野であり，多様な応用が期待されている。
- 既存の動画理解モデルは，サイズが大きく消費電力が高いという課題がある。
- スパイクニューラルネットワークの性能劣化と変換時間の問題を解決する。
- SpikeTADは，THUMOS14で平均mAP 67.2%，ActivityNet-1.3で37.42%を達成し，低消費電力での時系列行動検出の実現可能性を示した。
- SpikeTADは，極めて低い消費電力で動作し，従来のモデルと比較して省電力性を実現する。
- 本研究は，ニューロモルフィックチップ上で動作するモバイルデバイスにおける動画理解の可能性を広げる。
Link: https://arxiv.org/abs/2606.12033
顔認識のためのVision Transformerはより多くのレジスタを必要とする [cs.CV]目的：顔認識におけるVision Transformerの性能向上と解釈性の改善
- 顔認識は，セキュリティや認証など，幅広い分野で重要な役割を担っている。
- Vision Transformerの顔認識における注意機構の解釈性が低いという課題が存在する。
- レジスタトークンを導入することで，注意機構の構造化と解釈性の向上を目指す。
- Concatenated Patch Embeddings (CPE) は従来のCLSトークン方式よりも認識性能が向上する。
- レジスタトークンを導入することで，注意マップに現れるアーティファクトを効果的に軽減できる。
- 8つのレジスタを持つViT-8Rは，IJB-BおよびIJB-Cベンチマークにおいて，最先端の性能を達成した。
Link: https://arxiv.org/abs/2606.12036
選挙制御タイプを分離するための公理的ツール：具体的なシステムへの応用 [cs.GT]目的：選挙制御における分離可能性の公理的条件
- 選挙システムの安全性評価において，攻撃による影響を検証することは重要である。
- 既存研究では，分離可能性の検証に反例探索に依存しており，体系的な手法が不足している。
- 公理的条件を用いて，効率的に分離可能性を検証し，新しい分離結果を得ることを目指す。
- 公理的条件を用いることで，多数の分離可能性を自動的に導き出す手法を開発した。
- 七つの主要な投票システムに対し，６４個の新たな崩壊と１９０１個の新たな分離を発見した。
- 普遍的に分離される制御問題ペアを特定し，あらゆる投票ルール下での分離を保証した。
Link: https://arxiv.org/abs/2606.12039