arXiv雑要約

画像・音声 - 2026/06/11 公開

  • 連続時間有限状態空間ゲームにおける進化力学の近似特性 [cs.GT, math.PR]目的:有限集団における確率的進化力学から,連続時間有限状態空間ゲームにおける決定論的平均場極限への収束
    • ゲーム理論は,経済学,生物学,社会科学など広範な分野で意思決定の分析に不可欠である。
    • 大規模な集団における相互作用の解析は計算コストが高く,理論的な困難を伴う。
    • 平均場近似を用いて,大規模ゲームの解析を簡略化し,計算可能性を高めることを目指す。
    • マルコフ連鎖に関する精密なエルゴード定理を確立し,一意な不変分布と時間平均のほぼ確実な収束を保証した。
    • 平均場モデルの解の一意性と初期条件に対する連続性を証明し,固定された戦略に対する経験分布のほぼ確実な極限であることを示した。
    • 平均場ゲームの混合定常ナッシュ均衡は,十分大きなNに対して対応するN人ゲームのナッシュ均衡内でεの誤差範囲内で近似されることを示した。

    Link: https://arxiv.org/abs/2606.11193

  • ソーシャルメディアにおける多Modal言語モデルを用いたAI生成コンテンツの検出 [cs.CL, cs.CV]目的:ソーシャルメディアにおけるAI生成コンテンツの検出と説明
    • AI技術の進歩により偽情報拡散のリスクが高まっており,その検出が重要である。
    • 既存手法は新しい生成モデルへの対応,多Modalデータの活用,説明可能性に課題がある。
    • 多様なデータを活用し,コンパクトなモデルで検出と説明を実現することで,課題解決を目指す。
    • 提案手法は公開ベンチマークで最先端の検出性能を達成し,複数のプラットフォームで堅牢な性能を示した。
    • ソーシャルメディアプラットフォームでの実証実験により,ユーザーエンゲージメントの向上に貢献することが確認された。
    • 動的な実環境におけるAI生成コンテンツ検出の有効性が示された。

    Link: https://arxiv.org/abs/2606.11200

  • Afrispeechの意味論:様々なドメインとアクセントにおける音声言語モデルの音声意味推論の評価 [cs.CL, cs.AI, cs.SD]目的:音声言語モデルにおける音声意味推論能力の評価
    • 音声認識技術は,音声に基づいた理解において重要性が増している。
    • アクセントの変化やドメインのシフトが音声推論に及ぼす影響は十分に解明されていない。
    • 音声言語モデルの音声意味推論における限界を明らかにし,より堅牢な設計を促す。
    • 現在の音声言語モデルは,音声からの意味推論において限界があることが示された。
    • アクセントの変化やドメインのシフトは,モデルの推論に影響を与えることが明らかになった。
    • より公平で堅牢な音声言語モデルの設計と評価のための指針が提示された。

    Link: https://arxiv.org/abs/2606.11219

  • 視覚・言語と行動多様体の架け橋:グロモフ・ワッサースタイン整列によるアプローチ [cs.CL, cs.CV]目的:視覚・言語・行動学習における関係的幾何学の適合
    • ロボット工学の発展において,視覚情報と行動の統合は不可欠である。
    • 視覚・言語表現と行動表現の幾何学的構造が異なり,直接的な回帰が困難である。
    • 異なる幾何学的構造間の不一致を解消し,VLAモデルの汎化性能を向上させる。
    • 提案手法LASTは,リー代数を用いた変換により行動多様体を線形化する。
    • 行動表現を階層的に離散化し,視覚・言語表現との局所的な計量適合性を確立する。
    • グローバルおよびローカルレベルでの構造的不一致を解消することで,モデルの収束性と汎化性を向上させる。

    Link: https://arxiv.org/abs/2606.11221

  • CFCamo:カモフラージュ物体検出のための反事実検出・棄権フレームワーク [cs.CV]目的:カモフラージュ物体検出における検出・棄権能力の向上
    • カモフラージュ物体検出は,現実世界の様々な応用において重要な課題である。
    • 既存のカモフラージュ物体検出モデルは,陽性サンプルのみで学習されるため,誤検出を引き起こしやすい。
    • 本研究は,反事実データを用いた学習により,誤検出を抑制し,より信頼性の高い検出・棄権能力を実現する。
    • 提案手法CFCamoは,従来の強化学習ベースラインと比較して,CAMO-testにおけるS_alphaを+3.7pp向上させた。
    • CF-CODベンチマークにおいて,80.0~90.8%の高いペア精度(PA)を達成し,検出・棄権能力を定量的に示した。
    • 反事実結合を取り除くことでPAが大幅に低下することから,ターゲット存在時評価のみでは検出・棄権行動を十分に評価できないことが示された。

    Link: https://arxiv.org/abs/2606.11231

  • OSCS-SupCon:直交シグモイド基盤の共通・スタイル対照学習によるロバストな特徴分離 [cs.CV]目的:ロバストな特徴分離
    • 特徴表現学習は,画像認識などの様々なタスクにおいて性能向上の鍵となる。
    • 従来の対照学習法は,負例の希釈や特徴空間の複雑化といった課題を抱えている。
    • 共通特徴とスタイル特徴の分離を強化し,より識別性の高い特徴表現を獲得すること。
    • OSCS-SupConは,シグモイド関数と直交制約を組み合わせた新しいフレームワークである。
    • 提案手法は,温度とバイアスの調整により負例の希釈を緩和し,特徴空間の分離を促進する。
    • 6つのベンチマークデータセットで最先端手法を上回り,特にCUB200-2011で3.4%の精度向上を達成した。

    Link: https://arxiv.org/abs/2606.11233

  • A2SG:深層スパイクニューラルネットワークの学習のための適応的非対称サロゲート勾配 [cs.NE, cs.CV, cs.LG]目的:深層スパイクニューラルネットワークの学習手法
    • 脳の動作原理に即したニューラルネットワークは,低消費電力で効率的な処理が期待される。
    • スパイクニューラルネットワークは,学習が困難で,勾配消失や不安定性が課題である。
    • サロゲート勾配の適応性と非対称性を利用し,学習の安定化と性能向上を目指す。
    • 提案手法A2SGは,空間勾配の変動を抑制し,時間的な勾配の一貫性を維持することで学習を改善する。
    • 非対称勾配はニューロンの活動を反映し,勾配の変動を低減し,より平坦な最小値への収束を促進する。
    • 様々なモデルとタスクにおいて,A2SGは精度とエネルギー効率を向上させ,汎用的な学習ソリューションとなる。

    Link: https://arxiv.org/abs/2606.11236

  • 意識的アクセスを巡る競争のゲーム理論的基礎 [cs.DL, cond-mat.mtrl-sci, cs.GT]目的:意識的アクセスを巡る競争のゲーム理論的モデル化
    • 意識的アクセスは脳の根幹的な機能であり,認知科学,神経科学において重要性が高い。
    • 既存研究では,意識的アクセス競争がメカニズムや比喩レベルで議論されることが多く,戦略的配分問題としての分析が不足している。
    • 意識的アクセス競争をゲーム理論的に分析し,競争のメカニズムと限界を明らかにすることを目指す。
    • 内部モジュールが希少なブロードキャスト枠を巡って競争するアクセスコンテストモデルを構築した。
    • 標準的な凸性や利益制限の下で,純粋戦略ナッシュ均衡の存在と一意性に関する条件を導出した。
    • 2モジュールの場合において,競争の強度を基準とした捕捉閾値を導出し,効率的な均衡近似手法を提案した。

    Link: https://arxiv.org/abs/2606.11242

  • RAIL:大規模音声言語モデルにおける聴覚知能の再考 - CHC理論に基づくベンチマーク [cs.SD, cs.AI]目的:大規模音声言語モデルの聴覚認知能力評価パラダイム
    • 人間の聴覚認知は複雑であり,その理解はAI開発において不可欠である。
    • 既存の評価方法はタスク指向であり,モデルの認知行動を詳細に捉えられていない。
    • CHC理論に基づき,より人間らしい聴覚認知能力を評価する枠組みを提示する。
    • RAILは,聴覚知能を5つの主要な能力に分類し,それらを評価する構造化されたタスクを開発した。
    • 26の最先端モデルを評価した結果,認知能力に大きなばらつきがあることが明らかになった。
    • RAILは,タスク中心のベンチマークから,認知に基づいた聴覚知能の評価へとパラダイムシフトをもたらす。

    Link: https://arxiv.org/abs/2606.11260

  • 性格特性の深層的特性:性格特性固有の非対称的融合によるパーソナリティ評価 [cs.CV, cs.HC]目的:パーソナリティ評価のための性格特性固有の非対称的融合フレームワーク
    • パーソナリティ評価は,言語,音声,表情といった多様な行動様式から,安定した性格特性を推測する上で重要である。
    • 既存手法は,全ての性格特性に対して均一な多Modal融合戦略を採用しており,特性固有のModalの選好性を考慮していない。
    • 性格特性固有のModalの選好性を捉え,クロスModal干渉を軽減することで,パーソナリティ評価の精度向上を目指す。
    • 提案手法「Traits Run Deeper」は,心理学に基づいたSemanticテンプレートを用いて,基礎モデルが性格特性に関連する情報を捉えやすくする。
    • 性格特性固有のModal融合(TSMF)モジュールは,各特性が異なるModal経路を選択的に利用し,Modal間の異質性を捉え,干渉を低減する。
    • AVI Challenge 2026の検証セットにおいて,平均二乗誤差(MSE)を約25%削減し,公式テストセットで最高性能を達成した。

    Link: https://arxiv.org/abs/2606.11269

  • Phi-Actor-Critic:一般和ゲームをパレート効率的な相関均衡へ導く [cs.MA, cs.GT, cs.LG]目的:一般和ゲームにおけるパレート効率的な相関均衡への学習
    • 現実世界のマルチエージェントシステムは一般和ゲームとして捉えられ,その効率的な制御が重要である。
    • 標準的な強化学習手法は,社会的に望ましくない均衡に収束しやすいという課題がある。
    • 後悔最小化を利用し,社会厚生の高い相関均衡への学習を促進することでこの課題を解決する。
    • 提案手法Phi-Actor-Criticは,集中型アテンションクリティックを用いて効率的な後悔推定を実現する。
    • ラグランジュ関数に基づく均衡選択メカニズムにより,社会厚生を最適化しつつ安定性を確保する。
    • 実験の結果,多様な環境において効率的かつ安定した協調戦略を獲得できることが示された。

    Link: https://arxiv.org/abs/2606.11284

  • EventRadar:時空間イベントセンシングによる長距離UAV検出 [cs.CV]目的:空港周辺における不正なUAV活動の検出
    • 空港や重要施設周辺でのUAV活動が問題視されており,空域監視の重要性が増している。
    • 長距離におけるUAV検出は,ターゲットの視覚的特徴が弱まり,識別が困難になるという課題がある。
    • プロペラ回転に起因する時間的周期性を利用し,長距離からのUAV検出を可能にすることを目指す。
    • イベントカメラと慣性計測装置(IMU)を組み合わせるSAGEにより,背景からの候補領域を分離し,正確な方位情報を維持する。
    • 候補領域を弱いタイミング信号とみなし,固定計算量で高調波の証拠を抽出するCHGアルゴリズムを提案した。
    • 700-1500mのUAVイベント記録を用いた実験で,高い検出精度(mAP$_{.3}$ 0.990, F1$_{.3}$ 0.949)と低い誤検出率(FN$_{.3}$ 0.009)を確認した。

    Link: https://arxiv.org/abs/2606.11285

  • ゲーム理論におけるハイブリッド連携のためのエントロピーに基づくフレームワーク:第I部 人間による仲裁 [cs.GT, cs.IT, math.IT]目的:人間とAIのハイブリッド連携における意思決定権の移行
    • AIおよびマルチエージェント研究の基盤であり,複雑なシステムにおける合理的行動を分析する上で不可欠である。
    • 従来のゲーム理論は,人間とAIが協調するハイブリッドシステムにおける権限委譲を扱えない。
    • 人間とAIが連携する状況下で,効率的かつ公平な意思決定を可能とするフレームワークを構築すること。
    • 本研究では,人間の政策とAIの政策間のJensen-Shannonダイバージェンスに基づく委任ルールを導入したNeoGame Theoryを提案。
    • 人間の最終的な実行権限を維持しつつ,AIが観察学習と頻度マッチングによって学習する「人間による仲裁」という最初の体制を開発。
    • フレームワークの公理的基盤を確立し,頻度収束均衡を特徴づけることで,さらなる拡張と計算による検証の基礎を築いた。

    Link: https://arxiv.org/abs/2606.11288

  • 強力なテキスト画像生成モデルのためのシンプルで完全にオープンなレシピ [cs.CV]目的:テキスト画像生成モデルの性能向上に関するモデリングとデータ設計選択の系統的調査
    • テキスト画像生成技術は急速に進歩しており,その応用範囲は広い。高性能モデルの開発が求められている。
    • 最先端のオープンウェイトモデルは詳細な実験やデータ開示が限られており,研究の再現性や発展の妨げとなっている。
    • 本研究は,完全な透明性と再現性を備えた高性能なオープンソースモデルを開発し,今後の研究基盤を確立することを目的とする。
    • 実験により,キュレーションされたデータセットを混合する際の等重量化が有効であること,大規模なテキストエンコーダアダプタがわずかなパラメータ増加で性能を向上させるなどの知見が得られた。
    • i1は,30億パラメータのテキスト画像拡散モデルであり,公開されているデータセットのみを用いて学習されている。
    • i1は,5つの代表的なベンチマークにおいて既存の高性能モデルに匹敵し,既存の最高の完全オープンモデルを平均で29.5%上回る性能を示した。

    Link: https://arxiv.org/abs/2606.11289

  • TRON:3Dガウス再構成のためのニューラルレンダラーを編成する光線追跡 [cs.CV, cs.GR]目的:3Dガウス再構成に基づくニューラルレンダラーの編成
    • 現実世界の3Dシーンをリアルに再現する技術は,VR/ARやロボティクスなど幅広い分野で重要性が高まっている。
    • 既存のガウス表現に基づく物理ベースレンダリングは,再構成された形状や材質の不備からリアルな再照明が困難である。
    • 光線追跡とニューラルレンダリングを組み合わせ,リアルで制御可能なレンダリングを実現し,編集可能性と速度を向上させる。
    • TRONは,3Dガウス光線追跡とニューラルレンダリングを組み合わせた新しいレンダリングフレームワークである。
    • 学習された逆レンダリングモデルからの内在分解事前知識を用いて,ガウス場の材質特性を正則化する。
    • TRONは,リアリズム,編集可能性,速度において既存手法を上回り,実用的なインタラクティブアプリケーションを可能にする。

    Link: https://arxiv.org/abs/2606.11314

  • 支援技術のためのノードとエッジ図のセマンティックセグメンテーション [cs.CV]目的:ノードとエッジ図のセマンティックセグメンテーションに関するモデル
    • 情報可視化の重要な手段であり,知識表現やプロセス理解に役立つ。
    • 視覚障碍者にとって,ビットマップ画像として提供される場合,アクセスが困難である。
    • ビットマップ画像からノードとエッジを正確に認識し,アクセシビリティ向上を目指す。
    • 提案する深層学習モデルは,大規模な合成データセットで93%以上のピクセル精度を達成した。
    • このモデルは,定量的な評価と定性的な評価の両方で優れた性能を示した。
    • 視覚障碍者向けの支援インターフェース構築に貢献することが期待される。

    Link: https://arxiv.org/abs/2606.11320

  • DarkVGGT:昼光を必要としない熱幾何学による暗視 [cs.CV]目的:暗所におけるロバストな3次元形状推定
    • 視覚情報処理の発展は,自動運転やロボット工学など,様々な応用分野に不可欠である。
    • 従来のRGB画像を用いた3次元再構成は,暗所や低照度環境下では性能が著しく低下する。
    • 熱画像を利用し,RGB情報の劣化に依存しないロバストな形状推定手法を確立すること。
    • DarkVGGTは,物理に基づいた熱モデルを用いて,暗所環境下での3次元形状推定の精度を向上させる。
    • 熱画像から,放射成分と反射成分を分離し,幾何学的に整合性の高い熱情報を抽出する。
    • RGB情報と熱情報を統合することで,低照度環境下でも高精度な形状推定とカメラ姿勢推定を実現した。

    Link: https://arxiv.org/abs/2606.11326

  • NSVQ:ベクトル量子化における符号語崩壊の軽減 - エンコーダドリフトの安定化による [cs.IR, cs.CL, eess.SY, cs.SY, cs.CV]目的:ベクトル量子化における符号語崩壊の軽減策
    • 現代の生成モデリングにおいて,ベクトル量子化は不可欠な技術である。
    • 大規模な符号語を持つVQモデルでは,符号語崩壊が頻繁に発生する。
    • エンコーダドリフトを安定化することで,符号語崩壊を抑制することを目指す。
    • NSVQは,エンコーダドリフトを追跡し,固定された潜在空間ジオメトリ下で符号語を統合する。
    • ImageNet-1kの実験において,NSVQは再構成品質を向上させ,符号語の完全な利用を維持した。
    • NSVQはSimVQと比較してrFIDを2.39から2.10に低減し,ImageNet生成FIDも改善した。

    Link: https://arxiv.org/abs/2606.11363

  • シミュレーションから現実世界へ:ロボットによるイチゴ収穫のための現地6D姿勢データセットとベースライン [cs.CV]目的:ロボットによるイチゴ収穫のための6D姿勢推定精度向上
    • 農業分野における自動化ニーズが高まっており,ロボット技術が重要視されている。
    • 実世界の農業環境下における正確な6D姿勢推定は困難であり,データ収集が課題となっている。
    • 現実のイチゴ畑で収集した6D姿勢データセットの提供と,シミュレーションと現実のギャップの定量化。
    • 本研究では,実際のイチゴ畑で収集した12,040枚の画像からなる6D姿勢の正解データセットを構築した。
    • シミュレーションデータセットと現実データセットを用いた実験により,顕著なシミュレーションから現実世界へのギャップが存在することが示された。
    • ベースラインとなる6D姿勢推定の結果は,今後の研究の参照点となる。

    Link: https://arxiv.org/abs/2606.11381

  • DeceptionX:マルチモーダル大規模言語モデルによる説明可能な嘘発見 [cs.CV]目的:説明可能な嘘発見のためのフレームワーク開発
    • 感情計算と行動分析において,嘘発見は重要な課題であり,人間関係や社会生活に大きな影響を与える。
    • 既存の深層学習手法は解釈性が低く,人間の専門家のような論理的推論を捉えきれていない点が課題である。
    • 低レベルの視覚・聴覚情報と高レベルな論理的推論を繋ぎ,解釈可能な嘘発見モデルを構築する。
    • DeceptionXは,従来の分類モデルとは異なり,観察・思考・要約という推論プロセスを通して嘘を検出する。
    • 人間が介入したDeceptChainという高品質なデータセットを構築し,微細な視覚・聴覚情報を構造化された思考連鎖データへと変換した。
    • 実験により,DeceptionXは既存モデルを上回り,透明性の高い専門家レベルの推論経路を提供することを示した。

    Link: https://arxiv.org/abs/2606.11385

  • マルチGPU Gaussian Splatting のためのスケーラブルな PyTorch アブストラクション [cs.CV, cs.DC, cs.GR, cs.LG]目的:マルチGPU Gaussian Splatting による高解像度大規模シーン再構成
    • 現実世界のニューラル再構成において,Gaussian Splatting は重要な手法となっている。
    • 従来の Gaussian Splatting は,計算資源とメモリ制限により,スケールと解像度に限界があった。
    • 本研究は,より大規模で高解像度のシーン再構成を可能にするスケーラブルな手法を提案する。
    • 提案手法は,CUDA unified memory と NVLink を用いて Gaussian パラメータとスプラッティング演算を複数の GPU に分散する。
    • 演算子レベルでの分散により,モデルコードは明示的なデバイス間通信を必要としない。
    • 10 億個以上の Gaussian splats を含む市規模の再構成を実証し,既存技術の25倍以上の規模を達成した。

    Link: https://arxiv.org/abs/2606.11390

  • 不変なアナーキー価格と乗算的スムースネス [cs.RO, cs.GT, econ.TH]目的:分散化による効率損失のコスト評価
    • 社会全体の効率性と個人の合理的な行動の調和が重要視されている。
    • 従来の評価指標は,個人の効用比較可能性を暗黙に仮定しており,その妥当性が問題視されている。
    • 効用比較可能性を仮定しない枠組みで,アナーキー価格の普遍的な上限を導出すること。
    • 効用比較可能性に依存しない乗算的スムースネスを導入し,アナーキー価格の上限を導出した。
    • この上限は粗い相関均衡にも適用可能であり,分散化の真のコスト評価に役立つ。
    • 単一選択福祉ゲームへの適用例を通して,乗算的保持エンベロープと幾何学的閉包による証明を示した。

    Link: https://arxiv.org/abs/2606.11397

  • 聞く場所の舵取り:指示に基づく活性化ベクトルの舵取りが大規模オーディオ言語モデルの temporal attention を再配置する [cs.NI, cs.CL, cs.SD, cs.AI, eess.AS]目的:大規模オーディオ言語モデルにおける temporal attention の再配置メカニズム
    • 音声理解において,大規模言語モデルの活用が進む中で,モデルの注意機構の解明が重要となる。
    • モデルが音声信号のどこに注意を向けているか明確になっていない点が課題である。
    • 指示に基づいた活性化ベクトルによる舵取りで temporal attention を制御し,音響的に重要な領域に集中させる。
    • 指示に基づくベクトル操作により,モデルの temporal attention が有意に再配置されることが確認された。
    • 学習なしで,操作による attention 変化の最大位置から音響イベントの位置を 60.87%~68.72% の精度で復元できた。
    • これは,直接的なプロンプティングやランダムなベースラインと比較して,大幅に高い性能である。

    Link: https://arxiv.org/abs/2606.11400

  • 3D-CBM:生成3Dモデリングにおける概念に基づく解釈性のためのフレームワーク [cs.CV, cs.GR]目的:生成3Dモデリングにおける概念に基づく解釈性のためのフレームワーク
    • 深層学習が3Dコンテンツ作成の中心となる中,信頼性と説明責任が重要になっている。
    • 深層幾何学学習には「意味の隔たり」が存在し,解釈性が課題となっている。
    • 人間の定義する概念と潜在表現を整合させることで,解釈可能な3D生成を目指す。
    • 提案フレームワークは,点群やメッシュなどの幾何学的入力を,解釈可能なプリミティブと機能属性の多層階層にマッピングする。
    • PartNetやShapeNetなどのデータセットが,概念に基づく教師データとして有効であることが示された。
    • 3Dパーツ操作の実験では,概念予測精度88.8%,Chamfer Distance 0.0115を達成し,構造的エラーの修正が可能であることが確認された。

    Link: https://arxiv.org/abs/2606.11446

  • 自己教師あり骨格ベースのアクション認識のための適応型マスク再構成の探求 [cs.CV]目的:自己教師あり学習による骨格ベースのアクション認識における表現学習
    • 人間の行動認識は,ロボット工学やビデオ監視など,幅広い応用分野で重要である。
    • 既存手法では,再構成対象領域が広大であり,学習に時間がかかるという課題がある。
    • 重要動作パターンに焦点を当て,効率的な再構成を可能にすることで認識精度向上を目指す。
    • 提案手法AMRは,デコーダとエンコーダを分離し,より大きな時空間パッチを効率的に予測する。
    • 適応的ガイダンスモジュールにより,動きの重要な領域に焦点を当て,再構成の難易度を軽減する。
    • NTU RGB+Dデータセット等での実験により,AMRが学習時間を短縮し,認識精度を向上させることが示された。

    Link: https://arxiv.org/abs/2606.11450

  • PT-WNO:3D点群セマンティックセグメンテーションのためのポイントTransformerとウェーブレットニューラル演算子 [cs.RO, cs.CV]目的:3D点群セマンティックセグメンテーションにおける性能向上
    • 点群データは,自動運転やロボット工学など幅広い分野で活用されており,そのセマンティックセグメンテーションは重要な技術である。
    • Transformerは局所特徴の集約に優れるが,グローバルコンテキストの伝達はスキップコネクションに依存しており不十分である。
    • ウェーブレットニューラル演算子を用いてグローバルな特徴抽出モジュールを導入し,より豊かな表現を獲得することを目指す。
    • PT-WNOは,スキップコネクションに加えてウェーブレットニューラル演算子を利用し,多スケールなグローバルコンテキストを捉える。
    • S3DIS (Area 5)において,mIoU 71.59%を達成し,ベースラインのPoint Transformer v3 (PTv3)を1.03ポイント上回った。
    • DALESにおいてもmIoU 81.05%を達成し,ベースラインを1.47ポイント上回る性能を示した。

    Link: https://arxiv.org/abs/2606.11466

  • 完全自動試験採点に向けて:ファウンデーションモデルを用いた手書き解答の公平性に基づいた認識 [cs.CV, cs.AI]目的:手書き解答の公平性に基づいた認識
    • 手書き試験の採点は時間と労力を要し,大規模な集団では誤りが生じやすい。
    • 従来の自動採点システムは認識精度が低く,特に重要なケースで失敗していた。
    • ファウンデーションモデルを用いて,手書き解答の認識精度と公平性を向上させる。
    • 汎用的なビジョン言語ファウンデーションモデル(VLM)を用いることで,解答認識の精度が大幅に向上し,98.4%を達成した。
    • 参照解答を文脈として与えるプロンプトにより,誤判定(学生に不利になる誤り)の割合を0.58%まで低減することに成功した。
    • 実際の採点スキームにおいて,61件の試験のうち3件のみが手動採点より悪く評価され,学生による自己レビューで捕捉可能であった。

    Link: https://arxiv.org/abs/2606.11477

  • 深層学習を用いた生体認証詐欺検出に関する研究 [cs.CV, cs.AI, cs.CR]目的:深層学習による生体認証詐欺検出の有効性評価
    • セキュリティ向上への貢献が期待されるため,生体認証技術の安全性確保は重要である。
    • 生体認証システムは,偽造データを用いた詐欺攻撃に対して脆弱であるという問題がある。
    • 顔認識システムにおける詐欺攻撃検出能力向上を目指し,汎化性能の評価を行う。
    • MobileNetV2が92%の精度で最も効率的なモデルであり,実用性に適していることが示された。
    • Inception-v3は中程度の堅牢性を示す一方,DenseNet-121とSTDは汎化性能に課題がある。
    • ドメイン適応やハイブリッドアーキテクチャの開発が,生体認証システムのセキュリティ強化に不可欠である。

    Link: https://arxiv.org/abs/2606.11505

  • SceneMiner:統一されたBEVシーンマイニングのためのアイデンティティ保存マルチタスクファインチューニング [cs.CV]目的:運転ログから困難で安全上重要なシーンを抽出する手法
    • 自動運転システムの安全性向上には,危険な状況を正確に認識し学習することが不可欠である。
    • 既存手法では,危険なシーンを特定するための信頼性の高いラベル付けが困難である。
    • 複数の情報を統合し,効率的に危険なシーンを抽出する新たな手法を開発すること。
    • SceneMinerは,カメラ画像のみを用いて,シーン検索のための埋め込み,シーンタグの分布,リスクスコアを同時に算出する。
    • アイデンティティ保存マルチタスクファインチューニングにより,既存のモジュールへの干渉を抑制しつつ,効率的な学習を実現した。
    • シーンタグの認識精度はmAP 0.4614,micro-F1 0.5557を達成し,テキストプロンプトによるシーン検索も可能となった。

    Link: https://arxiv.org/abs/2606.11507

  • CS-YODAS:自然環境におけるコードスイッチング音声のマイニングデータセット [cs.CL, cs.SD]目的:自然環境におけるコードスイッチング音声のデータセット
    • 多言語環境下ではコードスイッチングが一般的であり,言語理解や音声認識技術の向上に不可欠である。
    • 既存のコードスイッチング音声リソースは規模が小さく,特定の分野に限定されているか,人工的に作成されている場合が多い。
    • 本研究は,自然発生的なコードスイッチングの事例を大規模に収集し,分析することで,この分野の研究を促進することを目指す。
    • CS-YODASは,YouTubeデータからマイニングされた313時間のコードスイッチング音声データセットである。
    • 7種類の基本言語を含み,多様で現実的なコードスイッチングの事例を提供する。
    • 言語ペアの頻度やスイッチングパターンを分析し,音声言語識別のベースライン結果を報告している。

    Link: https://arxiv.org/abs/2606.11514

  • 拡張可能なクロスプラットフォーム点ベース微分可能レンダラーXPR [cs.GR, cs.CV, cs.PF]目的:点ベース微分可能レンダリングのための拡張可能なクロスプラットフォームフレームワーク
    • 3D再構成,新規視点合成,学習ベースのグラフィックスなど,現代的な3D技術の基盤となる重要な分野である。
    • 新しいレンダリング手法の開発には,低レベル実装やハードウェア固有のカーネル,手動での逆伝播が必要であり,開発のボトルネックとなっている。
    • XPRは,迅速なプロトタイピング,再現性,多様なハードウェアへの展開を可能にするフレームワークとして,この課題を解決する。
    • XPRは,メソッド固有のロジックと共有レンダリングパイプラインを分離する高レベルプログラミングインターフェースを導入した。
    • パイプラインをモジュール化・静的な並列演算に分解し,XLAコンパイラでGPU,TPU,CPUなどのMLアクセラレータにコンパイル可能である。
    • 3DGS,3DGUT,LinPrimを数行のPythonコードで実装し,様々なハードウェアプラットフォームで実行できることを示した。

    Link: https://arxiv.org/abs/2606.11529

  • VL-DINO:オープンボキャブラリ物体検出のためのCLIPビジョン言語知識の活用 [cs.CV]目的:オープンボキャブラリ物体検出におけるCLIPのビジョン言語知識の有効活用
    • 物体検出は,画像認識の重要な課題であり,様々な応用分野で不可欠である。
    • 既存手法では,テキストと視覚情報を統合し,多様なデータに対応することが困難である。
    • CLIPの知識を活用し,DINOの性能を向上させることで,より高精度な物体検出を目指す。
    • VL-DINOは,クエリをガイドとしたポジティブサンプル構築モジュールにより,高品質な学習サンプルを生成する。
    • さらに,Visual Semantic Encoderモジュールを用いてCLIPの視覚知識を特徴量に組み込む。
    • LVISベンチマークにおいて,VL-DINO-TとVL-DINO-Lはそれぞれ36.3と38.1 APを達成し,既存手法を上回る性能を示した。

    Link: https://arxiv.org/abs/2606.11546

  • 自然環境におけるロボット知覚のクロスモーダルベンチマーク [cs.CV, cs.RO]目的:自然環境における場所認識とメートル単位の深度推定の性能評価
    • ロボットの自律性を向上させるには,現実世界での知覚能力が不可欠である。
    • 既存の知覚モデルは都市環境で学習されているため,自然環境における性能が低い。
    • 自然環境に特化したベンチマークを用いて,知覚モデルの課題を明確にすること。
    • 新たに公開したWildCrossベンチマークを用いて,既存モデルの限界を明らかにした。
    • 大規模な自然環境データセットを用いて,場所認識と深度推定の性能を評価した。
    • 深度推定実験を拡張し,より詳細な分析結果を提供した。

    Link: https://arxiv.org/abs/2606.11563

  • 4DP-QA:Vision Language Modelsにおける4次元知覚のためのスケーラブルなQA [cs.CV]目的:4次元知覚に関する質疑応答
    • 視覚と言語を統合するVLMsは,AI研究の重要な方向性であり,多様な応用が期待される。
    • 既存のVLMsは,世界の動的な側面を理解することが苦手であり,精度向上が課題である。
    • カメラと物体の動きの絡み合いを解消し,4次元シーンの理解を深めるためのデータセットを構築する。
    • 提案手法により,従来のデータセットでは困難だった,運動に関する質疑応答を可能にする大規模データセット4DP-QAを構築した。
    • 新たにTrue-Motion Trackingという手法を導入し,直感的な運動記述を可能にした。
    • 4DP-QAを用いた学習により,外部ベンチマークにおける既存モデルの性能が向上し,提案手法の有効性が確認された。

    Link: https://arxiv.org/abs/2606.11568

  • 赤外線物体検出のための周波数分離クロスモーダル知識蒸留 [cs.CV]目的:赤外線画像における物体検出性能の向上
    • 赤外線画像は,暗闇や悪天候下での認識に不可欠であり,自動運転や監視システムへの応用が期待される。
    • RGB画像で学習済みのモデルを赤外線画像へ転移学習する際,画像生成原理の違いから知識蒸留が困難である。
    • 周波数特性の違いに着目し,周波数分離による知識蒸留フレームワークを開発し,性能向上を目指す。
    • RGB画像と赤外線画像間では,低周波成分は一致しやすいが,高周波成分は大きく異なることが示された。
    • 提案手法FreqKDは,低周波成分には厳密な損失関数,高周波成分には緩和された損失関数を用いることで,KAISTデータセットでmAP50を2.4ポイント向上させた。
    • 学習済みの表現は,異なるデータセット,タスク,アーキテクチャへの転移が可能であることが確認された。

    Link: https://arxiv.org/abs/2606.11572

  • 汎用的な3D知覚のためのクロスセンサー特徴量の変動理解 [cs.CV]目的:3D知覚におけるクロスセンサー特徴量の変動の理解
    • 自動運転やロボティクスにおいて,周囲環境の3D知覚は重要な役割を担う。
    • センサー構成や環境条件の違いにより,異なるデータセット間での性能が低下する課題がある。
    • ターゲットドメインのデータに依存せず,BEVベースの3D検出器のロバスト性を向上させる。
    • 本研究では,周波数領域における視覚シーンの変動を特徴付け,多様なソースドメインのビューを合成するフレームワークを提案した。
    • 提案手法は,BEV表現を比較することで,画像レベルの変動がマルチモーダルBEV特徴に与える影響を捉える。
    • この変動パターンを用いて検出器を正則化し,潜在的なシーン変化に対する安定性を促すことで,View-of-DelftとTJ4DRadSet間での交差データセット検出性能が向上した。

    Link: https://arxiv.org/abs/2606.11573

  • AVIS:Vision-Languageモデルの適応的テスト時スケーリング [cs.CV, cs.AI]目的:Vision-Languageモデルにおける推論コスト削減と精度向上
    • 近年のVision-Languageモデルの発展は目覚ましいが,計算コストが課題となっている。
    • 視覚コンテキストのスケーリングと推論時の探索範囲拡大は,それぞれ個別に最適化されることが多い。
    • 視覚コンテキストと推論探索の計算資源配分を同時に最適化し,効率的な推論を実現すること。
    • 提案手法AVISは,Key Diversity Visualプルーニングにより冗長な視覚情報を削減する。
    • 適応的自己整合性により,推論回数を画像難易度に応じて調整する。
    • 様々な画像・動画推論ベンチマークにおいて,既存手法と比較して精度と計算コストのトレードオフを改善した。

    Link: https://arxiv.org/abs/2606.11576

  • スマート健康モニタリングのための深度カメラによる非接触3D人体計測 [cs.RO, cs.CV]目的:非接触3D人体計測手法の開発
    • 健康状態の遠隔モニタリング需要が高まり,簡便な計測技術が求められている。
    • 従来の人体計測は接触が必要で,専門知識を持つ人員を要する。
    • 深度カメラを用いた非接触計測により,遠隔環境での利用を可能にすること。
    • 深度カメラで取得した3D点群データから,身長や腕幅などの人体計測値を算出できた。
    • 点群データの空間フィルタリングとランドマーク選択を組み合わせることで高精度な計測を実現した。
    • ボクセルベース占有解析やメッシュベース表面再構成により,体積と表面積の近似値も算出できた。

    Link: https://arxiv.org/abs/2606.11578

  • フリンジ投影プロファイロメトリにおける空間結合位相-深度較正 [cs.CV]目的:フリンジ投影プロファイロメトリにおける位相-深度変換の空間的整合性向上
    • フリンジ投影プロファイロメトリは,非接触三次元計測技術として広く利用されている。
    • 従来のピクセル単位での較正では,近隣ピクセル間で較正関数に差異が生じ,幾何学的整合性の問題や表面アーチファクトが発生する。
    • 本研究では,空間結合された位相-深度変換を提案し,空間的整合性を向上させることで,計測精度の向上を目指す。
    • 提案手法は,アクティブステレオ参照と比較して同等の点-面RMSE(約12μm)を達成し,空間的コヒーレンスを大幅に改善する。
    • 従来のピクセル単位の較正と比較して,計算時間を短縮し,パラメータの格納量を削減する。
    • 本手法では,深度情報は較正カメラグリッド上で直接ペアリングされ,位相マップの再整準を回避している。

    Link: https://arxiv.org/abs/2606.11601

  • 音声と視覚の階層的標準化埋め込みのアライメントによる汎化ゼロショット学習 [cs.CV]目的:音声と視覚の汎化ゼロショット学習における性能向上
    • 音声と視覚情報を統合し,未知の物体やシーンを認識することは,AI研究の重要な課題である。
    • 既存手法では,音声・視覚とテキストの特徴のアライメントが最適化目標に依存し,各モダリティの本質的な差異が無視されている。
    • 本研究では,音声・視覚とテキストの埋め込みを階層的にアライメントすることで,よりロバストな埋め込み空間を構築し,ゼロショット学習の精度向上を目指す。
    • 提案手法AHSEは,Zスコア標準化により,音声・視覚とテキストの分布の不一致を低減する。
    • AHSEは,意味,クラス,バッチレベルでアライメントを行う階層的戦略により,より構造化された埋め込み空間を実現する。
    • VGGSound-GZSL,UCF-GZSL,ActivityNet-GZSLの3つのデータセットで,AHSEが競争力のあるゼロショット学習性能を達成することを示した。

    Link: https://arxiv.org/abs/2606.11602

  • 凍結されたファウンデーションモデル埋め込みが胸部X線写真における微小病変信号を破棄する:導入前評価への示唆 [cs.CV]目的:胸部X線写真パイプラインにおける凍結されたビジョンTransformer(ViT)ファウンデーションモデル埋め込みにおける微小かつ低コントラストな信号の保持・消失の定量化
    • 胸部X線写真診断の精度向上は,医療現場において重要である。早期発見と適切な治療につながるため。
    • 既存のファウンデーションモデルが微小病変を十分に捉えられていない可能性があり,診断精度を損ねる恐れがある。
    • 凍結されたファウンデーションモデル埋め込みにおける微小病変信号の保持・消失メカニズムを解明し,より信頼性の高い診断支援システムの開発を目指す。
    • 凍結されたViTモデルの埋め込みは,グローバル集約の段階で微小規模の信号を抑制する傾向が見られた。
    • しかし,関心領域に基づいたパッチローカルプーリングを用いることで,信号は回復可能であることが示された。
    • ResNet-50などの従来のモデルでは同様の現象が確認されず,ViT特有の問題であることが示唆された。

    Link: https://arxiv.org/abs/2606.11606

  • SARA:意味的・音響表現を統合した二重ストリームVAEによる高忠実度音声生成 [cs.CL, cs.SD]目的:高忠実度音声生成のための,意味的・音響表現を統合する二重ストリームVAE
    • 音声合成技術は,人間との自然なコミュニケーションを可能にする上で不可欠である。
    • 既存の音声トークナイザは,音響忠実度とテキストの正確性のトレードオフに陥りがちである。
    • この研究は,音響情報と意味情報を効果的に融合し,高品質かつ自然な音声合成を実現することを目指す。
    • SARAは,既存のベースラインと比較して,優れた再構成品質を達成した。
    • ゼロショットTTSタスクにおいて,非常に自然で表現力豊かな合成品質が得られた。
    • 高速な推論下でも堅牢な生成性能を維持し,合成速度と計算コストのバランスが良好である。

    Link: https://arxiv.org/abs/2606.11611

  • マルチモーダル相互作用学習の情報理論的分解 [cs.IR, cs.CL, cs.HC, cs.SI, cs.LG, cs.AI, cs.CV]目的:マルチモーダル相互作用の捉え方
    • 多様なデータ統合の鍵であり,人間知覚の模倣に重要であるため。
    • 既存手法では,サンプルごとの動的な相互作用を捉えきれない。
    • サンプル固有の相互作用を学習し,マルチモーダル学習の性能向上を目指す。
    • 本研究では,情報理論的分析により,動的な相互作用学習の重要性を明らかにした。
    • 提案手法DMILは,サンプルごとに相互作用を分解・学習する新しいパラダイムである。
    • 実験結果から,DMILが様々なタスクで優れた性能を発揮することが示された。

    Link: https://arxiv.org/abs/2606.11614

  • Adv-TGD:敵対的テキスト誘導拡散を用いた顔認識なりすまし攻撃 [cs.CV, cs.CR, cs.LG]目的:顔認識システムを欺く,写実的な顔画像生成
    • 顔認識技術は広く普及する一方,プライバシー侵害のリスクが懸念されている。
    • 既存の攻撃手法では,攻撃成功率と生成画像の品質を両立することが困難である。
    • テキストによる誘導と拡散モデルを活用し,高精度かつ高品質ななりすまし攻撃を実現する。
    • 本研究で提案するAdv-TGDは,IR152, IRSE50, MobileFace, FaceNetにおいて平均85.90%の攻撃成功率を達成した。
    • 既存の最先端手法Adv-CPGと比較して,攻撃成功率を+6.25ポイント向上させた。
    • 高品質な画像を維持しつつ(PSNR = 27.15 dB, SSIM = 0.981),多様なデータセットやモデルへの適用も可能であることを示した。

    Link: https://arxiv.org/abs/2606.11615

  • 宇宙船6次元姿勢推定のための精度を意識した照明分離型Vision Transformer [cs.CV]目的:宇宙船の6次元姿勢推定におけるロバスト性の向上
    • 宇宙近接運用において,軽量な姿勢推定は重要であり,画像センサーが有望な手段である。
    • 照明変化,反射,影,テクスチャの弱さ,背景の影響により,単眼画像による姿勢推定は困難である。
    • 照明の影響を分離し,信頼性に基づいた特徴集約を行うことで,ロバストな姿勢推定を実現する。
    • 提案手法PAID-ViTは,姿勢に関連する構造的特徴と照明に敏感な外観的特徴を分離する。
    • PAID-ViTは,パッチの信頼性を推定し,シルエット情報を保持するためのマスクによる教師あり学習を行う。
    • SPEED+ V2データセットを用いた実験で,PAID-ViTは翻訳誤差を減らし,特に困難な太陽光環境下でロバスト性が向上することが示された。

    Link: https://arxiv.org/abs/2606.11619

  • アイコンから包括的へ:ラベルなし多ラベル認識のためのビジョン言語モデルの適応 [cs.CV]目的:多ラベル画像認識における包括的な理解
    • 画像認識技術は,画像内容の理解を深め,様々な応用を可能にする重要な研究分野である。
    • 既存のビジョン言語モデルは,最も特徴的な物体に偏りやすく,多ラベル認識の文脈を捉えにくいという課題がある。
    • 本研究は,ビジョン言語モデルを適応させ,多ラベル認識における包括的な理解を促進することを目的とする。
    • 提案手法は,モデルが単一の物体に集中するのを防ぐための多重サンプリング応答推定器と,ラベル分布への調整を行う多物体ブレンド適応を含む。
    • 実験の結果,提案手法は既存の教師なしアプローチを大幅に上回り,一部の弱教師ありアプローチと同等以上の性能を示した。
    • これにより,ラベルなしでより包括的な視覚理解を実現するための,事前学習済みビジョン言語モデルの適応可能性が示された。

    Link: https://arxiv.org/abs/2606.11626

  • 運動が外見を強化する:RGB-スケルトンゲート付き残差融合によるマイクロジェスチャーオンライン認識 [cs.HC, cs.CL, cs.CL, cs.CV]目的:マイクロジェスチャーのオンライン認識手法
    • 自然な感情を読み解く上で,微妙な身体動きであるマイクロジェスチャーの解析が重要である。
    • マイクロジェスチャーの認識には,正確な局所化と分類が必要だが,単一のモダリティでは困難である。
    • RGB画像とスケルトン情報を効果的に融合し,マイクロジェスチャー認識の精度向上を目指す。
    • 提案手法DyFADet+は,RGB画像とスケルトン情報をゲート付き残差モジュールで融合する。
    • スケルトンの動きをRGB表現に適応的に注入することで,多次元的な情報を捉える。
    • SMGデータセットにおいてF1スコア40.88%を達成し,マイクロジェスチャーオンライン認識トラックで2位の成績を収めた。

    Link: https://arxiv.org/abs/2606.11645

  • MoGeFlow:モーションコードブック幾何形状を通じたテキストからモーション生成 [cs.IR, cs.CL, cs.HC, cs.SI, cs.GR]目的:テキストからモーション生成におけるモーションコードブック幾何形状の利用
    • モーション生成は,人間とロボットのインタラクションにおいて不可欠であり,その自然さが重要視される。
    • 既存手法では,モーションコードを順序を持たないカテゴリ変数として扱うため,モーションの自然な流れが失われる場合がある。
    • モーションコードブックが持つ幾何学的構造に着目し,自然で高品質なモーション生成を目指す。
    • モーションコードブックが,物理的な動きのプロトタイプに対応する幾何学的構造を持つことが検証された。
    • 提案手法MoGeFlowは,テキスト情報を条件としてモーションコードブック空間上で連続的なフローを学習する。
    • HumanML3DおよびKIT-MLにおける評価で,最先端の結果を達成し,生成されたモーションの品質を向上させた。

    Link: https://arxiv.org/abs/2606.11656

  • 衣服の変化を伴う人物再特定のためのインスタンス適応型低ランク直交部分空間学習 [cs.CV, cs.LG]目的:衣服の変化を伴う人物再特定における人物識別性能向上
    • 人物再特定は,監視カメラ映像などから個人を特定する技術であり,社会の安全確保に貢献する。
    • 衣服の変化は人物再特定において大きな課題であり,既存手法では十分な識別精度が得られない場合がある。
    • 衣服の特徴を考慮しつつ,衣服に依存しない人物表現を学習することで,再特定精度を向上させる。
    • 提案手法Ortho-ReIDは,VLMのテキスト記述から低ランクの衣服部分空間を明示的にモデル化し,幾何学的制約によって衣服に依存しない表現を抽出する。
    • TransformerベースのBasis Makerが,画像パッチとのクロスアテンションを通じて,共有された低次元の衣服事前知識をインスタンス適応型低ランク部分空間に洗練させる。
    • PRCC,Celeb-reID-light,LaSTにおいて最先端の性能を達成し,LTCCにおいても競争力のある結果を示した。

    Link: https://arxiv.org/abs/2606.11661

  • 合成音声音源追跡におけるペアワイズ検証の隠れたコスト [cs.SD]目的:合成音声音源追跡におけるペアワイズ検証とグローバルアンカリングの性能比較
    • 音源追跡は音声フォレンジックスの重要な課題であり,セキュリティやプライバシー保護に貢献する。
    • 近年の手法では,音源追跡を検証問題として捉え,バイオメトリクス由来のペアワイズ学習が用いられる。
    • ペアワイズ学習の性能低下要因を特定し,より効果的な学習方法を模索する。
    • グローバルアンカリングは,MLAAD(インドメイン)およびSTOPA(アウトオブドメイン)において,ペアワイズ検証よりも低い誤り率を示した。
    • ペアワイズ学習は,類似度最適化により,少数の埋め込み方向への分散を集中させ,近接した生成器間の識別能を低下させる。
    • グローバルアンカリングに同様の制約を加えた場合でも性能差は維持され,次元数だけでは性能差を説明できないことが示された。

    Link: https://arxiv.org/abs/2606.11666