arXiv雑要約
画像・音声 - 2026/06/03 公開
プルーフ・オブ・ステークシステムにおける準備金枯渇とセキュリティ期間 [cs.GT, econ.TH]目的:プルーフ・オブ・ステークシステムのセキュリティ維持に必要な準備金量を評価すること
- ブロックチェーン技術は分散型システムを支える基盤であり,そのセキュリティは極めて重要である。
- 準備金に依存するシステムの長期的なセキュリティ確保が課題となっている。
- 手数料収入のみでセキュリティを維持できるまでの期間を,準備金量から導き出す。
- 研究により,セキュリティレベルを維持するために必要な準備金の最小限の閾値が明確になった。
- 閾値は,準備金に依存したセキュリティ,手数料のみによるセキュリティの3つの領域を分離する。
- 価格や需要の変動を考慮した上で,準備金ポリシーの評価方法に関する示唆が得られた。
PHASER:視覚・言語・行動モデルのための位相認識型セマンティック経験再生 [eess.SY, cs.SY, cs.RO, cs.AI, cs.CV]目的:言語条件付きロボット操作における継続学習戦略
- ロボットの自律的な継続学習は,未知の環境への適応に不可欠である。
- 過去のスキルが忘れ去られる「破滅的忘却」が,継続学習の大きな課題となっている。
- 経験再生の効率を改善し,スキルの忘却を抑制することを目的とする。
- PHASERは,サブスキルの位相に着目したメモリ割り当てと,干渉ルーティングにより,忘却リスクの高い過去の位相を優先的に再生する。
- 自動的な行動信号変化点検出とVLMによるセマンティック検証を組み合わせることで,教師なしでの時間境界抽出を可能にするAuto-PCを統合した。
- LIBEROデータセットでの実験により,PHASERは既存の経験再生手法と比較して,平均成功率を最大31%向上させることが示された。
ワールドモデルと言語モデルの融合:具体的推論と抽象的推論の補完性について [cs.CV, cs.CL]目的:具体的かつ抽象的な推論能力の補完性
- AIの推論能力向上は,ロボット工学や自律システムの発展に不可欠である。
- 視覚情報から未来を予測する際,現実と異なる推論や不確実性が課題となる。
- 視覚シミュレーションの活用と抽象的推論の統合による,より正確な未来予測を目指す。
- 本研究では,制御された具体的推論を可能にするPF-OPSDという手法を提案した。
- VRQABenchとOpenWorldQAという2つの評価データセットを用いて実験を行った結果,PF-OPSDは既存手法を上回る性能を示した。
- PF-OPSDは,ノイズや矛盾を含むシミュレーションに対しても頑健性を持つことが確認された。
SkelHCC:双曲線CLIP駆動型キャッシュ適応フレームワークによる骨格ベースワンショット行動認識 [cs.CV]目的:骨格ベースワンショット行動認識のためのフレームワーク
- 行動認識は,ロボット工学や人間-コンピュータ間のインタラクションなど,様々な分野で重要である。
- ワンショット学習では,ラベル付きデータが不足するため,汎化性能が課題となる。
- 人間の動きの階層構造と意味的情報を効果的に捉え,少ないデータで高い認識精度を実現すること。
- SkelHCCは,骨格系列と行動言語を双曲線空間に埋め込むEH-HCLIPモジュールを導入することで,人体の構造的情報を自然に表現する。
- LLM駆動型LMV-Cacheを用いることで,効率的なワンショット適応を実現し,文脈を考慮した推論を可能にする。
- NTU RGB+D 60, 120, PKU-MMDデータセットにおいて,最先端手法と比較して優れた性能を示す。
TurtleAI:タートルグラフィックスにおける視覚的プログラミングのためのマルチモーダルモデルのベンチマーク [cs.CV, cs.AI, cs.CY]目的:タートルグラフィックスにおける視覚的プログラミングのためのマルチモーダルモデルの性能評価
- 視覚的プログラミングは,プログラミングの学習を支援し,創造性を育む上で重要な役割を担う。
- 既存のビジョン言語モデルは,教育的な視覚的プログラミングへの応用において,その性能限界が不明確である。
- タートルグラフィックスの課題を用いたベンチマークを通じて,モデルの性能評価と改善を目指す。
- 20以上のビジョン言語モデルを評価した結果,ほとんどのモデルで成功率が30%を下回るなど,課題解決に苦戦していることが判明した。
- 少量のみのシードサンプルからデータ生成を行う手法を提案し,Qwen2-VL-72Bをファインチューニングすることで,実世界のタスクで約20%の性能向上を実現した。
- GPT-4oは空間推論と正確な視覚的再現で苦戦し,ファインチューニングは視覚的推論とコード実装の整合性を改善することが示された。
短い動画における暗黙的なメッセージ推論のためのベンチマーク:VidMsg [cs.CV, cs.AI]目的:短い動画内の暗黙的なメッセージ理解の評価
- 動画コンテンツの利用増加に伴い,動画理解の重要性が高まっている。
- 動画に含まれるメッセージは直接的でない場合が多く,既存手法では捉えきれない。
- 暗黙的なメッセージを正確に理解するための評価基準と手法を確立すること。
- VidMsgは,9つのトピック領域と52種類のメッセージを含む400本の動画で構成される。
- 既存の動画・言語モデルはVidMsgにおいて高い性能を示せない場合がある。これは,文脈的推論や意味の識別が必要となるためである。
- VidVec-Msgはメッセージ指向の検索性能を向上させるベースラインモデルとして提案されている。
エージェント型機械知能における因果的蜃気楼均衡 [cs.GT]目的:エージェント型機械知能における,自己強化的な意味表現の安定化メカニズム
- 機械知能の発展において,エージェントの意思決定原理を理解することは不可欠である。
- 従来のゲーム理論は,エージェントの内部表現と現実世界の因果関係を前提としているが,その仮定が成り立たない場合がある。
- 意味表現と現実世界の乖離を定量的に捉え,安定的な均衡状態を明らかにする。
- 本研究では,リスク感受性を持つ「因果的蜃気楼均衡」を導入し,内生的な認識的乖離を形式化した。
- 乖離の度合いを示す「蜃気楼強度」を定義し,乖離状態が構造的に安定なアトラクタとなることを示した。
- 内生的な強化が因果的根拠を上回ると,安定した均衡状態が現実との乖離へと分岐することが証明された。
半教師あり多モーダル群衆数推定のベンチマーク [cs.CV]目的:半教師あり多モーダル群衆数推定のためのベンチマーク
- 群衆数推定は,監視,都市計画,イベント管理など,様々な分野で重要な役割を果たす。
- 既存の群衆数推定手法は,ラベル付きデータの不足や,複数の情報源の統合が困難であるという課題がある。
- この研究は,ラベル付きデータが限られた状況下での多モーダル群衆数推定の性能評価を可能にする。
- 初の半教師あり多モーダル群衆数推定のベンチマークを構築し,標準的な評価プロトコルを確立した。
- 既存の多モーダルおよび単モーダル手法をベースラインとして評価し,性能を比較検討した。
- コードとデータ分割を公開することで,今後の研究を促進する。
グラフ正則化非負縮小双四元行列分解によるカラー画像認識 [cs.CV, cs.NA, math.NA]目的:カラー画像認識のためのグラフ正則化非負縮小双四元行列分解モデル
- 画像認識は,コンピュータビジョンの重要な課題であり,多様な応用分野で活用されている。
- 既存手法では,画像データの持つ局所的な幾何学的構造を十分に活用できていない場合がある。
- 画像データの局所構造を考慮することで,より識別能力の高い低次元特徴量を学習することを目指す。
- 提案手法では,グラフラプラシアン正則化項を導入し,近傍サンプル間の表現の類似性を促進する。
- 非負縮小双四元行列分解の非負性制約を維持しつつ,特徴表現の識別能力を向上させる。
- 実験結果から,提案手法が既存手法と同等またはそれ以上の認識性能を示すことが確認された。
単一解に囚われず:画像圧縮センシングのための多仮説協調型深層展開ネットワーク [cs.CV]目的:画像圧縮センシングにおける多仮説モデリングと活用
- 圧縮センシングは,データ取得コスト削減のため重要であり,近年,深層学習との融合が進んでいる。
- 従来の圧縮センシング手法は単一解に限定され,問題の持つ本来の不確定性を考慮できていない。
- 本研究は,複数の解候補を同時に最適化することで,圧縮センシングの再構成性能向上を目指す。
- 提案手法MHC-DUNは,多仮説を協調的に更新するAlphaNetと協調的近接写像モジュールを導入している。
- 複合損失関数により,測定忠実性,仮説の多様性,再構成精度をバランスさせ,解探索を促進する。
- 実験結果から,提案手法が既存の圧縮センシングネットワークを上回る性能を示すことが確認された。
Foley-Omni:タスクレベルの音声合成から完全なビデオサウンドトラック生成までを統合するマルチモーダル生成モデル [cs.SD, cs.MM]目的:完全なビデオサウンドトラックの生成
- 映像制作において,音声は重要な要素であり,その品質は視聴体験に大きく影響する。
- 既存の音声生成モデルは単一タスクに特化しており,複数の要素を統合したサウンドトラック生成が困難である。
- ビデオ全体の整合性と高品質なサウンドトラックを生成するための統一的なモデルを開発する。
- Foley-Omniは,個々の音声合成タスクで専門家システムと同等の性能を達成する。
- 本モデルは,音声明瞭度,映像との整合性,知覚品質を向上させた複合サウンドトラック生成を実現する。
- 本研究では,トレーニングと再現可能な評価を支援するために,AudiovisualデータキュレーションパイプラインとV2ST-Benchを開発した。
衛星搭載Mag1c-SASとLinkNetに基づく高速メタン検知パイプライン [cs.CV]目的:衛星搭載における高速メタン検知手法の開発
- メタンは強力な温室効果ガスであり,早期漏洩検知は気候変動対策に不可欠である。
- 既存のハイパースペクトルミッションは,オペレーターが指定した領域のみを観測するため,潜在的な漏洩イベントを見逃す可能性がある。
- 限られた計算資源の衛星搭載機で効率的にメタンを検知できるアルゴリズムを開発し,その有効性を検証すること。
- 提案手法Mag1c-SASは,既存のMag1cアルゴリズムと比較して約80倍の高速化を実現した。
- Mag1c-SASと軽量なLinkNetを組み合わせることで,EMIT-MSegデータセットにおいてAUPRCスコアが30pp以上向上した。
- ハードウェアプロファイリングの結果,システムの衛星搭載における実現可能性が確認された。
言語変化は医療ビジョン言語モデルを破壊するか?インドネシア語の放射線画像質問応答ケーススタディ [cs.CL, cs.CV]目的:医療ビジョン言語モデルにおける言語変化の影響の評価
- 医療AIのグローバル展開のため,多様な言語への適応可能性が重要である。
- 医療VLモデルの評価は英語に偏っており,非英語圏での性能は未知数である。
- インドネシア語環境における医療VLモデルの性能低下を明らかにすること。
- 英語の医療VQAベンチマークでの高い性能が,必ずしもインドネシア語環境でも維持されるとは限らないことが示された。
- 英語とインドネシア語の入力間には,評価指標に応じて8〜25%の性能差が観察された。
- この結果は,医療マルチモーダル基盤モデルのより包括的な多言語評価の必要性を強調している。
人間-ロボットインタラクションにおける顔と身体の追跡:一人称視点データセット [cs.RO, cs.CV, cs.HC]目的:人間-ロボットインタラクションにおけるユーザーの追跡に関する評価
- 人間とロボットの自然な対話を可能にするには,ロボットが継続的に人間の関心を評価する必要がある。
- 既存のコンピュータビジョンモデルは,監視や自動運転に最適化されており,ロボット固有の課題に対応できていない。
- 複雑な社会的状況下での追跡エラーを軽減し,人間-ロボット間のインタラクションを円滑にすること。
- 提案されたデータセットを用いて顔と身体の追跡を比較した結果,空間記憶の拡張は遮蔽に対する耐性を向上させる。
- 外観再識別(ReID)を統合することで,身体追跡の安定性は向上するが,顔追跡におけるIDSWが増加する。
- 最適化されたパイプラインによりIDSWが49%削減され,インタラクションの破綻が抑制されることが示された。
マルチモーダル大規模言語モデルの敵対的頑健性の調査 [cs.CV]目的:マルチモーダル大規模言語モデルにおける敵対的頑健性
- 画像と言語を組み合わせた処理は,AIの応用範囲を広げ,より高度なタスクを可能にする重要な研究分野である。
- マルチモーダルモデルは視覚的な入力により攻撃対象領域が広がり,敵対的摂動に対して脆弱であるという課題がある。
- 既存の防御法は制約が大きく,真に頑健なモデルの構築が困難であるため,その限界を克服することを目的とする。
- 大規模なマルチモーダル敵対的事前学習が,頑健性を向上させる上で重要な要素であることが示された。
- 頑健な視覚エンコーダを組み込んだモデルは,キャプション生成およびVQAタスクにおいて,従来のモデルよりも大幅な性能向上を示した。
- テスト時の視覚的確率的変換は,非頑健なモデルに対しても効果的な防御策となり得る。
テキスト・トゥ・イメージモデルは,テキストエンコーダからそれほど多くの情報を必要としない [cs.CV]目的:画像生成に必要なテキスト表現の要素の特定
- テキスト・トゥ・イメージモデルは,人間の意図を伝える重要なインターフェースである。
- テキストエンコーダがエンコードする文脈情報は,画像生成にどの程度活用されているか不明であった。
- 画像生成に必須なテキスト表現の要素を明らかにすること。
- テキスト・トゥ・イメージモデルは,単語の意味と語順のみを活用して画像生成が可能であることが示された。
- 従来のテキスト埋め込みに含まれる豊富な文脈情報は,必ずしも必要ではないことが明らかになった。
- 複雑な言語構造の解釈は,画像モデル自身が行っていると考えられる。
偽安定性の克服:ビジョン言語モデルにおけるテスト時敵対的防御のための高ノイズドリフトゲーティング [cs.IR, cs.CL, cs.IR, cs.CV]目的:ビジョン言語モデルのテスト時敵対的防御における性能向上
- 近年,画像とテキストを扱うモデルの汎化性能は高いが,敵対的攻撃に対する脆弱性が課題となっている。
- 敵対的攻撃に対する頑健性を高めるための敵対的学習は計算コストが高く,現実的な解決策とはなり得ない。
- テスト時にノイズを利用した防御法は有望だが,精度低下を伴うことが多く,頑健性と精度の両立が困難である。
- 本研究では,CLIPの表現空間におけるノイズ強度変化に着目し,高ノイズ領域において敵対的サンプルと正常サンプルの特徴表現の不安定さに差が見られることを示した。
- この不安定性を検出することで,既存のテスト時防御機構を効率的に起動するドリフトゲーティングメカニズムを提案した。
- 提案手法は13のデータセットで精度の改善を実証し,特にファインチューニングされたデータセットでは,既存手法を上回る性能を示した。
Qwen-Image-Flash:客観的設計を超えて [cs.CV, cs.AI, cs.GR, cs.LG]目的:高度な画像生成モデルの高速化戦略
- 画像生成モデルは,その応用範囲の広さから重要性が増している。
- 既存研究では,蒸留目的関数に焦点が当たり,学習レシピの重要性が見過ごされていた。
- 学習レシピ全体の最適化により,効率的な少数ステップ蒸留を実現すること。
- Qwen-Image-2.0を用いた実験で,データ構成,教師ガイダンス,タスク混合が性能に大きく影響することが示された。
- 効果的な少数ステップ蒸留には,目的関数だけでなく,学習パイプライン全体の体系的な構成が不可欠である。
- これらの知見に基づき,Qwen-Image-Flashを開発し,高い性能を達成した。
Ultralytics YOLO26:統合リアルタイムエンドツーエンド画像認識モデル [cs.CV, cs.AI]目的:リアルタイム画像認識モデルの精度,効率,展開の容易性の向上
- リアルタイム画像認識技術は,多様なハードウェアでの応用が求められ,その重要性は増している。
- 従来のYOLO検出器は,非最大抑制に依存,検出ヘッドが重い,学習に時間がかかるなどの課題があった。
- YOLO26は,これらの課題を克服し,リアルタイム画像認識の性能向上を目指している。
- YOLO26は,NMSフリーな推論を実現するデュアルヘッド設計と,DFLの削除により,軽量なヘッドを実現した。
- MuSGD,Progressive Loss,STALといった学習パイプラインの改善により,特に小さい物体に対する検出精度を向上させた。
- COCOデータセットにおいて40.9-57.5 mAP,LVIS minivalにおいて40.6 APを達成し,既存のリアルタイム検出器を上回る性能を示した。
自然環境下赤外線照明による瞳孔セグメンテーションのためのAmbientEyeデータセット [cs.DB, cs.CL, cs.CV]目的:自然環境下赤外線照明における信頼性の高い瞳孔検出の可能性
- スマートグラス等の組込み機器において,視線追跡はユーザの注意理解に不可欠な技術である。
- 既存の視線追跡システムは,能動的赤外線照明に依存しており,屋外での常時利用に課題がある。
- 太陽光のみを光源とした環境下での瞳孔検出性能評価のためのベンチマークデータセットの提供。
- 本研究で構築したAmbientEyeデータセット上で最先端の瞳孔セグメンテーションアルゴリズムを評価した結果,制御されたIR照明下での性能(0.928)から大幅な低下(0.767)が見られた。
- この性能差は,自然光下という環境の難しさを示している。
- AmbientEyeは,従来未開拓かつ実用性の高い視線追跡シナリオに対する最初のベンチマークデータセットとなる。
SLU-2K:手話翻訳のセマンティック評価のための質問ベースのベンチマーク [cs.CL, eess.SY, cs.SY, cs.RO, cs.CL, cs.RO, cs.CV]目的:手話翻訳のセマンティック理解度評価
- 手話翻訳は,聴覚障がい者支援技術において重要な役割を担う。
- 従来の評価指標は語彙の一致に偏っており,意味の正確性を直接測れない。
- 手話翻訳のセマンティック理解度を評価するためのベンチマークデータセットを構築する。
- SLU-2Kデータセットは,PHOENIX-2014TとCSL-Dailyデータセットに基づき,2,350組の動画質問応答ペアで構成される。
- 既存のマルチモーダル大規模言語モデルは,ほぼランダムな性能しか示さず,セマンティック理解の組み込みが不可欠であることが示唆された。
- 最新の手話翻訳システムでも,セマンティックなギャップが存在し,従来の評価指標では真の理解度を過大評価する可能性がある。
プロンプト認識型重み付けによる学習不要のマルチコンセプトLoRA合成 [cs.CV, cs.LG]目的:マルチコンセプトカスタマイズの実現
- 画像生成モデルのパーソナライズは重要であり,LoRAはその有効な手法の一つである。
- 複数のLoRAを単純に組み合わせると,コンセプト間の干渉が生じ,画質が低下する。
- プロンプトに存在する各コンセプトの重要度に応じた重み付けで,この問題を解決する。
- 提案手法W-SwitchとW-Compositeは,プロンプト内のトリガーワードの重要度に基づいてLoRAの重みを調整する。
- ComposLoRAテストベッドにおいて,提案手法は既存手法と比較して,画質,同一性保持,構成性の点で一貫した改善を示した。
- LLMに基づく評価とユーザースタディの結果も,提案手法の有効性を裏付けており,新たな画像ベースの評価指標と整合性がある。
多言語マルチモーダル大規模言語モデルにおける敵対的頑健性と安全性整合性の探求 [cs.CL, cs.CV]目的:多言語マルチモーダル大規模言語モデルの敵対的頑健性と安全性
- 視覚情報を言語推論に統合するモデルの普及に伴い,セキュリティリスクの評価が重要になっている。
- 既存研究は主に英語に偏っており,多言語環境における脆弱性や安全性は十分に検証されていない。
- 12言語での実験を通して,多言語モデルの敵対的脆弱性と安全性の問題を明らかにすること。
- 勾配ベース攻撃により,ある言語で最適化された敵対的画像が他の言語でも失敗を引き起こす,言語を超えた脆弱性が確認された。
- 有害な指示に対するモデルの応答は言語によって異なり,言語的基盤が強い言語では誤用の可能性が高まる傾向が見られた。
- Qwen3-VLのように,学習段階全体で多言語能力を構築したモデルは,言語を超えた安全性において優れた性能を示した。
圧縮を超えて:視覚表現におけるスペクトルアクセス可能性の定量化 [cs.CV]目的:視覚表現におけるスペクトルアクセス可能性の定量化
- 視覚と言語の理解を深める上で,視覚情報の表現構造を把握することは重要である。
- 既存研究では,視覚特徴量の変換が視覚情報の構造に及ぼす影響が不明確であった。
- モデル表現からバンド限定フーリエエネルギーの線形復元可能性を評価し,スペクトルアクセス可能性の変化を分析する。
- CLIPとDINOv2において,スペクトルアクセス可能性は層の深さによって非単調に変化し,中間層でピークを迎えることが示された。
- CLIPの学習投影はスペクトル的に中立であり,変化は圧縮によって説明できる一方,DINOv2の[CLS]プーリングはスペクトル全体に構造的な損失を誘発する。
- 中間層とプーリングメカニズムが,現代の視覚エンコーダにおけるスペクトル変換の主な要因であることが明らかになった。
カメラrPPG脈波波形復元におけるテンプレート崩壊と情報理論的限界 [cs.CV]目的:カメラrPPG脈波波形の復元可能性の評価
- 遠隔心拍動光測図法は非侵襲的な心血管モニタリングに有用であり,健康管理への応用が期待される。
- 既存手法では,個々の被験者の動脈硬化バイオマーカーを反映した脈波波形の正確な復元が困難である。
- 本研究では,カメラrPPGから個人の脈波波形を復元できるか,限界を明らかにすることを目的とする。
- どのアーキテクチャも個々の被験者の脈波波形を復元できず,被験者間の相関が高かった(r = 0.773--0.9999)。
- 教師あり対照学習は情報理論的限界を示唆し,単一の脈波サイクルからの識別可能な形態構造の抽出が不可能であることを示唆する。
- VAEデコーダは入力rPPGに存在しない高調波成分を復元し,UBFCデータセットへのゼロショット汎化を示した(r = +0.708)。
LiveBand:オーディオ領域におけるライブ伴奏生成 [cs.SD, cs.AI, eess.AS]目的:ライブオーディオ入力に対する高忠実度な伴奏のリアルタイム生成
- 音楽制作において,伴奏の自動生成はクリエイティビティの支援や効率化に不可欠である。
- 既存手法では,リアルタイム性や音質のトレードオフ,未来の情報への依存といった課題が存在する。
- 厳密な因果関係制約下で,リアルタイムかつ高品質な伴奏生成を実現することを目標とする。
- LiveBandは,事前学習済みの因果性オートエンコーダの潜在空間で因果性Transformerジェネレータを学習させることで,高品質な伴奏生成を可能にした。
- 従来の先行研究と比較して,音質,ビートアライメント,ミックスへの適合性において客観的な評価指標で改善が見られた。
- LiveBandは,将来予測なしに,一般的なハードウェア上でリアルタイムストリーミング生成を実現する。
TeX-1500:温度・放射率・テクスチャ分解のためのペア化された実世界のLWIRハイパースペクトルデータセットとベンチマーク [cs.CV]目的:温度・放射率・テクスチャ分解のためのLWIRハイパースペクトルデータセットおよびベンチマーク
- LWIRハイパースペクトルイメージングは,熱状態や物質特性の理解に不可欠であり,多様な応用分野を持つ。
- 既存の分解パイプラインは,シーン特有であり,学習ベースの分解を制限する教師データの不足が課題である。
- 本研究は,LWIR HSIとTeXのペア化された大規模データセットを提供し,データ駆動型の物理特性中心の熱知覚を可能にする。
- TeX-1500は,DARPA IHおよびFTIRデータから構築された1,522ペアの実世界のLWIR HSI-TeXデータセットである。
- データセットには,キャリブレーションされた輝度キューブ,波長位置,および温度,放射率,テクスチャの教師データが含まれる。
- 実験結果から,TeX-1500がデータ駆動型の分解タスクにおいて有効な教師データおよびベンチマークを提供することが示された。
フーリエ基盤運動モデリングによる条件付き潜在拡散モデル:仮想集団合成への応用 [cs.CV, cs.AI]目的:医療機器のシミュレーションにおける解剖学的仮想集団の生成
- 医療機器の臨床試験において,患者特異的な解剖学的モデルが不可欠である。
- 既存のメッシュ生成器は静的な解剖学に偏り,時系列モデルは周期性の明示的な扱いに課題がある。
- 周期性を持つ時系列解剖学的データの生成を可能にし,臨床指標との相関を保つことを目指す。
- 提案手法4D F-MeshLDMは,既存の最先端手法と比較して解剖学的忠実度において優れた性能を示す。
- 生成されたコホートは臨床的な機能指標を正確に維持しており,信頼性の高いシミュレーションを可能にする。
- フーリエ級数を用いた潜在空間表現により,周期的な運動パターンを効率的に学習・生成できる。
低リソース環境における動画タスク適応:時間的文脈はどこで(不要な)のか? [cs.RO, cs.DB, cs.HC, math.CT, cs.CV]目的:低リソース動画タスク適応における時間的文脈の必要性に関する研究
- 動画理解は重要であり,計算コストとアノテーションコストが高いという課題がある。
- 既存研究では,動画のPEFTは画像事前学習モデルへの適応に焦点を当てており,動画表現への適用が少ない。
- 動画適応において,時間的文脈をモデルのどこに割り当てるべきかという問題を解決することを目指す。
- PEFTとプロービングにより,少ないパラメータで基礎モデルを適応させることが可能であることが示された。
- 動画理解において,時間的文脈の分配が効果的な適応に重要であることが明らかになった。
- 外観,動き,空間的に密な設定において,様々な適応戦略が評価された。
二番目に良い二国間取引は1/2効率である [cs.RO, cs.GT]目的:二国間取引における効率性の損失の最小限界
- 取引メカニズムの設計は,資源配分の効率性と参加者のインセンティブを両立させる上で重要である。
- Myerson-Satterthwaiteの定理により,効率性,個別合理性,予算均衡性の同時達成は不可能である。
- 効率性の制約下における,最適な取引メカニズムの効率性の下限を明らかにすること。
- 最適なメカニズムは,理想的な取引利益の少なくとも半分を確保することが証明された。
- この結果は,以前に知られていた0.317と0.736の間のギャップを埋める決定的なものとなった。
屋敷とダンジョンのレベルデザインのための新しい手続き型生成 [cs.GR]目的:屋敷やダンジョン等の構造化された屋内環境の生成
- ゲーム開発において,コンテンツ制作の効率化と多様性確保が重要視されている
- 手続き型生成がレベルデザイン原則と一致しない場合,空間構造の不整合やゲームプレイの低下を招く
- 建築的な一貫性とナビゲーション性を確保した屋内環境生成手法を提案すること
- 提案手法は,バイナリ空間分割による空間分割,グラフ探索に基づく部屋の論理的接続,および構造的アーティファクトのクリーンアップと視覚的な一貫性の向上を行うポスト処理の3段階で構成される。
- 異なるシードやパラメータ設定下での手法の柔軟性を検証した実験が行われた。
- 10万枚のマップを生成し,適切なパラメータ設定により,91%以上のマップで完全な接続性が確認された。
巧緻な行動とデータ生成のための統一ビデオ・行動同時ノイズ除去 [cs.CV]目的:熟練した行動とデータ生成のためのビデオと行動の同時ノイズ除去モデル
- ロボット工学において,ビデオデータと行動の整合は,ロボットの知能と柔軟性を向上させる上で重要である。
- 既存手法では,ビデオと行動の整合性が十分に活用されず,生成される行動の精度やリアリティに限界がある。
- ビデオと行動の同時ノイズ除去により,より正確で自然な行動生成と,多様なデータの生成を目指す。
- 提案手法Donkは,言語,初期画像,初期手状態を条件として,将来のビデオと二手性MANO軌跡を生成する。
- 画像条件を用いない場合,テキスト条件付きの分布からビデオと行動のペアを生成し,データ生成エンジンとして機能する。
- 行動,ビデオ,テキストのみの生成評価において,Donkは熟練した軌跡の精度,ビデオの忠実度,テキスト条件付きの滑らかな行動ロールアウトを向上させる。
視覚的指示チューニングは抽象化を通してモダリティを整合させる [cs.CV, cs.CL, cs.LG]目的:視覚と言語情報の処理を統合する大規模言語モデルの調整方法に関する研究
- 近年,画像とテキストの両方を理解できるモデルが求められており,そのための技術開発が重要である。
- 視覚的指示チューニングが有効であることは知られているが,LLMの内部でどのように視覚情報が組み込まれるのかは不明であった。
- LLMにおける視覚特徴の埋め込み位置を特定し,多imodal統合のメカニズムを解明することを目的とする。
- 視覚的指示チューニングは,LLMの早期層を迂回し,中間層に視覚特徴を直接埋め込むことで,視覚と言語を繋ぐ役割を果たすことが示された。
- 中間層が視覚と言語処理のセマンティックコアであり,ベンチマークにおける性能に重要な役割を果たすことが確認された。
- ファインチューニングは,既存の抽象化段階を拡張し,視覚特徴を事前学習済みのテキスト特徴と整合させる。
DyaPlex:対話的相互作用のための全二重音声・動作モデル [eess.SY, cs.SY, cs.CV, cs.RO]目的:対話的相互作用における全二重音声と動作のモデル
- 人間は,音声と身体表現を同時に用いて自然なコミュニケーションを行う。
- 既存のモデルは,一方通行の処理が多く,双方向の自然な対話を再現できない。
- リアルタイムで双方向の音声と動作を生成するモデルを開発し,対話性を向上させる。
- DyaPlexは,全二重の音声と動作を同時に処理し,リアルタイムな対話的相互作用を実現した。
- デュアルタワーTransformerアーキテクチャにより,ベースとなる音声モデルの会話推論能力を維持しつつ,動作経路を深く統合した。
- 4,000時間のSeamless Interactionデータセットで学習し,モノディックおよびダイアディックな人間の相互作用ベンチマークで最先端の性能を達成した。
Seg2Track++:マルチオブジェクト追跡・セグメンテーションのための確率的トラック検証とデータアソシエーション [cs.CV]目的:マルチオブジェクト追跡・セグメンテーションにおける信頼性向上
- 自動運転システムなど,動的な環境下での正確な物体認識・追跡が不可欠である。
- 既存手法では,追跡時の誤ったアソシエーションや偽陽性による問題が発生しやすい。
- SAM2を活用し,誤ったアソシエーションを抑制し,信頼性の高い追跡を実現する。
- Seg2Track++は,SAM2と新しいトラック管理モジュールを統合し,ゼロショットMOTSを実現した。
- Mask Centroid DistanceとConfidence-Aware Cost Modulationを用いてトラックアソシエーションを改善した。
- Probabilistic Track Validationにより,ゴーストトラックの抑制と追跡の一貫性を高めた。
MLPスプラッティング:オブジェクト中心のニューラルフィールド [cs.CV]目的:シーン要素の分解とフォトリアリスティックな新規視点合成
- 3D表現はシーンのレンダリング,理解,相互作用の基盤であり,その重要性は高い。
- 既存手法では,シーン要素をオブジェクトレベルで操作するための分割やグルーピングが別途必要となる。
- 本研究は,オブジェクトレベルの操作を容易にするためのシーン分解手法を提案する。
- MLPスプラッティングは,少数の表現力豊かなライトフィールド素子を用いてシーンを分解する。
- 各素子は独立したコンパクトなMLPとして表現され,局所的な空間サポートを持つ。
- RGBデータのみで学習可能であり,セグメンテーションマスクなしでインタラクティブなオブジェクト編集を実現する。
エンコーダ蓄積を超えて:マルチエンコーダVLMにおけるエンコーダの役割の測定 [cs.CV, cs.AI]目的:マルチエンコーダVLMにおけるエンコーダの役割の理解
- 多様な視覚ストリームの融合が重要となる中で,エンコーダ間の相互作用を理解する必要がある。
- 大規模VLMはエンコーダの役割を分析するツールを欠いており,効率的なエンコーダ構成の特定が困難である。
- 共同学習下でのエンコーダの役割を再検討し,マルチエンコーダVLM設計のギャップを埋めるための基礎を提供する。
- エンコーダのサブセットを再学習した結果,固定チェックポイントでのマスクとは異なるエンコーダランキングが明らかになった。
- エンコーダの貢献を「能力」と「必要性」の2軸で分解し,最適戦略は高能力エンコーダ同士の組み合わせではないことを示した。
- エンコーダ前層プロジェクターの有効ランクがスコア変動を説明し,ランクが維持・拡大する組み合わせが最適であることが示唆された。
CoralBay:自己教師ありCT基盤モデル [eess.SY, cs.SY, cs.CV, cs.LG]目的:自己教師あり学習によるCT画像からの特徴抽出
- 医療画像診断の精度向上は,患者ケアの質を向上させる上で不可欠である。
- 2D画像で事前学習したモデルは,CT画像のような3次元データの特徴を十分に捉えられない。
- 3次元CT画像に特化した自己教師あり学習フレームワークを開発し,より高精度な特徴抽出を目指す。
- CoralBayは,階層的な3D Swinバックボーンと自己蒸留を用いることで,効率的な自己教師あり学習を実現した。
- CoralBayは,多様な解剖学的部位において,高い性能を示す幅広い下流タスクへの転移学習に成功した。
- 3次元放射線学のリーダーボードを公開し,ボリューム表現学習手法の標準化に貢献した。
OVO-S-Bench:マルチモーダルLLMにおけるストリーミング空間知能のための階層的ベンチマーク [cs.CL, cs.CV]目的:ストリーミング空間知能の評価基準
- ロボティクスや自動運転など,現実世界での応用において空間認識能力は不可欠である。
- 既存のベンチマークはオフライン評価かイベントに焦点を当てており,継続的な空間理解を評価できていない。
- マルチモーダルLLMのストリーミング空間知能の限界を明らかにし,改善を促すこと。
- OVO-S-Benchは,1680の質問と348の動画から構成される,人間が注釈を付与した高品質なベンチマークである。
- Gemini-3.1-Proは人間の専門家と比べて27点劣り,特に位置的マッピングがボトルネックとなっている。
- ストリーミングかつ空間的にファインチューニングされたLLMは,元のモデルよりも性能が低い傾向が見られた。
高精度X線-CTレジストレーションを用いた大腿骨切開術における電磁ナビゲーション [cs.CV]目的:大腿骨切開術における術前計画の正確な実行
- 大腿骨切開術は,変形性関節症や外傷後の機能回復において重要な治療法である。
- 従来の術式では,精度,侵襲性,放射線被ばくなどの課題が存在する。
- 本研究は,低侵襲かつ放射線量を低減しつつ,術前計画の精度を向上させることを目指す。
- 電磁ナビゲーションシステムは,2枚の透視画像のみでCTベースの術前計画を転送することで,PSIと同等の精度を実現した。
- シミュレーション試験において,電磁ナビゲーションはフリーハンド法と比較して,有意に低い角度誤差を示した。
- 本システムは,追加の外科的侵襲なしにPSIの精度を達成し,臨床研究への道を開く。
拡散強調画像に対する注意機構に基づくノイズ除去モデル [cs.CV]目的:拡散強調画像(DWI)のノイズ除去手法
- 全身がん検診にDWIが活用されるが,より迅速な撮像が求められている。
- 撮像時間短縮により画質が低下し,特にリシアンノイズの除去が困難である。
- 異種ノイズの抑制と,DWI画像の品質向上を目指す。
- 提案手法は,階層的Swin Transformerと多次元ゲート付き精緻化を統合したノイズ認識型アテンション駆動型フレームワークである。
- ノイズレベルの条件付けと残差再構成により,幅広いノイズレベルで適応的なノイズ抑制を実現した。
- 実験結果から,提案手法は平均PSNR 33.69dB,SSIM 0.8539という高い性能を示した。
MAdam:メトリックを考慮した多目的Adam [cs.LG, cs.CV]目的:多目的最適化におけるAdamオプティマイザの改良
- 機械学習の様々な問題は多目的最適化を基盤としており,その重要性は高い。
- 既存の多目的最適化ソルバーとAdamの組み合わせに,意図と実行の乖離が存在する。
- ソルバーの意図を忠実に反映し,多目的最適化の性能を向上させることを目指す。
- MAdamは,ソルバーとオプティマイザを不変のまま,多目的最適化の方向性を事前調整するドロップインラッパーである。
- MAdamにより,Adamの第二モーメントは単位行列に近づき,嗜好性に基づいたメトリックによって更新が制御される。
- 多タスク学習,パレートフロントの回復,物理情報ニューラルネットワーク,医療画像処理など,様々なタスクでAdamを上回る性能を示した。
SparseStreet:リアルタイムストリートシーンシミュレーションのための疎なガウススプラッティング [cs.CV]目的:ストリートシーンの効率的な再構成手法
- 都市の自動運転や仮想現実など,ストリートシーンの3D再構成技術は重要性が増している。
- 既存のガウススプラッティング法は,詳細な描写のために大量の計算資源を必要とする。
- 動的要素の再現性を保ちつつ,冗長な背景領域を圧縮し,効率的な再構成を実現する。
- 提案手法SparseStreetは,重要なガウスプリミティブを保持しつつ,不要なものを削除する学習可能なプルーニング戦略を採用する。
- 背景圧縮により,静的な領域の冗長性をさらに削減し,全体のガウスプリミティブ数を大幅に削減する。
- WaymoとnuScenesの実験により,画質の低下を最小限に抑えつつ,最大80%の圧縮率を達成できることが示された。
ブートストラップ・ユア・ジェネレーター:フローマッチングによるペアなし画像編集 [cs.CV]目的:ペアなし画像編集のためのフローマッチング編集モデルの学習フレームワーク
- 画像生成モデルは視覚コンテンツを深く理解するが,編集にはペアデータの大量なセットが必要となる。
- 特に動画編集ではペアデータの収集コストが高く,スケーラビリティが課題となっている。
- 既存のモデル知識を活用し,ペアなしで編集モデルを学習することで,データ収集の課題を解決する。
- 提案手法ByGは,事前学習済みのモデルから抽出した指示に従う手がかりとサイクル整合性を用いて,ペアなし学習を実現する。
- 勾配をクリーンな予測からノイズの多い学習状態にルーティングすることで,学習を可能にしている。
- データが少ない画像および動画編集において,最先端の結果を示し,大規模な教師あり学習データで訓練されたモデルを上回る性能を達成した。
PatchScene:パッチに基づくボクセル拡散による大規模シーン補完 [cs.CV]目的:大規模LiDARシーン補完のための新しい拡散ベースフレームワーク
- 自動運転やロボット工学において,周囲環境の正確な3Dマップ構築は不可欠である。
- 既存手法は,グローバルな潜在表現や高密度ボクセルグリッドに依存し,計算コストが高い。
- 局所的な3D領域における詳細な形状生成を可能にし,大規模シーンの効率的な補完を目指す。
- PatchSceneは,SemanticKITTIベンチマークにおいて,幾何学的精度と時間的一貫性において最先端の性能を達成した。
- 本手法は,20mのLiDAR範囲で学習したモデルが,再学習なしに50mのシーンにも効果的に適用できることを示した。
- パッチベースのボクセル拡散と環状フロー拡散戦略により,スケーラビリティと汎化性能が向上している。
マルチモーダル動画理解における視覚的状態追跡のベンチマーク [cs.CV]目的:マルチモーダル大規模言語モデルにおける視覚的状態追跡の診断
- 動画理解には,個々の瞬間だけでなく,時間経過に伴うエンティティや状態の追跡が不可欠である。
- 既存の評価では,この視覚的状態追跡能力が十分に検証されていない。
- マルチモーダル大規模言語モデルの視覚的状態追跡能力を評価するためのベンチマークを構築し,その課題を明らかにすること。
- 新しいベンチマークVSTATを導入し,合成データと実世界の動画を用いて,マルチモーダル大規模言語モデルの性能を評価した。
- 最先端のモデルは,人間や単純なベースラインと比較して,著しく低い性能しか示さなかった。
- モデルはテキストによる推論は行うものの,動画内のイベントの視覚的認識に失敗していることが判明した。
GARDEN:RGB画像からの,重力に沿った解離的環境の再構成 [cs.CV]目的:RGB画像からの3D環境再構成における,物理構造に基づいたシーンファクタライゼーション
- 現実世界の物理シミュレーションへの応用が期待されるため,3D環境の正確な再構成が重要である。
- 既存手法では,シーン全体が単一構造として表現され,物理的な相互作用の安定性が課題となっている。
- 重力を物理的制約として利用し,剛体と背景を分離することで,より正確な3D環境を再構成する。
- GARDENは,シーンを重力に沿って整列させることで,再構成における曖昧性を解消する。
- オブジェクト中心の剛体メッシュと正確な位置情報を回復し,背景からの重複ジオメトリを除去する。
- シミュレーションとレンダリングの効率性が向上し,既存手法よりもオブジェクト配置の信頼性と解離性が改善される。
高信頼性敵対的学習のための適応的因果アラインメント [cs.CL, cs.CV]目的:高信頼性敵対的学習における因果関係の適応的アラインメント
- 敵対的学習は,機械学習モデルのロバスト性を高める上で重要な研究分野である。
- 高信頼な予測は,見かけ上の相関関係による過学習が原因で,必ずしも真のセマンティクスを捉えているとは限らない。
- 背景相関の影響を軽減し,セマンティクスに基づいた特徴表現を獲得することで,ロバスト性を向上させることを目指す。
- 提案手法HICATは,「測定-除去-アラインメント」のパイプラインを通じて背景バイアスの適応的な診断を行う。
- HICATは,学習可能な背景バイアス推定器とロジット補正機構,そして特徴の分離を促す損失関数を組み合わせることで,セマンティックな均衡を確立する。
- CIFAR-10,CIFAR-100,ImageNet-1Kにおける実験結果は,HICATが多様なアーキテクチャで既存手法を上回り,ロバストな汎化性能を向上させることを示している。
Demo2Tutorial:人間による経験からマルチモーダルなソフトウェアチュートリアルへ [cs.CL, cs.RO, cs.CV]目的:ソフトウェアチュートリアルの構造化
- デジタル環境における人間経験は,豊富な手続き的知識の宝庫であり,活用が期待されている。
- 既存のソフトウェアチュートリアル作成は手間がかかり,人間の経験を構造化して再利用する手段が限られていた。
- 人間による経験を解析し,構造化されたチュートリアルを自動生成することで,学習効率の向上を目指す。
- 本研究で開発したDemo2Tutorialは,画面収録と操作ログから高品質なチュートリアルを生成できる。
- 生成されたチュートリアルは,人間が作成したものよりも優れており,ベースライン手法をも凌駕する性能を示す。
- 本フレームワークは,人間とエージェントの学習を促進する効果的な知識表現を提供し,タスク完了時間の短縮とGUIエージェントの計画能力向上に貢献する。
VLESA:人間活動モニタリングのためのビジョン言語具現化安全エージェント [cs.CV, cs.LG, cs.RO]目的:人間活動の安全性監視と危険行動予測に基づくリアルタイム介入
- AIが物理的タスクを支援する中で,安全性確保は不可欠である。物理的行動は不可逆的であり,デジタルエラーとは異なる。
- 文脈に依存する安全性評価が困難。同一行動でも意図によって安全か危険かが変化する。
- 意図を考慮した安全性評価により,危険な行動を予測し,適切な介入を行うことを目指す。
- VLESAは,ASIMOV-2.0ベンチマークにおいて,既存手法よりも正確なタイミングで介入を実現した。
- GRPOで訓練されたQフィルターは,意図を考慮した制約付きデコーディングにより,行動の安全性を41%以上向上させた。
- 意図と行動を同時に推論するエージェントにより,文脈に依存した安全性評価を可能にした。
