arXiv雑要約
画像・音声 - 2026/04/29 公開
ドローン画像からのヒメノワカツメクサのロバストな深層学習ベース検出に向けて [cs.CV]目的:ヒメノワカツメクサ画像分類におけるドメイン適応
- 農地の雑草管理は食料生産において不可欠であり,効率化が求められている。
- 地上車両で収集したデータとドローンで収集したデータでは,画像の特徴が大きく異なる。
- ドローン画像を用いた雑草検出における,ドメイン適応技術の有効性を検証する。
- ResNetなどのCNNモデルは,ドメインシフトに弱く,ターゲットドメインでの性能が低い。
- Moment MatchingやMaximum Classifier Discrepancyといったドメイン適応手法が性能向上に貢献する。
- 自己教師あり学習で事前学習したViTモデルは,ドメインシフトに対して高い耐性を示し,ResNetを上回る性能を発揮する。
カットシーンエージェント:自動3Dカットシーン生成のためのLLMエージェントフレームワーク [cs.AR, cs.GR, cs.AI, cs.CL]目的:自動3Dカットシーン生成
- ゲームやインタラクティブメディアにおいて,物語,キャラクター,感情表現に不可欠である。
- カットシーン制作には,高度な専門性と多岐にわたるチームの連携が不可欠であり,時間とコストがかかる。
- LLMエージェントを活用し,カットシーン制作の自動化と効率化を目指す。
- Cutscene Agentは,LLMエージェントとゲームエンジン間の双方向連携を実現するCutscene Toolkitを構築した。
- ディレクターエージェントが,アニメーション,撮影,音響デザインを専門とするサブエージェントを調整するマルチエージェントシステムを導入した。
- カットシーン生成の評価ベンチマークCutsceneBenchを新たに開発し,LLMの性能を分析した。
構造を意識した潜在拡散によるエッジ-クラウド協調再構成:リモートセンシング知覚のための手法 [cs.CV]目的:高解像度リモートセンシングデータの再構成と,それを用いたダウンストリームタスクの性能向上
- リモートセンシングデータの利用拡大には,効率的なデータ伝送が不可欠である。
- 衛星からのデータ伝送帯域幅の制約が,高周波構造情報の損失を引き起こす。
- 帯域幅制約下でも構造情報を保持し,高精度な再構成を実現することを目指す。
- 提案手法SALDは,エッジ側で画像を低周波成分と構造的事前情報に分離し,帯域幅を削減する。
- クラウド側では,SGLKモジュールとSGEが構造的事前情報を活用し,構造的誤りを抑制する。
- MSCMおよびUCMercedデータセットにおいて,SALDは優れた知覚品質とダウンストリーム性能を示す。
咬合板による側頭関節への定量的な影響評価 [cs.CV]目的:側頭関節の状態に対する咬合板の定量的な影響
- 側頭関節は咀嚼機能,発音,全身の姿勢維持に関わるため,その状態把握は重要である。
- 側頭関節の状態評価は,画像診断の繰り返しが必要であり,患者への負担が大きい。
- 咬合板を用いた側頭関節の状態を,画像診断回数を減らして評価することを目指す。
- 咬合板を剛体変換としてモデル化し,CBCT,顔面モーションキャプチャ,歯科スキャンなどのデータを統合した。
- 咬合板の位置精度を,石膏模型の繰り返しスキャンによる誤差変換として統計的に評価した。
- 単一の解剖学的モデルと変換データを用いて側頭関節の状態を間接的に評価する方法を提案した。
レイアウト誘導型拡散モデルのベンチマーク:クローズドおよびオープン環境における統一的な意味・空間評価を通じて [cs.CV]目的:レイアウト誘導型テキスト画像生成モデルの評価
- 画像生成技術は,創造性や表現の可能性を広げる重要な分野である。
- レイアウト評価には詳細なアノテーションが必要で,コストと労力がかかる。
- 既存のベンチマークの限界を克服し,モデルの比較と解釈を容易にする。
- クローズドセットベンチマーク(C-Bench)とオープンセットベンチマーク(O-Bench)を提案した。
- 両ベンチマークを用いて6つの最先端モデルを大規模に評価(319,086枚)した。
- テキストとレイアウトの整合性に関する詳細な分析を通じて,モデルの強みと弱みを明らかにした。
HuM-Eval:人間中心ビデオ評価のための粗精細フレームワーク [cs.CV]目的:生成された人間モーションビデオの品質評価
- ビデオ生成技術の発展に伴い,自然な人間モーションの重要性が増している。
- 既存の評価指標は全体的な統計に偏り,人間が重視する詳細な部分が評価できていない。
- 人間主観との相関が高い,より詳細な評価手法を確立すること。
- HuM-Evalは,まずVision Language Modelで動画全体の品質を大まかに評価する。
- 次に,2Dポーズと3Dヒューマンモーションを用いて,解剖学的正確性とモーションの安定性を詳細に分析する。
- 実験の結果,HuM-Evalは平均的な人間との相関が58.2%と,既存の最先端手法を上回る性能を示した。
Self-DACE++:効率的な適応曲線推定によるロバストな低照度画像強調 [cs.CV]目的:低照度画像強調のための軽量かつロバストなフレームワーク
- 暗所での視認性向上は,監視カメラや夜間走行における安全性向上に不可欠である。
- 既存手法では,計算コストと画像品質のバランスが課題であり,リアルタイム処理が困難な場合がある。
- 計算効率と復元品質の両立を目指し,軽量なモデルで高品質な低照度画像強調を実現する。
- Self-DACE++は,適応調整曲線(AAC)を改良し,少ないパラメータでダイナミックレンジを柔軟に調整する。
- ランダム化された学習戦略とネットワーク融合機構により,モデルを効率的な反復推論構造に圧縮した。
- Retinex理論に基づく物理的根拠のある目的関数と専用のノイズ除去モジュールを組み込み,暗部ノイズを効果的に抑制した。
GPT-Image-2の野生における利用:公開開始から最初の1週間の自己申告AI生成画像Twitterデータセット [cs.CV, cs.AI]目的:GPT-Image-2によって生成された画像のTwitterデータセット
- AI生成技術の進展により,写真の現実性と合成コンテンツの区別が困難になっている。
- AI生成画像の拡散状況や社会への影響を把握するためのデータセットが不足している。
- AI生成画像の拡散状況を分析し,社会への影響を評価するための基礎データを提供する。
- GPT-Image-2の公開直後のTwitter/X投稿から,10,217枚のAI生成画像を含むデータセットを構築した。
- データセットは,CLIPベースのゼロショット分類,OCR文字認識,顔検出,セマンティッククラスタリングにより特徴付けられた。
- TwitterのCDNによってC2PAコンテンツクレデンシャルが削除され,AI画像の真正性検証が困難になることが確認された。
継続的脳病変セグメンテーションのための概念推論拡張 (CoRE) [cs.CV, cs.AI]目的:継続的脳病変セグメンテーションにおける概念推論拡張の有効性
- MRIによる正確な脳病変セグメンテーションは,臨床診断と治療計画において不可欠である。
- 既存の継続学習法は,容量制限や冗長なパラメータ増加の問題を抱えており,脳画像特有の多様性に対応が難しい。
- 臨床推論に基づいたモデル成長により,知識の再利用を最大化し,効率的な適応を可能にすることを目指す。
- CoREは,視覚的特徴と構造化された概念を統合することで,解釈可能な専門家ルーティングと需要に基づいたモデル成長を実現する。
- 12の連続的な脳病変MRIタスクにおいて,最先端の性能を達成し,効率的な将来への適応のための高い知識起点を提供する。
- 優れたFew-shot転移可能性と臨床解釈可能性により,非定常な臨床データストリームの管理における有効性が検証された。
高変動環境におけるGUIエージェントのベンチマークと改善 [cs.CV]目的:高変動GUI環境におけるGUIエージェントの性能評価と改善
- GUI自動化は,業務効率化やアクセシビリティ向上に不可欠であり,その重要性は増している。
- 従来のGUIエージェントは,GUI状態の捉え方が不十分で,変動の激しい環境への対応が課題であった。
- 本研究は,GUIの変動を的確に捉え,よりロバストなGUIエージェントの実現を目指す。
- 本研究で開発したDynamicGUIBenchは,多様なGUIアプリケーションと操作シナリオを含む包括的なベンチマークである。
- DynamicUIは,GUIの画面録画動画を入力とし,動的な知覚モジュール,洗練戦略,内省モジュールから構成される。
- 実験の結果,DynamicUIは動的なGUI環境において顕著な性能向上を示し,既存のベンチマークでも競争力のある性能を維持した。
会話における感情認識のための多層話者適応ネットワークML-SAN [cs.SD, cs.AI, eess.AS]目的:会話における感情認識の精度向上
- 人間と機械の共感関係構築には,人間の感情変化を正確に理解することが不可欠である。
- 感情表現は個人差が大きく,既存の感情認識モデルでは多様な表現に対応しきれていない。
- 話者固有の情報を考慮し,感情表現の個人差を捉えることで認識精度を向上させる。
- 提案手法ML-SANは,入力レベルでの調整,インタラクションレベルでのゲート処理,出力レベルでの正則化の3段階適応により,話者情報の混同を効果的に抑制する。
- MELDとIEMOCAPデータセットにおける実験で,ML-SANは既存手法を上回り,特に困難な感情カテゴリの認識性能が向上した。
- ML-SANは,現実世界の多様な話者に対応する能力に優れていることが示された。
COMPASS:床平面図に基づく視覚的局所化のためのコンパクトな多チャンネル事前マップとシーンシグネチャ [cs.CL, cs.CV, cs.RO]目的:床平面図からの幾何学的および意味的情報を活用したロボットの位置推定
- 環境の幾何学と意味情報を有する床平面図は広く利用可能であり,ロボットの行動に不可欠である。
- 既存の局所化手法は床平面図の持つ意味情報を十分に活用できていない。
- 床平面図と画像情報をクロスモーダルにマッチングすることで,より高精度な局所化を実現する。
- 床平面図から生成した幾何学的・意味的記述子と,双魚眼カメラ画像から抽出した記述子の構造が一致することを示した。
- 窓検出アルゴリズムにより,魚眼画像から窓の位置を正確に特定し,方位角に投影することができた。
- 壁と窓のパターンが床平面図の記述子と密接に一致しており,クロスモーダル構造マッチングの実現可能性を検証した。
GeoSearch:ウェブ規模のリバース画像検索と画像マッチングによる世界規模の地理位置特定機能の拡張 [cs.IR, cs.CV]目的:世界規模の画像地理位置特定のためのフレームワーク
- 画像からGPS座標を予測する地理位置特定は,グローバルな視覚的多様性により困難である。
- 既存手法は参照データベースに存在しないシーンに対して性能が低下する。
- ウェブ規模のリバース画像検索をRAGパイプラインに統合し,地理位置特定を改善する。
- GeoSearchは,ウェブページから取得した座標とテキスト証拠でLMMプロンプトを強化する。
- 画像マッチングと信頼度に基づくゲーティングによる二層フィルタリング機構を導入し,ノイズを軽減する。
- Im2GPS3kとYFCC4kの標準ベンチマークで,漏洩を考慮した評価においてGeoSearchの優位性が示された。
以前の走行経路の点群マップ事前情報を活用したカメラベースの3Dオブジェクト検出と追跡 [cs.RO, cs.CV, cs.RO]目的:カメラベースの3Dオブジェクト検出と追跡における精度向上
- 自動運転技術において,3D環境理解は不可欠であり,正確な物体位置推定が安全性を左右する。
- LiDARなどの高価なセンサーなしでは,カメラのみでの深度情報の曖昧さが3D物体検出の精度を制限する。
- 繰り返し走行する環境において,事前に取得した点群マップを活用することで,LiDARなしでも高精度な検出を目指す。
- 提案手法DualViewMapDetは,以前の走行経路から得られた点群マップをオンラインで参照し,LiDARセンサーなしでの精度向上を実現した。
- マップを透視図法(PV)と鳥瞰図法(BEV)で表現し,カメラ画像と融合することで,片側からの変換による問題を回避した。
- nuScenesとArgoverse 2での実験により,既存のカメラベース手法と比較して,物体位置推定の精度が大幅に向上することが示された。
低レベル画像処理における意味的類似性評価 [cs.CV]目的:低レベル画像処理後の意味内容の保存度測定
- 画像処理技術は,多様な応用分野で不可欠であり,その性能評価は重要である。
- 従来の評価指標は視覚的忠実度のみに焦点を当てており,意味内容の変化に対応できない。
- 意味内容の変化を定量的に評価し,より高度な画像処理技術の開発を支援する。
- 本研究では,意味的類似性を新たな評価課題として定式化し,画像処理後の意味内容の保存度を評価する指標を提案した。
- 提案手法T3Sは,前景・背景エンティティとそれらの関係性をモデル化することで,既存の指標よりも高い性能を示した。
- 実験結果は,現代の低レベル画像処理において,意味的評価の重要性を示唆している。
ビデオ生成のための体系的なポストトレーニングフレームワーク [cs.CV]目的:ビデオ生成モデルの,実世界での利用に向けた性能向上
- ビデオ生成技術は,高品質なコンテンツ作成を可能にする重要な分野である。
- 大規模モデルは,プロンプトへの依存性や時間的一貫性の欠如,高い推論コストの問題を抱えている。
- これらの課題を克服し,実用的なビデオ生成システムの構築を目指す。
- 提案フレームワークは,プロンプトへの追従性,時間的一貫性,そして視覚的品質を体系的に向上させる。
- Supervised Fine-Tuning,RLHF,プロンプト強化,推論最適化の4段階が相乗効果を発揮する。
- 実験の結果,一般的なアーティファクトが軽減され,制御性と視覚的な美しさが大幅に向上することが示された。
SARU:リモートセンシング画像における影を考慮した除去統一フレームワークと新たなベンチマーク [eess.SY, cs.SY, eess.SP, cs.CV]目的:リモートセンシング画像の影検出と除去に関する統一的なフレームワークの提案
- リモートセンシング画像は,地表観察に不可欠であり,様々な応用分野で利用されている。
- 影は画像品質を低下させ,物体検出やセマンティックセグメンテーション等の性能を阻害する。
- 影検出と除去を統合し,ペアデータに依存しない手法を確立することで,実用的な画像解析を目指す。
- 提案手法SARUは,影と暗い物体を区別する高精度な影マスクを生成する二重分岐検出モジュール(DBCSF-Net)を採用。
- 単一画像から隣接する非影領域の特性を転送する,学習不要な物理アルゴリズム(N$^2$SGSR)により,照明を復元。
- 公開データセットAISDと新たに作成したRSISD及びSiSRBベンチマークにおいて,最先端の性能を達成。
Praxy Voice:音声プロンプトの回復とBUPSによる,商用レベルのインド言語TTSを事前学習済み非インド言語ベースから,商用トレーニングデータなしで実現 [cs.SD, cs.CL, eess.AS]目的:商用レベルのインド言語(テルグ語,タミル語,ヒンディー語)のテキスト読み上げ(TTS)出力の改善
- 音声合成技術は,多言語対応やアクセシビリティ向上に不可欠であり,その品質は重要である。
- 既存のオープンソースTTSモデルは,商用TTSと比較して音声品質が劣ることが課題である。
- 事前学習済みの非インド言語ベースモデルを,商用トレーニングデータを用いずに,商用レベルのインド言語TTSに改良する。
- BUPSとLoRAアダプター,音声プロンプト回復レシピの組み合わせにより,商用レベルのTTS出力を実現した。
- テルグ語,タミル語において,既存の商用TTSと比較して同等またはわずかに優れた性能を示した。
- ヒンディー語および文内コードミクスにおいて,性能を大幅に改善する追加のモデル構成を導入した。
拡散ベースの超解像における視覚特徴条件付け:GramSR [cs.CV]目的:拡散モデルを用いた単一画像超解像の性能向上
- 画像超解像は,低解像度画像を高品質に復元する技術であり,様々な応用分野で重要である。
- 従来の拡散ベース超解像は,テキストによる条件付けに依存しており,詳細な視覚情報の欠如が課題となっていた。
- 本研究は,テキスト条件付けに代わり,低解像度画像から抽出した視覚特徴を用いることで,より忠実な復元を目指す。
- GramSRは,DINOv3エンコーダを用いて低解像度画像から抽出した高密度な視覚特徴を条件付けに利用する。
- GramSRは,ピクセルレベル,セマンティックレベル,テクスチャレベルのLoRAモジュールを段階的に学習させることで,劣化除去,知覚的詳細の強化,テクスチャの一貫性を実現する。
- 実験の結果,GramSRは既存のワンステップ拡散ベース手法を凌駕し,構造的忠実性とテクスチャのリアリズムを向上させた。
エネルギー効率的なビデオカプセル内視鏡のためのバブル認識フレームレート適応による画像圧縮 [cs.RO, cs.CV]目的:小腸検査におけるビデオカプセル内視鏡のバッテリー寿命延長
- 消化管検査の精度向上に貢献する小腸内視鏡の小型化が課題となっている。
- カプセル内視鏡の小型化はバッテリー駆動時間の短縮を招き,省電力化が求められている。
- 画像圧縮とフレームレート適応により,バッテリー消費量を削減し,検査の適用範囲を拡大する。
- 提案手法による画像圧縮は,82.6%の圧縮率と40.3dBのPSNRを達成し,画質劣化は無視できるレベルである。
- 画像圧縮により,システム全体の平均エネルギー消費量を20.58%削減することに成功した。
- バブル認識フレームレート適応は,最長で40%のエネルギー消費量削減を実現した。
マルチビューセマンティック整合性による汎化可能な人体ガウススプラッティング [cs.CV]目的:汎化可能な人体ガウススプラッティングの性能向上
- フォトリアリスティックな人体レンダリングの実現は,コンピュータビジョンの重要な課題である。
- 複雑な人体関節と限られた視点間の重複により,マルチビュー入力における特徴表現の不整合が生じやすい。
- クロスビューアテンションを用いた3D空間における潜在埋め込みの再調整により,ガウス配置の曖昧さを解消する。
- 提案手法は,少ない視点からの入力でも,高品質な人体ガウススプラッティングを可能にする。
- 予測された深度マップとクロスビューアテンションにより,同一身体部位の潜在埋め込みを3D空間で整合させる。
- ベンチマークデータセットにおける実験結果は,提案手法の有効性を示している。
インド言語音声合成における解釈可能なアクセント評価基準 PSP [eess.SY, cs.SY, cs.SD, cs.CL]目的:インド言語TTSのアクセントを,音素次元ごとに評価する基準PSPの開発と評価
- 音声合成技術は,言語の多様性を反映した自然な発話を実現する上で重要である。
- 既存の評価指標では,アクセントに関する定量的な評価が困難であった。
- インド言語特有の音素的特徴(巻き舌音,息吹き,母音長など)の正確性を評価する。
- PSPは,巻き舌音の崩壊率,息吹きの忠実度,母音長の忠実度など,6つの次元でアクセントを分解して評価する。
- 実験の結果,巻き舌音の崩壊率は,言語の難易度(ヒンディー語 < テルグ語 < タミル語)に伴って増加する傾向が確認された。
- 既存のWER評価で上位の商用システムが,巻き舌音や韻律の正確性で必ずしも上位を示さなかった。
DDA-Thinker:推論駆動型画像編集のための解結合型二原子強化学習 [cs.CV, cs.AI]目的:推論に基づいた画像編集のための計画立案能力の調査と強化
- 画像編集技術は進歩しているが,複雑な推論を要するタスクは依然として課題である。
- 既存のモデルは,視覚的な忠実度が高い反面,高度な推論能力に欠ける場合がある。
- 計画モジュールと生成モデルを分離し,強化学習を用いることで推論能力を向上させる。
- 提案手法DDA-Thinkerは,計画モジュール(Thinker)と生成モデル(Editor)を分離したフレームワークである。
- 二原子強化学習により,Thinkerの実行計画の質と最終的な画像品質をそれぞれ評価する。
- RISE-BenchとKRIS-Benchにおける実験で,本手法が全体的な性能を大幅に向上させることが示された。
ウォーターマーク除去の法科学的コスト [cs.DL, cs.IR, cs.CV, cs.AI]目的:ウォーターマーク除去における,攻撃成功率,知覚品質,法科学的検出可能性の評価
- デジタルコンテンツの保護において,ウォーターマークは重要な役割を果たす。
- 既存のウォーターマーク除去手法は,法科学的な脆弱性を考慮していない。
- ウォーターマーク除去後の統計的痕跡の検出と,それに対する対策を提示する。
- 既存の除去手法はウォーターマーク信号を劣化させつつも,検出可能な統計的痕跡を残すことが示された。
- 提案手法は,低い誤検出率($10^{-3}$ FPR)で,ウォーターマーク除去の試みを高い精度で検出できる。
- 現在のどのウォーターマーク手法も,攻撃成功率,知覚品質,法科学的検出可能性の全てをバランス良く満たしていない。
シンフォニーGen:制御可能なハーモニー骨格を用いた3D階層オーケストレーション生成 [cs.SD, cs.AI]目的:3D階層オーケストレーション生成のためのフレームワーク
- 交響楽曲の生成は,構造とオーケストレーションを同時に扱う必要があるため,複雑な課題である。
- 既存のモデルは,長期的かつ詳細な制御が難しく,複雑さと制御のバランスが取れていない。
- 計算効率と拡張性を向上させ,ハーモニーの制御を可能にし,より自然な音楽を生成することを目指す。
- SymphonyGenは,バー,トラック,イベントの軸を分解するカスケードデコーダーアーキテクチャを採用し,計算効率と拡張性を高めている。
- 短譜(short-score)による条件付けにより,楽曲の概要を制御しながらテクスチャの多様性を維持している。
- 強化学習と不協和音回避サンプリングにより,楽曲のハーモニーの調和性と旋律表現の両立を実現している。
セマンティックセグメンテーションにおける正準知識蒸留の驚くべき有効性 [eess.SY, cs.SY, cs.CV, cs.AI]目的:セマンティックセグメンテーションのための知識蒸留における有効性検証
- セマンティックセグメンテーションは,画像認識の重要なタスクであり,自動運転や医療画像診断など,幅広い応用が期待されている。
- 知識蒸留の評価において,計算コストが考慮されず,反復回数のみで比較されることが課題となっていた。
- 計算コストを考慮した上で,よりシンプルで効果的な知識蒸留手法を明らかにすることを目指す。
- 従来のセグメンテーション特化型手法よりも,正準知識蒸留が同等の計算コストで優れた性能を発揮することが示された。
- 特徴ベースの知識蒸留は,CityscapesとADE20Kにおいて最先端のResNet-18性能を達成した。
- PSPNet ResNet-18モデルは,ResNet-101教師モデルの性能に匹敵し,パラメータ数を大幅に削減することに成功した。
DualGeo:世界規模画像ジオロケーションのための二視点フレームワーク [cs.CV]目的:世界規模画像ジオロケーションの精度向上
- 画像から地理位置を推定する技術は,様々なアプリケーションで重要性が増している。
- 環境変化に弱く,外れ値の除去が困難なため,既存手法の精度には限界がある。
- 環境変動に強く,ロバストなジオロケーションを実現することを目指す。
- DualGeoは,画像とセマンティックセグメンテーションの特徴を融合し,双方向クロスアテンションにより地理表現の基盤を確立する。
- DualGeoは,GPS座標とのコントラスティブ学習を用いてグローバル検索データベースを構築する。
- 地理的クラスタリングによる候補の再ランキングと,大規模マルチモーダルモデルによる最終座標予測を行うことで,既存手法を凌駕する精度を達成した。
トポMamba:トポロジーを意識したスキャンと融合による異種医療画像メディアのセグメンテーション [cs.CV]目的:異種医療画像メディアのセグメンテーション手法
- 医療画像解析は,疾患診断や治療計画において不可欠であり,高精度なセグメンテーションが求められる。
- 従来のセグメンテーション手法は,斜めや曲線の構造のモデリングが弱く,冗長な応答を増幅しやすいという課題がある。
- トポロジーを意識したスキャンと軽量な依存性に基づいた融合により,セグメンテーション精度と効率を向上させる。
- TopoMambaは,Synapse CT,ISIC 2017皮膚鏡検査,CVC-ClinicDB内視鏡検査において,既存のCNN,Transformer,SSMと比較して,一貫してセグメンテーション品質を向上させた。
- 特に,膵臓や胆嚢のような細い構造や曲線構造のセグメンテーションにおいて顕著な改善が見られた。
- また,動的な入力解像度下でも効率的な展開が可能であり,実用的な3D臨床セグメンテーションにも適用できる。
Vision SmolMamba:スパイク誘導型トークン剪定によるエネルギー効率の高いスパイク状態空間ビジョンモデル [cs.RO, cs.MA, cs.CV]目的:スパイク駆動型自己注意機構による長距離視覚モデリングの効率化
- 視覚情報を処理するAIにおいて,エネルギー効率と計算コストの削減が重要な課題となっている。
- 既存のスパイクTransformerは,トークン間の相互作用が二次関数的であり,スパイクニューラル計算の疎性とイベント駆動性に合致しない。
- スパイク駆動型のトークン剪定により,冗長なトークンを除去し,計算効率とエネルギー効率を向上させる。
- Vision SmolMambaは,スパイク活性化強度と最初のスパイク遅延を用いてトークンの重要度を推定し,冗長なトークンを段階的に除去する。
- ImageNet-1K,CIFAR10/100などのベンチマークにおいて,従来のスパイクTransformerやSpiking Mambaと比較して,優れた精度と効率のトレードオフを実現した。
- 推定エネルギーコストを少なくとも1.5倍削減しながら,同等または改善された精度を維持した。
クエリを制御する:カメラ・レーダー融合のための異種クエリ相互作用 [cs.NI, cs.CV]目的:カメラとレーダーの3次元物体検出性能向上
- 自動運転技術の発展において,カメラとレーダーの融合は不可欠である。
- 既存手法では,入力または特徴マップの混合に留まり,効果的な相互作用が課題である。
- 異種クエリ間の相互作用を促進し,よりロバストな物体検出を目指す。
- 提案手法ConFusionは,nuScenes検証セットで最先端の性能(mAP 59.1,NDS 65.6)を達成した。
- ConFusionは,画像クエリ,レーダークエリ,ワールドクエリを統合し,クエリ初期化と物体網羅性を改善する。
- 異種クエリ混合(QMix)とインタラクティブクエリ交換サンプリング(QSwap)が性能向上に貢献する。
WhisperPipe:リアルタイム自動音声認識のためのリソース効率型ストリーミングアーキテクチャ [cs.CL, cs.SD]目的:リアルタイム自動音声認識システムの効率化
- 音声認識技術は,人間と機械の自然な対話を可能にする基盤であり,多様な応用分野で不可欠である。
- 大規模言語モデルの導入により,高い精度が求められる一方,計算コストやメモリ消費量が課題となっている。
- メモリ消費量を抑えつつ,高精度なリアルタイム音声認識を実現し,様々な環境での利用を可能にすること。
- WhisperPipeは,ハイブリッドVADパイプライン,動的バッファリング,適応処理戦略により,低レイテンシと低メモリ消費量を実現した。
- 評価実験の結果,WhisperPipeは従来のストリーミング方式と比較して,3~5倍低いレイテンシで,同等の精度を維持した。
- GPUメモリ使用量は48%削減され,平均GPU利用率は80.9%低下し,長期運用においても安定したメモリ使用量を示した。
再生による改良:修正空間の拡大が統一マルチモーダルモデルにおける画像改良を促進する [cs.CV]目的:画像改良の性能向上
- 視覚的理解と生成を統合する統一マルチモーダルモデルは,様々な応用において重要性を増している。
- 既存の画像改良手法は,編集指示が粗雑であり,改良が不完全になりやすいという課題がある。
- 本研究では,編集ではなく条件付き画像再生によって,より完全な意味的整合性を実現する。
- 提案手法(RvR)は,既存手法と比較してGeneval,DPGBench,UniGenBench++のスコアを大幅に向上させた。
- RvRは,編集指示に依存せず,初期画像のセマンティックトークンを条件として画像全体を再生することで,改良の自由度を高めている。
- この再生アプローチにより,画像の意味的整合性が向上し,より自然で高品質な改良結果が得られる。
大規模ビジョン言語モデルにおける幻覚軽減のための事前入力時介入 [cs.NI, cs.CV, cs.AI]目的:大規模ビジョン言語モデルにおける幻覚の軽減
- 近年,画像とテキストの理解において目覚ましい進歩があるが,その信頼性は幻覚によって損なわれる。
- 既存手法では,残存する幻覚を増幅させてしまうという課題があった。
- 事前入力段階で介入することで,エラーの蓄積を抑制し,幻覚発生源への対処を目指す。
- 提案手法であるPTIは,事前入力段階でKey-Valueキャッシュを強化し,幻覚を効果的に軽減する。
- PTIは,画像とテキストの表現に対して異なる方向性を導き出すモダリティ認識型のアプローチを採用する。
- 様々なデコーディング戦略やモデル,ベンチマークにおいて,PTIは汎用性と性能向上を示す。
ロボット超音波のための意味論的解剖マッピングエンジンSAMe [cs.CV, cs.RO]目的:ロボット超音波における解剖学的知識の導入
- ロボット超音波は画像誘導制御の発展に貢献するが,患者固有の解剖学的理解が不可欠である。
- 現在のシステムは解剖学的知識に乏しく,熟練したオペレーターによる介入が必要となる。
- 臨床的な訴えから適切なスキャン開始位置を自動的に決定することを可能にする。
- SAMeは,臨床的な訴えを特定の臓器に結びつけ,単一の体外画像から患者固有の解剖学的表現を構築する。
- 構築された解剖学的表現は軽量であり,リアルタイム制御に適している。
- 実際のロボット実験では,肝臓の初期化成功率は97.3%,腎臓は81.7%という高い結果が得られた。
新生児の顔面ビデオからのリモート光容量波法を用いた疼痛検出に関する研究 [cs.OS, cs.CV, eess.IV]目的:新生児の疼痛検出
- 新生児の疼痛は発達遅延や体重増加の低下を招くため,客観的かつ信頼性の高い疼痛評価法の確立が重要である。
- 従来の接触型生理学的パラメータ推定法は長期モニタリングに適せず,感染症のリスクも高まるという課題がある。
- 本研究は,非接触で脈波信号を推定するリモート光容量波法を用いて,新生児の疼痛検出を目指す。
- リモート光容量波法による脈波信号は,新生児の疼痛検出に有用な情報を提供する。
- 青色チャンネルから抽出された信号は,他のチャンネルよりも優れた性能を示す。
- リモート光容量波法と音声特徴量を組み合わせることで,単一のモダリティよりも高い精度が得られる。
QB-LIF:効率的なSNNのための学習可能なスケール量子化バーストニューロン [cs.CV]目的:スパイクニューラルネットワークにおける効率的な計算
- 脳型コンピューティングは,低消費電力で高速な処理を実現する可能性を秘めている。
- 従来のバイナリ符号化では情報伝達量が制限され,深層ネットワークでの性能が課題となる。
- 量子化バーストニューロンを用いて,層ごとに最適なスパイク解像度を学習し,性能向上を目指す。
- 提案手法QB-LIFは,既存のバイナリおよび固定バーストSNNと比較して高い精度を達成した。
- 学習可能なスケールをシナプス重みに吸収することで,ハードウェア効率を維持しつつ推論時の演算を簡素化している。
- ReLSG-ETを用いることで,離散的な多水準空間における安定した最適化を可能にしている。
加齢黄斑変性症のためのマルチモーダル対話型AIへ [cs.CV, cs.CL]目的:加齢黄斑変性症の診断
- 網膜疾患の早期発見と適切な治療が重要であり,AIによる診断支援への期待が高まっている。
- 既存のAIシステムは静的な予測に留まり,臨床的根拠や対話的な説明が不足している。
- 視覚的質問応答と臨床的対話を通じて,より正確で解釈可能なAMD診断を目指す。
- OcularChatは,AREDSにおける高度AMD,色素異常,ドラスンサイズ診断で,既存のMLLMを上回る高い精度(0.954, 0.849, 0.678)を示した。
- AREDS2においても,全てのタスクで最高の性能を維持した。
- 眼科医による主観的評価においても,高度AMD,色素異常,ドラスンサイズ,全体的な印象で,ベースラインモデルよりも高い評価を得た。
スケッチ2Arti:CADオブジェクトのスケッチベースの関節モデル化 [cs.CV, cs.GR]目的:CADオブジェクトに対するスケッチベースの関節モデル化手法
- 3Dオブジェクトの関節モデル化は,インタラクティブなアニメーションやシミュレーション,形状編集に不可欠である。
- 設計者は,関節の意図をスケッチで伝えるが,それを3Dモデルに変換するには手作業が必要とされる。
- 簡単な2Dスケッチから関節を定義し,複雑なオブジェクトの関節モデル化を自動化することを目指す。
- Sketch2Artiは,CADモデルとユーザーのスケッチから可動部を自動的に発見し,運動パラメータを予測する。
- カテゴリー情報に依存せず,多様なオブジェクトに対して高い汎化性能を示す。
- 内部構造のないシェルモデルに対しては,ユーザーのスケッチに基づいて合理的な内部構造を生成する。
ブラックボックスデータフリー知識蒸留のための多様な画像事前分布 [cs.NI, cs.RO, cs.CL, cs.IR, cs.RO, cs.LG, cs.CV]目的:ブラックボックスデータフリー知識蒸留における知識獲得
- AI技術の発展には,モデルの効率化と知識伝達が不可欠である。
- 教師モデルのデータやインターフェースが利用できない環境では,知識蒸留が困難である。
- 多様な画像事前分布を利用し,データフリー知識蒸留の性能向上を目指す。
- 提案手法DIP-KDは,多様な画像事前分布を合成することで,蒸留信号の多様性を高める。
- コントラスト学習により,合成サンプル間の識別性を向上させ,知識獲得を促進する。
- 12のベンチマークにおいて,DIP-KDは最先端の性能を達成し,データ多様性の重要性を確認した。
ブラックボックス少数ショット知識蒸留における多様性の向上 [cs.CV, cs.LG]目的:少数ショット知識蒸留における多様性向上手法
- 大規模モデルの圧縮は,計算資源の制約下での実用的な展開に不可欠である。
- 従来の知識蒸留は,教師モデルへのアクセスと大量の学習データが必要であり,現実的な制約が多い。
- 教師モデルへのアクセスが制限された環境でも,少数データで効率的な学習を実現すること。
- 本研究では,敵対的生成ネットワークを用いて,教師モデルの指導の下で高信頼度の画像を動的に選択する手法を提案する。
- これにより,蒸留データの多様性を拡大し,学生モデルの精度を大幅に向上させる。
- 7つの画像データセットにおいて,他の少数ショット知識蒸留手法を凌駕する最先端の結果を達成した。
指示と証拠の対照双方向ストリームデコーディングによる根拠に基づいた視覚-言語推論 [cs.CV]目的:視覚的証拠に基づいた言語推論の精度向上
- 視覚と言語を組み合わせたAIモデルの性能向上は,多様な応用分野において重要である。
- 既存モデルは流暢な出力を生成する一方で,視覚的証拠との整合性が低い場合がある。
- 言語の事前知識に偏らず,視覚的証拠に基づいた正確な推論を可能にする。
- 提案手法IECD2は,指示に基づくストリームと証拠に基づくストリームの二つを並行して維持する。
- KLダイバージェンスに基づくゲート機構により,視覚的証拠に裏付けのない言語の偏りを抑制する。
- 複数のデータセットで,既存手法と比較して,精度向上と幻覚の低減が確認された。
拡大率不変な画像分類:ドメイン汎化と安定した疎な埋め込みシグネチャによるアプローチ [cs.CY, cs.HC, cs.CY, eess.SY, cs.SY, math.AP, cs.CV, stat.ML]目的:組織病理画像の拡大率変化に対するロバストな分類
- 病理診断の精度向上に貢献するため,計算機による画像解析技術が重要視されている。
- 異なる拡大率で撮影された画像間の汎化性能が低く,実用上の課題となっている。
- 拡大率に依存しない特徴量を学習することで,汎化性能の向上を目指す。
- ドメイン汎化モデルは,厳格な検証プロトコルにおいて,最も高い識別性能を示した。
- GANによるデータ拡張は,拡大率によっては性能を低下させる不安定性が見られた。
- ドメイン汎化モデルは,ベースラインと比較して,よりコンパクトで再現性の高い埋め込みシグネチャを生成した。
相互強制:高速自己回帰型オーディオ・ビデオキャラクター生成のための二重モード自己進化 [cs.HC, cs.CV, cs.SD]目的:長期間のオーディオ・ビデオ同期を実現する高速自己回帰型オーディオ・ビデオ生成手法
- 近年,生成AI技術の発展により,高品質なオーディオ・ビデオコンテンツの自動生成が求められている。
- 既存手法では,オーディオとビデオの同時モデリングや高速生成に課題があり,計算コストが高い。
- 本研究は,効率的かつ高品質なオーディオ・ビデオ生成を実現し,既存手法の課題を克服することを目指す。
- 提案手法「相互強制」は,双方向モデルの教師なしで直接,高速な因果オーディオ・ビデオモデルを学習できる。
- 自己蒸留を活用し,少数ステップモードと複数ステップモードが相互に強化し合うことで,学習と推論の一貫性を高める。
- 実験結果から,相互強制は既存手法と同等またはそれ以上の性能を4〜8ステップで達成し,効率と品質の両面で優れていることが示された。
SIEVES:視覚的証拠のスコアリングを通じた選択的予測の汎化 [cs.CV, cs.AI]目的:視覚言語タスクにおける選択的予測の改善
- マルチモーダル大規模言語モデルの性能向上に伴い,実世界での信頼性が重要視されている。
- 既存のベンチマークは飽和に近づきつつあり,分布外(OOD)データに対する誤差許容度が課題となっている。
- 視覚的証拠の品質をスコアリングすることで,OODデータにおけるカバレッジを向上させる。
- SIEVESは,既存手法と比較して,OODベンチマークにおけるカバレッジを最大3倍に向上させる。
- SIEVESの選択器は,モデルの重みやロジットにアクセスできない状況でも,様々なreasonerモデルに転移可能である。
- SIEVESは,5つのOODデータセットと3つのreasonerモデルにおいて,特定の訓練や適応なしに汎化することが示された。
歩行者置き去りはしない:適応信号制御のための脆弱な道路利用者リアルタイム検知と追跡 [cs.MM, cs.CV, cs.AI, cs.RO, cs.SY, eess.SY]目的:脆弱な道路利用者の安全確保
- 高齢者や障害者など,歩行者の安全確保は社会的な要請である。
- 従来の信号機は固定タイミングであり,歩行者の状況に合わせた制御が困難である。
- 歩行者検知と信号制御の連携により,立ち往生のリスクを低減することを目指す。
- 本研究では,リアルタイム適応信号システムNPLBを開発した。
- YOLOv12とByteTrackを組み合わせることで,脆弱な道路利用者の安全性を71.4%向上させた。
- 信号延長は crossing cycle の12.1%にとどまり,効果的なシステムであることが示された。
堅牢なディープフェイク検出:較正された補完的なアンサンブルによる空間的注意のずれの軽減 [cs.CV]目的:実世界の複合的な劣化に対するディープフェイク検出モデルの空間的注意のずれを軽減する手法
- ディープフェイク技術の進歩により,偽情報の拡散が深刻化しており,信頼性の高い検出技術が不可欠である。
- 既存のディープフェイク検出モデルは,現実的な劣化条件下では性能が著しく低下するという課題がある。
- 複合的な劣化環境下でも安定した性能を発揮する,より堅牢なディープフェイク検出モデルを開発すること。
- 提案手法では,高周波成分を系統的に破壊する劣化パイプラインを用いて,DINOv2-Giantバックボーンを学習し,不変な幾何学的および意味的特徴を抽出する。
- Global Textureストリーム,Localized Facialストリーム,Hybrid Semantic Fusionストリームの3つの経路を通じて,冗長性のない補完的な特徴表現を抽出する。
- 較正された離散投票メカニズムによるアンサンブルにより,背景への注意のずれを抑制し,幾何学的なアンカーとして機能し,高いゼロショット汎化性能を実現した。
分散型マイクロペイメントにおける完全担保を超えるクレジット限度:インセンティブ条件 [cs.GT, cs.CR]目的:分散型非カストディアルマイクロペイメントにおけるクレジット限度提供のインセンティブ条件
- ブロックチェーン技術の発展に伴い,分散型決済システムの重要性が増している。
- 既存手法では,クレジット限度を担保に依存するため,流動性が必要となる。
- 完全担保に頼らず,インセンティブ互換性を保ちながらクレジット限度を提供すること。
- 継続的な買い手と売り手の相互作用モデルにおいて, bounded exposure,検証可能な決済結果,継続価値が戦略的なデフォルトを抑制する役割を果たすことが示された。
- 資本効率と,カストディアルな信頼なしに過小担保の信用拡大を維持するために必要な執行条件とのトレードオフが明確化された。
- Arbitrum Nitroプロトタイプにより,クレジット限度ベースの設計の決済,コミットメント,インセンティブ執行パスが低オンチェーンオーバーヘッドで実現可能であることが示された。
価格が焦点:予測市場,条件付き反射性,そして共通認識の政治 [math.GR, cs.FL, cs.CL, cs.FL, econ.GN, cs.CY, cs.GT, q-fin.EC, q-fin.TR]目的:予測市場における価格シグナルの社会的な影響力のメカニズム
- 社会現象の予測において,集団知性の活用が重要視されている。
- 予測市場の信頼性と,政治的行動への影響に関する理解が不十分である。
- 予測市場の価格変動が,人々の行動に与える影響を定量的に評価すること。
- 予測市場のシグナルは,市場規模よりも持続性,トレーダーの種類,プラットフォーム間の合意に依存する。
- シグナル信頼性指数(SCI)は,価格変動が行動に影響を与えるタイミングを予測する指標として有効である。
- 最も注目度の高い市場は,必ずしも最も正確な予測を提供するとは限らないという結果が得られた。
CRC-SAM:CT,大腸内視鏡,組織学的画像における大腸癌のマルチモーダルセグメンテーションと定量化 [eess.IV, cs.CV]目的:大腸癌のマルチモーダルセグメンテーションと定量化のための統一的フレームワーク
- 大腸癌は主要な癌疾患であり,早期発見と正確な診断が重要である。
- 既存手法は単一のモダリティに限定され,臨床ワークフロー全体での一貫性が課題であった。
- 異なるモダリティ間での一貫性のあるセグメンテーションを可能にすること。
- CRC-SAMは,大腸内視鏡,CT,組織学的画像の全モダリティにおいて優れた性能を示した。
- 軽量なLoRA適応により,基盤モデルを用いた大腸癌分析の有効性が示された。
- 既存の最先端手法を上回り,臨床ワークフローにおける一貫性のあるセグメンテーションを実現した。
系統条件付きニューラル3D頭蓋形態生成:残差フローマッチングによる [q-bio.QM, cs.CV]目的:3D頭蓋形態の系統的制約に基づいた新規生成
- 進化生物学において,生物形態の3Dモデル生成は重要である。形態は進化の歴史を反映し,系統解析に活用できるから。
- データ不足と系統関係の尊重という課題があり,現実的な生物形態の生成は困難である。
- 系統関係を考慮しつつ,少ないデータから生物形態を生成することを目指す。
- 本研究で開発したPhyloSDFは,系統情報と形態データを用いて3D頭蓋を生成するモデルである。
- PhyloSDFは,残差フローマッチングという手法により,少ない標本数でも高精度な生成を可能にした。
- 生成された頭蓋は,現実の頭蓋のばらつきを88-129%再現し,系統関係の推定にも貢献することが示された。
