arXiv雑要約
画像・音声 - 2026/02/03 公開
ReACT-TTC:共有CPSにおける選択後の再割り当てのための容量を考慮したトップ・トレーディング・サイクル [cs.CL, cs.IR, cs.GT]目的:共有資源を持つサイバー物理システムにおける,ユーザの逸脱後の再割り当て手法
- サイバー物理システムは,人間の意思決定と連携し,物理資源を効率的に管理することが重要である。
- ユーザの意向とシステム割り当てが一致しない場合,システム効率が低下し,再割り当てが必要となる。
- ユーザの希望を尊重しつつ,効率的な資源再割り当てを実現する。
- 提案手法ReACT-TTCは,既存のトップ・トレーディング・サイクル機構を拡張し,容量制約や未割り当て資源に対応する。
- ReACT-TTCは,パレート効率性,個々の合理性,戦略的合理性を維持しながら,必ず終了することが証明された。
- 電気自動車充電のケーススタディにより,ユーザの満足度と割り当て品質の向上が実証された。
マルチヘッドアテンションはマルチプレイヤーゲームである [cs.AI, cs.CL, cs.GT, cs.LG]目的:マルチヘッドアテンションにおけるヘッド間の相互作用のゲーム理論的分析
- Transformerモデルの性能向上は,自然言語処理の発展に不可欠である。
- 各ヘッド間の競争と協調が考慮されておらず,最適化効率が低い可能性がある。
- ヘッド間の相互作用を分析し,モデルの効率性と性能を向上させる。
- クロスエントロピー学習はヘッド間の潜在的なゲームを誘導し,勾配降下法はナッシュ均衡に収束する。
- ヘッド間相互作用行列のオフ対角成分($\Gamma(G)$)が,非効率性の程度を示す指標となることが示された。
- GAME-LoRAは,幻覚の減少と知識の維持を両立するパレート改善を実現した。
Distill3R:汎用ハードウェアでの3D基盤モデルの民主化パイプライン [cs.CV]目的:3D基盤モデルの幾何学的推論能力を,単一のワークステーションで完全に訓練可能なコンパクトな生徒モデルへ蒸留するフレームワーク
- 大規模3Dモデルは高精度だが,学習には大規模な計算資源が必要であり,研究機関の参入障壁となっている。
- 3D基盤モデルの学習には膨大な計算資源が必要であり,多くの研究機関では学習が困難である。
- 限られた計算資源でも3D基盤モデルを学習・特化化させられるように,基盤モデルへのアクセスを容易にすること。
- Distill3Rは,教師モデルの幾何学的推論能力を生徒モデルへ蒸留することで,パラメータ数を9分の1,推論速度を5倍に削減した。
- 生徒モデルは単一のワークステーションで3日以内に完全に訓練可能であり,教師モデルの学習に必要な大規模GPUクラスタや時間を大幅に削減できる。
- 生徒モデルは構造的一貫性や幾何学的な理解を維持しており,機能的な3D認識に必要な能力を備えている。
DIAMOND:フローマッチングモデルにおけるアーティファクト軽減のための指向性推論 [cs.HC, cs.CL, cs.CV, cs.AI]目的:画像生成におけるアーティファクト軽減手法
- 近年,画像生成技術は目覚ましい発展を遂げているが,実用化には品質向上が不可欠である。
- 既存の手法では,生成後の修正やモデルの変更が必要となり,効率性や汎用性に課題がある。
- 生成過程におけるアーティファクト発生を抑制し,高品質な画像生成を可能にすること。
- DIAMONDは,追加学習やモデル変更なしに,推論時に生成軌道を修正することでアーティファクトを軽減する。
- 各生成ステップでクリーンな画像を推定し,アーティファクトを生む潜在状態から生成プロセスを誘導する。
- 拡散モデルにも適用可能であり,汎用性の高いアーティファクト軽減手法であることが示された。
メッシュベース直接ソルバーのための高速疎行列順序付け [cs.GR, cs.DC]目的:三角形メッシュから生じる線形方程式系の効率的な解法
- 大規模なシミュレーションにおいて,線形方程式系の高速解法は計算コストのボトルネックとなりうる
- 疎行列の順序付けは解法の効率に大きく影響するが,その計算コストが高い
- 高速な疎行列順序付けアルゴリズムにより,大規模シミュレーションの効率化を目指す
- 提案手法は,厳密なバランスや分離器の最適性を緩和することで,順序付け処理時間を大幅に短縮した。
- 疎行列のCholesky分解に必要な構造を維持しつつ,最もコストのかかる部分を回避することで,効率的な解法を実現した。
- CPUおよびGPU環境での実験により,最大6.27倍の高速化が確認された。
OCTOPUS:多次元スキャンとトラバーサル選択によるビジョンSSMの空間認識能力の向上 [cs.CV]目的:ビジョンSSMの空間認識能力向上
- 画像処理において,物体の位置や形状を正確に把握することは重要である。そのため,空間認識能力の向上が不可欠である。
- 従来のSSMは系列データ向けに設計されており,画像の空間的な関係性を捉えることが苦手であった。
- 空間的な関係性を考慮したSSMの構造を開発し,画像処理における性能向上を目指す。
- OCTOPUSは,水平,垂直,斜めの8つの主要な方向に再帰処理を行うことで,空間的に接続された領域間での効果的な情報交換を可能にした。
- 分類およびセグメンテーションのベンチマークにおいて,境界の保持と領域の一貫性が著しく向上した。
- 既存のV-SSMベースのモデルと比較して,比較的良好な分類精度を維持しながら,空間認識能力を向上させた。
会話における感情認識のためのベースラインマルチモーダルアプローチ [cs.CL, cs.AI, cs.CY, cs.SD, eess.AS]目的:会話における感情認識のためのベースラインモデル構築
- 人間と機械の円滑なコミュニケーションには,感情の理解が不可欠である。
- 感情認識モデルは,データセットや評価指標の標準化が課題となっている。
- 既存のデータを活用し,再現性の高いベースラインモデルを提示する。
- テキスト分類器と自己教師あり学習による音声表現モデルを組み合わせた。
- マルチモーダル融合が,単一モダリティモデルよりも性能向上に貢献することが示された。
- 本研究は,今後のより厳密な比較のための透明性と参照実装を提供する。
3Dマルチビュー行動条件付きロボット操作事前学習のためのコントラスト学習:CLAMP [cs.RO, cs.RO, cs.AI, cs.CV, cs.LG]目的:3Dマルチビューデータとロボット行動を用いた,ロボット操作の事前学習フレームワーク
- ロボットの知能化において,環境の3次元情報を正確に把握することは重要である。
- 既存の2D画像表現では,正確な操作に必要な3次元空間情報を捉えきれない。
- 3D情報を活用し,ロボットの学習効率と性能を向上させることを目指す。
- 提案手法CLAMPは,RGB-D画像から再レンダリングされたマルチビュー画像を用いて,3D幾何情報とロボット行動の関連性を学習する。
- Diffusion Policyを用いた事前学習により,限られたタスクデモンストレーションでの微調整効率と性能を大幅に改善する。
- シミュレーションおよび実環境のタスクにおいて,最先端のベースライン手法を上回る性能を示す。
ConsensusDrop:効率的なVision Language Modelのための視覚的およびクロスモーダル顕著性の融合 [cs.CV]目的:Vision Language Modelにおける冗長な視覚トークンの削減
- 大規模言語モデルと視覚情報を組み合わせるVLMsは,多様なタスクで高い性能を示すが,計算コストが大きい。
- 既存のトークン削減手法は,視覚エンコーダの顕著性かLLMのクロスアテンションのいずれか一方に依存しており,十分な性能が得られない。
- 視覚エンコーダの顕著性とクロスアテンションを融合し,効率的なトークン削減を実現することで,計算コストを削減しつつ性能を維持する。
- ConsensusDropは,視覚エンコーダの顕著性とクエリ対応のクロスアテンションを調整し,視覚トークンのランキングを決定する。
- 実験の結果,LLaVA-1.5/NeXTやVideo-LLaVAなどのオープンソースVLMにおいて,既存の削減手法よりも高い精度と効率性が確認された。
- 特に,厳しいトークン削減下においても,ほぼベースラインと同等の精度を維持し,TTFTおよびKVキャッシュフットプリントを削減することに成功した。
CAR-T/NK免疫シナプス画像の高精度生成のためのデータ拡張 [cs.CV]目的:CAR-T/NK細胞免疫シナプス画像の検出・セグメンテーション性能の向上
- CAR-T/NK細胞免疫療法は癌治療に変革をもたらし,免疫シナプスの質が治療効果の予測バイオマーカーとなりうる。
- アノテーションされた顕微鏡画像のデータセット規模が限られており,ニューラルネットワークの汎化能力を阻害している。
- データ拡張により学習データ量を増やし,CAR-T/NK免疫シナプスの検出・セグメンテーション精度向上を目指す。
- Instance Aware Automatic Augmentation (IAAA) と Semantic-Aware AI Augmentation (SAAA) の二つのデータ拡張フレームワークを統合した。
- IAAAは既存の画像データから最適化された拡張ポリシーを適用し,合成画像を生成する。
- SAAAは拡散モデルとPix2Pixを用いて,多様で解剖学的に現実的なセグメンテーションマスクと高精度画像を生成し,検出・セグメンテーション性能を大幅に向上させた。
MRIに基づくアルツハイマー病重症度分類のためのハイブリッドトポロジー的・深層特徴融合 [cs.CV, cs.LG]目的:アルツハイマー病重症度分類の精度向上
- アルツハイマー病の早期診断は,神経画像に基づいた臨床意思決定支援システムにおいて極めて重要である。
- 従来のニューラルネットワークでは,脳構造のトポロジー的特徴を見落とす場合がある。
- 脳構造のトポロジー的特徴と深層特徴を融合することで,アルツハイマー病の段階をより明確に区別することを目指す。
- 提案手法は,OASISデータセットを用いた実験で,既存の最先端手法を大きく上回る性能を示した。
- 精度99.93%およびAUC100%を達成し,深層学習パイプラインへのトポロジー的知見の組み込みの有効性を確認した。
- 本研究は,自動アルツハイマー病診断のための堅牢かつ高精度なツールの可能性を示唆する。
情報信頼性がAIによる説得に与える影響の検証 [cs.CL, cs.GT]目的:AIによる説得における情報信頼性の影響
- 高度な意思決定において,コミュニケーションが重要な役割を果たすため,戦略的コミュニケーションの理解が不可欠である。
- 従来の研究では,検証可能な情報とそうでない情報の両方を考慮せず,現実世界の複雑な状況に対応できていない。
- 確率的な信頼性を持つ情報環境下でのAIエージェントの戦略的コミュニケーション能力を向上させることを目指す。
- MixTalkというゲーム環境を導入し,LLMエージェント間の情報信頼性を考慮したコミュニケーションを評価した。
- 最新のLLMエージェントは,情報信頼性に関する推論や,それに基づいた行動において,限界があることが明らかになった。
- Tournament Oracle Policy Distillation (TOPD)により,受信者の説得に対する頑健性が大幅に向上することが示された。
心の羅針盤の解明:心の理論に基づいた多Modal感情推論 [cs.CV]目的:心の理論に基づいた多Modal感情推論の能力診断と向上
- 感情理解は人間とAI間の円滑なコミュニケーションに不可欠であり,その重要性は増している。
- 既存の多Modal大規模言語モデルは,感情の表面的な認識にとどまり,深層的な理解が困難である。
- 心の理論を明示的にモデル化することで,より人間らしい感情推論を実現することを目指す。
- 本研究では,心の理論に基づいた新たなベンチマークデータセットHitEmotionを開発し,既存モデルの課題を明らかにした。
- 心の理論に基づいた推論チェーンと強化学習手法TMPOを提案し,感情推論の精度と合理性を向上させた。
- 提案手法は,認知負荷の高いタスクにおいて特に有効であり,モデルの感情理解能力を強化する有用なツールを提供する。
単純なナビゲーションと深い整合性:Mouse vs. AI 2025 優勝解法 [cs.CV, cs.AI, cs.NE, cs.RO]目的:視覚的ロバスト性とニューラルアラインメントの達成
- 生物の視覚システムに匹敵する人工知能エージェント開発には,視覚的ロバスト性が不可欠である。
- 既存手法では,環境変化に対する汎化性能とニューラルアラインメントの同時実現が困難である。
- 本研究は,単純なアーキテクチャと深いアーキテクチャの特性を分析し,最適なモデル構築指針を示す。
- Track 1(視覚的ロバスト性)では,シンプルな二層CNNとGLU,観測正規化により95.4%のスコアを達成した。
- Track 2(ニューラルアラインメント)では,16層のResNetライクなアーキテクチャが,トップレベルのニューラル予測性能を示した。
- 学習期間と性能には非単調な関係があり,約20万ステップで最適な結果が得られることが示唆された。
VAMOS-OCTA:運動によるアーチファクトを含むOCTAボリュームのインペインティングのための血管を意識した多軸直交監督 [cs.CV]目的:運動アーチファクトを含むOCTAボリュームのインペインティング
- 小型OCTAは小児や協力的でない患者の網膜観察を可能にするが,運動に弱い。
- 3Dスキャン中の急な動きは,Bスキャン全体に欠損領域を生じ,像質を低下させる。
- 多軸直交監督を用いて,Bスキャンの鮮明さとボリューム投影の精度を向上させる。
- VAMOS-OCTAは従来の技術を上回り,鮮明な血管と連続性を回復した再構成画像を得た。
- 多軸監督は,運動による劣化が強い3D OCTAデータの修復において強力な制約となる。
- 本手法は,Bスキャンとボリューム投影の両方を同時に改善する。
CortiNet:超音波画像を用いた胆嚢疾患診断のための物理・知覚ハイブリッド皮質着想型デュアルストリームネットワーク [cs.CL, cs.CV, cs.LG]目的:胆嚢疾患の診断
- 超音波検査は非侵襲的かつ低コストであり,胆嚢疾患の診断に広く用いられている。
- 超音波画像の低解像度とスぺックルノイズが診断精度を阻害する要因となっている。
- 軽量なモデルで高精度な診断を可能にし,臨床現場への導入を容易にすること。
- CortiNetは,従来の深層畳み込みモデルと比較して大幅に少ないパラメータで,高い診断精度(98.74%)を達成した。
- 物理的解釈可能性のある多重信号分解と知覚に基づいた特徴学習を統合した皮質に着想を得たデュアルストリームアーキテクチャである。
- 構造ブランチにのみ勾配加重クラス活性化マッピングを適用する構造認識可能な説明可能性フレームワークを提案した。
反射を意識した学習による動画異常理解の向上:SRVAU-R1 [cs.CV]目的:動画異常理解のための,自己反射を組み込んだ推論フレームワーク
- 動画コンテンツの増加に伴い,異常行動の自動検出・理解の重要性が高まっている。
- 既存手法は表層的な異常記述に留まり,深層的な推論や自己修正に欠ける点が課題である。
- 多岐にわたる異常行動に対し,自己反射による推論能力を向上させることを目指す。
- 提案手法SRVAU-R1は,動画異常理解に特化した自己反射型Chain-of-Thoughtデータセットを構築した。
- SRVAU-R1は,教師ありファインチューニングと強化学習ファインチューニングによる新しい学習パラダイムを導入した。
- 複数の動画異常ベンチマークにおいて,既存手法を凌駕し,精度と推論品質の大幅な向上を実証した。
LocalScore: 生体認証のための局所密度を考慮した類似度スコアリング [cs.CV]目的:生体認証システムにおける非登録者の検出精度向上
- 生体認証は,セキュリティシステムの重要な要素であり,その精度向上は社会の安全に不可欠である。
- 従来のシステムは,非登録者の識別が苦手であり,特に複数サンプルギャラリーにおいては課題が残る。
- 本研究は,局所密度を考慮することで,非登録者の検出精度を高め,システムの堅牢性を向上させる。
- 提案手法LocalScoreは,既存の生体認証システムに容易に組み込むことが可能である。
- 様々なモダリティにおいて,オープンセット検索および検証において大幅な性能向上を実証した。
- データセットの特性に応じて,効果が最大化される条件を理論的および実験的に検証した。
深層学習を用いた甲状腺結節分類アルゴリズムにおける自動キュレーションデータセットの有効性 [cs.CV]目的:甲状腺結節の良悪性分類における深層学習アルゴリズムの性能向上
- 甲状腺結節は超音波画像診断が一般的であり,良悪性の正確な判定は患者の治療方針を決定する上で重要である。
- 深層学習モデルの訓練には大量のデータが必要だが,甲状腺結節のデータセット作成には専門知識と労力がかかるという課題がある。
- 本研究は,自動キュレーションによるデータセットが深層学習アルゴリズムの性能を向上させるか検証し,データ利用の最適化を目指す。
- 手動アノテーションデータセットで訓練した深層学習モデルのAUCは0.643であり,自動キュレーションデータセットで訓練したモデルのAUC0.694と比較して有意に低かった (P < .001)。
- 自動キュレーションデータセットの高精度サブセットで訓練したモデルのAUCは0.689であり,全体データセットで訓練したモデルと比較して有意な差は認められなかった (P > .43)。
- 自動キュレーションデータセットの利用は,深層学習アルゴリズムの性能を大幅に向上させることが示唆され,高精度サブセットのみを使用するよりも,全データを使用することが推奨される。
視覚言語モデルに対する普遍的かつ転移可能な脱獄攻撃 [cs.DC, cs.LG, cs.AI, cs.CV]目的:視覚言語モデルの脱獄攻撃手法の開発
- 大規模言語モデルのマルチモーダル化が進み,画像とテキストの両方を処理できるようになった。
- 既存の勾配ベースの脱獄攻撃は,特定のモデルに過適合し,汎化性能が低い。
- モデルや攻撃目標に依存しない,普遍的かつ転移可能な脱獄攻撃手法を確立すること。
- 提案手法UltraBreakは,視覚空間での制約と意味ベースの目的関数を用いることで,汎化性能の高い攻撃パターンを発見した。
- UltraBreakは,既存の脱獄攻撃手法と比較して,一貫して高い性能を示した。
- 意味的な目的関数による損失地形の平滑化が,普遍的かつ転移可能な脱獄攻撃を実現する上で重要であることが示された。
聞き手の耳における偏り:多言語音声言語モデルにおける言語,人口統計,位置の変動に対する感受性の評価 [cs.CL, cs.SD, eess.AS]目的:多言語音声言語モデルにおける音声バイアスの系統的な調査
- 言語モデルの性能向上は,多様な言語環境での自然な対話を実現する上で不可欠である。
- 音声言語モデルには,言語やアクセント,性別などの要因に基づくバイアスが存在する可能性がある。
- この研究は,音声言語モデルにおけるバイアスを定量的に評価し,公平性と頑健性を向上させることを目指す。
- 多言語音声言語モデルは,人口統計学的要因に対しては比較的頑健であるが,言語や選択肢の順序に大きく影響を受けることが示された。
- 音声は,既存の構造的バイアスを増幅する可能性があることが明らかになった。
- モデルのアーキテクチャ設計や推論戦略が,言語を跨いだ頑健性に大きく影響することが示された。
HierCon:音声ディープフェイク検出のための階層的コントラスト注意機構 [cs.SD, cs.AI, eess.AS]目的:音声ディープフェイクの検出
- 高度なTTS技術により,ディープフェイク音声の識別が困難化しており,セキュリティとオンライン信頼性の両面で問題となっている。
- 既存手法では,自己教師あり学習モデルから得られる多層表現の階層性や時間的依存性を十分に活用できていない。
- 階層的アテンション機構とコントラスト学習により,時間的・層間・層グループ間の依存関係をモデル化し,汎化性能の向上を目指す。
- 提案手法HierConは,ASVspoof 2021 DFおよびIn-the-Wildデータセットにおいて,最先端の性能を達成した(それぞれ1.93%と6.87%のEER)。
- 独立した層の重み付けと比較して,EERがそれぞれ36.6%と22.5%改善された。
- 結果とアテンション可視化から,階層的モデリングが異なるドメインの生成技術や録音条件への一般化を促進することが確認された。
GMAC:多視点制約を用いた自動マルチカメラ外部パラメータキャリブレーション [cs.CV]目的:マルチカメラシステムの外部パラメータの正確な推定
- 3次元再構成やパノラマ知覚,多視点データ融合の基礎技術であり重要性が高い。
- 既存手法はキャリブレーションターゲットや特定の幾何モデルに依存し,複雑な環境下で頑健性に課題がある。
- 複雑な動的環境やオンラインでのキャリブレーションを可能にする新たな解決策を提案する。
- GMACは,多視点再構成ネットワークによって学習された暗黙的な幾何学的表現に基づき,外部パラメータをグローバル変数としてモデル化する。
- 既存ネットワークの構造を再構成し,軽量な回帰ヘッドを通じて直接外部パラメータの予測を可能にする。
- クロスビュー再投影整合性と多視点サイクル整合性を同時に最適化することで,幾何学的整合性を確保し,予測精度と最適化安定性を向上させる。
FUSE-Flow:信頼度に基づくスケーラブルなリアルタイムマルチビュー点群再構成 [cs.CV]目的:リアルタイムマルチビュー点群再構成手法の開発
- VR/AR,ロボットナビゲーション等に応用される3Dビジョンの重要な課題。
- 既存手法は計算量が多く,メモリ消費が大きく,スケーラビリティに課題がある。
- リアルタイム性,再構成品質,マルチカメラ対応を両立する手法の提案。
- FUSE-Flowは,フレームごとに点群フラグメントを生成し,信頼度と3D距離の一貫性に基づいてノイズを抑制する。
- 適応的な空間ハッシュ法により,大規模マルチカメラ環境でも効率的な集約を実現した。
- 実験により,オーバーラップ,深度不連続,動的シーンにおいて,安定性と幾何学的精度が向上することが示された。
VEQ:MoE Vision-Languageモデルに対するモダリティ適応型量子化 [cs.CV, cs.AI]目的:MoE Vision-Languageモデルの量子化による圧縮
- 大規模なVision-Languageモデルは高性能だが,メモリ・計算コストが課題となっている。
- 既存の量子化手法は,ビジョンと言語の差異,エキスパート間の貢献度の不均一性に対応できていない。
- モダリティ間およびエキスパート間の差異を考慮した量子化手法を開発し,性能劣化を抑制すること。
- 提案手法VEQは,ビジョンと言語の差異,エキスパート間の貢献度の不均一性を考慮した量子化フレームワークである。
- VEQは,Kimi-VLおよびQwen3-VLにおいて,既存の最先端量子化手法と比較して,平均でそれぞれ2.04%,3.09%の精度向上を達成した。
- 様々なマルチモーダルタスクにおいて,VEQは優れた堅牢性を示すことが確認された。
動画から会話へ:タスク支援のための一人称視点指示 [cs.CV]目的:タスク支援のための会話型データセット
- 現実世界の複雑なタスク遂行には専門知識が不可欠であり,AR支援AIの発展が期待される。
- 大規模なマルチモーダル会話データセットが不足しており,データ収集のコストと手間が課題である。
- 動画から自動的に会話を生成するフレームワークを構築し,データセットの作成を効率化する。
- 単一の指示動画を基に,二者間のタスク誘導会話を自動生成するパイプラインを提案した。
- HowToDIVというマルチモーダルデータセットを新たに構築した。507件の会話,6,636組の質疑応答ペア,24時間の動画を含む。
- Gemma 3とQwen 2.5を用いてHowToDIVでのベースライン結果を報告し,初期ベンチマークを提供した。
ReLayout:関係認識型デザイン再構成による汎用性と構造維持性を備えたデザインレイアウト編集 [cs.CV]目的:デザインレイアウト編集の自動化
- デザイン制作において,手作業による調整を減らし,効率化が求められている。
- 自然言語によるユーザーの意図が曖昧であり,正確な編集が困難である。
- 編集操作と構造維持を両立させるレイアウト編集手法の確立。
- ReLayoutは,関係グラフを用いて編集対象外要素のレイアウト構造を保持する。
- RADRにより,(デザイン,編集操作,編集後デザイン)のペアデータが不要な自己教師あり学習を実現。
- 定性的・定量的な評価とユーザー調査により,ReLayoutの編集品質,精度,構造維持性が優れていることが示された。
残差デコーディング:履歴に基づく残差ガイダンスによる大規模視覚言語モデルにおける幻覚の軽減 [cs.CV, cs.AI]目的:大規模視覚言語モデルにおける幻覚軽減
- 視覚と言語の理解を組み合わせたモデルは,多様な応用が期待されている。
- 既存モデルは言語の先入観に影響され,視覚情報と一致しない内容を生成することがある。
- 視覚情報に基づいた,より正確な言語生成を目指す。
- ResDecは,履歴情報を活用し,言語の先入観による幻覚を効果的に抑制する。
- 視覚的な根拠に基づいた生成を強化し,オブジェクト幻覚を減少させる。
- ResDecは既存のベンチマークにおいて高い性能を示し,幅広い応用可能性を実証する。
施設配置ゲームにおける不公平の最小化 [cs.GT]目的:施設配置ゲームにおけるグループレベルの不公平の最小化
- 資源配分やインフラ整備において,公平性の確保は社会的な要請である。
- 従来の施設配置は,グループ間の距離やコストに偏りが発生し,不公平を生じやすい。
- グループ間の不公平を定量的に評価し,公平性を考慮した配置メカニズムを開発すること。
- 本研究では,グループの総距離や最大距離を重み付けした「グループ効果」の最大化を最小化する公平性指向の目的関数を提案した。
- 単一施設配置において,戦略操作耐性を持つBALANCEDメカニズムとMAJOR-PHANTOMメカニズムを提案し,近似保証を得た。
- 二施設配置においては,古典的なエンドポイントメカニズムを拡張し,同様の近似保証を示した。
超音波画像解析のための基盤モデルチャレンジにおけるベースライン手法 [cs.CV]目的:超音波画像解析のための基盤モデル構築に向けたベースラインの確立
- 超音波画像は臨床において広く用いられ,診断精度向上に不可欠である。
- 既存手法は特定のタスクに特化しており,汎用性の高い基盤モデルが不足している。
- 多様な超音波画像タスクに対応可能な,汎用的な基盤モデルの構築を目指す。
- 本研究では,分割,分類,検出,回帰を含む27のサブタスクに対応する統一的なMH-MTLフレームワークを提案した。
- ImageNetで事前学習済みのEfficientNet-B4とFPNを組み合わせることで,ロバストな特徴抽出とマルチスケール情報の活用を実現した。
- 提案手法は,超音波画像解析における基盤モデル研究の強固かつ拡張可能なベースラインとなり得ることを示した。
断層撮影再構成のための放射性3Dガウス線追跡 [cs.CV]目的:断層撮影再構成のための3Dガウス線追跡に基づくフレームワーク
- 医療画像処理において,高精度な断層像再構成は診断精度向上に不可欠である。
- 既存の3Dガウススプラッティング法は,アフィン近似により定量的な精度が低下する場合がある。
- アフィン近似の限界を克服し,より物理的に整合性の高い前方投影モデルを確立すること。
- 本研究では,3Dガウス線追跡を用いて,アフィン近似を回避し,高精度な前方投影モデルを実現した。
- 線追跡による明確な制御により,非線形幾何学的補正を正確に適用することが可能となった。
- 提案手法は,より広範な現実的な断層撮影システムへの適用性と投影精度向上に貢献する。
DRFormer:人物再識別のための二重正則化双方向Transformer [cs.CV, cs.MM]目的:人物再識別における課題解決
- 人物再識別は,監視カメラなどの画像から個人を特定する上で重要な技術である。
- 既存手法では,局所的な特徴と大域的な意味特徴を統合的に活用できていないという課題がある。
- 局所特徴と大域的意味特徴を効果的に組み合わせ,人物再識別の精度向上を目指す。
- 提案手法DRFormerは,局所テクスチャ抽出と大域的な意味的差異把握の双方を活かすことで,人物再識別の性能を向上させる。
- 二重正則化メカニズムにより,多様な特徴抽出を実現し,2つのモデルの貢献度のバランスを改善する。
- 5つのベンチマークテストで,最先端手法と比較して競争力のある性能を示すことが確認された。
TLDiffGAN:時間情報融合を用いた潜在拡散GANフレームワークによる異常音検出 [cs.SD, cs.AI, eess.AS]目的:異常音検出のための新しいフレームワーク
- 音響異常の早期発見は,機械の故障予測やセキュリティシステムの向上に不可欠である。
- 既存の生成モデルは正常音の特徴分布を十分に捉えきれていない点が課題である。
- 拡散モデルの潜在能力を活用し,より高精度な異常音検出を実現することを目指す。
- 提案手法TLDiffGANは,拡散モデルとGANを組み合わせることで,識別器の学習を困難にし,生成サンプル品質を向上させた。
- 事前学習済みオーディオモデルを用いることで,生の音声波形から直接特徴を抽出し,識別を補助する機構を導入した。
- TMixupというスペクトログラム拡張手法により,微細な時間的パターンに対する感度を高め,検出性能を向上させた。
単純かつ堅牢な品質開示:分位数の分割力 [cs.CL, cs.GT, econ.TH]目的:オンラインプラットフォームにおける品質開示ポリシーの堅牢性
- オンライン市場での信頼構築において,品質情報の適切な開示は不可欠である。
- 既存の品質開示方法では,市場環境の変化に対する頑健性が課題となっていた。
- 分位数の分割に基づく開示ポリシーが,あらゆる市場環境で最適な性能を発揮することを示す。
- 分位数の分割に基づく開示ポリシーにおいて,最悪ケースでの収益比を理論的に評価した。
- 最適な分割数Kに対する閾値は,一次元固定点方程式と逆向き再帰によって決定されることが示された。
- 均一な分位数のバケットでは,1 + 1/Kのタイトな保証が得られることが確認された。
物理的事前知識を用いたニューラル画像セグメンテーションのためのPDE制約最適化 [cs.CV, cs.LG]目的:顕微鏡画像のセグメンテーションにおける精度向上
- 近年,画像解析において深層学習が広く用いられるようになったが,安定性と汎化性能が課題である。
- 測定ノイズ,弱い物体境界,およびラベル付きデータの不足により,顕微鏡画像セグメンテーションは困難な問題である。
- 物理に基づいた事前知識を深層学習モデルに組み込み,セグメンテーションの安定性と汎化性能を向上させる。
- 提案手法は,反応拡散方程式や相場界面エネルギーから導出されたペナルティ項を用いたPDE制約最適化により,セグメンテーション精度と境界の忠実度を向上させた。
- LIVECellデータセットを用いた実験により,提案手法は既存の深層学習モデルと比較して,一貫した性能改善を示した。
- 特に,サンプル数が少ない状況下での安定性と汎化性能の向上が確認された。
PISA:効率的な拡散Transformerのための区分的疎注意は賢明である [cs.CV]目的:拡散Transformerにおける効率的な注意機構の提案
- 画像や動画生成においてTransformerが不可欠だが,計算コストが高い点が課題となっている。
- ブロック疎注意は高速化に貢献するものの,高い疎性下では性能が低下する問題がある。
- 非重要ブロックの注意スコアの安定性を利用し,精度維持と高速化を両立することを目指す。
- PISAは,Wan2.1-14BとHunyuan-Videoにおいて,それぞれ1.91倍,2.57倍の高速化を実現した。
- 従来の疎注意法と比較して,一貫して最高品質を維持している。
- FLUXによる画像生成においても,視覚品質を損なうことなく1.2倍の高速化を達成した。
MedAD-R1:一貫性強化方策最適化による解釈可能な医療異常検知における整合性のある推論の引き出し [cs.CV]目的:解釈可能な医療異常検知のための整合性のある推論
- 医療診断の精度向上に貢献する医療異常検知は,AI技術の重要な応用分野である。
- 既存の教師あり微調整は,単純なデータセットに依存し,妥当な推論と堅牢な多Modal汎化が課題である。
- 大規模データセットと一貫性強化方策最適化により,医療AIの信頼性と解釈性を向上させる。
- 提案モデルMedAD-R1は,大規模な医療異常検知ベンチマークMedAD-38Kで最先端の性能を達成した。
- 従来のベースラインモデルと比較して,10%以上の性能向上を示し,透明性と論理的な整合性を備えた推論経路を生成する。
- この結果は,臨床意思決定支援のためのAIの信頼性と解釈性を向上させる有望なアプローチを示唆している。
差分ベクトル消去:フローマッチングモデルのための統一的な学習不要コンセプト消去 [cs.CV]目的:テキスト画像生成モデルにおける不要なコンセプトの消去
- 高品質な画像生成が可能になった一方,不適切なコンテンツの生成リスクがあり,安全な利用が課題。
- 既存手法はDDPMに特化し,高コストな再学習が必要。フローマッチングモデルには適用困難。
- フローマッチングモデルにおける,学習不要なコンセプト消去手法の確立。
- 提案手法DVEは,速度場の方向構造を利用し,コンセプトを正確に抑制する。
- DVEは,FLUXモデルにおいて,既存手法を上回り,NSFW抑制,スタイル除去,オブジェクト消去に効果を発揮する。
- 画像品質と多様性を維持しつつ,コンセプトの消去を実現する。
パンダポーズ:単一画像からの2Dポーズ情報を3Dアンカー空間へ伝播させる3D人体姿勢推定 [cs.CV]目的:単一画像からの3D人体姿勢推定手法
- 3Dビジョン分野において,人体姿勢推定はロボット工学やVR/ARなど幅広い応用が期待される重要な技術である。
- 既存手法は2D姿勢情報から直接3D姿勢を推定するため,入力2D姿勢の誤差伝播や自己遮蔽への対応が課題であった。
- 本研究は,2D姿勢情報を3Dアンカー空間へ伝播させることで,誤差伝播を抑制し,自己遮蔽問題の解決を目指す。
- 提案手法パンダポーズは,関節ごとに3Dアンカーを配置し,2D姿勢情報の不確実性を軽減する。
- 深度情報を考慮した特徴抽出と,アンカーと特徴の相互作用により,自己遮蔽に対してもロバストな推定を実現する。
- Human3.6M等のベンチマークテストにおいて,最先端手法と比較して14.7%の誤差削減を達成し,有効性を実証した。
欠損モダリティに対する共有表現学習による,堅牢な有害ミーム検出 [cs.RO, cs.CV]目的:欠損モダリティ下での有害ミーム検出手法の性能向上
- インターネットミームは情報伝達の強力な手段であり,社会的影響が大きい。
- 既存手法は完全なデータに依存し,現実のデータ欠損に弱い。
- データ欠損時のロバスト性を高める新しいミーム検出手法の開発。
- 提案手法は,複数のモダリティを独立に投影することで共有表現を学習する。
- テキストが欠損した場合,既存手法よりも高い性能を示すことが実証された。
- 視覚的特徴の統合を改善し,テキストへの依存度を低減することでロバスト性を高める。
KANで流れを? KANとRWKVによる3Dフローマッチングを通じたロボット操作の進歩 [cs.HC, cs.CY, cs.RO, cs.CV]目的:3Dフローマッチングを用いたロボット操作の高性能化
- ロボットの知能化は,自動化の進展や人手不足解消に不可欠である。
- 拡散モデルは計算コストが高く,リソース制約のあるロボットへの搭載が困難である。
- 軽量かつ高性能なバックボーンによるフローマッチングポリシーの実現を目指す。
- KANとRWKVの組み合わせにより,従来のUNetと比較してパラメータ数を大幅に削減した。
- Adroit,Meta-World,DexArtのベンチマークにおいて,最先端の成功率を達成した。
- Action Consistency Regularizationにより,学習の安定化とポリシーの精度向上が確認された。
LightCity:多様な照明条件下における屋外逆レンダリングと再構成のための都市データセット [cs.CL, cs.CV]目的:都市環境における逆レンダリングと3次元再構成のベンチマークデータセット
- 自動運転やデジタルツイン等の応用において,都市環境の正確な3次元理解が不可欠である。
- 複雑な照明条件,特に多重照明や間接光・影の影響が,逆レンダリングの精度を低下させる。
- 現実的な照明条件における逆レンダリングと再構成の課題解決を促進するためのデータセットを提供する。
- LightCityは,多様な照明条件と高画質な間接光・影効果を特徴とする大規模な合成都市データセットである。
- 5万点以上の画像,300種類以上のスカイマップ,深度,法線,材質などの豊富な情報を収録している。
- ベンチマーク評価により,都市環境における逆レンダリングの課題と改善の方向性を示した。
Koo-Fu CLIP:フクナガ・クーンツ線形判別分析による視覚言語モデルの閉形式適応 [cs.CV]目的:視覚言語モデルの教師あり適応
- 視覚言語モデルは汎用的な表現能力を持つが,分類タスクには最適化されていない。
- 既存の埋め込み表現は,クラス間分離度が低く,次元数が過剰であるという課題がある。
- フクナガ・クーンツ線形判別分析を用いて,埋め込み空間の形状を改善し,分類性能を向上させる。
- Koo-Fu CLIPは,ImageNet-1Kにおいて,最近傍プロトタイプ分類のトップ1精度を75.1%から79.1%に向上させた。
- ラベル空間を14Kや21Kクラスに拡大しても,一貫した改善が見られた。
- 最大10〜12倍の圧縮が可能であり,精度損失はほとんどなく,効率的な大規模分類・検索を実現する。
統計的MIA:信頼性の高いアンラーニング監査のためのメンバーシップ推論攻撃の再考 [cs.LG, cs.AI, cs.CR, cs.CV, math.OC]目的:機械学習における忘れられた権利の実現に向けた機械アンラーニングの信頼性評価
- プライバシー保護の重要性が高まり,機械学習モデルからのデータ削除が求められている
- 既存のアンラーニング監査手法は,メンバーシップ推論攻撃(MIA)に依存しており,その信頼性に課題がある
- MIAの統計的限界を克服し,より信頼性の高いアンラーニング監査フレームワークを提案すること
- 従来のMIAでは,メンバーシップ推論の失敗が真の忘却を意味しないことを理論的に証明した
- 学習不要で効果的な新しい監査フレームワークである統計的MIA(SMIA)を提案し,分布比較による忘却率の算出を可能にした
- 実験により,SMIAは既存手法よりも信頼性が高く,計算コストも低いことが示された
視覚入力の破損を修復することによる視覚-言語-行動モデルのロバスト性向上 [cs.CV, cs.RO]目的:視覚-言語-行動モデルのロバスト性向上
- ロボットによる汎用的な操作において,知覚と制御を統合する視覚-言語-行動モデルが重要視されている。
- 現実世界での利用においては,視覚的なノイズや欠陥に対する脆弱性が課題となっている。
- 本研究は,センサーレベルの破損が視覚信号に及ぼす影響を軽減し,モデルの性能劣化を防ぐことを目指す。
- 提案手法であるCorruption Restoration Transformer (CRT) は,既存の視覚-言語-行動モデルに容易に組み込むことができる。
- CRTは,敵対的学習を用いて,破損した入力からクリーンな観測を復元し,高コストなファインチューニングを必要としない。
- 実験結果から,CRTがLIBEROやMeta-World等のベンチマークにおいて,視覚的な破損下でも高い成功率を維持できることが示された。
リモートセンシング画像とマルチモーダル大規模言語モデルによる意味論的認識を用いたUAV着陸地点評価 [cs.CL, cs.CL, cs.CV, cs.AI]目的:UAVの緊急着陸地点の評価手法
- UAVの利用拡大に伴い,安全な緊急着陸地点の自動評価が重要となっている。
- 従来の幾何学的センサーでは,人混みや仮設構造物などの意味的なリスクを検知できない。
- リモートセンシング画像と大規模言語モデルを用いて,より安全な着陸地点を特定すること。
- 提案手法は,従来の幾何学的手法と比較して,リスクの識別精度が大幅に向上した。
- 視覚的特徴とPOIデータを融合することで,潜在的な危険をより正確に検出することが示された。
- 生成された説明は人間が理解しやすいものであり,自動化された意思決定への信頼性を高める。
画像喚起感情の包括的評価のための統一データセットと多段階フレームワーク:EEmo-Logic [cs.CV]目的:画像喚起感情の多次元属性と強度のニュアンスの理解
- 機械共感の発展や多様な人間-コンピュータ間相互作用の実現に不可欠な研究分野である。
- 既存モデルは粗い感情認識に限られ,高度な推論能力に欠けているという課題があった。
- 包括的な感情解釈を可能にする大規模データセットと高性能モデルの開発を目指す。
- EEmoDBという画像喚起感情理解のための大規模データセットを構築した。
- EEmo-Logicという,指示微調整とGRPOを用いたMLLMを開発し,高い性能を示した。
- 本研究は,感情QAと微細な感情評価において,領域内およびクロスドメインデータセットで優れた結果を達成した。
カリキュラム選択と反カリキュラム促進による文脈連動型コンテンツセグメンテーションの改良 [cs.CV, cs.LG]目的:文脈連動型コンテンツセグメンテーションにおける表現の信頼性向上
- 生物学的学習の原理に基づき,困難なタスクへの段階的な適応が重要である。
- 従来のセグメンテーションネットワークは,アーキテクチャの改良に偏りがちで,頑健性の学習ダイナミクスが不十分である。
- 絡み合ったデータ分布下での頑健性を高めるための学習過程を改善すること。
- CurriSegは,サンプル損失の時系列統計に基づいて訓練データを動的に選択し,安定した能力向上を実現する。
- スペクトル盲目化微調整により,高周波成分を抑制し,低周波の構造的・文脈的特徴への依存を強化することで,汎化性能を高める。
- CurriSegは,多様なCECSeベンチマークにおいてパラメータ増加や学習時間増加なしに一貫した性能向上を達成した。
視覚情報と語義曖昧性の架け橋:視覚的語義曖昧性解消に関するミニレビュー [cs.SC, cs.RO, cs.SY, eess.SY, cs.CL, cs.CV]目的:視覚的語義曖昧性解消の発展と課題
- 画像と言語を結びつけることで,より高度な画像理解や自然言語処理が可能となる。
- 従来の語義曖昧性解消はテキストのみに依存し,視覚情報の活用が遅れていた。
- 視覚情報を活用し,少ないテキスト入力でも正確な語義を特定することを目指す。
- 2016年から2025年までの研究から,特徴量ベース,グラフベース,対照埋め込みの技術的進歩が明らかになった。
- CLIPベースのファインチューニングモデルやLLMを活用したシステムが,ゼロショットベースラインよりも6~8%高いMRRを達成している。
- CLIPの整合性,拡散生成,LLMの推論能力の融合が,文脈を理解し多言語に対応する次世代システムにつながると考えられる。
EMFormer:累積コンテキストを用いた効率的な多重スケールTransformerによる長期天気予報 [cs.CV]目的:長期天気予報の精度向上
- 社会経済計画や災害対策において,長期的な天気予報は不可欠である。
- 従来のファインチューニング手法では,記憶喪失,誤差の蓄積,高い学習コストが課題となっていた。
- 多重スケール特徴抽出の効率化と,時間的一貫性を維持しつつ短期予報精度を低下させない手法を開発する。
- 提案手法EMFormerは,単一の畳み込みで多重スケール特徴を効率的に抽出することで,計算コストを削減する。
- 累積コンテキストを用いたファインチューニングにより,長期予報の精度を大幅に向上させ,既存手法の性能を上回る。
- EMFormerはImageNet-1KやADE20Kといった画像認識ベンチマークでも高い汎化性能を示し,従来のモジュールと比較して5.69倍の高速化を実現する。
