arXiv雑要約

画像・音声 - 2025/12/22 公開

  • FlexAvatar:詳細な変形を持つアニメーション可能なガウスヘッドアバターのための柔軟な大規模再構成モデル [cs.CV]目的:アニメーション可能なガウスヘッドアバターの高品質3D再構成
    • 近年,3Dアバター生成技術は,仮想空間やコミュニケーションにおいて重要な役割を担っている。
    • 単一または疎な画像からの高品質な3Dアバター再構成は,カメラポーズや表情ラベルが不要で困難である。
    • カメラポーズや表情ラベルを必要とせず,詳細な変形を伴う3Dアバターの生成を可能にすること。
    • FlexAvatarは,Transformerベースの再構成モデルと軽量なUNetデコーダを組み合わせ,柔軟な入力に対応し,リアルタイムで詳細な表情変化を実現する。
    • 学習データの分布調整戦略により,シワや歯の露出などの希少な表情を効果的に捉え,再構成精度を向上させている。
    • 10秒間のリファインメント処理により,極端なアイデンティティの詳細を向上させつつ,変形品質を維持している。

    Link: https://arxiv.org/abs/2512.17717

  • ADAS搭載車のニアミス・衝突イベント分析用,一人称視点ソーシャルメディア動画データセット:SAVeD [cs.CV]目的:ADAS搭載車におけるニアミスおよび衝突イベント分析のための,一人称視点ソーシャルメディア動画データセット
    • 自動運転技術の安全性向上には,現実世界の多様な交通状況下での車両挙動データの収集が不可欠である。
    • 既存のデータセットは,シミュレーション環境や人手運転の車両データに偏っており,リスク条件下でのADAS車両の挙動を捉えていない。
    • 本研究は,ソーシャルメディアから収集した動画データセットを用いて,ADAS車両の安全性評価・改善に貢献することを目指す。
    • SAVeDは,2,119件の一人称視点動画から構成され,多様な環境,光条件,天候下でのADAS車両の運転状況を網羅している。
    • リアルタイム衝突予測(TTC)の算出フレームワークと,極値分布を用いたリスク評価手法を提案した。
    • SAVeDによる詳細なアノテーションが,最先端のVLLMの性能向上に寄与し,複雑なニアミスシナリオにおけるドメイン適応の有効性を示した。

    Link: https://arxiv.org/abs/2512.17724

  • MambaMIL+: ギガピクセル病理組織標本画像における長期的文脈パターンのモデリング [cs.CV]目的:ギガピクセル病理組織標本画像分析のための新しいMILフレームワーク
    • 計算病理学において,ギガピクセル画像は重要なデータであり,診断や分子予測,生存分析に役立つ。
    • 従来の深層学習モデルは,ギガピクセル画像の解像度やアノテーション不足により,効率的な分析が困難である。
    • MambaMIL+は,空間的文脈を明示的に統合し,記憶の減衰を防ぐことで,WSI分析の性能向上を目指す。
    • MambaMIL+は,オーバーラップスキャン,選択的ストライプ位置エンコーダ(S2PE),文脈的トークン選択(CTS)メカニズムを導入。
    • ResNet-50,PLIP,CONCHの3つの特徴抽出器において,診断分類,分子予測,生存分析の20のベンチマークで最先端の性能を達成。
    • 大規模な計算病理学において,MambaMIL+の有効性と堅牢性が示された。

    Link: https://arxiv.org/abs/2512.17726

  • AdaptPrompt:汎用的なディープフェイク検出のためのVLMのパラメータ効率的な適応 [cs.CV]目的:汎用的なディープフェイク検出のための手法
    • 画像生成技術の進歩により,ディープフェイクが容易に作成可能となり,検出の重要性が増している。
    • 既存の検出器は,特定の生成モデルで学習されるため,未知のモデルに対して汎化性能が低いという課題がある。
    • 多様な生成技術に対して汎化性能の高いディープフェイク検出手法を確立することを目指す。
    • 大規模な拡散生成フェイクデータセットDiff-Genを構築し,従来のGANデータセットよりも広範なスペクトルアーティファクトを捉えている。
    • AdaptPromptというパラメータ効率的な転移学習フレームワークを提案し,CLIPのバックボーンを固定したまま,タスク固有のテキストプロンプトと視覚アダプターを学習する。
    • 視覚エンコーダーの最終Transformerブロックをプルーニングすることで,高周波生成アーティファクトの保持が向上し,検出精度が大幅に向上することを示した。

    Link: https://arxiv.org/abs/2512.17730

  • パンプローナの音が変わるとき:インテリジェントな音響センサーと音響アーカイブによるサン・フェルミン祭の音響景観の変化 [cs.CL, cs.CY, cs.SD]目的:サン・フェルミン祭における都市音響景観の変化の分析
    • 都市生活の質を向上させるには,音環境の理解と管理が不可欠である。
    • 大規模イベントが都市の音響環境に及ぼす影響の定量的な把握が困難である。
    • サン・フェルミン祭のようなイベントが都市音響に与える影響を詳細に解明する。
    • パンプローナ市に設置された低コスト音響センサーネットワークにより,祭期間中の都市音響景観の有意な変化が明らかになった。
    • 祭期間中は,音圧レベルが大幅に上昇し,音響パターンが変化し,人間の活動に関連する音響が支配的になった。
    • 分散型スマート音響モニタリングシステムによる都市音響景観の時間的変動特性評価の可能性を示し,イベントの音響遺産の保存に貢献する。

    Link: https://arxiv.org/abs/2512.17740

  • 単一画像からのNPHM再構成回帰学習:Pix2NPHM [cs.CV, cs.AI]目的:単一画像からのNPHMパラメータ回帰
    • 顔認識や生成において,高精度な3D形状モデルは重要な役割を果たす。
    • 従来の3DMMでは詳細な形状表現が難しく,NPHMは高次元なため,画像からの適合が困難である。
    • 単一画像から高精度にNPHMを再構成し,顔の形状と表情を正確に再現することを目指す。
    • Pix2NPHMは,ViTネットワークを用いて単一画像から直接NPHMパラメータを回帰する手法である。
    • 従来のモデルと比較して,より認識可能な顔の形状と正確な表情を再構成できる。
    • 大規模な3Dデータと2Dビデオデータを用いて学習することで,高い汎化性能と処理速度を実現した。

    Link: https://arxiv.org/abs/2512.17773

  • LiteGE:効率的な測地線計算と非等角形状対応のための軽量測地線埋め込み [cs.CL, cs.CV, cs.GR]目的:3D形状の効率的な測地線計算と非等角形状対応
    • 3Dビジョンや形状処理において,測地線距離の計算は不可欠な要素である。
    • 既存の学習ベース手法は高性能だが,大規模なモデルが必要で,メモリ消費量と計算時間が課題。
    • メモリ効率と処理速度を向上させ,リソース制約下でも利用可能な手法を開発する。
    • LiteGEは,UDFサンプリングとPCAを利用した軽量な形状記述子を構築することで,高速な測地線計算を実現した。
    • 既存のニューラルアプローチと比較して,メモリ使用量と推論時間を最大300倍削減することに成功した。
    • 測地線距離と形状対応の関係を利用し,高速かつ正確な形状マッチングを可能にした。

    Link: https://arxiv.org/abs/2512.17781

  • UrbanDIFF:濃雲下の都市地表面温度空間欠損補完のためのノイズ除去拡散モデル [cs.CV]目的:都市地表面温度の空間的欠損補完
    • 都市熱島現象(SUHI)の監視に地表面温度は不可欠であり,広範囲な都市部を網羅的に分析できる。
    • 雲による汚染が地表面温度の観測を妨げ,継続的なSUHI分析の信頼性を低下させる問題がある。
    • 濃雲下においてもロバストに地表面温度を復元し,SUHI分析の精度向上を目指す。
    • UrbanDIFFは,従来の補間手法と比較して,特に濃い雲による遮蔽下で優れた性能を示すことが明らかになった。
    • 85%の雲被覆率下で,SSIM 0.89,RMSE 1.2 K,R2 0.84という高い評価指標を達成した。
    • 雲密度が増加しても,性能劣化の程度が緩やかであり,実用的なSUHI分析に貢献することが期待される。

    Link: https://arxiv.org/abs/2512.17782

  • CCTVカメラ用学習ベースのハイブリッド歪みモデルによる長距離深度推定 [cs.CV]目的:長距離における物体の位置特定を可能にする歪みモデルの構築
    • 3Dマッピングや物体位置特定など,写真測量技術は様々な分野で不可欠である。
    • 従来の歪みモデルでは,長距離での精度が課題であり,数百メートル以上の範囲での測定が困難である。
    • 本研究は,より長距離での位置特定を可能にする歪みモデルを提案することで,この課題を解決する。
    • 従来の歪みモデルを高次項で拡張し,ニューラルネットワークによる残差補正を組み合わせることで,収束性の問題を克服した。
    • 提案手法により,最大5キロメートルまでの長距離における3D位置推定が可能となり,従来よりも大幅な性能向上が確認された。
    • 推定された3D座標をGIS座標に変換し,GISマップ上で可視化することで,実用的な写真測量アプリケーションの実現に貢献する。

    Link: https://arxiv.org/abs/2512.17784

  • あらゆるキャラクターをあらゆる世界で動かす [cs.CV, cs.AI]目的:ユーザー指定のキャラクターによる多様な行動の実現
    • 仮想環境シミュレーションのインタラクティブ性が高まり,様々な応用が期待される分野である。
    • 既存手法では,静的な環境生成モデルか,単一エンティティの制御に限定されており,柔軟性に欠ける。
    • ユーザーが指定したキャラクターを自由に動かし,環境とインタラクションさせることを可能にする。
    • AniXは,静的な世界生成モデルと制御可能なエンティティモデルの利点を組み合わせることで,リアルなキャラクターアニメーションを実現する。
    • 自然言語による指示に基づいて,キャラクターは基本的な移動からオブジェクトとのインタラクションまで,多様な行動を環境内で実行できる。
    • 事前に学習されたビデオ生成モデルを活用することで,モーションのダイナミクスを向上させ,汎化性能を高めている。

    Link: https://arxiv.org/abs/2512.17796

  • 合唱:包括的な3Dガウスシーンエンコーディングのための複数教師事前学習 [cs.CE, q-bio.BM, cs.CV]目的:3Dガウススプラッティング(3DGS)シーンの包括的なエンコーダの学習
    • 3DGSは高忠実度なシーン表現として注目されているが,汎用的な特徴抽出は未開拓である。
    • 3DGSのプリミティブから直接豊富な特徴をエンコードする方法が課題となっていた。
    • 2Dの基礎モデルからの情報を蒸留することで,より包括的なエンコーダを学習する。
    • Chorusは,言語,汎化性能,物体認識能力を持つ複数の教師から情報を学習する。
    • 学習されたエンコーダは,セマンティックセグメンテーションやインスタンスセグメンテーションなどの様々なタスクで優れた性能を示した。
    • ポイントクラウドのみを扱うベンチマークでも,3DGSのエンコーダを応用し,大幅な性能向上を達成した。

    Link: https://arxiv.org/abs/2512.17817

  • ReX-MLE:医療画像処理の課題に対する自律エージェントのベンチマーク [cs.AR, eess.SP, cs.CV]目的:医療画像処理の課題に対する自律エージェントの性能評価
    • 医療画像処理は,診断精度向上に不可欠であり,医療の質を大きく左右する分野である。
    • 既存のベンチマークは,医療画像処理特有の複雑さ(前処理,学習,検証)を十分に評価できていない。
    • 本研究は,医療画像処理に特化した自律エージェントの性能評価基準を確立し,ボトルネックを明らかにすることを目指す。
    • ReX-MLEは,多様な医療画像コンペの課題から派生した20のベンチマークで構成されている。
    • 最先端エージェントの多くは,専門家と比較して0パーセンタイルにランクインするなど,著しい性能差が見られた。
    • 失敗の原因は,ドメイン知識の不足とエンジニアリングの限界にあることが示唆された。

    Link: https://arxiv.org/abs/2512.17838

  • InfSplign:テキスト画像拡散モデルの推論時空間的配置調整 [cs.CV, cs.AI]目的:テキスト画像拡散モデルにおける空間的配置の改善
    • 画像生成AIの発展に伴い,テキストの指示通りの配置が課題となっている。
    • 学習データの空間的指示の不足と,テキスト埋め込みの空間意味の表現力不足が問題である。
    • 推論時にノイズ調整により,オブジェクトの配置精度とバランスを改善する。
    • InfSplignは,推論時にクロースアテンションマップを用いてノイズを調整する軽量な手法である。
    • VISORとT2I-CompBenchの評価で,既存手法を上回り,最新技術を確立した。
    • ファインチューニングベースの手法をも凌駕する性能を示す。

    Link: https://arxiv.org/abs/2512.17851

  • 蛍光優位条件下におけるラマンスペクトルノイズ除去のためのシミュレーション駆動型深層学習フレームワーク [cs.CV]目的:蛍光優位条件下で取得されたラマンスペクトルのノイズ除去フレームワーク
    • ラマン分光法は,非破壊・ラベルフリーな分子分析が可能であり,生体医学診断において有用である。
    • 生体組織への応用では,弱いラマン散乱と強い蛍光背景により信号品質が低下する。
    • 物理に基づいたモデルと深層学習を組み合わせ,ラマンスペクトルの品質改善を目指す。
    • 統計的根拠に基づいたノイズモデルと深層学習を組み合わせたノイズ除去フレームワークを開発した。
    • 現実的なラマンスペクトルをシミュレーションし,検出器ノイズと蛍光干渉を抑制する深層ニューラルネットワークを訓練した。
    • ヒト皮膚スペクトルを用いた評価により,本手法がラマン分析の精度向上に貢献する可能性が示された。

    Link: https://arxiv.org/abs/2512.17852

  • 注意機構を強化したCNNによる解釈可能な植物葉病害検出 [cs.CV, cs.AI]目的:植物葉病害の解釈可能な検出手法
    • 世界的な食糧安全保障の確保は重要であり,病害の早期かつ正確な診断が不可欠である。
    • 既存の病害検出手法は,その判断根拠が不明確であるという課題がある。
    • 本研究は,AIの説明可能性を高め,信頼性の高い農業診断システムの開発を目指す。
    • 提案手法CBAM-VGG16は,5つの植物病害データセットにおいて高い精度(最大98.87%)を達成した。
    • CBAMモジュールを組み込むことで,特徴抽出と病害部位の特定能力が向上した。
    • CBAMアテンションマップ,Grad-CAM等の可視化により,モデルの判断根拠を明確に示すことができた。

    Link: https://arxiv.org/abs/2512.17864

  • 拡散モデルにおける不変スペクトル特徴の保存:InSPECT [cs.CV]目的:拡散モデルにおける不変スペクトル特徴の保存
    • 近年の画像生成技術において,拡散モデルは最先端の性能を達成している。
    • 拡散モデルは,データを白色ノイズに拡散してから再構成するため,計算コストが高い。
    • 不変スペクトル特徴を保存することで,生成品質と効率を向上させる。
    • InSPECTは,フォワード過程とバックワード過程の両方で不変スペクトル特徴を保持する。
    • 実験の結果,FIDを平均39.23%削減し,ISを45.80%向上させた。
    • InSPECTは,多様性,収束速度,拡散プロセスの滑らかさを改善する。

    Link: https://arxiv.org/abs/2512.17873

  • 視覚的プロンプトによるベンチマークは驚くほど脆い [cs.CV, cs.LG]目的:視覚的プロンプトに対するモデルの脆弱性の評価
    • マルチモーダルモデルの性能評価において,視覚情報の理解能力の重要性が増している。
    • 既存の視覚的プロンプトベンチマークは,微細な設定変化によって結果が左右される可能性がある。
    • ベンチマークの安定性を高めるため,多様な視覚的プロンプトを用いたデータセットを構築すること。
    • 既存のVLMは,視覚的プロンプトの些細な変更(例えば,マーカーの色)によってランキングが大きく変動することが示された。
    • 視覚マーカーのサイズ調整などにより,性能の低いモデルがより高いモデルを上回る結果が得られる場合がある。
    • JPEG圧縮レベル等の低レベルな設定もモデルの性能に影響を与えることが示され,安定した評価が困難であることが明らかになった。VPBenchという新しいベンチマークを提案した。

    Link: https://arxiv.org/abs/2512.17875

  • キーポイントカウント分類器:トレーニングなしでVision Transformerを自己説明可能なモデルへ [cs.CV]目的:自己説明可能なモデルの実現
    • 近年の画像認識分野では,Vision Transformerが重要な役割を担う。
    • 既存の自己説明可能なモデルは,複雑なトレーニングや特殊なアーキテクチャが必要。
    • Vision Transformerを再学習なしで自己説明可能にする方法の提案。
    • 本研究では,キーポイントカウント分類器(KCC)を提案し,既存のVision Transformerを自己説明可能なモデルへと変換する。
    • KCCは,画像間のキーポイントを高精度に特定するVision Transformerの能力を活用し,解釈性の高い意思決定プロセスを実現する。
    • 実験の結果,KCCは既存の手法と比較して,人間と機械のコミュニケーションを改善することが示された。

    Link: https://arxiv.org/abs/2512.17891

  • RadarGen:カメラ画像からの自動車用レーダー点群生成 [cs.HC, cs.CV, cs.AI, cs.LG, cs.RO]目的:自動車用レーダー点群の生成
    • 自動運転技術発展に不可欠なレーダー技術の性能向上は重要である。
    • 実世界のレーダーデータ収集にはコストと時間がかかるという課題がある。
    • カメラ画像からレーダーデータを生成し,データ収集の効率化を目指す。
    • RadarGenは,カメラ画像からリアルなレーダー点群を生成する拡散モデルである。
    • 生成されたレーダーデータは,実データで学習した知覚モデルとの差を縮小する。
    • 本手法は,マルチモーダルな生成シミュレーションへの道を開く。

    Link: https://arxiv.org/abs/2512.17897

  • マルチエージェント相互作用シーケンスモデリングのための拡散強制 [cs.CV, cs.RO]目的:マルチエージェントの運動生成
    • ロボティクスやソーシャルコンピューティングにおいて,複数人間の協調行動の理解と再現は重要である。
    • 既存の手法は特定のタスクに特化しており,柔軟なマルチエージェント生成には不向きである。
    • 様々な相互作用タスクに対応可能な汎用的な運動生成モデルを構築すること。
    • MAGNetは,拡散強制に基づく自己回帰型拡散モデルであり,柔軟な条件付けとサンプリングを可能にする。
    • 二者間予測,パートナー補完,複数エージェントの運動生成を単一のモデル内で実現し,長時間のシーケンス生成が可能である。
    • MAGNetは,二人間のベンチマークで専門的な手法と同等の性能を示し,3人以上のポリヤディックシナリオにも自然に拡張できる。

    Link: https://arxiv.org/abs/2512.17900

  • オープンファウンデーションモデルにおける視覚的頑健性 [cs.CV, cs.AI, cs.CR]目的:オープンウェイトの視覚言語モデルに対する敵対的攻撃の影響評価
    • 深層学習の普及に伴い,AIシステムの判断根拠の理解が重要となっている。
    • AIは微小な摂動によって容易に誤認識を誘発される可能性がある。
    • 視覚入力に対する敵対的攻撃の影響を評価し,モデルの脆弱性を明らかにする。
    • LLaVA-1.5-13BとLlama 3.2 Vision-8B-2に対し,視覚入力に対する敵対的攻撃(PGD)を試みた。
    • Llama 3.2 Visionは,LLaVAと比較して,高い摂動レベル下で性能低下が小さかった。
    • 視覚モダリティは,現代のオープンウェイト視覚言語モデルの性能を低下させる有効な攻撃経路であることが確認された。

    Link: https://arxiv.org/abs/2512.17902

  • 器用なワールドモデル [cs.CV]目的:3次元シーンと行動に基づいて,現実的なインタラクションを生成するビデオ拡散モデル
    • 現実環境のデジタルツイン作成が容易になったが,静的な描写に留まっており,インタラクティブな活用が課題である。
    • 既存のデジタルツインは静的であり,人間の行動による動的な変化を再現できないという問題点がある。
    • 人間の器用な行動が静的な3次元シーンに与える影響をモデル化し,インタラクティブなデジタルツインを実現することを目指す。
    • 提案手法DWMは,静的な3次元シーンと人間の手の動きに基づき,現実的なインタラクションを描写する動画を生成できる。
    • DWMは,カメラ視点とシーンの一貫性を保ちつつ,把持,開閉,移動といった物理的に妥当なインタラクションを可能にする。
    • ビデオ拡散に基づくインタラクティブなデジタルツイン構築への第一歩であり,人間の行動からのシミュレーションを可能にする。

    Link: https://arxiv.org/abs/2512.17907

  • あらゆるものの再深度推定:自己教師あり再照明によるテスト時深度洗練 [cs.CV, cs.AI, cs.LG]目的:単眼深度推定の精度向上
    • 現実世界の画像は学習データと分布が異なるため,汎化性能が課題となる。
    • 既存の基礎モデルは,学習分布から遠い現実世界の画像に対して課題を抱えている。
    • 2D拡散モデルの強力な事前知識を活用し,テスト時の自己教師あり学習でこのギャップを埋める。
    • 提案手法は,予測された深度マップを再照明し,入力を増強することで,ラベルなしの洗練を直接入力画像上で行う。
    • 形状からの陰影(SfS)のヒントを生成的な文脈で活用し,スコア蒸留サンプリング(SDS)を適用する。
    • エンコーダを固定し,中間埋め込みを更新し,デコーダを微調整することで,最適化の崩壊を防ぐ。

    Link: https://arxiv.org/abs/2512.17908

  • 意味と再構成の両方が重要である:表現エンコーダーをテキストから画像生成と編集の準備 [cs.CV]目的:表現エンコーダーの特徴量を生成タスクに適応するための枠組み
    • 画像生成と理解の統合が求められており,高次元特徴量の利用が注目されている。
    • 識別的特徴空間は正則化が不十分で,オフマニホールド潜在空間により不正確な構造が生じやすい。
    • 意味情報と詳細な情報をコンパクトに表現し,高精度な生成を可能にする。
    • 提案手法は,最先端の再構成性能,高速な収束,およびT2Iと編集タスクにおける大幅な性能向上を実現した。
    • 表現エンコーダーを堅牢な生成コンポーネントとして効果的に適応できることが検証された。
    • 意味とピクセル再構成目的により,潜在空間が正則化され,コンパクトな表現(96チャンネル,16x16ダウンサンプリング)が実現された。

    Link: https://arxiv.org/abs/2512.17909

  • Speech-FT:事前学習済みとファインチューニング済み音声表現モデルの融合によるクロスTask汎化能力の向上 [cs.CL, cs.AI, cs.SD]目的:クロスTask汎化能力を維持しつつ,ファインチューニングの利点を活かすこと
    • 音声表現モデルは様々な音声タスクに応用可能であり,その性能向上は重要である。
    • ファインチューニングは特定のタスク性能を向上させるが,汎化能力を低下させる可能性がある。
    • 表現の変化を抑制し,事前学習時の情報を維持することで,汎化能力の低下を防ぐことを目指す。
    • Speech-FTは,表現のドリフトを軽減するファインチューニングと,事前学習モデルとの重み空間補間を組み合わせる。
    • HuBERT, wav2vec 2.0などを用いた実験で,様々なファインチューニングシナリオにおいて性能が向上した。
    • SUPERBベンチマークにおいて,HuBERTを自動音声認識にファインチューニングした場合,PERRを5.17%から3.94%に,WERを6.38%から5.75%に,話者識別精度を81.86%から84.11%に改善した。

    Link: https://arxiv.org/abs/2502.12672

  • MRIに基づくアルツハイマー病多クラス(4クラス)分類のためのカラーマップ強化型Vision Transformer [eess.IV, cs.CV, cs.LG]目的:MRI画像を用いたアルツハイマー病の分類精度向上
    • アルツハイマー病の早期診断は,患者の生活の質を維持する上で極めて重要である。
    • 脳MRI画像における微細な構造変化は,従来の深層学習モデルによる特徴抽出を困難にする。
    • MRI画像にカラーマップを適用し,特徴抽出能力を高めることで,分類精度を向上させる。
    • 提案手法PseudoColorViT-Alzは,OASIS-1データセットにおいて99.79%の分類精度と100%のAUCを達成した。
    • これは,既存のCNNベースやSiameseネットワークなどの手法(精度96.1%~99.68%)を上回る最高水準の性能である。
    • カラーマップ強化とVision Transformerの組み合わせが,MRI画像を用いたアルツハイマー病分類を大幅に改善する。

    Link: https://arxiv.org/abs/2512.16964

  • 内円に関する4つの特殊なポンセレー三角形族 [math.MG, cs.GR]目的:内円に内接する特殊なポンセレー三角形族の記述
    • 幾何学研究は,空間認識能力の向上や,他の数学分野への応用が期待される。
    • ポンセレー三角形に関する研究は,特定の条件下での三角形の性質が不明な点が多い。
    • 内円に内接するポンセレー三角形族の特定の性質と保存則を明らかにすること。
    • 内円に関して,特定の三角形の中心を固定する4つの特殊なポンセレー三角形族を記述した。
    • これらの三角形族は,興味深い保存則を示すことが明らかになった。

    Link: https://arxiv.org/abs/2512.17440

  • 商業用自動音声認識とマルチモーダル大規模言語モデルを用いた構音障害者音声のゼロショット認識 [eess.AS, cs.SD]目的:構音障害者音声のゼロショット認識性能の評価
    • 音声に基づく人間機械インタラクションは重要だが,構音障害者の利用に課題がある。
    • 従来の音声認識は,構音障害者音声に対して著しく性能が低下する。
    • マルチモーダル大規模言語モデルのゼロショット能力を用いて,この課題を解決する。
    • 軽度の構音障害では,音声認識性能は通常の音声に近い水準に達する。
    • 重度の構音障害では,全てのシステムで高い語彙誤り率(WER)が確認された。
    • GPT-4oは,正確な書き起こしを促すプロンプトにより,WERを大幅に改善したが,Geminiモデルでは改善が見られなかった。

    Link: https://arxiv.org/abs/2512.17474

  • SkinGenBench:メラノーマ診断における合成皮膚鏡画像拡張のための生成モデルと前処理効果 [eess.IV, cs.CV, cs.LG]目的:メラノーマ診断のための合成皮膚鏡画像拡張における生成モデルと前処理の相互作用の評価
    • 皮膚がん,特にメラノーマは深刻な健康問題であり,早期発見と正確な診断が重要である。
    • 皮膚鏡画像データセットの規模が限られており,十分な学習データがないことが診断精度の向上を阻害している。
    • 生成モデルを用いたデータ拡張により,学習データ数を増やし,診断精度を向上させることを目指す。
    • StyleGAN2-ADAは,FIDおよびKIDスコアが最も低く,実データ分布により近い合成画像を生成した。
    • 拡散モデルは,知覚的な忠実度とクラスアンカリングの低下を伴い,分散の高いサンプルを生成した。
    • 合成データ拡張は,メラノーマ検出のF1スコアを8〜15%絶対的に向上させ,ViT-B/16はF1約0.88,ROC-AUC約0.98を達成した。

    Link: https://arxiv.org/abs/2512.17585

  • オーディオ応用におけるMEMSスピーカーのレビュー [eess.AS, cs.SD]目的:オーディオ応用におけるMEMSスピーカーの研究動向
    • 小型化・高性能化が求められるオーディオ機器において,MEMSスピーカーは有力な選択肢となる。
    • 従来のボイスコイルスピーカーに比べ,MEMSスピーカーの実用化には課題が残されている。
    • MEMSスピーカーの全帯域オーディオ性能実現に向けた研究開発の方向性を示す。
    • MEMSスピーカーは,圧電型が小型化と効率で優位性を示している。
    • 超音波パルスや熱音響など,様々な駆動原理に基づくMEMSスピーカーが存在する。
    • MEMSスピーカーのみによる全帯域オーディオ再生に向けた革新的なアプローチが期待される。

    Link: https://arxiv.org/abs/2512.17708

  • 乳癌術前化学療法治療反応予測のための経時的MRIと臨床データの整合性利用 [math.CO, cs.CC, quant-ph, cs.SC, math.OC, eess.IV, cs.CV, cs.LG]目的:乳癌患者における術前化学療法(NACT)の治療反応予測
    • 乳癌は女性のがんの中で罹患率が最も高く,早期発見と適切な治療が重要である。
    • NACTの効果を事前に予測することは難しく,患者への最適な治療計画の策定が課題である。
    • 経時的なMRI画像と臨床データを統合し,NACTの効果を予測するモデルを開発すること。
    • 画像登録に基づく特徴量抽出が,予測モデルの性能向上に一貫して貢献することが示された。
    • ラジゲノミクス特徴量を用いたロジスティック回帰モデルが,PCR分類でAUC 0.88,正解率 0.85,RFS分類でAUC 0.78,正解率 0.72と最も良好な性能を示した。
    • 画像登録法が経時的特徴量学習において有意に効果を発揮し,術前化学療法の反応予測に有用であることが示唆された。

    Link: https://arxiv.org/abs/2512.17759

  • MedNeXt-v2:大規模医療画像セグメンテーションのための3D ConvNeXtのスケール拡大 [eess.IV, cs.AI, cs.CV, cs.LG]目的:3D医療画像セグメンテーションにおける大規模教師あり表現学習のためのバックボーンネットワーク
    • 医療画像解析の精度向上は,疾患の早期発見や治療効果の向上に不可欠である。
    • 大規模事前学習におけるバックボーンネットワークの性能が十分に検討されていない。
    • 高性能なバックボーンネットワークを開発し,医療画像セグメンテーションの精度を向上させる。
    • MedNeXt-v2は,既存のバックボーンネットワークよりも優れた性能を示すことが確認された。
    • バックボーンネットワークの初期性能は,事前学習後の下流タスクの性能を予測する上で重要である。
    • モダリティ特化型事前学習は,フルファインチューニングを行う場合には効果は限定的である。

    Link: https://arxiv.org/abs/2512.17774

  • LN3DIFF++:高速3D生成のためのスケーラブルな潜在ニューラルフィールド拡散 [cs.CV]目的:高速,高品質,汎用的な条件付き3D生成
    • ニューラルレンダリングは進展しており,生成モデルや微分可能なレンダリング技術が重要視されている。
    • 2D拡散は成功しているものの,統合された3D拡散パイプラインは確立されていない。
    • 3D-awareな潜在空間での拡散モデル学習により,高速な3D生成を実現すること。
    • 本手法は,ShapeNetにおける3D生成において最先端の性能を達成した。
    • 単眼3D復元および様々なデータセットにおける条件付き3D生成においても優れた性能を示した。
    • 既存の3D拡散法と比較して推論速度が速く,インスタンスごとの最適化が不要である。

    Link: https://arxiv.org/abs/2403.12019

  • 拡散軌跡の時間的ダイナミクスを活用した起源帰属:ルーツの追跡 [cs.CV]目的:拡散モデル生成画像起源の特定
    • 画像生成AIの急速な発展に伴い,生成画像の信頼性確保が重要課題となっている。
    • 生成画像の出所特定技術は未成熟であり,悪用防止の足かせとなっている。
    • 拡散軌跡の解析による,より堅牢な起源特定手法の開発を目指す。
    • 拡散軌跡全体の時間的ダイナミクスが,画像起源の分類において有効であることが示された。
    • 従来の「Goldilocks zone」仮説(特定のノイズ除去段階のみで推論可能とする考え方)に異議を唱えた。
    • 分布シフトやモデル生成データの存在下における,既存のメンバーシップ推論手法の脆弱性を明らかにした。

    Link: https://arxiv.org/abs/2411.07449

  • エンジニアリング図面からグラフへ:TransformerによるP&IDのデジタル化 [cs.CV]目的:P&IDのデジタル化手法
    • プロセスや油圧システムの維持管理・運用効率向上に不可欠な技術分野である。
    • 従来の記号や線検出を分離する方法では,図面の構造を捉えきれないという課題があった。
    • Transformerモデルを用いて,記号と相互接続を同時に抽出することで構造理解を目指す。
    • 提案手法は,既存のモジュール式デジタル化手法と比較して,エッジ検出精度で25%以上の改善を達成した。
    • 複雑なエンジニアリング図面の構造理解において,Transformerモデルの有効性を示すことができた。
    • P&IDデジタル化の評価フレームワークを公開し,再現性を確保した。

    Link: https://arxiv.org/abs/2411.13929

  • UniGaussian:複数カメラモデルによる統一ガウス表現を用いたドライビングシーン再構築 [cs.CV, cs.AI]目的:都市部ドライビングシーンの再構築
    • 自動運転シミュレータのリアリティ向上に不可欠であり,現実世界の再現性が求められる。
    • 既存手法は主にピンホールカメラに焦点を当てており,魚眼カメラのシミュレーションが課題である。
    • 魚眼カメラを含む複数カメラモデルに対応可能な再構築手法を開発し,シミュレーションの精度向上を目指す。
    • 本手法は,魚眼カメラのレンズ歪みを考慮した微分可能なレンダリング手法を提案し,3Dガウス表現との互換性を高めた。
    • 異なるカメラモデルに適応するためのアフィン変換を適用し,複数のモダリティからの教師あり正則化を行うことで,統一的な3Dガウス表現を学習するフレームワークを構築した。
    • 実験結果から,提案手法は従来のシミュレーションよりも高いレンダリング品質と高速なレンダリング速度を実現することが示された。

    Link: https://arxiv.org/abs/2411.15355

  • 埋め込み駆動型データ蒸留による残差認識を用いた360度IQA [cs.CV, cs.LG]目的:360度画像品質評価のためのデータ選択とモデル効率化
    • 360度画像はVR/AR等で普及し,高品質な評価手法の重要性が高まっている。
    • データ駆動型IQAでは,データ選択の効率性が課題であり,冗長なデータが存在する。
    • 埋め込み類似度に基づき,情報量の多いデータサブセットを抽出することで効率的なIQAを目指す。
    • 提案手法は,既存のIQAモデルに容易に組み込むことが可能であり,汎用性が高い。
    • データ量を40-50%削減しつつ,既存モデルと同等以上の性能を実現した。
    • モデルの計算負荷を20-40%削減し,効率性と頑健性を両立できることを示した。

    Link: https://arxiv.org/abs/2412.12667

  • スパイク検出:スパイクニューラルネットワークによる高精度かつ省エネルギーな物体検出のためのより良い発火パターン [cs.CV]目的:スパイクニューラルネットワークを用いた高精度かつ省エネルギーな物体検出手法
    • 脳の動作原理に似ており,低消費電力で動作する次世代のニューラルネットワークとして注目されている。
    • 既存手法では,物体周辺のニューロンが同時に最大発火率に達し,特徴量の識別能力が低下する。
    • 発火パターンを最適化することで,高精度かつ省エネルギーな物体検出を実現する。
    • 提案手法SpikeDetは,COCO 2017データセットで52.2%の平均適合率(AP)を達成し,既存のSNNベースの手法を3.3%上回る性能を示した。
    • SpikeDetは,従来のSNN手法と比較して半分の消費電力で同等の性能を発揮する。
    • イベントベース,水中,低照度,高密度シーンなど,様々な物体検出タスクにおいても最高の性能を達成した。

    Link: https://arxiv.org/abs/2501.15151

  • 測地ウォーターシュタイン距離による3D細胞オーバーセグメンテーション補正 [cs.CV, cs.LG]目的:3D細胞オーバーセグメンテーションの補正
    • 細胞の形態や機能解析には正確なセグメンテーションが不可欠であり,生物学研究の基礎となる。
    • 3D細胞セグメンテーションでは,細胞が過剰に分割されるオーバーセグメンテーションが頻繁に発生し,精度を低下させる。
    • 本研究は,オーバーセグメンテーションを幾何学的に捉え,それを補正する手法を開発することで,セグメンテーション精度向上を目指す。
    • 提案手法は,2D幾何学的特徴と3Dトポロジー特徴を用いた事前学習済みの分類器により,オーバーセグメンテーションを特定し,補正する。
    • 新しい指標である測地ウォーターシュタイン距離を導入し,細胞マスク形状の変化を幾何学的に定量化することに成功した。
    • 植物および動物細胞データセットを用いた実験により,提案手法の有効性と汎化性能が確認された。

    Link: https://arxiv.org/abs/2502.01890

  • グラフ構造に基づく位置依存形状偏差予測・補正モデル [cs.CV, cs.LG]目的:3Dプリンティングにおける形状偏差の予測と補正
    • 工業規模の生産には高い幾何学的精度が不可欠であり,形状偏差のモデリングと補正は重要である。
    • 複雑な形状への汎用性や,バッチ生産における位置依存性の変動への対応が課題である。
    • 位置依存性のあるAM生産における幾何学的精度と正確性を保証することを目指す。
    • 提案手法はグラフベースのニューラルネットワークとGANを用いた新しいフレームワークである。
    • 様々な形状と位置での実験により,複雑な形状の偏差を予測し,バッチ生産に対応できることが示された。
    • 印刷空間全体での補正精度が大幅に向上し,位置依存性の変動に対応できることが確認された。

    Link: https://arxiv.org/abs/2502.09652

  • LookAhead Tuning: 部分的な回答プレビューによる安全な言語モデル [cs.CL, cs.CL, cs.AI, cs.CV, cs.LG, cs.MM]目的:言語モデルの安全性維持
    • 言語モデルは多様なタスクに対応できるが,安全性確保が重要である。
    • ファインチューニングは安全性への配慮が不十分になりやすい。
    • ファインチューニング時の安全性低下を抑制する手法の開発。
    • LookAhead Tuningは,回答のプレビューを通して,ファインチューニング時の安全性低下を抑制する。
    • 初期トークン分布への影響を最小限に抑え,組み込みの安全メカニズムを維持する。
    • 実験により,LookAhead Tuningは安全性と性能を両立することが示された。

    Link: https://arxiv.org/abs/2503.19041

  • 作る前に売る:パーソナライズされたAI生成アイテムによるEコマースの革新 [cs.HC, cs.IR, cs.AI, cs.CV]目的:AI生成アイテムによるEコマース製品デザインの効率化と,それを用いた新たなビジネスモデルの実現
    • Eコマースは小売業を大きく変革したが,製品デザインや在庫管理には依然として多くのコストがかかる。
    • 既存のEコマースワークフローは非効率であり,物理的なプロトタイプの作成に時間と資源を要する。
    • テキスト記述に基づいたパーソナライズされた画像生成により,需要予測に基づいた生産による効率化を目指す。
    • 提案手法PerFusionは,ユーザーのグループレベルでのパーソナライズされた嗜好を捉え,画像生成モデルの性能を向上させる。
    • オフラインおよびオンライン実験の結果,AI生成アイテムはクリック率とコンバージョン率でそれぞれ13%以上の相対的な改善が見られた。
    • AI生成アイテムは返品率を7.9%削減し,Eコマースプラットフォームに変革をもたらす可能性を示した。

    Link: https://arxiv.org/abs/2503.22182

  • VideoGameQA-Bench:ビデオゲーム品質保証のためのビジョン言語モデルの評価 [cs.CL, cs.CV, cs.AI]目的:ビデオゲーム品質保証におけるビジョン言語モデルの性能評価
    • ゲーム産業はエンタメ業界で最大の収益を上げ,開発効率向上が重要課題である。
    • 品質保証は労働集約的であり,自動化が困難な分野である。
    • 既存のベンチマークはゲームQA特有のニーズに対応できていない点を解決する。
    • 本研究では,ビデオゲームQAタスクを網羅する包括的なベンチマーク「VideoGameQA-Bench」を提案する。
    • このベンチマークは,視覚的な単体テスト,回帰テスト,グリッチ検出,バグレポート生成などを評価可能である。
    • ビデオゲームの画像および動画に対して,多様なゲームQA活動を評価できる。

    Link: https://arxiv.org/abs/2505.15952

  • CLIPにおける内在的テキストアンカーを用いた増分プロンプト調整による継続学習 [cs.CV]目的:継続学習における知識獲得と破滅的忘却の回避
    • 深層学習モデルの応用範囲拡大には,新知識獲得と既存知識の保持が不可欠である。
    • 既存の継続学習手法は複雑な設計や特定の仮定に依存し,CLIPの潜在能力を十分に活用できていない。
    • CLIPの内在的構造とテキスト表現の安定性を活用し,簡潔かつ効果的な継続学習手法を確立すること。
    • 提案手法TPPTは,テキストプロトタイプを安定したアンカーとして活用し,視覚プロンプトの学習を誘導する。
    • 双方向の監督学習により,新知識の獲得と忘却の軽減を両立させる。
    • 視覚プロンプトとテキストプロンプトの同時最適化(TPPT-VT)により,視覚と言語のギャップを縮小する。

    Link: https://arxiv.org/abs/2505.20680

  • 集合論的調律問題への解法 [cs.SD, eess.AS]目的:音楽の調律に関する新たな解法
    • 音楽における調律は,音の響きや心地よさに深く関わる重要な研究分野である。
    • 従来の調律理論では,不協和音や複雑な音色を十分に説明できない場合がある。
    • 集合論を用いて,調律における協和性を数学的に定量化することを試みる。
    • 本研究では,集合論を用いて協和性を「親和性」と「調和性」の二つの指標で定義した。
    • これらの指標に基づいて生成される音程の集合は,動的な調律システムとして利用可能である。
    • この手法は,純正律を一般化し,不協和音色や響き成分の寄与を統一的に扱うことを可能にする。

    Link: https://arxiv.org/abs/2506.13969

  • Holmes: パーソナライズされた大規模ビジョンモデルの有効かつ無害なモデル所有権検証:共通特徴の分離によるアプローチ [cs.CV, cs.AI]目的:大規模ビジョンモデルのモデル盗難に対する所有権検証方法
    • 大規模ビジョンモデルは様々なタスクで高い性能を発揮し,企業にとって重要な知的財産となっている。
    • 既存の防御方法は,ファインチューニングされたモデルには有効でなく,誤判定や新たなセキュリティリスクをもたらす可能性がある。
    • 本研究は,共通特徴を分離することで,個人化された大規模ビジョンモデルのモデル盗難を検出し,所有権を検証することを目的とする。
    • 提案手法では,まず被害モデルの共通特徴を保持しつつ,データセット固有の特徴を撹乱するシャドウモデルを作成する。
    • 次に,シャドウモデルと被害モデルの出力差分からデータセット固有の特徴を表現し,メタ分類器を用いて盗難モデルを識別する。
    • 最後に,仮説検定を用いてランダム性を軽減し,ロバスト性を向上させることで,モデルの所有権を検証する。

    Link: https://arxiv.org/abs/2507.00724

  • GenAIに基づく画像合成によるAI皮膚病変分類器の公平性評価の促進 [cs.CV, cs.AI, cs.LG]目的:AI皮膚病変分類器の公平性評価
    • 皮膚がん検診の効率化が期待される一方,AIのバイアスによる不公平性が懸念される。
    • 性別,年齢,人種などの多様な属性を反映した評価データセットの構築が困難である。
    • 生成AIを用いて公平性評価用の合成データを作成し,バイアスの検証を可能にする。
    • 実画像データセット(MILK10K)を用いた評価で,実画像と生成画像でモデルの分類傾向が類似していることが確認された。
    • DeepGuide,MelaNet,SkinLesionDensnetの3モデルで同様の結果が得られた。
    • 高品質な合成画像が,モデルの公平性検証を促進することが示された。

    Link: https://arxiv.org/abs/2507.17860

  • HOLODECK 2.0:ビジョン・言語ガイドによる3Dワールド生成と編集 [cs.CV, cs.GR]目的:3Dワールド生成と編集のためのフレームワーク
    • ゲーム,アート制作,VRなど多様な分野で3Dシーン生成の重要性が高まっている。
    • 既存の方法では,広範囲なシーン生成や柔軟な編集が困難であるという課題がある。
    • 詳細なテキスト記述に基づいた高品質な3Dシーン生成と,人間によるフィードバックを反映した編集を可能にすること。
    • HOLODECK 2.0は,現実的,漫画風,アニメ風,サイバーパンク風など,多様なスタイルの3Dシーンを生成できる。
    • このフレームワークは,詳細なテキスト記述との整合性が高く,屋内および屋外環境の両方に対応している。
    • 人間およびモデルによる評価において,HOLODECK 2.0は既存手法を上回り,ゲームデザインの効率化にも貢献する。

    Link: https://arxiv.org/abs/2508.05899

  • 複数ページ文書理解のためのエビデンスページ誘導型GRPO:DocR1 [cs.RO, cs.HC, cs.CY, cs.CV]目的:複数ページ文書理解のためのマルチモーダル大規模言語モデルの性能向上
    • 近年の大規模言語モデルの発展に伴い,複雑な文書理解への期待が高まっている。
    • 複数ページにわたる文書の理解は,視覚的情報と複数段階の推論を必要とし,困難である。
    • エビデンスページ誘導型GRPOにより,関連ページの検索と回答生成を段階的に行うことで,複数ページ文書理解の精度向上を目指す。
    • 提案手法DocR1は,既存のマルチモーダル大規模言語モデルを強化学習によって訓練し,複数ページ文書理解において最先端の性能を達成した。
    • エビデンスを意識した報酬メカニズムにより,モデルはまず関連ページを検索し,その後回答を生成する粗→精な推論戦略を獲得した。
    • 科学論文に基づいた評価ベンチマークArxivFullQAを新たに構築し,提案手法の有効性を検証した。

    Link: https://arxiv.org/abs/2508.07313

  • CLIPテクスチャ・形状バイアスの動的進化とその人間との整合性およびモデルの頑健性との関係 [cs.HC, cs.IR, cs.CV]目的:CLIPモデルの学習におけるテクスチャ・形状バイアスの進化,人間知覚との整合性,およびモデルの頑健性の関係の解明
    • 画像とテキストの対応学習モデルは高度な汎化能力を示す。その内部表現の進化メカニズムの理解は重要である。
    • 既存研究は学習済みモデルの解析に偏っており,表現バイアスや知覚的整合性の学習過程は未解明である。
    • 本研究は,CLIPモデルの学習段階における表現の変化を詳細に分析し,知覚的整合性と頑健性のトレードオフを明らかにする。
    • 学習初期段階ではテクスチャバイアスが強く,低レベル知覚指標との整合性が高い。ノイズに対する感受性も高い。
    • 学習が進むにつれてテクスチャバイアスは減少し,形状に基づく表現に移行。ノイズに対する頑健性が向上し,低レベル知覚指標との整合性は低下する。
    • これらのダイナミクスは,CLIPモデルの規模に関わらず一貫して観察され,視覚言語モデルの表現学習における知覚的整合性と頑健性の関係を示唆する。

    Link: https://arxiv.org/abs/2508.09814