arXiv雑要約

AI - 2026/03/16 公開

  • ABAW-10競技会におけるHSEmotionチーム:表情認識,価感情・喚起度推定,AU検出,および微細な暴力分類 [cs.CV, cs.AI]目的:表情認識,価感情・喚起度推定,行動単位検出,微細な暴力分類の性能向上
    • 人間の感情理解は,人間とコンピュータ間の自然なコミュニケーションに不可欠である。
    • 自然環境下での感情認識は,照明,ポーズ,オクルージョンなどの要因により困難である。
    • 既存手法の性能向上と,よりロバストな感情認識システムの開発が求められている。
    • 本研究では,事前学習済みのEfficientNetベースの感情認識モデルを用いた高速なアプローチを提案した。
    • モデルの信頼度が閾値を超える場合,その予測が使用され,そうでない場合は,多層パーセプトロンに埋め込みを入力する。
    • ABAWチャレンジにおける4つのタスクで,提案手法が既存のベースラインよりも有意に高い検証指標を達成した。

    Link: https://arxiv.org/abs/2603.12693

  • RXNRECer:活性学習とタンパク質言語モデルによる酵素機能の精密な注釈 [cs.LG, q-bio.QM]目的:酵素が触媒する生化学反応の特定
    • 酵素は生命活動に不可欠であり,その機能理解は生命科学研究の根幹である。
    • 既存手法はEC番号を介するため,EC番号と反応の多対多の関係やデータベースの不整合が問題となる。
    • EC番号に依存せず,直接酵素触媒反応を予測することで,より正確で解釈可能な機能注釈を目指す。
    • RXNRECerは,6つのEC番号ベースラインと比較して,F1スコアで16.54%,正解率で15.43%の改善を実証した。
    • タンパク質言語モデルと活性学習を統合し,高レベルな配列の意味と微細な変換パターンを捉えることに成功した。
    • プロテオーム全体の反応注釈,汎用的な反応スキームの改良,未キュレーションタンパク質の系統的な注釈,酵素の多機能性の信頼性の高い特定に貢献する。

    Link: https://arxiv.org/abs/2603.12694

  • 視線を合わせる:人間とAIの協働における共有された一人称視点を通じた認知的な整合性の実現 [cs.CL, cs.HC, cs.AI]目的:人間とAIの協働における認知的な整合性の実現
    • AI技術の発展に伴い,人間とAIが協力してタスクを遂行する場面が増加している。
    • 既存のAIアシスタントは,人間の意図を正確に理解し,効果的に連携することが課題である。
    • 人間の視点とAIの視点を一致させることで,コミュニケーションと理解のギャップを埋める。
    • Eye2Eyeは,タスク完了時間とインタラクションの負担を大幅に削減することを示した。
    • 本研究は,人間の視点を取り入れることで,AIの理解度と協調性を向上させることを実証した。
    • Eye2Eyeの構成要素が連携することで,人間とAIの協働が改善されることが確認された。

    Link: https://arxiv.org/abs/2603.12701

  • 階層型LLM推論による詳細な複数テーブル検索 (FGTR) [cs.IR, cs.CL, cs.LG]目的:詳細な複数テーブル検索のための手法
    • テーブル検索は,構造化データへのアクセスを容易にし,情報探索の効率化に貢献する。
    • 既存手法は,テーブル全体を粗粒度でエンコードするため,精度が低く,大規模テーブルでは非効率である。
    • 本研究は,LLMの推論能力を活用し,より正確かつ効率的な詳細な複数テーブル検索を実現する。
    • FGTRは,スキーマ要素を階層的に特定し,対応するセルの内容を検索することで,クエリに合致する簡潔なサブテーブルを構築する。
    • SpiderとBIRDに基づく新しいベンチマークデータセットを用いた評価により,FGTRが既存の最先端手法を凌駕することが示された。
    • SpiderではF_2スコアが18%,BIRDでは21%改善され,詳細な検索の有効性とテーブルベースのダウンストリームタスクへの貢献が示唆された。

    Link: https://arxiv.org/abs/2603.12702

  • クロス階層GPU異質性による費用対効果の高いマルチモーダルLLM推論 [cs.LG, cs.AI, cs.DC]目的:マルチモーダル大規模言語モデル推論における費用対効果の最大化
    • マルチモーダルLLMは多様な応用を可能にするが,計算資源の消費が課題となっている。
    • 既存の推論システムは,GPU間のデータ転送量が多く,高性能なインターコネクトが必要となる。
    • モダリティ境界での分割により,データ転送量を削減し,より安価なハードウェア構成での推論を実現する。
    • モダリティ境界での分割は,GPU間のデータ転送量を大幅に削減し,ステージレベルの分割と比較してコスト効率が良いことが示された。
    • HeteroServeというフェーズ認識ランタイムを構築し,LLaVA-1.5-7BとQwen2.5-VLで評価した結果,スループットが最大54%向上した。
    • 固定予算下では,異質クラスタの方が同等ハードウェアの均質クラスタよりもトークンあたりのコストを37%削減できた。

    Link: https://arxiv.org/abs/2603.12707

  • LLMベースのウェブエージェントのためのAIプランニングフレームワーク [cs.AI, cs.CL]目的:LLMベースのウェブエージェントのプランニングと診断に関するフレームワーク
    • ウェブタスク自動化はAIにおける重要な課題であり,実用的な応用範囲が広い。
    • LLMエージェントの意思決定プロセスが不透明であり,失敗原因の特定が困難である。
    • ウェブタスクを逐次的な意思決定問題として捉え,エージェントのプランニングを分析する。
    • 現代のエージェントアーキテクチャと伝統的なプランニングパラダイム(BFS,Tree Search,DFS)の対応関係を明確化した。
    • コンテキストドリフトやタスク分解の不整合といったシステム障害の診断を可能にする。
    • Step-by-Stepエージェントは人間の模倣に優れる一方,Full-Plan-in-Advanceエージェントは要素の正確性で勝ることを示した。

    Link: https://arxiv.org/abs/2603.12710

  • ICLベースのCADコード生成のための設計仕様タイリング [cs.SE, cs.LG]目的:設計仕様内の要求を最大限に満たすための模範選択
    • CADコード生成は専門性が高く,LLMではデータ不足が課題である。
    • 既存の模範選択戦略は冗長な選択を生み,複雑な設計要求に対応できない。
    • 設計仕様内のすべての要求を満たす知識の充足度を最大化することを目指す。
    • 設計仕様タイリング(DST)により,知識充足度をタイル化率として定量化する。
    • DSTはサブモジュール最大化問題として定式化され,貪欲法により効率的に解ける。
    • 実験により,DSTが既存戦略を上回り,CADコード生成の品質を大幅に向上させることが示された。

    Link: https://arxiv.org/abs/2603.12712

  • UNIStainNet:基盤モデルに基づくH&E画像からのIHCバーチャル染色 [cs.CV, cs.LG, eess.IV]目的:H&E画像からのIHCバーチャル染色による診断加速
    • 病理診断の迅速化が求められており,追加の組織学的検査の負担軽減が重要。
    • 限られた組織サンプルでの繰り返し染色が課題であり,効率的な手法が求められる。
    • 病理基盤モデルを活用し,高精度なバーチャル染色を実現し,診断支援を行う。
    • UNIStainNetは,MISTデータセットにおいて4種類のIHC染色全てで最先端の性能を達成した。
    • BCIデータセットにおいても,最高の分布指標を達成し,汎用性の高さを示した。
    • 残存する誤差は非腫瘍組織に集中しており,今後の改善の方向性を示唆している。

    Link: https://arxiv.org/abs/2603.12716

  • 思考の変化,行動の変化:VLAロボット操作におけるChain-of-Thought脆弱性の探求 [cs.RO, cs.AI, cs.LG]目的:VLA(Vision-Language-Action)モデルにおけるChain-of-Thought(CoT)推論の中間計画に対する脆弱性の検証
    • VLAモデルはロボット操作において重要な役割を担うため,その信頼性・安全性の確保が不可欠である。
    • VLAモデルの推論過程における中間計画は,外部からの検証を受けにくく,潜在的な脆弱性を抱える。
    • 中間計画の改ざんがロボットのタスク遂行能力に及ぼす影響を明らかにすることで,VLAモデルの安全性を向上させる。
    • 中間計画におけるオブジェクト名の置換は,全体の成功率を8.3%低下させ,特にゴール条件付きタスクや個別タスクにおいて顕著な影響が見られた。
    • 文の並び替え,空間方向の反転,ノイズの付加,大規模言語モデルによる計画生成は,成功率にほとんど影響を与えなかった。
    • 推論機能を持たないVLAではこの脆弱性は確認されず,中間計画に対する攻撃が入力検証防御を回避できることが示された。

    Link: https://arxiv.org/abs/2603.12717

  • IGASA:点群登録のための統合された幾何学的認識およびスキップ注意モジュール [cs.CV, cs.AI]目的:点群登録の精度向上
    • 3Dビジョン技術は,自動運転やロボティクスなど,多様な応用分野で不可欠である。
    • 現実世界の点群データは,ノイズや遮蔽,大規模な変換の影響を受けやすく,登録精度が低下する。
    • 複雑な環境下でもロバストな点群登録を可能にする新しいフレームワークを開発すること。
    • 提案手法IGASAは,複数のベンチマークデータセットにおいて,最先端手法を大幅に上回る登録精度を達成した。
    • IGASAは,階層ピラミッド構造と,スキップ注意機構,幾何学的認識による洗練化モジュールを統合することで,多様な点群構造に適応する。
    • 本研究は,実用的な3Dビジョンアプリケーションのための点群登録技術の発展に貢献する基盤を提供する。

    Link: https://arxiv.org/abs/2603.12719

  • CMHANet:点群登録のためのクロスモーダルハイブリッドアテンションネットワーク [cs.CV, cs.AI]目的:点群登録の精度とロバスト性の向上
    • 3Dコンピュータビジョンは,大規模3D再構成や拡張現実など,多様な応用分野で不可欠である。
    • 既存手法は,不完全なデータやノイズ,低オーバーラップ領域といった現実世界の複雑な状況下で性能が低下する。
    • 本研究は,2D画像と3D点群の融合によるロバストな特徴表現を獲得し,点群登録の課題を解決する。
    • 提案手法CMHANetは,3DMatchおよび3DLoMatchデータセットにおいて,既存手法を上回る点群登録精度を達成した。
    • CMHANetは,2D画像からの文脈情報と3D点群の幾何学的詳細を融合することで,より包括的で堅牢な特徴表現を実現する。
    • TUM RGB-D SLAMデータセットでのゼロショット評価により,未知のドメインへの汎化能力が確認された。

    Link: https://arxiv.org/abs/2603.12721

  • CognitionCapturerPro:EEG/MEGからの高精度な視覚デコーディング:マルチモーダル情報と非対称なアライメントに向けて [cs.CV, cs.AI]目的:EEGからの視覚刺激再構成の精度向上
    • 脳活動と視覚情報の関係解明は,認知科学やブレイン・マシン・インターフェースの発展に不可欠である。
    • EEGからの視覚情報復元は,情報損失や表現のずれにより,十分な精度が得られていない。
    • マルチモーダル情報と新たなアライメント手法を用いて,視覚復元の精度向上を目指す。
    • 提案手法CognitionCapturerProは,画像,テキスト,深度,エッジといったマルチモーダル情報を統合的に活用する。
    • 不確実性に基づいた類似度スコアリング機構と融合エンコーダにより,モダリティ固有の忠実度を定量化し,共有表現を統合する。
    • THINGS-EEGデータセットにおいて,Top-1とTop-5の検索精度がそれぞれ25.9%と10.6%向上し,既存手法を大きく上回る結果が得られた。

    Link: https://arxiv.org/abs/2603.12722

  • SciDesignBench:科学的逆設計のための言語モデルのベンチマークと改善 [cs.LG]目的:科学的逆設計タスクに対する言語モデルの性能評価と改善
    • 科学技術の発展において,目的とする結果を達成する設計の探索は不可欠である。
    • 組み合わせ設計空間の探索は計算コストが高く,効率的な手法が求められている。
    • シミュレータを用いたフィードバックを活用し,言語モデルの科学的逆設計能力の向上を目指す。
    • SciDesignBenchは,14の科学分野における520のシミュレータに基づいたタスクを網羅したベンチマークである。
    • 既存の言語モデルは,科学的逆設計において必ずしも高い性能を発揮しないことが示された。
    • シミュレータフィードバックを用いた学習手法RLSFにより,単一ターンでの成功率が8〜17%向上した。

    Link: https://arxiv.org/abs/2603.12724

  • 一般化可能な時空間予測のためのグラフを用いたインコンテキスト演算子ネットワーク [cs.LG, cs.AI]目的:一般化可能な時空間予測における演算子学習の性能評価
    • 時空間予測は,環境科学や都市計画など,多くの分野で不可欠である。
    • 既存手法では,演算子学習の性能がデータセットに大きく依存する問題がある。
    • 本研究では,インコンテキスト演算子学習を用いてこの問題を解決することを目指す。
    • インコンテキスト演算子学習は,同じ学習データを使用する従来の演算子学習よりも複雑なタスクで優れた性能を発揮する。
    • 提案手法GICONは,グラフメッセージパッシングと例に依存した位置エンコーディングを組み合わせることで,幾何学的な一般化と基数の一般化を実現する。
    • 中国の二つの地域における空気質予測実験により,少ない訓練例数から100例数まで,頑健にスケールし,空間ドメイン全体で一般化できることが示された。

    Link: https://arxiv.org/abs/2603.12725

  • アンカー付きアライメント:マルチモーダル推薦システムのポジショナルコラプス抑制 [cs.IR, cs.LG]目的:マルチモーダル推薦システムにおけるポジショナルコラプスの抑制
    • 推薦システムは,情報過多な現代において,ユーザーに最適なアイテムを提示する上で不可欠である。
    • 既存のマルチモーダル推薦システムでは,モダリティ特有の構造が曖昧になり,ID優位性が強まる問題がある。
    • アンカーRecは,モダリティ間の整合性を維持しつつ,ポジショナルコラプスを回避することを目指す。
    • 提案手法AnchorRecは,軽量な射影領域でアンカーベースのアライメントを間接的に行うことで,各モダリティの構造を維持する。
    • Amazonの4つのデータセットを用いた実験により,AnchorRecが競争力のあるTop-N推薦精度を達成することが示された。
    • 定性分析により,AnchorRecがマルチモーダル表現の表現力とコヒーレンスを向上させることが確認された。

    Link: https://arxiv.org/abs/2603.12726

  • 海洋ディーゼルエンジンの壊滅的故障の早期検知における機械学習の利用 [cs.HC, cs.RO, cs.AI]目的:海洋ディーゼルエンジンの壊滅的故障の早期検知手法
    • 船舶の安全運航に不可欠であり,人命や財産保護に繋がる重要な研究分野である。
    • 従来の故障検知は緩やかな劣化に焦点を当てており,突発的な異常現象への対応が遅れる場合がある。
    • 本研究は,突発的な異常を早期に検知し,深刻な事故を未然に防ぐことを目指す。
    • 実際の故障データに基づき,センサー値と期待値の偏差の微分を用いることで,従来の異常検知よりも早期に兆候を捉えることが可能となった。
    • Random Forestアルゴリズムが最も有効であり,異常な動きの兆候を早期に検知し,オペレーターへの警告とエンジンの安全な停止を支援する。
    • シミュレーション結果と実データ検証により,提案手法の有効性と実用性が確認された。データ拡張技術により学習データ不足の問題も克服している。

    Link: https://arxiv.org/abs/2603.12733

  • 線形減衰スパイクニューラルネットワークのためのSRAMベースのCompute-in-Memoryアクセラレータ [cs.RO, cs.MA, cs.NE, cs.AI, cs.AR]目的:線形減衰型Leaky Integrate-and-Fireニューロンを用いたSNNのCompute-in-Memoryアクセラレータの提案
    • 近年,脳の動作原理にヒントを得たSNNが,省電力な次世代コンピューティングとして注目されている。
    • SNNの推論におけるボトルネックは,ニューロン膜電位の更新処理の逐次性による遅延と消費電力である。
    • SRAMを用いたCompute-in-Memoryアーキテクチャによる膜電位の並列更新を可能にし,SNNの性能を向上させる。
    • 提案手法では,膜電位の指数減衰を線形近似することで,複雑な乗算演算を単純な加算に置き換え,計算量を削減した。
    • SRAMアレイ内で膜電位をインプレースで減衰させる並列更新スキームを導入し,グローバルな逐次更新の必要性をなくした。
    • ベンチマークSNNワークロードにおいて,SOPエネルギー消費量を1.1倍~16.7倍削減し,エネルギー効率を15.9倍~69倍向上させた。

    Link: https://arxiv.org/abs/2603.12739

  • ToolTree: 二重フィードバックモンテカルロ木探索と双方向プルーニングによる効率的なLLMエージェントツール計画 [cs.AI]目的:LLMエージェントのツール計画の効率化
    • 複雑なタスクにおいて,LLMエージェントが多様なツールを効果的に活用する重要性が高まっている。
    • 既存のツール計画手法は貪欲性が強く,ツール間の依存関係を考慮しないため,先見性に欠ける。
    • ツール使用経路の探索とプルーニングを通じて,より賢明で適応的な意思決定を可能にすること。
    • ToolTreeは,モンテカルロ木探索に着想を得た新たな計画パラダイムであり,LLMによる二段階評価と双方向プルーニングを採用している。
    • 実験結果から,ToolTreeは4つのベンチマークにおいて,既存の最先端の計画パラダイムと比較して平均10%程度の性能向上を達成した。
    • ToolTreeは,高い効率性を維持しながら,ツール計画の性能を継続的に改善することが示された。

    Link: https://arxiv.org/abs/2603.12740

  • クロスモーダル知識転移を活用した知識に基づいた概念カスタマイズ [cs.CY, cs.HC, cs.CV, cs.AI, cs.CL]目的:知識に基づいた概念カスタマイズの実現
    • 画像生成における概念の制御は重要であり,多様な表現を可能にする。
    • 稀なトークンを用いたカスタマイズは不安定で,概念の本質的な知識を反映しにくい。
    • テキスト知識を視覚的概念に効果的に結びつけ,高精度なカスタマイズを実現する。
    • 提案手法MoKusは,テキストモーダル内の知識の変更を視覚モーダルに転移させることで,高精度なカスタマイズを実現した。
    • KnowCusBenchという新しいベンチマークを導入し,MoKusが最先端手法を上回る性能を示すことを実証した。
    • 知識転移の容易性から,仮想概念の生成や概念の消去といった応用への拡張も可能であることが示された。

    Link: https://arxiv.org/abs/2603.12743

  • TaoBench: 自動定理証明LLMはMathLibを超えて一般化するか [cs.LG, cs.AI, cs.LO]目的:自動定理証明における定義体系の一般化能力の評価
    • 数学の自動化は,形式的な検証を通じて数学の信頼性を高め,新たな発見を促進する上で重要である。
    • 既存の定理証明ベンチマークはMathLibに偏っており,多様な定義体系への対応が課題となっていた。
    • 本研究は,MathLibに依存しない定義体系での定理証明性能を評価し,一般化能力の限界を明らかにすることを目指す。
    • 既存の最先端モデルはMathLibフレームワーク内では高い性能を示すが,TaoBenchの定義体系では平均で約26%の性能低下が見られた。
    • 性能低下の原因は,問題の難易度よりも,定義体系に依存した一般化能力の限界にあることが示唆された。
    • TaoBenchは,ベンチマーク性能と実用数学との乖離を明らかにし,研究数学に適した定理証明器開発の基盤を提供する。

    Link: https://arxiv.org/abs/2603.12744

  • 拡散モデルにおける意味的潜在的注入:画像ウォーターマーキングのための区画化埋め込み [cs.CV, cs.CR, cs.LG]目的:画像出所の検証可能性向上
    • デジタルコンテンツの改ざん防止は,信頼性の確保において不可欠である。
    • 従来のウォーターマークは,改ざんや攻撃に対して脆弱な場合がある。
    • 意味情報を活用し,局所的な改ざん検出と特定を可能にすることを目指す。
    • 提案手法SLICEは,画像の意味要素を4つの要因に分離し,ガウスノイズの異なる領域に精密に固定する。
    • これにより,局所的な意味的編集に対する耐性を高め,改ざんの検出と局所化を可能にする。
    • 実験結果から,SLICEは既存手法と比較して,高度な意味的再生成攻撃に対して優れた性能を示す。

    Link: https://arxiv.org/abs/2603.12749

  • 見せることこそが重要:人間のビデオを見て新規オブジェクトを検出する [cs.CV, cs.LG, cs.RO]目的:新規オブジェクトの検出と認識
    • ロボットが人間と協調するためには,未知の物体を即座に認識する能力が不可欠である。
    • 既存の物体検出器は,学習データに含まれない物体に対して性能が低下する課題がある。
    • 人間のデモンストレーションから自動的にデータセットを作成し,言語記述なしに新規オブジェクトを検出すること。
    • 本研究では,「見せることこそが重要」というパラダイムに基づき,言語を介さずに物体検出器を訓練する手法を提案した。
    • 提案手法は,既存の物体検出・認識手法と比較して,操作対象物の検出性能を大幅に向上させた。
    • これにより,ロボットのタスク完了率の改善に貢献できることが示された。

    Link: https://arxiv.org/abs/2603.12751

  • 長尾の制御:LLMベースの推薦システムのための効率的な項目ごとのシャープネス認識最小化 [cs.IR, cs.LG]目的:LLMベース推薦システムにおける長尾問題への対策
    • 推薦システムの精度向上は,ユーザー体験とビジネス成果に直結するため,重要な研究課題である。
    • 推薦データに偏りがあり,人気のある項目(ヘッド)ばかりが推薦され,そうでない項目(テール)が無視される長尾問題が存在する。
    • LLMベース推薦システムに特有な長尾問題に対処し,テール項目の推薦性能を向上させることを目指す。
    • 提案手法EISAMは,項目レベルで損失関数の形状を調整することで,テール項目の推薦性能を大幅に改善する。
    • EISAMは,計算効率を維持しつつ,項目ごとのシャープネスを捉える効率的なペナルティ設計を導入している。
    • 理論的な解析により,EISAMの項目ごとの正則化がより速い収束率を示すことが示され,その有効性が裏付けられている。

    Link: https://arxiv.org/abs/2603.12752

  • ロジット再分配によるAIモデルの調整 [cs.CL, cs.AI]目的:AIモデルの多様な動作の実現
    • AIモデルは様々なニーズに対応する必要があるため,調整技術が重要となる。
    • モデルの特殊版を複数維持することは非効率である。
    • 単一のモデルで多様な動作を実現し,効率的な調整を行う。
    • 提案手法AIMは,モデルの出力品質や注視する入力特徴を動的に制御可能である。
    • AIMは,訓練データや再学習を必要としないロジット再分配戦略を用いる。
    • 画像分類,セマンティックセグメンテーション,テキスト生成など,多様なタスクで有効性が確認された。

    Link: https://arxiv.org/abs/2603.12755

  • FC-Track:オンライン多物体追跡のためのオーバーラップを考慮した事後アソシエーション補正 [cs.CV, cs.AI]目的:オンライン多物体追跡におけるIDスイッチの軽減
    • ロボットシステムが複雑な環境で動作する上で,信頼性の高い多物体追跡は不可欠である。
    • 遮蔽や物体同士の重なりによりIDスイッチが発生しやすく,追跡の信頼性を損なう。
    • 重なりによる誤ったアソシエーションを防ぎ,長期的なIDスイッチを抑制することを目指す。
    • 提案手法FC-Trackは,IoAに基づき重なり状況下での信頼性の低い外観更新を抑制する。
    • 重なり合ったトラックレットペア間での外観類似度比較により,検出とトラックレットの誤ったアソシエーションを局所的に補正する。
    • MOT17およびMOT20データセットで高い追跡性能と,既存のオンライントラッカーと比較して低い長期IDスイッチ率を達成した。

    Link: https://arxiv.org/abs/2603.12758

  • TerraFlow:地球観測のためのマルチモーダル,マルチテンポラル表現学習 [cs.CV, cs.LG]目的:地球観測におけるマルチモーダル,マルチテンポラル表現学習
    • 地球規模課題解決に貢献するため,多様な地球観測データの活用が重要である。
    • 既存手法では,異なる時間や種類のデータを統合的に学習することが困難である。
    • 時間変化と複数のデータ種類を考慮した,よりロバストな学習手法を開発する。
    • TerraFlowは,GEO-Bench-2ベンチマークの全時間的タスクにおいて,最先端の基礎モデルを上回る性能を示した。
    • TerraFlowは,自然災害リスクマップ予測において,他の最先端モデルが陥りがちな問題(崩壊)を回避し,初期的な成果を得た。
    • F1スコアで最大50%,Brierスコアで24%向上し,既存の最先端モデルを大幅に上回った。

    Link: https://arxiv.org/abs/2603.12762

  • PVI:ビジョン・言語・行動モデルのためのプラグイン型ビジュアル注入 [cs.CL, cs.RO, cs.CV, cs.LG, cs.RO]目的:言語条件型操作のためのVLAアーキテクチャにおけるビジュアル注入手法
    • 視覚と言語情報を統合した行動モデルは,ロボット操作の高度化に不可欠である。
    • 既存のVLMは,細かな幾何学的情報や時間的な証拠を十分に活用できていない。
    • PVIは,事前学習済みの行動モデルに外部の視覚情報を効率的に注入し,性能向上を目指す。
    • PVIは,既存のベースポリシーおよび競合する注入戦略と比較して,一貫した性能向上を示した。
    • 時間的特徴量(V-JEPA2)は,静的な画像特徴量(DINOv2)よりも優れており,特に多段階タスクで効果が大きかった。
    • 実機ロボット実験では,PVIがシミュレーション環境を超えて,長期間の二足歩行布折りタスクで実用性を示すことができた。

    Link: https://arxiv.org/abs/2603.12772

  • VLMを用いた意味的感受性を強化した水中画像強調 [cs.CV, cs.AI, eess.IV]目的:水中画像強調における意味的感受性の向上
    • 水中画像は水中の粒子や光の吸収により劣化し,視認性が低下する。そのため,水中環境での作業効率や安全性に影響が及ぶ。
    • 既存の画像強調技術では,強調画像と自然画像との分布のずれが課題であり,下流の視覚タスクにおける意味的情報の抽出を妨げる場合がある。
    • 本研究では,VLMを活用することで,画像強調モデルに意味的感受性を付与し,重要なオブジェクトの特徴を忠実に復元することを目指す。
    • 提案手法は,VLMを用いて劣化画像中の主要オブジェクトのテキスト記述を生成し,それを画像に再マッピングすることで空間的な意味的ガイダンスマップを作成する。
    • このマップは,クロスアテンションと明示的なアライメント損失を通じて画像強調ネットワークを誘導し,意味的に重要な領域に復元力を集中させる。
    • 実験の結果,提案手法は様々な画像強調のベースラインモデルの性能を向上させ,知覚的品質と検出・セグメンテーションタスクの精度を高めることが確認された。

    Link: https://arxiv.org/abs/2603.12773

  • RIGIDフレームワーク:研究統合型,生成AI仲介による教育課程設計 [eess.SY, cs.SY, math.OC, cs.CY, cs.AI, cs.HC]目的:教育課程設計における研究統合と生成AI活用
    • 効果的な学習を促すためには,教育研究に基づいた設計が不可欠である。
    • 研究成果と実際の教育課程設計との間に,依然として隔たりが存在する。
    • 教育研究と生成AIを組み合わせ,実践的な教育課程設計を支援する。
    • 本研究では,教育課程設計の各段階(分析,設計,実施,評価)において,教育科学の研究を体系的に統合するRIGIDフレームワークを提案する。
    • RIGIDフレームワークは,生成AIを活用し,研究に基づいた教育課程設計を,状況に応じて操作可能にする。
    • これにより,人間による専門知識を維持しつつ,研究と実践を結びつけることを目指す。

    Link: https://arxiv.org/abs/2603.12781

  • 三層ニューラルネットワークの局所学習係数に関する上限 [cs.HC, cs.LG, math.ST, stat.TH]目的:三層ニューラルネットワークの局所学習係数の評価
    • ニューラルネットワークは機械学習の基盤であり,その理論的理解が重要である。
    • ニューラルネットワークの学習係数は未だ完全には解明されておらず,評価手法が限られている。
    • 特異点における局所学習係数の上限を導出し,既存の結果とのずれを解消すること。
    • 特異点を含む三層ニューラルネットワークの局所学習係数の上限公式を導出した。
    • この公式は予算制約と需要供給制約に基づくカウントルールとして解釈できる。
    • 入力次元が1の場合,導出された上限が既知の学習係数と一致することを示した。

    Link: https://arxiv.org/abs/2603.12785

  • Cheers:パッチの詳細とセマンティック表現の分離により,統一されたマルチモーダル理解と生成が可能になる [cs.CV, cs.AI]目的:マルチモーダル理解と生成の統一
    • 近年,画像とテキストなどのマルチモーダル情報を扱う研究が盛んであり,その応用範囲は広い。
    • 既存モデルでは,理解と生成という異なるタスク間で,特徴表現の最適化が困難である。
    • セマンティック表現とパッチレベルの詳細を分離することで,効率的なマルチモーダルモデリングを実現する。
    • Cheersは,視覚的理解と生成の両方において,最先端のUMMと同等またはそれ以上の性能を示す。
    • トークン圧縮率が4倍となり,高解像度画像の効率的なエンコードと生成が可能になった。
    • GenEvalやMMBenchなどのベンチマークで,Tar-1.5Bを上回り,学習コストはわずか20%で済む。

    Link: https://arxiv.org/abs/2603.12793

  • サポートベクターマシン向け分数狐H関数カーネル:重み付き変換演算によるロバストな分類 [cs.LG, math.FA]目的:サポートベクターマシンのカーネル関数の提案
    • 機械学習において,カーネル法の選択は性能に大きく影響する。高次元特徴空間への写像が重要となる。
    • ガウスRBFカーネルは一般的だが,構造的ノイズや外れ値に弱く,過学習を引き起こしやすいという課題がある。
    • 外れ値の影響を抑制し,ロバストな重い裾の特徴写像を実現するカーネル関数を開発し,分類精度を向上させる。
    • 提案手法である狐H関数カーネルは,標準的なガウスRBFカーネルと比較して,分類エラー率を約50%削減することを示した。
    • 分数拡散波方程式の基本解に基づき,構造保存変換法と加齢重み関数(“忘却効果”)を導入することで,外れ値に対するロバスト性を実現している。
    • 合成データセットと実際のレーダーデータ(電離層)を用いた実験により,提案手法の有効性が確認された。

    Link: https://arxiv.org/abs/2603.12794

  • 分子科学のためのマルチタスク大規模推論モデル [cs.RO, cs.RO, cs.SY, eess.SY, cs.LG]目的:分子科学における知識に基づいた計算推論
    • 分子科学の発展には,データ駆動型予測に加え,科学的知識を活用した推論が不可欠である。
    • 既存の分子モデルは独自性が高く,汎用的な分子知性と一般化性能に課題がある。
    • 本研究は,深層学習アーキテクチャに科学的論理を統合し,効率的な学習を実現することを目指す。
    • 本モデルは,10種類の分子タスクと47の指標において,ベースラインと比較して平均50.3%の性能向上を達成した。
    • 超大規模パラメーターの基盤モデルを含む20以上の最先端モデルを凌駕し,少ないデータと計算資源で高い有効性と解釈可能性を示した。
    • 中枢神経系(CNS)薬物候補のデザインに関する事例研究を通じて,データ駆動型と知識統合型アプローチの架け橋となる実用性も実証された。

    Link: https://arxiv.org/abs/2603.12808

  • 文脈のみで十分:フローシートシミュレーションにおけるエージェントAIを用いた自律的なモデルベースのプロセス設計へ [cs.AI]目的:化学プロセスフローシートモデリング支援のためのエージェントAIフレームワーク
    • 化学工学におけるプロセス設計は,効率化と最適化が常に求められており,その自動化は重要である。
    • 従来のモデリングツールは専門知識を必要とし,設計プロセスに時間と労力がかかるという課題があった。
    • LLMを活用したエージェントAIにより,プロセス設計の自動化と効率化を目指す。
    • GitHub CopilotとClaude Opus 4.6を用いて,自社製モデリングツールChemasimの有効なコード生成が可能であることを示した。
    • 抽象的な問題を解決するエージェントと,Chemasimコードとして実装するエージェントからなるマルチエージェントシステムを開発した。
    • 反応分離プロセス,圧力スイング蒸留,ヘテロ共沸蒸留を含む典型的なフローシートモデリング例において,フレームワークの有効性を実証した。

    Link: https://arxiv.org/abs/2603.12813

  • 残差SODAP:構造知識保存による継続学習のための残差自己組織化ドメイン適応プロンプティング [cs.LG, cs.AI, cs.CV]目的:継続学習における破滅的忘却の軽減
    • 機械学習モデルの性能維持・向上のため,新しいタスクを継続的に学習する手法が重要である。
    • ドメイン増分学習では,タスク識別子が利用できず,過去のデータを保存できないため,破滅的忘却が深刻化する。
    • ドメインシフト下でのプロンプト選択と分類器レベルの不安定性の問題を解決し,継続学習の性能を向上させる。
    • 残差SODAPは,プロンプトベースの表現適応と分類器レベルの知識保存を同時に行うことで,高い性能を発揮する。
    • 3つのドメイン増分学習ベンチマークにおいて,最先端のAvgACC/AvgFの成績を達成した(DR: 0.850/0.047, Skin Cancer: 0.760/0.031, CORe50: 0.995/0.003)。
    • α-entmaxスパースプロンプト選択,残差集約,データフリー蒸留,プロンプト使用ドリフト検出,不確実性認識型マルチ損失バランスなどの要素を組み合わせている。

    Link: https://arxiv.org/abs/2603.12816

  • NanoVDR:20億パラメータの視覚言語検索モデルを7000万パラメータのテキスト専用エンコーダに蒸留し,視覚ドキュメント検索を実現 [cs.IR, cs.CV, cs.LG]目的:視覚ドキュメント検索のための,軽量なテキスト専用エンコーダの開発
    • 視覚ドキュメント検索は,大量のドキュメントから必要な情報を効率的に見つけ出す上で重要である。
    • 従来のVLMベースの検索モデルはパラメータ数が多く,推論時に高い計算コストとGPU依存性がある。
    • クエリとドキュメントの非対称性を利用し,軽量かつ高速な検索システムを構築することを目指す。
    • 20億パラメータのVLM教師モデルでドキュメントをインデックス化し,6900万パラメータのテキスト専用生徒モデルでクエリをエンコードする手法を提案。
    • クエリテキストにおける点ごとのコサインアラインメントが,ランキングベースやコントラスト学習よりも高い性能を発揮することを確認。
    • 機械翻訳によるデータ拡張により,言語間の性能ボトルネックを解消し,NanoVDR-S-Multiは教師モデルの95.1%の性能を維持しつつ,パラメータ数とクエリ遅延を大幅に削減。

    Link: https://arxiv.org/abs/2603.12824

  • AIによる気象予測からインフラの強靭性へ:熱帯低気圧影響に対する補正・ダウン スケーリングフレームワーク [eess.SY, cs.LG, cs.SY]目的:熱帯低気圧によるインフラへの影響予測の精度向上
    • 気候変動により,インフラへの熱帯低気圧の影響が増大しており,強靭性の確保が重要である。
    • 従来の気象予測は空間解像度が粗く,インフラ個別のリスク評価には不十分である。
    • AIによる高精度な気象予測を,インフラ運用に適した詳細な情報に変換すること。
    • AIを用いた補正・ダウン スケーリングフレームワーク(ACDF)を開発し,500m解像度での風速場と送電線路の故障確率を算出。
    • 浙江省における11個の台風データを用いた検証で,ACDFはPangu-Weatherと比較して風速予測誤差を38.8%削減。
    • ACDFは,ハグピット台風において,高風速地域や故障した送電線を正確に予測し,実用的な早期警戒システムへの応用可能性を示した。

    Link: https://arxiv.org/abs/2603.12828

  • UAVシーン変化キャプション生成のための階層的二重変化協調学習 [cs.DC, cs.CV, cs.AI]目的:UAVシーン変化キャプション生成における性能向上
    • UAV(無人航空機)からの映像解析は,監視,災害対応,インフラ点検など多岐に渡る分野で重要性が増している。
    • 従来の画像変化キャプションは固定カメラが前提であり,UAVのような移動カメラによる視点変化に対応できていない。
    • UAVからの動的かつ空間的なシーン変化を正確に捉え,自然言語で記述する技術を確立すること。
    • 本研究では,UAVシーン変化キャプションという新しい課題を提案し,動的空中映像から意味的な変化を記述する手法を開発した。
    • 提案手法HDC-CLは,Dynamic Adaptive Layout Transformer(DALT)とHierarchical Cross-modal Orientation Consistency Calibration(HCM-OCC)を組み合わせることで,視点変化の影響を考慮した高精度なキャプション生成を実現した。
    • 新たに構築したUAV-SCCデータセットを用いて,提案手法が最先端の性能を達成することを示した。

    Link: https://arxiv.org/abs/2603.12832

  • Mask2Flow-TSE:マスキングとフローマッチングを用いた二段階標的音声抽出 [cs.SD, cs.AI]目的:標的音声抽出の性能向上
    • 音声分離技術は,通話品質向上や音声認識の精度改善に不可欠である。
    • 既存手法では,分離速度と音声品質のトレードオフが存在する。
    • マスキングとフローマッチングを組み合わせ,両者の長所を活かした新たな手法を提案する。
    • Mask2Flow-TSEは,既存の生成的TSE手法と同等の性能を,約85Mパラメータで実現した。
    • 最初の段階で識別的マスキングによる粗分離を行い,次の段階でフローマッチングを用いて音声を洗練させる。
    • マスキングされたスペクトログラムから開始するため,ガウスノイズからの合成と異なり,単一の推論ステップで高品質な再構成が可能である。

    Link: https://arxiv.org/abs/2603.12837

  • 段階的学習による二重ストリーム音声匿名化攻撃手法 DAST [cs.SD, cs.AI]目的:音声匿名化攻撃手法の開発
    • 音声データ利用の拡大に伴い,個人情報保護の重要性が増している。
    • 既存の音声匿名化技術では,言語内容を保持しつつ話者固有の情報を完全に隠蔽することが困難である。
    • 未知の匿名化データに対する攻撃性能を高めることを目指す。
    • 提案手法は,スペクトル特徴と自己教師あり学習特徴を融合する二重ストリーム構造を持つ。
    • 段階的学習戦略により,汎化性能が向上し,VoicePrivacy Attacker Challenge (VPAC) データセットで高い攻撃性能を示した。
    • ターゲット匿名化データセットの10%での微調整により,最先端の攻撃手法を凌駕するEERが達成された。

    Link: https://arxiv.org/abs/2603.12840

  • 散在型およびクラスター型外れ値のロバストな教師なし検出のための階層的参照集合 [cs.LG, cs.AI]目的:散在型およびクラスター型外れ値のロバストな教師なし検出
    • IoTデータ分析は,異常検知を含む多くのタスクにおいて,教師なし学習が不可欠である。
    • 従来の異常検知手法では,高密度なクラスター型外れ値を正常なデータと誤認しやすい。
    • グラフ構造を用いた参照集合により,散在型とクラスター型の両方外れ値を効果的に検出すること。
    • 提案手法は,グラフ構造と参照集合を利用し,散在型外れ値の検出精度を向上させる。
    • クラスター型外れ値は,グラフ構造によって分離され,散在型外れ値の検出への干渉を抑制する。
    • 実験結果は,提案手法が様々な条件下で有効であることを示している。

    Link: https://arxiv.org/abs/2603.12847

  • 第10回ABAWコンペティションのTeam LEYA:多Modal感情の曖昧性/躊躇認識アプローチ [cs.CV, cs.AI]目的:動画における感情の曖昧性/躊躇の認識
    • 非言語コミュニケーションの理解は,人間-コンピュータ間の自然な対話を実現する上で重要である。
    • 動画データにおける曖昧性/躊躇の認識は,その微妙さから困難であり,精度向上が課題である。
    • 複数のModal情報を統合することで,曖昧性/躊躇の認識精度を向上させることを目指す。
    • 提案手法は,シーン,顔,音声,テキストの4つのModalを統合し,高い認識性能を示した。
    • 単一Modalでの最高MF1スコアは70.02%であったのに対し,最適な多Modal融合モデルは83.25%を達成した。
    • 最終テストでは,5つのプロトタイプ拡張融合モデルのアンサンブルにより,最高性能71.43%を記録した。

    Link: https://arxiv.org/abs/2603.12848

  • MNIST手書き数字データセットの線形分離可能性について [cs.LG]目的:MNIST手書き数字データセットの線形分離可能性の検証
    • パターン認識や画像分類モデルの性能評価において,MNISTデータセットは依然として基本的な指標である。
    • MNISTデータセットの線形分離可能性については,未だ決定的な結論が出ておらず,相反する主張が存在する。
    • 本研究は,MNISTデータセットの線形分離可能性を包括的に実証的に調査し,その解明を目指す。
    • 訓練データ,テストデータ,およびそれらを組み合わせたデータセットにおいて,ペアワイズ分離とOne-vs-Rest分離を区別して検証した。
    • 線形分離可能性を評価するための理論的アプローチや最先端の方法論を検討し,関連する全ての組み合わせを体系的に調査した。
    • その結果,MNISTデータセットの線形分離可能性に関する明確な知見を得ることができた。

    Link: https://arxiv.org/abs/2603.12850

  • 階層型深層学習による研磨フラップホイールの摩耗分類 [cs.CV, cs.LG]目的:研磨フラップホイールの摩耗状態の自動監視
    • 複雑な形状の研磨に不可欠な部品であり,品質管理の自動化が求められている。
    • フラップホイールの柔軟性により,摩耗パターンが複雑で,従来の監視が困難である。
    • 階層的分類により,摩耗状態を詳細に把握し,適切な制御を実現する。
    • 提案手法は,フラップホイールの画像から摩耗状態を高精度に分類可能である。
    • 最も低い分類精度でも93.8%と高いロバスト性を示した。
    • Grad-CAMによる検証により,モデルが物理的に妥当な特徴を学習していることが確認された。

    Link: https://arxiv.org/abs/2603.12852

  • パラメータ化されたシステムの物理ベースおよびデータ駆動モデリングにおける代替モデル:レビューと新たな視点 [math.NA, cs.CE, cs.LG, cs.NA]目的:パラメータ化されたシステムの入力パラメータと出力量の関係を効率的に評価するための代替モデルの構築
    • 最適化,制御,データ同化など,複雑なシステム解析には効率的な評価が不可欠である。
    • 物理モデルや実験データのみでは,高次元問題や計算コストの課題が存在する。
    • 物理ベース,データ駆動,そしてそれらのハイブリッドな代替モデル構築手法の統一的な理解を目指す。
    • 代替モデル構築を関数近似問題として捉え,基底の選択と近似基準を再検討した。
    • 適切な次元削減,物理情報活用,データ駆動モデリングに関する最新動向と新たな視点を提示した。
    • 忠実度の異なる情報源の活用や,適応的サンプリング等の品質向上技術についても議論した。

    Link: https://arxiv.org/abs/2603.12870

  • テスト時RLによるアライメントが,LLMベンチマークにおけるタスク慣熟性のアーチファクトを露呈 [cs.LG]目的:LLMベンチマークにおけるタスク慣熟性の影響の検証
    • LLMの性能評価において,客観的な能力測定が重要である。
    • 既存のベンチマーク評価では,タスクへの慣熟性が性能に影響する可能性がある。
    • タスク固有の学習データなしで,より信頼性の高い評価手法を確立する。
    • 提案手法(テスト時RLアライメント)は,SFTによるtrain-before-testと同程度の性能を示す。
    • 訓練データがないドメイン特化型ベンチマークにおいて,アライメントによりベースモデルの性能が向上し,より正確な評価が可能となる。
    • 推論タスクにおいて,ファインチューニングモデルとベースモデルの性能差は,アライメント後に縮小し,タスク慣熟性の影響が示唆される。

    Link: https://arxiv.org/abs/2603.12875

  • 適応的知識統合による薬剤間相互作用予測の向上 [cs.LG]目的:薬剤間相互作用予測の精度向上
    • 医薬品の安全性確保と治療効果の最適化において,薬剤間相互作用の予測は不可欠である。
    • 既存手法は,不均衡データセット,複雑な相互作用メカニズム,未知の組み合わせへの汎化性能の低さといった課題を抱えている。
    • 事前知識を効果的に活用し,LLMの予測精度を向上させる新たなフレームワークを構築すること。
    • 強化学習を用いた知識の適応的抽出と統合により,LLMの性能を効率的に最適化することができた。
    • 少数ショット学習により,ベースラインと比較して顕著な改善が確認された。
    • 本研究は,薬剤間相互作用予測のための科学的知識学習の有効な枠組みを確立する。

    Link: https://arxiv.org/abs/2603.12885

  • 接触カメラを用いた交差種転移学習によるてんかん発作予測 [cs.CV, cs.LG]目的:ビデオベースのてんかん発作予測
    • てんかん研究において,発作予測は臨床的に重要であり,患者のQOL向上に寄与する。
    • 既存研究は主に脳波などの神経信号に依存しており,長期的なモニタリングが困難である。
    • ビデオデータを用いて,非侵襲的な発作予測システムの構築を目指す。
    • 本研究では,交差種転移学習により,人およびげっ歯類のビデオデータを用いて高精度な予測を可能にした。
    • ビデオのみを用いた設定で,70%以上の予測精度を達成し,既存手法を上回った。
    • 交差種転移学習は,非侵襲的かつ大規模なてんかん早期警告システムの構築に貢献しうる。

    Link: https://arxiv.org/abs/2603.12887

  • テキスト画像モデルのRLポストトレーニングのための有限差分フロー最適化 [cs.CV, cs.AI, cs.LG, cs.NE, stat.ML]目的:テキスト画像モデルのRLポストトレーニングにおける効率的な最適化手法
    • 画像生成AIの性能向上が求められており,特に高品質な画像の生成とプロンプトへの正確な対応が重要である。
    • 従来のRL手法では,学習のばらつきが大きく,収束に時間がかかるという課題があった。
    • モデル更新の分散を減らし,より迅速かつ高品質な画像生成を実現することを目指す。
    • 提案手法は,サンプルされたペアの軌跡を利用し,より好ましい画像の方向にフロー速度を引き込むことで,更新の分散を低減する。
    • 実験の結果,既存手法と比較して,より高速な収束と高品質な画像生成,そしてプロンプトへの高い対応性を示すことが確認された。
    • 高品質なビジョン言語モデルやオフザシェルフの品質指標を用いた報酬設計でも,同様の効果が認められた。

    Link: https://arxiv.org/abs/2603.12893

  • LLMベースのプロセスモデリングコパイロットの人間中心評価:ドメイン専門家との混合研究 [cs.HC, cs.AI, cs.SE]目的:LLMベースのプロセスモデリングコパイロットに関する人間中心評価
    • ビジネスプロセスの効率化は,組織の競争力向上に不可欠である。プロセスモデリングはその基盤となる。
    • 従来の自動評価では,信頼性や使いやすさといった人間的要素が考慮されていない。
    • LLMを活用したモデリング支援ツールにおける人間とツールの相互作用を明らかにすること。
    • 専門家による評価において,使いやすさについては許容範囲内であったが,信頼性は低い結果となった。
    • 信頼性の低さは,LLMの出力の信頼性に対する懸念が主な要因であることが判明した。
    • LLMは,より詳細な質問を通じてプロセスを明確化する必要があることが示唆された。

    Link: https://arxiv.org/abs/2603.12895