arXiv雑要約

AI - 2026/04/21 公開

  • 学習可能な近場レインボービームフォーミングによるシングルショット位置推定 [eess.SY, cs.SY, math.OC, cs.LG]目的:シングルショット位置推定手法
    • 広帯域センシングや位置推定において,低コストなアーキテクチャが求められている。
    • 従来の解析的・学習的アプローチでは,オーバーヘッドが大きく,位置推定精度が十分でない場合がある。
    • レインボービームを生成しつつ,位置推定精度を最大化する効率的な手法を開発すること。
    • 提案手法では,位相シフタと真時間遅延の係数を学習可能な変数として扱うことで,タスク指向のビーム合成を実現している。
    • 受信電力の最大値と対応するサブキャリアインデックスから,ユーザーの角度・距離座標を復元する軽量な全結合モジュールを用いる。
    • 既存手法と比較して,オーバーヘッドを大幅に削減し,2次元位置推定誤差を低減することを示した。

    Link: https://arxiv.org/abs/2511.11391

  • BridgeEQA:実世界の橋梁点検のための仮想具現化エージェント [cs.CV, cs.AI]目的:橋梁点検におけるエピソード記憶型質問応答のベンチマーク
    • 現実世界での具現化エージェント活用は,インフラ維持管理において重要性を増している。
    • エピソード記憶型質問応答のベンチマークが不足しており,現実的な環境での応用が困難である。
    • 橋梁点検という課題を通して,エピソード記憶型質問応答の性能向上を目指す。
    • 200の橋梁シーンから構成される,2,200組の質問応答ペアからなるBridgeEQAベンチマークを公開した。
    • モデルが関連画像を引用する能力を評価する,Image Citation Relevanceという新しい評価指標を提案した。
    • 最新のビジョン言語モデルの性能に大きな差があることを明らかにし,EMVRという新たな手法を提案した。

    Link: https://arxiv.org/abs/2511.12676

  • LiveCLKTBench:多言語LLMにおけるクロスリンガル知識転移の信頼性評価に向けて [cs.CL, cs.AI]目的:多言語LLMにおけるクロスリンガル知識転移の評価
    • LLMの多言語対応は,グローバルな情報アクセスを可能にする重要な技術である。
    • 既存の評価方法では,知識転移と事前学習による知識混同の区別が困難である。
    • 時間依存的な知識を活用し,知識転移を分離・測定するための信頼性あるベンチマークの構築。
    • LiveCLKTBenchは,現実世界の時事情報から質問を自動生成し,複数言語に翻訳してクロスリンガル知識転移を評価する。
    • 評価実験の結果,言語間の距離が知識転移に大きな影響を与え,言語方向によって非対称性が見られた。
    • モデル規模が大きくなっても,知識転移の改善効果は減少し,ドメインによって異なることが示された。

    Link: https://arxiv.org/abs/2511.14774

  • 複数ターンツール統合型エージェント推論を高めるグループターン方策最適化 [cs.LG, cs.AI, cs.CL]目的:複数ターンツール統合型推論におけるLLMの訓練
    • LLMの性能向上は,複雑なタスク解決において重要であり,特に推論能力の強化が求められている。
    • 既存の強化学習手法は,複雑な多段階インタラクションにおいて十分な学習シグナルが得られず,訓練が停滞しやすい。
    • 本研究は,ターンレベルの報酬付与と自己教師あり報酬形成により,LLMの訓練を促進し,推論性能を向上させる。
    • 提案手法GTPOは,既存手法GRPOと比較して,多様な数学推論ベンチマークで3.0%の性能向上を達成した。
    • GTPOは,常識推論およびプログラム合成タスクにおいてもGRPOを3.9%上回り,汎用性の高さを示した。
    • GTPOは,オーバーヘッドがわずかであり,実用的な応用可能性が高い。

    Link: https://arxiv.org/abs/2511.14846

  • DeepThinkVLA:視覚・言語・行動モデルの推論能力の向上 [cs.LG, cs.AI, cs.RO]目的:視覚・言語・行動モデルにおけるCoT(Chain-of-Thought)推論の有効性の条件と,その性能向上
    • ロボットによる複雑なタスク実行において,視覚情報,言語理解,行動計画の統合が不可欠である。
    • 既存のCoT-VLAシステムでは,性能向上は限定的かつ不安定であり,CoTがロボットの行動にどのように貢献するか不明確である。
    • CoTがVLAモデルにおいて有効に機能するための必要条件を特定し,それらを満たすモデルを構築することで,性能向上を目指す。
    • CoT推論と行動生成において,モダリティに適したメカニズムを使用することが,性能向上のために重要であることが明らかになった。
    • CoT推論がタスク成功と因果的に関連付けられ,結果に基づいた最適化が行われる必要があることが示された。
    • DeepThinkVLAは,LIBERO,LIBERO-Plus,RoboTwin~2.0において,既存の最良のベースラインを大幅に上回る成功率を達成し,実世界でのロボット実験でも有効性が確認された。

    Link: https://arxiv.org/abs/2511.15669

  • 語彙外クエリに対する階層的検索:SNOMED CTにおける事例研究 [cs.CL, cs.AI]目的:語彙外クエリによるSNOMED CTからの階層的概念検索
    • SNOMED CTは大規模な医学用語集であり,その利用には効果的な知識検索が不可欠である。
    • 医学用語は曖昧性や多義性を含むため,SNOMED CTにおける検索は困難を伴うことが多い。
    • 本研究は,語彙外クエリに対するSNOMED CTの階層的概念検索の精度向上を目指す。
    • 提案手法では,言語モデルに基づくオントロジー埋め込みを用いて,テキストクエリとSNOMED CT概念間の包含関係を効率的に推論する。
    • 実験の結果,提案手法はSBERT,SapBERT,および辞書マッチング手法と比較して優れた性能を示した。
    • 本手法はSNOMED CTだけでなく,他のオントロジーにも適用可能である。

    Link: https://arxiv.org/abs/2511.16698

  • FireScope:思考の連鎖オラクルを用いた山火事リスク予測 [cs.CV, cs.LG]目的:山火事リスクの予測
    • 地球温暖化により山火事の頻度と規模が増大しており,社会への影響が深刻であるため。
    • 既存手法は,因果関係の推論やマルチモーダルな理解が不十分で,汎化性能が低いという課題がある。
    • 視覚的,気候的,地理的要素を統合し,大陸を跨いだ汎化性能を持つリスク予測モデルを構築すること。
    • FireScopeは,米国で学習し,ヨーロッパでテストすることで,大幅な性能向上を達成した。
    • 専門家によるフィードバックと自動解析により,FireScopeの推論過程が忠実かつ意味的に妥当であることが確認された。
    • 言語に基づく推論が,視覚的生成における汎化性能を向上させることが示された。

    Link: https://arxiv.org/abs/2511.17171

  • オフポリシー学習データがプローブの汎化に与える影響 [cs.AI, cs.LG]目的:大規模言語モデルの振る舞い監視におけるプローブの汎化性能
    • 大規模言語モデルの利用拡大に伴い,倫理的・安全性の確保が重要課題となっている。
    • 問題のある振る舞いを検出するための学習データが不足しており,合成データやオフポリシーデータに頼らざるを得ない。
    • オフポリシーデータがプローブの汎化性能に与える影響を明らかにすることで,より信頼性の高い監視手法の確立を目指す。
    • オフポリシーデータを用いたプローブの学習戦略は,モデルの振る舞いによって性能に大きく影響する。
    • 特に,応答の意図に関連する振る舞い(戦略的欺瞞など)において,汎化の失敗が顕著に現れる。
    • インセンティブ付与データへの汎化成功は,オンポリシーデータに対する高い性能と強い相関関係があることが示唆された。

    Link: https://arxiv.org/abs/2511.17408

  • 大規模言語モデルとビジョン言語モデルにおける数え上げメカニズムの理解 [cs.CV, cs.AI]目的:大規模言語モデルおよびビジョン言語モデルにおける数値情報の表現と計算
    • AIの能力向上には,基本的な数値処理能力の理解が不可欠である。
    • モデルがどのように数を数え,数値情報を処理しているかのメカニズムは未解明である。
    • モデル内部の数え上げメカニズムを解明し,その過程を詳細に分析すること。
    • 個々のトークンや視覚的特徴が潜在的な位置情報と数値を符号化し,文脈間で転移可能であることが示された。
    • 数値表現は層ごとに徐々に現れ,下位層は少数のカウントを,上位層はより大きなカウントを表現することが明らかになった。
    • モデルはテキストの区切り文字のような構造的手がかりに依存しており,それが項目数の追跡を助け,数値予測の精度に大きく影響することがわかった。

    Link: https://arxiv.org/abs/2511.17699

  • 音楽譜理解ベンチマーク:大規模言語モデルの楽譜全体理解能力の評価 [cs.CL, cs.SD, cs.AI]目的:音楽譜レベルの理解に関する評価基準
    • 音楽は人類の文化において重要な役割を担うため,その理解は不可欠である。
    • 大規模言語モデルにおける楽譜全体の解釈能力は,十分に検証されていない。
    • 楽譜全体の理解能力を客観的に評価し,モデルの改善を促すこと。
    • MSU-Benchは,テキスト形式(ABC記譜法)と視覚形式(PDF)の両方に対応した,楽譜レベルの理解を評価するためのベンチマークである。
    • 15以上の最先端モデルの評価により,モダリティ間の性能差,レベルごとの不安定さ,多層的な正しさの維持の難しさが明らかになった。
    • ファインチューニングにより,モダリティを問わず性能が大幅に向上し,MSU-Benchはマルチモーダル推論研究の堅牢な基盤となることが示された。

    Link: https://arxiv.org/abs/2511.20697

  • MODEST:多光学レンズによる奥行きのある立体画像データセット [cs.CV, cs.AI, cs.LG, eess.IV]目的:実光学条件下における信頼性の高い深度推定
    • 自動運転や拡張現実などのカメラビジョン技術において,深度推定は不可欠な要素である。
    • 大規模かつ高精細な実写ステレオDSLRデータセットが不足しており,実世界への汎化が課題となっている。
    • 実写光学系のリアリズムを再現し,深度推定や奥行きのある画像生成における課題解決を目指す。
    • 本データセットは,5472×3648ピクセルの高解像度ステレオ画像18000枚を提供し,焦点距離と絞りを系統的に変化させている。
    • 多様なシーンにおいて,10種類の焦点距離(28-70mm)と5種類の絞り(f/2.8-f/22)を組み合わせた50の光学設定で撮影された画像を使用している。
    • 本研究は,合成データと実写光学系の乖離を埋め,最先端の深度推定手法の課題を明らかにしている。

    Link: https://arxiv.org/abs/2511.20853

  • OVOD-Agent:積極的視覚的推論と自己進化型検出のためのマルコフ・バンディットフレームワーク [cs.AI, cs.CV]目的:オープンボキャブラリ物体検出の性能向上
    • 視覚情報と言語情報を統合することで,物体検出の汎化性能を高めることが期待されている。
    • 既存手法は固定されたカテゴリ名に限定され,マルチモーダル学習とユニモーダル推論の乖離が生じている。
    • テキスト空間の探索を通して,より効果的な物体検出を実現することを目指す。
    • OVOD-Agentは,カテゴリマッチングを能動的な視覚的推論と自己進化型検出に変換する。
    • 視覚的文脈の遷移をマルコフ決定過程としてモデル化し,バンディットモジュールで探索信号を生成する。
    • COCOとLVISでの実験により,特に稀なカテゴリにおいて性能向上が確認された。

    Link: https://arxiv.org/abs/2511.21064

  • URLを超えて:効率的なLLM事前学習のためのメタデータ多様性と位置 [cs.CL, cs.AI, cs.LG]目的:大規模言語モデルの事前学習効率向上
    • LLMは自然言語処理の基盤技術であり,その性能向上が求められている。
    • LLMの事前学習には膨大な計算資源が必要であり,効率化が課題である。
    • メタデータを活用し,事前学習を効率化し,LLMの性能を向上させる。
    • 多様なメタデータが事前学習の加速に貢献することが示された。
    • 特に,文書品質を示す詳細なメタデータが有効であることが確認された。
    • メタデータの付加や学習可能なメタトークンが,学習効率の向上に寄与することが明らかになった。

    Link: https://arxiv.org/abs/2511.21613

  • ピアツーピア多エージェント合成データ生成フレームワークMatrix [cs.CL, cs.AI, cs.LG]目的:大規模言語モデルの学習における合成データ生成
    • 現実のデータが不足,高価,またはプライバシーに関わる場合に,合成データの重要性が増している
    • 既存の多エージェント合成フレームワークは,集中型のオーケストレーターに依存するか,特定のドメインに限定されている
    • 分散型フレームワークMatrixを用いて,スケーラビリティと柔軟性の向上を目指す
    • Matrixは,分散キューを介したシリアライズされたメッセージによる制御とデータフローを実現し,集中型オーケストレーターを排除している
    • 本フレームワークは,Ray上に構築され,数万もの同時エージェントワークフローを処理可能である
    • 多様な合成シナリオにおいて,Matrixは同一ハードウェアリソース下で,2~15倍高いデータ生成スループットを達成した

    Link: https://arxiv.org/abs/2511.21686

  • ニューラル発振器に対する上限近似境界 [cs.RO, cs.LG, math.DS, math.FA]目的:ニューラル発振器の近似能力の理論的評価
    • 長期系列や連続時間関数を安定的に学習する能力が示されており,物理システムの近似にも応用可能である。
    • ニューラルネットワークアーキテクチャの近似能力を理論的に定量化することが困難であった。
    • ニューラル発振器による因果的・一様連続演算子および漸近的に安定な二階動的システムの近似誤差の上限を導出する。
    • ニューラル発振器の近似誤差は,使用する多層パーセプトロンの幅の逆数の多項式としてスケーリングすることが示された。
    • この結果により,パラメータ数の呪いを克服し,理論的な基盤を確立した。
    • 導出された近似誤差の上限は,4つの数値例によって検証された。

    Link: https://arxiv.org/abs/2512.01015

  • 推論時蒸留:ファインチューニングや手動プロンプトエンジニアリングなしのコスト効率の良いエージェント [cs.LG]目的:LLMエージェントのコスト効率化とアジリティの維持
    • LLMエージェントのスケール展開において,品質とコストのバランスが重要課題となっている。
    • プロンプトエンジニアリングは脆く,ファインチューニングは時間とリソースを要するため,反復的なワークフローに適さない。
    • 推論時の技術を活用し,コストと精度のトレードオフを解消し,開発速度を維持することを目指す。
    • 推論時蒸留により,ALFWorldで教師モデルと同等の精度を2.5倍低いコストで実現した。
    • AppWorldでは,3.5倍のコスト削減と,教師モデルの精度の79%の回復を達成した。
    • 教師データベースのサイズや検索戦略など,コスト性能のトレードオフを調整するための設計指針を提示した。

    Link: https://arxiv.org/abs/2512.02543

  • フローベースモデルにおける高速尤度評価とサンプリングのための共同蒸留 [cs.LG, cs.CV]目的:フローベースモデルにおける尤度評価とサンプリングの高速化
    • 生成モデルの比較やファインチューニング,様々な応用において,尤度評価は重要な役割を果たす。
    • 拡散モデルやフローベースモデルは,尤度計算に膨大な計算コストを要するという課題があった。
    • サンプリングと尤度評価の両方を大幅に高速化する手法を開発し,計算ボトルネックを解消する。
    • 本研究では,尤度評価とサンプリングに必要なニューラル関数評価(NFE)数を2桁削減する「F2D2」を提案した。
    • F2D2は,連続正規化フローの基盤となる速度場を共有することで,サンプリング軌跡と累積ダイバージェンスを同時に蒸留する。
    • 実験により,F2D2が少ないステップ数で高精度な尤度評価と高品質なサンプル生成を両立できることが示された。

    Link: https://arxiv.org/abs/2512.02636

  • 適応型検証器を用いたマルチモーダル強化学習によるAIエージェント [cs.AI]目的:AIエージェントのためのマルチモーダル強化学習における報酬設計と学習改善
    • AIエージェントの能力向上には,より高度な推論と環境認識が不可欠であり,マルチモーダル学習が鍵となる。
    • 従来の強化学習では,最終的な結果に基づいた疎な報酬しか利用できず,学習の効率や汎化性能が課題であった。
    • 推論過程の質を評価する,より詳細な報酬信号を導入することで,学習の指針を明確にすることを目指す。
    • Argosは,教師モデルとルールに基づいた複数の評価関数を組み合わせることで,応答の正確性,空間的・時間的局所化,推論過程の質を同時に評価する。
    • SFTデータキュレーションとRLトレーニングの両方でArgosを用いることで,空間推論,視覚的幻覚,ロボティクス等の複数のタスクで最先端の結果を達成した。
    • Argosは,強化学習における報酬ハッキングを抑制し,エージェントが根拠のない解に陥るのを防ぐ効果があることが示された。

    Link: https://arxiv.org/abs/2512.03438

  • 生物音響のための状態空間モデル:Transformerとの比較評価 [cs.SD, cs.AI]目的:生物音響におけるMambaアーキテクチャの有効性評価
    • 環境音響学は,生態系の変化を捉え,生物多様性保全に不可欠である。
    • Transformerモデルは高性能だが,計算資源を多く必要とする点が課題である。
    • 計算効率の高いモデルを開発し,実環境でのモニタリングを可能にすること。
    • BioMambaは,多様な分類・検出タスクにおいて,Transformerモデル(AVES)と同等の性能を発揮した。
    • BioMambaはAVESと比較して,VRAM消費量を大幅に削減することに成功した。
    • Mambaアーキテクチャは,環境モニタリングにおける計算効率の良い代替手段となり得る。

    Link: https://arxiv.org/abs/2512.03563

  • グラフニューラルネットワークによる有界グラフクラスタリング [cs.LG]目的:グラフクラスタリングにおけるクラスタ数の制御手法
    • 複雑なネットワーク構造の解析に不可欠であり,様々な分野で応用が広がっている。
    • クラスタ数の事前指定が必要となり,計算コストが高い場合がある。
    • グラフニューラルネットワークによるクラスタリングにおいて,指定範囲内のクラスタ数を保証する。
    • 本研究では,ユーザーが指定した範囲内でクラスタ数を制御する柔軟なフレームワークを提案する。
    • 従来のGNNベース手法では困難であった,正確なクラスタ数の再現性を実現する。
    • クラスタ数の事前知識がなくても,あるいは正確な数が要求される場合でも対応可能である。

    Link: https://arxiv.org/abs/2512.05623

  • 有機結晶構造予測のための全原子拡散モデル:OXtal [cs.LG, cond-mat.mtrl-sci]目的:有機結晶構造の予測
    • 医薬品や有機半導体など,物性・化学的特性は結晶パッキングに依存するため,その予測は重要である。
    • 分子構造から結晶構造を予測する計算化学的課題は未解決であり,効率的な手法が求められている。
    • 大規模な実験データを用いて,分子の配置と周期的なパッキングを学習するモデルを開発し,予測精度を向上させる。
    • OXtalは,既存の機械学習CSP手法と比較して,予測精度を桁違いに向上させた。
    • 実験構造に対して,コンフォマーRMSDが0.5Å以下,パッキング類似度が80%以上を達成した。
    • 大規模データセットと結晶化にヒントを得た学習スキームにより,効率的な全原子レベルでの予測が可能となった。

    Link: https://arxiv.org/abs/2512.06987

  • SkipKV:大規模推論モデルにおける効率的な推論のためのKV生成・保存の選択的スキップ [cs.CL, cs.AI]目的:大規模推論モデルにおけるKVキャッシュオーバーヘッドの削減
    • 大規模言語モデルの発展に伴い,推論時のメモリ使用量と計算コストが重要な課題となっている。
    • Chain-of-Thought推論において,KVキャッシュが線形的に増加し,性能のボトルネックとなる。
    • 既存のキャッシュ削除手法では精度が低下するため,効率的なKVキャッシュ圧縮手法が求められている。
    • SkipKVは,文単位での選択的なKVキャッシュの削除と生成により,効率的な推論を実現する。
    • 複数の推論ベンチマークにおいて,SkipKVはベースライン手法と比較して最大26.7%高い精度を達成した。
    • SkipKVは最先端手法と比較して,生成長さを最大1.6倍短縮し,スループットを最大1.7倍向上させた。

    Link: https://arxiv.org/abs/2512.07993

  • ODMA:LPDDRクラスアクセラレータにおけるLLMサービングのためのオンデマンドメモリ割り当て戦略 [cs.HC, cs.CY, cs.AR, cs.AI]目的:LLMサービングにおけるメモリ割り当て戦略の改善
    • LLMの普及に伴い,効率的な推論処理が重要となっている。
    • LPDDRのようなランダムアクセス性能の低いメモリでは,メモリ管理がボトルネックとなる。
    • LPDDR環境下でLLM推論の性能を最大化するメモリ割り当て手法を確立すること。
    • ODMAは,生成長の予測精度を向上させ,メモリ利用率を最大化する。
    • AlpacaとGoogle-NQベンチマークにおいて,予測精度が大幅に向上した。
    • Cambricon MLU370-X4アクセラレータ上での評価で,スループットが23-27%向上した。

    Link: https://arxiv.org/abs/2512.09427

  • ID-PaS+:汎用混合整数計画問題に対するアイデンティティ認識型予測探索 [cs.AI]目的:汎用混合整数計画問題に対する予測探索手法の性能向上
    • 現実世界の複雑な最適化問題を柔軟にモデル化できるため,応用範囲が広い。
    • 既存手法は,二値変数に限定され,現実的な固定変数構造への対応が不十分である。
    • 多様な変数の型を効率的に扱える予測探索フレームワークを開発し,実用的な問題への適用を目指す。
    • ID-PaS+は,大規模実問題において,最先端ソルバーGurobiや既存のPASよりも優れた性能を示す。
    • 機械学習モデルが,変数の型を考慮することで,より効果的な予測が可能となる。
    • 汎用混合整数計画問題への適用により,予測探索の可能性を広げた。

    Link: https://arxiv.org/abs/2512.10211

  • 誰にとって安全か? LLMの安全性の評価方法の再考 [cs.AI, cs.CY]目的:LLMの安全性評価におけるユーザー固有のリスクの考慮
    • LLMの利用拡大に伴い,普遍的なリスクだけでなく,個別状況に依存するリスクの評価が重要となっている。
    • 既存の安全性評価は普遍的なリスクに偏っており,個々のユーザーの状況を考慮した評価が不足している。
    • ユーザーの脆弱性に応じた安全性評価方法を確立し,個別福祉を重視した評価枠組みを提示すること。
    • LLMの応答に対する安全性評価は,ユーザーの状況を考慮することで大きく変化し,特に脆弱なユーザーに対して安全性が低いと評価される傾向にある。
    • ユーザーが実際に開示する情報を含むプロンプトを使用しても,安全性評価の改善は見られなかった。
    • ユーザーの多様なプロファイルに対する評価が不可欠であり,個別福祉の評価は既存の普遍的リスク評価とは異なるアプローチが求められる。

    Link: https://arxiv.org/abs/2512.10687

  • 説明バイアスは製品である:事後特徴帰属における隠れた語彙的・位置的偏りの解明 [eess.SY, cs.RO, cs.SY, cs.CL, cs.AI]目的:事後特徴帰属における説明バイアスの構造化
    • 言語モデルの理解促進のためには,質の高い説明が不可欠である。説明はモデルの判断根拠を示す。
    • 既存の特徴帰属手法は,その基盤となるバイアスにより,同じ入力に対しても説明が大きく変動する。
    • 説明バイアスの種類を特定し,モデルや手法に依存しない評価指標を用いて構造化する。
    • 異なる特徴帰属手法の間には,語彙的バイアスと位置的バイアスの間にトレードオフ関係が存在することが示された。
    • 高い語彙的バイアスを持つモデルは,低い位置的バイアスを持つ傾向がある。
    • 異常な説明は,バイアスを持つ可能性が高いことが示唆された。

    Link: https://arxiv.org/abs/2512.11108

  • 分散型連合学習における目的指向リウェイティングの統一的フレームワーク [cs.LG]目的:分散型連合学習における多様な学習目標の達成
    • データプライバシー保護と機械学習の融合が重要視され,連合学習が注目されている。
    • 中央サーバに依存しない分散型連合学習では,公平性やビザンチン攻撃への耐性が課題である。
    • 客観的な性能指標とリウェイティング戦略により,公平性とロバスト性を向上させる。
    • 提案手法DFedReweightingは,客観的な性能指標に基づいたリウェイティングにより,公平性とビザンチン攻撃への耐性を大幅に改善する。
    • 適切な性能指標とリウェイティング戦略の組み合わせにより,汎用的なL-smoothかつ強凸関数に対して線形収束が理論的に保証される。
    • 複数の目的関数を扱う実験により,DFedReweightingが幅広い学習目標に対応できることが示された。

    Link: https://arxiv.org/abs/2512.12022

  • 大規模視覚言語モデルの脱獄検出:表現的コントラストスコアリングによる再考 [cs.CR, cs.AI, cs.CL, cs.LG]目的:大規模視覚言語モデルに対する脱獄攻撃の検出手法
    • 大規模視覚言語モデルは多様なタスクで活用され,その安全性確保は重要である。
    • 既存の脱獄検出手法は,特定の攻撃に特化し汎化性能が低いか,計算コストが高い。
    • モデル内部表現の幾何学的構造を解析し,良性と悪性の入力を区別する。
    • 提案手法RCSは,モデル内部表現における安全性の高い信号を利用し,軽量な投影学習を行う。
    • MCDとKCDという2つのインスタンスは,未知の攻撃タイプに対しても最先端の性能を達成した。
    • 内部表現への統計的アプローチにより,実用的な安全な大規模視覚言語モデルの展開が可能となる。

    Link: https://arxiv.org/abs/2512.12069

  • Torch Geometric Pool:グラフニューラルネットワークにおけるプーリングのためのPyTorchライブラリ [eess.SY, cs.SY, cs.LG]目的:グラフニューラルネットワークのプーリング手法の標準化
    • グラフニューラルネットワークは,複雑な構造化データの分析に有用であり,近年注目を集めている。
    • 既存のプーリング手法は,インターフェースが多様で比較や再利用が困難である。
    • 共通のソフトウェアインターフェースにより,プーリング手法の比較と再利用を容易にすること。
    • Torch Geometric Pool (tgp) は,PyTorch Geometric を基盤としたプーリングライブラリである。
    • SRCL (Select-Reduce-Connect-Lift) 分解に基づいた共通インターフェースを提供し,20種類の階層的プーラーを提供する。
    • バッチ処理,標準化された出力オブジェクト,キャッシュ,および事前粗化化をサポートする。

    Link: https://arxiv.org/abs/2512.12642

  • 離散型,ガウス型,シンプレックス拡散の統一 [cs.CL, cs.LG]目的:離散型,ガウス型,シンプレックス拡散の理論的統合
    • DNA,タンパク質,言語等の離散系列を拡散モデルで扱うことは,科学分野において重要である。
    • 既存の拡散モデルはアルゴリズム,理論構造,利点が異なり,使い分けが難しいという課題がある。
    • 拡散モデルの統合的理解と,安定したシンプレックス拡散の実現を目指している。
    • 本研究は,これら3つの拡散法を,ライト・フィッシャー集団遺伝モデルという共通の枠組みで統一する理論を構築した。
    • シンプレックス拡散とガウス拡散を,ライト・フィッシャーモデルの異なる近似として捉え,安定化に貢献する。
    • 単一モデルで3つの領域の拡散が可能であり,DNA生成において,既存のシンプレックス拡散モデルを上回る性能を示した。

    Link: https://arxiv.org/abs/2512.15923

  • 主観的関数 [cs.AI, q-bio.NC]目的:目的関数の生成と選択に関するメカニズムの解明
    • 人間の知能は,状況に応じて目標を設定する能力に優れているため,その仕組みの理解が重要である。
    • 従来の人工システムは,外部から与えられた目標に依存しており,自律的な目標設定が困難である。
    • エージェント内部で定義される主観的関数に基づき,人工システムに目標設定能力を付与することを目指す。
    • 主観的関数という概念を提案し,予測誤差をその具体例として検討した。
    • 本研究は,心理学,神経科学,機械学習における既存の知見との関連性を示唆している。
    • これにより,人工システムにおける目標設定の新たなアプローチの可能性が示された。

    Link: https://arxiv.org/abs/2512.15948

  • 愛,嘘,そして言語モデル:ロマンス詐欺におけるAIの役割の調査 [cs.CR, cs.AI, cs.CY]目的:ロマンス詐欺におけるAIの役割
    • 国際的な詐欺被害が深刻化しており,経済的・精神的な損失が拡大している。
    • 詐欺の手口が巧妙化しており,従来の対策では対応が困難になっている。
    • 言語モデルが詐欺に利用される可能性を明らかにし,対策を検討する。
    • 詐欺組織では,すでに言語モデルが広く利用されており,会話タスクの自動化が進んでいる。
    • 言語モデルを用いた詐欺エージェントは,人間よりも信頼を得やすく,要求への同意率も高い。
    • 既存の安全フィルターは,ロマンス詐欺の対話を検出することができない。

    Link: https://arxiv.org/abs/2512.16280

  • FaithLens:忠実性ハルシネーションの検出と説明 [cs.CL, cs.AI]目的:大規模言語モデルの出力における忠実性ハルシネーションの検出と説明
    • 大規模言語モデルの応用拡大に伴い,生成内容の信頼性確保が不可欠である。
    • 大規模言語モデルは,根拠のない情報を生成する「ハルシネーション」を起こしやすい。
    • 生成内容の忠実性を評価し,その根拠を説明することで信頼性を高める。
    • FaithLensは,GPT-5.2やo3などの高性能モデルを凌駕する性能を示す。
    • FaithLensは,バイナリ予測と説明を同時に提供し,信頼性の向上に貢献する。
    • 高品質な説明生成により,信頼性,効率性,有効性のバランスを実現する。

    Link: https://arxiv.org/abs/2512.20182

  • クロスサブジェクトソフトROI融合による統一マルチモーダル脳デコーディング [cs.LG, cs.CV, eess.IV]目的:マルチモーダル脳デコーディングにおけるセマンティック情報の再構築と自然言語記述の生成
    • 脳活動から意味情報を読み取ることで,認知メカニズムの解明やブレイン・マシン・インターフェースの発展に貢献する。
    • 個人間の脳機能の多様性により,異なる被験者間での汎化性能が課題となっている。
    • 脳機能の多様性を克服し,個人間の知識転移を可能にする新たなアプローチを確立する。
    • 提案手法BrainROIは,NSDデータセットにおける脳キャプション評価で最先端の性能を達成した。
    • クロスサブジェクト設定において,BLEU-4やCIDErなどの評価指標で既存手法を上回る明確な改善が確認された。
    • 解釈可能なプロンプト最適化により,プロンプト設計の安定性と透明性が向上し,生成される記述の質が改善された。

    Link: https://arxiv.org/abs/2512.20249

  • MegaRAG:マルチモーダル知識グラフに基づく検索拡張生成 [cs.AI, cs.CL, cs.CV, cs.IR]目的:マルチモーダル知識グラフを用いた検索拡張生成手法
    • LLMの知識獲得能力向上は,未学習文書への対応を可能にし,応用範囲を拡大する。
    • 既存のRAGは,文脈長の制限により,長文コンテンツの深い推論が困難である。
    • 視覚情報を含むマルチモーダルな推論能力を備えたRAGの実現を目指す。
    • 本研究では,知識グラフ構築,検索,応答生成に視覚情報を組み込んだMegaRAGを提案する。
    • MegaRAGは,テキストとマルチモーダル両方のデータセットにおいて,既存のRAG手法を上回る性能を示す。
    • 視覚的,テキスト的,空間的な情報を統合することで,より高度な内容理解を可能にする。

    Link: https://arxiv.org/abs/2512.20626

  • SpidR-Adapt:少量のデータによる言語適応のための汎用音声表現モデル [cs.NI, cs.CL, cs.AI]目的:少量データを用いた新しい言語への音声表現の迅速な適応
    • 人間の言語習得効率と,データ集約型の音声モデルとの乖離を埋める必要性
    • 従来の自己教師あり学習モデルは,言語適応に大量のデータが必要
    • 少ないデータでも言語適応を可能にする,効率的な音声表現学習手法の開発
    • SpidR-Adaptは,MAdaPTという二層最適化フレームワークに基づくメタ学習により,少ないデータでの音声表現学習を実現。
    • FOBLOという効率的な解法を用いることで,メタ学習の計算コストを抑制し,大規模な学習を可能にした。
    • 1時間未満のターゲット言語音声データで,既存モデルを上回る性能を達成し,データ効率が100倍向上。

    Link: https://arxiv.org/abs/2512.21204

  • 欠損パターン木に基づく決定グループ化とアンサンブルによる,深層不完全マルチビュークラスタリングにおけるペア利用の強化 [cs.LG, cs.CV]目的:不完全マルチビュークラスタリングにおけるペア利用率の向上
    • 現実世界のデータは多くの場合マルチビューであり,多様な応用において重要な役割を果たす。
    • マルチビューデータには欠損パターンが不一致な場合が多く,クラスタリングの性能を低下させる。
    • 欠損パターンに対応し,利用可能なペアを最大限活用することでクラスタリング精度を向上させる。
    • 提案手法では,欠損パターン木を用いてデータを複数の決定集合にグループ化し,各集合内でマルチビュークラスタリングを行う。
    • 決定集合間のクラスタリング結果をアンサンブルすることで,不確実性に基づく重みを付与し,よりロバストな出力を得る。
    • アンサンブルの知識を個々のビュー固有のクラスタリングモデルに伝達し,相互に強化することで性能を向上させている。

    Link: https://arxiv.org/abs/2512.21510

  • ブラインド逆問題の学習におけるサンプル複雑性について [cs.LG, stat.ML]目的:ブラインド逆問題の学習におけるサンプル複雑性の理論的解析
    • 計測や画像処理など様々な実験設定で現れる逆問題であり,その解決は応用範囲が広い。
    • 従来の逆問題解決手法は,信号や順方向演算子が未知の場合に適用が困難である。
    • データ駆動型アプローチの理論的保証を確立し,信頼性の高いブラインド逆問題解決を目指す。
    • 線形最小二乗推定(LMMSE)の枠組みを用いて,ブラインド逆問題における最適な推定量を解析的に導出した。
    • 未知の信号,ノイズ,ランダムな順方向演算子の分布に依存するTikhonov正則化法との等価性を示した。
    • ノイズや演算子のランダム性が減少するにつれて再構成誤差が収束することを示し,有限サンプル誤差限界を導出した。

    Link: https://arxiv.org/abs/2512.23405

  • 大規模言語モデルによるアメリカ国民の気候変動に対する意見の系統的な誤表現 [cs.CY, cs.AI]目的:アメリカ国民の気候変動に対する意見の集団レベルの推定の正確性
    • 政策決定において国民の意見を把握する重要性が高まっており,AIの活用が進んでいる。
    • 大規模言語モデルの出力には,交差性に関する歪みが生じることが指摘されている。
    • 大規模言語モデルが,多様な意見をどのように表現しているかを検証し,公平な気候変動対策に貢献する。
    • 大規模言語モデルは,アメリカ国民の気候変動に対する意見の多様性を圧縮する傾向がある。
    • 関心の低い集団をより関心があるように,関心の高い集団をより関心の低いように予測する。
    • この歪みは交差的であり,特に黒人アメリカ人の性別に関する意見の表現に誤りが見られる。

    Link: https://arxiv.org/abs/2512.23889

  • DynaFix:実行レベル動的情報駆動による反復自動プログラム修復 [cs.SE, cs.AI]目的:実行レベルの動的情報を活用した反復的な自動プログラム修復手法
    • ソフトウェアの信頼性確保は重要であり,バグ修正は不可欠なプロセスである。
    • 既存の自動プログラム修復は,静的解析に偏り,実行時の振る舞いを十分に捉えられていない。
    • DynaFixは,動的情報を反復的に活用し,複雑なバグの修復を効率化することを目的とする。
    • DynaFixは,変数の状態,制御フロー,コールスタックといった実行レベルの動的情報を構造化されたプロンプトに変換し,LLMのパッチ生成を誘導する。
    • Defects4Jのベンチマークにおいて,既存手法を10%上回り,186個のシングルファンクションバグを修復し,38個の未修復バグを解決した。
    • 最大35回の試行で正しいパッチを生成し,探索空間を70%削減することで,有効性と効率性を実証した。

    Link: https://arxiv.org/abs/2512.24635

  • マルチエージェントにおけるオプション発見のためのエージェント間相対表現 [cs.LG]目的:マルチエージェント環境における協調行動の発見
    • エージェント数が増加すると状態空間が指数関数的に増大する
    • 既存手法では協調性が損なわれやすく,独立した行動になりがち
    • エージェント状態の同期性を考慮した状態抽象化により協調行動を促進する
    • 提案手法では,チーム全体の整合性を最大化する「フェルマー状態」を近似する
    • 状態空間のばらつきを捉える「spreadness」を定義し,エージェント間の状態同期パターンを抽出
    • シミュレーション実験の結果,提案手法が他の手法よりも優れた協調性を示す

    Link: https://arxiv.org/abs/2512.24827

  • 推論モデルにおける洞察の錯覚 [cs.AI, cs.CL]目的:推論モデルにおける思考過程の中間変化とその効果
    • AIの推論能力向上は,複雑な問題解決や意思決定を支援する上で不可欠である。
    • 推論モデルの思考過程は不透明であり,なぜ正解にたどり着くのか説明が困難である。
    • モデルが示す中間変化が,真に性能向上に寄与しているのか検証すること。
    • 推論モデルにおける中間的な思考の変化は稀であり,学習によって頻度は増加しない。
    • これらの変化は必ずしも精度向上に繋がりず,モデルの不確実性によって効果が変動する。
    • 外部からの介入によって思考の変化を誘発することで,精度を確実に改善できることが示された。

    Link: https://arxiv.org/abs/2601.00514

  • ERP分析のベンチマーク:手動特徴量,深層学習,および基盤モデル [cs.NE, cs.CE]目的:ERP分析における手法の性能評価
    • 認知分析,神経疾患の検出,心理状態の評価に不可欠なERP研究の発展。
    • ERPデータに対する深層学習の有効性が十分に検証されておらず,手動特徴量への依存度が高い。
    • ERP分析に最適な手法の選択とモデル設計のための指針を確立すること。
    • 伝統的な手動特徴量,深層学習モデル,事前学習済みの基盤モデルを12の公開データセットを用いて比較検証した。
    • ERP刺激の分類と脳疾患検出の2つの代表的なタスクにおいて,各手法の性能を評価した。
    • Transformerアーキテクチャにおけるトークン埋め込み戦略を調査し,ERPデータに適した設計を特定した。

    Link: https://arxiv.org/abs/2601.00573

  • 慢性閉塞性肺疾患における骨格筋アウトカム予測のための幾何学的・量子カーネル法 [cs.LG, cs.AI, quant-ph]目的:慢性閉塞性肺疾患における骨格筋重量,固有収縮力,筋質予測
    • 医療分野におけるバイオマーカー研究の重要性が増しており,疾患メカニズムの解明や治療法の開発に貢献する。
    • 小規模データセットを用いたバイオマーカー研究では,過学習や汎化性能の低下といった課題が存在する。
    • 本研究では,少ないデータでも高精度な予測を可能にする幾何学的・量子カーネル法を提案し,その有効性を検証する。
    • 量子カーネルリッジ回帰は,4つの解釈可能な入力を用いて,筋重量予測において最高の性能(RMSE 4.41 mg; R2 0.62)を達成した。
    • バイオマーカーのみを用いたSPD特徴量も,リッジ回帰と比較して改善が見られた(4.55 mg vs 4.79 mg)。
    • 低筋重量のスクリーニング評価では,ROC-AUC 0.91という高い精度が得られた。

    Link: https://arxiv.org/abs/2601.00921

  • スパースな葉の発生率カーネルによる森林近傍性の再検討 [cs.LG, cs.DS, cs.PF]目的:森林近傍性の計算の効率化
    • 決定木アンサンブルは,多様なデータ解析タスクにおいて高い性能を発揮する。
    • 森林近傍性の計算は,サンプル数に対して二次時間となり,大規模データへの適用が課題となる。
    • 葉の発生率に基づいた効率的な近傍性計算手法を開発し,計算コストを削減すること。
    • 提案手法は,既存の近傍性計算手法を統一的に捉え,葉空間におけるスパースな表現を導出した。
    • このスパース表現により,近傍性行列の正確な計算を,ペアごとの比較を回避しつつ,線形時間・メモリで実現した。
    • 実験結果は,理論的予測と一致し,提案手法が様々なデータセットや森林設定で有効であることを示した。

    Link: https://arxiv.org/abs/2601.02735

  • LLM推論における効率的なサンプリングのための信頼度を考慮した適応的自己整合性 [cs.CL, cs.HC, cs.CL, cs.LG]目的:LLM推論におけるサンプリング効率の向上
    • 大規模言語モデルの推論能力は重要だが,計算コストが高い。
    • 自己整合性は信頼性を向上させるが,計算コストが課題となる。
    • 信頼度に基づいた適応的サンプリングによる効率化を目指す。
    • ReASCは,応答の頻度と信頼度を共同で活用することで,情報集約の効率を高める。
    • 5つのモデルと4つのデータセットで,既存手法と比較して優れた精度とコストのトレードオフを実現した。
    • Gemma-3-4B-itを用いたGSM8Kにおいて,自己整合性と同等の精度を維持しつつ,推論コストを最大70%削減した。

    Link: https://arxiv.org/abs/2601.02970

  • 長いデコード段階におけるポストトレーニング疎アテンションアルゴリズムの適用:少ない方が良い [cs.CL, cs.CL, cs.AI, cs.LG]目的:長いデコード段階における疎アテンションアルゴリズムの複雑性増加とその軽減策
    • 大規模言語モデルの利用拡大に伴い,推論効率の改善が重要である。
    • 疎アテンションアルゴリズムは計算量を削減するが,情報損失によりデコード時間が長くなる問題がある。
    • 疎アテンションによる情報損失と利得のバランスを取り,デコードの効率化を図る。
    • 疎アテンションが情報損失を引き起こし,結果的にデコードに必要なトークン数が増加する「少ない方が良い」現象を実証した。
    • 情報損失が情報利得を超える閾値を検出する早期停止アルゴリズムを提案し,トークン消費量を最大90%削減することに成功した。
    • 提案手法は,推論能力の重篤なベンチマークにおいて,わずか2%未満の精度低下で高い効果を示した。

    Link: https://arxiv.org/abs/2601.03043

  • LLMは推論トークンの機能的重要性を符号化しているか? [cs.CL, cs.AI, cs.LG]目的:推論トークンの機能的重要性の符号化
    • 複雑な課題解決においてLLMの活用が重要視されている。
    • 推論過程が長くなるほど計算コストが増大し,重要なトークンを特定しにくい。
    • 推論トークンの機能的重要性を評価し,効率的な推論を可能にすること。
    • 提案手法である貪欲なプルーニングにより,モデルの尤度を維持しつつ推論チェーンを短縮できた。
    • プルーニングされた推論チェーンで学習したモデルは,既存手法と比較して優れた性能を示した。
    • 注意スコアがプルーニング順位を予測できることから,モデルはトークンの機能的重要性を内部的に符号化している可能性が示唆された。

    Link: https://arxiv.org/abs/2601.03066

  • 視覚言語モデルにおける誤った推論のベンチマーク:MMErroR [cs.CL, cs.CL, cs.CV, cs.AI, cs.LG]目的:視覚言語モデルの誤った推論検出能力の評価
    • 近年のマルチモーダル学習の進展は目覚ましいが,モデルが内容を真に理解しているか疑問視されている。
    • 既存のベンチマークは正答率に焦点を当てており,推論過程の誤りを検出する評価が不足している。
    • 視覚と言語の両方の文脈から誤った推論を検出し,その種類を分類する能力の評価を目指す。
    • MMErroRは,1997サンプルからなるマルチモーダルベンチマークであり,各サンプルに一貫した推論エラーが含まれている。
    • 評価した12種類のVLMsにおいて,最良のGemini-3-Pro-Previewでさえ,エラーを正しく分類できたのは66.65%にとどまった。
    • エラーの正確な特定能力は,マルチモーダルモデルの潜在能力を把握するための貴重な洞察を提供する。

    Link: https://arxiv.org/abs/2601.03331

  • 暗黙から明示へ:LLMにおける数学的推論のためのトークン効率の良い論理的教師あり学習 [cs.CL, cs.CL, cs.AI]目的:LLMにおける数学的推論における論理的関係性の理解の改善
    • LLMの数学的問題解決能力向上は,実用的なAIシステム構築に不可欠である。
    • LLMはパターンマッチングに依存し,真の論理的推論能力に課題がある。
    • 論理的関係性の理解を明示的に指導することで,LLMの推論能力を向上させる。
    • FSLRは,CoT-SFTと比較して,分布内および分布外の両方の設定で一貫して優れた性能を示す。
    • FSLRは,CoT-SFTに比べ,平均で3.2%および4.6%の改善を達成した。
    • FSLRは,4~6倍高速な学習が可能であり,学習トークン消費量を80%以上削減する。

    Link: https://arxiv.org/abs/2601.03682