arXiv雑要約

AI - 2026/06/18 公開

将来の宇宙空間における高拡張性AIインフラストラクチャシステム設計に向けて [eess.SY, cs.SY, cs.CG, cs.HC, cs.DC, cs.ET, cs.LG, physics.space-ph]目的：宇宙空間における機械学習のための拡張性のある計算システム
- AIは基盤技術であり，その計算需要とエネルギー需要は増大の一途を辿ると予想される。
- 既存の地上インフラでは，AIの増大する計算需要とエネルギー需要に対応することが課題となっている。
- 太陽エネルギーを活用した宇宙空間でのAIインフラ構築により，その課題を解決することを目指す。
- 太陽光発電と自由空間光通信を利用した衛星群による拡張性のある計算システムを提案した。
- 81機の衛星クラスタによるフォーメーション飛行の基本アプローチを提示し，大規模衛星群制御への機械学習の応用を検討した。
- Trillium TPUは放射線試験に合格し，5年間のミッションライフに耐えうることを確認した。
Link: https://arxiv.org/abs/2511.19468
セマンティック・ルーター：単一の敵対的摂動によるMLLMの乗っ取りの可能性 [cs.CV, cs.AI, cs.CR]目的：マルチモーダル大規模言語モデル(MLLM)に対するセマンティックアウェアハイジャックの実現性
- 自律走行やロボティクスなど，ステートレスシステムへのMLLMの応用が拡大しているため，そのセキュリティ確保は重要である。
- 既存手法では，特定の入力に対して局所的な摂動を与える必要があり，複数の意思決定を同時に乗っ取ることは困難であった。
- 単一の摂動で複数のMLLMの意思決定を同時に乗っ取る攻撃手法を確立し，その危険性を明らかにすること。
- 提案手法SAUPは，入力のセマンティクスを認識し，攻撃者が定義したターゲットへルーティングすることで，MLLMの乗っ取りを可能にする。
- 理論的・実験的分析により，潜在空間の幾何学的性質に基づいたSORT最適化戦略が有効であることが示された。
- Qwenに対する実験で，単一のフレームに対して5つのターゲットに対して66%の攻撃成功率を達成し，この攻撃の実現可能性を証明した。
Link: https://arxiv.org/abs/2511.20002
RippleBench: 既存の知識リポジトリを用いた波及効果の捕捉 [cs.ET, cs.AI]目的：言語モデルの波及効果の評価
- 言語モデルの安全性と信頼性は重要であり，意図しない影響の理解が不可欠である。
- 言語モデルへの修正が，関連する領域に予期せぬ影響を及ぼす波及効果の予測が困難である。
- 波及効果を定量的に評価するベンチマークを構築し，修正手法の影響を分析すること。
- RippleBench-Makerパイプラインを用いて，WikiRAG上でRippleBench-WMDP-Bioを構築した。
- 8つのアンラーニング手法において，精度低下はターゲットに近く，意味距離が離れるほど低下する傾向が確認された。
- モデルを横断した結果，波及効果はアンラーニング手法に依存し，ベースモデルに依存しないことが示唆された。
Link: https://arxiv.org/abs/2512.04144
潜在フローマッチングによる縦断的画像生成のための患者固有の疾患ダイナミクスの学習 [cs.DM, cs.CV, cs.AI]目的：縦断的画像生成のための患者固有の疾患ダイナミクス学習手法
- 疾患の進行理解は，早期診断や個別化治療に不可欠であり，臨床上重要な課題である。
- 既存手法では，潜在表現が散在し，意味構造を欠くため，連続的かつ単調な疾患ダイナミクスを捉えきれていない。
- 患者固有の潜在空間アラインメントを学習し，疾患の進行をより解釈可能かつ意味のあるものにすることを目指す。
- 提案手法$\Delta$-LFMは，縦断的MRIの3つのベンチマークにおいて，高い性能を示した。
- 従来の拡散モデルとは異なり，疾患の固有のダイナミクスを捉え，より解釈可能な進行を可能にする。
- 潜在空間における患者固有のアラインメント学習により，一貫性と意味のある潜在空間を実現した。
Link: https://arxiv.org/abs/2512.09185
KANELÉ：効率的なLUTベース評価のためのコルモゴロフ・アーノルドネットワーク [cs.RO, cs.AR, cs.LG, cs.SY, eess.SY, hep-ex]目的：FPGA上での低遅延かつリソース効率の高いニューラルネットワーク推論の実現
- リアルタイム性と低消費電力が必要なアプリケーションにおいて，FPGA上でのニューラルネットワーク推論は重要である。
- 従来のニューラルネットワークは，FPGA実装においてリソース消費が大きく，推論速度が遅いという課題がある。
- コルモゴロフ・アーノルドネットワークの特性を活かし，FPGA上での効率的なLUTベース実装を可能にすること。
- KANELÉは，従来のFPGA上でのKAN実装と比較して，最大2700倍の高速化と大幅なリソース削減を実現した。
- KANELÉは，他のLUTベースのアーキテクチャと同等またはそれ以上の性能を，特に数式や物理法則を含むタスクにおいて示した。
- 本フレームワークは，リアルタイムかつ省電力な制御システムへの応用も可能である。
Link: https://arxiv.org/abs/2512.12850
学術概念インデックスを用いた科学的文書検索の改善 [cs.CG, cs.RO, cs.IR, cs.AI]目的：科学的文書検索における性能向上
- 学術研究の発展には，関連文献の効率的な探索が不可欠である。
- 専門用語の差異や情報ニーズの複雑さから，汎用検索エンジンでは十分な精度が得られない。
- 学術概念を構造的に捉え，検索クエリと文脈を豊かにすることで，検索精度を向上させる。
- 学術概念インデックスは，論文から主要な概念を抽出し，学術分類体系に基づいて構造化する。
- 概念カバレッジに基づいたクエリ生成（CCQGen）により，LLMが多様な概念を網羅したクエリを生成する。
- 概念に焦点を当てた文脈拡張（CCExpand）により，関連性の高い文脈を付加し，検索性能を向上させる。
Link: https://arxiv.org/abs/2601.00567
InstructTime++：暗黙的特徴量強化による多言語モデルを用いた時系列分類 [cs.LG, cs.AI]目的：時系列分類における多言語モデルの活用
- 時系列データは様々な分野で重要であり，その分類は重要な課題である。
- 従来の識別的パラダイムでは，文脈的特徴やクラス間の意味的関係の活用が困難である。
- 多言語モデルを用いた生成タスクへの定式化により，これらの課題を解決する。
- InstructTimeは，時系列を離散的なトークンに変換し，言語モデルでクラスラベルを生成する。
- InstructTime++は，暗黙的特徴量モデリングを取り入れ，言語モデルの誘導バイアスを補完する。
- 複数のベンチマークデータセットで，InstructTime++の優れた性能が示された。
Link: https://arxiv.org/abs/2601.14968
物語の再話におけるナラティブ理論に基づく強化学習：再話，報酬，反復 [cs.CL, cs.AI]目的：ナラティブ理論に基づいた物語の再話能力の向上
- 物語理解は，人間とAI間のコミュニケーションにおいて重要な役割を果たす。
- 大規模言語モデルは，制約された物語空間で論理的な一貫性を保つことが難しい。
- ナラティブ構造を学習させることで，物語の論理性と整合性を高める。
- 本研究では，構造主義的物語学とナラティビティの尺度を組み合わせた強化学習パイプライン「再話，報酬，反復(RRR)」を提案する。
- RRRは，参照出力なしでテキストの特徴からナラティビティを学習するd-RLAIFを用いることで，高品質な物語生成を実現する。
- 実験の結果，RRRで学習された言語モデルは，従来のファインチューニング手法と比較して，論理性，合理性，完全性において優れた性能を示す。
Link: https://arxiv.org/abs/2601.17226
参照コミュニケーションにおけるLVLMと人間の異なる接地 [cs.CL, cs.AI, cs.HC]目的：参照コミュニケーションにおける接地方法の違い
- AIエージェントと人間の協調には，人間の意図を正確に予測する能力が不可欠である。
- 既存のAIは，共通基盤をモデル化する能力が不足しており，円滑なコミュニケーションが困難である。
- 本研究は，AIが円滑なコミュニケーションに必要な参照表現の生成と解決を可能にする。
- LVLMは，参照表現を対話的に生成・解決することができず，人間のような円滑なコミュニケーションを実現できないことが示された。
- 人間同士のペアとLVLMを含むペアを比較した結果，LVLMは人間ほど効率的にコミュニケーションできないことが明らかになった。
- 356の対話データセットと，データ収集・分析のためのツールを公開し，今後の研究に貢献する。
Link: https://arxiv.org/abs/2601.19792
時間誘導型ニューラルネットワーク：時間依存型偏微分方程式の解法 [cs.LG, cs.NA, math.NA]目的：時間依存型偏微分方程式の解法
- 物理現象のシミュレーションにおいて，偏微分方程式は不可欠であり，その効率的な解法は重要である。
- 従来の物理情報ニューラルネットワークは，時間変化するダイナミクスを表現する能力に限界がある。
- 時間に応じてネットワークの重みを変化させることで，時間依存性への表現力を向上させる。
- 提案手法TINNsは，従来のPINNsと比較して，最大4倍の精度向上と10倍の収束速度向上を達成した。
- TINNsは，時間に応じて変化するネットワーク重みを用いることで，時間依存型偏微分方程式の解をより効果的に学習する。
- 本研究は，物理現象のシミュレーションにおけるニューラルネットワークの応用範囲を拡大する。
Link: https://arxiv.org/abs/2601.20361
ヘシアン条件付けによる安定した低ビット量子化のための汎用フレームワーク HeRo-Q [cs.LG, cs.AI]目的：低ビット量子化における安定性向上
- 大規模言語モデルの効率的な推論には，モデルの圧縮が不可欠である。
- 既存の量子化技術は，量子化誤差の最小化に偏重し，汎化性能の低下を招く場合がある。
- ヘシアン行列の条件付けにより，量子化ノイズに対するロバスト性を高めることを目指す。
- HeRo-Qは，軽量な回転・圧縮行列を導入することで，損失関数のヘシアン行列の最大固有値を低減する。
- LlamaおよびQwenモデルを用いた実験により，HeRo-QがGPTQ，AWQ，SpinQuantなどの最先端手法を凌駕することが示された。
- 特に，W3A16のような極めて低ビットな量子化設定において，GSM8Kの精度を大幅に向上させ，論理的崩壊を抑制した。
Link: https://arxiv.org/abs/2601.21626
制約付き二値最適化によるブロック削除を用いたLLM圧縮 [cs.LG, cs.AI, cs.CL, quant-ph]目的：大規模言語モデルの圧縮手法
- LLMは高性能だが，巨大なモデルサイズが運用上の課題となる。
- 既存手法では，連続的な領域の削除に偏り，性能劣化を招く場合がある。
- 非連続なブロック削除による，より効果的なLLM圧縮を目指す。
- 提案手法は，Llama-3.3-70B-Instructの50%圧縮において，最先端手法と比較してMMLUベンチマークで約23%の性能向上を達成した。
- 軽量な圧縮においては，複数のモデル・ベンチマークで既存手法と同等の性能を示した。
- 計算効率が高く，少数のアクティブパラメータを用いた較正データセットでの順伝播・逆伝播のみで実行可能である。
Link: https://arxiv.org/abs/2602.00161
拡散逆問題に対するノイズ条件付き周波数露出を用いた事後継続法 [cs.CV, cs.AI]目的：拡散逆問題における復元性能向上
- 画像処理分野において，逆問題の解決は重要な課題であり，高画質復元や画像補完に不可欠である。
- 従来の拡散モデルによる逆問題解決は，高ノイズレベル下での周波数成分の推定精度が課題となっていた。
- 本研究は，ノイズレベルに応じた周波数露出を導入することで，高精度な復元を可能とする。
- 提案手法は，事後継続フレームワークと安定化サンプラーを組み合わせることで，信頼性の高い周波数帯域に焦点を当てた復元を実現した。
- スーパー解像，インペインティング，デブラーリング等のタスクにおいて，最先端手法に匹敵，またはそれを上回る性能を示した。
- 特にモーションデブラーリングでは，FFHQおよびImageNetデータセットにおいて，強力なベースラインよりも最大5dBのPSNR改善を達成した。
Link: https://arxiv.org/abs/2602.00176
スプライン局所性に基づくコルモゴロフ・アーノルド・ネットワークによる超高速オンチップオンライン学習 [cs.RO, cs.AR, cs.LG, cs.SY, eess.SY, stat.ML]目的：超高速オンライン学習の実現
- 量子コンピューティングや核融合制御など，高周波システムへの応用が期待される分野である。
- 従来の多層パーセプトロンは，低遅延性，固定精度計算，メモリ制約下で非効率かつ数値的に不安定である。
- コルモゴロフ・アーノルド・ネットワークの特性を活用し，低遅延かつリソース制約下でのオンライン学習を実現する。
- Bスプライン局所性を利用したKANの更新は疎であり，チップ上でのリソーススケーリングに優れていることが示された。
- KANは固定小数点量子化に対して本質的に堅牢であることが確認された。
- FPGAによる実装実験により，KANベースのオンライン学習器がMLPよりも効率的かつ表現力に優れていることが示された。
Link: https://arxiv.org/abs/2602.02056
ユーザーログによる大規模言語モデルシステムの改善 [cs.CL, cs.CL, cs.AI]目的：大規模言語モデルシステムの改善
- 大規模言語モデルの発展には，学習データとパラメータの拡大が重要である。しかし，高品質なデータは限られつつあり，計算コストの増大も課題となっている。
- ユーザーログは有用なフィードバックを含むが，その構造化されていないノイズの多い性質から，効果的に活用することが困難である。
- ユーザーログから有効な信号を抽出し，モデルの知識とログデータの間のギャップを埋めることで，システムを改善する。
- 本研究では，ユーザーログを活用するためのUNO（User log-driveN Optimization）という統一的なフレームワークを提案した。
- UNOは，ログを半構造化されたルールと優先ペアに変換し，クエリとフィードバック駆動型クラスタリングを用いてデータヘテロジェネティを管理する。
- 実験の結果，UNOはRetrieval Augmented Generationやメモリベースラインを大きく上回り，最先端の性能と効率を実現した。
Link: https://arxiv.org/abs/2602.06470
コードに関する状態空間モデルが学習することの理解に向けて [cs.AI]目的：状態空間モデルとTransformerモデルにおけるコード理解の学習内容の体系的な比較分析
- 近年，コード理解においてTransformerに匹敵する性能を持つ状態空間モデルが注目されている。
- 状態空間モデルの内部メカニズムはブラックボックスであり，その学習過程は未解明である。
- 状態空間モデルの学習特性を理解し，モデル設計の改善に繋げる。
- 事前学習段階では，状態空間モデルはTransformerよりもコードの構文・意味構造をより効果的に捉える。
- しかし，特定のタスクにおけるファインチューニングの過程で，一部の関係性を忘却することが示唆された。
- SSM-Interpretを用いた分析から，ファインチューニング時に短距離依存関係へのスペクトルシフトが確認され，その知見に基づいたアーキテクチャ変更によりNLCodeSearchのMRRが最大+6%向上した。
Link: https://arxiv.org/abs/2602.06774
ニューラルネットワークは徐々に変化する世界で可塑性を失うのか？ [cs.LG, cs.AI]目的：継続学習における可塑性喪失のメカニズム解明
- 機械学習の発展に伴い，継続学習の重要性が増している。人間の学習能力を真似る上で不可欠な要素である。
- ニューラルネットワークは新しいタスクを学習する能力が徐々に低下する「可塑性喪失」の問題を抱えている。
- タスク遷移の急激さが可塑性喪失に影響を与えるのか，環境変化の緩やかさがその影響を軽減するのかを検証する。
- タスク遷移の急激さと可塑性喪失の深刻さには相関関係があり，急激な遷移ほど可塑性喪失は顕著に現れることが示された。
- 環境変化を徐々にすることで，可塑性喪失を大幅に軽減できることが理論的および実験的に証明された。
- 従来のベンチマークにおける急激なタスク遷移が，可塑性喪失の要因として過大評価されていた可能性が示唆された。
Link: https://arxiv.org/abs/2602.09234
PRISM：解釈可能な形状モデリングのための3次元確率的ニューラル表現 [cs.LG]目的：解剖学的形状の進化と空間的な不確実性の定量化
- 医療研究において，形状変化の理解は，疾患の診断や治療法の開発に不可欠である。
- 既存手法は，空間的に異質なダイナミクスを無視したグローバルな時間歪みを利用するため，局所的な不確実性の把握が困難である。
- PRISMは，空間連続的な平均と不確実性の推定を通じて，形状変化の理解と予測を改善することを目指す。
- PRISMは，暗黙的なニューラル表現と不確実性を考慮した統計的形状解析を組み合わせた新しいフレームワークである。
- 閉形式のFisher情報行列により，自動微分を用いた効率的な局所的な時間的不確実性の定量化が可能となった。
- 合成データセットと臨床データセットにおける実験により，PRISMの優れた性能が実証された。形状モデリング，パーソナライズド予測，異常検知を統一的に実現し，解釈可能な不確実性推定を提供した。
Link: https://arxiv.org/abs/2602.11467
勾配降下法と確率的勾配降下法における非線形ダイナミクスの安定性：二次ポテンシャルを超えて [cs.LG, stat.ML]目的：勾配降下法および確率的勾配降下法における非線形ダイナミクスの安定性に関する条件
- 最適化アルゴリズムの性能は，得られる最小値に大きく依存する。
- 線形化による安定性解析では，非線形挙動を正確に捉えきれない可能性がある。
- 非線形項が安定性に与える影響を明確にすること。
- 勾配降下法において，最小値近傍の安定振動の正確な条件を導出した。
- 確率的勾配降下法では，単一のバッチが不安定でも期待値が発散する場合があることが示された。
- 全てのバッチが線形安定であれば，確率的勾配降下法のダイナミクスは期待値において安定であると証明された。
Link: https://arxiv.org/abs/2602.14789
物語理論に基づいたLLM手法：自動物語生成と理解に関する調査 [cs.CL, cs.AI]目的：自動物語生成と理解における物語理論の応用手法の現状と課題
- 物語は人間の思考や文化を反映する重要な要素であり，その理解は様々な分野で不可欠である。
- 自然言語処理において，物語の構造や意味を形式的に扱うことは依然として困難な課題である。
- 物語理論とLLMを組み合わせることで，物語の生成・理解の精度向上を目指す。
- 本調査では，物語理論を活用したLLM研究が，文学だけでなく多様なテキストに応用されていることが示された。
- 物語生成タスクは，理論的応用，後処理手法，ノンフィクションへの拡張において，物語理解タスクに遅れが見られる。
- 物語の質を測る単一の指標を追求するのではなく，個別の物語属性に基づいた評価指標の定義と改善が重要である。
Link: https://arxiv.org/abs/2602.15851
異種グラフニューラルネットワークによる成長可能性の高い中小企業の検出 [cs.LG, cs.AI]目的：成長可能性の高い中小企業の識別
- 中小企業は経済活動の重要な担い手であり，その成長支援は経済発展に不可欠である。
- 有望な中小企業を客観的に識別する方法が確立されておらず，投資や政策支援の効率化が課題である。
- 公開データを活用し，関係性に着目することで，中小企業の潜在能力を評価する手法を開発する。
- 提案手法SME-HGTは，SBIR Phase I受賞企業からPhase IIへの進出を予測する性能において，既存手法を上回る結果を示した。
- 特に，企業数100社をスクリーニングした場合，SME-HGTは89.6%の適合率を達成し，ランダム選択と比較して2.14倍の成果を上げた。
- 本研究は，企業，研究テーマ，資金提供機関間の関係性が中小企業の潜在能力評価において重要な情報源となりうることを示した。
Link: https://arxiv.org/abs/2602.19591
大規模言語モデル駆動による自動ヒューリスティック設計を通じたCVRPソルバーの性能向上 [cs.IR, cs.MA, cs.AI]目的：CVRP（容量制約付き車両経路問題）の最適解探索
- CVRPは輸送コスト削減等に不可欠であり，現実世界の様々なロジスティクス課題に応用可能である。
- CVRPはNP困難問題であり，大規模インスタンスに対する効率的な解法が求められている。
- LLMを活用し，動的にヒューリスティックを生成・最適化することで，CVRPの求解性能を向上させる。
- 提案手法AILS-AHDは，既存ソルバーAILS-IIやHGSと比較して，中規模・大規模インスタンスにおいて優れた性能を示した。
- CVRPLib大規模ベンチマークの10インスタンス中8インスタンスで，新たな最良解を確立した。
- LLM駆動によるヒューリスティック設計が，車両経路最適化の分野を大きく前進させる可能性を示唆した。
Link: https://arxiv.org/abs/2602.23092
ActMem：LLMエージェントにおける記憶の検索と推論のギャップを埋める [cs.CL, cs.AI, cs.IR]目的：LLMエージェントの記憶管理における，記憶検索と積極的な因果推論の統合
- 長期的な対話において記憶管理は重要であり，エージェントの性能を左右する。
- 既存のフレームワークは記憶を単なる記録として扱い，深い意味理解や複雑な意思決定が困難。
- 記憶検索と推論を統合し，エージェントの論理的思考能力と一貫性を向上させる。
- 提案手法ActMemは，対話履歴を構造化された因果・意味グラフに変換することで，潜在的な制約の推論と矛盾の解決を可能にする。
- ActMemEvalという新しい評価データセットを導入し，従来の記憶ベンチマークの事実検索中心の傾向から脱却した。
- 実験の結果，ActMemは複雑な記憶依存型タスクにおいてベースラインを大幅に上回り，より信頼性の高いアシスタントの実現に貢献する。
Link: https://arxiv.org/abs/2603.00026
情報駆動型方策最適化：ユーザー中心エージェントのための [cs.AI]目的：ユーザーとの対話における情報獲得と意思決定の最適化
- 現実世界のユーザー要求は曖昧な場合が多く，エージェントの対話能力が重要となる。
- 既存手法では，報酬計算の粒度が粗く，効果的な学習シグナルが得られない場合がある。
- エージェントが能動的に不確実性を低減し，的確な行動選択を促すことを目指す。
- InfoPOは，対話を通じてエージェントが獲得する情報量に着目し，報酬を与えることで学習を促進する。
- その結果，意図の明確化，共同コーディング，ツール活用といった多様なタスクで，既存手法を上回る性能を示した。
- ユーザーシミュレーターの変化にも強く，環境とのインタラクションが必要なタスクへの汎化性能も高い。
Link: https://arxiv.org/abs/2603.00656
遷移不確実性下におけるロバスト正則化ポリシー反復法 [cs.AI, stat.ML]目的：オフライン強化学習におけるロバストなポリシー最適化
- 強化学習は，複雑な制御問題を解決する強力な手法であり，様々な分野で活用が期待されている。
- オフライン強化学習では，分布シフトにより，学習されたポリシーの性能が低下する可能性がある。
- 本研究は，分布外の状態行動ペアにおける価値推定の信頼性向上を目指す。
- 提案手法であるRRPIは，最悪の場合のダイナミクスに対するポリシー最適化問題を扱い，理論的な収束性を示す。
- D4RLベンチマーク実験の結果，RRPIは既存のベースライン手法を上回り，特にパーセンタイルに基づく手法と比較して高い性能を示す。
- RRPIは，低いQ値と高い認識的確実性を一致させることで，信頼性の低い分布外行動の実行を防ぎ，ロバストな性能を発揮する。
Link: https://arxiv.org/abs/2603.09344
多様体上の1ステップ生成のためのリーマン平均フロー [cs.LG]目的：多様体上の生成モデリングにおける1ステップ生成手法
- 近年，多様体上の生成モデリングが注目されており，その応用範囲は広い。
- 従来のフローマッチングは確率フローODEの数値積分に依存し，計算コストが高い。
- リーマン平均フローにより，数値シミュレーションを回避し，効率的な生成を実現する。
- リーマン平均フロー(RMF)は，場所依存の接空間における速度場を用いて多様体上の生成を可能にする。
- RMFは並行移動と平均速度場の関係式を導出し，固有の教師あり学習を可能にする。
- 実験結果から，RMFは球，トーラス，SO(3)，SE(3)上で競争力のある1ステップサンプリング性能を示す。
Link: https://arxiv.org/abs/2603.10718
音声認識LLMによる話者検証：評価と拡張 [cs.SD, cs.AI]目的：音声認識LLMにおける話者識別能力の評価と向上
- 音声技術は，人間と機械の自然な対話を実現する上で不可欠である。
- 既存のLLMは言語内容に重点を置いており，話者識別能力は十分ではない。
- 話者識別能力をLLMに付与し，自然な対話インターフェースを維持すること。
- 提案手法により，APIおよびオープンウェイトモデルの検証スコアを算出するプロトコルを確立した。
- 最新の音声認識LLMの評価により，話者識別の性能が低いことが示された（VoxCeleb1で20%以上のEER）。
- TinyLLaMA-1.1BにECAPA-TDNN埋め込みを注入したECAPA-LLMは，VoxCeleb1-Eで1.03%のEERを達成し，専用話者検証システムに匹敵する性能を示した。
Link: https://arxiv.org/abs/2603.10827
エンドツーエンド自律運転におけるゼロショットクロスシティ一般化：自己教師あり表現対教師あり表現 [cs.CV, cs.LG]目的：エンドツーエンド自律運転モデルにおける，未知の都市へのゼロショットクロスシティ一般化能力の評価
- 自律運転システムの普及には，異なる環境への適応能力が不可欠である。
- 既存モデルは都市固有の特徴に依存しやすく，未知の都市では性能が著しく低下する可能性がある。
- 自己教師あり学習が，地理的ドメインシフトに対するロバスト性を向上させうるか検証する。
- 教師あり学習で事前学習したモデルは，都市間の転移において性能劣化が顕著であった。
- 一部の自己教師あり学習を用いたモデルは，位置ずれや衝突の減少に貢献した。
- 自己教師あり事前学習は，未知の都市における分布外性能を向上させる効果が確認された。
Link: https://arxiv.org/abs/2603.11417
熱弾性への凸経路：内部エネルギーと散逸の学習 [cs.CE, cs.AI]目的：熱力学的構成モデルの発見
- 熱力学的な現象を正確に記述する構成モデルは，材料設計やシミュレーションにおいて不可欠である。
- 従来のヘルメホルツエネルギーに基づく定式化では，混合凸性条件の適用が困難な場合がある。
- 本研究は，内部エネルギーと散逸ポテンシャルに基づいた新しい定式化により，この問題を解決する。
- 提案手法は，熱力学第一法則と第二法則を満たすネットワーク構造を構築することで，熱力学的に妥当なモデルを保証する。
- 入力凸ニューラルネットワークを用いることで，凸性を確保し，構成挙動を高精度に捉えることが可能になった。
- シミュレーションおよび実験データを用いた検証により，本手法が軟組織や充填ゴムなどの熱力学的応答を正確に予測できることが示された。
Link: https://arxiv.org/abs/2603.28707
MemRerank：パーソナライズされた商品再ランキングのための嗜好メモリ [cs.CL, cs.AI, cs.LG]目的：パーソナライズされた商品再ランキングのための嗜好メモリの抽出と活用
- 近年のLLMを活用したショッピングエージェントの発展に伴い，パーソナライズの重要性が高まっている。
- 購入履歴をそのままプロンプトに加えると，ノイズや長さ，関連性の問題が生じ，効果が低下することがある。
- ユーザーの購入履歴から，クエリに依存しない簡潔な嗜好シグナルを抽出し，再ランキングに活用することを目指す。
- MemRerankは，LLMベースの再ランキングにおいて，既存のベースラインと比較して，1-in-5の精度で最大10.61ポイントの絶対的な改善を達成した。
- この結果は，明示的な嗜好メモリが，エージェント型eコマースシステムにおけるパーソナライズのための実用的かつ効果的な要素であることを示唆している。
- MemRerankは，生の購入履歴や既存のメモリベースラインよりも一貫して優れた性能を発揮する。
Link: https://arxiv.org/abs/2603.29247
CEFRに触発されたファジーC-means分類フレームワーク：Scratchにおけるプログラミングスキルの評価自動化 [cs.CY, cs.AI, cs.LG, cs.SE]目的：Scratchプロジェクトの評価のための教育的フレームワーク
- 教育現場や企業で，大規模かつ透明性の高いプログラミング能力評価のニーズが高まっている。
- 学習者の進捗を的確に把握し，個別最適化された学習を支援するための評価方法が課題となっている。
- CEFRに準拠したフレームワークにより，評価の客観性と再現性を向上させることを目指す。
- ファジーC-meansクラスタリングを用いて，200万件以上のScratchプロジェクトをCEFRレベル(A1-C2)にマッピングした。
- B2レベルに学習者の停滞が見られる「B2ボトルネック」を発見し，その原因が論理同期とデータ表現の認知負荷にあることを示した。
- 自動評価と教員によるレビューを組み合わせることで，より効果的なフィードバックと学習支援が可能になることを示した。
Link: https://arxiv.org/abs/2604.00730
潜在的ワールドモデルを用いた階層的プランニング [cs.LG]目的：長期的なマルチステージタスクにおけるプランニング手法
- ロボット制御において，事前学習データから汎化能力を獲得することが重要である。
- 既存のワールドモデルプランナーは，予測誤差の累積により，長期間のタスクで性能が低下する。
- 視覚情報のみから，階層的なモデル予測制御を実現し，長期間のタスクを解決することを目指す。
- 潜在的ワールドモデルを複数の時間スケールで学習し，長期予測を短期予測のサブゴールとして活用する。
- アクションエンコーダーを用いて，原始的なアクションを潜在的なマクロアクションに圧縮し，計画計算量を削減する。
- 実世界のロボットマニピュレーションにおいて，単一のゴール画像からピックアンドプレースを70%の成功率で達成した。
Link: https://arxiv.org/abs/2604.03208
分布シフト下における意思決定のための生成モデル [cs.LG, stat.ML]目的：分布シフト下での意思決定に関する生成モデルの活用
- データ駆動型の意思決定は重要であり，過去データから学習した分布が実際の運用環境で変化しうる。
- 運用環境の変化（分布シフト）は，モデルの性能低下を引き起こす可能性がある。
- 生成モデルを用いて，分布の変化に対応し，ロバストな意思決定を可能にすること。
- 生成モデルは，輸送写像や速度場を通じて分布を表現・変換し，意思決定に有用な分布構築のツールとなる。
- 本研究では，確率空間における最適化，Wasserstein幾何学に基づいた統一的なフレームワークを提示する。
- これにより，不確実性の学習，ストレス下での分布構築，条件付き分布の生成が可能となる。
Link: https://arxiv.org/abs/2604.04342
WebSP-Eval：ウェブサイトのセキュリティとプライバシーに関するタスクにおけるウェブエージェントの評価 [cs.CR, cs.AI, cs.LG]目的：ウェブサイトのセキュリティとプライバシーに関するタスク遂行能力の評価
- ウェブエージェントの利用拡大に伴い，セキュリティとプライバシー保護の重要性が高まっている。
- 既存の評価フレームワークでは，セキュリティ・プライバシー設定の操作といったユーザー視点での評価が不足している。
- ウェブサイトにおけるセキュリティ・プライバシー設定の自動化能力を評価するフレームワークを構築し，現状の課題を明確化する。
- WebSP-Evalは，28のウェブサイトと200のタスクインスタンスから構成される評価データセットである。
- 最先端のマルチモーダルLLMを用いた評価の結果，ウェブエージェントはセキュリティ・プライバシー関連タスクの自律的な遂行に課題があることが示された。
- 特に，状態を持つUI要素（トグルなど）がタスク失敗の主要因であり，多くのモデルで45%以上の失敗率を引き起こしていることが判明した。
Link: https://arxiv.org/abs/2604.06367
算術の一般化における長期的な遅延：学習された表現が行動を上回るとき [cs.DC, cs.LG, cs.AI]目的：アルゴリズムタスクで訓練されたTransformerにおける学習と急激な一般化の間の長期的な遅延の原因の解明
- Transformer等の深層学習モデルにおける学習メカニズムの理解は，人工知能の発展に不可欠である。
- Transformerでは，学習データへの適合と一般化の間に遅延が生じることがあり，その原因が不明である。
- エンコーダー・デコーダーモデルにおいて，遅延の原因を特定し，学習効率を改善することを目指す。
- エンコーダーは，初期段階でパリティや剰余といった構造を学習する一方で，出力精度は低いままであることが示された。
- 訓練済みのエンコーダーを移植することで，学習の加速が確認され，デコーダーの移植は逆に学習を阻害することが明らかになった。
- エンコーダーを固定してデコーダーのみを再学習することで，学習停滞がなくなり，高い精度が得られることが示された。基数の選択が学習性に影響することも明らかになった。
Link: https://arxiv.org/abs/2604.13082
人間はループに必要か？敵対性検出のためのアクティブラーニングにおける人間とLLMアノテーションの比較 [cs.CL, cs.AI]目的：敵対性検出のためのアクティブラーニングにおける人間とLLMアノテーションの性能比較
- オンライン上での有害コンテンツ増加に対応するため，自動検出技術の高度化が急務である。
- 高品質な学習データが不可欠だが，人間によるアノテーションはコストと時間がかかる。
- LLMを活用することで，コストを抑えつつ十分な性能を達成できるか検証する。
- 指示調整されたLLMは，人間のアノテーションと比較して，はるかに低いコストで大規模なデータセットのアノテーションが可能である。
- 二段階質問形式を用いることで，LLMアノテーションは人間が監督した分類器を凌駕し，GPT-5.2 Batch APIはProlificよりも大幅にコスト効率が良い。
- アクティブラーニングはLLMアノテーションにおいて明確な利点を示さなかったが，誤り構造はLLMの種類によって異なり，GPT-5.2はほぼ人間と同等のFP/FNバランスを実現した。
Link: https://arxiv.org/abs/2604.13899
グローバル洋上風力インフラ：高密度Sentinel-1時系列データによる展開と運用状況 [cs.CV, cs.LG]目的：洋上風力インフラの展開と運用状況のグローバル規模でのモニタリング
- 洋上風力発電は再生可能エネルギー源として重要であり，その普及拡大が世界的に進んでいる。
- 既存のオープンデータセットは，洋上風力インフラの建設と運用に関する時間的に高密度で意味的に詳細な情報が不足している。
- 本研究は，Sentinel-1 SAR時系列データを用いて，洋上風力インフラの展開と運用状況を詳細に把握することを目的とする。
- 2016年第1四半期から2025年第1四半期までのグローバルなSentinel-1 SAR時系列データコーパスを構築した。
- 検出されたインフラロケーションにおいて15,606件の時系列を収集し，合計14,840,637件のSARバック散乱プロファイルを分析可能な形式で提供する。
- ルールベースの分類器によるイベントレベルのラベル付けと，専門家による注釈付きベンチマークデータセットを公開し，利用とベンチマークを容易にした。
Link: https://arxiv.org/abs/2604.20822
ワークフローに注目：ビデオストリームからの自動的かつ効率的なイベント発見 [cs.CV, cs.LG]目的：ビデオストリームからのイベントデータの抽出
- 業務プロセス管理やプロセスマイニングは，組織のプロセスに関する洞察を得る上で重要である。
- ビデオデータなどのマルチモーダルデータは，イベントとして直接解釈できない点が課題である。
- フレーム単位でのラベル付けの説明が難しい，または古いコンピュータビジョン技術に依存している問題を解決する。
- SnapLogは，画像埋め込みを用いてフレームを特徴ベクトルに変換し，フレーム間の類似度行列を通じて時間的なセグメンテーションを行う。
- 汎用的なFew-Shot分類を用いてビデオセグメントにラベルを付与することで，イベントとして解釈可能なタイムスタンプ付きのフレームサブシーケンスを生成する。
- その結果得られたログは，ビデオ内のプロセスを正確に反映することが示された。
Link: https://arxiv.org/abs/2604.22476
概念整合トークンから脆弱な特徴へ：脱獄攻撃のメカニズム的局在化 [cs.CL, cs.AI]目的：大規模言語モデルにおける脱獄攻撃の脆弱性を，より詳細なSAE特徴サブグループへと局在化すること。
- 安全性を重視したLLMでも脱獄攻撃が成功し，社会への悪影響が懸念されるため，そのメカニズム解明が急務である。
- 既存研究では，脱獄攻撃の原因を広範な表現的特徴に帰着させているものが多く，具体的な脆弱性箇所が不明確である。
- 有害な概念とプロンプトトークンを関連付け，SAE特徴サブグループを特定することで，脱獄攻撃の局在化と対策に貢献する。
- 残差ストリームをSparse Autoencoder（SAE）特徴に分解し，有害な行動に関連する特徴サブグループを特定するパイプラインを開発した。
- 単一トークン駆動型グループ化は，完全なクラスタベースグループ化と同等の有害性を示し，個々の有害なプロンプトトークンが十分な局在化を可能とすることを実証した。
- これらのサブグループは，早期から後期レイヤーに存在し，特に後期レイヤーにおいて脆弱性が顕著に現れることが示唆された。
Link: https://arxiv.org/abs/2604.23130
AIにおける情報理論的尺度：実践的な意思決定ガイド [cs.AI, cs.IT, cs.LG, cs.MA, math.IT]目的：情報理論的尺度に関する意思決定フレームワーク
- AI研究において，情報量は意思決定や学習の根幹をなす重要な概念である。
- 尺度選択が推定方法や限界と切り離され，誤った結論を招く可能性がある。
- 適切な尺度選択を支援し，誤用のリスクを軽減することを目指す。
- 情報理論的尺度7種類それぞれに対し，用途，適切な推定方法，注意点を整理した。
- フローチャートと決定テーブルを用いて，実用的な意思決定を支援するフレームワークを提示した。
- 表現学習，時間的影響分析，エージェント複雑性など，具体的な事例を通してフレームワークを解説した。
Link: https://arxiv.org/abs/2604.23716
制約付き都市部におけるEV配車のための分布ロバスト強化学習フレームワーク [cs.AI]目的：制約付き都市部EV配車システムの最適化
- 都市部の交通渋滞緩和や環境負荷低減のため，EV配車の効率化が重要である。
- EV配車において，需要や移動時間の不確実性，充電設備の制約が課題となっている。
- 分布ロバスト強化学習を用いて，不確実性下でも制約を満たす配車計画を策定する。
- 提案手法PD-RSACは，NYCタクシーデータを用いた大規模シミュレーションで，既存手法と比較して最大の純利益（122万ドル）を達成した。
- 既存手法（Greedy，SAC，MAPPO，MADDPGなど）では，0.58～0.70百万ドルの利益であった。
- また，PD-RSACは，電力供給設備の制約違反をゼロに抑えることに成功した。
Link: https://arxiv.org/abs/2604.25848
TopBench: 表形式の質問応答における暗黙的な予測推論のためのベンチマーク [cs.CL, cs.AI, cs.LG]目的：表形式の質問応答における暗黙的な予測推論能力の評価
- 表形式データは様々な分野で活用され，質問応答システム構築の重要性が高まっている。
- 既存の質問応答システムは，単純な情報抽出や集計に優れる一方，過去のパターンからの予測推論が苦手である。
- 暗黙的な予測推論を必要とする質問に対するLLMの性能評価指標を確立し，その課題を明確にすること。
- 現在のLLMは，意図の認識に苦戦し，単純な検索に頼る傾向が強いことが明らかになった。
- 正確な意図の明確化が，予測的行動を導くための前提条件であることが示唆された。
- 予測精度を向上させるには，より洗練されたモデリングや推論能力の統合が必要となる。
Link: https://arxiv.org/abs/2604.28076
FinSTaR：時系列推論モデルによる金融推論に向けて [cs.AI, cs.LG]目的：金融推論のための時系列推論モデルの能力評価と改善
- 金融市場の予測は，経済活動や投資判断において重要な役割を担っている。
- 既存の時系列推論モデルは，金融ドメイン特有の複雑さから，十分な性能を発揮できていない。
- 金融推論におけるモデルの能力を体系的に評価し，改善する手法を開発すること。
- 本研究では，金融推論の能力を評価するためのFinTSR-Benchベンチマークを構築した。
- FinSTaRは，Compute-in-CoTとScenario-Aware CoTという2つのCoT戦略を用いて，ベンチマークで78.9%の平均精度を達成した。
- 異なる能力カテゴリの組み合わせ学習が有効であり，Scenario-Aware CoTが予測精度を向上させることを示した。
Link: https://arxiv.org/abs/2605.03460
QUIVER：代数的コストを考慮した適応的選好クエリ法による代理モデル支援進化型多目的最適化 [cs.LG, cs.NE, math.OC]目的：多目的最適化における意思決定者の選好を考慮した探索効率の向上
- 多目的最適化は，トレードオフの関係にある複数の目的を同時に最適化する手法であり，複雑な問題解決に不可欠である。
- 意思決定者の選好を効率的に取り入れる方法が課題であり，評価コストと選好情報の取得コストのバランスが重要となる。
- 選好クエリの種類と頻度を適応的に調整することで，限られたコスト内で最適な解を探索することを目指す。
- QUIVERは，目的関数の評価と選好クエリの選択を統合的に行うことで，意思決定品質の向上/コストの最小化を実現する。
- DTLZおよびWFGベンチマークにおける実験で，QUIVERは既存手法と比較して低い後悔値（utility regret）を達成した。
- 問題の難易度に応じて，ペアワイズ選好ステートメント（PS）と無差別調整（IA）のクエリ比率を動的に調整することが示された。
Link: https://arxiv.org/abs/2605.04267
自己運転データセット：2000万件の論文から大規模なニュアンスを含むバイオメディカル知識へ [cs.RO, cs.LG]目的：バイオメディカル知識の構造化データセット構築
- バイオメディカル研究の発展には，質の高いデータセットが不可欠である。
- 既存のデータセットは，維持コストが高く，最新情報が不足し，実験コンテキストが失われている。
- PubMedを自律的に構造化データセットに変換し，既存のデータベースの課題を解決する。
- PubMedの論文コーパスを対象に，LLMを用いたエンティティタグ付けパイプラインを開発し，大規模な構造化データセットを構築した。
- ハイブリッド検索システムと多エージェント型研究システムStarlingを開発し，自然言語タスク記述から構造化レコードを生成した。
- 6つのタスクにおいて約630万件のレコードを生成し，既存のキュレーションされたデータベースと比較して高い精度を示した。
Link: https://arxiv.org/abs/2605.07022
メカニスティックから構成的解釈可能性へ [cs.HC, cs.LG]目的：ニューラルモデルの解釈可能性の向上
- 深層学習モデルの複雑性から，その動作原理の理解が不可欠である。
- 既存のメカニスティック解釈は，形式的な枠組みがないため客観的な検証が困難である。
- モデルの分解と観察された挙動の一貫性を保証する形式的な枠組みを構築し，解釈可能性を最適化する。
- 構成的解釈可能性は，カテゴリ論に基づき，最小記述長原理を適用することで，客観的な検証と比較を可能にする。
- 忠実性と複雑性の指標を用いて解釈可能性を制約付き最適化問題として捉え，圧縮的洗練という手法でモデルを簡素化する。
- 構文的圧縮が，より簡潔で人間が理解しやすい説明を理論的に保証する節約基準を導出した。
Link: https://arxiv.org/abs/2605.08934
航空機状態モデリングによる航空交通量予測の可能性 [cs.LG]目的：航空交通量の予測手法
- 航空交通管理の効率化に不可欠であり，遅延の削減や安全性の向上に貢献する。
- 従来の予測手法は集約された時系列データに依存しており，航空機の詳細な状態や相互作用を考慮していない。
- 航空機状態に基づく予測モデルを構築し，より正確かつロバストな交通量予測を実現する。
- AeroSenseは，航空機状態から直接将来の交通量を予測する新しいパラダイムを提示した。
- 従来の集約ベースの手法と比較して，予測精度とロバスト性が向上し，特に高密度交通状況下で顕著な効果が認められた。
- 航空機状態の状況モデリングは，従来の時系列予測に代わる有望な手法となる可能性を示唆している。
Link: https://arxiv.org/abs/2605.10083
Clin-JEPA：EHR患者軌跡におけるJoint-Embedding予測事前学習のための多段階Co-Trainingフレームワーク [cs.LG, cs.AI, q-bio.QM]目的：EHR患者軌跡に対するJoint-Embedding予測(JEPA)事前学習のための多段階Co-Trainingフレームワーク
- 医療データの活用は，患者ケアの質の向上や医療資源の最適化に不可欠である。
- EHRデータを用いた予測モデルは，タスクごとに再学習が必要であり，汎用性に課題がある。
- 単一の基盤モデルで患者軌跡の予測と多様なリスク予測タスクを同時に実行することを目指す。
- Clin-JEPAは，EHRデータにおけるJEPAフレームワークの不安定性を克服し，安定したCo-Trainingを実現した。
- MIMIC-IV ICUデータを用いた評価で，予測軌跡のずれを抑制し，臨床的に識別可能な潜在空間を学習した。
- 単一の基盤モデルが，複数のリスク予測タスクにおいて既存モデルを上回る性能を示した(AUROC: 0.851, 0.883)。
Link: https://arxiv.org/abs/2605.10840
類似性を超えて：時系列解析のための時間演算子注意機構 [cs.LG, cs.AI]目的：時系列解析における時間演算子注意機構の提案
- 時系列データは様々な分野で重要であり，その正確な分析が求められている。
- Transformerモデルが単純なモデルよりも性能が劣るという矛盾が存在する。
- 時間演算子を明示的に学習することで，時系列モデリングの精度向上を目指す。
- 本研究では，時間演算子注意機構（TOA）を提案し，Transformerに組み込むことで性能改善を確認した。
- TOAは，時間経過に伴う信号の変化をより正確に捉え，特に再構成タスクで顕著な効果を示した。
- 確率的演算子正則化により，安定した学習と過学習の抑制を実現している。
Link: https://arxiv.org/abs/2605.11287
シングルショットテスト時超音波画像ノイズ除去のためのピラミッド自己対照学習 [cs.CV, cs.AI]目的：シングルショットテスト時超音波画像ノイズ除去手法
- 超音波画像は臨床診断において重要だが，ノイズの影響を受けやすい。
- 従来のノイズ除去手法はノイズモデルに依存し，複雑な環境下では効果が低下する。
- 本研究は，事前学習なしにノイズと解剖学的特徴を分離する手法を提案する。
- シミュレーション実験では，SNRが69.3%，CNRが34.4%向上した。
- 生体内実験では，心臓，肝臓，腎臓の画像において，SNRが84.8%，CNRが25.7%向上した。
- 多様な撮像対象や構成に対して，ドメインシフトや事前学習のコストなしにクリアな画像を提供できる。
Link: https://arxiv.org/abs/2605.12567