arXiv雑要約

AI - 2025/12/22 公開

  • PILAR:LLMを用いた人間中心かつ信頼性の高い説明による拡張現実インタラクションのパーソナライズ [cs.IR, cs.ET, cs.SI, cs.HC, cs.AI]目的:拡張現実における人間中心かつ信頼性の高い説明の生成
    • 日常生活へのAI搭載ARシステムの統合が進み,リアルタイムなユーザーインタラクションにおける説明可能性の重要性が増している。
    • 従来のXAI手法は,動的で文脈に依存し,パーソナライズされた説明を提供できず,AR体験の断片化を招いている。
    • 本研究は,LLMを活用し,ユーザーのニーズに適応した説明を生成することで,ARシステムの信頼性とユーザーエンゲージメントを高めることを目指す。
    • PILARは,文脈を考慮したパーソナライズされた説明を生成し,直感的で信頼性の高いAR体験を提供する新しいフレームワークである。
    • ユーザー研究の結果,LLMベースのインターフェースは,タスク完了時間を40%短縮し,ユーザー満足度,使いやすさ,透明性を向上させた。
    • 従来のテンプレートベースのインターフェースと比較して,PILARはARベースのレシピ推薦タスクにおいて,ユーザーのパフォーマンスと体験を大幅に向上させた。

    Link: https://arxiv.org/abs/2512.17172

  • 複数教師による学習における保守的バイアス:エージェントが低報酬アドバイザーを好む理由 [cs.CL, cs.RO, cs.AI]目的:複数教師による学習における教師選択のダイナミクス解明
    • 人間の指導から複雑な行動を学習する対話型強化学習は,自律エージェントやロボット工学において重要な研究分野である。
    • 教師選択のメカニズムが十分に理解されておらず,最適な教師の選定が課題となっている。
    • 報酬構造の異なる複数の教師が存在する場合のエージェントの教師選択におけるバイアスを特定し,その原因を解明すること。
    • エージェントは,高報酬の教師よりも,一貫性を重視し,低報酬の保守的な教師を圧倒的に選択する傾向があることが明らかになった。
    • 教師の利用可能性と精度が特定の閾値(rho >= 0.6, omega >= 0.6)を下回ると,学習フレームワークが著しく失敗する可能性がある。
    • 本フレームワークは,概念ドリフト下において,ベースラインQ学習と比較して159%の性能向上を達成した。

    Link: https://arxiv.org/abs/2512.17180

  • MMRAG-RFT: 説明可能なマルチモーダル検索拡張生成のための二段階強化学習によるファインチューニング [cs.AI]目的:説明可能なマルチモーダル検索拡張生成の実現
    • 複雑なマルチモーダルな状況において,高い信頼性を持つ生成を可能にする技術として重要である。
    • 既存手法では,検索および応答生成の背後にある推論ロジックが不明瞭であり,説明可能性に課題がある。
    • 推論能力を強化し,説明可能なマルチモーダル検索拡張生成を実現することを目的とする。
    • 提案手法は,WebQAおよびMultimodalQAの二つのベンチマークデータセットで最先端の結果を達成した。
    • 二段階の強化学習ファインチューニングにより,関連性の低いドキュメントのフィルタリングと,説明可能な推論ロジックの生成を同時に最適化する。
    • 詳細な消去実験により,提案手法の有効性が検証された。

    Link: https://arxiv.org/abs/2512.17194

  • UmniBench:包括的な多次元評価を目指した統一された理解・生成モデル向けベンチマーク [cs.AI]目的:統一されたマルチモーダルモデルの包括的な評価
    • マルチモーダルAIの発展は,高度な情報処理を可能にする重要な研究分野である。
    • 既存の評価方法は,理解と生成能力を分離して評価しており,モデル全体の性能を把握しにくい。
    • 統一されたモデルの理解,生成,編集能力を単一のプロセスで評価可能なベンチマークの提供。
    • UmniBenchは,13の主要なドメインと200以上の概念を網羅し,モデルの性能を詳細に検証できる。
    • 本ベンチマークを用いて24のモデルを評価し,統一されたモデルの客観的な評価を可能にした。
    • UmniBenchは,理解,生成,編集能力を個別に評価することもでき,きめ細やかな分析を提供する。

    Link: https://arxiv.org/abs/2512.17196

  • BumpNet:偏微分方程式解法の学習のための疎なニューラルネットワークフレームワーク [cs.LG]目的:偏微分方程式の数値解および演算子学習のための疎なニューラルネットワークフレームワーク
    • 偏微分方程式は科学技術の様々な分野で不可欠であり,高精度な解法が求められている。
    • 従来の数値解法は計算コストが高く,複雑な形状への適用が困難な場合がある。
    • ニューラルネットワークを用いて効率的かつ高精度な偏微分方程式の解法を開発する。
    • BumpNetは,シグモイド活性化関数に基づく基底関数を用いて,効率的な学習を実現している。
    • 基底関数の形状,位置,振幅などのパラメータを学習可能にすることで,モデルの簡潔性とh-適応性を実現している。
    • Bump-PINNs,Bump-EDNN,Bump-DeepONetなど,既存のニューラルアーキテクチャと組み合わせることで,多様な偏微分方程式問題に対応可能である。

    Link: https://arxiv.org/abs/2512.17198

  • Fose:ワンステップ拡散モデルとエンドツーエンドネットワークの融合によるパンシャープニング [cs.CV, cs.AI]目的:パンシャープニングのための軽量ネットワークFoseの構築
    • 高解像度画像は多様な応用分野において不可欠であり,その生成技術の向上は重要である。
    • 従来のパンシャープニング手法では,計算コストが高い,または性能が十分でないという課題があった。
    • 拡散モデルとエンドツーエンドモデルの利点を組み合わせ,高速かつ高性能なパンシャープニングを実現すること。
    • 提案手法Foseは,既存の拡散モデルと比較して7.42倍の高速化を達成した。
    • Foseは,3つの一般的なベンチマークにおいて,顕著な性能向上を示した。
    • ワンステップ蒸留により,拡散モデルの推論プロセスを50ステップから1ステップに圧縮することに成功した。

    Link: https://arxiv.org/abs/2512.17202

  • 拡散写像カーネルリッジ回帰による力学系の解作用素学習 [cs.LG, cs.NA, math.NA]目的:複雑な力学系の長期予測
    • 科学技術システムは非線形な動特性を持つことが多く,正確な長期予測は困難である。
    • データ駆動モデルは有望だが,長期挙動を支配する幾何学的構造が不明な場合,性能が低下する。
    • システムの不変集合の内在幾何学に適応し,長期予測の精度とデータ効率を向上させる。
    • 拡散写像から導出されたカーネルと力学系を考慮した検証戦略により,KRRが強力なベースラインとなる。
    • DM-KRRは,滑らかな多様体,カオス的アトラクタ,高次元時空間流れなど,様々なシステムで最先端手法を上回る性能を示した。
    • 予測性能はモデルの表現力だけでなく,データに符号化された幾何学的制約を尊重した動的に整合性のあるモデル選択に大きく依存する。

    Link: https://arxiv.org/abs/2512.17203

  • 基礎的なオーディオエンコーダは楽曲構造を理解しているか [cs.SD, cs.LG, eess.AS]目的:楽曲構造分析における基礎的なオーディオエンコーダの性能評価
    • 音楽情報処理研究において,楽曲の構造理解は重要な課題である。
    • 既存のオーディオエンコーダの楽曲構造分析への適用は十分に進んでいない。
    • 学習方法や学習データが楽曲構造分析の性能に及ぼす影響を明らかにすること。
    • 自己教師あり学習によるマスク言語モデリングで学習したエンコーダが,楽曲構造分析において特に高い性能を示すことが示された。
    • 学習方法,学習データ,モデルのコンテキスト長などが,楽曲構造分析の性能に影響を与えることが確認された。
    • 本研究は,今後の楽曲構造分析研究の方向性を示す。

    Link: https://arxiv.org/abs/2512.17209

  • CheXPO-v2:知識グラフ整合性による胸部X線VLMsの嗜好最適化 [cs.RO, cs.CV, cs.LG]目的:胸部X線画像と自然言語間の関係を学習するVLMsにおける幻覚抑制と臨床的信頼性の向上
    • 医療分野における画像とテキストの理解は,診断支援や治療計画の策定に不可欠である。
    • 既存のVLMsは幻覚を起こしやすく,臨床応用上の安全性に課題がある。
    • 知識グラフを活用し,VLMsの推論過程における一貫性を評価することで,幻覚を抑制し,信頼性を高める。
    • 提案手法CheXPO-v2は,Entity-Relation Matchingに基づく知識グラフ整合性報酬を用いることで,推論過程の細部まで厳密に評価する。
    • CheXPO-v2は,既存手法GRPOや最先端モデルを凌駕し,MIMIC-CXR-VQAベンチマークで優れた性能を示す。
    • わずか5,000サンプルで最先端の精度を達成し,データ効率の高さと臨床的に妥当な推論能力を実証した。

    Link: https://arxiv.org/abs/2512.17213

  • 三次元複雑パイプラインにおける自走式パイプラインロボットのデッドレコニングアルゴリズムの研究 [cs.RO, cs.AI]目的:自走式パイプラインロボットの三次元複雑パイプラインにおける位置推定手法
    • ガスパイプラインの点検・保守は重要であり,効率的な位置特定が求められる。
    • 従来のパイプライン位置特定方法は,複雑な形状や狭隘な空間での適用に課題があった。
    • 複雑なパイプライン環境下での高精度な自己位置推定を可能とする。
    • 本研究では,慣性航法と車輪型エンコーダを統合したデッドレコニングアルゴリズムを提案した。
    • 拡張カルマンフィルタ(EKF)を用いることで,姿勢角推定の精度向上を実現した。
    • 実験結果は,提案手法がパイプラインロボットの位置特定において有効であることを示した。

    Link: https://arxiv.org/abs/2512.17215

  • 人工知能(AI)ベースのディープフェイク乱用防止におけるイスラム倫理の役割 [cs.CY, cs.AI]目的:ディープフェイク乱用のリスク軽減のための包括的なイスラム倫理的枠組み
    • AI技術の発展は社会に大きな影響を与え,倫理的考察が不可欠となっている。
    • ディープフェイク技術の悪用は,虚偽情報の拡散,アイデンティティの侵害,信頼の低下を引き起こしている。
    • 技術的対策だけでは根本的な解決に至らず,倫理的枠組みによる予防的アプローチが求められている。
    • 本研究では,イスラム倫理の原則,特に「名誉の保護(hifz al-ird)」と「自己の保護(hifz al-nafs)」が,技術の責任ある利用を規制するための強固な規範的基盤を提供することを示した。
    • 名誉毀損による精神的苦痛を認識した規制変更,公正性,信頼,透明性を重視した技術管理の改善,そして「検証と慎重さ(tabayyun)」に基づくデジタルリテラシーの向上が推奨される。
    • イスラム倫理の適用は,罰則から予防へと思考を変革し,デジタル時代における人間の尊厳の保護,害の防止,そして共通善の強化に貢献すると結論付けられた。

    Link: https://arxiv.org/abs/2512.17218

  • 都市規模モビリティ分析のための個人日次移動経路のプライバシー保護合成データセット [cs.SI, cs.AI, cs.CY]目的:都市規模モビリティ分析に利用可能なプライバシー保護合成データセットの構築
    • 都市計画,交通需要予測,パンデミックモデリング等に不可欠な都市の移動データ活用が重要である。
    • 個人を特定できる可能性があり,生のGPSデータは共有が困難である。
    • 集約されたデータから,リアルな都市規模の分析を可能にする移動経路の合成を目指す。
    • ODフローと行動制約(滞在・移動時間,訪問場所数)を統合した多目的最適化フレームワークを提案した。
    • 東京23区と福岡県という異なる地域で検証を行い,高い再現性を確認した。
    • 本研究は,個人情報保護とデータ活用を両立する実用的な合成経路を提示する。

    Link: https://arxiv.org/abs/2512.17239

  • ペルシア語音声認識におけるLLM支援の堅牢性を高めるためのエラーレベルノイズ埋め込みの組み込み [cs.RO, cs.HC, eess.SY, cs.SY, cs.CL, cs.AI]目的:ペルシア語音声認識におけるノイズ環境下での堅牢性向上
    • 低リソース言語の音声認識は,性能向上が課題であり,実用化にはノイズ環境下での高い認識精度が求められる。
    • ノイズ環境下では,既存の音声認識システムは性能が大幅に低下し,特にペルシア語のような低リソース言語ではその傾向が顕著である。
    • 本研究は,ノイズに起因する不確実性を定量化し,LLMがより信頼性の高い仮説を選択できるよう,ノイズを考慮したエラー訂正フレームワークを構築する。
    • 提案手法では,エラーレベルノイズ(ELN)埋め込みを組み込むことで,ノイズ環境下におけるペルシア語音声認識のWord Error Rate (WER) を大幅に削減することを示した。
    • 特にMixed Noiseテストセットにおいて,ベースラインのRaw Whisper (31.10%) から,提案手法のFine-tuned + ELN (Ours) はWERを24.84%に低減し,Fine-tuned (No ELN) (30.79%) を上回った。
    • また,LLaMA-2-7B単体では性能が低下 (64.58%) しており,複数の仮説とノイズを考慮した埋め込みを組み合わせることの有効性が確認された。

    Link: https://arxiv.org/abs/2512.17247

  • 入力予測とミスの修正によるマルチモーダルLLMゲーム性能の高速化 [eess.SY, cs.SY, cs.AI]目的:リアルタイムな逐次制御エージェントの推論遅延の削減
    • リアルタイム制御は,ロボット工学やゲームなど,多くの分野で不可欠であり,応答性が性能に直結する。
    • 推論遅延は,リアルタイム制御エージェントのボトルネックとなり,制御の不安定性や性能低下を引き起こす。
    • 入力予測と修正により,計画推論の回数を減らし,レイテンシを改善し,制御性能を維持することを目指す。
    • 提案手法は,DMC Humanoid-Walkタスクにおいて,計画推論回数を500から282に削減することに成功した。
    • エンドツーエンドのステップレイテンシを25%改善し,報酬のわずかな減少(7.1%)で高い制御性能を維持した。
    • 修正なしの投機的実行は,長視野域では信頼性が低く,ミスマッチに対応した修正の必要性を示した。

    Link: https://arxiv.org/abs/2512.17250

  • AlignDP:LLMにおける希少性認識保護を備えたハイブリッド差分プライバシー [cs.CR, cs.AI, cs.LG]目的:大規模言語モデルに対する知識漏洩を防ぐためのハイブリッドプライバシー保護機構
    • LLMの普及に伴い,モデルの機密情報や学習データの保護が重要になっている。
    • 既存の防御策は事後対応であり,データインターフェースレベルでの知識漏洩を防ぐことが困難である。
    • 希少な情報と一般的な情報を分離し,それぞれに最適なプライバシー保護手法を適用することで,より効果的な保護を目指す。
    • AlignDPは,希少な特徴に対してPAC識別不能性によるゼロε局所DPを実現し,頻繁な特徴に対してRAPPORによるバイアスなしの頻度推定を行う。
    • この二層設計により,希少な事象を隠蔽しつつ,頻繁な事象に対して制御されたノイズを加えることで,プライバシーとユーティリティのバランスを取る。
    • シミュレーションの結果,希少なカテゴリは隠蔽され,頻繁なカテゴリは小さな誤差で復元できることが確認された。

    Link: https://arxiv.org/abs/2512.17251

  • プライバシー保護とビザンチン耐性のある連合学習の実用的なフレームワーク [cs.CR, cs.DC, cs.LG]目的:プライバシー保護とビザンチン耐性を両立する連合学習フレームワーク
    • 連合学習は,データ共有なしでのモデル訓練を可能にし,プライバシー保護の観点から重要である。
    • 悪意あるクライアントによるモデル操作やプライバシー推論攻撃に対して脆弱であるという課題がある。
    • 計算・通信コストを抑えつつ,ビザンチン攻撃とプライバシー推論攻撃への耐性を実現する。
    • 提案手法ABBRは,次元削減によりプライバシー保護計算を高速化し,実用性を向上させる。
    • 低次元空間におけるベクトルフィルタリングの精度低下を解析し,適応的なチューニング戦略を導入した。
    • 公開データセットによる評価で,ABBRは高速かつ低オーバーヘッドでありながら,高いビザンチン耐性を示すことが確認された。

    Link: https://arxiv.org/abs/2512.17254

  • 電気自動車充電負荷予測:機械学習手法の実験的比較 [cs.LG]目的:電気自動車充電負荷の予測手法の有効性
    • 気候変動対策として電気自動車の普及が進む中で,電力系統への影響が懸念されている。
    • 時間的・空間的なスケールを考慮した,多様な都市環境における予測手法の体系的な比較研究が不足している。
    • 様々な時間的・空間的スケールにおいて,電気自動車充電需要の予測精度向上を目指す。
    • 五つの時系列予測モデル(統計的手法,機械学習,深層学習)の性能を,異なる時間・空間スケールで比較検証した。
    • 短期的(数分),中期的(数時間),長期的(数日)な予測において,個々の充電ステーションから地域レベルまでの集約度合いで評価を行った。
    • 四つの公開データセットを用い,時間的・空間的なスケールを考慮した電気自動車充電負荷予測の体系的な評価を初めて行った。

    Link: https://arxiv.org/abs/2512.17257

  • 検証優先エージェント:自律型LLMシステムの制御のための証明可能な可観測性と軽量監査エージェント [cs.MA, cs.AI, cs.LG]目的:LLMベースのエージェントの制御可能性,監査可能性,および設計者の意図への忠実性の確保
    • LLMエージェントの自律性とマルチモーダル化が進む中で,安全性と信頼性の確保が重要となる。
    • 既存の研究では,エージェントの誤動作傾向が示されており,ペルソナやツールアクセスが影響を与えることが課題。
    • エージェントの誤動作を迅速かつ確実に検出し,修正するための手法を開発すること。
    • 検証優先アーキテクチャは,実行時のアテストと軽量監査エージェントを統合することで,エージェントの行動を継続的に検証する。
    • OPERAベンチマークスイートは,誤動作の検出可能性,ステルス戦略下での検出時間,および堅牢性を評価する。
    • 評価の焦点は,誤動作の発生確率から,その検出と修正の迅速性・信頼性へとシフトする。

    Link: https://arxiv.org/abs/2512.17259

  • SHARP-QoS:疎なゲート付き階層的適応ルーティングによるQoS共同予測 [cs.CL, cs.LG]目的:QoSパラメータの共同予測
    • サービス利用において,QoSはサービスの最適性を評価する上で不可欠であり,信頼性向上に寄与する。
    • QoSデータは疎でノイズが多く,パラメータ間の依存関係が複雑なため,正確な予測が困難である。
    • 疎性,外れ値へのロバスト性,コールドスタート問題に対処し,信頼性の高いQoS共同予測を実現する。
    • SHARP-QoSは,Poincaré球における双方向メカニズムと適応的特徴共有メカニズムにより,QoSとコンテキスト構造から階層的特徴を抽出する。
    • ゲート付き特徴融合モジュールにより,構造的特徴と共有表現の動的な選択を可能にし,安定した共同最適化を実現する。
    • 3つのデータセットにおける評価の結果,SHARP-QoSは単一タスクおよび複数タスクのベースラインよりも優れた性能を示した。

    Link: https://arxiv.org/abs/2512.17262

  • マルコフ決定過程間の状態類似性の理論的分析 [cs.DC, cs.LG]目的:マルコフ決定過程間における状態類似性の測定
    • 強化学習において,状態表現学習や方策探索の精度向上に,状態類似性の定量化が不可欠である。
    • 複数のマルコフ決定過程間の状態類似性を測るための,確立された数学的性質を持つ指標が不足していた。
    • マルコフ決定過程間における状態類似性の理論的枠組みを構築し,既存手法の限界を克服すること。
    • 一般化された双シミュレーション距離(GBSM)を新たに定義し,対称性,三角不等式,同一空間における距離上限の3つの性質を数学的に証明した。
    • GBSMの特性を利用し,方策転移,状態集約,およびサンプリングに基づく推定に関して,既存の双シミュレーション距離よりも厳密な理論的限界を得た。
    • GBSMは推定のサンプル複雑度に関する閉形式解を提供し,既存の漸近的結果よりも改善された。

    Link: https://arxiv.org/abs/2512.17265

  • ScoutGPT:GPTベースのフレームワークによるチームアクションシーケンスからの選手影響力捕捉 [cs.AI]目的:選手の移籍における成功予測の精度向上
    • サッカークラブの成功には移籍が不可欠だが,選手のパフォーマンスは文脈に依存する
    • 従来の評価は静的な統計量に頼り,戦術環境やチームメイトの変化に対応できない
    • 新しいチームや戦術における選手の貢献度を予測し,移籍の適合性を評価する
    • EventGPTは,試合のプレイを離散的なトークンのシーケンスとして扱い,次のオンボールアクションを予測する。
    • 同モデルは,既存のシーケンスベースのベースラインよりも高い予測精度と空間精度を示す。
    • カウンターファクチュアルシミュレーションにより,異なるチームや戦術における選手のパフォーマンス変化を予測できる。

    Link: https://arxiv.org/abs/2512.17266

  • AutoMetrics:自動生成された評価者による人間による評価の近似 [cs.CL, cs.AI]目的:AIアプリケーションの評価指標の合成
    • ユーザーが直面するAIの評価は重要である。特に,オープンエンドなタスクにおいては,その質を測ることは不可欠である。
    • ユーザーからのフィードバックは貴重だが,プロトタイプ段階や研究プロジェクトでは入手が困難であったり,システム最適化には時間がかかりすぎる。
    • 限られたデータから評価指標を合成することで,人間による評価との相関性を高め,AIアプリケーションの適応的評価を加速する。
    • AutoMetricsは,MetricBankから指標を取得し,軽量な人間からのフィードバックに基づいたLLM-as-a-Judge基準を組み合わせることで,評価指標を合成する。
    • 5つの多様なタスクにおいて,AutoMetricsは人間による評価とのKendall相関を最大33.4%向上させた。これは,LLM-as-a-Judgeよりも少ない100件以下のフィードバックポイントで達成された。
    • AutoMetricsは,検証可能な報酬の代替として機能し,AIアプリケーションの適応的評価を促進するツールキットとMetricBankを公開している。

    Link: https://arxiv.org/abs/2512.17267

  • ロールプレイングモデルにおける汎化性能の理解:情報理論によるアプローチ [cs.LG, cs.AI, cs.CL]目的:ロールプレイングモデルの汎化性能低下の測定と改善
    • ロールプレイングモデルは実用的な応用が広いが,実際の環境では性能が低下する。
    • 既存手法では,汎化性能低下の原因を詳細に診断する手段が不足している。
    • 情報理論に基づき,汎化性能の低下を定量化し,その原因を特定すること。
    • 提案手法R-EMIDは,ロールプレイングモデルの性能低下を解釈可能な形で測定できる。
    • R-EMIDの上限は,ロールプレイングモデルの最悪の場合の汎化性能を予測できる。
    • ユーザーの変動が最もリスクが高く,強化学習が汎化性能向上に最も有効であることが示された。

    Link: https://arxiv.org/abs/2512.17270

  • MINPO:メモリ情報を活用したニューラル疑似演算子による非局所時空間ダイナミクスの解決 [cs.LG, cs.NA, math-ph, math.MP, math.NA]目的:非局所時空間ダイナミクスのモデル化
    • 多くの物理システムは,積分微分方程式で記述される非局所的な時空間的振る舞いを示すため,その理解が重要である。
    • 従来の解法は計算コストが高く,ニューラルネットワークを用いた解法は汎用性に乏しいという課題がある。
    • 様々な非局所構造に対応可能な,統一的なフレームワークを構築し,効率的な解法を提供する。
    • MINPOは,Kolmogorov-Arnold Networkまたは多層パーセプトロンを用いて非局所演算子とその逆演算子を学習する。
    • 学習された演算子と再構成された解の整合性を保つ軽量な非局所一貫性損失項を用いることで,精度の高い解を得る。
    • 多様なカーネルタイプ,次元,計算負荷に対応可能であり,問題特化的なアプローチを超えた汎用性を示す。

    Link: https://arxiv.org/abs/2512.17273

  • アルツハイマー病脳ネットワークのマイニング [cs.LG]目的:アルツハイマー病の診断のための脳ネットワーク構造の解析
    • アルツハイマー病は高齢化社会において増加傾向にあり,早期診断が重要である。
    • 臨床評価は高コストであり,ラベル付きデータが限られていることが課題である。
    • 少ないラベル付きデータから,より多くの未ラベルデータに診断情報を伝播させる。
    • 本研究で開発したMATCH-ADは,限られたラベル付きデータでも高い診断精度を達成した。
    • 既存手法と比較して,MATCH-ADはほぼ完璧な診断一致度を示し,診断信頼性を大幅に向上させた。
    • ラベルが不足している場合でも,臨床的に有用な性能を維持し,理論的な収束性も保証された。

    Link: https://arxiv.org/abs/2512.17276

  • より少ないコストで暖かく:Pinterestにおけるコールドスタート推薦のための費用対効果の高い戦略 [cs.IR, cs.LG]目的:Pinterestにおけるコールドスタートアイテムの推薦精度向上
    • 推薦システムは,ユーザーエンゲージメントとコンテンツ発見に不可欠であり,プラットフォームの成長を支える。
    • コールドスタートアイテムはデータが少なく,既存の推薦モデルでは精度が低いという課題がある。
    • 限られた計算資源で,コールドスタートアイテムの推薦精度を効率的に改善することを目指す。
    • 提案手法は,モデル全体のパラメータ増加をわずか5%に抑えつつ,鮮度のあるコンテンツへのエンゲージメントを10%向上させた。
    • 非ヒストリカル特徴への残差接続,スコア正則化,多様体混合などの手法を組み合わせることで,この効果を実現した。
    • 本手法は,5億7000万人以上のPinterestユーザーに展開され,全体的なエンゲージメントとコストに悪影響を与えなかった。

    Link: https://arxiv.org/abs/2512.17277

  • 超音波画像における乳房腫瘍セグメンテーションのためのWavelet誘導型二重注意特徴融合Mamba (WDFFU-Mamba) [cs.CV, cs.AI]目的:乳房超音波画像の腫瘍セグメンテーションの精度向上
    • 乳房超音波画像は臨床診断や早期腫瘍スクリーニングにおいて重要な役割を果たす。
    • スペックルノイズ,アーチファクト,不規則な病変形状,境界のぼやけなどがセグメンテーションの精度を著しく阻害する。
    • 上記の問題を解決し,乳房腫瘍の自動セグメンテーションを可能にする頑健かつ効率的なモデルを開発すること。
    • 提案するWDFFU-Mambaは,二つの公開データセットにおいて既存手法を上回るセグメンテーション精度を達成した。
    • Wavelet変換によるノイズ除去と注意機構に基づく特徴融合の組み合わせが,精度とロバスト性を向上させた。
    • WDFFU-Mambaは,データセット間の汎化性能も高く,臨床応用への期待が持てる。

    Link: https://arxiv.org/abs/2512.17278

  • LibriVAD:音声活動検出のための深層学習ベンチマーク付きスケーラブルなオープンデータセット [cs.SD, cs.LG]目的:音声活動検出のための大規模なオープンデータセットと深層学習ベンチマーク
    • 音声活動検出は,音声認識や音声検索など,多くの音声処理アプリケーションの重要な前処理段階である。
    • 既存のデータセットは規模が小さく,多様なノイズ環境での性能評価が困難であるという課題がある。
    • 多様なノイズ条件下でもロバストな音声活動検出を実現するためのデータセットとモデルを開発する。
    • LibriVADは,LibriSpeechを基に,多様なノイズ源を追加したスケーラブルなデータセットである。
    • Vision Transformer(ViT)を用いたモデルが,既存のVADモデルと比較して優れた性能を示した。
    • データセットの規模拡大とSSRのバランス調整が,未知の条件下でのVAD性能向上に貢献することが示された。

    Link: https://arxiv.org/abs/2512.17281

  • 自然言語処理を用いた主観的質問生成と回答評価 [cs.CL, cs.AI]目的:主観的質問の生成と回答評価
    • 自然言語処理は,教育分野を含む様々な領域で活用が拡大しており,その重要性が増している。
    • 客観式問題の自動生成研究は進んでいるが,主観式問題の自動生成と評価は未だ発展途上である。
    • テキストから主観式問題を自動生成し,回答を評価するシステムの構築を目指す。
    • 本研究は,既存の自然言語処理モデルの改善,または新規モデルの開発によって,主観式問題の自動生成と回答評価の精度向上を目指す。
    • このシステムが実現すれば,教員の負担軽減と生徒の自己評価能力向上に貢献できると考えられる。
    • 教材読解後の理解度確認に活用することで,学習効果の促進も期待される。

    Link: https://arxiv.org/abs/2512.17289

  • Self-Purifying Flow MatchingによるロバストなTTS学習:WildSpoof 2026 TTSトラック [cs.SD, cs.AI]目的:野生環境下での音声に適応するためのTTSシステムの開発
    • 現実世界の多様な音声環境に対応したTTS技術の重要性が高まっている。
    • 実際の音声データにはノイズが含まれており,TTSの性能低下を引き起こす。
    • ノイズの多いデータに対してもロバストに学習できるTTSモデルを構築する。
    • 提案手法であるSPFMは,条件付きと無条件のフローマッチング損失を比較することでラベルノイズを軽減する。
    • SPFMを用いたモデルは,参加チームの中で最も低いWERを達成し,UTMOSやDNSMOSなどの知覚的評価指標でも高いランキングを得た。
    • Supertonicのような軽量なオープンウェイトアーキテクチャも,SPFMのようなノイズ処理機構と組み合わせることで,多様な現実世界の音声条件に適応できる。

    Link: https://arxiv.org/abs/2512.17293

  • エッジにおける継続学習のためのメモリスタ・ミニオン再帰ユニット [cs.LG, cs.AI, cs.ET]目的:エッジプラットフォームにおける継続学習の効率化
    • エッジデバイスの普及に伴い,低消費電力で学習可能なAI技術の重要性が高まっている。
    • 再帰型ニューラルネットワークは学習に高エネルギーを消費し,データ転送量も多く,組み込みシステムへの実装が困難である。
    • 本研究は,オンチップでの継続学習を可能にする,エネルギー効率の高いハードウェアアーキテクチャを提案する。
    • M2RUは,48.62mWで15GOPSを達成し,1ワットあたり312GOPSという高い性能を示す。
    • Sequential MNISTとCIFAR-10タスクにおいて,ソフトウェアベースラインと比較して5%以内の精度を維持する。
    • CMOSデジタル設計と比較して,エネルギー効率は29倍向上し,継続学習ワークロード下での動作寿命は約12.2年と予測される。

    Link: https://arxiv.org/abs/2512.17299

  • 大規模言語モデルをポケモンバトルエージェントとして:戦略的プレイとコンテンツ生成 [cs.AI, cs.CL]目的:ポケモンバトルにおける戦略的プレイとコンテンツ生成の可能性
    • ゲームAIの研究は,複雑な意思決定や戦略が必要な分野であり,AIの能力向上に貢献する。
    • 従来のゲームAIは,専門知識や学習が必要であり,汎用的なAIモデルの適用が難しい。
    • 大規模言語モデルの持つ戦略的思考能力を応用し,学習不要でポケモンバトルのAIエージェントを実現する。
    • 大規模言語モデルは,特定の学習なしに,動的なゲーム相手として機能することが示唆された。
    • モデルのアーキテクチャごとに,勝利率,意思決定速度,タイプ相性の精度,トークン効率が評価された。
    • 大規模言語モデルは,プレイヤーとデザイナーの両方としての役割を担い,手続き型生成や適応難易度システムへの応用が期待される。

    Link: https://arxiv.org/abs/2512.17308

  • 直感を超えた説明:内在的な説明可能性の検証可能基準 [cs.LG, cs.AI]目的:内在的な説明可能性の検証基準
    • 説明可能なAIは,信頼性と透明性が求められる分野で不可欠。安全性や公平性の確保に繋がる。
    • 「説明可能だ」という判断が主観的で,客観的な評価基準が存在しない。
    • モデルの構造に着目し,説明可能性を検証するための明確な基準を提案する。
    • 提案する基準はグラフ理論に基づき,モデルを局所的な説明に分解し,それらを統合することで全体の説明を構築する。
    • この基準は,既存の説明可能性に関する直感と一致し,回帰モデルとスパースニューラルネットワークの違いを説明する。
    • 臨床で使用されている心血管疾患リスク予測モデルPREDICTは,この基準により内在的に説明可能であることが示された。

    Link: https://arxiv.org/abs/2512.17316

  • 超高解像度リモートセンシングMLLMのベンチマーク [cs.CV, cs.AI, cs.MM]目的:超高解像度リモートセンシング画像における視覚的理解と推論の評価
    • リモートセンシング技術は,地球観測や環境モニタリングに不可欠であり,その重要性は増している。
    • 既存のベンチマークは低解像度画像に依存しており,高解像度ベンチマークには設計上の問題点が見られる。
    • より忠実な評価を実現するため,超高解像度画像を用いた新たなベンチマークの開発を試みる。
    • RSHR-Benchは,辺の長さが少なくとも4,000ピクセルという超高解像度(最大約3億ピクセル)のフルシーン画像を5,329枚含む。
    • 複数のタスク(VQA,画像キャプション生成,単一画像評価)と,9つの知覚カテゴリ,4つの推論タイプを網羅している。
    • 評価実験の結果,既存のVLMsは超高解像度画像において依然として性能ギャップが残ることが示された。

    Link: https://arxiv.org/abs/2512.17319

  • タスクスキーマと束縛:文脈内学習に関する二重解離研究 [cs.LG, cs.CL]目的:文脈内学習を構成する二つの分離可能なメカニズム,タスクスキーマと束縛の解明
    • 大規模言語モデルの性能向上には,文脈内学習のメカニズム理解が不可欠である。
    • 文脈内学習は単一のメカニズムで説明されており,その内部構造は不明であった。
    • タスクスキーマと束縛という二つのメカニズムを神経科学的に解明し,文脈内学習の理論的基盤を確立する。
    • タスクスキーマは,後続のMLPパッチングによって100%転移し,束縛は残差ストリームパッチングによって62%転移することが確認された。
    • タスクスキーマへの依存度は,事前知識の量と負の相関関係にあることが示された(Spearmanのρ = -0.596, p < 0.001)。
    • このメカニズムは,TransformerだけでなくMambaを含む,様々なアーキテクチャで一般的に機能することが明らかになった。

    Link: https://arxiv.org/abs/2512.17325

  • オンライン半分散型ST-GNNを用いた交通予測のための適応グラフ枝刈り:突発イベント評価を伴う [cs.CL, cs.LG, cs.AI, cs.DC]目的:交通予測における冗長な隣接ノードの特徴量を動的にフィルタリングし,精度の低下を最小限に抑えつつ通信コストを削減すること
    • スマートモビリティシステムでは,地理的に分散したセンサーからの高頻度データストリームを処理する必要がある。
    • 分散コンピューティングノード間での重複したノード特徴量の繰り返し伝送により,通信オーバーヘッドが大きくなる。
    • 交通変化の発生地域に焦点を当て,標準的な誤差指標では捉えきれない突発的な交通状況への対応力を向上させる。
    • 提案手法は,従来のFL,サーバーレスFL,Gossip Learningを含むオンライン半分散型設定で,PeMS-BAYとPeMSD7-Mの2つの大規模交通データセットを用いて評価された。
    • 適応グラフ枝刈りアルゴリズムは,予測精度を維持しながら,全てのオンライン半分散型設定において通信コストを大幅に削減することを示した。
    • 突発イベント予測精度(SEPA)という新たな指標は,動的で不規則な交通予測において空間的接続性の真の価値を明らかにした。

    Link: https://arxiv.org/abs/2512.17352

  • 有害オンラインコンテンツの敵対的ロバスト性検出:計算設計科学的アプローチ [cs.LG]目的:有害オンラインコンテンツ検出における敵対的ロバスト性の向上
    • ソーシャルメディアにおける有害コンテンツ増加により,自動検出技術の重要性が高まっている。
    • 機械学習モデルは敵対的攻撃に脆弱であり,巧妙な改変により検出を回避される可能性がある。
    • 汎化性能と検出精度の両立が困難であるという課題の解決を目指している。
    • 本研究では,テキストの敵対的攻撃における不変性を利用した新たなフレームワークLLM-SGAを提案した。
    • ARHOCDは,複数のベース検出器のアンサンブル,動的な重み付け,敵対的学習戦略を採用し,高い検出精度を達成した。
    • 実験結果から,ARHOCDは敵対的な状況下で優れた汎化性能と検出精度を示すことが確認された。

    Link: https://arxiv.org/abs/2512.17367

  • 専門家介入データを用いたエンドツーエンド自動運転の事後最適化:嗜好に基づくアプローチ [cs.RO, cs.AI]目的:専門家介入データを利用した自動運転ポリシーの性能向上
    • 自動運転技術は,交通安全の向上や移動の効率化に不可欠である。
    • 模倣学習は有効だが,訓練時と実走行環境との乖離が課題である。
    • システムが介入を促す状況下での学習方法が求められている。
    • 提案手法TakeADは,専門家介入データを活用し,模倣学習ポリシーを事後最適化することで,実走行環境での性能を向上させる。
    • TakeADは,Dataset AggregationとDirect Preference Optimizationを組み合わせることで,専門家の行動を効率的に学習する。
    • Bench2Driveベンチマークでの実験結果は,TakeADが純粋な模倣学習手法よりも優れていることを示す。

    Link: https://arxiv.org/abs/2512.17370

  • 人工知能のための弁証法 [cs.AI]目的:概念発見のアルゴリズム的情報理論的枠組み
    • AIの自律的な概念獲得は,汎用的な知能を実現する上で不可欠である。
    • 既存の概念定義は静的であり,AIが経験から概念を動的に進化させることが困難である。
    • 経験との構造的な関係性に基づき,概念を再構成可能な情報客体として捉える。
    • 概念を,構成要素間の可逆的な一貫性関係によって定義することで,経験に根ざした概念の存在を検証可能にした。
    • 過剰情報という指標を導入し,経験の分割による冗長性のオーバーヘッドを定量的に評価することで,自然な分解を判断する基準を提示した。
    • 弁証法を最適化ダイナミクスとして定式化し,概念の拡張,収縮,分裂,融合を説明するフレームワークを構築した。

    Link: https://arxiv.org/abs/2512.17373

  • AdvJudge-Zero:敵対的制御トークンによるLLM判断システムの二値決定反転 [cs.LG, cs.CL, cs.CR]目的:LLM判断システムにおける二値評価の反転を引き起こす敵対的制御トークンの発見と対策
    • LLMを用いた評価は,強化学習や直接方策最適化などの最新の学習パイプラインにおいて重要な役割を担う。
    • 判断システムは,わずかな入力の変化によって誤った判断を下す脆弱性を抱える可能性がある。
    • 本研究では,LLM判断システムの脆弱性を明らかにし,その対策を提案することを目的とする。
    • 敵対的制御トークンは,モデルが生成しうるものであり,現実的な報酬ハッキングリスクを示す。
    • 発見された制御トークンは,隠れ状態の摂動を「ソフトモード」に集中させ,判断システムの拒否方向と逆相関する。
    • LoRAを用いた敵対的学習により,偽陽性率を大幅に低減しつつ,評価品質を維持できることが示された。

    Link: https://arxiv.org/abs/2512.17375

  • モバイルデバイスにおける適時情報更新:機械学習による助言の有無 [cs.NI, cs.IT, cs.LG, math.IT]目的:モバイルデバイスの情報更新システムにおける最適な更新タイミングの決定
    • IoTデバイスの普及により,リアルタイムな情報更新の重要性が増している。
    • 情報更新の頻度とデバイスの負担の間でトレードオフが存在する。
    • 不確実性要素を考慮しつつ,最適な情報更新戦略を確立すること。
    • 提案アルゴリズムは,複数の不確実性要素に対して最適な競争率を漸近的に達成する。
    • 機械学習による助言を取り入れたアルゴリズムは,一貫性と堅牢性の最適なトレードオフを実現する。
    • 最適な競争率には更新コスト範囲が線形に影響するが,他の不確実性には影響を受けない。

    Link: https://arxiv.org/abs/2512.17381

  • RadImageNet-VQA:CTおよびMRI画像に対する放射線学的視覚的質問応答のための大規模データセット [cs.CV, cs.AI, cs.CL]目的:放射線学的視覚的質問応答におけるCTおよびMRI画像を用いた大規模データセット
    • 医療画像診断支援の発展に不可欠であり,より高精度な診断を可能にする。
    • 既存のデータセットは規模が小さく,X線画像に偏っていたり,テキストによる解答の近道が存在する。
    • 既存データセットの課題を克服し,より高度な視覚的質問応答モデルの開発を促進する。
    • RadImageNet-VQAは,75万枚の画像と750万件の質問-回答ペアを含む大規模データセットである。
    • 既存の最先端モデルは,特に自由記述形式の質問において,微細な病理の識別で苦戦している。
    • 画像入力なしではモデル性能が大幅に低下することから,本データセットが言語的近道から解放されていることが確認された。

    Link: https://arxiv.org/abs/2512.17396

  • DeepShare: 効率的なプライベート推論のためのチャネルおよび層間でのReLU共有 [cs.LG, cs.CR]目的:プライベート推論におけるReLU計算の効率化
    • 機械学習におけるプライバシー保護の重要性が増しており,プライベート推論はその主要な技術の一つである。
    • プライベート推論におけるReLU計算は計算ボトルネックとなっており,その削減が課題となっている。
    • チャネルおよび層間でのReLU共有により,ReLU計算量を削減し,プライベート推論の効率化を目指す。
    • 提案手法DeepShareは,ResNetのようなネットワークにおいて,ReLU計算量を大幅に削減できることを示した。
    • 理論的な分析により,DeepShareが従来の方式やプライベート推論特有の方法では達成できないXOR問題の拡張版を解けることを示した。
    • いくつかの分類タスクと画像セグメンテーションタスクにおいて,最先端の結果を達成した。

    Link: https://arxiv.org/abs/2512.17398

  • meval:きめ細かいモデル性能分析のための統計ツールボックス [cs.LG, stat.AP, stat.ME, stat.ML]目的:機械学習モデルの性能分析手法
    • 医療分野におけるAI活用には,信頼性評価が不可欠であり,患者背景等による性能差の検証が重要である。
    • サンプルサイズやベースレートの違いを考慮した,統計的に厳密な比較が困難である。
    • サブグループごとの性能差を統計的に評価し,重要なサブグループを特定すること。
    • 本ツールボックスは,適切な評価指標の選択,不確実性の推定,多重比較の補正を容易に行うことができる。
    • ISIC2020データセットを用いた皮膚病変の悪性度分類,MIMIC-CXRデータセットを用いた胸部X線画像による疾患分類で有効性が示された。
    • 複雑なサブグループ分析において,興味深いサブグループを効率的に発見する仕組みを提供する。

    Link: https://arxiv.org/abs/2512.17409

  • 機械学習技術を用いたイーサリアム・ブロックチェーン上のセンシティブかつ違法コンテンツの検出と分析 [cs.CR, cs.AI]目的:イーサリアム・ブロックチェーン上のセンシティブおよび違法コンテンツの検出と分析
    • ブロックチェーン技術は透明性と不変性を特徴とするが,悪意のあるコンテンツの包含が懸念される。
    • 分散型構造のため,違法コンテンツの特定と削除が困難であるという課題が存在する。
    • ブロックチェーン上の有害情報の検出とプライバシー保護のための対策を提案することを目的とする。
    • データ復旧アルゴリズムにより,175個のファイル,296枚の画像,91,206件のテキストを復旧することに成功した。
    • FastTextアルゴリズムによる感情分析の結果,パラメータ調整後,0.9の精度を達成した。
    • NSFWJSライブラリを用いて,7枚のわいせつ画像を100%の精度で検出した。中国政府関係者を標的としたセンシティブな情報も確認された。

    Link: https://arxiv.org/abs/2512.17411

  • 航空機メンテナンススケジュールの最適化 [cs.NE, cs.AI]目的:航空機メンテナンススケジュールの最適化
    • 航空機の安全運航と効率的な運用を支える上で,メンテナンス計画は不可欠である。
    • 限られた時間とリソースの中で,最適なメンテナンス計画を立てることが課題となる。
    • 進化型アルゴリズムを用いて,効率的なメンテナンススケジュールを自動的に生成すること。
    • 進化型アルゴリズムを適用し,メンテナンス計画の自動化の可能性を示した。
    • 60個の生成された問題インスタンスでアルゴリズムの性能を検証した。
    • 表現方法と遺伝的演算子の有効性を実証した。

    Link: https://arxiv.org/abs/2512.17412

  • SWE-Bench++: オープンソースリポジトリからのソフトウェアエンジニアリングベンチマークのスケーラブルな生成のためのフレームワーク [cs.SE, cs.AI, cs.CL, cs.LG]目的:ソフトウェアエンジニアリングベンチマークの生成
    • LLMの性能評価には標準化されたベンチマークが必要であり,ソフトウェアエンジニアリング分野においても重要性が高まっている。
    • 既存のベンチマークは手動キュレーションに依存し,静的なデータセットであり,Pythonに偏っているという課題があった。
    • 多様な言語とタスクを網羅した,スケーラブルで再現性のあるベンチマークを自動生成することを目指す。
    • SWE-Bench++は,GitHubのプルリクエストを基に,11言語にわたるバグ修正と機能追加のタスクを自動生成する。
    • 生成されたベンチマークを用いて評価した結果,最先端モデルのpass@10の割合は,claude-sonnet-4.5で36.20%,gpt-5-2025-08-07で34.57%であった。
    • SWE-Bench++でファインチューニングすることで,SWE-bench Multilingualベンチマークの性能が向上することが示された。

    Link: https://arxiv.org/abs/2512.17419

  • 系列推薦のためのBSARecの系統的再現性研究 [cs.IR, cs.AI]目的:系列推薦におけるBSARecの有効性と構成要素の役割の検証
    • 系列推薦は,ユーザーの行動履歴を考慮して次のアイテムを予測する重要な技術である。
    • Transformerモデルは,高周波信号の捕捉が苦手で,短期的なユーザーの興味を反映しにくい。
    • BSARecの有効性を確認し,高周波信号への対応能力を定量的に評価する。
    • BSARecは,一部のデータセットにおいて他の系列推薦手法よりも優れた性能を示した。
    • ユーザーの履歴頻度を定量化する指標を提案し,異なるユーザーグループ間での評価を行った。
    • 離散ウェーブレット変換はフーリエ変換と比べて改善がわずかで,DSP手法は単純な残差接続よりも優位性を示さなかった。

    Link: https://arxiv.org/abs/2512.17442

  • 野心的な脱炭素化目標に向けた長期電力市場設計の評価:マルチエージェント強化学習の利用 [cs.LG, cs.AI, cs.NE, econ.GN, q-fin.EC]目的:脱炭素化目標達成のための長期電力市場設計
    • 電力システムは,社会の脱炭素化に不可欠であり,その市場メカニズム設計が重要である。
    • 既存の市場設計評価ツールでは,複雑な政策や市場メカニズムの相互作用を十分に分析できない。
    • マルチエージェント強化学習を用いて,市場設計の最適化と価格変動の抑制を目指す。
    • 提案モデルは,イタリアの電力システムを模した環境で,競争レベルや政策シナリオの変化に対応できることが示された。
    • 市場設計が電力部門の脱炭素化に重要な役割を果たすことが強調され,価格変動の抑制効果が確認された。
    • 複数の政策と市場メカニズムが同時に作用する長期電力市場を評価するフレームワークが構築された。

    Link: https://arxiv.org/abs/2512.17444

  • MULTIAQUA:マルチモーダル海洋データセットとマルチモーダル意味セグメンテーションのためのロバストな学習戦略 [cs.HC, cs.CV, cs.LG]目的:マルチモーダル海洋データセットと,それを用いたロバストな学習戦略の開発
    • 無人表面航行艇の応用範囲拡大には,多様な環境下での高精度な状況認識が不可欠である。
    • 悪天候や夜間など,視認性の低い状況下では,単一のカメラだけでは十分な情報を得られない場合がある。
    • 異なるセンサーからの情報を統合することで,視認性の低い環境下でも安定した状況認識を実現することを目指す。
    • 新しいマルチモーダル海洋データセットMULTIAQUAを構築し,RGB,熱画像,IR,LiDAR等のデータを収録した。
    • データセットを用いて,夜間のような困難な状況下でも有効なマルチモーダル手法を評価した。
    • 昼間画像のみでロバストな深層ニューラルネットワークを学習できる手法を提示し,データ収集・アノテーションの負担を軽減した。

    Link: https://arxiv.org/abs/2512.17450