arXiv雑要約

AI - 2025/12/17 公開

  • ステップタグ付け:ステップ監視による言語推論モデルの生成制御に向けて [cs.RO, cs.CL, cs.AI]目的:言語推論モデルの生成ステップの制御手法
    • 言語推論モデルは近年急速に進歩しているが,効率性や制御性に課題が残る。
    • 言語推論モデルは,検証や反省ステップを過剰に生成する傾向がある。
    • ステップの種類をリアルタイムで識別し,推論の早期停止基準を確立することで,生成を制御する。
    • 提案手法であるステップタグ付けフレームワークにより,トークン数を20~50%削減することに成功した。
    • 削減効果は,計算負荷の高いタスクでより顕著に現れた。
    • 言語推論モデルの生成を制御する新たな方法と,その振る舞いを分析するためのツールを提供する。

    Link: https://arxiv.org/abs/2512.14332

  • 悪意のある編集に対する二重注意誘導防御 [cs.CV, cs.AI, cs.CY, cs.LG]目的:テキストプロンプトによる画像編集に対する悪意のある改ざんからの防御
    • 画像生成AIの急速な発展に伴い,倫理的な課題が顕在化しているため。
    • 既存の防御策は,改ざんに対する耐性が低く,効果が限定的である。
    • 注意機構とノイズ予測の両方を操作し,悪意のある編集を阻害すること。
    • 二重注意誘導ノイズ摂動(DANP)は,モデルのセマンティック理解を妨害する微小な摂動を加える。
    • DANPは,関連領域の注意を減らし,無関係な領域の注意を増やすことで,編集を誤った領域へ誘導する。
    • 注意機構とノイズ予測の両方を標的とすることで,最先端の性能を達成した。

    Link: https://arxiv.org/abs/2512.14333

  • 暗黙のバイアスと不変性:ホップフィールドネットワークがグラフ軌道を効率的に学習する方法 [cs.LG]目的:グラフ軌道の学習効率
    • 多くの学習問題には対称性が存在し,その扱いは機械学習の重要な課題である。
    • ニューラルネットワークにおける不変性の明示的な組み込みは容易ではない。
    • グループ構造化データからの暗黙的な不変性の出現メカニズムを解明する。
    • ホップフィールドネットワークは,少数のランダムサンプルからグラフの同型類を推論できることが示された。
    • グラフ同型類は,三次元不変部分空間内で表現可能である。
    • エネルギーフロー最小化(MEF)は,ノルム効率の良い解に暗黙のバイアスを持ち,同型類の学習におけるサンプル複雑度を多項式的に抑える。

    Link: https://arxiv.org/abs/2512.14338

  • 悪意のある画像編集に対する転移可能な防御 [cs.RO, cs.CV, cs.AI, cs.CY, cs.LG]目的:拡散モデルにおける悪意のある画像編集への防御性能向上
    • 画像生成技術の発展に伴い,悪意のある編集によるリスクが高まっているため。
    • 既存の防御手法は,特定のモデルに依存し,異なるモデルへの適用が困難である。
    • モデルを問わず有効な,悪意のある画像編集に対する汎用的な防御策を開発する。
    • 提案手法TDAEは,画像とテキストの協調的最適化により,悪意のある編集に対する画像の免疫力を強化する。
    • 視覚的防御機構FDMは,摂動を平坦な最小値へ誘導し,未知の編集モデルに対するロバスト性を向上させる。
    • テキスト強化保護DPDは,動的にテキスト埋め込みを更新し,編集結果の整合性を保ち,転移性を実現する。

    Link: https://arxiv.org/abs/2512.14341

  • ビジョンモデルの解釈可能性向上:Shapley値最適化によるアプローチ [cs.CV, cs.AI]目的:ビジョンモデルの解釈可能性向上
    • 深層学習は様々な分野で高い性能を示すが,その意思決定プロセスは不透明である
    • 既存の説明手法は,モデルの振る舞いを正確に反映できない,または性能が低下するなどの課題がある
    • Shapley値推定を補助タスクとして統合し,モデルの意思決定ロジックと整合性の高い説明を実現する
    • 提案手法は,画像パッチへの予測スコアの公正な割り当てを通じて,解釈可能性を高める
    • 少ない構造変更でモデルの性能と互換性を維持しつつ,解釈性を向上させることに成功した
    • 複数のベンチマークにおいて,最先端の解釈可能性を達成した

    Link: https://arxiv.org/abs/2512.14354

  • TiCard:カーディナリティ推定のためのデプロイ可能なEXPLAIN専用残差学習 [cs.RO, cs.AI, cs.DB]目的:カーディナリティ推定の精度向上
    • クエリ最適化の性能はデータベースの応答時間に大きく影響するため,カーディナリティ推定は重要である。
    • 従来の推定器は相関を見逃しやすく,学習型推定器はワークロード固有の学習パイプラインが必要となる。
    • EXPLAINのみから学習し,データベースのネイティブ推定器を補正することで,実用的な改善を目指す。
    • TiCardは,Gradient Boosting Regressor (TiCard-GBR)を用いて演算子レベルのテール精度の大幅な向上を実現した。
    • TiCard-GBRではP90 Q-errorが312.85(ネイティブ)から13.69に,TabPFNではP99が37,974.37から3,416.50に減少した。
    • TiCardは,オフライン補正からオプティマイザ内での利用への統合ロードマップを持つ,AI4DBの構築ブロックとしての位置づけである。

    Link: https://arxiv.org/abs/2512.14358

  • ダイナミカルシステムにおける因果構造学習:理論的スコア分析 [cs.LG, cs.AI, math.DS]目的:ダイナミカルシステムの因果構造学習
    • 現実世界のシステムは因果関係に従って連続的に変化するため,その理解は重要である。
    • 既存手法は,時間離散化による精度低下や,因果関係の無視という問題があった。
    • 連続時間における因果構造の学習を通じて,既存手法の課題解決を目指す。
    • 本研究では,連続時間ダイナミカルシステムにおける因果発見手法CaDyTを提案した。
    • CaDyTは,差分に基づく因果モデルとガウス過程推論を活用することで,不規則なサンプリングデータに対しても高い性能を発揮する。
    • 実験の結果,CaDyTは既存手法と比較して,真のダイナミクスに近い因果ネットワークを発見することが示された。

    Link: https://arxiv.org/abs/2512.14361

  • 量子モデルのブラックボックス監査:量子カナリアを用いたLifted Differential Privacy [cs.LG]目的:量子モデルにおけるプライバシー漏洩の検出と定量化
    • 量子機械学習は計算上の利点をもたらす一方,秘匿データを用いた学習はプライバシー侵害のリスクを伴う。
    • 量子Differential Privacyは理論的な保証を提供するが,実運用モデルの検証ツールが不足している。
    • 本研究は,量子カナリアを用いたブラックボックス監査フレームワークにより,実用的なプライバシー検証を実現する。
    • Lifted Quantum Differential Privacyに基づき,量子カナリアを用いて学習中の記憶とプライバシー漏洩を検出するフレームワークを提案した。
    • カナリアのオフセットとトレース距離の間に厳密な数学的関係を確立し,プライバシー予算消費量の経験的な下限を導出した。
    • シミュレーションおよび実機による評価により,提案フレームワークが量子モデルにおける実際のプライバシー損失を測定できることを示した。

    Link: https://arxiv.org/abs/2512.14388

  • コンテキスト再配置による言語モデルRePo [cs.LG, cs.AI, cs.CL]目的:言語モデルにおけるコンテキスト再配置メカニズム
    • 大規模言語モデルの性能向上は,自然言語処理の発展に不可欠である。
    • 既存モデルのコンテキスト構造は固定されており,効率的な情報処理を阻害する。
    • RePoは,コンテキストの再配置により認知負荷を軽減し,高性能化を目指す。
    • RePoは,ノイズの多いコンテキスト,構造化データ,長いコンテキストにおいて顕著な性能向上を示した。
    • RePoは,関連する遠隔情報への注意集中を促進し,コンテキストの内在構造を捉えることに成功した。
    • RePoは,微分可能なモジュールを用いてトークンの位置を決定し,コンテキスト依存性を捉える。

    Link: https://arxiv.org/abs/2512.14391

  • 動的重み生成に基づく大規模言語モデルの大規模編集 [cs.AI]目的:大規模言語モデルにおける知識編集の効率化
    • 大規模言語モデルの性能向上には,知識の柔軟な更新が不可欠である。
    • 既存の知識編集手法では,信頼性,汎用性,局所性の維持が課題である。
    • 大規模な知識編集を効率的に行い,性能指標の改善を目指す。
    • 提案手法MeGは,動的重みニューロンを用いて大規模な知識編集を実現する。
    • MeGは,信頼性,汎用性,特に局所性の指標において既存手法を大幅に上回る。
    • 動的重みニューロンの追加のみで,大規模な知識編集が可能となる。

    Link: https://arxiv.org/abs/2512.14395

  • SuperWing:データ駆動型空力設計のための包括的な遷音速翼データセット [cs.LG, physics.flu-dyn]目的:データ駆動型空力設計のための包括的な遷音速翼データセット
    • 航空機の性能向上には,空力特性の最適化が不可欠である。そのため,高精度な空力設計手法が求められている。
    • 従来の空力設計は計算コストが高く,多様な形状の検討が困難であった。データセットの不足も課題となっている。
    • 多様な翼形状と流れ場データを提供し,機械学習による空力設計の加速と汎化性能向上を目指す。
    • SuperWingデータセットは,4,239種類の翼形状と28,856種類の流れ場データを含む大規模なデータセットである。
    • Transformerモデルを用いた実験により,表面流れの予測精度が高いことが示された(ドラッグ係数誤差は2.5カウント)。
    • SuperWingで事前学習したモデルは,DLR-F6やNASA CRMといった複雑な翼形状に対しても高い汎化性能を示した。

    Link: https://arxiv.org/abs/2512.14397

  • GRAFT:多源テキストアラインメントと融合によるグリッド対応負荷予測 [cs.LG]目的:グリッド対応負荷予測と多源テキスト介入のサポート改善
    • 電力需要予測は,電力系統の安定運用に不可欠であり,効率的なエネルギー管理に貢献する。
    • 従来の予測手法では,外部要因(気象,イベント,政策等)の多角的な考慮が不十分であった。
    • 本研究は,テキスト情報と負荷データの厳密なアラインメントと融合により,予測精度向上を目指す。
    • GRAFTは,既存の強固なベースラインを大きく上回り,複数の地域と予測期間で最先端の性能を達成した。
    • イベント発生時においてもロバストであり,テキストから負荷への影響を時間的・ソースレベルで解釈できる。
    • 統一されたベンチマーク,前処理スクリプト,予測結果を公開し,電力系統負荷予測の標準的な評価と再現性を促進する。

    Link: https://arxiv.org/abs/2512.14400

  • PortAgent:港湾ターミナル向けLLM駆動型車両派遣エージェント [cs.AI]目的:港湾ターミナルにおける車両派遣システムの自動化
    • 自動化されたコンテナターミナルの運用効率において,車両派遣システムは重要な役割を担う。
    • 車両派遣システムは,ターミナル間の汎用性が低く,商業化が遅れている。専門家への依存度が高いことが課題。
    • LLMを活用し,専門家なしで迅速かつ容易に車両派遣システムを導入することを目指す。
    • 本研究では,LLMを活用したPortAgentを提案し,車両派遣システムの移行ワークフローを完全に自動化する。
    • 仮想エキスパートチーム(VET)により,専門家の介入を不要とし,少ないデータでシステムを学習させる。
    • 検索拡張生成(RAG)メカニズムとLLM Reflexionフレームワークを活用し,自動設計ワークフローを確立した。

    Link: https://arxiv.org/abs/2512.14417

  • 二軸RCCL:有機化学空間における表現完備型収束学習 [cs.LG]目的:有機化学空間における表現完備性と収束学習の実現
    • 分子・材料モデリングは機械学習によって大きく変革されつつあり,その重要性は増している。
    • 化学空間の広大さ(10^30-10^60)から,モデルがこの空間全体で収束学習を達成できるか不明確である。
    • 分子表現の完備性を形式化し,大規模モデルの収束学習を支援するデータセット構築を目指す。
    • FD25データセットは,13,302個の局所価電子ユニットと165,726個の環/ケージトポロジーを網羅し,有機分子の組み合わせをほぼ完全にカバーしている。
    • FD25で学習したグラフニューラルネットワークは,表現完備型収束学習と強力な分布外汎化能力を示し,外部ベンチマークにおける予測誤差は約1.0 kcal/mol MAEである。
    • 分子表現,構造的完備性,モデルの汎化性能との間に定量的な関係が確立され,解釈可能で転移可能,かつデータ効率の良い分子インテリジェンスの基盤となる。

    Link: https://arxiv.org/abs/2512.14418

  • DISCODE:分布を考慮したスコアデコーダによるロバストな画像キャプション自動評価 [cs.CV, cs.AI]目的:画像キャプションのロバストな自動評価
    • 画像とテキストを理解するモデルの性能評価は,その応用範囲拡大に不可欠である。
    • 既存の評価方法は,ドメインの変化に弱く,人間との一致度が低い場合がある。
    • ドメイン変化に強い,人間と一致する評価スコアを生成する手法を開発する。
    • DISCODEは,ファインチューニングなしで,多様なドメインにおいて人間による評価とより一致するロバストな評価スコアを生成する。
    • ATT損失を用いることで,テスト時の適応的な評価が可能となり,評価スコアの推定におけるロバスト性が向上する。
    • 新たに開発したMCEvalベンチマークにおいて,DISCODEは最先端の性能を達成した。

    Link: https://arxiv.org/abs/2512.14420

  • 水配分システムにおけるサイバー攻撃検知のためのハイブリッドアンサンブル手法 - BATADALデータセットの利用 [cs.CR, cs.LG]目的:水配分システムにおけるサイバー攻撃検知能力の向上
    • 重要インフラを管理する産業制御システムのデジタル接続拡大に伴い,サイバーセキュリティの重要性が増している。
    • BATADALデータセットは侵入検知技術のテストに有用だが,クラスの不均衡性,多変量時間依存性,巧妙な攻撃などの課題がある。
    • 機械学習と深層学習モデルの相乗効果を利用し,水配分システムのサイバー攻撃検知能力を向上させることを目指す。
    • ランダムフォレスト,eXtreme Gradient Boosting,LSTMを比較した結果,tree-basedモデルが良好な性能を示した。
    • 特にeXtreme Gradient BoostingはF1スコア0.7470,AUC 0.9684と高い性能を示した。
    • ランダムフォレスト,eXtreme Gradient Boosting,LSTMのハイブリッドスタックアンサンブルが最も高い性能を示し,F1スコア0.7205,AUC 0.9826を達成した。

    Link: https://arxiv.org/abs/2512.14422

  • 大規模言語モデルにおける文書パッキングが潜在的な多段階推論能力に与える影響 [cs.DB, cs.CL, cs.AI, cs.LG]目的:大規模言語モデルの潜在的な多段階推論能力
    • 大規模言語モデルは自然言語処理の様々なタスクで高性能を示すが,学習方法の最適化は重要である。
    • 文書パッキングは計算効率を向上させるが,モデルの性能への影響は未解明な部分が多い。
    • 文書パッキング戦略が多段階推論能力に与える影響を明らかにすることで,学習方法の最適化に貢献する。
    • 文書パッキングは,個々の文書で学習するよりもモデルの性能を向上させることが示された。
    • パッキングは計算コストが増加する代わりに性能向上をもたらすことが明らかになった。
    • パッキングの利点を説明する重要な要素を特定するための消去研究が実施された。

    Link: https://arxiv.org/abs/2512.14427

  • 地震モデリングエージェント:地球物理研究者向けのスマートアシスタント [cs.RO, cs.AI, cs.SE]目的:地震波シミュレーションソフトウェアSPECFEMの利用を容易にするための,大規模言語モデルを活用したインテリジェントなワークフロー
    • 地震学は,地震発生メカニズムの解明や防災に不可欠であり,数値シミュレーションはその重要な手段である。
    • 従来のSPECFEMの利用は,学習コストが高く,複雑なファイル編集やコマンド操作に依存していた。
    • 本研究は,大規模言語モデルを用いて,SPECFEMの操作を意図に基づいた対話形式に変化させることを目指す。
    • 提案手法は,SPECFEMのシミュレーションプロセスを,パラメータ生成から可視化までの一連のツールに分解し,エージェントによる実行を可能にした。
    • 本ワークフローは,完全自動実行と人間による介入の両方をサポートし,研究者がリアルタイムでシミュレーション戦略を調整できる。
    • 複数のケーススタディにより,提案手法が自律モードとインタラクティブモードの両方で高精度な結果を生成することが検証された。

    Link: https://arxiv.org/abs/2512.14429

  • 人工知能とデータ同化の架け橋:データ駆動型アンサンブル予報システムClimaX-LETKF [cs.LG]目的:データ駆動型アンサンブル天気予報システム
    • 気象予測の精度向上は,社会や経済活動に不可欠であり,その重要性は高い。
    • 機械学習を天気予報に応用する研究は進む一方,観測データやアンサンブル予報の同化が課題となっていた。
    • 機械学習モデルによる安定したアンサンブル予報システムの実現を目指す。
    • ClimaX-LETKFは,数値予報モデルに依存せず,長期間安定的に運用可能なデータ駆動型アンサンブル天気予報システムである。
    • 観測データの同化において,Prior Perturbationへの緩和(RTPP)がPrior Spreadへの緩和(RTPS)よりも優れていることが示された。
    • 機械学習モデルは,数値予報モデルと比較して,大気状態を吸引体に戻す能力が低いという知見が得られた。

    Link: https://arxiv.org/abs/2512.14444

  • LLMエージェントに対するステルスなスタイル変換による推論スタイル汚染:プロセスレベル攻撃とRSV空間での実行時監視 [cs.DC, cs.NI, cs.PF, cs.CR, cs.AI]目的:LLMエージェントの推論スタイルを操作することによる攻撃とその監視手法
    • LLMエージェントは重要な環境で利用が増加しており,その安全性確保が不可欠である。
    • 既存の攻撃は内容改ざんや指示注入に偏っており,推論スタイルの脆弱性が看過されてきた。
    • 推論プロセスを操作する攻撃とその検知による,LLMエージェントの安全性向上を目指す。
    • Generative Style Injection (GSI) によって,エージェントの推論スタイルを病的な状態(分析麻痺または認知の急ぎ)に書き換えることが可能となった。
    • Reasoning Style Vector (RSV) を用いることで,推論の深さ,自己信頼度,注意集中度を定量的に評価し,スタイルの変化を捉えることができた。
    • RSP-Mという軽量な実行時監視器を提案し,RSV指標をリアルタイムで計算し,安全閾値を超えた場合に警告を発することができる。

    Link: https://arxiv.org/abs/2512.14448

  • AnySleep:多施設コホートにおける高分解能睡眠段階判別を行うチャネル非依存型深層学習システム [cs.LG, eess.SP, q-bio.QM]目的:多施設コホートにおける高分解能睡眠段階判別
    • 睡眠は健康維持に不可欠であり,そのメカニズム解明は医学的・臨床的意義が大きい。
    • 従来の睡眠段階判別は手作業で行われ,時間と労力がかかる上に,施設間でのばらつきが生じやすい。
    • 異種データに対応し,高精度な睡眠段階判別を自動化することで,大規模な多施設研究を促進する。
    • AnySleepは,脳波(EEG)または眼電図(EOG)データを用いて,任意の時間分解能で睡眠段階を判別する深層学習モデルである。
    • 21のデータセット(約20万時間のEEG/EOGデータ)で学習・検証し,施設間のばらつきに強い汎化性能を持つことを示した。
    • AnySleepは従来の判別手法と同等以上の性能を示し,30秒未満の時間スケールで睡眠覚醒の細かな変化を捉えることができた。

    Link: https://arxiv.org/abs/2512.14461

  • 文脈選択器:多段階強化学習による動的な文脈選択 [cs.AI]目的:長文脈質問応答における最適な文脈量の決定
    • 長文脈質問応答は,大規模言語モデルの能力を最大限に引き出す上で不可欠な課題である。
    • 適切な文脈量を選択することは難しく,文脈が少なすぎると重要な情報が抜け落ち,多すぎるとノイズが増える。
    • 文脈選択を意思決定プロセスとして捉え,必要な情報のみを効率的に選択することを目指す。
    • Context-Pickerは,類似度ベースのランキングではなく,必要最小限の部分集合の選択という新しいパラダイムを提示する。
    • 人間の思考プロセスに着想を得た二段階の強化学習スケジュールにより,文脈の網羅性と冗長性の排除を両立する。
    • 5つの長文脈質問応答ベンチマークで,Context-Pickerは強力なベースラインを凌駕し,文脈長を抑えつつ回答精度を向上させる。

    Link: https://arxiv.org/abs/2512.14465

  • 動力学的マンバ:マンバ支援による剛性化学反応速度論の予測 [cs.LG]目的:複雑な反応経路と熱化学状態を支配する化学反応速度論モデリングの精度向上
    • 燃焼シミュレーションの精度に不可欠であり,エネルギー効率向上や環境負荷低減に貢献する。
    • 従来のモデリング手法では,複雑な反応系において計算コストが高く,精度が十分でない場合がある。
    • マンバアーキテクチャとニューラル演算子を組み合わせることで,高精度かつ効率的な予測モデルを構築する。
    • Kinetic-Mambaは,初期条件から熱化学状態変数の時間変化を高精度に予測可能である。
    • 質量保存則を組み込んだ制約付きマンバモデルや,温度依存性を考慮したアーキテクチャにより,予測精度を向上させている。
    • SyngasやGRI-Mech 3.0といった反応機構を用いた実験で,その有効性が実証された。

    Link: https://arxiv.org/abs/2512.14471

  • モデル優先推論LLMエージェント:明示的な問題モデリングによる幻覚の軽減 [cs.AI]目的:複雑な多段階計画タスクにおける制約違反と不整合な解
    • LLMを高度な計画タスクに適用する上での課題を克服することは,AIの応用範囲拡大に不可欠である。
    • 既存手法は状態追跡が暗黙的であり,問題の明示的な表現が欠けているため,制約違反や非一貫性が生じやすい。
    • LLMが問題のモデルを構築することで,制約違反を減らし,解決策の質を向上させることを目指す。
    • モデル優先推論(MFR)は,医療スケジューリング,経路計画,リソース割り当てなど複数の計画ドメインで,Chain-of-ThoughtやReActと比較して制約違反を減少させ,解決策の質を向上させた。
    • 明示的なモデリング段階が,これらの改善に不可欠であることが,消去研究によって示された。
    • LLMの計画失敗の多くは,推論能力の限界ではなく,表現の欠如に起因することを示唆しており,明示的なモデリングが堅牢で解釈可能なAIエージェントの重要な要素となる。

    Link: https://arxiv.org/abs/2512.14474

  • TACKトンネルデータ (TTD): 深層学習に基づくトンネル欠陥検出のためのベンチマークデータセット [cs.CV, cs.AI]目的:トンネル欠陥検出のためのベンチマークデータセット
    • トンネルは交通インフラの重要な要素であり,安全性確保のため定期点検が不可欠である。
    • 従来の目視点検は時間とコストがかかり,主観的判断が含まれるという課題がある。
    • 深層学習を用いた自動トンネル点検を促進するための,ドメイン特化型データの不足を解消する。
    • 本研究では,3種類のトンネル内装の画像データセットを公開し,ひび割れ,浸食,水漏れといった典型的な欠陥をアノテーションした。
    • このデータセットは,教師あり,半教師あり,教師なしの深層学習手法による欠陥検出とセグメンテーションを支援する。
    • テクスチャと施工技術の多様性により,トンネルタイプ間のモデルの汎化性能と転移学習の調査が可能となる。

    Link: https://arxiv.org/abs/2512.14477

  • 大規模言語モデルにおける量子化対応学習のための静的活性化スケーリング (SASQ) [cs.CL, cs.AI]目的:大規模言語モデルの量子化による効率的な推論
    • 近年,大規模言語モデルの性能は向上する一方,モデルサイズの増大が課題となっている。
    • 量子化はモデルサイズを削減する手段だが,精度低下や計算コスト増大といった問題がある。
    • 本研究では,重みを固定したまま量子化因子のみを最適化し,精度と効率を両立することを目指す。
    • 提案手法SASQは,既存の量子化手法を上回り,FP16モデルを超える性能を達成した。
    • LLaMA2-7Bを用いた実験では,WikiText2においてQuaRotより5.2%,FP16モデルより4.7%perplexityが低くなった。
    • SASQは,量子化における外れ値の処理を通じて,活性化分布を維持し,量子化の困難さを軽減している。

    Link: https://arxiv.org/abs/2512.14481

  • マスキングを用いたスパースマルチモーダルTransformer:アルツハイマー病の分類 [cs.IR, cs.AI]目的:アルツハイマー病の分類における,効率性とロバスト性の改善
    • 近年,Transformerを用いた多種多様なデータ統合が重要視されている。
    • Transformerの自己注意機構は計算コストが高く,リソース制約下での拡張性が課題である。
    • 計算コストを削減し,不完全な入力に対するロバスト性を向上させることを目指す。
    • SMMTは,クラスタベースのスパース注意機構により,計算量をほぼ線形に削減することに成功した。
    • ADNIデータセットを用いた実験により,SMMTは同等の予測性能を維持しつつ,学習時間,メモリ使用量,エネルギー消費を大幅に削減した。
    • SMMTは,リソースに制約のある環境でスケーラブルなインテリジェントシステムを構築するための有効な構成要素となりうる。

    Link: https://arxiv.org/abs/2512.14491

  • Cコードを用いたバイナリコードの説明向上:C-ing Clearly [cs.CL, cs.LG]目的:バイナリコードの説明と脆弱性検出の性能向上
    • セキュリティ分野において,バイナリコードの理解は不可欠であり,脆弱性発見やマルウェア解析に繋がる。
    • LLMは高水準言語に強くても,アセンブリ言語のような低水準言語の理解は課題である。
    • Cコードを利用し,LLMがバイナリコードをより正確に理解・説明できるよう改善を目指す。
    • 提案手法C-ing Clearlyにより生成されたデータでLLMをファインチューニングすることで,バイナリコードの要約性能が向上した。
    • 異なるLLMアーキテクチャやモデルサイズにおいて,脆弱性検出の性能も一貫して向上した。
    • Cコードを利用することで,LLMのバイナリコード理解を効果的に促進できることが示された。

    Link: https://arxiv.org/abs/2512.14500

  • 遅い転送予測の改善:生成的手法の比較 [cs.LG, cs.DC, cs.NI]目的:科学計算ネットワークにおけるデータ転送性能予測の精度向上
    • 科学計算ネットワークでは,データ転送性能の監視が不可欠であり,効率的なネットワーク利用に繋がる。
    • 機械学習モデルの予測精度向上において,クラス不均衡がボトルネックとなっている。
    • クラス不均衡問題に対処し,データ転送性能予測の精度を改善することを目的とする。
    • データ拡張戦略(オーバーサンプリング,生成手法)を分析・比較した結果,クラス不均衡の改善は限定的であった。
    • 高度なCTGANを含む様々な手法も,単純な層化サンプリングと比べて有意な性能向上を示さなかった。
    • 不均衡比率の増加に対し,データ拡張による性能改善の効果は小さいことが示唆された。

    Link: https://arxiv.org/abs/2512.14522

  • 損失変化に基づく動的学習率スケジューリングは,より高速な収束をもたらす [cs.AI]目的:学習率スケジューリング手法の有効性検証
    • 深層学習モデルの性能は学習率に大きく依存するため,最適なスケジューリングが重要である。
    • 既存のスケジューラは,コサイン減衰や指数減衰など固定された設定が多く,汎用性に課題がある。
    • 損失の変化に応じて学習率を動的に調整することで,収束の高速化と精度向上を目指す。
    • 提案手法GreedyLRは,NLP,CV,LLMタスクにおいて,既存のスケジューラと比較して高い精度を示した。
    • GreedyLRは,収束速度の向上も確認され,計算効率も優れている。
    • 理論的解析により,GreedyLRの収束性と最適なスケーリング係数Fが導出され,実用性が示された。

    Link: https://arxiv.org/abs/2512.14527

  • 変動オートエンコーダを用いたECGIのための合成電気生理図生成 [cs.LG, eess.SP]目的:心房電気生理図の合成生成
    • 心房細動は罹患率が高く,正確な診断には心房電気活動の正確な把握が不可欠である。
    • 非侵襲的心電図画像法(ECGI)は有望だが,BSPM-EGMペアデータセットの不足が課題となっている。
    • データ不足を解消し,深層学習ベースのECGIパイプラインの性能向上を目指す。
    • 変動オートエンコーダ(VAE)を用いて,多チャンネル心房電気生理図を合成生成することに成功した。
    • 正弦リズム特化型VAE(VAE-S)は,シミュレーションデータとの高い忠実性を示した。
    • クラス条件付きVAE(VAE-C)はリズム特化型生成が可能だが,正弦リズム再構成の精度は低下する。生成データを用いたデータ拡張により,非侵襲的電気生理図再構成の性能が向上した。

    Link: https://arxiv.org/abs/2512.14537

  • CAPRMIL:文脈を意識したパッチ表現による多重インスタンス学習 [cs.CV, cs.AI]目的:多重インスタンス学習におけるパッチ表現の新たな手法
    • 病理画像解析では,巨大な画像サイズとピクセルレベルのアノテーション不足から,弱学習が標準的なアプローチとなっている。
    • 既存の多重インスタンス学習は,複雑なアテンション機構に依存し,計算コストが高いという課題がある。
    • 文脈情報を考慮したパッチ表現を学習することで,効率的かつ高精度な病理画像解析を実現することを目指す。
    • CAPRMILは,アテンション機構を必要とせず,線形的な計算量で文脈情報を注入することで,効率的な学習を実現した。
    • 複数の病理画像ベンチマークにおいて,最新の性能と同等の結果を達成し,学習パラメータ数や計算量を大幅に削減した。
    • 集約前のインスタンス表現の学習が,効率的かつスケーラブルな全スライド解析に有効であることを示した。

    Link: https://arxiv.org/abs/2512.14540

  • 二重言語モデル:訓練効率と過学習への耐性のバランス [cs.CL, cs.AI]目的:訓練効率と過学習への耐性のバランス
    • 自然言語処理の発展には,高性能な言語モデルが不可欠である。
    • 自己回帰モデルは効率が良いが過学習しやすいという課題がある。
    • 両方のモデルの良い点を組み合わせ,より頑健なモデルを開発する。
    • 自己回帰モデルとマスク拡散モデルの二重目的訓練が,単一目的モデルを上回る性能を示すことが示された。
    • データ繰り返し率を変えた50の言語モデルの訓練結果から,両方の目的を組み合わせることが最適であると示された。
    • 自己回帰モデルまたはマスク拡散モデルの性能目標に関わらず,最適な目的比は類似している。

    Link: https://arxiv.org/abs/2512.14549

  • VLegal-Bench:大規模言語モデルのベトナム法務推論のための認知に基づいたベンチマーク [cs.CL, cs.AI]目的:ベトナム法務における大規模言語モデルの性能評価
    • 法務分野におけるAI活用が期待される中,専門知識の評価が重要である。
    • ベトナム法は複雑で頻繁に改正されるため,AIによる正確な解釈が困難である。
    • ベトナム法務に特化した評価基準を設け,AIの性能向上を目指す。
    • VLegal-Benchは,ベトナム法務タスクにおいて大規模言語モデルを体系的に評価するための初の包括的なベンチマークである。
    • ブルームの認知分類学に基づき,実用的な使用シナリオを反映したタスクを通じて,法理解の様々なレベルを網羅する。
    • 10,450件のサンプルで構成され,専門家による厳格なアノテーションと相互検証により,信頼性の高い評価を可能にする。

    Link: https://arxiv.org/abs/2512.14554

  • 時系列データに対する反事実説明は人間中心で時間的に整合性のある介入であるべき [cs.LG]目的:時系列データに対する反事実説明の人間中心性および時間的整合性
    • 医療分野において,アルゴリズムによる推奨の根拠を説明する重要性が高まっている。
    • 既存の手法は静的なデータに基づき,わずかな入力変化で予測を反転させることに注力しており,時間的な整合性を欠く。
    • 臨床的推論に基づいた,実現可能で実用的な介入を促す反事実説明手法の開発を目指す。
    • 既存の時系列反事実説明手法は,確率的ノイズに非常に敏感であることが示された。
    • この結果は,臨床現場のような変動が避けられない状況下での信頼性の低さを示している。
    • 予測の変化だけでなく,実現可能性や実行可能性を考慮した手法と評価フレームワークの必要性が示唆された。

    Link: https://arxiv.org/abs/2512.14559

  • CLNet:クロスビュー対応がより強力なジオロケーションを実現する [cs.CV, cs.AI]目的:クロスビュージオロケーションの精度向上
    • 都市計画や自動運転など,位置情報に基づく多様な応用が期待されており,その重要性は高い。
    • 既存手法は,空間的な対応関係を明示的にモデル化できておらず,正確な位置特定が困難である。
    • 異なる視点からの画像間のセマンティックおよび幾何学的なギャップを埋め,位置特定精度を向上させる。
    • 提案手法CLNetは,潜在的な対応場を用いてクロスビュー特徴を空間的に整列させるニューラル対応マップ(NCM)を導入した。
    • CLNetは,MLPベースの変換を用いて特徴量を異なる視点間で再マッピングする非線形埋め込み変換器(NEC)と,学習された空間的手がかりにより情報のある特徴チャンネルを再重み付けするグローバル特徴再調整(GFR)モジュールを組み合わせる。
    • 4つの公開ベンチマークにおいて,CLNetは最先端の性能を達成し,高い解釈性と汎用性を示した。

    Link: https://arxiv.org/abs/2512.14560

  • ポリペルソナ:ペルソナに基づいたLLMによる合成調査回答 [cs.CL, cs.CL, cs.AI]目的:合成調査回答の生成フレームワーク
    • 大規模言語モデルの活用は,多様なデータ収集と分析を可能にするため重要である。
    • 既存の調査データは収集にコストがかかる上に,バイアスを含む可能性がある。
    • 効率的かつ再現性のある合成調査データ生成手法を確立すること。
    • コンパクトな言語モデル(TinyLlama 1.1B,Phi-2)が,より大規模なモデル(7B~8B)と同等の性能を達成した。
    • ペルソナに基づいたファインチューニングにより,信頼性が高く一貫性のある合成調査データを生成できることが示された。
    • 本フレームワークは,スケーラブルな評価とバイアス分析を支援する効率的で再現性のあるアプローチを提供する。

    Link: https://arxiv.org/abs/2512.14562

  • 残差GRU+MHSA:心血管疾患検出のための軽量ハイブリッド再帰型アテンションモデル [cs.LG, cs.AI]目的:心血管疾患の検出
    • 心血管疾患は世界的な死亡原因の第一位であり,早期介入を支援する信頼性の高い予測ツールが求められている。
    • 従来の診断法は手作業による特徴量抽出と専門家の知識に依存し,機械学習は再現性向上に貢献するが,ノイズの多いデータへの汎化が課題である。
    • 本研究は,臨床データの予測精度と効率を向上させる軽量な深層学習モデルの構築を目指す。
    • 提案モデルは,UCI心疾患データセットにおいて,精度0.861,マクロF1スコア0.860,ROC-AUC 0.908,PR-AUC 0.904を達成し,既存手法を上回った。
    • 残差再帰,チャネルゲーティング,アテンションプーリングがそれぞれ性能向上に貢献することが,消去研究によって確認された。
    • 学習された埋め込み表現は,元の特徴量と比較して,疾患クラスと非疾患クラス間の分離がより明確であることを,t-SNE可視化が示唆した。

    Link: https://arxiv.org/abs/2512.14563

  • 低リソース環境における,インパクトの高い言語技術のためのコーパス構築 [cs.CL, cs.AI]目的:低リソース言語のための,エンドツーエンドの自然言語処理パイプライン構築
    • 言語技術は多様な言語に対応することで,情報格差の是正や文化的保護に貢献しうる。
    • 十分なデータがない低リソース言語への対応は,言語技術の発展における大きな課題である。
    • データ収集からモデル構築まで,低リソース言語向けの具体的な手法を提供し,公平性と再現性を重視する。
    • 本チュートリアルでは,データ収集,Webクローリング,並列文マイニングなどの実用的なツールキットを提供する。
    • 多様な言語と地理的背景を持つ10以上の言語を対象に,テキスト分類やマルチモーダル推論などの応用例を示す。
    • 公平性,再現性,コミュニティへの配慮を重視した開発アプローチを提案する。

    Link: https://arxiv.org/abs/2512.14576

  • ネパール語LLMに向けた取り組み:ネパール語BPEトークナイザーを用いた効率的なGPT学習 [cs.CL, cs.AI]目的:ネパール語大規模言語モデルの学習
    • ネパール語は3200万人以上が話す言語であり,NLP技術の応用が期待される。
    • 複雑な文法や豊富な形態素変化により,ネパール語のNLPは困難を伴う。
    • 既存のモデルではネパール語固有のテキスト生成が不十分である点を改善する。
    • GPT-3の学習戦略に基づき,学習率の最適化,バッチスケーリング,アーキテクチャの改良を実施した。
    • ネパール語テキストのみで学習させたカスタムBPEトークナイザーにより,より適切なセグメンテーションを実現した。
    • 学習損失3.168177,検証損失3.081982,パープレキシティ21.80を達成し,ネパール語ニュース文体のテキスト生成能力を示した。

    Link: https://arxiv.org/abs/2512.14585

  • パラメトリック偏微分方程式に対する幾何学的知識を活用したニューラル前処理器による反復解法 [cs.LG, cs.NA, math.NA]目的:パラメトリック偏微分方程式の反復解法の収束性向上
    • 複雑な物理現象のシミュレーションに不可欠であり,計算コスト削減が重要である。
    • 従来の反復解法は,形状や離散化に強く依存し,汎用性に欠ける。
    • 形状に依存しない,ロバストで効率的な反復解法を開発すること。
    • 提案手法Geo-DeepONetは,任意の非構造化メッシュで正確な演算子学習を可能にした。
    • Geo-DeepONetと伝統的な手法を組み合わせたハイブリッド前処理付き反復解法を開発した。
    • 多様な形状のドメインにおける数値実験で,提案手法の堅牢性と効率性を検証した。

    Link: https://arxiv.org/abs/2512.14596

  • FakeRadar:未知のディープフェイク動画を検出するための偽造外れ値探索 [cs.CV, cs.AI]目的:未知のディープフェイク動画検出のためのフレームワーク
    • ディープフェイク技術の進化は,社会に深刻な影響を及ぼす可能性があり,検出技術の重要性が増している。
    • 既存の検出手法は,既知の偽造パターンに依存し,未知の偽造技術への対応が課題となっている。
    • 未知の偽造パターンにも対応可能な,汎化性能の高いディープフェイク検出手法を開発すること。
    • FakeRadarは,大規模な事前学習モデルを用いて特徴空間を探索し,リアル動画,既知の偽造動画,未知の操作との分布のずれを明示的に強調する。
    • Forgery Outlier Probingにより,推定されたサブクラスターの境界付近に外れ値サンプルを合成し,未知の偽造アーティファクトをシミュレーションする。
    • Outlier-Guided Tri-Trainingは,提案された外れ値駆動型コントラスト学習と外れ値条件付きクロスエントロピー損失を用いて,検出器を最適化する。

    Link: https://arxiv.org/abs/2512.14601

  • 深層音楽転写モデルにおける音響・音楽的バイアスの体系的な分析 [cs.SD, cs.LG]目的:深層音楽転写モデルにおける音響的・音楽的なバイアスの影響
    • 音楽転写は音楽情報処理の重要な課題であり,作曲,教育,検索などへの応用が期待されている。
    • 既存の音楽転写モデルは特定の音楽ジャンルやデータセットに偏っており,汎化性能が課題となっている。
    • 本研究は,音楽転写モデルのバイアスを定量的に評価し,汎化性能向上のための指針を示す。
    • 実験の結果,音響的および音楽的な分布シフトにより,音楽転写性能が低下することが確認された。
    • 特に,ジャンル変化によるF1スコアの低下は14パーセントポイント,音響変化による低下は20パーセントポイントに達した。
    • 音楽的に解釈可能な評価指標を用いることで,性能低下の要因をより詳細に分析することができた。

    Link: https://arxiv.org/abs/2512.14602

  • ネットワーク異常検知のための階層的持続ベロシティ:暗号資産市場への理論と応用 [cs.LG]目的:時間変化するネットワークにおける異常検知のための,新たなトポロジーデータ解析手法
    • ネットワーク構造の解析は,複雑系の理解に不可欠であり,様々な分野で応用が広がっている。
    • 従来のトポロジー解析では,ノイズの影響を受けやすく,変化の速度を捉えるのが困難であった。
    • 持続ベロシティを用いて,ネットワーク構造の変化を捉え,異常検知の精度向上を目指す。
    • 提案手法OW-HNPVは,従来の累積的なトポロジー解析とは異なり,特徴の出現・消失速度を計測することでノイズを抑制する。
    • 暗号資産市場のトランザクションネットワーク分析において,既存手法と比較して最大10.4%のAUC向上を達成した。
    • 特に,中・長期的な価格予測において優れた性能を示し,安定した予測結果が得られた。

    Link: https://arxiv.org/abs/2512.14615

  • 離散行動非マルコフ報酬決定過程におけるモデルベース強化学習 [cs.LG, cs.AI]目的:離散行動非マルコフ報酬決定過程における強化学習手法の開発
    • 現実の意思決定問題は,状態だけでなく過去の履歴に依存する場合が多い。
    • マルコフ決定過程に基づく強化学習は,履歴依存の問題に対応できない。
    • 非マルコフ報酬決定過程における,最適性とサンプル効率の理論的保証を確立する。
    • QR-MAXという新しいモデルベースアルゴリズムを提案し,離散行動非マルコフ報酬決定過程において,PAC収束と多項式サンプル複雑度を達成した。
    • 連続状態空間への拡張として,Bucket-QR-MAXを開発し,高速かつ安定した学習を実現した。
    • 複雑な環境下での実験により,サンプル効率と最適ポリシー探索の堅牢性が向上することが示された。

    Link: https://arxiv.org/abs/2512.14617

  • ParaFormer:グラフ表現学習のための汎用PageRankグラフTransformer [cs.LG]目的:グラフ表現学習における過剰平滑化の緩和
    • グラフ構造データは現実世界の複雑な関係性を表現可能であり,様々な分野で応用が期待されている。
    • 深層GNNでは過剰平滑化が問題となり,ノード表現が区別できなくなる。
    • PageRankに基づく注意機構により,適応的な周波数フィルタリングを実現し,過剰平滑化を抑制する。
    • ParaFormerは,PageRankを用いて注意機構を強化し,深層Transformerの挙動を模倣することで過剰平滑化を軽減する。
    • ノード分類およびグラフ分類タスクにおいて,数千から数百万ノードの11のデータセットで一貫した性能向上を達成した。
    • 理論的・実験的検証により,ParaFormerが適応的通過フィルタとして機能し,過剰平滑化を抑制することが示された。

    Link: https://arxiv.org/abs/2512.14619

  • JMMMU-Pro:Vibe Benchmark Constructionによる画像ベースの日本語マルチ分野マルチモーダル理解ベンチマーク [cs.CL, cs.AI, cs.CV]目的:日本語マルチ分野マルチモーダル理解の評価
    • 視覚情報とテキスト情報を統合的に理解するAIの性能評価が重要である。
    • 既存のベンチマークでは,日本語の複雑な視覚・言語理解を十分に評価できない。
    • 高品質な日本語画像ベースの質問応答ベンチマークを低コストで構築すること。
    • JMMMU-Proは,画像とテキストを統合した新しいベンチマークとして構築された。
    • オープンソースのLMM(大規模マルチモーダルモデル)は,JMMMU-Proにおいて著しい苦戦を見せた。
    • Vibe Benchmark Constructionは,高品質なベンチマークを効率的に開発するための指針を提供する。

    Link: https://arxiv.org/abs/2512.14620

  • MuseCPBench:音楽コンテキスト維持を通じた音楽編集手法の経験的研究 [cs.DB, cs.DC, cs.SD, cs.AI]目的:音楽編集手法における音楽コンテキスト維持の評価
    • 現代の音楽制作において不可欠であり,映画,放送,ゲーム開発など幅広い分野で活用されている。
    • 既存研究では,編集時に維持されるべき音楽的要素(音楽コンテキスト)の維持評価が不十分である。
    • 音楽コンテキスト維持能力の評価基準を確立し,既存手法の課題を明確にすること。
    • 初の音楽コンテキスト維持評価ベンチマークMuseCPBenchを開発し,4つの音楽的要素と5つのベースライン手法を比較検討した。
    • 音楽的要素,手法,モデルごとの体系的な分析により,現在の音楽編集手法における維持能力の課題を特定した。
    • 本研究の結果は,より効果的かつ信頼性の高い音楽編集戦略の開発に役立つと考えられる。

    Link: https://arxiv.org/abs/2512.14629

  • HE染色画像を用いたリンパ腫サブタイプ分類のためのマルチインスタンス学習モデルの多施設ベンチマーク [cs.CV, cs.AI]目的:リンパ腫サブタイプの分類
    • リンパ腫の正確な診断は,適切な治療方針を決定する上で不可欠である。
    • 従来の診断には高度な設備や専門知識が必要であり,診断の遅延につながる場合がある。
    • HE染色画像から診断情報を抽出し,迅速かつ正確なリンパ腫サブタイプ分類を実現すること。
    • 多施設データを用いたベンチマークデータセットを構築し,5つの病理モデルを評価した。
    • 10x,20x,40xの倍率で80%を超える分類精度を達成したが,分布外データでは性能が低下した。
    • 40xの倍率で十分な性能が得られ,さらなる高倍率化や倍率の組み合わせは効果がなかった。

    Link: https://arxiv.org/abs/2512.14640

  • TiME:効率的なNLPパイプラインのための小型単言語エンコーダ [cs.HC, cs.CL, cs.LG]目的:効率が重要なNLPアプリケーションのための小型モデルの学習
    • 言語モデルの研究は大型モデルに偏りがちだが,特定の能力を持つ小型モデルで十分な場合も多い。
    • 大型モデルは処理速度が遅く,大量データやリアルタイム応答には不向きである。また,消費電力も大きい。
    • 処理速度,遅延,消費電力のトレードオフを改善し,低リソース言語への対応を目指す。
    • TiMEモデルは,蒸留などの最新の学習技術を用いており,一般的なNLPタスクにおいて性能と効率の両立を実現している。
    • 単言語モデルから多言語教師モデルへの蒸留,絶対位置埋め込みから相対位置埋め込みへの蒸留が可能であることを示した。
    • スループット,遅延,エネルギー消費において改善が見られ,効率重視のアプリケーションに有用である。

    Link: https://arxiv.org/abs/2512.14645