arXiv雑要約

AI - 2026/04/21 公開

ダウングレードによるアップグレード：オプティマイザの単純化がLLMアンラーニングの堅牢性を高める [cs.CL, cs.LG]目的：LLMアンラーニングにおける堅牢性向上のためのオプティマイザの役割の調査
- LLMはプライバシーや安全性に関わる重要な課題解決に貢献し，その活用が急速に広がっている。
- LLMアンラーニング後の量子化やファインチューニングといった操作により，意図した忘却が打ち消される脆弱性が存在する。
- オプティマイザのグレードを下げることで，アンラーニングの堅牢性を高める手法を提案し，検証する。
- オプティマイザのグレード（情報利用レベル）とアンラーニングの堅牢性には強い関連性があることが示された。
- 高精度な更新を行う第一階オプティマイザよりも，ノイズの多いゼロ階オプティマイザの方が，より堅牢な忘却を実現することがわかった。
- 第一階とゼロ階の更新を組み合わせたハイブリッドオプティマイザが，忘却の有効性と堅牢性の両方を向上させることを実験で確認した。
Link: https://arxiv.org/abs/2510.00761
検索拡張LLMの改善：消去可能な強化学習 [cs.CL, cs.AI, cs.IR]目的：検索拡張LLMにおける複雑な多段推論の信頼性向上
- 大規模言語モデルは強力だが，複雑な推論における信頼性が課題である。
- 推論過程における分解ミス，検索失敗，および推論誤りが信頼性を阻害する。
- 誤った推論ステップを特定・修正し，ロバストな推論を実現すること。
- 消去可能な強化学習(ERL)フレームワークにより，脆弱な推論を堅牢なプロセスへと変換した。
- ERLを用いたモデル(ESearch)は，HotpotQA等でEM/F1スコアにおいてSOTAを大きく上回る性能を示した。
- ERLは，LLMにおける多段階推論の信頼性を高めるための強力なパラダイムシフトとなり得る。
Link: https://arxiv.org/abs/2510.00861
訓練データが言語モデルにおけるパラメトリック知識と文脈内知識の利用をどのように形成するか [cs.OS, cs.NI, cs.PF, cs.CL, cs.AI]目的：言語モデルにおける知識利用の形成要因
- 大規模言語モデルの性能向上には，知識獲得と利用の理解が不可欠である。
- モデルが知識源の矛盾をどのように解決するかは，信頼性向上の課題である。
- 訓練データ特性が知識利用に与える影響を明らかにすること。
- 反復，不整合，知識分布の偏りは，一見すると有害だが，両方の知識源のバランスのとれた利用を促進する。
- これらのダイナミクスは，実際の言語モデルの事前学習でも確認された。
- 本研究は，パラメトリック知識と文脈内知識の信頼できる統合を支援する訓練データ設計の指針を提供する。
Link: https://arxiv.org/abs/2510.02370
OptunaHub：ブラックボックス最適化のためのプラットフォーム [eess.SY, cs.SY, cs.LG, cs.AI]目的：ブラックボックス最適化コンポーネントの配布，発見，再利用
- AutoMLやマテリアルズ・インフォマティクス等の分野の発展を支える重要な技術である。
- アルゴリズムやベンチマークが研究コミュニティ間で分散しており，共有が困難である。
- 最適化アルゴリズムとベンチマーク問題を統一的なインターフェースで共有可能にする。
- OptunaHubは，Optuna互換インターフェースを持つBBOコンポーネントを配布するコミュニティ主導のプラットフォームである。
- 軽量なPythonモジュール，貢献者主導のレジストリ，検索可能なWebインターフェースを提供している。
- これにより，アルゴリズムやベンチマークの独立した公開，発見，再利用が容易になる。
Link: https://arxiv.org/abs/2510.02798
連続深さグラフニューラルネットワークの収束性とサイズ転移性について [cs.LG, cs.AI]目的：連続深さグラフニューラルネットワークの収束性とサイズ転移性に関する理論的考察
- グラフ構造データを扱う機械学習において，ネットワークの構造を考慮することが重要である。
- 大規模グラフに対する計算コストや，異なるサイズのグラフへの汎化性能が課題となっている。
- 無限ノード極限における理論的解析を通じて，サイズ転移性の根拠を確立することを目的とする。
- 連続深さグラフニューラルネットワーク（GNDE）の解が，無限ノード極限におけるグラフニューラル微分方程式（Graphon-NDE）の解に収束することが証明された。
- 滑らかなグラフオンおよび$\{0,1\}$値グラフオンからサンプリングされたグラフに対する収束レートが導出された。
- 適度なサイズのグラフで学習したGNDEモデルを，構造的に類似する大規模グラフに再学習なしで転移させることの理論的根拠が示された。
Link: https://arxiv.org/abs/2510.03923
RACEアテンション：超長文コンテキストでの学習のための厳密な線形時間アテンション層 [cs.LG, cs.AI]目的：超長文コンテキストにおける学習を可能にする，線形時間アテンション層の提案
- 自然言語処理の発展に伴い，より長い文脈を扱うモデルの需要が高まっている。
- 従来のソフトマックスアテンションは計算量が膨大であり，長文脈の処理が困難である。
- 本研究では，計算効率の高い線形時間アテンション層を開発し，長文脈処理の限界を克服する。
- RACEアテンションは，言語モデリング，マスク言語モデリング，テキスト/画像分類において，既存手法と同等またはそれ以上の性能を示す。
- NVIDIA GH200 GPU上で1200万トークン，Intel Xeon Gold 5220R CPU上で7500万トークンという，既存のアテンション実装を遥かに超える処理能力を実証した。
- RACEアテンションは，今日のハードウェア上で長文脈学習を可能にする，実用的かつ理論的に裏付けられたメカニズムを提供する。
Link: https://arxiv.org/abs/2510.04008
低精度Transformer学習が失敗する理由：FlashAttentionに関する分析 [cs.LG, cs.AI]目的：低精度Transformer学習における損失爆発のメカニズム解明
- Transformerモデルの計算効率化は，大規模言語モデルの発展に不可欠である。
- 低精度化は計算コスト削減に有効だが，学習不安定性を招く課題がある。
- FlashAttentionを用いた低精度学習における損失爆発の原因究明と対策。
- 損失爆発は，Attention機構内での低ランク表現の出現と，低精度演算における丸め誤差の偏りが複雑に絡み合って発生することが示された。
- これらの要因が，誤差の蓄積を加速させる悪循環を生み出し，学習を阻害することが明らかになった。
- FlashAttentionへの修正により丸め誤差の偏りを軽減し，学習の安定化に成功した。
Link: https://arxiv.org/abs/2510.04212
プラグアンドプレイ劇作家：協調LLMエージェントによる反復的なナラティブスクリプト改善のための分割統治アプローチ [cs.AI]目的：反復的なナラティブスクリプト改善のための分割統治アプローチ
- LLMは創造的なコンテンツ生成に広く利用されているが，長編ナラティブの品質向上が課題である。
- ナラティブの全体構造や詳細な欠陥を把握し，複数粒度での修正を調整することは困難である。
- LLMエージェントによる分割統治アプローチで，ナラティブスクリプトの一貫性と品質を向上させる。
- Dramaturgeは，全体的なストーリーラインと構造的な問題を把握するグローバルレビュー段階を含む。
- シーンレベルのレビュー段階では，詳細なシーンと文の欠陥を特定し，階層的な調整段階で改善を統合する。
- 実験の結果，Dramaturgeはスクリプト全体の品質とシーンレベルの詳細において，既存手法を大きく上回る性能を示した。
Link: https://arxiv.org/abs/2510.05188
WeatherArchive-Bench：歴史的気象記録に対する検索拡張推論のベンチマーク [cs.CL, cs.AI]目的：歴史的気象記録に対する検索拡張生成（RAG）システムの評価基準
- 過去の気象災害記録は，社会が極端な気象現象にどのように対応してきたかの貴重な一次資料である。
- 記録の規模が大きく，デジタル化の質が低く，古語が使われているため，構造化された知識への変換が困難である。
- 歴史的気象記録から気象情報を効率的に検索し，社会の脆弱性や回復力を評価することを可能にする。
- WeatherArchive-Benchは，過去の気象記録に対するRAGシステムの評価基準として初めて公開された。
- 密な検索器は歴史的用語で失敗することが多く，大規模言語モデルは脆弱性や回復力の概念を誤解することが多いことが示された。
- これらの結果は，複雑な社会的指標に関する推論の限界と，気候に焦点を当てたRAGシステムの設計に関する示唆を提供する。
Link: https://arxiv.org/abs/2510.05336
拡散大規模言語モデルにおけるトレースクレジットを用いた並列デコーディングの高速化 [cs.CL, cs.AI]目的：拡散大規模言語モデルの並列デコーディングにおける効率改善
- 拡散言語モデルはテキスト生成において強力であり，その高速化が重要である。
- 従来の並列デコーディングでは，高信頼度の位置のみを確認し，再マスキングを行うため，効率が低い。
- 早期の正しいトークン予測を活かし，冗長な再マスキングを削減することで，デコーディングを加速する。
- 本研究では，トークンのデコーディング潜在能力を定量化するトレースクレジットを導入し，CreditDecodingを提案した。
- CreditDecodingは，追加学習なしで，正しいものの信頼度が低いトークンの信頼度を高め，デコーディングを高速化する。
- 8つのベンチマークで，LLaDA-8Bにおいて最大5.48倍の高速化と，+0.48の精度向上を達成した。
Link: https://arxiv.org/abs/2510.06133
VeriEquivBench：形式検証可能なコードの根拠不要評価のための同値性スコア [cs.PL, cs.AI]目的：大規模言語モデル生成コードの正確性評価のための新たなベンチマークと評価指標
- コードの正確性保証において，形式検証が次世代の手法として重要視されている。
- 既存の評価方法は正解仕様とのマッチングに依存し，データセットの規模が限られ信頼性も低い。
- 正解仕様を必要としない評価指標を用いて，形式検証可能なコード生成の課題を明らかにする。
- VeriEquivBenchは2,389個の複雑なアルゴリズム問題を内包するベンチマークである。
- 本研究で提案する同値性スコアは，生成された仕様とコードの品質を厳密に検証する。
- 最先端の大規模言語モデルによる形式検証可能なコード生成は依然として困難であることが示された。
Link: https://arxiv.org/abs/2510.06296
再帰型Transformerのためのメモリ・アズ・ステート・ハイウェイ [cs.CL, cs.CL, cs.LG, cs.AI]目的：再帰型Transformerの性能向上
- Transformerは自然言語処理の基盤技術であり，その効率化は重要である。
- 再帰型Transformerはパラメータ効率が良いが，非再帰型に劣ることがある。
- 計算の多様性と情報管理の効率化を図り，性能格差を解消する。
- MeSHは状態管理を明示的なメモリバッファに外部化し，計算の多様性を促進する。
- MeSHを適用した再帰型Transformerは，ベースラインと比較して一貫して性能が向上した。
- 1.4Bスケールでは，より大規模な非再帰型Transformerを上回り，精度を1.06%向上させた。
Link: https://arxiv.org/abs/2510.07739
潜在推論モデルに対するテスト時スケーリングの並列化 [cs.CL, cs.AI, cs.LG]目的：潜在推論モデルにおけるテスト時スケーリングの並列化手法
- 大規模言語モデルの性能向上は，様々な応用において不可欠である。
- 連続空間における潜在推論モデルへのテスト時スケーリング適用は，サンプリング機構や報酬モデルの欠如により困難であった。
- 連続空間における潜在推論モデルへテスト時スケーリングを適用し，効率的な推論を可能にすることを目的とする。
- モンテカルロドロップアウトとガウスノイズの2つのサンプリング戦略が，計算資源に応じて効果的にスケールすることが示された。
- ステップワイズなコントラスティブ目的関数で訓練された潜在報酬モデル（LatentRM）が，潜在推論の経路選択において有効であることが確認された。
- 本研究は，連続空間におけるスケーラブルな推論の新たな方向性を示す。
Link: https://arxiv.org/abs/2510.07745
Neptune：GPUにおけるローカリティと並列性のための高度なML演算子融合 [cs.PL, cs.LG]目的：GPU上での深層学習演算の効率的な融合手法
- 深層学習の高速化には，演算の最適化が不可欠であり，特にメモリ転送の削減は重要である。
- 既存のコンパイラでは，ループ依存性を含む複雑な削減演算の融合が困難であった。
- Neptuneは，依存関係を意図的に断ち切り，代数的な補正式を用いることで，この問題を解決する。
- Neptuneは，FlashAttentionやFlashDecodingと同等の演算子を生成できる。
- 10種類のAttentionベースのベンチマークで，TritonやTVMなどの既存コンパイラを上回る性能を示した。
- NVIDIAとAMDのGPUアーキテクチャにおいて，平均1.35倍の高速化を実現し，最大で3.32倍の高速化を示した。
Link: https://arxiv.org/abs/2510.08726
ControlAudio：漸進的拡散モデリングによるテキスト指示，タイミング指示，そして理解可能な音声生成への取り組み [cs.SD, cs.AI, cs.CL, eess.AS]目的：テキスト指示，タイミング指示，および理解可能な音声内容を含む，詳細な制御信号を用いたテキストから音声への生成
- 音声合成技術は，人間とコンピュータのインタラクションやコンテンツ制作において重要な役割を担う。
- 高品質な音声生成には大量のデータが必要だが，詳細な制御信号付きのデータは不足している。
- データ不足を克服し，より高度な制御が可能な音声生成モデルを開発すること。
- ControlAudioは，テキスト，タイミング，音素特徴などの情報を段階的に学習する拡散モデルである。
- 大量のテキスト-音声ペアで事前学習された拡散トランスフォーマー(DiT)を基盤とし，タイミングと音素特徴を段階的に統合する。
- 客観評価と主観評価の両方で，既存手法を大きく上回る優れた性能を示した。
Link: https://arxiv.org/abs/2510.08878
フローOpt：フローマッチングと微分可能最適化を用いたスケーラブルな集中型マルチロボット軌道最適化 [cs.CL, cs.CE, cs.CY, cs.RO, cs.LG]目的：マルチロボット軌道最適化の計算効率改善
- 複数ロボットの協調作業において，滑らかな軌道計画は安全性と効率性に不可欠である。
- 集中型軌道最適化は計算量が膨大であり，ロボット数が増加すると適用が困難となる。
- 本研究は，フローマッチングと学習に基づく手法により，集中型最適化の計算コストを削減する。
- 提案手法Flow-Optは，拡散Transformerと位置・地図エンコーダを用いた生成モデルにより，数十台のロボットの軌道をミリ秒単位で生成可能。
- 既存の中央集権型最適化手法や拡散モデルベースラインと比較して，高速かつ滑らかな軌道生成を実現。
- 各コンポーネントのバッチ処理により，複数の問題インスタンスを短時間で解決できる。
Link: https://arxiv.org/abs/2510.09204
卓越した性能か，それとも過大評価か：動的な評価による医療診断ベンチマークの再考 [cs.CL, cs.AI]目的：医療診断ベンチマークにおける評価の妥当性向上
- 医療診断は患者ケアに不可欠であり，その精度向上は重要である。
- 既存のベンチマークは，学習データの流出や現実臨床の複雑さを反映していない。
- 臨床的根拠に基づいた混同要因を取り入れた，より信頼性の高い評価を目指す。
- 提案手法DyReMeは，臨床現場で起こりうる混同要因を組み込んだ動的な診断ケースを生成する。
- DyReMeは，精度に加えて，LLMの真実性，有用性，一貫性を評価する。
- 実験の結果，最先端のLLMが臨床的に複雑な状況下で脆弱性を持つことが明らかになった。
Link: https://arxiv.org/abs/2510.09275
LLMにおける二階最適化の可能性：フル・ガウス・ニュートンを用いた研究 [cs.CL, cs.CL, cs.LG, cs.AI]目的：大規模言語モデルの事前学習における二階最適化手法の性能向上
- LLMの性能向上には計算コストが課題であり，効率的な学習手法が求められている。
- 二階最適化の近似手法は計算量を削減するが，性能劣化を招く可能性が懸念されている。
- フル・ガウス・ニュートン法を適用し，近似手法の性能劣化の程度を評価する。
- フル・ガウス・ニュートン法を用いた事前学習は，既存の最適化手法と比較して，訓練イテレーション数を5.4倍削減した。
- 層ごとのガウス・ニュートン法は，フル・ガウス・ニュートン法とほぼ同等の性能を発揮することが示された。
- 二階の損失項は収束速度に必ずしも不可欠ではなく，層ごとのヘッセ行列構造に十分な情報が含まれることが示唆された。
Link: https://arxiv.org/abs/2510.09378
対話エージェントのためのマルチモーダルポリシー内包化 [cs.CL, cs.AI]目的：対話エージェントにおけるマルチモーダルポリシーのモデルパラメータへの内包化
- 対話エージェントの多様な利用拡大に伴い，ポリシーの重要性が増している。
- 既存のポリシーは複雑化し，厳密な遵守が困難であり，計算コストも高くなる。
- マルチモーダルなポリシーをモデルに学習させ，推論時のコスト削減と精度向上を目指す。
- 提案手法TriMPIは，継続的事前学習，教師ありファインチューニング，PolicyRolloutの3段階でポリシーを内包化する。
- 合成データおよび現実世界のタスクにおいて，エンドツーエンドの精度，汎化性能，忘却への耐性が向上した。
- マルチモーダルポリシー内包化の初の試みとして，データセットと学習レシピを公開し，今後の研究を促進する。
Link: https://arxiv.org/abs/2510.09474
注意誘導画像歪みによるMLLMの性能向上 [cs.CL, cs.CL, cs.CV, cs.LG]目的：MLLMにおける詳細な知覚的根拠付けの精度向上
- 視覚情報と言語情報を統合するMLLMは，多様なタスクで活用が期待されている。
- MLLMは複雑なシーンにおいて，小さな詳細や空間関係を見落としがちである。
- モデルの注意機構を活用し，重要領域に解像度を集中させることで精度向上を目指す。
- 提案手法AttWarpは，入力画像の解像度をモデルの注意に基づいて再配分する。
- 5つのベンチマークと4つのMLLMにおいて，AttWarpは既存手法を上回る精度向上を示した。
- 注意誘導による画像歪みは，クエリに関連する情報を優先しつつ，文脈を維持する。
Link: https://arxiv.org/abs/2510.09741
CLASP：セマンティック保存変換によるLLM支援型ソースコード透かし（学習不要） [eess.SY, cs.SY, cs.CR, cs.AI, cs.LG]目的：ソースコードへの透かし埋め込み手法
- オープンソースコードの増加とLLMの普及により，知的財産保護の重要性が高まっている。
- 既存手法は識別子やローカルパターンに依存し，リネームやリファクタリングに脆弱である。
- セマンティック保存変換を用いた，学習不要で堅牢な透かし埋め込みを実現する。
- CLASPは，セマンティック保存変換の固定空間に透かしビットを埋め込むことで，高い埋め込み容量を実現した。
- 参照コード検索と差分比較により，特定のモデル学習なしで透かしの抽出を可能にし，構造的変更への耐性を向上させた。
- 複数のプログラミング言語での実験により，CLASPは既存手法よりも透かし抽出の精度と堅牢性で優れていることが示された。
Link: https://arxiv.org/abs/2510.11251
ContractEval：コード生成における契約充足アサーションを評価するためのベンチマーク [cs.CL, cs.AI, cs.SE]目的：コード生成モデルにおける契約（事前条件）充足の評価
- コード生成技術の発展は，ソフトウェア開発の自動化を促進する上で不可欠である。
- 既存の評価指標は機能的な正しさに偏っており，暗黙の事前条件の充足を評価していない。
- コード生成モデルが実際に要求される事前条件を遵守しているかを評価する手段を提供する。
- ContractEvalベンチマークは，HumanEval+とMBPP+を基盤とし，364のタスクで構成されている。
- 評価の結果，既存のLLMは機能的な正しさは高いが，契約充足率は非常に低いことが明らかになった（0-41%）。
- 契約充足は，コード生成品質の重要な側面であり，これまで見過ごされてきた問題であることが示唆された。
Link: https://arxiv.org/abs/2510.12047
MTSQL-R1：エージェントによる学習を通じた長期的対話型テキストSQL変換 [cs.CL, cs.AI, cs.DB, cs.LG]目的：長期的対話型テキストSQL変換における性能向上
- 自然言語とデータベースの連携は，情報アクセスやデータ分析において不可欠である。
- 既存システムは短期的な変換に偏っており，実行可能性や対話の一貫性に課題がある。
- 環境とのインタラクションと記憶を活用し，対話の一貫性と実行可能性を向上させる。
- MTSQL-R1は，データベースとの実行フィードバックと対話履歴を利用した反復的な検証・修正サイクルを実現した。
- COSQLおよびSPARCの実験結果から，MTSQL-R1は既存の強力なベースラインを安定して上回ることが示された。
- 環境主導型検証と記憶誘導型修正が，対話型セマンティック解析において重要であることが強調された。
Link: https://arxiv.org/abs/2510.12831
LiveResearchBench：リアルな環境におけるユーザー中心の深層研究のためのライブベンチマーク [cs.AI]目的：ユーザー中心の深層研究を評価するためのライブベンチマーク
- 情報検索技術は，現代社会において不可欠であり，その性能向上は学術的にも実用的にも重要である。
- 既存のベンチマークは，現実の情報ニーズや動的な情報変化に対応できていない点が課題である。
- 本研究は，リアルな情報ニーズに対応し，深層研究システムの性能を客観的に評価することを目指す。
- LiveResearchBenchは，日常生活，企業，学術分野を網羅する100件の専門家が作成したタスクで構成される。
- DeepEvalは，網羅性，提示，引用の正確性，分析の深さなど，コンテンツレベルとレポートレベルの両方で品質を評価する包括的な評価スイートである。
- 17の深層研究システムを評価した結果，現在の強みと課題，そして信頼性の高い深層研究を進めるために必要なシステムコンポーネントが明らかになった。
Link: https://arxiv.org/abs/2510.14240
集中治療室における髄膜炎早期発見のためのアンサンブル深層学習モデル：多施設研究 [cs.CE, cs.CL, cs.LG]目的：集中治療室における髄膜炎早期発見のためのアンサンブル深層学習モデルの有効性
- 集中治療室では，髄膜炎の早期発見が患者の予後を大きく左右するため，迅速かつ正確な診断が不可欠である。
- 髄膜炎の診断は，症状が非特異的であり，早期には判断が難しい場合が多いという課題がある。
- 本研究は，深層学習モデルを用いて髄膜炎の早期発見を支援し，誤診を減らすことを目指す。
- RF，LightGBM，DNNを組み合わせたスタッキングアンサンブルは，内部テストセットで99.9%を超える陰性予測値（NPV）を示し，クラス不均衡下でも高い性能を維持した。
- 外部eICUコホートでは内部テストセットと比較して性能は低下したが，感度は依然として良好であった。
- このスタッキングアンサンブルは，さらなる多施設での前向き検証研究により実用性が確認されれば，救急室や集中治療室における髄膜炎の除外診断スクリーニングとして役立つ可能性がある。
Link: https://arxiv.org/abs/2510.15218
エンドツーエンドな聞く，見る，話す，行動する [cs.CL, cs.AI, cs.CL, cs.CV, cs.RO, eess.AS]目的：人間らしいインタラクションの実現
- 人間は生まれつきマルチモーダルな情報処理を行うため，その模倣は重要である。
- 従来のモデルでは，複数のモダリティを同時に処理することが困難であった。
- 視覚，テキスト，音声，行動を統合的に処理するモデルを開発すること。
- ELLSAは，視覚，テキスト，音声，行動を同時に処理する初のフルデュプレックス，エンドツーエンドモデルである。
- SA-MoEアーキテクチャにより，各モダリティを専門家ルーティングし，干渉を軽減している。
- 対話や行動の交代，指示の拒否など，高度なマルチモーダル行動を可能にした。
Link: https://arxiv.org/abs/2510.16756
AI研究の再現性を高めるもの：実行可能な知識グラフとしての科学的知識表現 [cs.CL, cs.AI, cs.LG, cs.MA, cs.SE]目的：AI研究の再現性の向上
- AI研究の進展には，再現性が不可欠である。研究成果の検証や発展に必要不可欠な要素である。
- 既存手法では，十分な背景知識の不足やRAGの限界により，実行可能なコード生成が困難である。
- 科学文献からコードや技術情報を統合し，再現性を高める知識表現の構築を目指す。
- 提案手法である実行可能知識グラフ(xKG)は，PaperBenchにおいて10.9%（o3-mini）の性能向上を示した。
- xKGは，異なるLLMやエージェントフレームワークにおいても有効であることが確認された。
- xKGは，AI研究の自動再現のための汎用的かつ拡張可能なソリューションとなりうる。
Link: https://arxiv.org/abs/2510.17795
チャートからコードへ：マルチモーダルモデルのための階層的ベンチマーク [cs.SE, cs.AI]目的：チャート理解とコード生成能力の評価
- データ視覚化は意思決定に不可欠であり，その自動化ニーズは高い。
- 既存のベンチマークは実用的なシナリオを網羅せず，複雑性のスケーリングも不十分。
- 実用的なチャートからコードへの変換タスクを体系的に評価するベンチマークの提供。
- Chart2Codeは，チャートの再現，編集，長表からのチャート生成という3つのレベルで構成される。
- 最先端モデルであるGPT-5でさえ，編集タスクにおいてコードとチャート品質の評価で低いスコアしか得ていない。
- このベンチマークは，マルチモーダル推論の進歩を促進し，より汎用的なLMMの開発を支援すると期待される。
Link: https://arxiv.org/abs/2510.17932
PrivaDE：ブロックチェーン 기반 데이터 마켓플레이스를 위한 프라이버시 보호 데이터 평가 [cs.NI, cs.DC, cs.CR, cs.LG]目的：データ有用性の共同計算手法
- 機械学習モデルの品質向上には，質の高いデータが不可欠であるため，データ市場の健全な発展が重要である。
- モデル構築者とデータ提供者は，それぞれの知的財産を保護したいという事情があり，データ評価が困難である。
- モデルやデータ自体を公開せずに，データセットの有用性を評価する手法を確立し，データ市場を活性化すること。
- PrivaDEは，モデルパラメータや生のデータ，ラベルを秘匿したまま，データセットの有用性スコアを共同で計算可能である。
- 悪意のある攻撃に対する高いセキュリティ強度を持ち，スマートコントラクトによる公正な実行と支払いを実現するブロックチェーン 기반 마켓플레이스への統合が可能である。
- 数百万パラメータのモデルでも，オンライン実行時間を15分以内に抑える効率的な安全なモデル推論とモデル非依存のスコアリング手法を提案している。
Link: https://arxiv.org/abs/2510.18109
ToMMeR -- 大規模言語モデルからの効率的なエンティティ言及検出 [cs.CL, cs.CL, cs.AI]目的：大規模言語モデルからのエンティティ言及検出能力
- 情報抽出の基礎であり，性能向上が課題である。
- 従来のメンション検出は，計算コストが高く，ボトルネックとなっていた。
- 大規模言語モデルの初期層から効率的にメンション検出を行う方法を確立する。
- ToMMeRは，ゼロショットで93%のリコールを達成し，LLM-judgeプロトコル下で90%程度の精度を推定された。
- 異なるアーキテクチャのモデルでも，類似したメンション境界が確認された（DICE > 75%）。
- ToMMeRにスパンスパニフィケーションヘッドを追加することで，標準的なベンチマークで競争力のあるNER性能（80-87% F1）を達成した。
Link: https://arxiv.org/abs/2510.19410
XRePIT：OpenFOAMに実装された，高速・堅牢・スケーラブルな非定常シミュレーションのための深層学習・数値流体力学ハイブリッドフレームワーク [cs.LG, physics.flu-dyn]目的：数値流体力学シミュレーションの高速化と安定化
- 流体シミュレーションは，気象予測や製品設計など，広範な分野で不可欠なツールである。
- 従来の数値シミュレーションは計算コストが高く，リアルタイムな予測や設計の反復が困難である。
- 深層学習を活用して，計算コストを削減しつつ，シミュレーションの精度と安定性を維持する。
- 本研究で開発されたXRePITフレームワークは，最大2.91倍の計算時間短縮を達成した。
- 相対L2誤差をO(1E-03)以内に維持し，単独の代理モデルでは安定しない長期シミュレーションを可能にした。
- フレームワークの拡張性が確認され，残差監視による安定化効果は，基盤となるニューラルネットワークアーキテクチャに依存しないことが示された。
Link: https://arxiv.org/abs/2510.21804
負荷，発電，トポロジーの変化下における電力潮流のベンチマークデータセットPF$\Delta$ [cs.LG]目的：電力潮流計算における変動要素を考慮したベンチマークデータセット
- 電力系統の安定運用には，リアルタイムでの電力潮流計算が不可欠である。
- 再発可能エネルギーの導入や異常気象により，電力系統の不確実性が増大している。
- 多様な条件下での電力潮流計算の効率化と精度の向上を目指す。
- 本研究では，負荷，発電，トポロジーの変動を包含するPF$\Delta$データセットを構築した。
- 既存の電力潮流ソルバーとGNNベース手法を評価し，課題領域を特定した。
- データセットは公開されており，今後の研究開発に貢献することが期待される。
Link: https://arxiv.org/abs/2510.22048
病理学における基礎モデルの再考：失敗を超えて [cs.AI, cs.CV]目的：病理学における基礎モデルの概念的不一致の解消
- 病理診断は医療において不可欠であり，AIによる支援が急務である。
- 既存の基礎モデルは，病理画像特有の複雑さを捉えきれていない。
- 病理画像に特化したモデル設計による精度向上を目指す。
- 既存の基礎モデルは，病理画像において低い精度，不安定性，高い計算コストを示す。
- 問題はチューニングではなく，組織の組み合わせの多様性を表現できない埋め込み表現や，自己教師あり学習，パッチ設計，ノイズに対する脆弱性にある。
- 大規模自然画像に対するアプローチの前提が組織画像には当てはまらず，生物学的な画像に特化したモデルが必要である。
Link: https://arxiv.org/abs/2510.23807
PaTaRM：嗜好を考慮したタスク適応型報酬モデリングによるペアワイズとポイントワイズ信号の架け橋 [cs.LG, cs.AI]目的：人間のフィードバックを用いた強化学習における報酬モデリング手法
- LLMを人間の意図に沿うように調整する上で，報酬モデルは重要な役割を果たす。
- 従来の報酬モデルは，ペアワイズ比較と絶対評価のどちらかを選択する必要があり，コストや性能の課題があった。
- ペアワイズデータを用いて高精度なポイントワイズ学習を可能にし，LLMの性能向上を目指す。
- 提案手法PaTaRMは，RewardBenchとRMBenchにおいて，Qwen3-8B/14Bモデルで平均8.7%の改善を達成した。
- IFEvalとInFoBenchを用いた下流のRLHFタスクにおいて，平均で相対的に13.6%の性能向上を確認した。
- PaTaRMは，明示的な評価ラベルを必要とせず，効率的な報酬モデルの学習を実現する。
Link: https://arxiv.org/abs/2510.24235
視覚言語モデルにおける文化感受性ニューロンの発見 [cs.LG, cs.AI, cs.CL]目的：文化感受性ニューロンの存在と重要性
- 視覚言語モデルの性能向上は目覚ましいが，文化的な背景知識が求められるタスクは課題である。
- 既存モデルは文化的な文脈に依存する入力に対して十分な性能を発揮できていない。
- 文化的な背景知識を効率的に捉えるニューロンの特定と，その役割の解明を目指す。
- 文化選択性を示すニューロンの存在が確認された。特定の文化に関する質問への回答性能が，それらのニューロンの除去によって大きく低下した。
- 新しい選択手法ConActが，従来の確率やエントロピーに基づく手法よりも優れた識別性能を示した。
- 文化感受性ニューロンはモデルの特定のデコーダー層に集中しており，その分布はモデルに依存することが示された。
Link: https://arxiv.org/abs/2510.24942
MaLoRA：マルチモーダルLLMファインチューニングにおけるキー空間整合のためのゲート付きモダリティLoRA [cs.AI, cs.MM]目的：マルチモーダルLLMのファインチューニングにおけるテキスト優位性の問題解決
- 近年，画像とテキストを扱うマルチモーダルLLMの研究が進む中で，視覚情報の効果的な活用が重要になっている。
- 既存のマルチモーダルLLMは，テキスト入力に偏る傾向があり，視覚的根拠に基づいた推論能力が制限されている。
- 本研究は，注意機構におけるキー空間の不整合を解消し，視覚情報の活用を促進することを目的としている。
- LLaVAとQwen2.5-VLのキーベクトルを分析した結果，視覚キーとテキストキーが明確に異なる部分空間を占めていることが明らかになった。
- このモジュール間divergenceは統計的に有意であり，テキスト優位性はデータ要因だけでなく，モデル内部の構造に起因することが示唆された。
- 提案手法MaLoRAは，このキー空間の不整合に対処することで，マルチモーダルLLMの視覚情報利用を改善し，より効果的な推論を可能にする。
Link: https://arxiv.org/abs/2510.26721
VCORE：思考連鎖の教師あり学習における分散制御最適化に基づく再重み付け [cs.CL, cs.AI]目的：思考連鎖の教師あり学習における再重み付け手法
- 大規模言語モデルの推論能力向上は，自然言語処理の重要な課題である。
- 従来の交差エントロピー損失関数では，思考連鎖におけるトークンの貢献度の違いが考慮されない。
- VCOREは，トークンへの教師信号の配分を最適化し，より堅牢な推論汎化を目指す。
- VCOREは，思考連鎖の教師あり学習における新たなフレームワークとして，モデルの平均性能を向上させる。
- 特に，低容量モデルにおいて顕著な改善が見られ，数学およびコーディングベンチマークで高い性能を発揮する。
- VCOREは，その後の強化学習のための効果的な初期化手法としても機能し，LLMの推論能力向上に貢献する。
Link: https://arxiv.org/abs/2510.27462
FlexiCache：アテンションヘッドの時系列的安定性を活用した効率的なKVキャッシュ管理 [cs.LG]目的：LLMにおけるKVキャッシュ管理の効率化
- LLMの性能向上には，コンテキスト長と生成長に比例して増大するKVキャッシュのサイズが課題となる。
- 既存システムでは，重要なトークンへの集中度が高いにもかかわらず，精度を損なわずに効率的に活用できていない。
- アテンションヘッドの時系列的安定性を利用し，GPUメモリ使用量と計算コストを削減する。
- FlexiCacheは，KVヘッドを安定型と不安定型に分類し，安定型ヘッドのキャッシュページをGPUとホストメモリ間で動的に管理する。
- 長文脈リクエストにおいて，GPUメモリ使用量を最大70%削減し，オフライン処理のスループットを1.38～1.55倍向上させた。
- オンライントークンレイテンシを1.6～2.1倍低下させ，長文脈・長生成のシナリオで精度を維持した。
Link: https://arxiv.org/abs/2511.00868
ZoFia：エンティティ誘導検索と複数LLM連携によるゼロショットフェイクニュース検出 [cs.CL, cs.CL, cs.CL, cs.AI]目的：フェイクニュース検出の新しいフレームワーク
- 社会の安定と公共の信頼を脅かすフェイクニュースの拡散を防ぐことが重要である。
- 大規模言語モデルは知識の限界や事実誤認を生じやすく，単一のLLMでは先入観による判断に陥りやすい。
- 知識不足や証拠の欠如を補い，多角的な検証と説明可能な結果を得ることを目指す。
- ZoFiaは，階層的な重要度と重要度調整済み最小周辺関連性（SC-MMR）アルゴリズムを用いて主要なエンティティを正確に抽出する。
- 抽出されたエンティティを基に二重ソース検索を行い，知識と証拠のギャップを克服する。
- 複数のLLMによる多角的推論と検証を並行して行い，既存のゼロショットベースラインやFew-shot手法を上回る性能を示す。
Link: https://arxiv.org/abs/2511.01188
ASTRA：LLMの脱獄のための戦略発見，検索，進化を自動化するフレームワーク [cs.CR, cs.LG]目的：LLM脱獄攻撃戦略の自動的な発見，検索，進化
- LLMは広く利用される一方，セキュリティ脆弱性が課題である。攻撃への対策は重要。
- 既存手法は継続学習能力がなく，戦略の多様性と適応性に限界がある。
- 相互作用から学習し，攻撃戦略を自動的に進化させるフレームワークを開発する。
- ASTRAは「攻撃-評価-蒸留-再利用」の閉ループ機構により，攻撃プロンプトを生成し，有効な戦略を抽出する。
- 効果，有望，無効の3階層構造の戦略ライブラリで戦略を体系的に管理し，効率と探索空間の最適化を実現する。
- ブラックボックス環境での実験により，ASTRAは既存手法を大幅に上回る性能を示すことが確認された。
Link: https://arxiv.org/abs/2511.02356
科学シミュレーションのためのスケッチベース正則化による暗黙的ニューラル圧縮器のインシトゥ学習 [cs.LG, cs.AI, cs.CE, cs.NA, math.NA]目的：科学シミュレーションにおける暗黙的ニューラル表現を用いた圧縮器のインシトゥ学習
- 大規模科学シミュレーションでは，データ量の増大が課題であり，効率的なデータ圧縮が求められている。
- 従来のニューラル圧縮手法では，逐次学習における忘却問題が性能低下の要因となる。
- スケッチを用いた正則化により，インシトゥ学習における忘却問題を抑制し，高い圧縮性能を実現する。
- 提案手法は，限られたメモリバッファとスケッチデータを利用することで，インシトゥ学習を可能にした。
- シミュレーションデータに対する実験により，高い圧縮率で良好な再構築性能が得られた。
- スケッチの導入により，インシトゥ学習はオフライン学習に匹敵する性能を発揮することが示された。
Link: https://arxiv.org/abs/2511.02659
ConMeZO：大規模言語モデルの勾配不要ファインチューニングのための適応的下降方向サンプリング [cs.LG, math.OC, stat.ML]目的：大規模言語モデルの勾配不要ファインチューニングの高速化
- 大規模言語モデルの利用拡大に伴い，効率的なファインチューニング手法が求められている。
- 勾配情報の利用が困難な場合，探索空間の次元の呪いにより収束が遅くなる。
- 適応的な方向サンプリングにより，探索範囲を絞り，効率的な学習を実現する。
- ConMeZOは，モーメンタム推定を中心とした円錐状の領域にサンプリングを制限することで，探索を効率化する。
- ConMeZOは，MeZOと同等の最悪ケースの収束率を理論的に保証する。
- 自然言語処理タスクにおいて，ConMeZOはMeZOと比較して最大で2倍高速にファインチューニングできる。
Link: https://arxiv.org/abs/2511.02757
ノイズ注入：小規模データセットにおける分布外汎化性能の向上 [cs.CL, cs.CV, cs.AI]目的：画像認識における分布外汎化性能の向上
- 画像認識モデルは，多様なデータに対応できる汎化性能が重要である。
- モデルが訓練データに特有な特徴に過剰適合し，未知のデータへの汎化が困難になる場合がある。
- 訓練時にノイズを注入することで，モデルのロバスト性を高め，分布外データへの汎化性能を改善する。
- ノイズ注入により，分布内データと分布外データ間の性能差を0.10-0.20から0.01-0.06に大幅に縮小できた。
- ガウスノイズ，スペックルノイズ，ポアソンノイズ，塩コショウノイズといった基本的なノイズ注入手法が有効であることが示された。
- AUC，F1スコア，精度，再現率，特異度といった主要な評価指標で一貫した改善が見られた。
Link: https://arxiv.org/abs/2511.03855
大規模推論モデルにおける強化学習のエントロピー再検討 [cs.CL, cs.AI, cs.LG]目的：大規模言語モデルの推論能力向上のための強化学習におけるエントロピーの動態
- 大規模言語モデルの性能向上は，自然言語処理の重要な課題であり，様々な応用を促進する。
- 強化学習を用いた学習において，エントロピーが崩壊しやすく，最適解への収束が困難になるという問題がある。
- エントロピー崩壊の原因を特定し，それを抑制することで，より効果的な強化学習を実現することを目指す。
- 強化学習による学習において，エントロピーに影響を与える要因として，クリッピング閾値，オフポリシー更新回数，学習データの多様性が挙げられることが判明した。
- 正の利得を持つトークンがエントロピー崩壊の主要な要因であることが，理論的分析と実験的検証により示された。
- 正の利得を持つトークンの損失重みを調整するPositive-Advantage Reweightingという手法が，エントロピーを制御しつつ，高い性能を維持できることが示された。
Link: https://arxiv.org/abs/2511.05993
LoRAの活用：インスタンスレベルでの動的LoRA選択と融合 [cs.CL, cs.AI, cs.LG]目的：多様な入力に対応するためのLoRAアダプターの動的選択と融合
- 大規模言語モデルのファインチューニングは計算コストが高いため，効率的な手法が求められている。
- 従来のLoRAは単一タスクに特化しており，多様なドメインへの適用が課題であった。
- ラベル付きデータや追加学習なしで，入力に応じて最適なLoRAを動的に選択・融合すること。
- LoGoは，追加学習なしにインスタンスレベルでLoRAアダプターを選択・融合するフレームワークである。
- 5つのNLPベンチマーク，27のデータセット，3つのモデルファミリーにおいて，LoGoは学習ベースのベースラインを上回る性能を示した。
- LoGoは，推論スループットを維持しながら，実用性と有効性を実証している。
Link: https://arxiv.org/abs/2511.07129
フラクタルに着想を得た計算アーキテクチャによる自動ニューラル設計探索の準備 [cs.LG, cs.CV]目的：自動ニューラル設計探索のための計算アーキテクチャ
- 大規模言語モデルの性能向上には，多様なモデル構造の効率的な探索が不可欠である。
- 既存のニューラルネットワーク探索手法は，計算コストが高く，多様性に欠ける場合がある。
- フラクタル構造を活用することで，効率的かつ多様なモデル探索を実現することを目指す。
- フラクタルに基づくアーキテクチャは，高い性能と計算効率を示すことが確認された。
- 提案手法は，1,200種類以上のニューラルネットワーク変種を生成可能であり，構造の多様性を実現する。
- フラクタル設計は，自動アーキテクチャ探索において実行可能かつ資源効率の良い手法である。
Link: https://arxiv.org/abs/2511.07329
REFLEX：大規模言語モデルによる参照なしログ要約評価 [cs.CL, cs.AI, cs.LG, cs.SE]目的：ログ要約システムの評価
- システムログの分析効率化が求められ，その要約技術の重要性が増している。
- 高品質な参照要約が不足しており，既存の評価指標では精度に限界がある。
- 参照不要で，より信頼性の高いログ要約の評価手法を確立すること。
- REFLEXは，大規模言語モデルを用いて，関連性，情報量，一貫性などの観点から要約の質を評価する。
- 既存の指標よりも，モデル出力の差異をより効果的に識別できることが示された。
- 参照データが不足している実環境でのログ要約評価に，スケーラブルな代替手段を提供する。
Link: https://arxiv.org/abs/2511.07458
SHRUG-FM：地球観測のための信頼性重視型基盤モデル [cs.CV, cs.AI, cs.LG]目的：地球観測における基盤モデルの信頼性向上のためのフレームワーク
- 地球観測は，気候変動や災害対策において不可欠であり，高精度な情報が求められる。
- 基盤モデルは，学習データに偏りがあると，未知の環境下で信頼性が低下する課題がある。
- 信頼性の低い予測を検出し，予測を控えることで，現実世界での利用における安全性を高める。
- SHRUG-FMは，入力空間，埋め込み空間における分布外検出と，予測不確実性の３つの指標を統合する。
- ３つの災害マッピングタスクにおいて，従来の単一指標を用いた手法よりも予測リスクを低減することを示した。
- 浅い決定木を用いることで，予測を控える閾値の解釈性を担保し，安全な利用を促進する。
Link: https://arxiv.org/abs/2511.10370
EarthSight：低遅延衛星インテリジェンスのための分散フレームワーク [cs.LG, cs.DC]目的：衛星画像による災害対応等の時間的制約の強いアプリケーションを支援する低遅延なインテリジェンスシステムの実現
- 災害対応やインフラ監視など，迅速な衛星画像分析が求められる場面が増加している。
- 従来の画像配信パイプラインは通信帯域の制約により遅延が発生し，リアルタイムな活用を阻害する。
- 衛星間での連携を通じて，画像分析の効率化と遅延削減を図り，より迅速な情報提供を目指す。
- EarthSightは，衛星と地上局間の分散意思決定問題として衛星画像インテリジェンスを再定義する。
- 複数のタスクに対する推論を共有バックボーンで実行することで，計算コストを削減し，効率的な画像分析を実現した。
- シミュレーション結果から，平均計算時間が1.9倍短縮され，90パーセンタイル遅延が51分から21分に短縮された。
Link: https://arxiv.org/abs/2511.10834
ビデオP2R：知覚から推論への動画理解 [cs.CV, cs.AI, cs.LG]目的：大規模動画言語モデルにおける動画推論能力の向上
- 動画理解は，AI技術の発展において不可欠であり，様々な応用分野への貢献が期待される。
- 大規模動画言語モデルへの強化学習の適用は困難であり，動画推論能力の向上が課題となっている。
- 知覚と推論を明確に分離したフレームワークにより，動画の推論能力を向上させることを目指す。
- 提案手法VideoP2Rは，知覚と推論を別プロセスとしてモデル化する新しい強化学習フレームワークである。
- 高質なプロセスを意識したChain-of-ThoughtデータセットVideoP2R-CoT-162Kを構築し，PA-GRPOアルゴリズムを導入した。
- 7つの動画推論・理解ベンチマークのうち6つで，最先端の性能を達成した。
Link: https://arxiv.org/abs/2511.11113