arXiv雑要約

AI - 2026/05/04 公開

  • 大規模言語モデルにおける表現 [cs.CL, cs.AI, cs.LG]目的:大規模言語モデルの動作原理に関する理解
    • 近年のLLMの成功は,その動作原理の解明を促している。
    • LLMの理論的解釈において,楽観論者と悲観論者の間で意見が対立している。
    • LLMが表現に基づいた情報処理を行うのかどうかを明らかにすること。
    • LLMの動作は,部分的に表現に基づいた情報処理によって駆動される。
    • 表現を調査するための具体的な手法が提案され,その妥当性が議論されている。
    • 本研究は,言語モデルに関する今後の理論的考察の基盤を提供する。

    Link: https://arxiv.org/abs/2501.00885

  • 異質なエージェントが存在する市場:ベイズ学習者と後悔回避学習者のダイナミクスと生存 [cs.GT, cs.AI, cs.MA, econ.TH]目的:資産市場における異質な学習エージェントのパフォーマンス
    • 経済学において,市場参加者の行動様式を理解することは,効率的な市場メカニズムの設計に不可欠である。
    • ベイズ学習と後悔回避学習のどちらがより有効か,その条件が明確でなかった。
    • 市場選択における後悔の役割を明らかにし,ロバストな学習戦略を提案すること。
    • 後悔最小化が市場選択において重要な役割を果たすが,低い後悔だけでは生存は保証されないことが示された。
    • ベイズ学習は脆弱であり,後悔回避学習は環境知識の要求が少なく,よりロバストであることが示された。
    • ベイズ更新を取り入れつつ,ロバスト性と適応性を向上させるハイブリッド戦略が提案された。

    Link: https://arxiv.org/abs/2502.08597

  • 大規模言語モデルと人間の選好の整合性:コンドッセのパラドックスからナッシュ均衡へ [cs.GT, cs.LG, econ.TH, math.ST, stat.ML, stat.TH]目的:大規模言語モデルと人間の選好の整合性に関する統計的限界
    • 意思決定における公平性確保のため,人間の多様な選好とLLMの整合性は重要である。
    • 報酬に基づく手法では,人間の選好の循環(コンドッセのパラドックス)が整合性の妨げとなる。
    • ナッシュ学習のような報酬を用いないアプローチでの整合性の可能性を検討する。
    • 人間の選好がLLM生成の応答間でコンドッセのサイクルを含まない場合に限り,報酬モデルで表現可能であることが示された。
    • ルーモデル下では,コンドッセサイクルが指数関数的に高確率で発生し,報酬ベースでの完全な整合性の不可能性が示された。
    • 少数意見の選好を明示的な正則化なしで維持するための統計的な可能性がルーモデル下で示された。

    Link: https://arxiv.org/abs/2503.10990

  • 大規模推論モデルのシステム1思考能力の探求 [cs.CL, cs.AI]目的:大規模推論モデルにおけるシステム1思考能力の評価
    • 現実世界への応用には,効率的な推論能力が不可欠である。
    • 大規模言語モデルは複雑な問題を解く一方,直感的な思考能力は未解明である。
    • モデルの難易度認識と推論効率を評価し,システム1思考能力を向上させる。
    • S1-Benchという多言語ベンチマークを用いて28の言語モデルを調査した結果,システム1問題において精度と効率が低いことが判明した。
    • 既存の効率的な推論手法は,単純な問題への汎化性能が低いか,効率のために性能を犠牲にしている。
    • 大規模言語モデルは問題の難易度を早期に認識し,難易度が高い問題に対しては自信度が低下する傾向がある。

    Link: https://arxiv.org/abs/2504.10368

  • 動的環境における自律移動ロボットのための因果性強化意思決定 [cs.RO, cs.AI]目的:動的環境における自律移動ロボットの意思決定
    • 倉庫,商業施設,病院など,ロボットと人間が共有する環境が増加しており,環境の動的理解が不可欠である。
    • 単純な相関関係の分析だけでは不十分であり,原因と結果の関係を包括的に分析する因果推論が必要とされる。
    • 学習した因果モデルを用いてロボットの意思決定を支援し,タスクの実行効率と安全性を向上させることを目指す。
    • 提案手法は,バッテリー消費量や人間の障害物といった要因を考慮して,ロボットのタスク実行タイミングと戦略を決定する。
    • PeopleFlowシミュレータは,時間,環境レイアウト,ロボットの状態などの文脈要因に基づいた,人間とロボットの空間的相互作用をリアルにモデル化する。
    • 実験結果から,提案する因果的アプローチが,動的な環境下でロボットの効率的かつ安全な動作を可能にすることが示された。

    Link: https://arxiv.org/abs/2504.11901

  • 拡散駆動によるトレーニング不要モデル反転を用いた顔認識プライバシー侵害:DiffMI [cs.CR, cs.CV, cs.LG]目的:顔認識モデルからの個人情報復元
    • 顔認識技術は,個人を特定する生体情報を用いるため,プライバシー侵害リスクが高い。
    • 既存の手法は計算コストが高く,汎用性に乏しい場合がある。特に,ターゲット特有の学習が必要なものは課題が多い。
    • 拡散モデルを用いて,学習不要で顔画像から個人情報を復元する効率的な攻撃手法を開発する。
    • 提案手法DiffMIは,従来のGANベースの手法と比較して,攻撃成功率が4.01%〜9.82%向上した。
    • DiffMIは,学習に依存せず,未知のターゲットに対しても高い適応性を示す。
    • 本手法は,プライバシー保護機能を強化したシステムに対しても,84.42%〜92.87%の成功率を達成した。

    Link: https://arxiv.org/abs/2504.18015

  • LLMと人間の探索・利用戦略の比較:標準的な多腕バンディット実験からの洞察 [cs.LG, cs.AI, cs.CL, cs.HC]目的:LLMと人間の探索・利用戦略の比較
    • 複雑な意思決定において,LLMが人間の行動を模倣・自動化する応用が増加している。
    • LLMの意思決定が人間の行動とどの程度一致するか,性能が比較されている。
    • LLMにおける思考プロセスを活性化することで,人間の意思決定との類似性を高めることを目指す。
    • 思考プロセスを組み込んだLLMは,ランダム探索と指向性探索のバランスにおいて,人間と類似した傾向を示す。
    • 非定常環境下では,LLMは人間の適応性に劣り,特に効果的な指向性探索が課題となる。
    • LLMの人間行動のシミュレーションや自動意思決定における可能性と限界,改善点を示唆する。

    Link: https://arxiv.org/abs/2505.09901

  • InfantAgent-Next:自動コンピュータインタラクションのためのマルチモーダル汎用エージェント [cs.AI]目的:マルチモーダルなコンピュータインタラクションを可能にする汎用エージェントの構築
    • コンピュータとの対話は,情報アクセスやタスク自動化において不可欠である。
    • 既存手法では,大規模モデルへの依存度が高いか,柔軟なワークフロー構築が困難である。
    • ツールベースと純粋な画像認識エージェントを組み合わせたモジュール構造で,複雑なタスクを解決する。
    • InfantAgent-Nextは,テキスト,画像,音声,動画といった多様なモダリティを統合的に処理できる。
    • OSWorldベンチマークにおいて7.27%の精度を達成し,Claude-Computer-Useを上回る性能を示した。
    • GAIAやSWE-Benchといった汎用的なベンチマークにおいても高い有効性が確認された。

    Link: https://arxiv.org/abs/2505.10887

  • TokenWeave:分散LLM推論における効率的な計算・通信のオーバーラップ [cs.DC, cs.LG]目的:分散大規模言語モデル推論の効率化
    • LLMの規模拡大に伴い,分散推論の重要性が増している。高速なGPU間通信が不可欠。
    • テンソル並列化による分散推論では,GPU間通信のオーバーヘッドが課題となっている。
    • 短い入力シーケンス長でも,計算と通信のオーバーラップを効率的に実現することを目指す。
    • TokenWeaveは,RMSNormに着目し,AllReduceとRMSNormの融合カーネルを開発した。
    • 最新GPU(Hopper,Blackwell)のNVSHARP/Multimem機能を活用し,少ないSMで効率的な通信・計算を実現した。
    • レイテンシが最大1.28倍向上し,スループットが最大1.19倍向上した。通信を削除した場合と同等以上の性能を発揮した。

    Link: https://arxiv.org/abs/2505.11329

  • 限られた訓練データからの確率場の潜在的生成モデリング [cs.LG, cs.CE]目的:限られた訓練データからの確率場の生成モデリング
    • 不確実性を含む空間的に変動する量を扱う上で,確率場の正確なモデリングは科学技術において不可欠である。
    • 深層生成モデルは強力だが,大量の訓練データを必要とし,データ入手が困難な場合に適用が制限される。
    • ドメイン知識を活用し,限られたデータで確率場を生成する潜在空間アプローチを提案し,その有効性を示す。
    • 制約を考慮した変分オートエンコーダ(VAE)と関数デコーダにより,疎なデータでも物理的・統計的制約を満たす関数のコンパクトな潜在表現を学習した。
    • 学習された潜在空間で生成モデリングを行うことで,制約の適用とサンプリングを分離し,データが限られた状況下でも高度な生成手法を適用可能にした。
    • 風速場の再構成と材料特性の推論という2つの課題において,ドメイン知識制約の有効性と潜在的生成モデリングのアプローチの堅牢性が示された。

    Link: https://arxiv.org/abs/2505.13007

  • 知識グラフにおける帰納的推論のための制御可能な論理仮説生成 [cs.CE, cs.AI]目的:知識グラフにおける帰納的推論のための制御可能な論理仮説生成
    • 知識グラフは,医療診断や科学的発見など,多様な分野で応用が期待されており,その重要性は増している。
    • 大規模な知識グラフでは,一つの観測から多数の仮説が生成されやすく,冗長または無関係な仮説が多く含まれるという課題がある。
    • 本研究は,生成される仮説の制御可能性を高め,帰納的推論の実用性を向上させることを目指す。
    • 提案手法CtrlHGenは,教師あり学習と強化学習の二段階パラダイムで学習を行う制御可能な論理仮説生成フレームワークである。
    • 論理構造の学習を促進するため,サブ論理分解に基づくデータ拡張戦略を採用し,仮説空間の崩壊を抑制する。
    • 生成された仮説が制御条件に適切に従うように,Dice係数やOverlapスコアといった平滑化されたセマンティック報酬と条件適合度報酬を導入する。

    Link: https://arxiv.org/abs/2505.20948

  • インドの法的支援における大規模言語モデルの軽量ドメイン適応 [cs.CL, cs.AI]目的:インドにおける法的支援のための大規模言語モデルのドメイン適応手法
    • 国民の権利保護のため,法的情報へのアクセスと理解促進が不可欠である。
    • インドでは,法的情報の入手困難性により,国民が権利を十分に活用できていない。
    • 限られた計算資源で,インドの法的知識に基づいた高精度な法的支援を実現する。
    • 80億パラメータの量子化モデル(Llama 3.1)とRAGシステムを組み合わせることで,高いドメイン特化性能を実現した。
    • 全インドバー試験(AIBE)で60.08%のスコアを達成し,1750億パラメータのGPT-3.5 Turbo (58.72%)を上回る効率性を示した。
    • 幻覚の抑制に成功し,法的応用の実用性を高めた。パラメータ効率指数(PEI)により,80億モデルが1750億モデルより22倍効率的であることが示された。

    Link: https://arxiv.org/abs/2505.22003

  • LLMエージェント: 自律機械学習エンジニアリングのための強化学習 [cs.CL, cs.AI, cs.LG]目的:自律機械学習エンジニアリングを実現するLLMエージェントの強化学習
    • 機械学習の自動化は,専門知識がなくても効率的なモデル開発を可能にするため重要である。
    • 既存のプロンプトベースの手法では,小規模モデルの汎化性能や大規模モデルのコストが課題となっている。
    • 本研究は,強化学習を用いてLLMエージェントがMLタスクから学習し,効率性と汎化性能を高めることを目指す。
    • 70億パラメータのQwen-2.5 LLMを搭載したML-Agentは,9つの機械学習タスクで訓練された。
    • ML-Agentは,GPT-5のような大規模なプロプライエタリモデルに匹敵する性能を,大幅に低い計算コストで達成した。
    • 本研究は,タスク間の汎化性能も実証し,学習ベースのエージェントによる機械学習の可能性を示した。

    Link: https://arxiv.org/abs/2505.23723

  • 隠れ状態を持つ微分プライバシーゼロ次最適化におけるプライバシー増幅 [cs.LG]目的:微分プライバシーゼロ次最適化におけるプライバシー増幅の収束境界
    • 大規模言語モデルのプライバシー保護付きファインチューニングが重要視されている。
    • 既存手法では,ゼロ次最適化におけるプライバシー増幅の理論的保証が未確立だった。
    • 異方的な更新によるプライバシー劣化問題を解決し,収束的なプライバシー境界を提供する。
    • 本研究では,ハイブリッドノイズメカニズムと新しい結合解析により,ゼロ次最適化の収束的な隠れ状態DP境界を初めて確立した。
    • シフトされたRenyiダイバージェンスのアプローチを回避し,結合補助過程を構築することで,グローバルなLipschitz障壁を克服した。
    • その結果,従来知られていなかったより優れたDPゼロ次最適化アルゴリズムの設計を可能にする。

    Link: https://arxiv.org/abs/2506.00158

  • 分離された安全性アダプターが,効率的なガードレールと柔軟な推論時アラインメントを実現する [cs.LG, cs.AI, cs.CL]目的:AI安全性の確保
    • AI技術の社会実装が進む中で,安全性確保は不可欠な課題である。
    • 既存手法では,効率性と柔軟性の両立が困難であった。
    • 効率性と柔軟性を両立する安全性確保手法を提案する。
    • 提案手法であるDSAは,ベースモデルの内部表現を活用し,軽量なアダプターを用いて安全性を実現する。
    • DSAを用いたガードレールは,ヘイトスピーチ分類,危険な入力検出,幻覚検出において高い性能を示す。
    • DSAによる安全性アラインメントは,推論時のアラインメント強度調整を可能にし,性能低下を抑制する。

    Link: https://arxiv.org/abs/2506.00166

  • VGR:視覚的根拠に基づいた推論 [cs.CV, cs.AI, cs.CL]目的:マルチモーダル思考連鎖における推論能力の向上
    • 画像とテキストを組み合わせた推論は,人間のように複雑な問題を解決する上で重要である。
    • 既存の手法は言語に偏りやすく,詳細な画像理解を必要とするタスクへの応用が難しい。
    • 視覚的情報を活用し,画像の詳細な理解に基づく推論能力を高めることを目指す。
    • VGRは,問題解決に役立つ可能性のある領域を検出し,その領域を再提示することで,より正確な回答を導き出す。
    • 大規模なVGR-SFTデータセットを用いてモデルを微調整し,視覚と言語の連携を強化した。
    • MMStar,AI2D,ChartQAといったマルチモーダルベンチマークにおいて,大幅な性能向上を達成した。

    Link: https://arxiv.org/abs/2506.11991

  • プロパティと構造的最小限のフィードバックによる効果的なLLMコード改善 [cs.SE, cs.AI]目的:LLMコードの機能的正確性を高めるための手法
    • LLMはコード生成に優れるが,その出力の機能的正確性は課題である。
    • 既存のテスト駆動開発は,質の低いテストケースとノイズの多い信号により改善が難しい。
    • 質の高いフィードバックにより,LLMのコード修正能力を向上させる。
    • 提案手法PGSは,高レベルなプログラム特性を検証し,LLMに最も単純な反例を提供する。
    • PGSは,他のTDDベースの手法と比較して,pass@1で最大13.4%の改善を達成した。
    • PGSは,既存のデバッグ手法よりも1.4倍~1.6倍高いバグ修正率を示し,新たな最先端技術を確立した。

    Link: https://arxiv.org/abs/2506.18315

  • GPT-4oは視覚をどれだけ理解するか:標準的なコンピュータビジョンタスクにおけるマルチモーダル基盤モデルの評価 [cs.CV, cs.AI, cs.LG]目的:マルチモーダル基盤モデルの視覚理解能力の評価
    • 画像とテキストを統合するマルチモーダルAIは,多様な応用分野で注目されている。
    • 既存のモデルはテキスト出力に特化しており,セグメンテーションや3D幾何学など多様な視覚情報の表現が困難である。
    • プロンプト連鎖によるテキスト変換を通して,API経由でアクセス可能なモデルの評価枠組みを構築する。
    • マルチモーダル基盤モデルは,どのタスクにおいても専門的なモデルの性能には及ばない。
    • GPT-4oは,推論能力を持たないモデルの中で最も優れた性能を示し,6つのタスクのうち4つで1位を獲得した。
    • 最新のGPT-4oなどの画像生成機能を備えたモデルは,幻覚や入力と出力の不一致といった課題を抱えている。

    Link: https://arxiv.org/abs/2507.01955

  • ExCyTIn-Bench:サイバー脅威調査におけるLLMエージェントの評価 [cs.CR, cs.AI, cs.CL]目的:サイバー脅威調査タスクにおけるLLMエージェントの評価
    • サイバー攻撃は増加の一途をたどっており,迅速かつ正確な脅威調査が不可欠である。
    • 脅威調査には大量のログ分析と複雑な証拠の追跡が必要であり,専門家の負担が大きい。
    • LLMを活用した自動脅威調査エージェントの開発により,調査の効率化と迅速化を目指す。
    • ExCyTIn-Benchは,Microsoft Sentinel等のログデータを用いたサイバー脅威調査ベンチマークである。
    • このベンチマークは,脅威調査グラフから生成されたセキュリティ質問に対するLLMエージェントの応答を評価する。
    • 現状の最高モデルでも報酬値は0.606に留まっており,今後の研究における改善の余地が大きい。

    Link: https://arxiv.org/abs/2507.14201

  • 拡散モデルによる逆問題解決:段階的ガイダンスを用いた事後サンプリング [cs.LG, cs.CV]目的:逆問題解決のための拡散モデルの新しい枠組み
    • 高次元分布からのサンプリングは,画像処理や機械学習を含む様々な分野で重要である。
    • 逆問題解決は,観測データから原因を推定する難題であり,効率的な解決策が求められている。
    • 異なるノイズレベルで最適な近似を用いることで,計算効率と精度を両立する手法を開発する。
    • 提案手法は,画像補完と超解像において,既存のPseudoinverse-Guided Diffusion Model (PiGDM)と比較して,推論時間をそれぞれ25%,23%,24%短縮した。
    • PSNRとSSIMのわずかな低下を伴いながら,この性能向上を実現した。
    • 本手法は問題に依存せず,様々な逆問題に容易に適用可能である。

    Link: https://arxiv.org/abs/2507.18654

  • プロンプトに起因する虚偽の越境:LLMの無害なプロンプトにおける欺瞞の調査 [cs.LG, cs.AI]目的:大規模言語モデルにおける自発的な欺瞞
    • LLMは意思決定に利用され,信頼性が重要である。
    • 既存研究では欺瞞を意図的に誘発するため,現実の利用状況との乖離がある。
    • LLMが自発的に欺瞞を行う可能性を評価し,そのメカニズムを解明する。
    • LLMの欺瞞意図スコアと欺瞞行動スコアは,タスクの難易度とともに上昇する傾向が見られた。
    • モデルの規模を拡大しても,必ずしも欺瞞が減少するわけではないことが示された。
    • 接触探索質問に基づいたフレームワークにより,欺瞞の可能性を定量的に評価することが可能となった。

    Link: https://arxiv.org/abs/2508.06361

  • InterChart:分解・分散された図表情報の視覚的推論のベンチマーク [cs.CL, cs.AI, cs.CV]目的:複数関連図表にわたる視覚的推論能力の評価
    • 科学報告,金融分析,政策ダッシュボードなど,現実世界への応用において重要な能力である。
    • 既存のベンチマークは単一の図表に焦点を当てており,複数図表間の統合推論の評価が不足している。
    • 複雑な図表間の推論におけるモデルの限界を明らかにし,マルチモーダル推論の進展に貢献する。
    • 最先端のVLMの評価において,図表の複雑性が増すにつれて精度が著しく低下することが示された。
    • 複数要素を含む図表を単純な視覚単位に分解することで,モデルの性能が向上することが確認された。
    • InterChartは,複雑なマルチビジュアル環境におけるマルチモーダル推論を前進させるための厳格なフレームワークを提供する。

    Link: https://arxiv.org/abs/2508.07630

  • 火災出口領域における喫煙自動検知のための深層学習ベースCCTVシステム [cs.CV, cs.LG]目的:火災出口領域における喫煙の自動検知
    • 公共の安全確保は重要であり,喫煙による火災リスクを低減する必要がある。
    • 従来の監視システムでは,低照度環境下での喫煙検知が困難であった。
    • 本研究は,様々な環境下で喫煙を正確に検知できるシステムの開発を目指す。
    • 提案システムは,YOLOv8,YOLOv11,YOLOv12を含む既存モデルを上回り,高い検知性能を示した。
    • 特に,再現率78.90%およびmAP@50で83.70%を達成し,多様な環境下でのオブジェクト検出において最適性能を発揮した。
    • Jetson Xavier NXを用いた評価では,52〜97ミリ秒/推論で処理が可能であり,リアルタイム処理に適していることが示された。

    Link: https://arxiv.org/abs/2508.11696

  • 課題とコミットの関連回復のための自律型LLMベースエージェントLinkAnchor [cs.SE, cs.AI]目的:ソフトウェアリポジトリにおける課題とコミットの関連回復
    • ソフトウェア開発において,変更履歴の追跡やプロジェクト管理は不可欠であり,課題とコミットの関連付けが重要である。
    • GitHubにおける課題とコミットの関連付け精度は低く,既存手法では課題解決の完全な論理を捉えきれていない。
    • 大規模リポジトリでの効率的な関連回復を実現するため,コンテキストを動的に取得する自律型LLMベースエージェントを開発する。
    • LinkAnchorは,LLMが関連性の高いコンテキストデータのみを動的に取得するlazy-accessアーキテクチャを導入することで,トークン制限を超えることなく処理を実現した。
    • 既存手法が個別の課題-コミットペアに焦点を当てるのに対し,LinkAnchorは複数のコミットによる課題解決の連鎖的な依存関係を考慮する。
    • これにより,大規模リポジトリにおける計算効率を向上させ,より正確な課題とコミットの関連回復が可能となる。

    Link: https://arxiv.org/abs/2508.12232

  • グラフ概念ボトルネックモデル [cs.LG]目的:深層ニューラルネットワークの解釈可能性向上と概念介入による予測調整
    • 深層学習モデルのブラックボックス化が課題であり,解釈可能なAIの重要性が高まっている。
    • 既存の概念ボトルネックモデルは概念間の関連性を考慮せず,概念構造の表現に限界がある。
    • 概念間の関係性をグラフ構造で表現し,モデルの性能と解釈性を同時に向上させる。
    • 提案手法GraphCBMsは,画像分類タスクにおいて既存手法を上回る性能を示した。
    • 潜在的な概念グラフを活用することで,より効果的な概念介入が可能となった。
    • GraphCBMsは,様々な学習設定やアーキテクチャにおいて安定した性能を発揮する。

    Link: https://arxiv.org/abs/2508.14255

  • デジタル決済における詐欺対策強化のためのエージェントAIフレームワークCASE [cs.AI]目的:デジタル決済における詐欺インテリジェンスの向上
    • デジタル決済の普及は利便性をもたらしたが,詐欺の増加という新たな課題を生じさせている。
    • 従来の対策は,プラットフォーム外での詐欺の手口を捉えきれず,十分な予防策が講じられていない。
    • 本研究は,ユーザーからの詐欺に関するフィードバックを収集し,詐欺対策の強化を目指す。
    • 本研究で開発したCASEフレームワークは,会話型エージェントを通じて詐欺に関する詳細な情報を収集する。
    • 収集された情報は構造化データに変換され,自動化および手動での詐欺対策に活用される。
    • Google Pay Indiaでの実証実験により,詐欺対策の実施件数が21%増加した。

    Link: https://arxiv.org/abs/2508.19932

  • 推論集約型回帰 [cs.CL, cs.AI]目的:テキストからの微妙な数値スコアの推論
    • 自然言語処理の応用範囲拡大と,より高度なタスクへの挑戦。
    • タスク固有の訓練データや計算資源が限られる状況下での精度向上が課題。
    • 限られたデータと計算資源で,より高度な推論能力を必要とする回帰タスクを解決。
    • MENTATという手法を提案し,プロンプト最適化とニューラルアンサンブル学習を組み合わせた。
    • 既存手法と比較して最大65%の改善を達成した。
    • さらなる改善の余地があることを示唆している。

    Link: https://arxiv.org/abs/2508.21762

  • ニューラルネットワークモデルの個別公平性に対するコンコリックテスト [cs.LG, cs.SE]目的:ニューラルネットワークモデルの個別公平性の評価と検証
    • 機械学習の社会実装が進む中,アルゴリズムの公平性は重要な課題となっている。
    • 既存手法では,複雑なニューラルネットワークの公平性を厳密に検証することが困難である。
    • 本研究は,ニューラルネットワークの公平性を系統的にテスト・検証する手法を提案する。
    • PyFairは,既存のバイアス軽減技術を施したモデルを含む25のベンチマークモデルで評価された。
    • PyFairは,差別的な事例を検出し,公平性を検証する有効性を示した。
    • 複雑なモデルに対しては,スケーラビリティに課題が残ることも示された。

    Link: https://arxiv.org/abs/2509.06864

  • 製品チームにおけるバイブコーディング:AI支援ワークフロー,プロトタイピング,およびコラボレーションの再構築 [cs.FL, cs.CC, cs.HC, cs.AI, cs.CY, cs.ET]目的:製品開発におけるAI支援ワークフローの再構築
    • 生成AIは製品デザインの効率化に不可欠であり,その活用法は重要な研究課題である。
    • バイブコーディングの急速な普及にも関わらず,ワークフローとコラボレーションへの影響は未解明である。
    • AI支援環境下における製品開発の課題と,人間とAIのより良い協調関係の構築を目指す。
    • バイブコーディングは,アイデア出し,生成,デバッグ,レビューの4段階のワークフローに従うことが示された。
    • このプロセスはイテレーションを加速させ,創造性を支援し,参加の障壁を下げる。
    • コードの信頼性,統合,AIへの過度な依存といった課題や,効率性と熟考の間の緊張関係が明らかになった。

    Link: https://arxiv.org/abs/2509.10652

  • 最適な超曲面決定木 [cs.HC, cs.CY, cs.SI, cond-mat.stat-mech, physics.soc-ph, cs.LG, cs.DM, cs.DS]目的:最適な超曲面決定木の構築
    • 決定木は解釈性が高く,様々な分野で利用されている重要な機械学習手法である。
    • 既存の決定木アルゴリズムは表現力や大規模データへの適用性に課題があった。
    • より表現力が高く,大規模データにも適用可能な決定木アルゴリズムを開発する。
    • 本研究では,超曲面分割を持つ最適な決定木を構築するアルゴリズムを提案した。
    • 提案アルゴリズムの時間計算量は $O\left(K!\times N^{DG+G}\right)$ であり,並列化に適している。
    • 効率的な枝刈り戦略と構成の実行可能性を線形時間で検証する手法も開発した。

    Link: https://arxiv.org/abs/2509.12057

  • 不完全データからの完全な動力学:拡散アプローチ [cs.LG]目的:不完全なデータからの物理システムの学習
    • 機械学習や科学モデルにおいて,物理現象の学習は不可欠である。
    • 現実のデータは不完全で不規則なサンプリングであり,既存手法の課題となる。
    • 不完全なデータから正確な物理モデルを学習し,欠損値を補完すること。
    • 提案手法は,観測されたコンテキストと未観測のクエリにサンプルを分割し,拡散モデルで欠損部分を再構築する。
    • 理論的解析により,不完全データでの拡散学習が真の生成過程に収束することが示された。
    • 流体や気象システム等の物理ダイナミクスベンチマークで,既存手法を大きく上回る性能を示した。

    Link: https://arxiv.org/abs/2509.20098

  • 知識獲得のタイミングを見極める:責任ある知識追跡のための選択的予測 [cs.LG, cs.CL]目的:知識追跡モデルにおける選択的予測のメカニズム
    • 知識追跡は,教育効果の最大化に不可欠であり,学習者の理解度に応じた個別最適化された学習を可能とする。
    • 従来の知識追跡モデルは予測精度に注力しており,不確実な予測を人間教師に委ねる能力が欠けている。
    • モデルが予測の確信度に応じて,教師への委譲を決定することで,より責任ある知識追跡システムを構築することを目指す。
    • モンテカルロドロップアウトを用いた選択的予測層を導入することで,既存の知識追跡モデルの精度向上が確認された。
    • 最も不確実な20%の予測を棄権することで,精度,AUC,F1スコアがそれぞれ2.3~3.0,1.9~2.4,1.4~4.3ポイント向上した。
    • モデルの不確実性を活用した選択的予測は,従来のIRTベースラインと比較して,AUCの向上が顕著であり,モデルの持つ知識を最大限に引き出すことが示唆された。

    Link: https://arxiv.org/abs/2509.21514

  • 頭部・手動データの認知状態の理解 [cs.CL, cs.CL, cs.CL, cs.HC, cs.LG]目的:VR環境における頭部・手動データからの認知状態推定
    • VR技術の普及に伴い,行動データの活用が重要視されている。人間の行動理解への応用が期待される。
    • VR環境で得られる頭部・手動データから,どの程度の認知状態を推定できるかは不明であった。
    • 頭部・手動データのみから,混乱,躊躇,準備といった一時的な認知状態を推定することを試みる。
    • 頭部・手動データは,認知状態の有意な信号を捉えることが示された。
    • 大規模モーションデータで事前学習されたモーションファウンデーションモデルは,古典的なモデルや時間的モデルよりも優れた汎化性能を発揮した。
    • 本手法は82%の精度を達成し,場合によっては人間の観察者と同等またはそれを上回る性能を示した。

    Link: https://arxiv.org/abs/2509.24255

  • G-reasoner:グラフ構造知識に対する統一的な推論のための基盤モデル [cs.AI]目的:グラフ構造知識に対する推論の基盤モデル
    • 知識推論はAIの重要な課題であり,その性能向上は様々な応用分野に不可欠である。
    • 既存の知識検索方法は,断片化された情報や知識構造の弱いモデリングに課題がある。
    • 多様なグラフ構造知識に対するスケーラブルな推論を可能にする基盤モデルを開発すること。
    • G-reasonerは,グラフと言語の基盤モデルを統合する統一的なフレームワークである。
    • QuadGraphという標準化された4層抽象化により,異種知識ソースを共通のグラフ表現に統合する。
    • 実験の結果,G-reasonerは最先端のベースラインを上回り,LLMの推論能力を大幅に向上させ,高い効率性とグラフ間汎化性能を示した。

    Link: https://arxiv.org/abs/2509.24276

  • LLM DNA:機能表現を通じたモデル進化の追跡 [cs.LG, cs.AI]目的:大規模言語モデルの進化関係の解明
    • 大規模言語モデルは急速に発展しているが,その管理が課題となっている。
    • モデルの進化関係が不明確で,体系的な管理が困難である。
    • 機能表現に基づくLLM DNAを定義し,モデル間の関係性を明らかにする。
    • LLM DNAは,遺伝と決定論の性質を満たすことが数学的に証明された。
    • 305のLLMに対する実験で,LLM DNAは既存研究と一致し,優れた性能を示した。
    • 系統樹の構築により,LLMの進化の過程とファミリーごとの進化速度が明らかになった。

    Link: https://arxiv.org/abs/2509.24496

  • 間接報酬によるゼロショット地理空間推論の解禁 [cs.CV, cs.AI, cs.LG]目的:ゼロショット地理空間推論の実現
    • 地理空間データは重要性が増しているが,学習データの不足が課題。
    • 地理空間分野では,タスク固有のラベル付けデータの取得が困難。
    • メタデータに基づく間接報酬で,地理空間推論を学習する。
    • 間接報酬を用いることで,多様なタスクにおいて汎化性能の高い地理空間推論が可能になった。
    • 提案手法Geo-R1は,既存の専門モデルを上回るゼロショット性能を示した。
    • 大量のラベルなしデータを用いて,汎用的な推論能力を獲得できる可能性を示唆している。

    Link: https://arxiv.org/abs/2510.00072

  • 解釈可能かつ統合可能な潜在空間モデリングのための微分可能なオートエンコーディングニューラル演算子 [cs.LG, physics.flu-dyn]目的:解釈可能な潜在表現と計算効率の良い代理モデルの構築
    • 科学機械学習は物理的洞察の抽出やデータ駆動型モデリングに貢献するが,物理的に解釈可能な潜在表現の獲得が課題である。
    • 高次元時空間データの効率的な代理モデルと潜在空間表現の物理的解釈性の両立が困難である。
    • 潜在空間内で直接的に支配方程式を適用することで,空間次元と次元削減を実現する。
    • DIANOは,ニューラル演算子を用いて高次元入力関数を粗いグリッドの潜在表現にエンコードし,空間分解能を向上させて元の入力を再構成する。
    • DIANOは,従来の畳み込みニューラル演算子やオートエンコーダーと比較して,潜在表現と性能において優れていることが示された。
    • 潜在空間内で偏微分方程式ソルバーを統合することで,物理法則を事前知識として組み込み,エンドツーエンドでの学習を可能にした。

    Link: https://arxiv.org/abs/2510.00233

  • グラフニューラルネットワークのための適応ノード特徴選択 [cs.LG]目的:グラフニューラルネットワークにおける不要な特徴の特定と除去
    • グラフ構造データは多様な分野で活用され,その重要性は増している。
    • グラフデータにおける特徴量の重要度評価は古典的な手法では困難を伴う。
    • モデルの解釈性と次元削減のために,特徴選択手法を提案する。
    • 提案手法は,特徴値の置換による検証性能の変化に基づいて特徴を選択する。
    • 実験的に,提案手法は既存の手法と同等以上の性能を示すことが確認された。
    • 学習初期段階から有益な特徴量の重要度を算出できる点が示された。

    Link: https://arxiv.org/abs/2510.03096

  • 部分観測線形因果モデルの構造同定のためのスコアベース貪欲探索 [cs.LG]目的:部分観測線形因果モデルの構造同定
    • 科学分野において,因果関係の特定は重要な課題であり,その構造の理解は様々な応用に不可欠である。
    • 既存の制約ベースの手法は,多重検定や誤差伝播の問題に直面し,実用上の課題が多い。
    • 潜在変数を伴う構造を扱うスコアベースの貪欲探索法を開発し,構造同定を可能にすること。
    • 一般化N因子モデルを提案し,潜在変数を含む真の構造が,スコアを用いてマルコフ同値類の上で同定可能であることを示した。
    • グラフ空間を効率的に探索する貪欲探索アルゴリズムLatent variable Greedy Equivalence Search (LGES)を設計した。
    • 合成データおよび実データを用いた実験により,提案手法の有効性を検証した。

    Link: https://arxiv.org/abs/2510.04378

  • LLMエージェントによる文脈内推論を通じた学習不要時系列分類 [cs.AI]目的:学習を必要としない時系列分類手法
    • 時系列分類は多様な分野に応用されるが,ラベル付きデータが不足しがちである。
    • 従来の時系列分類は,タスク固有の学習にコストがかかり,柔軟性に欠ける場合がある。
    • LLMの潜在能力を活用し,学習なしで時系列分類問題を解決することを目指す。
    • FETAは,多重エージェントフレームワークを用いて,学習なしで時系列分類を行う。
    • FETAは,系列をチャネルごとの問題に分解し,類似事例を用いて文脈内推論を行う。
    • 9つのUEAデータセットで,FETAは学習済みのベースラインを上回る高い精度を達成した。

    Link: https://arxiv.org/abs/2510.05950

  • SketchGuard:スケッチに基づくスクリーニングによる,ビザンチン耐性分散型連合学習のスケーラビリティ向上 [cs.LG, cs.DC]目的:分散型連合学習におけるビザンチン攻撃に対する耐性を向上させる手法の開発
    • プライバシー保護と機械学習の協調学習という両立が求められる現代において,分散型連合学習は重要な研究分野である。
    • 分散型連合学習はビザンチン攻撃に脆弱であり,既存の手法は通信コストが膨大になるという課題がある。
    • SketchGuardは,スケッチに基づくスクリーニングにより,通信コストを削減し,スケーラビリティを向上させることを目指す。
    • SketchGuardは,モデルを低次元のスケッチに圧縮し,スケッチの交換により近傍ノードをスクリーニングすることで,通信コストを削減する。
    • 実験の結果,SketchGuardは最先端の防御策と同等の堅牢性を維持しながら,計算量を最大82%削減することに成功した。
    • スケッチによるフィルタリングは,フル精度フィルタリングと比べて有効閾値が$(1+O(\epsilon))$の誤差範囲に収まることが証明された。

    Link: https://arxiv.org/abs/2510.07922

  • 消失する貢献:スムーズかつ反復的なモデル圧縮のための統一的フレームワーク [cs.LG, cs.AI]目的:深層ニューラルネットワークの圧縮手法における,スムーズかつ反復的な移行の実現
    • 深層学習モデルの規模拡大に伴い,メモリ,計算量,消費電力の削減が重要課題となっている。
    • 既存の圧縮手法は精度低下を引き起こしやすく,その軽減には反復的な圧縮が必要となる。
    • 異なる圧縮手法間での安定性や継続性を向上させ,精度低下を抑制することを目指す。
    • 提案手法VCONは,既存の圧縮手法と並行して実行し,元のモデルの貢献度を徐々に減らすことで安定した微調整を可能にする。
    • VCONは,コンピュータビジョンと自然言語処理のベンチマークにおいて,既存手法と比較して精度が向上した。
    • 特に,精度向上率は1%を超え,一部設定では15%を超える改善も見られた。

    Link: https://arxiv.org/abs/2510.09696

  • フィードバック昼食:安全通信のための学習されたフィードバック符号 [cs.IT, cs.AI, cs.CR, cs.LG, eess.SP, math.IT]目的:安全通信のための学習されたフィードバック符号の設計
    • 通信セキュリティは,現代社会における情報保護の根幹をなす重要な研究分野である。
    • 従来の暗号化手法では,盗聴者の能力向上に対応しきれない場合がある。
    • チャネルフィードバックを活用し,盗聴者の優位性を克服する安全通信手法を確立すること。
    • チャネル出力フィードバックを用いることで,正当な通信当事者間での秘密鍵の合意が可能となった。
    • ユニバーサルハッシュ関数と学習に基づいたフィードバック符号を組み合わせることで,セキュリティと信頼性の両立が示された。
    • 本研究は,統合センシング通信(ISAC)におけるセンシング支援型安全通信の符号設計に貢献する。

    Link: https://arxiv.org/abs/2510.16620

  • MemoryBench:LLMシステムにおけるメモリと継続学習のためのベンチマーク [cs.LG, cs.AI, cs.IR]目的:LLMシステムにおけるメモリと継続学習能力の評価
    • LLMの性能向上にはデータ,パラメータ,計算資源の拡張が主流だが,限界が見えてきている。
    • 既存のベンチマークは長文読解に偏っており,実用的なユーザーフィードバックからの学習能力を評価できていない。
    • LLMシステムの継続学習能力を評価するための包括的なベンチマークを構築し,その課題を明らかにすること。
    • 提案されたベンチマークを用いて,最先端の基盤モデルの性能を評価した結果,期待されるほどではなかった。
    • このベンチマークが,LLMのメモリ最適化アルゴリズムに関する将来の研究を促進することを期待する。
    • ユーザーフィードバックをシミュレーションするフレームワークと,多様なドメイン,言語,タスクを網羅するベンチマークを提示した。

    Link: https://arxiv.org/abs/2510.17281

  • 意味的・エピソード記憶を用いた教師あり学習:エージェント適応への反省的アプローチ [cs.CL, cs.AI, cs.LG]目的:LLMによるターゲット分類関数の学習
    • 大規模言語モデルの応用範囲拡大のため,効率的な適応手法が求められている。
    • ファインチューニングはコストや柔軟性,解釈性の問題がある。
    • ラベル付きデータに基づいたLLMの自己批判による学習を目指す。
    • 提案手法は,ゼロショットベースラインと比較して平均で8.1%の精度向上を示した。
    • RAGベースラインと比較して平均で4.6%の精度向上を示した。
    • 事前計算された批判は推論時間の計算量を平均31.95%削減した。

    Link: https://arxiv.org/abs/2510.19897

  • TURBOTEST:インターネット速度テストの早期終了による,十分な情報量で判断する学習 [cs.NI, cs.LG]目的:インターネット速度テストの早期終了判断に関する最適な手法
    • インターネット速度テストは利用者,ISP,政策立案者にとって不可欠であり,ネットワーク品質評価の基盤である。
    • 従来の速度テストは大量のデータを転送するため,コストとネットワーク負荷が増大している。
    • テストの精度を維持しつつ,早期終了によるデータ転送量の削減を目指す。
    • TurboTestは,既存のプラットフォームに組み込むことが可能な,体系的な早期終了フレームワークである。
    • TurboTestは,スループット予測とテスト終了を分離し,機械学習を用いて精度とデータ削減のバランスを最適化する。
    • M-Lab NDTの100万件のテストデータを用いて評価した結果,BBRシグナルに基づく手法と比較して1.8~4.4倍のデータ削減を達成した。

    Link: https://arxiv.org/abs/2510.21141

  • Sentra-Guard:敵対的LLMプロンプトに対するリアルタイム多言語防御 [cs.CR, cs.AI]目的:大規模言語モデルを標的とした脱獄攻撃およびプロンプトインジェクション攻撃の検知と軽減
    • LLMの普及に伴い,悪意のあるプロンプトによる情報漏洩や誤った情報拡散のリスクが増大している。
    • 既存の防御システムは,多様な攻撃手法や多言語への対応が不十分である場合が多い。
    • 本研究は,多言語に対応し,高度な攻撃も検知可能な,より堅牢な防御システムの構築を目指す。
    • Sentra-Guardは,FAISSとSBERT埋め込み,ファインチューニングされたTransformer分類器を組み合わせたハイブリッドアーキテクチャを採用している。
    • 同システムは,99.96%の検知率(AUC = 1.00,F1 = 1.00),攻撃成功率0.004%を達成し,LlamaGuard-2やOpenAI Moderation等の既存手法を上回る性能を示した。
    • Sentra-Guardは,透明性,調整可能性,多様なLLMとの互換性を持ち,商業およびオープンソース環境でのスケーラブルな展開を支援する。

    Link: https://arxiv.org/abs/2510.22628

  • 確率的バンディットにおける1/2-ツァリスエントロピーを用いたFTRLの最終反復解析 [cs.LG]目的:確率的バンディットにおける1/2-ツァリスエントロピーを用いたFTRLアルゴリズムの最終反復収束率
    • 機械学習理論において,オンライン学習アルゴリズムの収束解析は重要である。特に,最終反復収束は学習者の実際の意思決定を捉える。
    • 多腕バンディット問題において,既存の研究の多くはリグレットのオーダーに焦点を当てており,最終反復収束率は十分に調査されていない。
    • 本研究は,1/2-ツァリス-INFアルゴリズムの最終反復収束率を理論的に解析し,その挙動を明らかにする。
    • 1/2-ツァリス-INFアルゴリズムにおいて,最適な腕への確率分布と,t反復後の腕集合の確率分布との間のブレグマンダイバージェンスがtの-1/2乗で減衰することを示した。
    • これにより,対数リグレットとtの-1乗の最終反復収束率との直感的な対応が部分的に確認された。

    Link: https://arxiv.org/abs/2510.22819

  • PORTool:報酬付きツリーを用いた重要度を意識したマルチツール統合推論のための方策最適化 [cs.CL, cs.AI, cs.LG]目的:マルチツール統合推論における方策最適化
    • 複雑なタスク解決のため,LLMと外部ツールの連携が重要視されている。
    • 結果報酬のみでの学習では,どのツール利用が成功に繋がったか特定が困難である。
    • ステップレベルでの報酬付与により,より効率的なツール利用を促進すること。
    • PORToolは,ツリー構造を用いてツール利用の選択肢を比較し,重要度を推定する。
    • ステップごとの重要度推定により,方策の更新を効率的に行い,最終的な正答率を向上させる。
    • 実験により,既存手法と比較して,正答率の向上とツール利用ステップ数の削減が確認された。

    Link: https://arxiv.org/abs/2510.26020

  • アウトビディングとブラフ:自己対戦と強化学習による嘘つきポーカーの攻略 [cs.AI, cs.MA]目的:精鋭人間レベルの嘘つきポーカーAIエージェントの開発
    • 不完全情報下での多人数同時対戦は,AI研究における重要な課題である。
    • テキサスホールデムでは,対戦が早期に二人間に絞られる傾向があった。
    • 嘘つきポーカーのような多人数同時対戦ゲームにおけるAIの性能向上を目指す。
    • Sollyは,強化学習による自己対戦によって,嘘つきポーカーで精鋭人間レベルの勝率と期待値を達成した。
    • Sollyは,大規模言語モデル(LLM)よりも優れたパフォーマンスを示した。
    • Sollyは,斬新な入札戦略を開発し,ランダム性を効果的に活用し,プロの人間プレイヤーに容易に攻略されなかった。

    Link: https://arxiv.org/abs/2511.03724