arXiv雑要約

AI - 2026/06/05 公開

PortBench：LLMを活用したポートフォリオ管理のための相関を考慮したフルパイプラインベンチマーク [cs.CL, cs.AI, q-fin.PM]目的：LLMを活用したポートフォリオ管理のベンチマーク
- 金融分野におけるLLM活用は進むが，ポートフォリオ管理の評価は不十分である。
- 既存のベンチマークは，資産間の相関を無視しており，分散投資の評価が困難である。
- 現実的なポートフォリオ管理の意思決定パイプライン全体を評価できるベンチマークを開発する。
- PortBenchは，6つの異質な資産クラスを10年間対象とするベンチマークである。
- 相関に基づいた質問データセットと，ポートフォリオ管理サイクルを模倣した5段階の割り当てパイプラインで構成される。
- 評価の結果，多くのLLMは単純な均等分散投資よりも劣り，ストレス下で大きな損失を招くことが示された。
Link: https://arxiv.org/abs/2605.27887
MUSE：製造可能性，機能性，組み立て可能性を評価するテキストからCADへの生成ベンチマーク [cs.RO, cs.SY, eess.SY, cs.AI]目的：テキストからCADへの生成におけるベンチマークの構築と評価
- 製品設計の効率化が求められる中で，テキストからのCAD自動生成技術への期待が高まっている。
- 既存のベンチマークは単一部品に偏っており，機能性や製造可能性といった設計品質を評価できない。
- 複雑なアセンブリの設計品質を評価できる，実用的なベンチマークの提供を目指す。
- MUSEベンチマークは，設計仕様と生成モデルの機能性，製造可能性，組み立て可能性を評価する三段階のプロトコルを用いる。
- 実験の結果，既存のLLMは実行可能なコードから有効な形状，そして設計可能な構造への変換で段階的に失敗することが示された。
- MUSEは，テキストからCADへの生成を単なる形状生成から真のエンジニアリング設計へと発展させるための現実的なベンチマークとなる。
Link: https://arxiv.org/abs/2605.28579
拡散モデルによる知識グラフ推論のためのグラフ状論理ルール生成 [cs.AI]目的：知識グラフ推論のためのグラフ状論理ルールの発見
- 知識グラフは，現実世界のエンティティと関係を表現する上で重要な役割を果たす。
- 既存のルールマイニング手法は，単純なチェーン状のルールに偏っており，グラフ構造の複雑な関係性を捉えきれていない。
- グラフ状のルールを発見する効率的かつ効果的な手法を開発し，知識グラフの推論性能を向上させる。
- GRiDは，ターゲットの関係に基づいてグラフ状のルール発見を離散的な生成過程として再構築するフレームワークである。
- GRiDは，知識グラフメタグラフからサンプリングされたサブグラフの構造的事前知識を捉えるための教師あり事前学習と，ルール品質メトリックによって誘導される強化学習という二段階の学習戦略を採用している。
- 6つのベンチマークデータセットにおける実験により，GRiDが知識グラフ補完タスクにおいて競争力のある性能を発揮することが示された。
Link: https://arxiv.org/abs/2605.30747
予測に基づく推論の産業化：信頼性の高いGenAIおよびエージェントシステム評価のためのGLIDEライブラリ [cs.AI, cs.LG, stat.ME]目的：エージェントシステムの信頼性評価手法
- エージェントシステムの発展に伴い，その性能評価の重要性が増している。
- 人手による評価は高コストであり，LLMを利用した評価はバイアスを含む可能性がある。
- 予測に基づく推論（PPI）を統合し，公平で信頼性の高い評価手法を提供する。
- GLIDEは，最先端のPPI推定器およびサンプラーを統一的に利用可能なPythonライブラリである。
- GLIDEは，モンテカルロ検証スイートや手法選択のための決定木を備えている。
- エージェントシステムの評価事例において，GLIDEはアノテーションコストを削減しつつ，同等の精度を達成した。
Link: https://arxiv.org/abs/2605.31278
AIリテラシー育成のための5段階発展段階モデル：高等教育における実践 [cs.CY, cs.CY, cs.AI]目的：高等教育におけるAIリテラシーの発展段階
- 現代社会においてAI技術は不可欠であり，その理解は高等教育の重要な課題である。
- AIツールへの過度な依存や無理解といった問題が，学習者のAI活用を阻害している。
- 学習者のAIリテラシーの現状を診断し，育成のための具体的な道筋を示すことを目指す。
- 本研究では，AIとの関わり方を示す5段階の発展段階モデルを提案した。
- ノースカロライナ州立大学での実践事例から，学習者が段階的にAIリテラシーを高める様子が観察された。
- AIリテラシーは，単なるツール利用ではなく，AIを理解し批判的に評価する能力として捉えるべきである。
Link: https://arxiv.org/abs/2606.00038
ポーズと考察：ビデオに基づいた支援行動提案のためのデータセットとベンチマーク [cs.CV, cs.AI]目的：ビデオに根ざした支援行動提案のためのデータセットと評価基準
- 近年の視覚言語モデルの応用拡大に伴い，ビデオ理解と推論の重要性が増している。
- 既存の視覚言語モデルは，ビデオ内の状況把握，時間的整合性，文脈に応じた計画立案に課題がある。
- モデルが視覚的証拠に基づき思考を停止し，簡潔かつ実行可能な応答を生成できるようにすること。
- 本研究で提案するデータセットは，モデルに構造化された推論を促し，人間らしい支援を可能にする。
- 40億パラメータのコンパクトなモデルをファインチューニングし，ベンチマーク評価を行った結果，GPT-5.2と同等の性能を示した。
- さらに，EgoThinkやTempCompassなどの異なるデータセットでも高い汎化性能と大幅な性能向上を確認した。
Link: https://arxiv.org/abs/2606.00616
ForeSci：将来を見据えたAI研究判断のためのLLMエージェントの評価 [cs.AI]目的：将来的なAI研究判断の評価
- AI研究では，将来の証拠がない段階で方向性を決定する必要がある。
- 過去のデータのみから将来を予測するAIの能力は未だ十分ではない。
- LLMエージェントによる将来を見据えたAI研究判断の精度を評価する。
- ForeSciは，4つのAI分野と4つの意思決定タイプを含む500件のタスクで構成される。
- 明示的な証拠の整理は追跡可能性と事実に基づく裏付けを改善するが，効果は意思決定のタイプに左右される。
- エージェントは関連する証拠を引用しながら，誤った研究対象を予測するという証拠と意思決定の乖離が見られた。
Link: https://arxiv.org/abs/2606.00644
企業マルチエージェントシステムにおける動的な協調戦略選択 [cs.MA, cs.AI, cs.CL]目的：企業マルチエージェントシステムにおける協調戦略選択のあり方
- 企業活動の複雑化に伴い，複数のエージェントによる協調が不可欠となっている。
- 最適な協調戦略（合意，議論，統合など）を静的に決定する方法では，状況の変化に対応できない。
- タスクの種類に応じて動的に協調戦略を選択することで，システム全体の効率を向上させる。
- 多様な業界・問題クラスのタスクにおいて，動的な協調戦略ルーティングの有効性が示された。
- 予測された戦略は，常に最良の戦略と0.10の品質スコア以内に収まり，実用的な近似であることが確認された。
- 構造化されたコンプライアンス検証においては，すべてのモデルが合意形成よりも単一エージェントでの処理を好む傾向が示された。
Link: https://arxiv.org/abs/2606.00804
議論の崩壊：LLMが長文の公開討論を均質化する [cs.CL, cs.AI]目的：LLMによる議論の均質化の傾向
- 公共の議論は民主主義社会の根幹であり，多様な意見の存在が重要である。
- LLMの普及により，議論が特定の型に収束し，多様性が失われる懸念がある。
- LLM生成の議論における均質化の度合いを定量的に評価し，その原因を探る。
- LLMが生成した議論は，人間の議論と比較して，主要な論点，副論点，段落構造において，少数に収束する傾向が見られた。
- 多様な回答を生成させるようにLLMに指示しても，人間の議論の多様性を十分に再現することはできなかった。
- LLMは一般的な表現や婉曲表現を好む傾向がある一方，人間はより具体的な議論を好むことが示された。
Link: https://arxiv.org/abs/2606.01736
コミュニティを考慮したソーシャルなテキストエンゲージメントと共鳴の評価：ユーザー生成コンテンツ評価における人間中心の視点 [cs.AI]目的：ユーザー生成コンテンツのコミュニティにおける共鳴度評価
- ユーザー生成コンテンツの重要性が高まる中，従来の画質評価では捉えきれない社会的側面への注目が必要である。
- 従来の評価指標は視覚的な品質に偏っており，コンテンツがコミュニティに与える影響を考慮していない。
- 多様な視聴者の視点を模擬し，コミュニティ全体の反応を推定することで，より人間らしい評価を目指す。
- MEDEAは，視覚的な品質だけでなく，マルチモーダルな属性に基づいてコンテンツの共鳴度を評価する。
- Social-CoTメカニズムにより，多様な視聴者像を想定し，集団的な認知・感情反応をシミュレーションする。
- CASTER-Benchを用いた実験で，MEDEAは既存のモデルを凌駕し，コミュニティからのフィードバックと整合性の高い解釈可能な推論経路を示した。
Link: https://arxiv.org/abs/2606.01897
OpenWebRL：視覚的ウェブエージェントのためのオンライン多段階強化学習の解明 [cs.LG, cs.AI, cs.CL, cs.CV]目的：視覚的ウェブエージェントのオンライン多段階強化学習に関する研究
- ウェブエージェントは，多様な情報源へのアクセスにより，様々なタスク実行を可能にする重要な技術である。
- 既存のオープンソースエージェントは，大規模な教師ありデータに依存しており，スケーラビリティに課題がある。
- 本研究は，オンライン強化学習を用いて，教師ありデータへの依存を減らし，より効率的な学習を実現する。
- OpenWebRLは，実サイト上でのオンライン多段階強化学習のためのオープンなフレームワークを提供する。
- OpenWebRL-4Bは，Online-Mind2Webで67.0%，DeepShopで64.0%の成功率を達成し，既存のオープンソースエージェントを上回る性能を示す。
- 本研究は，オンライン強化学習が視覚的ウェブエージェントの推論能力向上に寄与することを示唆する。
Link: https://arxiv.org/abs/2606.02031
フィルタリングとリウェイト：ポリシー内蒸留における最適化粒度の再考 [cs.LG, cs.AI, cs.CL]目的：ポリシー内蒸留における最適化粒度の改善
- 大規模言語モデルの性能向上は，効率的な学習手法の開発に不可欠である。
- 従来のポリシー内蒸留は，すべての軌跡を均等に扱うため，非効率性が存在する。
- 高品質な軌跡の選択と，情報量の多いトークンの強調による学習効率の向上。
- FiRe-OPDは，まず低品質な軌跡をフィルタリングし，残りの軌跡内のトークンにソフトリウェイトを適用する。
- ハードなトークン選択と比較して，FiRe-OPDは情報損失を軽減し，最適化の安定性を高める。
- 様々な設定で，既存のトークンレベルのポリシー内蒸留手法を上回る性能を示すことが確認された。
Link: https://arxiv.org/abs/2606.02684
言語モデルの隠れ状態における線形プローブは，推論モードではなくタスク形式を検出する [cs.CL, cs.AI]目的：言語モデルの隠れ状態における線形プローブによるタスク形式の検出
- 言語モデルの内部表現の解釈は，AIの透明性向上に不可欠である。
- 線形プローブの解釈には，タスク形式の影響が考慮されていない場合がある。
- タスク形式の影響を取り除いた上で，推論モードと隠れ状態の関係を検証する。
- Qwen3-14Bの線形プローブは，高い精度でタスクを識別したが，これはタスク形式に起因する。
- タスク形式の影響を除去すると，識別精度は低下し，推論モードとの関連性は見られなかった。
- メカニズム解釈においては，タスク形式の混同を解消することが重要である。
Link: https://arxiv.org/abs/2606.02907
非同期LLMポストトレーニングのための非対称スケール方策最適化 [cs.CY, cs.LG, cs.AI]目的：非同期LLMのポストトレーニングにおける方策最適化手法
- 大規模言語モデルの性能向上は，様々な応用において不可欠である。
- 非同期強化学習では，古い応答による分布のずれが課題となる。
- 現在の方策確率のみを用いて，非同期学習の安定化を図る。
- 提案手法ASymPOは，応答ごとのトークン損失を現在の平均負対数確率で正規化する。
- ASymPOは，行動方策確率を必要とせず，応答レベルでのゼロサムバランスを回復する。
- 数学的推論のポストトレーニングにおいて，ASymPOとSPOの有効性が確認された。
Link: https://arxiv.org/abs/2606.03070
BAHSD：ブラックボックス型シーケンシャル推薦における適応的蒸留によるロングテールギャップの解消 [cs.IR, cs.AI]目的：ブラックボックス型シーケンシャル推薦システムの能力をローカルに再現するためのモデル抽出
- シーケンシャル推薦は広く利用されており，ユーザーの行動履歴に基づいた精度の高い推薦が可能。
- ロングテール分布により，教師モデルの知識抽出が困難であり，特にテール部分のデータ不足が問題。
- シグナルの信頼度に応じた適応的な蒸留により，知識抽出の精度向上とロングテール問題の解決を目指す。
- BAHSDは，マルチスケール一貫性プロービング機構を用いてシグナルの信頼性を暗黙的に定量化する。
- 動的温度KLダイバージェンスにより，高信頼度シグナルにおける教師モデルの偏りを軽減し，ノイズに強い学習を実現。
- 実験結果から，BAHSDはベースラインを上回り，特にテールユーザーに対して80％以上の改善が見られた。
Link: https://arxiv.org/abs/2606.03091
階層的視点-トークン輸送によるゼロショット3D質問応答 [cs.CV, cs.LG]目的：ゼロショット3D質問応答の性能向上
- 3Dシーン理解は，ロボット工学や自動運転など，様々な応用分野で重要である。
- 限られた入力情報の中で，3D情報を最大限に活用することが課題である。
- 視点とトークンの重要度を評価し，効率的な情報収集を目指す。
- 提案手法KeyVTは，視点レベルとトークンレベルで階層的にコンテキストを収集する。
- 視点選択では，セマンティック内容と幾何学的配置を考慮し，空間的に整合性の高い視点を選択する。
- トークン選択では，最適輸送フレームワークを用いて冗長性を排除し，重要なトークンを特定する。
Link: https://arxiv.org/abs/2606.03100
CoEval：カスタムタスクに対する言語モデルのランキング - ラベル付きデータや信頼できるベンチマークなしで [cs.CL, cs.AI]目的：特定のタスクにおける言語モデルの選択・評価手法
- 事前学習済み言語モデルは多様な応用で重要だが，適切なモデル選択が課題。
- 既存のベンチマークは汎用的で，特定のタスクやドメインを反映しにくい。
- 汚染されていないタスク固有の指標によるモデル評価を目指す。
- CoEvalは，教師・生徒・審査員の役割をモデルがローテーションし，自己評価を行うことで信頼性の高いベンチマークを生成する。
- 生成された質問は既存のベンチマークとの重複がなく，ドメイン固有のランキングが可能となる。
- 正解データが存在する場合，真のランキングを再現し，客観的な正答率も高い結果が得られた。
Link: https://arxiv.org/abs/2606.03650
エージェント的RL：視覚情報に基づくUAVナビゲーションのための自己改善型エージェント強化学習 [cs.CL, cs.RO, cs.RO, cs.AI]目的：視覚情報に基づくUAVナビゲーションにおける報酬設計，ポリシー改善，実世界への展開の自律性の向上
- ロボットの自律的なナビゲーションは重要であり，複雑なタスクを学習する可能性を秘めている。
- 従来の強化学習は，人間が設計した報酬関数と手動での微調整に大きく依存し，時間と労力がかかる。
- 報酬関数の自動設計とポリシーの自己改善を通じて，強化学習の自律性と実用性を高める。
- 提案手法AgenticRLは，報酬関数の閉ループ改善プロセスを通じて，初期報酬と比較してポリシーの挙動を71%向上させた。
- シミュレーションから実世界への転移実験では，91%の成功率と94%の精度を達成した。
- マルチモーダルGPTエージェントを活用し，タスク情報と視覚情報を解釈し，適切なポリシーを選択することで，実世界での運用を可能にした。
Link: https://arxiv.org/abs/2606.03963
Transformerは3つの射影を必要とするか？QKVバリアントの体系的研究 [cs.LG, cs.AI, cs.CL, cs.PF]目的：QKVアテンションにおける射影共有制約の評価
- Transformerは様々なAIタスクの標準的な手法であり，その効率化は重要である。
- QKVアテンションの各射影の貢献度や省略の影響は十分に解明されていない。
- 射影共有によるメモリ削減と性能維持の両立を目指す。
- Q-K=Vの射影共有は，perplexityのわずかな低下（3.1%）でKVキャッシュを50%削減できることが示された。
- Q-K=VとGQA-4の組み合わせにより，キャッシュを87.5%削減し，Q-K=V+MQAでは96.9%削減が可能である。
- Q-K=Vは鍵と値が類似の表現空間を占有できるため品質を維持するが，Q=K-Vはアテンションの方向性を損なう。
Link: https://arxiv.org/abs/2606.04032
エンタープライズAIエージェントの事前展開保証：オントロジーに基づいたシミュレーションと信頼性認証 [cs.AI, cs.LG, cs.SE]目的：エンタープライズAIエージェントの事前展開における保証
- AI技術の企業への導入が進む中，安全性と信頼性の確保が重要課題となっている。
- AIエージェントの展開後の監視や制御だけでは，十分な保証は得られない。
- 展開前の検証フレームワークにより，AIエージェントの安全性と信頼性を担保することを目指す。
- オントロジーに基づいた検証フレームワークを開発し，規制遵守，運用，および敵対的テストシナリオを自動生成するパイプラインを構築した。
- 金融，銀行，保険，医療の4つの規制業界において，1,800のシナリオを125の規制要件と25のフォールト注入に対して評価した。
- オントロジーベースのシナリオ生成は，従来のペルソナベースの手法と比較して，規制網羅性（48.3%対33.1%）とドメイン固有性（4.77/5.0）で優れていた。
Link: https://arxiv.org/abs/2606.04037
連続時間ロバストマルコフ決定過程に対する方策勾配法 [cs.LG, cs.SY, eess.SY]目的：連続時間ロバストマルコフ決定過程における方策勾配アルゴリズムの理論的解析と最適化手法の開発
- 強化学習は，複雑な環境下での意思決定を自動化する上で重要な技術である。
- 従来の強化学習は，環境の変化に脆弱であり，安全性が求められる場面での適用が難しい。
- 最悪の遷移ダイナミクスに対する性能保証を持つロバストマルコフ決定過程の枠組みを連続時間拡張し，より実用的なアルゴリズムを確立する。
- 連続時間ロバストマルコフ決定過程における方策勾配と敵対的勾配の導出に成功した。
- オラクルベース設定下における線形収束と，サンプルベース設定下におけるサンプル複雑度$\tilde{\mathcal{O}}(\frac{1}{\epsilon^2})$を理論的に保証した。
- 平均場最適化器を提案し，$\tilde{\mathcal{O}}(\frac{1}{K})$のオラクルベース収束率と$\tilde{\mathcal{O}}(\frac{N^2}{\epsilon})$のサンプル複雑度を導出した。
Link: https://arxiv.org/abs/2606.04335
LimiX-2M：表形式データ用ファウンデーションモデルにおける低ランク崩壊と注意機構のボトルネックの緩和 [cs.CG, math.MG, cs.RO, cs.LG]目的：表形式データ用ファウンデーションモデルの性能向上
- 表形式データ分析における機械学習の重要性が高まっており，より高性能なモデルが求められている。
- 既存の表形式データ用ファウンデーションモデルは，計算効率が低いという課題がある。
- 入力データの表現方法と計算処理の順序を最適化することで，性能と効率を両立することを目指す。
- 提案手法LimiX-2Mは，既存のより大規模なモデルと比較して，複数の表形式データベンチマークで優れた性能を示した。
- LimiX-2Mは，学習および推論コストを削減することに成功した。
- 値情報を考慮したトークン化と，読み出しに合わせたルーティングが，表形式データ用ファウンデーションモデルの性能向上に不可欠であることが示唆された。
Link: https://arxiv.org/abs/2606.04485
GRPOのためのロールアウトレベルの優位性優先経験再生 [cs.LG, cs.AI]目的：検証可能な報酬を用いた強化学習におけるGRPOのサンプル効率の改善
- 大規模言語モデルの推論能力を向上させるためには，強化学習によるポストトレーニングが重要である。
- GRPOでは，ロールアウトが一度しか利用されず，効率が悪い。また，ポリシーの変動により，経験再生の有効性が低い。
- ロールアウト単位での経験再生により，サンプル効率を高め，学習の安定化を図る。
- 提案手法は，Qwen3-Baseの3つのスケールで，5つの数学ベンチマークにおいて，GRPOや単純な経験再生よりも高い性能を示す。
- 特に4Bモデルにおいて，5つのベンチマークの平均で+4.35ppの改善が見られた。
- 精度とトークン効率を同時に評価するAES指標においても，4BモデルでGRPOと比較して+0.579の効率向上を示した。
Link: https://arxiv.org/abs/2606.04560
連続時間動的グラフにおける状態空間モデルを用いた長距離空間時間表現学習 [cs.LG, cs.AI]目的：連続時間動的グラフにおける長距離空間時間表現学習
- 関係性を持つデータの時間的変化を詳細に捉える上で，連続時間動的グラフが重要である。
- 既存手法では，近傍の時間的範囲に限定され，多段あるいはグローバルな構造パターンを捉えられない。
- 長距離の時間的・空間的な推論能力を向上させるための新たなモデルを開発する。
- 提案手法CTDG-SSMは，動的リンク予測，動的ノード分類，シーケンス分類のベンチマークにおいて最先端の性能を達成した。
- 特に，長距離の時間的・空間的な推論が要求されるデータセットにおいて，大きな性能向上を示した。
- 連続時間Topology-Aware高次多項式射影演算子(CTT-HiPPO)を導入し，時間的ダイナミクスとグラフ構造を共同で符号化する。
Link: https://arxiv.org/abs/2606.04672
VISTA：視覚情報に基づいた物理検証によるUMIデータのVLA学習への適応 [cs.RO, cs.AI]目的：ロボットのVLA（Vision-Language-Action）モデル学習のためのUMI（Universal Manipulation Interface）データの適応
- ロボットの汎用的な操作スキルの学習には，大規模な実世界のデータが必要不可欠である。
- 既存のUMIデータは，事前学習済みのVLM（Vision-Language Model）との分布の不一致が生じやすい。
- 物理的に実行不可能な軌道データの存在が，VLAポリシーの性能低下を招く。
- 提案手法VISTAは，歪んだ視覚情報を考慮したVQAデータセットUMI-VQAを構築し，VLMの表現を調整する。
- 物理検証パイプラインにより，軌道データの完全性，連続性，自己衝突リスクを評価し，学習データを精選する。
- シミュレーションおよび実環境での実験により，VISTAが既存手法を大幅に上回る性能を示すことが確認された。
Link: https://arxiv.org/abs/2606.04708
分離と凝集性に基づく統一的な公平クラスタリング手法UniFair [cs.LG]目的：公平クラスタリングの統一的フレームワーク
- 意思決定支援におけるクラスタリングの重要性が増しており，公平性の確保が不可欠である。
- 既存手法は単一の公平性概念に偏りがちで，クラスタリングコストと決定境界の幾何学との相互作用が無視される。
- 分離公平性と社会公平性を同時に最適化し，グループ間の不均衡を低減することを目指す。
- UniFairは，決定境界からの距離を最大化する分離公平性と，グループ内分散の不均衡を抑制する社会公平性を統合的に最適化する。
- 分離公平性と統一k-meansの勾配法による最適化手法を開発し，オートエンコーダの潜在空間にも拡張した。
- 表形式データと画像データセットでの実験により，クラスタリング損失のわずかな増加で，UniFairがグループ間の不均衡を軽減することが示された。
Link: https://arxiv.org/abs/2606.04777
物理制約付き生成における適切な尺度：事後整合性のある偏微分方程式逆問題に対する共面積補正 [cs.LG]目的：物理制約付き生成モデルのバイアス修正と正確な事後分布の推定
- 偏微分方程式逆問題は，科学技術の様々な分野において重要な役割を担う。
- 既存の生成モデルでは，物理制約を厳密に課す際に，事後分布の歪みが生じる可能性がある。
- 共面積補正を導入することで，歪みのない正確な事後分布を推定することを目指す。
- 生成モデルが物理制約を満たす場合でも，必ずしも正確な事後分布をサンプリングしているわけではないことが示された。
- 既存手法は，共面積ヤコビアン因子を無視しており，事後誤差が膨大になることが確認された。
- 提案手法CoCoSは，共面積を考慮したサンプリングにより，金標準事後分布と同等の精度を達成する。
Link: https://arxiv.org/abs/2606.04804
ノアの方舟の知識指数 [cs.SI, cs.CY, cs.AI]目的：大規模言語モデルの知識評価における課題と改善策
- LLMの性能評価は，その能力を正確に把握し，改善に繋げる上で不可欠である。
- 既存の知識評価は，専門分野の代表性や評価の信頼性，ランキングの安定性に問題がある。
- 専門分野の代表性を担保し，質の高い評価と安定したランキングを実現することを目指す。
- 新たなベンチマークKINAを開発し，261の細分化された分野で899項目の評価を実施した。
- 代表性の評価を専門家による基準に基づいた網羅性として定義し，近似アルゴリズムを提案した。
- 評価方法として，報酬制度が質の向上に寄与すること（FOSD優越性）を理論的に証明した。
Link: https://arxiv.org/abs/2606.05104
バイナリガウスコプラ合成：慢性腎臓病における早期透析予測のためのLLMを活用したデータ拡張フレームワーク [math.CO, cs.DM, stat.AP, cs.AI, cs.LG]目的：慢性腎臓病患者の早期透析予測におけるデータ拡張
- 慢性腎臓病の進行は多様であり，早期予測は患者管理において重要である。
- 電子カルテデータの二値構造が，既存のデータ拡張手法の適用を困難にしている。
- 二値データの構造的特性に適した拡張手法を開発し，予測精度を向上させる。
- 提案手法BGCSは，既存手法と比較して，透析予測における少数クラスのリコール率において優れた性能を示した。
- BGCSは，実際のデータ分布との高い適合性を示し，信頼性の高い合成データ生成が可能である。
- BGCSを用いたモデルは，解釈可能な決定木ベースの臨床意思決定支援システムに統合され，透析リスク層別化に貢献する。
Link: https://arxiv.org/abs/2403.00965
区分線形関数の分解多面体 [math.CO, cs.DM, cs.LG, cs.NE, math.OC]目的：区分線形関数の分解に関する研究
- 最適化やニューラルネットワーク理論において，関数の分解は重要な役割を果たす。
- 区分線形関数の分解は無数に存在するが，線形部分の数を最小化することが難しい。
- 特定の多面体複体に基づき，分解の多面体構造を明らかにし，最小分解を特定する。
- 分解の集合は，二つの平行移動された円錐の共通部分として表される多面体である。
- 最小分解は多面体の境界面に相当し，頂点は最小解を表す。
- 本研究は，劣モジュール関数やニューラルネットワークの構成にも応用可能である。
Link: https://arxiv.org/abs/2410.04907
一般化された滑らかさの下での鞍点からの効率的な脱出：自己境界正則化 [math.OC, cs.LG]目的：一般化された滑らかさの下での一次最適化アルゴリズムの収束性
- 機械学習理論と実践において滑らかさの仮定は制限が強く，より緩い条件での手法が求められている。
- 滑らかさの一般化に対応した一次最適化アルゴリズムの収束性保証が不十分であった。
- 滑らかさの一般化の下での一次最適化アルゴリズムの収束性を系統的に分析し，保証を提供する。
- 提案手法により，広範な一次最適化アルゴリズムの収束性が，滑らかさの一般化の下で解析可能となった。
- 滑らかさの一般化の下での，二次オーダー定常点への一次最適化アルゴリズムの収束性が初めて保証された。
- いくつかの代表的な事例が本フレームワークに当てはまり，実用的な示唆が得られた。
Link: https://arxiv.org/abs/2503.04712
HEIST：空間トランスクリプトミクスおよびプロテオミクスデータのグラフ基盤モデル [math.AT, cs.CG, stat.OT, cs.CY, q-bio.GN, cs.LG, q-bio.CB]目的：空間トランスクリプトミクスおよびプロテオミクスデータの解析のための階層グラフ変換器基盤モデル
- 単細胞レベルでの遺伝子発現解析は，生物学的な洞察をもたらし，細胞の不均一性理解に貢献する重要な分野である。
- 既存モデルは空間情報を無視したり，細胞内の複雑な遺伝子・タンパク質プログラムを考慮しないため，微小環境への適応を捉えきれない。
- HEISTは，空間的情報を活用し，未知の遺伝子にも対応可能な汎用性の高いモデルを構築し，この問題を解決する。
- HEISTは，組織を階層グラフとしてモデル化し，空間セルグラフと遺伝子共発現ネットワークグラフを組み合わせることで，効率的な表現学習を実現した。
- HEISTは，124種類の組織，15臓器由来の2230万個の細胞で事前学習されており，空間認識型コントラスティブ学習とマスクオートエンコーディング目標を使用している。
- HEISTの埋め込み表現の解析により，既存モデルでは見過ごされていた空間的に情報化されたサブポピュレーションが明らかになり，プロテオミクスデータへの汎化性能と臨床転帰予測の精度が示された。
Link: https://arxiv.org/abs/2506.11152
交差検証におけるモデル比較の相対的な不安定性 [stat.ML, cs.LG]目的：交差検証によるモデル比較の妥当性検証
- 機械学習モデルの選択において，性能評価は重要であり，交差検証はその標準的な手法である。
- 交差検証の結果は，モデル比較の安定性に大きく依存するが，その不安定性が問題となる場合がある。
- 交差検証を用いたモデル比較における不安定性の原因を特定し，その影響を評価する。
- Lasso回帰やソフト閾値処理などのシンプルなモデルでも，交差検証において相対的に不安定な比較結果が生じることが示された。
- 個々のモデルが安定していても，モデル比較自体は不安定となり，交差検証による推論の妥当性が損なわれる可能性がある。
- 交差検証を用いてモデル比較を行う際には，事前に相対的な安定性を検証することが重要である。
Link: https://arxiv.org/abs/2508.04409
ニューラル暗黙的コントラスト源表現を用いたフルデータ・フェーズレスデータ反転の微分可能フレームワーク [physics.comp-ph, cs.CE, cs.LG]目的：ニューラル暗黙的表現に基づくコントラスト源反転の完全微分可能な，教師なしフレームワーク
- 地球物理探査において，地下構造の正確な把握は資源探査や防災に不可欠である。
- 従来のコントラスト源反転は，計算コストが高く，ノイズに弱いという課題があった。
- 本研究は，微分可能なフレームワークによって，より高精度でロバストな反転手法を実現する。
- 提案手法は，様々なノイズレベルと測定設定において，従来のCSIよりも高い再構成精度とロバスト性を示した。
- ニューラル暗黙的表現により，学習グリッドよりも細かい解像度での超解像推論が可能となり，反転コストと再構成精度を分離した。
- コントラスト源のパラメータ化とVIEベースの定式化が，観測された改善に不可欠であることが確認された。
Link: https://arxiv.org/abs/2508.10555
注意は本当に必要か？：事前学習済みRNNの疎な注意とグローバル注意モデルにおける資産価格決定の実証研究 [q-fin.PR, cs.LG, econ.EM, q-fin.CP]目的：事前学習済みRNN注意モデルを用いた資産価格決定の実証研究
- 資産価格決定において，時間依存性の把握が重要であり，従来の機械学習モデルではその限界があった。
- 高度な注意モデルでは，将来のデータ漏洩の問題が無視されている場合がある。
- 資産価格データの時間的疎性を考慮し，過学習のリスクを軽減した注意モデルを提案する。
- グローバル自己注意モデルとスライディングウィンドウ疎注意モデルは，バリューウェイトポートフォリオのバックテストにおいて，絶対収益の獲得と下落リスクのヘッジに優れた能力を示した。
- COVID-19期間における静的取引コストのシナリオで，それぞれ2.0と1.80の年換算ソルティノレシオを達成した。
- スライディングウィンドウ疎注意モデルは，株式の時価総額に関して，グローバル自己注意モデルよりも安定した絶対ポートフォリオ収益を示した。
Link: https://arxiv.org/abs/2508.19006
多重スケール科学データのためのスケール適応生成フロー [stat.ML, cs.LG, cs.NA, math.NA, math.PR]目的：多重スケール科学データの生成モデリング
- 科学シミュレーションの精度向上は，工学や自然科学の発展に不可欠である。
- 従来の生成モデルは，多重スケールデータに対して数値的な課題を抱え，微細なスケールで誤差が大きくなる。
- 生成モデルの安定性と計算効率を向上させ，高精度なサンプル生成を可能にすること。
- ノイズ分布と補間スケジュールを適切に設計することで，生成モデルの数値的安定性を確保できる。
- ターゲット分布のフーリエスペクトル減衰に合わせてノイズを調整することで，計算効率が向上することが示された。
- 複雑な非ガウス分布に対しては，スケール適応補間スケジュールが，終端時の硬直性を緩和し，生成精度を向上させる。
Link: https://arxiv.org/abs/2509.02971
汎用合成データ駆動型推論 [stat.ME, cs.LG, stat.ML]目的：統計的推論におけるサンプル効率の向上
- データ不足の課題解決に，AIによる合成データ活用が重要視されている。
- 合成データの品質が低い場合，誤った推論結果を生む可能性がある。
- 合成データと実データを安全に組み合わせ，推論の信頼性を高める。
- 提案手法GESPIは，合成データの品質に応じて実データのみを利用する柔軟性を持つ。
- ユーザーが指定したエラー率以下に抑えられ，合成データ品質向上に伴い誤差が減少する。
- AlphaFoldや複雑な数学問題の推論において，データ効率の改善が確認された。
Link: https://arxiv.org/abs/2509.20345
大気機械学習モデルの均一な海面水温上昇に対する平衡応答 [physics.ao-ph, cs.LG]目的：大気機械学習モデルの気候変動応答の評価
- 地球温暖化予測において，高精度な気候モデルが不可欠である。
- 機械学習モデルの訓練データ外への汎化性能が課題となっている。
- 機械学習モデルの物理的な整合性を検証し，改善点を見出す。
- 機械学習モデルは，物理モデルの応答の主要な側面，特に降水の応答を再現できた。
- しかし，放射応答や陸域温暖化など，物理的に安定した応答から逸脱する事例も確認された。
- 本研究は，気候変動研究における機械学習モデルの可能性と限界を示唆している。
Link: https://arxiv.org/abs/2510.02415
深層等変ネットワークの普遍性について [stat.ML, cs.LG]目的：等変ネットワークの普遍性
- 機械学習において，対称性を考慮したモデルの重要性が高まっている。等変ネットワークは，そのための強力なツールである。
- 等変ネットワークの普遍性に関する研究は少なく，既存の結果は限定的な状況下でのみ成立する。
- 分離制約やエントリーワイズ分離可能性といったより厳密な条件のもとで，等変ネットワークの普遍性を明らかにすること。
- 不変ネットワークにおいては，分離制約下で全結合読み出し層を追加することで，分離制約付き連続関数の近似が保証される。
- 等変ネットワークでは，標準的な分離可能性の概念が不十分であり，より強い「エントリーワイズ分離可能性」の基準を導入した。
- 十分な深さや適切な読み出し層を持つ等変ネットワークは，エントリーワイズ分離可能な範囲で普遍性を達成する。
Link: https://arxiv.org/abs/2510.15814
回転パラメータ化グラフ分数フーリエ変換：定義，特性，および最適フィルタリング [stat.ML, cs.LG, math.SP]目的：グラフ構造データの柔軟なスペクトル分析
- グラフ構造データ解析の厳密な理論的枠組みを提供し，様々な応用分野で重要性が増している。
- 既存のグラフ分数フーリエ変換は回転制御が不十分，また角度が0度の際に理論的な一貫性が損なわれる問題がある。
- 分数次数と回転パラメータを統合し，理論的な一貫性を保ちつつ，より高度なスペクトル分析を実現すること。
- 提案手法（RP-GFRFT）は，単位性，可逆性，およびパラメータ依存性の滑らかさを理論的に保証する。
- 分数次数と回転角を共同最適化することで，適応的なグラフスペクトルフィルタリングが可能となる。
- 実データ実験により，RP-GFRFTが従来のグラフ変換よりもノイズ除去，再構成，特徴保存性能で優れることが示された。
Link: https://arxiv.org/abs/2511.16111
正解データなしの大規模言語モデル評価のための裁判官認識ランキングフレームワーク [stat.ML, cs.LG]目的：大規模言語モデルの評価のための裁判官認識ランキング手法
- 大規模言語モデルの性能評価は重要であり，その精度向上は応用範囲拡大に不可欠である。
- LLMを評価する際に，各LLMの信頼性のばらつきが考慮されておらず，評価結果に偏りが生じる可能性がある。
- 裁判官LLMの信頼性を考慮したランキングフレームワークにより，より正確な評価と不確実性の定量化を目指す。
- 提案手法は，Bradley-Terry-Luceモデルを拡張し，裁判官固有の識別パラメータを導入することで，LLMの潜在的な品質と裁判官の信頼性を推定する。
- 複数ベンチマークと新収集データセットにおいて，提案手法は人間の選好との一致度を向上させ，非重み付けベースラインよりもデータ効率が良いことが示された。
- LLMランキングに対する不確実性の定量化もキャリブレーションされていることが確認された。
Link: https://arxiv.org/abs/2601.21817
ゼロフローエンコーダ [stat.ML, cs.LG]目的：表現学習のためのフレームワーク
- 生成モデリングにおいて，フローベース手法は複雑なデータ分布の詳細を捉える点で成功を収めている。
- 既存研究では，生成以外のタスクにおける構造の詳細な解析への応用が少ない。
- この研究は，データから十分な情報を抽出するための基準を提示し，表現学習を可能にすることを目指す。
- 修正されたフローは，$t=0.5$においてソース分布とターゲット分布が同一である場合に限りゼロとなる「ゼロフロー基準」を確立した。
- この基準を用いて条件付き独立性を検証し，データの情報を抽出できることを示した。
- ゼロフロー基準をシミュレーション不要の損失関数に変換し，確率モデルや自己教師あり学習におけるマルコフ被覆の学習を可能にした。
Link: https://arxiv.org/abs/2602.00797
滑らかなクエリに対するミニマックス最適差分プライバシー合成データ [math.ST, cs.IT, cs.LG, math.IT, stat.ML, stat.TH]目的：滑らかなクエリに対する差分プライバシー合成データの生成
- 個人情報保護とデータ活用は相反する課題であり，両立が求められている。
- 既存手法は汎用性を重視するあまり，実用的な統計量の精度が不十分な場合がある。
- クエリの滑らかさという追加構造を活用し，合成データの精度向上を目指す。
- 提案手法は，次数$k$までの導関数を持つ滑らかなクエリに対して，ミニマックス誤差率$O_{k,d}(n^{-\min \{1, \frac{k}{d}\}})$を達成する。
- この結果は，$k=d$における相転移を明らかにし，Chebyshevモーメントマッチングフレームワークを一般化する。
- また，滑らかなクエリに対する差分プライバシー合成データの有用性の初のミニマックス下限を確立した。
Link: https://arxiv.org/abs/2602.01607
高強度荷電粒子ビームにおけるビーム-プラズマ集団振動：誘電応答理論，ラングミュール波分散，およびプロメテウスによる教師なし検出 [physics.plasm-ph, cond-mat.stat-mech, cs.LG, physics.acc-ph]目的：高エネルギー（10-100 MeV）におけるビーム-プラズマ集団振動の理論的・計算的フレームワーク
- 高強度ビーム物性は，加速器やプラズマ物理など，幅広い分野に応用が期待される重要な研究領域である。
- ビーム中の集団振動のメカニズムや特性は複雑であり，正確な理論的予測と検証が困難であった。
- ビーム-プラズマ系の集団振動の性質を理論的に解明し，実験的検証を可能にする新たな手法を開発する。
- ビーム密度が臨界密度を超えると，減衰しないラングミュール波モードの存在が，誘電関数を通じて確認された。
- Prometheus（β-VAE）を用いて，静的構造因子データから集団プラズマ振動の開始を検出し，PICシミュレーション結果と一致した。
- プラズマ周波数Ω_p^2は分布形状に依存せず，f-sum ruleによって決定されることが示された。
Link: https://arxiv.org/abs/2603.10457
平均を超えて：持続ホモロジー無視可能性下のトポロジー的因果効果 [stat.ME, cs.AI]目的：トポロジー的因果効果の推定
- 因果推論は政策評価や意思決定において不可欠であり，より正確な効果測定が求められている。
- 従来の平均因果効果は分布形状の変化を捉えきれず，重要な効果を見逃す可能性がある。
- 持続ホモロジーを用いて，分布形状の変化を捉える新たな因果効果の推定法を開発する。
- 本研究では，持続ホモロジー無視可能性条件を導入し，トポロジー的因果効果を定義した。
- 近似的なトポロジー的無視可能性の下で，これらの推定量の識別可能性が証明された。
- 平均を保存するトポロジー変化のシミュレーション実験で，提案手法の有効性が示された。
Link: https://arxiv.org/abs/2603.14169
ベッティングによる多腕逐次仮説検定 [eess.AS, cs.CL, stat.ME, cs.LG, math.ST, stat.TH]目的：多腕逐次仮説検定における最適性
- 医薬品開発など，複数選択肢の中から最適なものを効率的に見つける必要性が高い。
- 従来の逐次検定法では，最適な腕の情報が事前に分からない場合に性能が低下する問題があった。
- 最適な腕の情報がなくても，理論的な限界に近い性能を実現する逐次検定法を開発する。
- 複数の腕が存在する場合でも，最も証拠となる腕を知っているかのような性能を持つe-プロセスと逐次検定法の最適性を示す上界と下界を導出した。
- 観測できない報酬に対する，最適な富の増加率を保証する集中不等式を導出した。これは独立した興味を持つ結果である。
- 修正された上限信頼区間のようなアルゴリズムを開発し，未知の報酬が十分に推定可能であることを示した。
Link: https://arxiv.org/abs/2603.17925
コルモゴロフ・アルノルド・ネットワークによる非線形因子分解：資産収益率分析へのスペクトル的アプローチ [q-fin.ST, cs.LG]目的：資産収益率分析における非線形因子分解手法
- 金融市場において，資産間の共変動を捉えることはリスク管理やポートフォリオ最適化に不可欠である。
- 伝統的な主成分分析（PCA）は線形性を仮定するため，市場の急変時にはその性能が低下する可能性がある。
- 非線形な手法を用いることで，市場の状況変化に適応し，より高い分散説明力と予測精度を目指す。
- 提案手法KAN-PCAは，従来のPCAよりも高い再構築R^2値（66.57% vs 62.99%）を達成した。
- KAN-PCAは，スプライン活性化関数を線形に制限した場合，従来のPCAと同一の結果となることが証明された。
- 適切なデータ漏洩対策を行うことで，KAN-PCAはPCAと同等のサンプル外性能を示すことが確認された。
Link: https://arxiv.org/abs/2603.28257
シーケンシャルマルチオブジェクト伝送トポロジー計画のための正確法と進化アルゴリズム [math.OC, cs.NE, cs.SY, eess.SY]目的：高電圧送電網のN-1セキュリティ制約下における，翌日伝送トポロジー制御の最適化
- 電力系統の安定運用は重要であり，特に送電線の過負荷は深刻な問題となるため，トポロジー制御が不可欠である。
- 既存手法では，時間的制約と複数の目的関数を同時に考慮した最適なトポロジー計画の探索が困難であった。
- 本研究は，送電線過負荷の緩和，スイッチング操作の抑制，トポロジーの複雑性低減を両立するトポロジー計画を効率的に探索する。
- 提案手法であるブロックアルゴリズムは，実データを用いた解析において，3分以内に正確なパレート最適解を算出することに成功した。
- このパレート最適解は，既存の進化アルゴリズムでは発見できなかった低スイッチングかつ過負荷のない計画を示した。
- 本手法は，送電系統運用者への意思決定支援ツールとして，また，ヒューリスティック手法のベンチマークとして活用可能である。
Link: https://arxiv.org/abs/2605.03753
証明理論的意味論を通じた情報に関する推論主義的考察 [math.LO, cs.AI]目的：情報に関する推論主義的意味論の理論構築に向けた第一歩
- 現代社会において情報は不可欠であり，その論理的・数学的基盤の確立が急務である。
- 既存の情報理論は，厳密な論理的・数学的基盤に乏しく，複雑なシステム理解のための道具が不足している。
- 推論と根拠に基づいた情報概念を構築し，情報処理システムの組織理解に貢献することを目指す。
- 概念分析において，真理を推論可能性に置き換えることで，情報の意図性，伝達性に関する新たな視点を提供する。
- 証明理論的意味論(P-tS)を用いて，情報の最小単位である「推論子(inferon)」の数学的・論理的理論の構築を試みる。
- P-tSのツールは，分散システムのモデリングにおける数学的記述を可能にし，情報フローの推論に基づく理論を構築する基盤となる。
Link: https://arxiv.org/abs/2605.05368
コセット誘導条件付き速度フローマッチング [eess.SP, cs.CY, stat.ML, cs.LG]目的：階層的整流フローにデータに基づいたソース分布を付加する生成モデル
- 生成モデルは，複雑なデータの分布を学習し，新たなデータを生成する上で重要である。
- 既存のフローマッチングモデルは，ノイズからデータへの変換を学習する際に計算コストが高いという課題がある。
- ターゲットデータのコセットを用いて効率的な学習を実現し，計算コストを削減することを目指す。
- 提案手法は，ターゲットデータのコセットから構築された閉形式の代替ソースを用いて学習することで，従来のモデルと比較して同等の生成性能を達成した。
- 代替ソースを用いることで，学習に必要な計算量を大幅に削減し，特に高次元データにおいて有効であることが示された。
- 理論的な解析により，代替輸送コストとターゲット・代替ワッサーシュタインギャップの関係が明確にされた。
Link: https://arxiv.org/abs/2605.12951