arXiv雑要約
AI - 2026/05/04 公開
サイズ依存独立性オラクルにおけるマトロイドアルゴリズム [cs.CL, cs.DS, cs.LG]目的:サイズ依存独立性オラクルモデル下でのマトロイドアルゴリズムの性能評価
- マトロイド最適化は組合せ最適化の枠組みであり,様々な問題に応用可能である。
- 既存のオラクルモデルは独立性判定に定数がかかると仮定しており,現実的ではない。
- サイズ依存コストモデルを導入し,より現実的な計算コストでの性能評価を目指す。
- サイズ依存独立性オラクルモデル下で,マトロイドの基底探索,ランク近似,分割サイズ近似に関するアルゴリズムの上界と下界を確立した。
- これらのタスクにおける最適なクエリコストは,マトロイドのサイズに対して二次関数的に増加する。
- 最大回路サイズが$c$であるマトロイドに対しては,二次的な障壁を打ち破り,期待されるクエリコスト$\mathcal{O}(n^{2-1/c} \log n)$で最大重み基底を計算するアルゴリズムを提示した。
状態ストリーム変換器 (SST) V2:潜在空間推論のための非線形再帰の並列学習 [cs.LG, cs.CL]目的:非線形再帰による潜在空間推論の効率化
- Transformerモデルの性能向上は,自然言語処理の様々なタスクにおいて重要な課題である。
- 従来のTransformerは潜在的な推論能力を十分に活用できていないという問題がある。
- 潜在空間における非線形再帰を活用し,推論能力を向上させることを目指す。
- SST V2は,潜在状態を水平にストリーム化することで,連続的な潜在空間における効率的な推論を実現した。
- 学習時に再帰の逐次依存性を解決する並列学習手順を開発し,計算効率の良い学習を可能にした。
- GSM8KとGPQA-Diamondのデータセットで,既存モデルと比較して大幅な性能向上を達成した。
モバイル本人確認におけるディープフェイクと注入攻撃対策としての自撮り動作の活用 [cs.DC, eess.SY, cs.SY, cs.CR, cs.ET, cs.LG]目的:モバイル本人確認システムの偽造検出およびユーザー認証における自撮り時の動作情報の有効性評価
- モバイル本人確認は利便性が高い一方,セキュリティ上の脆弱性が課題となっている。
- 既存のカメラベースの偽造検出技術だけでは,巧妙化する攻撃に対抗しきれない。
- 自撮り時の動作情報という新たな情報を活用し,本人確認の精度と安全性を向上させる。
- 自撮り時の加速度センサーデータを用いることで,静止型攻撃を高い精度で検知できることが示された。
- 複数の時系列分類器および異常検知器を用いた評価で,自撮り動作が偽造検出とユーザー認証に有効であることが確認された。
- 加速度センサーデータは重力や向きの情報を含んでおり,最も有用なモダリティであることが示唆された。
CompleteRXN:未完の化学反応データベースの完成に向けて [cs.LG, physics.chem-ph]目的:化学反応の補完
- 化学反応データの網羅性は,創薬や物質開発において不可欠であり,その重要性は増している。
- 既存の化学反応データベースは,副生成物や反応係数の欠如など,不完全な情報が多いという課題がある。
- 本研究は,不完全な化学反応データを補完し,より信頼性の高いデータベース構築を目指す。
- CompleteRXNベンチマークにおいて,CRBは高い性能を示し,特に厳しい条件での同等性精度は91.12%に達した。
- SynRBLも妥当な補完結果を生成するが,ベンチマークテストにおける精度はCRBに劣る。
- 不完全な反応データが増えるほど,全てのモデルの性能は低下し,実用的な頑健性に課題が残る。
TUR-DPO:トポロジーと不確実性を考慮した直接選好最適化 [cs.AI]目的:大規模言語モデルと人間の選好の整合
- 言語モデルの性能向上には,人間による評価との整合が不可欠である。
- 従来のDPOは,選好を単純な勝敗信号として扱い,ノイズに弱いという課題があった。
- 回答の導出過程に着目し,不確実性を考慮することで,よりロバストな選好最適化を目指す。
- TUR-DPOは,数学的推論,質疑応答,要約,対話など,多様なベンチマークにおいてDPOを上回る性能を示した。
- 特に,推論能力を必要とするタスクでは,PPOと同等以上の性能を維持しつつ,運用上の簡便性を実現している。
- マルチモーダルや長文脈設定においても一貫した改善が見られ,モデルの信頼性向上に貢献する。
LLMが戦略的プレイで苦戦する理由:観察,信念,行動の間の断絶 [cs.CL, cs.AI, cs.GT]目的:不完全情報下におけるLLMの戦略的意思決定における課題の解明
- 交渉や政策立案など,不完全情報下での意思決定は重要であり,LLMの応用範囲を広げる。
- LLMは戦略的タスクで失敗することがあり,その原因が十分に理解されていない。
- LLMの内部メカニズムを分析し,戦略的ドメインでの脆弱性を明らかにすること。
- LLMは内部的な信念と発言としての報告にずれがあり,信念の精度は推論ステップ数が増えるにつれて低下する。
- LLMは内部信念を実際の行動に変換する能力が,プロンプトに表現された信念よりも弱いことが示された。
- LLMの内部プロセス分析は,戦略的ドメインへの導入における注意喚起を促す。
注意は攻撃箇所である [cs.CR, cs.AI]目的:大規模言語モデルにおける安全性確保メカニズムの解明
- 大規模言語モデルの安全性が重要視される中,その内部メカニズムは未だ解明されていない。
- 従来の安全性対策は,有害な要求を拒否するものの,その根本的な脆弱性を突かれる可能性がある。
- Attention Redistribution Attack (ARA)を用いて,安全性に関わるAttention headの特定と制御を試みる。
- ARAは,わずか5トークンと500ステップの最適化で安全対策を回避し,Mistral-7Bで36%,LLaMA-3で30%の攻撃成功率を達成した。
- Attention headを削除するだけでは効果が限定的である一方,ARAによるAttentionの再分配は高い効果を発揮することが示された。
- 安全性は特定のheadに局在するのではなく,Attentionのルーティングによって生じている可能性が示唆された。
線形時間でのベイズ最適化 [cs.LG]目的:ベイズ最適化手法の効率化
- 高コストな関数の最適化は,機械学習や工学など広範な分野で重要である。
- 従来のベイズ最適化は,計算量がデータ数に対して3乗で増加し,高次元問題に不向きである。
- 探索空間の再帰的な分割により,計算コストを線形に抑え,最適化性能を向上させる。
- 提案手法は,従来のベイズ最適化ライブラリと比較して,7つのテスト関数で優れた最適化性能を示した。
- 提案手法の計算量は線形であり,高次元問題への適用が可能である。
- 柔軟な探索空間分割とモデル化により,従来のベイズ最適化の課題を克服した。
MAEPose: mmWaveビデオにおける人間の姿勢推定のための自己教師型時空間学習 [cs.CL, cs.HC, cs.CV, cs.AI]目的:mmWaveビデオを用いた人間の姿勢推定のための自己教師型時空間表現の学習
- プライバシー保護が重要視される中,RGBカメラに代わる姿勢推定技術の需要が高まっている。
- 既存手法は,中間表現に依存し,レーダービデオ本来の時空間情報を活用できていない。
- ラベルなしレーダービデオから汎化された表現を学習し,姿勢推定の精度向上を目指す。
- MAEPoseは,自己エンコーディングを用いてmmWaveスペクトログラムビデオから時空間表現を学習する。
- 実験の結果,MPJPEにおいて最先端手法を最大22.1%上回り,統計的有意差が確認された。
- 未知の人物による干渉下でも高い精度を維持し,汎化性能の高さが示された。
ARMOR 2025:軍事利用を想定した大規模言語モデルの安全性評価ベンチマーク [cs.AI]目的:大規模言語モデルの軍事利用における安全性
- 軍事における意思決定支援は,作戦の効率化や連携強化に繋がる重要な要素である。
- 既存の安全性評価は一般的な社会リスクに偏っており,軍事作戦における法規・倫理遵守の検証が不足している。
- 軍事ドクトリンに基づき,大規模言語モデルの法規制・倫理遵守を評価するベンチマークを構築し,安全性を検証する。
- ARMOR 2025は,国際法,交戦規則,倫理規定の3つの軍事ドクトリンに基づいた安全性ベンチマークである。
- 観察・判断・決定・行動(OODA)ループに基づいた分類体系を用いて,12のカテゴリー,519の質問で構成されている。
- 21の商用LLMを評価した結果,軍事利用における安全性調整の重要な課題が明らかになった。
集団的能動性の因果的基盤 [cs.NI, quant-ph, cs.AI, cs.GT, cs.MA]目的:集団的能動性の判断基準
- 高度なAIシステムの安全性確保において,複数の単純なエージェントが意図せず集団的エージェントを形成する可能性が重要視される。
- 生物学的・人工的なシステムにおける相互作用とインセンティブの分析において,いつ複数のエージェントを統一された集団とみなせるかの判断が難しい。
- 集団の行動を合理的に予測できる場合に集団的能動性を認め,その判断基準を因果モデルを用いて明確化することを試みる。
- 因果ゲームと因果的抽象化を用いることで,多エージェント間のインセンティブ構造を分析し,集団的能動性の程度を定量的に評価した。
- アクター・クリティックモデルにおける多エージェント間のインセンティブに関する問題を解決し,投票メカニズムの集団的能動性を比較検討した。
- 本研究は,多エージェントAIシステムにおける創発的な集団的エージェントの理解,予測,制御のための理論的・実証的基盤を提供する。
状態空間での迷走:Frozen Mamba表現の探求 [cs.CL, cs.LG]目的:Frozen Mamba表現からの文表現抽出戦略の比較と解析
- 言語モデルの性能向上は,自然言語処理の様々なタスクにおいて不可欠である。
- 従来の言語モデルでは,文脈情報を効果的に圧縮し,高品質な文表現を得ることが課題であった。
- Mambaの内部状態を利用することで,追加学習なしに文表現を抽出できる可能性を検証する。
- Mambaの固定境界における出力は,必ずしも単純な平均プーリングよりも優れた性能を示さなかった。
- Mambaの内部状態には,強い異方性と表現の崩壊という構造的な問題が確認された。
- 新たな再帰構造であるorthogonal injectionが,情報伝達の制約を強化し,表現の改善に貢献する可能性がある。
費用対効果の高い Mixture-of-Experts LLM 運用におけるネットワークトポロジーの再検討 [cs.NI, cs.AI]目的:MoE LLM 運用におけるネットワークコスト効率の分析と最適化
- LLMの規模拡大に伴い,ネットワーク通信が運用コストに大きな影響を及ぼす。
- 高価な高性能ネットワークに多大な投資が行われているが,その必要性が検証されていない。
- MoE LLM運用において,よりコスト効率の良いネットワークトポロジーを模索する。
- 大規模言語モデル (LLM) の Mixture-of-Experts (MoE) アーキテクチャにおいて,従来のscale-upネットワークよりも低コストなネットワークトポロジーが費用対効果に優れることが示された。
- 特に,3D full-mesh トポロジーは性能とコストのトレードオフにおいて最適解となる。
- 現在のscale-upネットワークのリンク帯域幅は過剰にプロビジョニングされており,帯域幅を削減することでコストあたりのスループットを向上させることが可能である。
リモートSAMシング:セグメンテーション全般へ [cs.CV, cs.AI]目的:大規模リモートセンシング画像におけるセグメンテーションの品質と網羅性の向上
- リモートセンシング技術は,地球観測や環境モニタリングに不可欠であり,高精度な画像解析が求められている。
- 既存のセグメンテーション手法では,大規模画像への適用時に品質と網羅性の両立が困難であった。
- 本研究は,セグメンテーションモデルSAM2の性能を最大限に引き出し,リモートセンシング画像の解析精度向上を目指す。
- 提案手法「Remote SAMsing」により,セグメンテーションの網羅率が30~68%から91~98%に大幅に向上した。
- 建物や自動車などの離散的な地上目標物に対して,既存手法と比較して3~8倍高精度なセグメンテーション境界を達成した。
- タイルサイズの調整により,検出精度が向上し,SAM2のマルチスケール機能をも凌駕する性能を示した。
会計士試験における検索拡張推論 [cs.CL, cs.AI, cs.IR]目的:会計士試験における推論能力の向上
- 金融分野へのAI導入が加速する中,専門知識と法的規制が求められる会計士試験への応用が重要である。
- LLMは複雑な計算や法的解釈に課題があり,リソースの限られた環境での運用が困難である。
- パラメータ効率の良いRAGフレームワークを用いて,会計士試験の複雑な問題に対応することを目指す。
- CA-ThinkFlowは,14Bパラメータの軽量なLLMとDoclingを用いた文書構造保持システムにより,高い性能を実現した。
- CA-Benベンチマークにおいて,GPT-4oやClaude 3.5 Sonnetに匹敵するSRC結果(68.75%)を達成した。
- パラメータ効率は高いものの,税務などの複雑な規制文書の処理には依然として課題が残る。
NLPOpt-Net:制約保証付き非線形最適化のための学習手法 [cs.LG]目的:非線形計画問題のパラメトリック解写像の学習
- 最適化問題は,工学,経済,科学など広範な分野で不可欠な役割を果たす。
- 従来の最適化手法は,大規模問題や複雑な制約条件に対して計算コストが高い場合がある。
- 機械学習を用いて,効率的かつロバストな最適化手法を開発し,問題を解決すること。
- NLPOpt-Netは,制約を満たしながら最適解に収束する学習アーキテクチャを提案している。
- この手法は,大規模な凸QP,QCQP,NLP,非凸問題に対し,高い精度と効率を示す。
- 特に,C言語での実装により,推論時間を大幅に改善している。
KL正則化による総和ゲームにおける悲観主義なしオフライン学習 [cs.RO, cs.LG, cs.GT]目的:総和ゲームにおけるオフライン学習の安定化と均衡回復
- マルチエージェント強化学習は,複雑な協調行動を学習可能にするため,重要性が増している。
- オフライン学習では,ログデータと目標均衡ポリシーの分布のずれが学習の課題となる。
- KL正則化のみで学習を安定化させ,悲観主義的なペナルティなしに均衡を回復することを目指す。
- 提案手法GANEは,加速された統計的レート$\widetilde{O}(1/n)$で正則化されたナッシュ均衡を回復する。
- 計算効率を高めるため,Coarse Correlated Equilibriumに標準レート$\widetilde{O}(1/\sqrt{n}+1/T)$で収束するGAMDを開発した。
- KL正則化は,総和ゲームにおける悲観主義なしオフライン学習の単独メカニズムとして有効であることが示された。
Polaris:階層的概念学習のための結合された軌道極埋め込み [cs.LG]目的:階層構造の表現学習
- 現実世界の知識は階層的に組織されていることが多く,その表現学習は重要である。
- 非対称構造やノイズのある意味情報により,階層的表現の学習は困難である。
- 角度幾何学と半径を用いて意味と構造を分離し,学習を可能とする。
- Polarisは,球面線形層を用いて単位ノルム表現を学習する。
- 頑健な局所制約,幾何学的崩壊を防ぐ大域的正則化,および方向性包含を促す不確実性対応型非対称目的関数を組み合わせている。
- 評価の結果,上位K件検索で最大約19ポイント,平均ランクで最大約60%の改善が確認された。
脱獄された最先端モデルは能力を維持する [cs.LG, cs.AI, cs.CR]目的:最先端モデルに対する脱獄攻撃の影響の評価
- 大規模言語モデルの安全性が重要視される中で,悪意のある攻撃からモデルを保護する必要がある。
- 従来の脱獄手法は,モデルの性能低下を招く「脱獄税」が発生するという課題があった。
- 本研究は,最先端モデルにおける脱獄攻撃がもたらす性能低下の程度を定量的に明らかにすることを目指す。
- モデルの能力が高いほど,「脱獄税」の影響は小さくなることが示された。
- 特に高度な脱獄手法を用いた場合,最先端モデルの能力低下はほぼ見られなかった。
- 推論能力を要するタスクは,知識想起タスクに比べて性能劣化が大きかった。
言語モデルにおける分布外入力の処理:二経路フレームワーク [cs.CL, cs.LG]目的:分布外入力に対する言語モデルの処理メカニズムの解明
- 大規模言語モデルの安全性と信頼性は重要であり,分布外入力への対応能力が不可欠である。
- 既存の分布外入力検出手法は,入力シーケンス長に依存する問題があり,その評価が不確実である。
- 入力シーケンス長の依存性を除去し,言語モデルの真の分布外入力検出能力を評価すること。
- 言語モデルの処理は,テキストの内容を捉える埋め込みと,層を通過する際の隠れ状態の変化という二つの経路に分けられる。
- 語彙の透明性に応じて,埋め込みベースの手法と処理経路ベースの手法で検出性能が異なる。
- 隠れ状態の変化は,語彙が類似する巧妙な攻撃を検出する上で有効であり,高い識別性能を示した。
君は「悪いやつ」か?公平な多角的倫理推論フレームワーク [cs.CL, cs.AI, cs.CY, cs.HC]目的:倫理的判断の集約方法
- 社会問題や倫理的ジレンマの解決には,多角的な視点からの公平な判断が不可欠である。
- 自然言語による判断の集約は,意見の対立をノイズとみなし,論理的に整合性のない結果を生む場合がある。
- 対立する意見を考慮しつつ,論理的な整合性を保ちながら倫理的判断を集約することを目指す。
- 本研究では,重み付き最大充足可能性(MaxSAT)を用いて対立解決を形式化する神経記号集約フレームワークを提案する。
- 言語モデルを用いて自然言語の説明を解釈可能な論理述語と信頼度重みに変換し,Z3ソルバーに組み込むことで,矛盾する証言全体の一貫性を最大化する。
- Redditのr/AmItheAssholeフォーラムを用いた実験では,人気に基づくラベルと62%の確率で異なる論理的に一貫性のある結果が得られ,独立した人間の評価者との合意率は86%であった。
REALM:RGBとイベントデータを整列させた潜在多様体によるクロスモーダル知覚 [cs.CV, cs.AI, cs.RO]目的:RGBとイベントデータの潜在多様体の整列
- 従来のカメラでは難しい高速・低遅延な画像取得が可能であり,多様な環境下で活用が期待されている。
- イベントカメラの学習は特定のタスクに限定され,異なる種類のデータへの汎化が困難である。
- RGBモデルの知識を活用し,イベントデータの汎化性能を高めることを目指す。
- REALMはイベント表現をRGBモデルの潜在空間に投影することで,クロスモーダルな学習を実現した。
- RGBモデルの知識を転移することで,イベントデータに対する高性能なタスク(深度推定,セマンティックセグメンテーション)を実現した。
- 学習済み画像デコーダをイベントデータに直接適用することで,最先端の性能を達成した。
拡散モデルはいつ複数のオブジェクトを生成することを学習するか [cs.CV, cs.AI]目的:複数オブジェクト生成における拡散モデルの学習状況
- 画像生成技術は,現実世界の表現や新たなコンテンツ創造に不可欠である。
- 拡散モデルは高品質な画像を生成するが,複数オブジェクトの生成には課題が残る。
- 複数オブジェクト生成の限界をデータに着目して分析し,改善策の方向性を示す。
- 拡散モデルの複数オブジェクト生成の難しさは,概念の不均衡よりもシーンの複雑さに起因することが示された。
- 特に,オブジェクトの数え間違いは,データ量が少ない場合に顕著に問題となることが明らかになった。
- 概念の組み合わせの一般化は,学習データからの除外が増えるにつれて低下することが確認された。
旅行計画最適化のためのエージェントAI [cs.HC, cs.AI]目的:旅行計画最適化システムの研究
- 自動運転車の普及に伴い,効率的な旅行計画が重要視されている。
- 既存システムは実現可能性に重点を置いており,最適化性能の客観評価が困難である。
- 最適解を提供するデータセットとエージェントAIフレームワークで,最適化性能を向上させる。
- 提案システムはTOPベンチマークにおいて77.4%の精度を達成し,既存手法を大きく上回った。
- オーケストレーションされたエージェント推論が,堅牢な旅行計画最適化に不可欠であることが示された。
- 動的な計画改善を可能にするエージェントAIフレームワークの有効性が確認された。
インテリジェント交通システムにおける侵入検知のための機械学習モデルの比較分析 [cs.CR, cs.LG]目的:インテリジェント交通システムにおける侵入検知のための機械学習モデルの比較
- 交通システムは接続性が増しており,セキュリティの重要性が高まっている。
- エッジノードの分散化,異質性,リソース制約により,サイバー攻撃の対象領域が拡大している。
- エッジコンピューティング環境下での侵入検知の精度と効率の向上を目指す。
- 提案手法では,ランダムフォレスト,決定木,線形SVMを組み合わせた連合学習フレームワークを採用している。
- 各エッジサイトで学習されたモデル更新は,サーバーによって信頼度を考慮して集約される。
- このアプローチにより,低遅延かつ効率的な侵入検知が可能となることが期待される。
分散型確率的最適化における勾配追跡を用いた高確率収束 [cs.HC, cs.LG, cs.MA, math.OC]目的:分散型確率的最適化における高確率収束保証
- 機械学習の分散化は,大規模データセットに対する学習を効率化し,スケーラビリティを高める上で重要である。
- 既存の高確率収束解析は,強い仮定を必要とし,実用的なシナリオへの適用が限定される場合がある。
- バイアス補正技術を組み込んだ分散型最適化手法の高確率収束を保証し,理論と実践のギャップを埋めることを目指す。
- 勾配追跡技術を組み込んだDSGD (GT-DSGD) が,非凸関数およびポリアク-ロジャスビッチ関数の両方に対して,最適な高確率収束率を達成することを示した。
- GT-DSGD は,MSE収束解析における条件と同様の条件の下で高確率収束を達成し,同程度の過渡時間を実現する。
- バイアス補正技術の組み込みは,高確率収束においても有効であることが,数値実験によって確認された。
ディラック・フレンケル・オンサーガー原理:ゲージ運動量を用いた非線形偏微分方程式解の瞬間残留最小化 [cs.LG, cs.NA, math.NA, stat.ML]目的:非線形偏微分方程式解のパラメータ化における瞬間残留最小化と,その安定化手法
- 偏微分方程式の解法は科学技術の根幹であり,高精度な数値解法が求められている。
- パラメータ化の過程で条件数が悪化し,パラメータの時間発展が一意に定まらない場合がある。
- ゲージ自由度を利用し,安定化を図りながら,偏微分方程式の解を効率的に求めることを目指す。
- 本研究では,オンサーガーの最小散逸原理に基づき,履歴変数(運動量)を導入することで,パラメータの時間発展の安定性を向上させた。
- 提案手法は,従来の正則化とは異なり,瞬間残留最小化を維持しつつ,パラメータの時間的な滑らかさを促進する。
- 特異な状況やそれに近い状況下において,その効果が確認された。
カラカル:スペクトル混合による因果構造 [cs.LG, cs.AI]目的:長系列における言語モデルの効率的な因果構造
- 言語モデルの長系列への拡張は重要である。処理能力の向上と多様なタスクへの適応が期待される。
- 従来の注意機構は計算コストが高く,位置エンコーディングにも限界がある。長系列処理のボトルネックとなっている。
- FFTを用いた効率的な系列混合により,計算コストを削減し,長系列モデリングを可能にすることを試みる。
- カラカルは,注意機構の代わりに,パラメータ効率の高いフーリエ変換モジュール(MHF)を用いる。
- 周波数領域における因果マスク技術により,自己回帰能力を確保し,生成モデルとしての性能を実現した。
- TransformerやSSMと比較して競争力のある性能を示し,移植性の高い長系列モデリングの実現可能性を示した。
Trident:LLMと行動特徴を用いたマルウェア検出の改善 [cs.CR, cs.LG]目的:マルウェア検出のための手法
- マルウェアは情報セキュリティにとって深刻な脅威であり,迅速かつ正確な検出が不可欠である。
- 従来のマルウェア検出は静的特徴に依存しており,巧妙化するマルウェアへの対応が課題であった。
- LLMを活用し,動的解析による行動特徴に基づいた,より堅牢なマルウェア検出を目指す。
- LLMを用いて行動特徴からマルウェア検出ルールを生成することで,概念ドリフトに対する耐性を高めることができた。
- Tridentは,静的特徴,行動特徴ルール,LLM分析を組み合わせることで,既存手法よりも優れた性能を発揮する。
- Tridentは,再学習を必要としないアクティブラーニング手法と同等の概念ドリフトに対する耐性を示す。
データ削除は適応型強化学習に貢献する [cs.LG, math.OC]目的:時間変化する環境への適応
- 実世界での強化学習の利用には,変化する環境への適応が不可欠である。
- 文脈推定の精度が,強化学習における適応性能を制限している。
- 古いデータが分布のずれを引き起こし,推定精度を低下させる問題を解決する。
- データ削除により,文脈推定器の性能が向上し,頑健性のギャップが縮小された。
- パラメータ数の少ないニューラルネットワークでも,削除ありで高い性能を達成できた。
- 訓練分布と展開分布のずれがある場合に,データ削除が期待損失を減少させることが理論的に証明された。
トークンアリーナ:AI推論におけるエネルギーと認知能力を統合する継続的ベンチマーク [cs.AI, cs.DC, cs.LG, cs.PF]目的:AI推論におけるエンドポイントレベルでの性能評価
- AIモデルの性能向上は,社会の様々な分野における効率化や高度化に不可欠である。
- 既存のベンチマークはモデルやプロバイダレベルでの比較に留まり,実際のデプロイメント単位であるエンドポイントの評価が不足している。
- エンドポイントレベルでの多角的評価により,最適なAI推論環境の選択を支援することを目的とする。
- トークンアリーナは,出力速度,初回トークンまでの時間,価格,コンテキスト長,品質に加え,エネルギー消費量を見積もり,総合的な性能指標を算出する。
- 同一モデルでもエンドポイントによって精度,出力分布の類似性,遅延,エネルギー消費量に最大で6.2倍の差が見られた。
- ワークロードに応じた価格設定により,リーダーボードの順位が大きく変動し,チャットと検索拡張生成などのタスクで異なるモデルが上位にランクインすることが示された。
大規模リモートセンシング画像に対する超解像モデルのベンチマーク:下流タスク統合による評価 [cs.CV, cs.AI, cs.LG]目的:大規模リモートセンシング画像に対する超解像モデルの性能評価
- 地球観測は,都市計画,農業,生態学,災害対応など,多岐にわたる分野で不可欠である。
- 既存の超解像モデルの評価は,主に画質の指標に依存しており,実用的なタスクへの貢献度が不明確である。
- 超解像モデルの性能を,実際の地球観測タスクでの性能に基づいて評価すること。
- 従来の画質指標の改善と,下流タスクの性能向上との間には相関関係が見られない場合がある。
- 画質指標は,下流タスクに適したモデル選択の指針としては限定的である。
- 超解像モデルの開発・評価に,下流タスクを統合する必要性が示唆された。
制約ガイド型表現合成によるエージェントスキル監査:Semia [cs.CR, cs.AI, cs.PL]目的:エージェントスキルの監査
- LLM駆動エージェントの普及に伴い,そのセキュリティ確保が重要となっている。
- エージェントスキルの自然言語部分の曖昧性により,静的解析が困難である。
- 自然言語部分の意味を正確に捉え,再現性のある監査を可能にすること。
- Semiaは,エージェントスキルをSDLというDatalog形式のファクトベースに変換する。
- 制約ガイド型表現合成(CGRS)により,構造的にも意味的にも忠実なファクトベースを生成する。
- 13,728個のスキルを分析した結果,過半数に重大なセキュリティリスクが存在することが判明した。
責任あるGeoAIの箱を開ける:気候変動極端現象と災害マッピングへの対応 [cs.CY, cs.AI]目的:気候変動極端現象と災害マッピングにおける責任あるGeoAIの概念的枠組み
- 気候変動による極端現象と災害の頻発化に対し,迅速な対応が求められている。
- GeoAIの性能追求のみでは,空間的不平等が増幅し,環境負荷も大きくなる恐れがある。
- GeoAIの運用における代表性,説明可能性,持続可能性,倫理を考慮したガバナンス体制を提案する。
- 本研究は,責任あるGeoAIを,代表性,説明可能性,持続可能性,倫理の4つの視点から考察する。
- データ,アプリケーション,社会の3つの範囲に分類したGeoAIガバナンスモデルを提案する。
- 気候変動への強靭性を高めるためには,アルゴリズムの改良だけでなく,責任あるGeoAIのガバナンス生態系の育成が不可欠である。
センサーデータを用いた連合学習による気象モデリング [eess.SY, cs.SY, cs.CL, cs.IR, cs.AR, cs.AR, cs.RO, cs.LG]目的:センサーデータを用いた気象モデリングの精度向上
- 気象予測の精度向上は,防災や農業など多岐にわたる分野で重要である。
- データ共有の課題から,分散したデータを有効活用できていない現状がある。
- データのプライバシーを保護しつつ,分散データを統合的に活用する手段を提供する。
- 連合学習を用いることで,生データを共有することなく気象モデルを訓練できる。
- 多様な地理的分布のデータセットを活用し,気象モデリングの精度と頑健性を高める。
- 本手法は,予測や異常検知といったグローバル/地域的な気象モデリングタスクに適用可能である。
視覚言語モデルにおける幻覚に対するオンライン自己較正 [cs.CV, cs.LG]目的:視覚言語モデルの幻覚軽減
- 大規模な視覚言語モデルの応用拡大のため,その信頼性向上が不可欠である。
- 既存モデルは幻覚を起こしやすく,入力画像に存在しない情報を生成してしまう。
- モデル自身の能力を活用し,外部の教師信号に依存しない自己学習手法を確立する。
- 本研究では,モンテカルロ木探索と二重粒度報酬メカニズムを統合したOSCARを提案する。
- OSCARは,幻覚ベンチマークにおいて最先端の性能を達成し,汎用的なマルチモーダル能力を向上させる。
- モデル内部の生成と識別能力の差を利用することで,信頼性の高い自己教師あり学習を実現した。
インテリジェントな弾力性特徴フェーディング:大規模なモデル再学習なし特徴効率ロールアウトの実現 [cs.IR, cs.LG]目的:大規模ランキングシステムの効率的な特徴管理手法
- 大規模ランキングシステムでは,ユーザー行動から派生した多数の特徴量を使用することが一般的である。
- 特徴量の追加・削除にはモデルの再学習が必要であり,時間と計算資源を要する。
- 再学習を伴わない特徴量の効率的なロールアウトを可能にし,システムの運用コストを削減すること。
- IEFFは,特徴量のカバレッジと分布を動的に制御することで,再学習なしでの特徴効率ロールアウトを実現した。
- 実験の結果,IEFFは効率関連のロールアウトを5倍に加速し,GPUリソース消費を削減した。
- 段階的な特徴量フェーディングは,急激な特徴量削除に比べてオンライン性能の低下を50~55%抑制できることが示された。
動的嗜好最適化による推薦システム [cs.IR, cs.AI]目的:推薦システムにおける嗜好最適化の崩壊現象の抑制と精度向上
- 大規模言語モデルを用いた推薦システムは,ユーザーの嗜好に合わせた推薦が求められる。
- 負例数を増やすことが必ずしも性能向上に繋がらず,嗜好最適化の崩壊という問題が生じることがある。
- 境界付近の重要な負例を優先的に活用し,最適化の強度を調整することで,嗜好最適化の崩壊を防ぐことを目指す。
- DynamicPOは,境界付近の負例を動的に選択し,最適化の強度を調整する軽量なフレームワークである。
- 実験結果から,DynamicPOは負例数の増加による嗜好最適化の崩壊を効果的に抑制し,推薦精度を向上させることが示された。
- 計算コストの増加はわずかであり,既存の多負例嗜好最適化手法に容易に組み込むことができる。
分布自由な不確実性評価のための共形化量子DeepONetアンサンブル [cs.LG]目的:スケーラブルなオペレーター学習
- 高次元力学系の高速な代理モデル構築が求められている。
- 既存手法は推論コストが高く,安全性が重要な場面で不確実性評価が信頼できない。
- 量子技術を活用し,推論コストを削減し,信頼性の高い不確実性評価を実現する。
- 量子直交ニューラルネットワークにより,推論計算量を大幅に削減することに成功した。
- アンサンブル学習と適応共形予測の組み合わせにより,分布に依存しない保証された不確実性評価を可能にした。
- 重ね合わせパラメータ化量子回路を用いて,複数のモデルを効率的に実行し,ハードウェアリソースの線形増加を抑制した。
借用された幾何学:モダリティ間における凍結されたテキスト事前学習済みTransformer重みの計算再利用 [cs.LG, cs.CL]目的:異なるモダリティ間での凍結された事前学習済みTransformer重みの再利用
- 様々なモダリティのデータを統合することで,より汎用的なAIシステムの構築が可能となる。
- 既存手法では,モダリティごとにモデルを学習する必要があり,計算コストが高い。
- 事前学習済みモデルを再利用することで,計算コストを削減し,効率的な学習を実現する。
- テキストのみで事前学習されたGemma 4 31Bの重みを変更せずに,他のモダリティに転移させることが可能であることが示された。
- ロボット操作タスクにおいて,既存の最先端手法を上回る性能を達成し,効率的な学習が確認された。
- 特定ヘッドの重要性が明らかになり,言語タスクと非言語タスクの両方で独立して識別可能であることが示された。
AgentFloor: 小規模なオープンウェイトモデルは,ツール使用の階層構造においてどこまで到達できるか? [cs.AI, cs.CL]目的:エージェントワークフローにおける大規模モデルの必要性とその範囲の特定
- エージェントシステムは,ユーザーリクエストに応じて多数のモデル呼び出しを行うため,コストと効率が重要となる。
- 既存の研究では,エージェントワークフローのどの部分に大規模モデルが必要なのかが明確になっていない。
- 実用的なエージェントパイプラインにおいて,どのタスクに大規模モデルを,どのタスクに小型モデルを使用すべきかを示す。
- 小型から中規模のオープンウェイトモデルは,実際の運用で多くを占める短期的な構造化ツール使用タスクに十分な性能を示す。
- 最も優れたオープンウェイトモデルは,ベンチマークにおいてGPT-5と同等の性能を発揮し,コストと速度の両面で優れている。
- 長期的な計画,持続的な連携,制約追跡を必要とするタスクでは,依然として最先端モデルが優位性を持つが,信頼性はまだ十分ではない。
予算を考慮した長文臨床テキストのルーティング [cs.CL, cs.AI]目的:臨床テキストにおけるトークン数の最適化による,費用対効果の高い情報選択
- 大規模言語モデルの利用拡大には,コストとパフォーマンスのバランスが不可欠である。
- 臨床テキストは冗長性が高く,処理コストが増大しやすいという課題がある。
- 厳格なトークン予算内で,適切な情報を選別し,効率的な処理を実現することを目指す。
- RCDという目的関数を提案し,関連性,網羅性,多様性のバランスを図った。
- 評価設定によって最適な戦略が異なり,低予算下では位置ヒューリスティクスが,生成タスクでは多様性を考慮した手法が有効であることが示された。
- 単位分割よりも,どの単位を選択するかが性能に大きく影響し,クラスタリングは性能低下につながる傾向が見られた。
低減フローマッチングによる自由エネルギー表面サンプリング [cs.LG]目的:自由エネルギー表面のサンプリング手法
- 化学反応や立体配座変化の理解に不可欠であり,統計物理学の重要な課題である。
- 高次元空間でのシミュレーションとCV空間への投影が必要で,計算コストが高い。
- CV空間での動的輸送マップ学習により,直接的な自由エネルギー表面サンプリングを実現する。
- 提案手法FES-FMは,従来のサンプリング手法と比較して,計算コストを大幅に削減できる。
- 単位時間あたりのサンプリング精度は向上し,多様なポテンシャル関数とCVに対して有効性が確認された。
- 多粒子系においては,ポテンシャルの局所的最小値におけるヘッセ行列に基づく事前分布を用いることで,物理的に意味のあるサンプリングが可能となる。
教員におけるAI導入:懸念,支援,自信,および態度の洞察 [cs.CL, cs.CY, cs.AI]目的:教員によるAIツールの導入状況
- 教育現場でのAI活用は,教育の質向上や個別最適化に不可欠である。
- 教員のAIに対する不安やスキル不足が,導入の障壁となっている。
- 機関の支援が教員の自信とAIへの態度に与える影響を明らかにすること。
- 機関の支援は,教員の自信とAIへの態度を有意に予測する。
- 教員の懸念は,機関の支援と自信,態度との関係を有意に調整しなかった。
- 教員の自信が媒介しており,機関の支援は自信を通してAIへの態度を改善する。
オデュッセウス:強化学習によるゲームにおける100ターン以上の意思決定へのVLMの拡張 [cs.LG, cs.AI, cs.CL]目的:ゲームにおける長期的意思決定のためのVLM訓練
- 近年のビジョン言語モデルの能力向上に伴い,ゲームのようなインタラクティブなタスクへの応用が期待されている。
- 既存手法は,大規模な教師あり学習か,短期間の強化学習に限定されており,長期間の意思決定が困難である。
- 100ターン以上の長期的意思決定が可能なVLMを訓練し,ゲームにおける知能化を目指す。
- 提案手法であるOdysseusは,Super Mario Landにおいて既存モデルの3倍以上の平均ゲーム進行度を達成した。
- 軽量なターンレベルの批判関数を持つPPO変種が,訓練の安定性とサンプル効率を向上させることを示した。
- 事前学習済みのVLMが強力な行動事前分布を提供し,強化学習のサンプル効率を高めることを明らかにした。
マイクロサービスのマルチモーダル根本原因特定のためのハイパーグラフと潜在的常微分方程式学習 [cs.LG, cs.AI]目的:マイクロサービスにおける根本原因の特定
- クラウドネイティブなシステムでは,複雑なサービス依存関係が問題となる。
- 観測データの不規則性や異質性が,根本原因の特定を困難にする。
- 複雑な依存関係と不規則な動的特性を考慮した根本原因特定を目指す。
- ハイパーグラフ注意学習,潜在的常微分方程式,マルチモーダルクロス注意融合を組み合わせたフレームワークHyperODE RCAを提案。
- 微分可能なハイパーエッジ構築により高次のサービス間相互作用を学習。不規則な観測から連続的な異常進化をODE RNNエンコーダで捉える。
- Tianchi AIOpsベンチマークにおいて,ランキングと分類の性能が大幅に向上し,学習されたハイパーグラフ注意を通じて解釈可能性を維持。
ベクトル量子化構造認識拡散による分子生成 [cs.IR, cs.LG, cs.AI]目的:分子生成のためのベクトル量子化構造認識拡散モデル
- 創薬や材料開発において,分子構造の効率的な生成は重要な課題である。
- 既存の拡散モデルは分子の構造情報を十分に活用できず,表現力が低い場合がある。
- 分子の構造情報を考慮した新たな拡散モデルを開発し,分子生成の性能向上を目指す。
- 本研究では,VQ-VAEを用いて原子と結合のコードを潜在変数として扱うことで,従来の拡散モデルの課題を克服した。
- 提案手法VQ-SADは,QM9およびZINC250kデータセットにおいて,最先端の拡散モデルと同等以上の性能を示した。
- 離散的なコード空間を用いることで,原子と結合の種類のバランスが改善され,ノイズ除去プロセスが強化された。
MemRouter:長期対話エージェントのためのメモリ埋め込みルーティング [cs.CL, cs.AI]目的:長期対話におけるメモリへの書き込み判断
- 対話エージェントの性能向上には,過去の対話内容を適切に活用することが重要である。
- 従来のシステムでは,各ターンごとにLLMを用いてメモリ管理を行っており,計算コストが高い。
- メモリへの書き込み判断を効率化し,低コストで高性能なメモリ管理を実現すること。
- MemRouterは,LLMベースのメモリ管理システムと比較して,全ての質問カテゴリにおいてF1スコアで優位性を示した (52.0 vs 45.6)。
- メモリ管理のp50レイテンシを970msから58msに大幅に短縮することに成功した。
- 学習による書き込み判断が,ランダムな保存と比較して平均F1スコアを+10.3%向上させた。
二項フロー:離散順序データのノイズ除去とフローマッチング [cs.LG, stat.ME]目的:離散順序データにおける生成モデリング手法
- 連続空間における生成モデリングの発展は,確率モデルの表現力を高めている。
- 離散データにおける生成モデリングは,連続データほど確立された理論的基盤がない。
- 二項フローにより,離散順序データにおける生成モデリングのギャップを埋める。
- 本研究では,二項フローという新しいフレームワークを提案し,離散拡散モデルの学習を可能にした。
- 提案手法は,ノイズ除去,サンプリング,正確な尤度推定を同時に行うことができる。
- 合成データおよび実世界のデータセットにおける実験により,提案手法の有効性を確認した。
AIの教育的可能性と危険性:プログラミング教育におけるChatGPT研究議論のテキストマイニング分析 [cs.CY, cs.AI]目的:プログラミング教育におけるChatGPTに関する学術的な議論の構造
- プログラミング教育の質向上には,新しい技術の適切な活用が不可欠である。
- ChatGPT等の生成AIの教育利用は,その効果やリスクについて十分な検討が必要である。
- ChatGPTの教育利用に関する既存研究の傾向を把握し,課題解決に資することを目的とする。
- テキストマイニング分析の結果,ChatGPT研究議論は「教育的実践」「学習者中心」「AI基盤」「評価」の4つの主要テーマに分類された。
- 研究は,ChatGPTを説明,フィードバック,効率化を支援する学習支援ツールと位置づける一方で,過度な依存や信頼性の問題も指摘している。
- 責任ある統合のため,より強固な評価メカニズムとガバナンス体制の整備が重要であると示唆された。
