arXiv雑要約
AI - 2026/05/08 公開
エージェント時代における認知労働の価格設定:計算資源に固定された賃金に関する立場 [cs.AI, cs.CY]目的:認知労働の賃金決定メカニズムの解明
- AIエージェントの普及は,労働市場と経済構造に大きな影響を与える重要なテーマである。
- AIエージェントの供給が無限に弾力的であるという誤った認識が,賃金低下を招く恐れがある。
- 計算資源市場を賃金決定の新たな基準として捉え,認知労働の適正な価格設定を可能にする。
- AIエージェントは労働力ではなく,計算資源を認知労働に変換する生産技術と定義される。
- 認知労働の賃金は,計算資源のレンタルレート,計算集約度,及び人間とエージェントの生産性によって決定される。
- 労働市場ではなく,計算資源市場が認知労働の価格設定者となる。
BitCal-TTS:量子化推論モデルのためのビットキャリブレーションによるテスト時スケーリング [cs.AI]目的:量子化された推論モデルにおけるテスト時の計算量配分最適化
- 大規模言語モデルの実用化には,メモリとレイテンシの制約が重要である。
- 量子化により計算効率は向上するが,モデルの信頼性評価が歪められる可能性がある。
- テスト時の早期停止による誤りを減らし,推論精度を向上させることを目指す。
- BitCal-TTSは,トークンレベルの不確実性と推論トレースの安定性を考慮した軽量なランタイムコントローラーである。
- Qwen2.5 InstructモデルのGSM8K評価において,7Bおよび14Bスケールで正解率が向上した。
- 7Bモデルでは正解率が3.7ポイント,14Bモデルでは2.8ポイント向上し,早期停止率も低下した。
無意味なものが役立つ:プロンプト空間の摂動が推論探索を広げる [cs.AI, cs.CL, cs.LG]目的:大規模言語モデルの推論能力向上のための探索戦略
- 大規模言語モデルの推論能力は,様々なタスクにおいて重要であり,その向上はAI研究の重要な課題である。
- 強化学習による推論能力の向上において,全てのロールアウトが失敗した場合に学習信号が消失する「ゼロアドバンテージ問題」が存在する。
- プロンプト空間に無意味な摂動を加えることで,推論経路の多様性を高め,ゼロアドバンテージ問題を解決することを目指す。
- LoPE(Lorem Perturbation for Exploration)は,既存のリサンプリング手法と比較して,1.7B,4B,7Bモデルにおいて大幅な性能向上を示す。
- 他の低パープレキシティのラテン語に基づいたランダムなシーケンスも,効果的な摂動として機能することが示された。
- LoPEは,大規模言語モデルの強化学習における探索を広げるための強力なベースラインとして確立された。
ドメイン適応における極端なラベルシフトに対する局所性に基づいたプライベートクラス識別 [cs.AI]目的:ドメイン適応におけるプライベートクラス識別
- 現実世界のデータは分布が異なり,ラベル空間に包含関係を持つ場合がある。
- プライベートクラスの識別が困難であり,分類精度を低下させる要因となる。
- 局所的な輸送と最適輸送の性質に基づき,プライベートクラス識別を改善する。
- 提案手法は,輸送質量に基づくスコア関数を用いて,共有クラスとプライベートクラスを識別する能力が理論的に証明された。
- ReOTは,分類リスクを最小化しながら,共有クラスとプライベートクラス間の分離されたクラスタ構造を学習する。
- 極端なラベルシフトシナリオにおけるターゲットリスクの上限が提供され,ReOTによって最小化される。
暗黙的勾配輸送によるLMOベース最適化の高速化 [eess.SY, cs.RO, cs.SY, math.OC, cs.LG, cs.AI]目的:LMO(線形最小化オラクル)に基づく最適化手法の高速化
- 機械学習モデルの学習において,最適化手法の効率性は重要であり,その性能向上は不可欠である。
- 既存のLMOベース手法では,分散低減が計算コスト増加の原因となり,理論的理解も断片的である。
- 暗黙的勾配輸送(IGT)を用いて,計算コストを抑えつつLMOベース最適化の収束を加速することを目指す。
- 提案手法LMO-IGTは,1回の勾配評価で収束を加速し,既存の確率的LMO手法を改善する。
- 理論解析により,LMO-IGTが確率的LMOよりも優れたiteration complexity($\mathcal{O}(\varepsilon^{-3.5})$)を持つことが示された。
- 実験的に,Muon-IGTが特に優れた性能を示し,IGTがLMOベース最適化の実用的な加速メカニズムであることを実証した。
AlphaCrafter:断面的な数量取引のためのフルスタックマルチエージェントフレームワーク [cs.AI]目的:市場の変化に対応した数量取引戦略の自動化
- 金融市場は常に変動し,複雑な要因が絡み合うため,安定的な収益を上げることは困難である。
- 既存の手法は,ファクター抽出,レジーム適応選択,リスク管理を個別に最適化しており,統合性に欠ける。
- 本研究は,ファクター発見から実行までを統合し,市場の変化に自動的に対応するフレームワークを構築する。
- AlphaCrafterは,ファクター探索,スクリーニング,取引を行う3つのエージェントで構成される閉ループシステムである。
- CSI 300とS&P 500における実験により,AlphaCrafterが最先端の手法と比較してリスク調整後のリターンにおいて一貫して優れたパフォーマンスを示した。
- AlphaCrafterは,試行間の分散が最も低く,統合的で適応的な設計が堅牢な取引パフォーマンスをもたらすことが確認された。
データセンターのエネルギー最適化のためのスケーラブルなデジタルツインフレームワーク [cs.DC, cs.LG]目的:データセンターにおけるエネルギー最適化
- データセンターの電力消費量は増加の一途を辿っており,効率的なエネルギー管理が不可欠である。
- 既存のエネルギー管理手法は,リアルタイム性や予測精度に課題が残されている場合が多い。
- デジタルツインを活用し,エネルギー消費量の予測精度向上と効率的な運用を目指す。
- 提案フレームワークは,IoTデータ,クラウドコンピューティング,機械学習を統合することで,リアルタイムな監視と予測を実現した。
- LSTMモデルによるエネルギー需要予測は,高い精度を示し,データセンターの運用判断を支援する可能性を示した。
- 実験結果から,電力消費量の削減とPUEの改善が確認され,持続可能なデータセンター管理への貢献が期待される。
信念メモリ:部分観測下におけるエージェントメモリ [cs.AI, cs.CL]目的:長期コンテキスト運用型LLMエージェントにおける知識蓄積機構
- エージェントが複雑なタスクを遂行するには,過去の経験から学習し,知識を蓄積する必要がある。
- 既存のメモリ方法は,不確実性を考慮せず,一つの結論のみを記憶するため,誤りを固定化しやすい。
- 複数の仮説とそれぞれの確率を保持することで,不確実性を明示的に扱い,誤りの固定化を抑制する。
- 提案手法BeliefMemは,各観測に対して複数の候補結論とその確率を記憶する。
- 確率の更新にNoisy-ORルールを用いることで,新たな観測に基づいて確信度を調整する。
- LoCoMoおよびALFWorldの評価で,既存手法を上回る性能が確認された。
AeroJEPA:スケーラブルな3D空力場モデリングのための意味的潜在表現の学習 [cs.LG]目的:3D空力場のスケーラブルなモデリングのための意味的潜在表現
- 空力設計において,高精度CFD計算の代替手段が求められている。設計反復回数を増やすため,計算コスト削減が重要である。
- 既存のサロゲートモデルは,大規模な3D空力場に対してスケールしにくく,解析・設計に有用な潜在表現を学習できない。
- AeroJEPAは,形状と運転条件から空力場の潜在表現を予測し,大規模な場に対してスケーラブルかつ設計に役立つモデリングを目指す。
- AeroJEPAは,HiLiftAeroMLとSuperWingのデータセットで,空力場の連続的なサロゲートモデルとして良好な性能を示した。
- AeroJEPAは,高解像度出力へのスケーラビリティを実現し,形状や空力特性をエンコードした潜在表現を学習した。
- 潜在空間は,制御された補間,線形プローブ,概念ベクトル演算,制約付き設計潜在最適化をサポートし,設計に有用であることが示された。
二値テスト時集約の正確な構造:投票が役立つか,損をするか,あるいは進路を変えるか [cs.LG, cs.IT, math.IT]目的:二値テスト時集約における投票の効果に関する構造
- 予測モデルの性能向上は重要であり,特に高機能モデルの変更コストが高い場合に有効な手法が求められている。
- 従来の理論では投票の効果は単調であるとされていたが,実際の挙動はより複雑であり,その詳細な構造は未解明であった。
- 本研究では,交換可能性の仮定の下で,投票が支配される潜在的な分布に着目し,投票曲線が必ずしも単調ではないことを示す。
- 投票は,各二項分散スケールにおいて,多数決閾値を超える潜在的な質量の過剰を記録する「署名」を回復する。
- 完全なオッズ予算曲線とこの署名は等価であり,曲線は署名を一意に復元する。
- この視点により,形状現象,分岐対称性の識別不能性,実現可能性,変動,およびエンドポイントレートが説明される。
マルチモーダル大規模言語モデルにおける内部視覚表現の因果的探査 [cs.AI]目的:マルチモーダル大規模言語モデルにおける内部視覚表現の解明
- マルチモーダルLLMは多様なタスクで成功を収めているが,視覚概念の処理メカニズムは未解明である。
- 視覚概念がどのように符号化・接地されるかの理解が不足しており,モデルの解釈可能性が低い。
- 内部表現を操作し,視覚概念の符号化様式とモデルのスケール則の関係を明らかにすること。
- エンティティは局所的な記憶,抽象概念は分散的な表現を持つという,概念符号化の違いが明らかになった。
- モデルの深さは抽象概念の符号化に不可欠であり,エンティティの局所化はスケールに依存しないことが示された。
- 出力の阻害は潜在活性化の急増を引き起こし,知覚と生成間の補償メカニズムが明らかになった。
- 幾何関係の認識と抽象的な問題解決との間に乖離があり,視覚特徴として処理されていることが示唆された。
文脈のコスト:マルチモーダル検索拡張生成におけるテキストバイアスの軽減 [cs.CL, cs.CV, cs.LG]目的:マルチモーダル検索拡張生成におけるテキストバイアスの軽減策
- 大規模言語モデルの性能向上と,より信頼性の高い応答生成が求められている。
- 検索拡張生成は幻覚を軽減するが,誤った予測を引き起こす可能性も秘めている。
- 文脈導入による予測の誤りを防ぎ,マルチモーダルな根拠に基づいた診断の信頼性を向上させる。
- 研究により,「再汚染」と呼ばれる現象が特定された。これは,正確な文脈の導入によってモデルが当初正しい予測を放棄する現象である。
- 再汚染は,視覚情報の軽視と位置バイアスによる注意機構の崩壊が原因であることが示された。
- BAIRというパラメータ不要な介入手法が提案され,視覚的顕著性を回復し,テキスト上の注意散漫を抑制することで,診断の信頼性を改善した。
Prober.ai:LLM制約型ペルソナによる質疑応答型フィードバックを通じた議論文作成能力の開発 [cs.AI, cs.HC]目的:議論文作成における学生の弱点を指摘する質疑応答型フィードバックシステム
- 教育現場でのLLM利用は増加する一方,批判的思考力育成が課題となっている。
- 学生がAIに思考を委ねることで,認知的な負担が増大し,議論力低下が懸念されている。
- LLMを制約することで,思考を促す質疑応答型フィードバックによる議論力向上を目指す。
- Prober.aiは,LLMが生成するのではなく,質問を通じて学生の議論の弱点を浮き彫りにする。
- 「Challenge and Unlock」の二段階構造により,学生の考察を促し,質の高い修正を可能にする。
- 本システムは,教育的視点に基づいたLLMの出力制御により,認知能力を維持しつつAIを統合する。
ほぼ最適な注意コセット [cs.HC, cs.DS, cs.AI]目的:注意メカニズムの近似計算
- 大規模言語モデルの性能向上に不可欠な注意機構の計算コスト削減が求められている。
- 注意機構の計算量は入力データのサイズに比例するため,大規模データへの適用が困難である。
- 注意機構のコセットを構成することで,計算コストを抑えつつ近似精度を保つことを目指す。
- 単位ノルムのキーと値の集合に対し,サイズが$O({\sqrt{d} e^{\rho+o(\rho)}/\varepsilon})$のコセットが存在することが示された。
- このコセットは,ノルムが$\rho$で制限されたすべてのクエリに対し,注意機構の近似誤差を$\varepsilon$以下に抑える。
- 既存の結果を上回る性能を示すとともに,コセットのサイズに関する下限も改善された。
無知な非リプシッツ需要における最適な状況依存型価格設定 [cs.AR, cs.DC, cs.LG, econ.EM, stat.ML]目的:非リプシッツ需要下の状況依存型価格設定における最適レグレット
- 需要予測は,収益最大化のための価格設定戦略において不可欠である。
- 既存手法は,需要の不連続性により,文脈間の補間が困難である。
- 不連続な需要分布下におけるレグレットギャップの解消を目指す。
- 提案アルゴリズムは,$\tilde O(T^{2/3})$ の最適レグレットを達成し,既存手法を改善する。
- この結果は,KleinbergとLeighton (2003) の下限まで改善され,長年の課題を解決する。
- 確率的によく条件付けられた状況下では,レグレットギャップを解消する。
X-Voice:ゼロショット多言語音声クローニングによる30言語対応の実現 [cs.SD, cs.AI, eess.AS]目的:ゼロショット多言語音声クローニングモデルの開発
- グローバル化の進展に伴い,言語の壁を越えたコミュニケーションの重要性が増している。
- 既存の音声合成システムでは,言語ごとのモデルが必要であり,多言語対応が困難であった。
- 学習データが不要なゼロショットでの多言語音声クローニングを可能にし,言語の多様性を支援する。
- X-Voiceは,420K時間の多言語コーパスを用いて訓練された0.4Bパラメータのモデルである。
- 既存のflow-matchingベースの多言語システムと比較して,性能が向上している。
- 大規模モデルに匹敵するゼロショットクロスリンガルクローニング能力を達成した。
LLMSpace:LEO衛星における大規模言語モデル推論のカーボンフットプリントモデリング [cs.LG, cs.CY]目的:大規模言語モデル推論のカーボンフットプリント評価
- 大規模言語モデルの普及に伴い,エネルギー消費とそれに伴う環境負荷の増大が課題となっている。
- LEO衛星を利用したAI処理は省エネルギーの可能性を秘めるが,ライフサイクル全体でのカーボンフットプリント評価が不足している。
- LEO衛星における大規模言語モデル推論の持続可能性を評価するためのフレームワークを開発し,設計と運用におけるトレードオフを明らかにする。
- LLMSpaceは,LEO衛星上の大規模言語モデル推論における運用時および埋め込みカーボンを包括的にモデリングする初のフレームワークである。
- シミュレーションにより,カーボンフットプリント,推論遅延,ハードウェア設計,運用寿命間の重要なトレードオフが明らかになった。
- 本研究は,持続可能な宇宙ベースの大規模言語モデル推論のための設計指針を提供する。
関節リウマチに対する手部X線画像の統一的な評価とデータセット:RAM-H1200 [cs.CV, cs.LG]目的:関節リウマチにおける手部X線画像の多層的な分析とモデリング
- 関節リウマチの診断・治療において,手部X線画像は重要な役割を担う。
- 既存のデータセットは,包括的な分析に必要な手部全体の構造,詳細な病変注釈,臨床評価との整合性に欠ける。
- 手部X線画像から解剖学的構造,局所的な病理変化,臨床的な重症度を統合的に評価できる基盤を提供する。
- RAM-H1200は,手部全体の骨構造のセグメンテーション,骨びらんのピクセルレベルマスク,関節領域の特定,および臨床スコアリングを包含する。
- 本データセットを用いることで,骨びらんの定量的な分析が可能となり,既存の粗い分類法を超える詳細な評価を実現する。
- 解剖学的構造のモデリングは進んでいるものの,定量的な骨びらん分析は依然として課題である。
物理知識を意識したメタ学習による近赤外分光反射率からの沿岸 biogeochemical パラメータの地域適応型検索 [cs.CC, cs.LG]目的:沿岸 biogeochemical パラメータの地域適応的な検索手法
- 沿岸水域の環境モニタリングにおいて,水質管理は重要な課題である。
- 水域間の環境条件や biogeochemistry の違いから,汎用的なアルゴリズムの適用が困難である。
- 地域差を考慮した,より正確な biogeochemical パラメータ推定を目指す。
- 提案手法は,物理モデルを用いた合成データとメタ学習を組み合わせることで,地域に依存しない基礎モデルを構築した。
- 構築したモデルを地域ごとのデータで微調整することで,高精度な biogeochemical パラメータの推定を実現した。
- 実験結果から,提案手法は既存のモデルと比較して優れた性能を示し,実測値と予測値の時間変化も良好に一致した。
When2Speak:大規模言語モデルのための複数参加者会話における発話タイミングと交代のデータセット [cs.CL, cs.AI]目的:複数参加者会話における発話タイミングと交代に関する学習のためのデータセット
- 対話システムにおいて,応答内容だけでなく発話タイミングも重要な要素であるため,自然な対話を実現するには不可欠である。
- 大規模言語モデルは,複数参加者会話において,過剰な割り込みや会話の不整合を引き起こす傾向がある。
- 本研究では,複数参加者会話における適切な発話タイミングを学習するためのデータセットと生成パイプラインを提案する。
- When2Speakデータセットは,多様な会話スタイルと参加者間のダイナミクスを網羅する215,000件以上の事例を含む。
- When2Speakを用いた教師あり学習により,大規模言語モデルは発話タイミングの予測精度が大幅に向上した(平均Macro F1値は60%増加)。
- 報酬の非対称性を考慮した強化学習を適用することで,モデルはより自然な発話タイミングを獲得し,介入機会の逸失率を低下させた。
画像生成モデルを活用した訓練データ不足の解消:森林再生マッピングのためのGen4Regenデータセット [cs.CV, cs.AI, cs.LG, cs.RO]目的:森林再生種におけるセマンティックセグメンテーションの精度向上
- 持続可能な森林管理には精密な樹種構成マッピングが不可欠であり,その重要性は高い。
- 専門家による画像アノテーションの不足,特に多様な森林再生帯におけるデータ収集が課題である。
- AIによる画像生成を活用し,データ不足を補い,森林再生種マッピングの精度を向上させる。
- 大規模なビジョン言語モデルを用いて高品質な画像とセマンティックマスクを生成するフレームワークを開発した。
- 実データとAI生成データを組み合わせることで,F1スコアが15%以上向上し,データ拡張の有効性が示された。
- 特にデータが少ない樹種において,AI生成データによるF1スコアが最大30%向上し,効果が確認された。
多岐にわたる対話における隠れた悪意への対応:応答を意識した防御策 [cs.AR, cs.DC, cs.CL, cs.AI, cs.CR]目的:多岐にわたる対話における隠れた悪意の検出と防御
- 大規模言語モデルの普及に伴い,悪意のある攻撃が高度化しているため,安全性の確保が重要である。
- 従来の防御策では,複数のターンに分散した悪意を検出しきれないという課題が存在する。
- 対話の早期段階で悪意を検出し,適切な介入を行うことで,有害な行動を未然に防ぐことを目指す。
- 本研究では,Multi-Turn Intent Dataset (MTID)を構築し,悪意のある対話と安全な対話の識別を支援する。
- TurnGateというターンレベルの監視システムを開発し,既存の基盤モデルを大幅に上回る性能を達成した。
- TurnGateは,異なるドメインや攻撃手法,ターゲットモデルに対して高い汎化性を示すことが確認された。
アーキテクチャが重要である:知識ベース汚染下におけるRAGシステムの比較 [cs.CR, cs.CL, cs.LG]目的:知識ベース汚染に対するRAGシステムの脆弱性の評価
- RAGシステムは,大規模言語モデルの性能向上に不可欠であり,その堅牢性は重要な研究課題である。
- RAGシステムは知識ベースの改ざん(汚染)に対して脆弱であり,その影響は十分に理解されていない。
- 様々なRAGアーキテクチャの汚染に対する耐性を比較し,脆弱性の所在を特定すること。
- RAGアーキテクチャによって,敵対的攻撃に対する耐性に大きな差が見られた。特に,Recursive Language Models (RLM) は最も高い耐性を示した。
- CorruptRAG-AK攻撃において,汚染されたドキュメントが取得された後,敵対的なフレームワークが攻撃の成功を大きく左右することが示された。
- MADAM-RAGは矛盾検出率が高いものの,矛盾を確実に解決できず,非回答率が高いという課題が残る。
事前学習済み表現のスケーリングにより,ファインチューニングなしでラベルフリーの分布外検出が可能になる [cs.LG]目的:分布外検出の性能向上
- 深層学習モデルの信頼性確保は重要であり,分布シフト下での誤った予測を防ぐ必要がある。
- 従来の分布外検出は,クラス条件付きモデリングや教師ありファインチューニングに依存することが多い。
- 事前学習済みモデルの表現能力を向上させることで,ファインチューニングなしで高精度な分布外検出を目指す。
- 事前学習済みモデルの表現が,ラベルフリーの分布外検出に必要な幾何学的構造を既に含んでいることが示された。
- 表現のスケーリングにより,局所的およびグローバルな検出器の性能が向上し,検出器選択の重要性が低下する。
- 凍結された事前学習済みバックボーンの幾何学的な特性が,ラベルフリーの分布外検出に大きく影響することが示唆された。
テキストグラフ相乗効果:RAGのための双方向検証・補完フレームワーク [cs.AI, cs.IR]目的:RAGにおける事実に基づいた根拠強化と多段階推論の性能向上
- 大規模言語モデルの知識獲得・推論能力を高める上で,外部知識の活用が不可欠である。
- 従来のRAGは,無関係な情報を取得したり,有効な推論経路を排除してしまう課題があった。
- テキストとグラフの双方の情報を活用し,非対称な推論フローによる問題解決を目指す。
- TGS-RAGは,グラフからテキストへのチャネルを通じて,ノード投票戦略によりテキスト情報を再ランク化し,ノイズを除去する。
- また,テキストからグラフへのチャネルでは,テキスト情報に基づき,過去の検索履歴から有効な推論経路を復元する。
- 実験の結果,TGS-RAGは既存の最先端手法を上回り,検索精度と計算効率のバランスに優れていることが示された。
欠如していた評価軸:1万件の学生提出物から明らかになるAIチューターの効果 [cs.CY, cs.AI, cs.HC]目的:AIチューターの効果評価に関する新たな評価枠組み
- 教育現場におけるAIチューターの利用が拡大しており,その効果測定が重要である。
- 既存の評価方法は,チューターの指導内容に偏っており,学生の行動の変化を捉えられていない。
- 学生の行動データに基づいた評価軸を追加し,より包括的なAIチューターの効果測定を目指す。
- 学生の提出コードとAIチューターのフィードバックを分析した結果,チューターによって学生の行動パターンに大きな差が見られた。
- 学生がフィードバックを参考に修正した場合,その修正が正しく行われているかどうかも評価した。
- 学生が「役立つ」と感じるフィードバックは,指導内容の質よりも,学生の行動への影響が強いことが示された。
モデル誤指定下におけるシミュレーションベース推論のための,ラベルなしデータを用いた情報保持的ドメイン転移 [cs.HC, cs.LG]目的:シミュレーションベース推論におけるパラメータ推定の精度向上
- 現実世界の複雑さを捉えるため,シミュレーションベース推論の信頼性向上は不可欠である。
- シミュレータと現実世界の乖離により,推論精度が低下する問題が存在する。
- ラベルなしの現実世界データを用いて,パラメータ推定に必要な情報を保持したドメイン転移を実現する。
- 提案手法SPINは,シミュレーションデータと現実世界データを相互に変換し,パラメータ推定に関わる情報を保持する。
- SPINは,現実世界の観測値をシミュレーションドメインに変換することで,パラメータ推定を可能にする。
- 合成データおよび実世界データを用いた実験により,SPINがモデル誤指定下で推論精度を向上させることが示された。
コード修正における構造的複雑性に応じたトポロジー選択と予算保存の保証 [cs.CL, cs.AI, cs.MA]目的:複数エージェントによるコード生成におけるトポロジー選択
- 近年,大規模言語モデルを用いた複数エージェントシステムが注目される中で,コード生成の効率化が重要視されている。
- 既存システムでは,コードベースの構造を考慮せずトポロジーが決定されるため,最適なオーケストレーションが困難である。
- コードの構造的複雑性に基づきトポロジーを適応的に選択し,予算保存を保証することで,より効率的なコード生成を目指す。
- 提案手法RGAOは,コードの階層的インデックスから構造的複雑性ベクトルを抽出し,これに基づいてトポロジーを選択する。
- RGAOを実装した結果,プロキシ測定による誤ルーティングが30.1%から8.2%に大幅に削減された。
- 形式的な予算代数と構造的帰納法による予算保存定理を確立し,動的トポロジー選択下での予算保存を証明した。
対角成分と低ランクニューラルネットワークにおける構造的対応と汎用近似 [cs.LG]目的:低ランク構造を持つニューラルネットワークの表現力に関する理論的保証
- 深層学習モデルの規模拡大に伴う計算コスト増大が課題であり,効率的なパラメータ削減手法が求められている。
- 既存の低ランク手法は,事前学習済みの重みや特定の活性化関数に依存しており,汎用性に課題がある。
- 事前知識に依存せず,低ランク構造のみで汎用近似能力を達成する手法を確立すること。
- 純粋な低ランク層は,任意のデータに対する補間は可能だが,関数近似においては収束しないという矛盾が示された。
- 対角成分と低ランク層を組み合わせたDLoR構造が,汎用近似に必要な最小限の構造であることが証明された。
- DLoRニューラルネットワークは,活性化関数に依存せず,従来の汎用近似定理を完全に回復することを示した。
分布ロバストな多目的最適化 [cs.LG, math.OC]目的:多目的最適化における分布の変化を考慮したロバスト性の確保
- 機械学習の応用範囲拡大に伴い,複数の基準を満たす最適化の重要性が高まっている。
- 従来の多目的最適化は,データ分布の変化に対する頑健性が不足している。
- データ分布の変化に強く,安定した多目的最適化手法を開発すること。
- 分布ロバスト多目的最適化(DR-MOO)を提案し,最悪ケースの分布下で複数の目的関数を最小化する。
- 内ループと外ループを持つ多重勾配降下法(MGDA)を設計し,$\epsilon$-パレート定常点に到達するためのサンプル複雑度を$\mathcal{O}(\epsilon^{-12})$に抑えた。
- 勾配クリッピングを導入した単一ループのMGDAを開発し,サンプル複雑度を大幅に改善した$\mathcal{O}(\epsilon^{-4})$を達成した。
XL-SafetyBench:LLMの安全性と文化的感受性に関する国別・多文化ベンチマーク [cs.CL, cs.AI]目的:LLMの安全性と文化的感受性評価
- グローバル化が進む中で,多様な言語や文化への対応が重要になっている。
- 既存の安全性評価は英語中心であり,各国固有の有害性を捉えきれていない。
- 多言語・多文化環境下におけるLLMの安全性評価手法を確立すること。
- XL-SafetyBenchは,10ヶ国語ペア,5,500件のテストケースで構成される。
- 最先端モデルの安全性と文化的感受性には相関関係が見られず,複合スコアでは詳細が隠蔽される。
- ローカルモデルの安全性は,生成失敗の結果であり,真の整合性を示唆するものではない。
大規模ビジョン言語モデルにおける注意機構の迷走 [cs.AI, cs.CV]目的:大規模ビジョン言語モデルにおける注意機構とFFNの役割の解明
- 近年のAI研究において,ビジョンと言語を統合するモデルは重要な役割を担う。
- 既存モデルの内部構造の理解が不十分で,効率的なアーキテクチャ最適化が困難である。
- 情報理論と幾何学に基づき,注意機構の機能的な非効率性を示す。
- 注意機構は再構成に特化し,FFNは意味的革新を担うという機能分担が明らかになった。
- 注意機構の学習された重みを事前定義された値に置き換えても,性能が低下しない,または向上することが示された。
- 現在の最先端モデルは,注意機構に過剰な資源を投入し,効率的に視覚情報を活用できていない可能性がある。
EGA:分布外の劣化を抑制したベクトル検索のためのフローズンエンコーダの適応 [cs.CV, cs.AI, cs.LG]目的:フローズンビジョンエンコーダを用いたベクトル検索における,分布外のデータへの対応
- 画像認識技術は多様な応用分野で重要であり,効率的なベクトル検索が求められている。
- フローズンエンコーダは計算コストが低い一方,未知クラスのデータに対する性能劣化が課題となる。
- 未知クラスのデータへの影響を最小限に抑えつつ,既知クラスの性能を向上させる適応手法の開発。
- EGAは,ゼロ初期化,局所トリプレット損失,双曲球投影の3原則を組み合わせることで,自己制限的な学習を実現した。
- EGAは,学習の収束時に96.5%のトリプレットで勾配がゼロとなり,未知クラスの領域への影響を抑制しつつ,既知クラスの微調整を可能にした。
- 5つの分布外データセットにおいて,EGAは最悪ケースのラベル精度で優れた性能を示し,一貫した改善を実現した。
大規模言語モデルの基本能力の分解:マルチタスクInstruct-Tuningにおけるタスク間干渉の緩和 [cs.CL, cs.AI]目的:マルチタスクInstruct-Tuningにおけるタスク間干渉の緩和
- 大規模言語モデルの性能向上は,マルチタスクInstruct-Tuningに大きく依存しており,その重要性は高い。
- 異なるタスク間でパラメータが共有されるため,勾配の競合によるタスク間干渉が発生しやすい。
- タスク間干渉をさらに軽減し,マルチタスク学習の性能を向上させることを目指す。
- 本研究では,既存手法でもタスク間干渉が残存することを示し,基本能力分解(BADIT)という新たな手法を提案した。
- BADITは,パラメータの共活性パターンに基づき,LLMのパラメータを直交する基本能力に分解する。
- SuperNIベンチマークにおける実験により,BADITが最先端手法を上回り,タスク間干渉を緩和できることを実証した。
リスクの連鎖:大規模推論モデルにおける安全性欠陥と適応的多原理操舵による緩和 [cs.AI]目的:大規模推論モデルの安全性評価と緩和手法の開発
- 大規模言語モデルの能力向上に伴い,安全性確保が不可欠となっている。
- 最終的な回答のみを評価するだけでは,推論過程における潜在的なリスクを見落とす可能性がある。
- 推論過程全体におけるリスクを特定し,より効果的な緩和策を提案することを目指す。
- 推論過程において,最終回答では安全と判断される場合でも,有害またはポリシー違反のコンテンツが検出された。
- 特に,「安全な推論から有害な回答」と「有害な推論から安全な回答」という2つのケースで,高い危険性が確認された。
- 適応的多原理操舵は,推論過程と最終回答の両方における有害なコンテンツの数を効果的に削減し,性能維持に貢献した。
ペルソナを活用した生成AIの敵対的試行:ペルソナ駆動型レッドチームの支援 [cs.HC, cs.AI, cs.CY]目的:生成AIの潜在的リスクを表面化させるための,ペルソナ駆動型レッドチーム手法の開発
- 生成AIの安全性確保は重要であり,そのリスク評価において,試行者の背景や視点が戦略とリスク発見に影響する。
- 既存の自動レッドチーム手法は,人間の特性や投入を考慮しておらず,網羅性に課題がある。
- ペルソナを活用することで,より多様な攻撃戦略を探索し,自動化と人間協調を両立させる。
- PersonaTeaming Workflowは,最先端の自動レッドチーム手法RainbowPlusと比較して,より高い攻撃成功率とプロンプトの多様性を実現した。
- PersonaTeaming Playgroundは,実務家が独自にペルソナを作成し,AIと共同でプロンプトを改良することを可能にした。
- ユーザー調査の結果,本手法は多様な戦略と有益なアウトプットを促し,AIによる提案が創造的思考を刺激することが示された。
時間的関数回路:スプラインプロットからKAN予測における忠実な説明へ [cs.LG, cs.AI, stat.ML]目的:KAN予測における時間的に根拠のある説明の生成
- 時系列予測は,将来の動向を理解し予測する上で不可欠であり,様々な分野で応用されている。
- 従来のモデルでは,予測の根拠が不明瞭で,解釈可能性に課題があった。
- 本研究は,予測根拠を明確化し,モデルの信頼性と理解度を高めることを目指す。
- KANのエッジ関数を時間的な文脈に沿って解釈するための「時間的関数回路」フレームワークが提案された。
- スプライン成分の除去は予測精度を低下させ,スプライン形状自体が予測に重要な役割を果たすことが示された。
- ゲート付きKANは,信号の複雑さに応じてゲートの開き具合を調整し,線形モデルよりも優れた性能を発揮した。
Transformerのメモリの吸引子構造:競合仲裁から確信的な幻覚まで [cs.AI]目的:Transformerモデルのメモリにおける,知識の競合と幻覚という2つの誤りモードの発生メカニズムの解明
- 大規模言語モデルの性能向上に伴い,その知識源と誤りモードの理解が不可欠となっている
- 既存の手法では,モデルが誤った情報を確信的に出力するため,信頼性の評価が困難である
- 潜在状態空間における吸引子構造を分析することで,誤りモードをより正確に識別し,信頼性を高めることを目指す
- 学習済みの事実は,潜在状態空間において吸引盆地を形成しており,競合はWMが正しい盆地への収束を妨げる現象である
- 幻覚は,記憶された盆地が存在しない場合に潜在状態が自由に漂う現象であり,どちらもLMヘッドが区別できない
- 潜在状態と記憶された盆地との距離(幾何学的マージン)は,エントロピーよりも正確に誤りモードを識別し,誤拒否を回避できる
DataDignity:大規模言語モデルの学習データ帰属性 [cs.AI]目的:言語モデルの出力根拠となる資料の特定
- 言語モデルの信頼性確保には,応答の根拠を示すことが不可欠である。
- 応答の根拠資料を特定する技術は,表面的な類似性や共起関係に依存しがちである。
- 真の根拠を特定するため,誤情報を排除した評価設定が求められる。
- 本研究では,架空のWikipedia記事を用いた評価データセットFakeWikiを構築した。
- 学習データ帰属性を評価するモデルScoringModelは,既存手法と比較してRecall@10を大幅に向上させた。
- 活性化ベクトルの活用による手法SteerFuseも,教師なし学習ながら高い性能を示した。
GCCM:対照的整合モデルによる生成グラフ予測の強化 [cs.AI]目的:生成グラフ予測における性能向上
- グラフ構造データは,様々な分野で重要な役割を果たす。効率的な予測手法の確立が求められている。
- 拡散モデルは予測に不安定性を伴い,推論に高コストな反復処理が必要となる場合がある。
- 整合性訓練における近道解を抑制し,より安定した予測を実現すること。
- GCCMは,グラフ予測において,ノイズの異なるターゲット間のペアマッチングに加えて,負のペアを導入することで近道解を抑制する。
- 入力特徴の摂動により,入力グラフに対する同一条件付けを崩し,近道解の魅力を低下させる。
- ベンチマークデータセットでの実験により,GCCMが決定論的予測器と比較して,一貫した性能向上を達成することが示された。
CFE-PPAR:ビデオTransformerを活用したプライバシー保護アクション認識のための圧縮に強い暗号化 [cs.CV, cs.AI, cs.CR]目的:プライバシー保護アクション認識のための圧縮に強い暗号化手法
- ビデオデータにおけるプライバシー保護は重要であり,行動認識と両立が求められている。
- 既存の暗号化手法は,ビデオ圧縮を行うと認識性能が大幅に低下するという課題がある。
- 圧縮による性能劣化を抑制しつつ,プライバシー保護と高精度な行動認識を実現すること。
- 提案手法CFE-PPARは,暗号化されたビデオを直接Video Transformerで認識可能にする。
- 実験の結果,CFE-PPARはUCF101およびHMDB51データセットにおいて,Motion-JPEGおよびH.264圧縮下で既存手法を上回る性能を示した。
- 同じ鍵で暗号化とパラメータ変換を行うことで,圧縮耐性を高めている。
大規模言語モデルにおける顕著性認識正則化量子化キャリブレーション [cs.AI, cs.LG]目的:大規模言語モデルの量子化キャリブレーション手法
- 大規模言語モデルの利用拡大には,メモリ消費量と推論速度の制約解消が不可欠である。
- 既存の量子化手法は,限られたキャリブレーションデータに依存し,汎化性能の低下を招く可能性がある。
- キャリブレーション時に量子化された重みを元の重みに近づけることで,汎化性能の改善を目指す。
- 提案手法SARQCは,標準的なPTQの目的関数に顕著性認識正則化項を追加する。
- これにより,量子化された重みが元の重みに近くなるように制約し,推論時の汎化性能を向上させる。
- 様々なLLMにおける実験で,perplexityとゼロショット精度が改善され,推論時の計算オーバーヘッドは発生しない。
Irminsul: エージェント型LLMサービングのためのMLAネイティブな位置非依存キャッシュ [cs.DC, cs.AI, cs.LG]目的:エージェント型LLMサービングにおける位置非依存キャッシュ機構
- LLMの推論コスト削減は,大規模言語モデルの普及と利用拡大に不可欠である。
- エージェント型LLMでは,トークン位置が変化するため,従来のプレフィックスキャッシュが機能しにくい。
- 本研究は,エージェント型LLMのキャッシュヒット率を向上させ,推論効率を高めることを目指す。
- Irminsulは,SGLangのラジックスキャッシュを拡張し,CDC-チャンク化されたセグメントに対するコンテンツハッシュキーイングと$\delta$-回転ルールを導入した。
- DeepSeek-V2-Lite,Kimi Moonlight-16B-A3B,JoyAI-Flashを用いた評価により,Irminsulはプロンプトトークンの最大約83%を回収可能であることが示された。
- キャッシュヒットごとに約63%のプリフィルエネルギー節約を実現し,コンテンツアドレスキャッシュは,サービングスタックの基本要素であるべきであることを主張する。
予算化された注意配分:効率的なTransformerのためのコスト条件付き計算制御 [cs.LG, cs.AI]目的:Transformerの効率的な運用
- Transformerは自然言語処理の主要モデルであり,様々なタスクで高い性能を発揮する。
- 実運用では,コストと品質のトレードオフが重要であり,柔軟なコスト制御が求められる。
- 要求される注意予算に応じて注意機構を制御し,効率的な推論を実現することを目指す。
- 提案手法は,要求された注意予算に基づいて注意ヘッドを制御する予算化された注意配分機構を用いる。
- 合成データセットでは,0.303の注意コストで99.7%,0.504で100%の精度を達成した。
- AG Newsの実験では,0.50の予算で1.28倍の速度向上と82.1%の精度を達成し,実用的なコスト削減効果を示した。
量子化は無料:Apple Siliconでfp16を凌駕するint4 KVキャッシュ [cs.PF, cs.AI]目的:Apple Siliconにおけるint4 KVキャッシュの性能向上
- 大規模言語モデルの推論速度向上は,計算資源の効率的な利用に不可欠である。
- KVキャッシュの量子化は,精度低下とのトレードオフが課題であった。
- Apple Silicon上で,精度を維持しつつ高速化を実現するint4 KVキャッシュを提案する。
- 提案手法は,Gemma-3 1Bモデルにおいて,fp16よりも最大で8%高速に処理可能であることを示した。
- Qwen2.5-1.5Bモデルにおいても短いコンテキストで0.7%から2.6%の高速化を達成し,メモリ圧縮率を3倍に向上させた。
- 融合カーネルのオーバーヘッドは小さく,圧縮による帯域幅の節約によって相殺される。
現実世界のソフトウェア開発におけるプロアクティブなコーディングアシスタントの実証研究 [cs.SE, cs.AI]目的:現実世界のソフトウェア開発におけるプロアクティブなコーディングアシスタントの有効性に関する評価
- ソフトウェア開発の生産性向上は,ビジネスの迅速化とコスト削減に不可欠である。
- 従来のコーディングアシスタントは受動的であり,開発者の負担が大きいという課題がある。
- 実際の開発者の行動データに基づき,より自然で効率的なアシスタントを実現する。
- 大規模な実データ収集により,LLMシミュレーションによるIDEトレースと現実のIDEトレースに大きな乖離があることが示された。
- 新しいベンチマークであるProCodeBenchを公開し,既存のアプローチでは現実のIDEトレース下での性能が低いことを明らかにした。
- シミュレーションデータは,現実世界のデータと組み合わせることで,効果的なモデルのファインチューニングに貢献しうる。
推論時予算制御:LLM検索エージェントにおける活用 [cs.AI]目的:LLM検索エージェントにおける推論時予算制御
- LLM検索エージェントの性能向上には,推論時のリソース制約下での効率的な活用が不可欠である。
- ツール利用回数と生成トークン数の二重制限により,最適な検索行動の決定が困難である。
- 限られた予算内で,どの検索行動に優先度を与え,最終回答をいつ決定すべきかという課題を解決する。
- 提案手法は,検索行動の価値情報(VOI)スコアに基づき,検索,分解,回答決定を制御することで,多段階質問応答タスクにおいて性能を向上させる。
- 検索時の予算制御,特に予算依存型ペナルティが主な性能向上に貢献し,回答時の制御は適切な検索経路が存在する場合に有効である。
- 様々なベンチマーク,LLMバックボーン,予算レベルにおいて,既存手法と比較して一貫した改善が見られた。
知識グラフのパスを自己進化型検索エージェントの中間監督として [cs.AI]目的:自己進化型検索エージェントにおける中間監督の活用
- 検索エージェントの性能向上には,人間の介入を減らし,自律的な学習能力を高めることが重要である。
- 既存手法では,質問生成時に関係性の文脈が欠如し,検証困難な質問が多く生成される問題がある。
- 知識グラフのパスを用いて,質問生成と報酬形成の両方に対する中間監督を提供し,この問題を解決する。
- 知識グラフのサブグラフを活用することで,質問生成に文脈情報を取り込み,質問の質を向上させた。
- Waypoint Coverage Reward (WCR) を導入し,部分的に正解の軌跡に対しても段階的な報酬を与えることで,学習効率を高めた。
- 7つのQAベンチマークと9つのモデル構成で,標準的なSSPと比較して平均スコアが向上し,特に多段式QAタスクで顕著な改善が見られた。
LLMベースマルチエージェントシステムにおけるコミュニケーション構造最適化のための能動学習 [cs.MA, cs.AI, cs.LG]目的:LLMベースマルチエージェントシステムにおけるコミュニケーション構造最適化
- LLMを活用したマルチエージェントシステムは,複雑な問題を解決する上で重要性が増している。
- 既存手法はランダムなタスクに依存するため,効率的な構造最適化が困難である。
- 情報理論に基づき,価値の高いタスクを能動的に選択することで最適化の安定性を高める。
- 提案手法は,グラフパラメータ分布の変化量をタスクの情報量を表す指標として利用する。
- アンサンブルカルマン逆変換を用いることで,効率的かつ微分不要な近似を実現した。
- 実験により,限られた計算資源下でもコミュニケーション構造の最適化に有効であることが示された。
SafeHarbor:LLMエージェントの安全性を担保する階層型メモリ拡張ガードレール [cs.CR, cs.AI]目的:LLMエージェントの安全性確保のための枠組み
- LLMエージェントの能力向上に伴い,悪意のある操作によるリスクが増大している。
- 既存の防御策は,安全性を高めるほど正常なタスクの実行に支障をきたす過剰拒否問題がある。
- 曖昧なタスクと悪意のある攻撃の両方に対し,高い安全性と実用性を両立することを目指す。
- SafeHarborは,状況に応じた防御ルールを動的に生成し,明確な意思決定境界を確立する。
- GPT-4oにおいて,63.6%の正常タスク実行率と93%以上の有害要求拒否率を達成した。
- 訓練不要で効率的かつプラグアンドプレイ可能なソリューションである。
