arXiv雑要約
AI - 2026/03/16 公開
いつアンサンブルすべきか:安定性と高速性を実現するためのLLMアンサンブルにおけるトークンレベルのポイントの特定 [cs.CL, cs.AI]目的:大規模言語モデルのアンサンブルにおける最適なアンサンブル位置の特定
- LLMは高度な自然言語処理能力を持つが,個々のモデルには限界がある
- 長文生成において,既存のアンサンブル手法は必ずしも有効ではない
- トークン化の不一致と確率分布の合意に基づいて,効率的なアンサンブルを実現する
- 提案手法SAFEは,トークン化の不一致と確率分布の合意を考慮することで,既存手法を精度と効率の両面で上回る
- SAFEは,全体の1%未満のトークンでアンサンブルを行っても性能向上を達成する
- 確率分布の平滑化を防ぐためのシャープニング戦略により,より確信のあるトークン選択が可能となる
言語モデルは単射であり,したがって可逆である [cs.LG, cs.AI]目的:言語モデルの単射性の証明と,隠れ状態からの正確な入力再構成アルゴリズムの開発
- 言語モデルの透明性,解釈可能性,安全な展開には,モデルの内部動作の理解が不可欠である。
- 従来の認識では,Transformerコンポーネントの非単射性により,入力の完全な復元が困難と考えられていた。
- 本研究は,Transformer言語モデルが実際には単射であることを証明し,入力の完全な復元を可能にする。
- Transformer言語モデルは,離散入力シーケンスから連続表現へのマッピングにおいて,単射であることが数学的に証明された。
- 大規模な衝突テストの結果,6つの最先端言語モデルにおいて衝突は確認されなかった。
- SipItアルゴリズムは,隠れ活性化から正確な入力テキストを効率的に再構成し,実用的な可逆性を示した。
NeuCo-Bench:地球観測におけるニューラル埋め込みのための新たなベンチマークフレームワーク [eess.SY, cs.SY, cs.LG, cs.AI, cs.CV]目的:地球観測におけるニューラル圧縮と表現学習の評価のためのフレームワーク
- 地球観測データ量は増大しており,効率的なデータ処理が重要となっている。
- 既存の評価方法は,特定のタスクに依存し,汎化性能を測りにくい。
- タスクに依存しない汎用的な埋め込み表現の評価方法を確立すること。
- NeuCo-Benchは,埋め込み表現を中心に評価を行うパイプライン,隠れたタスクを用いた挑戦モード,精度と安定性を考慮したスコアリングシステムから構成される。
- 公開チャレンジの結果から,最先端の基盤モデルの性能を比較検証した。
- このフレームワークは,地球観測分野におけるニューラル埋め込みの標準化された評価を促進し,コミュニティの発展に貢献する。
3次元思考:限られた視点からの幾何学的想像力に基づく空間推論 [cs.CV, cs.AI]目的:限られた視点からの3次元空間推論における幾何学的想像力の役割
- 視覚と言語を組み合わせたAIの発展は目覚ましいが,3次元空間の理解は依然として困難な課題である。
- 従来の推論手法はテキストや2次元視覚情報に依存し,3次元空間の想像力を必要とするタスクでの性能が制限される。
- 本研究は,3次元の事前知識やラベルなしに,画像から幾何学的情報を活用した3次元思考による推論を可能とする。
- 提案手法3DThinkerは,強力なベースラインと比較して,複数のベンチマークにおいて一貫して優れた性能を示す。
- 3DThinkerは,推論過程において視覚言語モデルが生成した3次元潜在空間を,3次元基盤モデルと整合させることで実現されている。
- 結果は,3次元表現をマルチモーダル推論に統合する新たな視点を提供するとともに,AIの空間認識能力向上に貢献する。
LLM信念によるLLMのアンラーニング [cs.LG, cs.CL]目的:LLMにおける機密または有害なコンテンツの記憶とその再現を防ぐためのアンラーニング手法
- 大規模言語モデルの利用拡大に伴い,情報漏洩や有害情報の拡散リスクが重要視されている。
- 既存のアンラーニング手法は,表面的な効果しか得られず,実際には記憶が残存している可能性がある。
- モデル自身の高確信度な生成(信念)を利用し,アンラーニングの精度向上を目指す。
- 既存手法における「絞り込み効果」に着目し,モデルの信念と関連付けて抑制することで,より徹底的な忘却を実現。
- BS-T(トークン単位)とBS-S(シーケンス単位)という2つの手法を提案し,それぞれ高確率トークンと高確信度生成の抑制を行う。
- 多様なベンチマークとモデルファミリーを用いた実験により,提案手法の有効性を確認。
エージェント型AI駆動6G自律型ネットワークにおける認知バイアスのチュートリアル [cs.NI, cs.AI]目的:エージェント型AI駆動6G自律型ネットワークにおける認知バイアスの種類,発生メカニズム,軽減策
- 6Gネットワークの自律化は,通信の円滑性,公平性,適応性,回復性向上に不可欠である。
- 従来のKPI最適化では,ネットワークの本質的な要素を捉えきれていない。
- 人間の認知バイアスがAIエージェントに影響を及ぼす問題を解決する。
- 認知バイアスは,エージェントの推論,交渉,ツール利用,行動に歪みをもたらす可能性がある。
- アンカリング,時間的バイアス,確証バイアスの軽減策として,アンカーランダム化,時間減衰,インフレクションボーナスが提案された。
- 提案手法により,最大で5倍の低遅延化と約40%の省エネルギー化が達成された。
バスバー分割による送電混雑管理のための転移可能グラフ学習 [cs.AI]目的:送電混雑管理のためのバスバー分割における有効ノードの予測
- 電力系統の最適化は,安定供給と効率的な運用に不可欠である。
- 大規模系統におけるリアルタイムな最適化は計算負荷が高く困難である。
- 未知の系統や条件への汎化性能を持つ最適化手法の開発が求められる。
- 提案手法は,既存ソルバーと比較して最大4桁の速度向上を達成した。
- GOC 2000系統において,1分以内に実行可能解が得られ,最適解との誤差は2.3%であった。
- この結果は,大規模系統におけるリアルタイムな最適化への大きな進歩を示す。
RobotArena ∞:リアルtoシミュレーション翻訳によるスケーラブルなロボットベンチマーキング [cs.RO, cs.AI, cs.CV, cs.LG]目的:ロボットの汎用性の評価のための,スケーラブルなベンチマーキングフレームワーク
- ロボットの汎用性を実現するには,多様なタスクと環境における厳密な評価が不可欠である。
- 実世界でのロボットポリシーのテストは,労力,時間,安全性に制約があり,再現性が低い。
- 本研究は,シミュレーション環境と人間のフィードバックを活用し,スケーラブルな評価を実現する。
- RobotArena Infinityは,ビデオデモンストレーションをシミュレーション環境に自動変換する。
- 自動化された視覚言語モデルによる評価と,クラウドワーカーによる人間の選好判断を用いる。
- シミュレーション環境を系統的に変化させることで,ポリシーの汎化性能を評価する。
LLM推論の検証によるモデル重みの搾取の検出 [cs.DC, cs.DM, cs.CR, cs.LG]目的:モデル重みの搾取検出のためのLLM推論検証
- 大規模AIモデルは貴重な資産であり,その保護が重要である。
- 推論サーバーからのモデル重みの搾取リスクが存在する。
- 隠蔽された重みによる搾取を検出し,異常な挙動を捉える。
- 本研究では,モデル重み搾取をセキュリティゲームとして定式化し,それを軽減する検証フレームワークを提案した。
- MOE-Qwen-30Bにおいて,検出器は搾取可能な情報を0.5%以下に削減し,誤検知率は0.01%以下を実現した。
- 推論プロバイダーへの追加コストを最小限に抑えつつ,強固な保護が可能であることを示した。
説明責任ある自動意思決定のための公益訴訟:改造者,実用主義者,活動家 [cs.CY, cs.AI]目的:AIおよび自動意思決定(ADM)における説明責任の促進に関する公益訴訟の役割
- AI技術の進展は社会に大きな影響を与える。その活用には,倫理的,法的課題への対応が不可欠である。
- ADMの規制は国際的な状況に左右されやすく,既存の法制度だけでは十分な対応が難しい場合がある。
- 本研究は,既存の法をADMに適用する「法的改造」という戦略を通じて,ADMの説明責任を強化する道を探る。
- オーストラリアの公益訴訟弁護士へのインタビューから,効果的な訴訟戦略と戦術に関する知見が得られた。
- 訴訟戦略の限界と,それを克服するための制度的整備の必要性が明らかになった。
- 本研究は,法学研究者,ADM被害者,弁護士,市民社会団体,政策立案者にとって有益な情報を提供する。
線形回帰における多段階スケーリングの理論的分析:より大きなデータセットはより繰り返し可能である [cs.LG, stat.ML]目的:線形回帰における多段階スケーリングにおけるデータ再利用率の定量化
- 大規模言語モデルの性能向上には,データセットの規模が重要であり,スケーリング則の理解が不可欠である。
- 限られたデータで同じデータセットを繰り返し学習した場合のスケーリング則は,十分に探求されていない。
- データセットの規模と分布が,データ再利用による効果の限界に与える影響を明らかにすること。
- データセットサイズNに対して,K回の繰り返し学習と同等の性能を得るためのデータセット規模は,有効再利用率E(K, N)で定量化される。
- Kが小さい場合,E(K, N) ≒ Kとなり,各エポックが線形的な利をもたらす。Kが大きくなると,E(K, N)はNの対数に比例する値に漸近する。
- 既存研究の主張に対し,データサイズと分布によってE(K, N) ≒ Kが成り立つKの最大値は変動し,データ再利用における両者の明示的なモデリングの必要性を示唆する。
FAPE-IR:周波数認識計画と実行による汎用画像復元フレームワーク [cs.CV, cs.AI]目的:汎用画像復元のための周波数認識計画と実行フレームワーク
- 画像劣化は多様であり,現実世界の画像には複数の劣化が同時に存在する。
- 既存手法はタスク固有の設計や潜在的なルーティング戦略に依存し,多様な劣化への適応が困難。
- 周波数特性を考慮した計画と実行により,様々な劣化に対応可能な汎用的な復元手法を確立する。
- FAPE-IRは,凍結された大規模言語モデルを用いて画像劣化を分析し,周波数認識復元計画を生成する。
- 生成された計画に基づいて,拡散ベースの実行モジュールが周波数特性に応じて適切な専門家を選択し,高品質な復元を実現する。
- 7つの復元タスクにおいて最先端の性能を示し,混合劣化に対するゼロショット汎化能力も高い。
マルチシナリオからの視点に基づくMLLMによる継続学習 [cs.CV, cs.AI]目的:実世界のシナリオ変化下における破局的忘却の調査
- デバイスに展開されたMLLMは,複雑な視覚タスクを実行するために環境変化に適応する必要がある。
- 既存手法では,異なるシナリオ間の知識の相互強化が十分ではない。
- 視覚的差異に対処し,シナリオ間の知識の蓄積と強化を実現することを目指す。
- 提案手法UNIFIERは,VREとVCCにより,同一シナリオ内の知識蓄積と異なるシナリオ間の相互強化を可能にする。
- 20ステップのクロスシナリオ継続学習タスクにおいて,最先端手法QUADと比較して,VQAスコアが2.70%~10.62%向上した。
- 同様に,F1スコアも3.40%~7.69%向上し,UNIFIERの有効性が示された。
NI-Tex:非等距画像ベースの衣服テクスチャ生成 [cs.CV, cs.AI]目的:衣服テクスチャ生成のための技術
- 3D衣服モデリングにおいて,リアリティの高い表現が求められているため。
- 既存のテクスチャは多様性に乏しく,リアルな表現が難しいという課題がある。
- 非等距な画像と3Dモデル間のテクスチャ生成における制約を解消し,高品質なテクスチャを生成する。
- 本研究では,物理シミュレーションによる衣服動画データセットを構築し,多様な変形下での一貫した幾何学と材質の情報を利用することで,ロバストなテクスチャ学習を可能にした。
- Nano Bananaを用いた非等距画像編集により,異なるトポロジーを持つ画像と幾何学間の信頼性の高いテクスチャ生成を実現した。
- 不確実性に基づいた視点選択と再重み付けによる反復ベイク手法により,シームレスで実用的なPBRテクスチャを生成した。
MeanFlowにおける曲率のボトルネック克服 [cs.CV, cs.AI]目的:MeanFlowの性能向上
- 生成モデルの発展は,画像生成をはじめとする様々な応用において重要な課題である。
- MeanFlowは高速な生成が可能だが,複雑な軌跡により学習が困難になるという課題がある。
- MeanFlowの学習における曲率によるボトルネックを解消し,生成性能を向上させる。
- 提案手法Rectified MeanFlowは,直線的な経路に着目し,学習を容易にすることで,MeanFlowのFIDを大幅に改善した。
- 既存のMeanFlowモデルのFIDを30.9から8.6に,また2-rectified flow++よりも33.4%改善し,学習速度も向上した。
- 本研究は,生成フローの学習における最適化の困難さは,曲線的な軌跡に起因する部分があることを示唆している。
文脈を考慮した機密データ検出に向けた試み [cs.CR, cs.AI, cs.CL, cs.CY, cs.DB, cs.IR]目的:機密データの文脈依存性に着目した機密データ検出フレームワーク
- オープンデータ普及に伴い,公開前の機密データ保護の重要性が高まっている。
- 従来の機密データ定義は限定的であり,文脈を考慮した検出が課題であった。
- データ型とドメイン知識に基づいた文脈化により,より正確な機密データ検出を目指す。
- データ型文脈化により,誤検知数を大幅に削減し,既存の商用ツールと比較して再現率94%を達成した。
- ドメイン文脈化は,特定の分野における機密データ検出において,文脈に基づいた適切な判断を可能にする。
- 人道支援分野の専門家とのケーススタディでは,文脈に基づいた説明が手動監査の指針となることが示された。
SpaceControl:3D生成モデリングへのテスト時空間制御の導入 [cs.CE, cs.CV, cs.AI]目的:3Dアセット生成における空間的制御手法
- 3Dコンテンツの生成は多様な分野で重要であり,その品質向上は創作活動を促進する。
- テキストや画像による制御では,形状の曖昧さや操作の困難さから,精密な形状制御が課題である。
- テスト時に空間制御を可能にし,追加学習なしで形状の忠実性と高品質な出力を両立させる。
- SpaceControlは,粗い形状から詳細なメッシュまで,幅広い幾何学的入力を受け入れ,既存の生成モデルと統合可能である。
- 制御パラメータにより,形状の忠実度と出力のリアリズムのバランスを調整できる。
- 定量評価とユーザー調査の結果,SpaceControlは幾何学的な忠実度において,学習ベースや最適化ベースの手法を上回る。
工学設計のための個別条件付き期待値に基づくグローバル感度分析 [cs.LG, cs.AI, stat.ML]目的:工学設計におけるグローバル感度分析手法
- データ駆動型設計の重要性が増しており,モデルの挙動を理解する必要がある
- 従来の感度分析は,変数間の相互作用を考慮できない場合がある
- 変数間の相互作用を考慮した,より正確な感度分析手法を提案する
- 個別条件付き期待値(ICE)曲線に基づく感度指標は,従来の偏依存プロット(PDP)よりも変数間の相互作用の影響を捉える能力が高いことが示された。
- 提案手法は,PDPに基づく感度指標の下限として数学的に証明された。
- PDP,ICE,SHAPからの視覚的な解釈は,複数の視点を提供し,互いに補完し合う。
グループ相対方策最適化による情報一貫性のある言語モデル推薦 [cs.LG, cs.AI]目的:言語モデル推薦における情報一貫性の最適化
- 金融,教育,医療など重要な分野でLLM利用が進む中で,信頼性は不可欠である。
- LLMはわずかなプロンプトの違いで出力が変動し,一貫性を損なう場合がある。
- 意味的に同等なプロンプト群に対し,情報内容の安定性を確保する手法を開発する。
- 本研究では,グループ相対方策最適化(GRPO)を応用し,情報の一貫性を直接最適化する強化学習フレームワークを提案する。
- プロンプトの変種をグループとして扱い,文脈をリセットすることで,表現の違いによる影響を分離する。
- 投資と求人推薦タスクにおいて,GRPOでファインチューニングされたモデルがベースラインモデルと比較して変動を低減することを示した。
フーリエ解析ネットワークの動作原理:メカニズム分析と新しい二重活性化層の提案 [cs.LG]目的:フーリエ解析ネットワークの動作メカニズム解明と,より効率的な収束を促進する二重活性化層の開発
- 深層学習の性能向上は,ニューラルネットワークの活性化関数の改良によって大きく左右される。
- ReLUは勾配消失問題を引き起こしやすく,学習の停滞や遅延につながる場合がある。
- FANが性能向上に寄与するメカニズムを解明し,より安定した勾配経路を確立すること。
- FANにおける性能向上は,正弦関数によるものであり,余弦関数はむしろ悪影響を及ぼすことが示された。
- 正弦関数の局所的な挙動が,勾配消失問題を緩和し,ReLUの死滅問題を軽減することが明らかになった。
- 提案する二重活性化層(DAL)は,様々なタスクにおいて従来の活性化層よりも高速な収束と高い検証精度を達成した。
言語モデルの認識的多様性が知識の崩壊を緩和する [cs.LG, cs.AI, cs.CY, cs.MA]目的:言語モデルにおける認識的多様性の効果
- AIの普及に伴い,知識の偏りや誤りが社会問題となる可能性が懸念されている。
- 単一のAIモデルは自己学習を繰り返すうちに性能が低下し,知識が狭範化する現象が起きる。
- 多様なAIモデル群を構築することで,知識の崩壊を抑制し,長期的な性能維持を目指す。
- 単一モデル全体での学習は短期的な性能向上は見られるものの,長期的に知識の崩壊を加速させる。
- 最適な多様性は自己学習の反復回数が増加するにつれて単調に増加する傾向が確認された。
- モデルやデータセットの規模拡大は,均質的な環境下での崩壊を増幅させ,多様性の利点を高める。
微分可能ソートとベクトル内ランク正規化の構造的不適合性 [cs.LG, stat.ML]目的:微分可能ソートおよびランキング演算子とベクトル内ランク正規化の構造的不適合性
- 機械学習におけるランキング手法は,検索エンジンや推薦システムなど,様々な分野で重要性が増している。
- 微分可能ソートは学習が困難であり,安定したランキング結果を得ることが課題となっている。
- 本研究は,微分可能ソートとベクトル内ランク正規化の根本的な不適合性を明らかにすることを目指す。
- 微分可能ソートとランキング演算子は,ベクトル内ランク正規化と構造的に両立しないことが示された。
- SoftSortのようなギャップ感受性緩和法は,温度と入力スケールに依存する定量的なマージンで不適合性を示す。
- SinkhornSortのようなバッチワイズランク緩和法は,バッチコンテキストのみによって出力が0または1に任意に近づくため不適合である。
FCMBench:現実世界への応用を目指す金融信用マルチモーダル大規模ベンチマーク [cs.CV, cs.AI, cs.CE, cs.MM]目的:金融信用に関する現実世界の応用を目的とした,大規模かつプライバシーに配慮したマルチモーダルベンチマーク
- 金融分野におけるAI活用の重要性が高まる中で,信用評価の自動化が求められている。
- 既存のデータセットは,現実世界の制約や多様な書類に対応しておらず,汎化性能の評価が困難である。
- 現実世界の金融書類に対応し,厳格なプライバシー保護を施したベンチマークを作成することで,AIモデルの性能評価を可能にする。
- FCMBenchは,26種類の書類に対応した5198枚の画像と13806組のVQAサンプルを含む大規模ベンチマークである。
- Gemini 3 Proが商用モデルとして最高のF1スコア(65.16)を,Kimi-K2.5がオープンソースモデルとして最高のスコア(60.58)を達成した。
- FCMBenchは,既存モデルの能力を区別する高い識別力を持つことが示され,実用的なAI研究の推進に貢献する。
フローマッチングによるcVAEベース歌声合成における潜在的ミスマッチの緩和 [cs.SD, cs.AI, eess.AS]目的:歌声合成における潜在表現のミスマッチ緩和
- 歌声合成は,音楽表現の自動化において重要であり,多様な応用が期待される。
- cVAEベースの歌声合成では,学習時と推論時で潜在表現にずれが生じ,表現力が低下する課題がある。
- 推論時の潜在表現を,学習時における潜在表現に近づけることで,より自然な歌声合成を目指す。
- 提案手法FM-Singerは,フローマッチングを用いて潜在表現を精緻化し,歌声合成の客観評価指標と知覚品質を向上させる。
- 潜在空間での処理であるため,軽量でありながら既存の合成基盤との互換性を維持する。
- 韓国語と中国語の歌声データセットを用いた実験で,提案手法の有効性が確認された。
物理情報ニューラルネットワークにおける凸多角形領域上のディリクレ境界条件を厳密に施行するための Wachspress 기반の超有限要素定式化 [math.NA, cs.NA, cs.NE]目的:物理情報ニューラルネットワークにおける凸多角形領域上のディリクレ境界条件の厳密な施行
- 物理現象のシミュレーションにおいて,境界条件の正確な設定は計算精度に不可欠である。
- 従来のニューラルネットワークを用いた手法では,境界条件の厳密な施行が困難であった。
- Wachspress座標に基づく超有限要素定式化により,境界条件を厳密に施行し,計算精度を向上させる。
- Wachspress座標と超有限要素定式化を組み合わせることで,凸多角形領域におけるディリクレ境界条件を厳密に施行できることを示した。
- 提案手法は,線形・非線形問題,逆熱伝導問題,パラメータ化された幾何学的ポアソン境界値問題において高い精度を発揮した。
- Wachspress座標は,ニューラルネットワークに対する幾何学的特徴マップとして機能し,パラメータ化された形状に対する応用を可能にする。
医療QAにおけるコンテンツと配信の分離:DeCode [cs.CL, cs.AI]目的:医療QAにおける臨床的文脈を考慮した回答の生成
- 医療現場での情報ニーズは多様であり,患者個別の状況に合わせた適切な回答が求められる。
- 既存のLLMは,臨床的に正しい情報を出力するものの,患者の状況に合わない場合がある。
- LLMによる医療QAにおいて,患者の文脈に即した回答を生成する能力の向上を目指す。
- DeCodeは,既存のLLMを学習なしで拡張し,臨床的文脈を考慮した回答を可能にする。
- OpenAI HealthBenchにおける評価で,DeCodeはゼロショット性能を28.4%から49.8%に向上させた。
- DeCodeは,既存手法と比較して最先端の結果を達成し,LLMの臨床的質疑応答能力の改善効果を示唆する。
解剖学知識を活用した胸部X線画像解釈のためのマルチモーダル大規模言語モデルAnatomiX [cs.CV, cs.AI, cs.LG]目的:胸部X線画像解釈における解剖学的根拠付け
- 医療画像診断の精度向上は,疾患の早期発見と適切な治療に不可欠である。
- 既存のマルチモーダルモデルは,空間的推論や解剖学的理解に課題を抱えている。
- 解剖学的根拠に基づいた胸部X線画像解釈を実現し,診断精度を向上させる。
- AnatomiXは,解剖学的構造の識別と特徴抽出を二段階で行うことで,高度な解剖学的推論能力を実現した。
- 複数のベンチマークにおいて,既存手法と比較して解剖学的根拠付け,フレーズの根拠付け,診断,画像キャプション生成などのタスクで25%以上の性能向上を示した。
- 放射線科医のワークフローに着想を得たアプローチにより,医学領域における正確な解剖学的理解を促進する。
タスク固有のプロンプト・プロトタイプによるキーバリューペア不要の継続学習器 [cs.AI]目的:継続学習における知識獲得と既習知識の保持
- AIの汎用性向上には,新しい知識を継続的に学習する能力が不可欠である。
- 既存のプロンプト学習法はキーバリューペアに依存し,タスク間の干渉やスケーラビリティの課題がある。
- キーバリューペアを不要にし,より安定した継続学習を実現すること。
- 提案手法は,タスク固有のプロンプトとプロトタイプを用いることで,キーバリューペアなしで効果的な特徴学習を可能にする。
- プロンプト初期化時の正則化制約により,モデルの安定性を向上させている。
- 複数のデータセットでの実験により,提案手法の有効性が確認された。
学生とAIの協働監査:オンライン大学院CS学生のケーススタディ [cs.HC, cs.AI]目的:学生とAIの協働における学生の選好の調査
- 高等教育におけるAI利用は拡大しており,教育の質や学生の学習方法に大きな影響を与える可能性を秘めている。
- AIの過度な自動化,学生の主体性の低下,不確かな出力といった問題が懸念されている。
- AIの機能と学生の期待のギャップを特定し,より効果的で信頼性の高いAIシステム開発に貢献する。
- 調査の結果,学生はAIの利点を認識しつつも,過度な自動化や誤情報に対する懸念を抱いていることが明らかになった。
- 学生は,タスクの種類に応じてAIの関与レベルを調整したいと考えており,AIに対する明確な境界線を持つことを望んでいる。
- 本研究は,AIシステム設計において,学生の規範的期待とAIの機能との整合性を重視する必要性を示唆している。
大規模言語モデルを活用したオントロジー知識ベースの構築 [cs.IR, cs.AI]目的:オントロジー知識ベースの構築手法
- 知識管理システムにおいて,ドメイン知識を構造化する上で重要な役割を担う。
- 従来のオントロジー知識ベースの構築は,スケーラビリティ,一貫性,適応性に課題がある。
- 大規模言語モデルを活用し,知識獲得の効率化とオントロジーの継続的な改善を目指す。
- 大規模言語モデルを用いることで,オントロジー構築プロセスを大幅に加速することが示された。
- オントロジーの一貫性が向上し,バイアス軽減と透明性の確保が実現された。
- 知識管理システムの効率性,統合能力,スケーラビリティの向上に貢献する可能性が示唆された。
概念ドリフト下における少サンプル適応型マルウェアファミリー分類手法 FARM [cs.CL, cs.SI, cs.CR, cs.LG]目的:概念ドリフト下でのマルウェアファミリー分類
- マルウェアは常に進化し,セキュリティ脅威は多様化するため,分類モデルの維持が重要である。
- マルウェアの進化により,既存の分類モデルは性能劣化を起こしやすいという課題がある。
- 少数のラベルサンプルで新しいマルウェアファミリーに迅速に適応し,性能を維持すること。
- FARMは,共変量ドリフト下での分類性能を5.6%向上させることを示した。
- FARMは,未学習のマルウェアファミリーに対して,少サンプル学習により平均F1スコア0.85を達成した。
- 再学習を行うことで,F1スコアは0.94に向上し,長期的なモデル更新の有効性を示した。
MalURLBench:Web URL処理時のエージェントの脆弱性を評価するベンチマーク [cs.CR, cs.AI]目的:Web URLに対するLLMベースのエージェントの脆弱性の評価
- Webエージェントの利用が拡大する中で,そのセキュリティ確保は重要課題である。
- 悪意のあるURLを識別する能力が不十分であり,深刻な被害につながるリスクがある。
- 既存モデルの脆弱性を明らかにし,Webエージェントのセキュリティ向上に貢献する。
- 実験の結果,既存のLLMは巧妙に偽装された悪意のあるURLの検出に苦戦していることが判明した。
- 攻撃成功率に影響を与える重要な要因を特定し,URLGuardという軽量な防御モジュールを提案した。
- 本研究は,Webエージェントのセキュリティを向上させるための基盤となるリソースを提供する。
組合せ複体上のトポロジー情報に基づく選択的状態空間ネットワーク:高次グラフ学習への応用 [cs.LG, cs.AI]目的:高次グラフ学習のための組合せ複体上の選択的状態空間ネットワーク
- グラフ構造データの解析は,様々な分野で重要であり,その応用範囲は広い。
- 従来のグラフニューラルネットワークは,高次の関係性を捉えきれないという課題がある。
- 組合せ複体を利用し,効率的かつスケーラブルな高次グラフ学習を実現することを目指す。
- 提案手法CCMambaは,組合せ複体上の情報伝播を効率的に行う選択的状態空間モデルである。
- CCMambaは,自己注意メカニズムの計算コスト問題を克服し,線形時間で長距離依存性をモデル化する。
- 実験結果から,CCMambaは既存手法を上回り,深層アーキテクチャにおける過剰平滑化にも強いことが示された。
MoHETS:異種エキスパート混合による長期時系列予測 [cs.LG, cs.AI]目的:長期時系列予測の性能向上
- 実世界の多変量時系列データは複雑であり,正確な予測は重要である。
- 既存手法では,時系列データの多様な時間的ダイナミクスを捉えきれない。
- 異種エキスパートを活用し,長期予測における専門性を高めることを目指す。
- MoHETSは,従来のTransformerモデルに異種エキスパート混合層を組み込んだ。
- 異種エキスパートは,系列レベルの連続性とパッチレベルの周期構造を捉える。
- 7つの多変量ベンチマークで最先端の性能を達成し,平均MSEを12%削減した。
スペクトル制御による学習可能なクープマン拡張トランスフォーマーベース時系列予測 [cs.LG, cs.AI, cs.SY, eess.SY]目的:学習可能なクープマン演算子パラメータ化
- 時系列データは,経済,気象,医療など幅広い分野で重要であり,正確な予測は不可欠である。
- 深層学習モデルは表現力に優れるが,長期予測における安定性や解釈性に課題がある。
- クープマン演算子を導入し,安定性やスペクトルを制御することで,予測性能と解釈性を向上させる。
- 提案手法は,PatchTST,Autoformer,Informerといった既存モデルと互換性を持ちつつ,線形遷移演算子のスペクトルを制御可能である。
- 大規模ベンチマーク実験の結果,学習可能なクープマンモデルは,バイアスと分散のトレードオフを改善し,より解釈可能な潜在的ダイナミクスを示した。
- 固有値軌跡や安定性包絡線を含むスペクトル分析により,提案手法の有効性,安定性,理論的根拠が示された。
LLMは人間のバイアスを共有するか? 事前知識,無関係な文脈,計算資源の制約下における因果推論 [cs.AI]目的:大規模言語モデルにおける因果判断戦略の解明
- AIの応用範囲拡大に伴い,因果推論能力の評価が重要になっている。
- LLMの因果推論が,規範的な計算,人間の思考,あるいは単純なパターン認識に基づいているか不明確である。
- LLMの因果判断における人間のバイアスとの差異を明らかにすること。
- 多くのLLMは,人間よりもルールに基づいた推論戦略をとることが示された。
- LLMは,弱い説明の打ち消しやマルコフの違反といった人間の典型的な因果バイアスを示さないことが判明した。
- 思考連鎖(CoT)は,多くのLLMの因果判断のロバスト性を向上させる。
拡散言語モデルにおける文脈ロバストな再マスキング [cs.LG]目的:拡散言語モデルにおける文脈に依存しやすいトークンの特定と修正
- 拡散言語モデルは,自然言語処理の分野で注目されており,高性能なテキスト生成を可能にする。
- 既存のモデルは,初期の予測が文脈全体を考慮していない場合があり,誤った予測が連鎖的に発生する可能性がある。
- 文脈に敏感なトークンを特定し,再マスキングすることで,生成の一貫性と品質を向上させることを目指す。
- 提案手法COREは,トークンの文脈への依存度を評価し,不安定なトークンを効率的に修正する。
- LLaDA-8B-Baseを用いた実験で,推論時修正により,推論とコーディングのベンチマークで一貫した改善が確認された。
- 特に,MBPPにおいて最大9.2パーセントポイントの性能向上を実現し,計算コストを同等にしたベースラインモデルを上回った。
LLM駆動によるマルチモーダル推薦 [cs.IR, cs.AI]目的:ユーザー行動の深層にある動機を明らかにする推薦システム
- パーソナライズ情報検索において,ユーザー行動の根源的な動機を理解することが重要視されている。
- 既存研究では動機を潜在変数として扱うことが多く,ユーザー動機の意味的な豊かさを捉えきれていない。
- レビューテキストなど,動機に関する明示的な手がかりを含む異種情報を活用し,動機モデリングの改善を目指す。
- 提案手法LMMRecは,3つの実データセットで有効性を示した。
- 従来の推薦システムよりも,ユーザーの意思決定プロセスとコンテンツ選好をより深く解釈できる。
- 推薦の解釈可能性と説得力を高めることが期待される。
VideoTemp-o3:エージェント的思考による動画理解における時間的根拠付けと動画理解の調和 [cs.CV, cs.AI]目的:長編動画理解のための,時間的根拠付けと質問応答の同時モデリング
- 動画理解は,人間にとって自然な情報処理であり,様々な応用分野で重要性が増している。
- 従来の均一フレームサンプリングでは重要な視覚的証拠を見逃し,性能低下や幻覚を引き起こす。
- 動画内の関連部分を特定し,効率的に質問応答を行うための新たなフレームワークを開発する。
- VideoTemp-o3は,動画内の関連セグメントを正確に特定し,柔軟なクリッピングを可能にする。
- 教師あり学習段階では,探索を促しノイズを抑制する統一的なマスキング機構を導入した。
- 強化学習では,報酬ハッキングを軽減するための専用報酬を導入し,性能を向上させた。
クエリ展開のための自動インドメイン事例構築とLLMベースの多LLM拡張の改良 [cs.IR, cs.AI]目的:クエリ展開のための自動化されたドメイン適応型フレームワーク
- 情報検索の精度向上には,クエリの表現力を高めることが重要であり,クエリ展開はそのための有効な手法である。
- 従来のクエリ展開は,手動でのプロンプト作成や事例選択に依存しており,スケーラビリティに課題があった。
- ドメインシフトに強く,大規模なデータにも対応できるクエリ展開手法の開発を目指す。
- 本フレームワークは,BM25-MonoT5パイプラインを用いて疑似関連文書を収集し,ドメイン固有の事例プールを自動的に構築する。
- 教師なしクラスタリング戦略により,多様な事例を選択し,安定したインコンテキストQEを実現する。
- 異なる特性を持つ2つのLLMによるアンサンブルと,それらを統合するLLMにより,一貫した改善効果が得られた。
FastLSQ:フーリエ特徴と厳密な解析的導関数による一発微分方程式求解 [cs.DC, math.NA, cs.LG, cs.NA]目的:偏微分方程式および逆問題の求解
- 物理現象のシミュレーションや設計において,偏微分方程式の高速かつ高精度な求解は不可欠である。
- 従来の数値解法は計算コストが高く,複雑な問題に対しては現実的な時間で求解が困難であるという課題がある。
- フーリエ特徴を用いることで,微分演算子をグラフフリーで構築し,高速な求解を実現することを目指す。
- FastLSQは,線形偏微分方程式を1回の最小二乗法で,非線形偏微分方程式をニュートン・ラプソン法と解析的組み立ての再利用により求解する。
- 17種類の偏微分方程式(1~6次元)において,線形方程式は0.07秒で$10^{-7}$,非線形方程式は9秒未満で$10^{-8} \sim 10^{-9}$の精度を達成した。
- これにより,反復型PINNと比較して,大幅な高速化と高精度化を実現し,微分可能なデジタルツインや逆問題への応用を可能にする。
階層的コンセプト埋め込みと追跡による解釈可能な画像分類 [cs.LG, cs.CV]目的:解釈可能な画像分類モデルにおけるコンセプトの抽出と活用
- 画像認識分野では,モデルの予測根拠を説明する解釈可能性が重要視されている。
- 従来の疎なコンセプト回復法は,コンセプト間の階層構造を無視しており,説明に矛盾が生じることがある。
- 本研究は,コンセプトの階層構造を考慮することで,より信頼性が高く解釈可能な画像分類を実現する。
- 提案手法HCEPは,潜在空間におけるコンセプト埋め込みの階層構造を誘導し,階層的疎コーディングを用いる。
- 実験の結果,HCEPはベースラインと比較してコンセプトの精度と再現率を向上させ,分類精度も維持した。
- 特に,サンプル数が限られている場合,HCEPは優れた分類精度とコンセプトの回復を実現した。
RooflineBench:Roofline分析によるエッジデバイスLLMのベンチマークフレームワーク [cs.LG, cs.AI, cs.AR, cs.PF]目的:エッジデバイスにおけるLLMの性能評価のためのフレームワーク
- 小型言語モデルの活用により,エッジデバイスでのローカルな知能が重要視されている。
- 多様なアーキテクチャの理論上の性能上限を客観的に測定することが困難である。
- Rooflineモデルに基づき,効率比較のための指標を提示し,ハードウェアとソフトウェアの協調設計を支援する。
- Rooflineモデルを用いて演算集約度(OI)を分析し,LLMの推論ポテンシャルを定量化した。
- 系列長やモデルの深さが増加するとOIが変化し,ハードウェアの多様性による効率の低下が確認された。
- Multi-head Latent Attention(M LA)等の構造改善が,エッジデバイスの潜在的な推論能力を引き出すことが示された。
バリエーションを考慮した柔軟な3Dガウス編集 [cs.GR, cs.AI]目的:3Dガウススプラッティングのガウス素因子の属性変化予測による編集手法
- 3Dコンテンツ編集において,高品質な結果を効率的に得る重要性が高まっている。
- 従来の2D空間での編集を3Dに投影する方法では,視点間の一貫性が課題となっていた。
- 3Dガウスの直接編集により,柔軟性と効率性を向上させ,編集パイプラインの制約を解消することを目指す。
- 提案手法VF-Editorは,2D編集の知識を蒸留したバリエーション予測器を用いることで,ガウス属性の変化を予測し,直接編集を可能にする。
- VF-Editorは,多様な2Dエディタからの知識を単一の予測器に統合し,3Dドメインへの効果的な知識転移を実現する。
- 実験結果から,間接編集パイプラインの限界が明らかになり,提案手法の有効性と柔軟性が確認された。
Mamba-2アテンションハイブリッドによる微小な再帰的推論 [cs.AI, cs.CL]目的:抽象的推論タスクにおける潜在的な再帰による性能向上
- 複雑な問題を解決するため,人間の推論能力を模倣するAIモデルが求められている。
- 従来の再帰的推論モデルは,パラメータ数に制約がある場合,性能が低下しやすい。
- Mamba-2のような新しいアーキテクチャが再帰的推論に有効か検証し,性能向上を目指す。
- Mamba-2とTransformerを組み合わせたハイブリッドモデルは,ARC-AGI-1データセットでpass@2スコアを2.0%向上させた。
- より高いK値(pass@100)においても一貫して高い性能を示し,正解候補の網羅性が向上した。
- SSMベースの演算子が再帰的推論において有効であり,最適な混合戦略を探求する第一歩となる。
SkillsBench:多様なタスクにおけるエージェントのスキル性能のベンチマーク [cs.AI]目的:エージェントスキルの有効性評価
- LLMエージェントの能力向上に不可欠なスキル群の標準的な評価方法が求められている
- エージェントスキルが実際に性能向上に貢献しているかどうかの客観的な指標がない
- エージェントスキルの有効性を定量的に評価し,スキル設計の指針を提供する
- キュレーションされたスキルは平均正答率を16.2%向上させたが,ドメインやタスクによって効果は異なった
- ソフトウェアエンジニアリングでは4.5%の改善に留まる一方,ヘルスケア分野では51.9%の大幅な改善が見られた
- 自己生成スキルは平均的に効果がなく,モデル自身での手続き知識の作成は困難であることが示唆された
階層型LLMアーキテクチャにおける非同期検証セマンティックキャッシュ [cs.IR, cs.AI]目的:セマンティックキャッシュの効率化
- LLMが検索,アシスタンス,エージェントワークフローにおいて重要であり,コストと遅延の削減が課題。
- 静的・動的キャッシュの閾値設定が難しく,再利用機会の損失や誤った応答のリスクがある。
- 静的キャッシュの適用範囲を拡大し,応答の精度と効率を両立することを目指す。
- Kritesは,LLMによる検証を通じて静的キャッシュのカバー範囲を拡大し,動的キャッシュへの昇格を実現する。
- 会話型および検索型タスクにおいて,既存手法と比較して静的キャッシュからの応答割合を最大3.9倍に向上。
- Kritesは,クリティカルパスの遅延を変化させることなく,静的キャッシュの利用率を向上させる。
BitDance:二値トークンを用いた自己回帰生成モデルのスケーリング [cs.CV, cs.AI]目的:高エントロピーな二値潜在変数を用いた自己回帰画像生成モデル
- 画像生成モデルは,近年急速に発展しており,様々な応用が期待されている。
- 従来の自己回帰モデルは,パラメータ数が増大し,計算コストが高いという課題があった。
- 本研究は,二値トークンと拡散モデルを用いることで,計算効率の良い画像生成を目指す。
- BitDanceは,ImageNet 256x256において,FID 1.24を達成し,自己回帰モデルの中で最高の性能を示した。
- パラメータ数を5.4倍削減し,推論速度を8.7倍向上させ,既存の並列自己回帰モデルを上回った。
- 大規模なマルチモーダルトークンで訓練することで,高解像度でフォトリアリスティックな画像を効率的に生成できることを示した。
連合グラフニューラルネットワークにおけるグローバル集約の幾何学的コヒーレンス [cs.LG, cs.DC, cs.NI]目的:連合学習におけるグローバルモデルの幾何学的コヒーレンスの解析と改善
- グラフ構造データは現実世界の複雑な関係性を表現可能であり,様々な分野で活用が期待される。
- 連合学習では,クライアント間のデータやグラフ構造の異質性が問題となり,モデル性能が低下することがある。
- クライアント更新の幾何学的整合性を保つことで,連合学習におけるグローバルモデルの性能劣化を防ぐことを目指す。
- 本研究では,異種ドメインにおける連合グラフニューラルネットワークのグローバル集約における幾何学的失敗モードを特定した。
- GGRS(Global Geometric Reference Structure)というサーバー側のフレームワークを提案し,幾何学的許容性基準に基づきクライアント更新を調整する。
- 実験結果から,GGRSが学習ラウンドを通してグローバルメッセージパッシングのコヒーレンスを維持することが示された。
OpenSage:自己プログラミングエージェント生成エンジン [cs.AI, cs.CR, cs.SE]目的:エージェントの自己生成型トポロジーとツールセットの自動作成
- エージェント開発は,多様なタスク自動化の鍵であり,その性能向上は重要課題である。
- 既存のエージェント開発キットは機能不足,もしくは手動設計に依存し,汎用性と性能が限定される。
- LLMを活用し,エージェントの構成要素を自動生成することで,その限界を克服することを目指す。
- OpenSageは,LLMがエージェントのトポロジーとツールセットを自動生成する初の開発キットである。
- 階層型グラフベースのメモリシステムにより,効率的な情報管理を実現している。
- 複数のベンチマーク実験で既存のADKを上回る性能が確認され,各構成要素の有効性が実証された。
