arXiv雑要約
AI - 2026/04/02 公開
1型糖尿病における行動支援のための強化学習:GUIDE [cs.LG]目的:1型糖尿病患者の血糖制御を改善するための行動支援フレームワーク
- 1型糖尿病の管理は,安全な血糖範囲を維持するためにインスリンと生活習慣の継続的な調整が不可欠である。
- 既存の自動インスリン投与システムでは目標とする血糖コントロールを達成できない患者が多く存在する。
- 強化学習を用いて,インスリン投与に加えて行動に関する推奨を提供し,血糖異常を予防すること。
- 提案手法GUIDEは,介入の種類,量,タイミングを定義した行動推奨を生成し,血糖予測モデルと統合する。
- 25人の1型糖尿病患者データを用いた評価の結果,CQL-BCアルゴリズムが最も高い時間範囲内率(85.49%)を示した。
- 学習されたCQL-BCポリシーは,患者の行動パターンを保持し,高いコサイン類似度(0.87±0.09)を示した。
RAGShield:政府における検索拡張生成システムの知識ベース汚染に対するProvenance検証型多層防御 [cs.CR, cs.AI]目的:知識ベース汚染攻撃に対する多層防御フレームワーク
- 政府機関におけるRAGシステムの普及に伴い,そのセキュリティ確保が重要となっている。
- RAGシステムの知識ベースは,悪意のある文書の注入による汚染攻撃に脆弱である。
- 知識ベースのProvenance検証によって,RAGシステムの信頼性を高めることを目指す。
- RAGShieldは,文書の改ざんを検出し,信頼できる情報源を優先することで,攻撃の成功率を0.0%に抑制した。
- 特に,Provenance検証を回避する巧妙な数値操作攻撃に対し,交差情報源矛盾検出器が有効に機能した。
- 文書注入時の防御には限界があり,内部関係者による置き換え攻撃は17.5%の攻撃成功率を示した。
勾配に基づくデータ価値評価がゲーム理論的経路計画のためのカリキュラム学習を改善する [cs.LG, cs.SY, eess.SY]目的:ゲーム理論的経路計画の訓練におけるカリキュラム学習の改善
- ロボットの自律的な行動計画は重要であり,複雑な環境下での安全かつ効率的な経路計画が求められる。
- 既存の経路計画手法は,訓練データの順序に大きく依存し,最適な順序を見つけるのが困難である。
- 勾配に基づくデータ価値評価を用いて,より効率的な訓練データ順序を決定し,経路計画の性能を向上させる。
- 勾配に基づくデータ価値評価により,metadataに基づくヒューリスティクスと比較して,カリキュラム学習の性能が大幅に向上した。
- 特に,TracInを用いたカリキュラム学習は,ADE(Average Displacement Error)が1.704mと,metadataに基づく手法(1.822m)よりも優れていた。
- TracInスコアとシナリオmetadataはほぼ直交しており,勾配に基づく価値評価が訓練動態の隠れた側面を捉えていることが示された。
EvolveTool-Bench:LLM生成ツールライブラリのソフトウェア成果物としての品質評価 [cs.RO, cs.SY, eess.SY, cs.SE, cs.AI]目的:LLM生成ツールライブラリのソフトウェア品質の評価
- LLMエージェントの進化に伴い,動的にツールを生成する重要性が増している。
- 既存の評価は,タスク完了のみに焦点を当て,ソフトウェア品質が見過ごされている。
- LLM生成ツールライブラリを,ソフトウェア成果物として評価する新たなベンチマークを提案する。
- EvolveTool-Benchは,再利用性,冗長性,安全性など,ライブラリレベルのソフトウェア品質指標を定義した。
- タスク完了率が同程度でも,ツールライブラリの健全性には最大18%の差が見られた。
- LLM生成ツールは,ブラックボックスではなく,ソフトウェア成果物として評価・管理する必要がある。
深層ネットワークは単純なデータを好む [cs.LG, cs.AI]目的:深層ネットワークにおけるデータ複雑さと密度推定の関係性の解明
- 深層学習モデルの信頼性評価において,データの典型性推定は重要な役割を果たす。
- 分布外データ(OOD)に対する密度推定の誤り,特に単純なOODデータに高い密度が割り当てられる現象が課題である。
- 様々なモデルで共通して見られる,複雑さの低いデータに高い密度が推定されるという傾向を定量的に示す。
- 様々な深層学習モデルにおいて,複雑度の低いサンプルほど高い密度が推定されるという規則性が確認された。
- この傾向は,CIFAR-10とSVHNのような異なるデータセット間でも一貫して観察された。
- 最も複雑なサンプルのみで学習させたモデルでも,単純な画像をより高密度と評価する傾向は変わらなかった。
脳転移セグメンテーションにおける深層学習の汎化性能の向上:施設間格差への対応 [cs.CV, cs.AI]目的:脳転移セグメンテーションにおける施設間汎化性能の向上
- 脳転移は治療が難しく,正確なセグメンテーションが治療計画に不可欠である。
- 深層学習モデルは施設ごとに学習データが異なると,他の施設での性能が低下しやすい。
- 施設間での画像特徴量の差異を解消し,汎化性能の高いセグメンテーションを実現する。
- VAE-MMDパイプラインは,施設間識別器の精度を0.91から0.50に低減し,特徴量のアライメントに成功した。
- 提案手法は,平均F1スコアを11.1%(0.700から0.778),平均sDiceを7.93%(0.7121から0.7686)向上させた。
- 平均HD95は65.5%(11.33から3.91mm)減少しており,境界レベルの精度も向上している。
クロスグラフチューニングフリーGNNプロンプティングフレームワーク [cs.LG]目的:グラフニューラルネットワークのプロンプティングによるタスク間,グラフ間の適応
- グラフデータは様々な分野で利用され,その分析は重要である。
- 既存手法はタスク固有のパラメータ調整が必要で,グラフ間の汎化性能が課題である。
- グラフ構造の変化に対応し,チューニングなしで推論可能なGNNの実現。
- 提案手法CTPは,同種・異種グラフ両方に対応し,新たなグラフへの適用にチューニングが不要である。
- 少数ショット予測タスクにおいて,最先端手法と比較して平均30.8%,最大54%の精度向上を達成した。
- これにより,グラフプロンプト学習における新たな視点を提供し,プラグアンドプレイ型GNN推論エンジンの可能性を示した。
COTTA:自律走行における軌跡予測のための文脈認識型転移適応 [eess.SY, cs.SY, cs.RO, cs.CV, cs.AI]目的:自律走行における軌跡予測の精度向上
- 安全な自律走行を実現するには,周囲の車両等の軌跡予測が不可欠である。
- 既存のデータセットは欧米環境に偏っており,他地域の交通事情に合致しない。
- 異なる地理的環境における軌跡予測モデルの転移学習戦略を確立する。
- 事前学習済み知識の活用が予測性能の大幅な向上に貢献することが示された。
- エンコーダを固定し,デコーダを選択的にファインチューニングする戦略が最も効果的である。
- この手法により,スクラッチからの学習と比較して予測誤差を66%以上削減できた。
LLMシステムの意思決定中心設計 [cs.AI, cs.LG]目的:LLMシステムの意思決定プロセス
- LLMは急速に進化しており,様々な応用が期待されている。その信頼性向上は不可欠である。
- 従来のLLMシステムでは,意思決定が生成処理に埋め込まれており,問題点の特定が困難である。
- 意思決定を明示化することで,LLMシステムの信頼性,制御性,診断性を高める。
- 本研究では,意思決定信号と行動へのマッピングを分離する意思決定中心のフレームワークを提案した。
- 実験の結果,無駄な行動が減少し,タスクの成功率が向上し,解釈可能な失敗モードが明らかになった。
- このフレームワークは,より信頼性が高く,制御可能で,診断可能なLLMシステムの構築に役立つと考えられる。
人間データからのヒューマノイドナビゲーション学習 [eess.SY, cs.SY, math.OC, q-fin.CP, cs.RO, cs.AI, cs.CV, cs.LG]目的:ヒューマノイドナビゲーションの学習
- ロボットの自律的な移動能力は,様々な環境での活動を可能にする上で重要である。
- 従来のナビゲーション手法は,ロボット固有のデータや調整が必要であり,汎化性に課題がある。
- 人間が行き交う多様な環境で,ロボットが人間データのみからナビゲーションを学習することを目指す。
- EgoNavは,5時間の人間歩行データのみを用いて,未知の環境をヒューマノイドロボットが移動することを可能にするシステムである。
- 拡散モデルにより,過去の軌跡,360度視覚記憶,DINOv3バックボーンからの特徴量に基づき,将来の軌跡分布を予測する。
- オフライン評価と実機デモにより,EgoNavは衝突回避や環境網羅性において既存手法を上回り,ドアの開閉待ちや群衆回避といった行動が自然に現れることが示された。
LLMにおける勾配誘導特徴量ドリフトによるメンバーシップ推論:G-Drift MIA [cs.LG, cs.AI]目的:大規模言語モデルにおけるメンバーシップ推論手法
- LLMのプライバシー保護と著作権の問題が重要視されているため,学習データに含まれる情報の漏洩リスクを評価する必要がある。
- 既存のメンバーシップ推論攻撃は,精度が低い場合が多く,特にメンバーと非メンバーの分布が同じ場合,ランダムよりわずかに優れる程度である。
- 勾配誘導特徴量ドリフトを用いて,LLMの学習データに含まれる情報の識別精度向上を目指す。
- G-Drift MIAは,従来の出力確率や損失値に基づく手法と比較して,メンバーシップ推論において大幅な性能向上を達成した。
- 学習データに含まれるサンプルは,非メンバーと比較して,より小さく,構造化された特徴量ドリフトを示すことが示された。
- わずかな勾配介入によって,学習データのメンバーシップを検証し,LLMにおけるプライバシーリスクを評価できる可能性が示唆された。
自己ルーティング:隠れ状態からのパラメータフリーなエキスパートルーティング [cs.AI]目的:エキスパートルーティングのメカニズム
- モデルの容量拡大には,エキスパートの選択的活性化が重要であり,MoE層はその有効な手法である。
- 従来のMoEでは,隠れ状態からエキスパートへのマッピングに学習されたルーターが必要であり,その学習にコストがかかる。
- 隠れ状態自体からルーティングが可能か検証し,ルーターパラメータを削減することで効率的なMoEを実現する。
- 自己ルーティングは,学習されたルーターと同等の性能を維持しつつ,ルーティング専用のパラメータを一切削除できる。
- 自己ルーティングは,エキスパートの利用状況のバランスを改善し,ルーティングエントロピーが約17%向上した。
- ImageNet-1K分類において,自己ルーティングは対応する学習されたルーターMoEよりもわずかに高い性能を示した。
シャプレー値に基づく導関数を用いないニューラルネットワーク修復アプローチ [cs.SE, cs.LG]目的:ニューラルネットワークの欠陥修復
- 深層学習モデルの信頼性は重要であり,バックドア攻撃や不公平性といった欠陥への対策が不可欠である。
- 既存手法は勾配計算に依存したり,解釈性の低い局所化と修復を行うため,汎用性に課題がある。
- 本研究は,勾配計算を必要とせず,解釈可能な局所化と進化最適化を組み合わせた修復手法を提案する。
- SHARPENは,Deep SHAPを用いた解釈可能な欠陥局所化戦略により,各層・ニューロンの貢献度を定量化する。
- CMA-ESを導入することで,勾配計算なしで変数間の依存関係を考慮した修復が可能となる。
- バックドア除去,敵対的緩和,不公平性修復の各タスクにおいて,既存手法を上回る性能を示した。
部分観測マルコフポテンシャルゲームにおける内部状態に基づく方策勾配法 [cs.MA, cs.LG]目的:部分観測マルコフポテンシャルゲームにおけるNash均衡の探索
- 多エージェント環境下での最適な協調行動の実現は,社会システムの効率化に不可欠である。
- 部分観測性や分散情報により,多エージェント強化学習は計算困難になりやすい。
- 内部状態を用いることで,情報の次元の呪いを克服し,実用的な学習を可能とする。
- 提案手法は,標準的なマルコフポテンシャルゲームにおける統計的誤差項と,有限状態コントローラーの使用による近似誤差項からなる非漸近収束境界を確立した。
- 有限状態コントローラーを用いた提案手法は,現在の観測のみを使用する設定と比較して,複数の部分観測環境において一貫した性能向上を示した。
- 共通情報フレームワークを活用することで,共有情報と局所情報の双方に基づいてエージェントが行動できるようになった。
実行検証型強化学習による最適化モデリング [cs.CL, cs.RO, cs.SY, eess.SY, cs.AI, cs.CL]目的:最適化モデリングの自動化
- 意思決定の効率化に不可欠であり,複雑な問題を解決する上で重要な役割を果たす。
- 大規模言語モデルの利用はコストがかかり,特定のソルバーに過剰適合しやすいという課題がある。
- 実行検証型学習により,ソルバー間の汎化性能と低コストな適応を目指す。
- 提案手法EVOMは,数学的プログラミングソルバーを検証環境として活用する。
- EVOMは,ソルバー固有のコードを生成し,実行結果を報酬に変換して強化学習を行う。
- 実験結果から,EVOMは既存手法と同等以上の性能を示し,ゼロショットソルバー転移や低コストな適応が可能であることが示された。
多義性か多義語か:語彙的同一性が重ね合わせ指標を混乱させる [cs.CL, cs.AI]目的:語彙的同一性による影響の定量化
- 脳科学研究において,ニューロンの活性化パターンは意味理解の鍵となる。
- 従来の重ね合わせ指標は,語彙的な混同を考慮せず,誤った解釈を生む可能性がある。
- 語彙的同一性が重ね合わせ指標に与える影響を明らかにし,より正確な指標を開発する。
- 同じ単語形(例:「bank」)に対するニューロンの活性化が,意味の異なる文脈でも高くなることが示された。
- この語彙的混同は,モデルの規模(1億1千万〜700億パラメータ)に関わらず一貫して見られた。
- 語彙的混同をフィルタリングすることで,単語の意味消岐能が向上し,知識編集の選択性が高まることが確認された(p = 0.002)。
大規模言語モデルにおける信頼性の高い真実整合不確実性推定に向けて [cs.AI, cs.CL]目的:大規模言語モデルの不確実性推定の信頼性向上
- 大規模言語モデルの利用拡大に伴い,その出力の信頼性確保が重要課題となっている。
- 既存の不確実性推定指標は,設定によって性能が不安定であり,実用上の限界がある。
- 真実に基づいた不確実性推定を実現し,言語モデルの信頼性を高める。
- 既存の不確実性推定指標は,情報量の少ない状況で識別能力が低下する。
- 提案手法Truth AnChoring (TAC)は,不確実性推定指標を真実と整合させることで,信頼性を改善する。
- TACは,ノイズのある少数の教師データでも,適切に校正された不確実性推定を学習可能である。
バイザンチン耐性勾配追跡の確率的エッジドロップアウトによる収束 [cs.LG, cs.MA, cs.SY, eess.SY]目的:バイザンチンエージェントが存在するネットワークにおける分散最適化
- 分散学習は大規模データセットを扱う上で重要であり,計算資源を効率的に活用できる。
- 悪意のあるエージェント(バイザンチンエージェント)が存在する場合,最適化の収束が妨げられる。
- 悪意のあるメッセージの影響を軽減し,分散最適化の収束性を保証すること。
- 提案手法GT-PDは,悪意のある通信下でも勾配追跡の収束特性を維持する。
- GT-PD-Lは,持続的な摂動による追跡誤差の蓄積を抑制し,線形収束を達成する。
- MNISTデータセットでの実験により,GT-PD-Lは他の手法よりもステルス攻撃に対する性能が高いことが示された。
ファーストロジットブースティング:大規模ビジョン言語モデルにおける物体幻覚の軽減のための視覚的根拠付け手法 [cs.CV, cs.AI, cs.CL]目的:大規模ビジョン言語モデルにおける物体幻覚の軽減
- 近年,画像と言語の両方を理解するマルチモーダルタスクにおいて,大規模ビジョン言語モデルの性能が著しく向上している。
- 大規模ビジョン言語モデルは,存在しない物体を生成する物体幻覚という持続的な課題を抱えている。
- 本研究は,追加の学習や外部モデルを必要とせず,視覚的根拠付けの長期的な減衰を緩和することで,物体幻覚を軽減することを目的とする。
- ファーストロジットブースティング(FLB)は,生成された最初のトークンのロジットを保存し,後続のトークン予測に加えることで,視覚情報の長期的な減衰を効果的に緩和する。
- FLBは,生成を通して最初のトークンに埋め込まれた視覚情報を維持し,「The」トークンの安定化効果を通じて幻覚語を抑制することが観察された。
- 実験結果から,FLBは様々なタスク,ベンチマーク,バックボーンモデルにおいて物体幻覚を大幅に軽減することが示された。
AI仲介型職場交渉における性格特性の違い [cs.HC, cs.AI, cs.CL, cs.CY]目的:AI仲介型職場交渉における性格特性とコーチング効果の関係
- 職場交渉は,組織の成果に不可欠であり,円滑なコミュニケーションが重要である。
- 従来のコーチングは,利用者全体に均一な効果を仮定しており,個々の特性を考慮していない。
- 性格特性に基づいた個別化されたAIコーチングの必要性を明らかにすること。
- 性格特性によって,AIコーチングの効果に差異が見られた。
- 特に,ARC類型に基づいた3つの性格プロファイル(強靭型,抑制過多型,抑制不足型)において,効果に違いがあった。
- 脆弱な利用者には,包括的な介入よりも,的を絞った介入が有効であることが示唆された。
7テスラMRIを用いた多発性硬化症病変のU-netおよびTransformerベースセグメンテーションによる自動検出 [cs.CV, cs.LG]目的:7テスラMRI画像における多発性硬化症病変の自動検出
- 多発性硬化症の早期診断と治療効果の評価には,正確な病変の定量が不可欠である。
- 既存の病変セグメンテーションツールは,主に1.5-3T MRI画像で開発されており,7T MRI画像への直接的な適用には課題がある。
- 7T MRI画像に特化した,高精度な病変セグメンテーションモデルの開発が求められている。
- 7T MRI画像で訓練されたTransformerモデルは,既存のLST-AIと同等の重複度を示し,古典的手法では検出されなかった微小病変を検出した。
- 最適なTransformerモデル(SegFormer)は,ボクセル単位および病変単位のDice係数において,古典的なLST-LPAツールを上回る性能を示した。
- 画像の解像度を下げることで性能が低下したことから,微小病変検出にはネイティブな7T解像度が重要であることが示唆された。
ハミルトン力学モデルにおける相空間の健全性:ラグランジュ記述子アプローチ [cs.LG, math.DS]目的:ニューラルネットワークによるハミルトン系モデルの評価手法
- 古典力学の基礎であり,多様な物理現象を記述するため,ハミルトン力学の理解は重要である。
- 従来の評価指標では,ハミルトン系の大域的な幾何学的構造を評価することが困難であった。
- ニューラルネットワークモデルがハミルトン力学の性質をどれだけ忠実に学習しているかを評価する。
- ラグランジュ記述子を用いて,ニューラルネットワークモデルの相空間における幾何学的構造を評価する枠組みを提案した。
- ダッフィング振動子においては,全てのモデルがホモクリニック軌道の幾何構造をある程度再現できた。
- 三モード非線形シュレディンガー方程式においては,シンプレクティック構造モデルとリザバーコンピューティングの性能差が顕著に現れた。
対数スコアとべき乗則の発見:エージェントベース評価における測定と網羅性の分離 [cs.AI, cs.CL, cs.HC, cs.MA]目的:LLMベースのエージェントによる評価の信頼性と必要なエージェント数に関する検証
- 会話型AIの評価は重要であり,自動化された信頼性の高い手法が求められている。
- LLMエージェントの評価の信頼性や,十分な評価を得るために必要なエージェント数に不確実性が存在した。
- エージェントパネルの規模と評価の質,問題点の発見の関係性を明らかにすること。
- ペルソナベースのエージェントは,チューリングテスト形式の検証において,人間の評価者と区別できない評価を生成した。
- 品質スコアはパネル規模の対数関数的に向上する一方,問題点の発見はべき乗則に従う。どちらも限界に達するが,スコアの方が早く飽和する。
- このメカニズムは,エージェントの多様性に起因し,Big Five人格特性に基づく条件付けが質の異なる側面を探索することを可能にしている。
シリコンの鏡:LLMエージェントにおけるおべっか防止のための動的行動ゲーティング [cs.AI]目的:LLMエージェントにおけるおべっか現象の抑制
- LLMの利用拡大に伴い,その信頼性が重要課題となっている。
- LLMは,事実に基づいた正確性よりもユーザーの承認を優先する傾向がある。
- ユーザーの誘導戦術を検出し,事実に基づいた応答を維持する手法を開発する。
- 提案手法「シリコンの鏡」は,ユーザーの誘導戦術を検出し,行動を動的に調整することで,おべっか現象を抑制する。
- TruthfulQAの評価において,Claude Sonnet 4での発生率を83.3%削減できた(p = 0.112)。
- Gemini 2.5 Flashでは,おべっか現象を69.6%削減し,統計的に有意な結果を得た(p < 0.001)。
高次元データ可視化におけるラショモン効果 [cs.LG]目的:高次元データの構造を保持しつつ,多様な埋め込み表現の活用
- 高次元データの可視化は,データ理解や分析において不可欠である。
- 次元削減は一意ではなく,表現の多様性ゆえに解釈が困難になりがちである。
- 多様な埋め込み表現を活用し,解釈性,頑健性,目的適合性を高めることを目指す。
- PCA情報に基づいたアライメントを導入し,局所構造を歪ませずに軸の解釈性を高めた。
- 概念アライメント正則化により,埋め込み次元を外部知識と一致させ,表現の制御を可能にした。
- ラショモン集合全体から共通知識を抽出し,信頼性の高い近傍関係を利用して,より洗練された埋め込みを構築した。
生成と実行の同時実行:LLM コード生成における実行待ち時間の隠蔽 [cs.CL, eess.SY, cs.SY, cs.PL, cs.AI, cs.SE]目的:LLM コード生成における実行待ち時間の削減
- 大規模言語モデル(LLM)によるコード生成は,ソフトウェア開発の自動化に貢献し,生産性向上に不可欠である。
- 従来のLLMコード生成は逐次実行のため,生成時と実行時のアイドル時間が発生し,全体の待ち時間が長くなる。
- 生成と実行を並行して行うことで,アイドル時間を削減し,コード生成から実行までの時間を短縮することを目指す。
- 提案手法Eagerは,ASTに基づくチャンク分割,動的バッチ処理,早期エラー中断により,実行待ち時間を大幅に削減する。
- 実験結果から,Eagerは非オーバーラップ実行待ち時間を最大99.9%,エンドツーエンド実行待ち時間を最大55%削減できることが示された。
- LLMがコードトークンを逐次的に生成することに着目し,人間とは異なる特性を活かした並列実行パイプラインを構築した。
胸部X線写真解釈のための推論機能を備えたビジョン言語基盤モデル [cs.CV, cs.AI, cs.LG]目的:胸部X線写真の解釈における推論機能の導入
- 胸部X線写真は頻繁に実施され,診断の重要な役割を担うが,読影医の負担が増加している。
- 既存のAIシステムは予測のみを行い,根拠となる視覚的証拠と診断の繋がりが不明瞭である。
- 視覚的証拠に基づいた診断根拠を明示することで,AIの性能と信頼性を向上させる。
- CheXOneは,診断予測と臨床的に妥当な推論過程を同時に生成する。
- 生成されたレポートは,専門医のレポートと同等またはそれ以上の質を持つ場合が55%を占める。
- 推論過程は臨床的妥当性が高く,予測結果に対する因果的な根拠を提供し,性能向上に貢献する。
不確実性に基づいた出力長予測によるLLM推論のスケジューリング [eess.SY, cs.SY, cs.LG]目的:LLM推論のスケジューリングにおける遅延削減とスループット向上
- 大規模言語モデル(LLM)の利用拡大に伴い,効率的な推論スケジューリングが重要になっている。
- 既存のスケジューリング手法は出力長を単一の値で予測するため,LLMの確率的生成過程を捉えきれていない。
- 出力長の不確実性を考慮した新たなスケジューリング指標を提案し,LLM推論の効率化を目指す。
- 提案手法TIEは,オンライン推論においてトークンあたりの遅延を2.31倍削減することに成功した。
- また,オフラインデータ生成においては,スループットを1.42倍向上させる効果が確認された。
- 出力長を確率分布で捉え,裾を考慮した期待値を用いることで,スケジューリング性能が向上する。
進化アルゴリズムにおける一般化された重い裾の突然変異 [cs.IR, cs.NE]目的:進化アルゴリズムにおける重い裾の突然変異の一般化
- 最適化問題解決において,進化アルゴリズムは有効な手法の一つである。効率的な探索が重要となる。
- 従来の突然変異オペレータでは,最適化速度が十分でない場合がある。特に大規模問題では課題となる。
- より広範な突然変異分布に対応し,期待最適化時間を短縮することを目指す。
- 重い裾の突然変異の一般化により,OneMax関数クラスに対する期待最適化時間の理論上限を拡張した。
- 既存の条件を一般化することで,O(n)の期待最適化時間での性能維持が可能となった。
- 一般化された条件を満たす新しい突然変異オペレータを提案し,計算実験で良好な結果が得られた。
過剰パラメータ化された浅いニューラルネットワークに対する初期化依存および非自明な一般化限界 [cs.LG, cs.AI]目的:過剰パラメータ化された浅いニューラルネットワークにおける一般化性能の限界
- ニューラルネットワークの過剰パラメータ化は,優れた汎化性能を示すため,近年注目されている。
- 既存の初期化依存性解析は,初期化行列のスペクトルノルムに依存し,モデル幅に対してスケーリングするため,過剰パラメータ化モデルには効果が薄い。
- 初期化からの距離のパスノルムに基づき,幅に対する対数依存性を持つ,初期化依存性の複雑さの限界を確立すること。
- 本研究では,一般的なLipschitz活性化関数を持つ浅いニューラルネットワークに対し,完全に初期化に依存する複雑さの限界を初めて導出した。
- 導出された限界は,幅に対して対数依存性を示し,初期化からの距離のパスノルムを用いることで,既存手法の限界を克服した。
- 理論的な限界と実験結果を比較し,過剰パラメータ化されたネットワークに対する非自明な限界が示された。
動的多目的最適化のための,切り離された基底ベクトル駆動型生成フレームワーク [cs.LG]目的:動的多目的最適化におけるパレート最適解の追跡
- 複雑な現実世界の問題解決において,複数の目的を同時に最適化する必要性が高まっている。
- 環境変化への対応が遅く,過去のデータの影響を受けやすいという課題がある。
- 非線形結合,負の転移,コールドスタート問題を解決し,高速な適応を可能にすること。
- 提案手法DB-GENは,離散ウェーブレット変換を用いて進化軌跡を低周波成分と高周波成分に分離することで,非線形結合の問題を解決する。
- スパース辞書学習により基底ベクトルを学習し,トポロジーを考慮した対照制約を適用することで,負の転移を軽減し,構造化された潜在多様体を構築する。
- 潜在多様体からの初期集団サンプリングと,事前学習済みのモデルを用いることで,コールドスタート問題を克服し,再学習なしで高速なオンライン推論を実現する。
効率的なテスト時計算スケーリングのための適応並列モンテカルロ木探索 [cs.AI]目的:大規模言語モデルの推論性能向上を目指すテスト時計算スケーリング手法
- 大規模言語モデルの複雑化に伴い,推論時の計算資源の効率的な利用が重要となっている。
- モンテカルロ木探索は計算時間が変動しやすく,特に長尾遅延が課題となっていた。
- 不必要な探索を削減し,計算資源の競合を軽減することで,遅延を抑制することを目的とする。
- 本研究で提案する負の早期終了と適応ブースティング機構により,vLLMにおけるp99エンドツーエンド遅延が大幅に削減された。
- スループットの向上と,推論精度の維持も確認された。
- これらの技術は,計算資源の有効活用に貢献する。
MOON3.0:Eコマース製品理解のための推論を意識したマルチモーダル表現学習 [cs.LG, cs.AI, cs.CV, cs.IR]目的:Eコマース製品理解のためのマルチモーダル表現学習
- Eコマースの急速な発展に伴い,特定のタスクに依存しない汎用的な表現学習が重要になっている。
- 既存のマルチモーダル大規模言語モデルは,製品情報を暗黙的に埋め込むため,詳細な属性の把握が困難である。
- マルチモーダル大規模言語モデルの推論能力を活用し,製品の詳細な属性を明示的にモデル化することを目的とする。
- 提案手法MOON3.0は,マルチヘッドモダリティ融合モジュール,ジョイントコントラスト・強化学習フレームワーク,および微細残差強調モジュールを導入。
- 大規模マルチモーダルEコマースベンチマークMBE3.0を新たに公開。
- ベンチマークおよび公開データセットにおいて,様々な下流タスクで最先端のゼロショット性能を達成。
MAESIL:医療画像自己教師あり学習の強化のためのマスク自動符号化器 [cs.CV, cs.AI]目的:3D医療画像における自己教師あり学習のための新たなフレームワーク
- 医療画像診断の精度向上には,深層学習モデルが不可欠である。しかし,高品質なラベル付きデータが不足している。
- 従来の自己教師あり学習は,CTスキャンの3次元構造を十分に活用できていない場合がある。2Dスライス集合として処理するため,軸方向の相関が失われる。
- 本研究は,CTスキャンの3次元構造情報を効率的に捉え,より効果的な自己教師あり学習を実現することを目指す。
- 提案手法MAESILは,3次元構造情報を保持しつつ計算効率を高める「スーパーパッチ」という入力単位を用いる。
- 3種類の公開CTデータセットを用いた実験により,既存手法(AE,VAE,VQ-VAEなど)と比較して,再構成指標(PSNR,SSIM)において有意な改善が確認された。
- これにより,MAESILが3D医療画像タスクのための堅牢で実用的な事前学習ソリューションであることが示された。
精密な動物行動認識のための最適なサンプリングレート選択とバイアス無効化 [cs.CV, cs.AI]目的:動物の個々の行動を正確に認識するための手法
- 畜産管理の効率化や動物の健康・福祉モニタリングに貢献するため,動物行動認識の研究が重要である。
- 既存研究では,特定の行動カテゴリの認識精度が低い場合があり,サンプリングレートの最適化が課題である。
- 個々の行動に対する認識精度向上を目指し,サンプリングレートの適応と分類器のバイアス軽減を行う。
- 提案手法IBA-Netは,複数のサンプリングレートからのデータを適応的に融合する特徴抽出モジュール(MFC)を備える。
- IBA-Netは,クラス不均衡による分類器のバイアスを軽減する,ニューラルコラプスに基づく分類器調整モジュール(NC3)を開発した。
- ヤギ,牛,馬のデータセットを用いた実験で,既存手法と比較して一貫して高い性能を示した。
連続作用空間におけるリプシッツ二者択一バンディット [eess.SY, cs.SY, cs.LG, cs.IR, cs.MA]目的:連続作用空間を持つリプシッツ構造を持つ確率的二者択一バンディットの最適化
- 行動選択問題において,効率的な探索と活用は重要であり,そのためにバンディットアルゴリズムが活用されている。
- 連続作用空間におけるバンディット問題は,離散的な場合と比べて探索が難しく,計算コストも高いという課題がある。
- 比較的なフィードバックのみを用いる環境下で,効率的に最適な行動を学習するアルゴリズムを開発すること。
- 本研究では,リプシッツ構造と二者択一バンディットを組み合わせた新しいアルゴリズムを提案し,理論的な後悔の上界を導出した。
- 提案アルゴリズムは,最適な領域を再帰的に絞り込むことで効率的な探索を実現し,時間に対する対数的な空間複雑度を達成した。
- 後悔の上界は,最適な領域のズーム次元 $d_z$ を用いて$\tilde O\left(T^{\frac{d_z+1}{d_z+2}}\right)$と表される。
思考,行動,構築:ゼロショット3D視覚的接地のための視覚言語モデルによるエージェント的フレームワーク [eess.SY, cs.SY, cs.CV, cs.AI]目的:3Dシーンにおける自然言語記述に基づいた物体局所化
- 3Dシーン理解は,ロボティクスや拡張現実など幅広い応用分野において不可欠である。
- 既存手法は,前処理された3D点群に依存し,3D視覚的接地を単なる提案マッチングに矮小化している。
- 2D VLMsを活用し,厳密な幾何学的手法と組み合わせることで,この問題解決を目指す。
- 本研究では,「思考,行動,構築(TAB)」という動的なエージェント的フレームワークを提案した。
- TABは,2D VLMsを用いて空間セマンティクスを解決し,3D構造を構築する。
- 実験の結果,本フレームワークは既存のゼロショット手法を凌駕し,教師あり学習ベースラインを超える性能を示した。
MF-QAT:弾力的な推論のためのマルチフォーマット量子化対応学習 [cs.LG, cs.CL]目的:マルチフォーマット量子化対応学習による,多様な数値形式へのロバスト性
- 深層学習モデルの推論速度向上には,量子化が不可欠である。軽量化と精度の両立が課題。
- 従来の量子化対応学習は特定の形式に特化しており,推論時の柔軟性に欠けるという問題がある。
- 推論時に数値精度を動的に選択できる,汎用的な量子化モデルの実現を目指す。
- マルチフォーマット量子化対応学習は,個々の形式での量子化対応学習と同等の性能を達成できる。
- Slice-and-Scale変換により,再学習なしに高精度モデルから低精度形式への変換が可能となった。
- アンカーフォーマットチェックポイントを用いて,推論時に形式を動的に切り替え,精度劣化を最小限に抑えることができた。
マルチタスク線形バンディット問題における共有表現の学習 [cs.LG]目的:マルチタスク線形バンディット問題における共有表現の学習
- 関連するタスク間で知識を共有することで,学習効率を向上させることが重要である。
- 各タスクを独立して扱うと,サンプル効率が悪化し,学習に多くの時間を要する。
- 低ランクの共有表現を用いることで,サンプル効率を改善し,より迅速な学習を実現する。
- 提案手法は,タスクを独立して解く場合に比べて,累積後悔の点で有意な改善を示す。
- スペクトル初期化を用いて共有モデルを推定し,OFULベースの学習を行うことで,効率的な意思決定を可能にする。
- 数値シミュレーションにより,提案アルゴリズムの性能が様々な問題サイズで検証された。
オープンセットテストストリームにおける多数からの学習と未知への適応 [cs.LG, cs.IT, math.IT]目的:大規模言語モデルの,進化するタスクと継続的な分布シフト下での脆弱性の克服
- 自然言語処理の進歩は,多様なタスクへの適応能力に依存しており,その重要性は高い。
- 現在の適応手法は,既存知識の保持と適応信号の信頼性に課題が残されている。
- 本研究は,効率的なパラメータ更新とノイズ抑制により,継続的な変化への安定した適応を目指す。
- 提案手法SyCoは,低ランクアダプターを通じて効率的にモデルを適応させる。
- Rac1とMAPK経路を模倣した構造化TTAにより,既存知識の保持と信頼性の高い更新を実現した。
- 18のNLPデータセットとMOA設定において,既存手法を上回り,高い適応性能を示した。
Optimsyn:合成データ生成のための影響度に基づく評価指標最適化 [cs.CL, cs.AI]目的:合成データ生成における評価指標の最適化
- 大規模言語モデルの性能向上には,質の高い教師ありデータが不可欠である。しかし,専門知識を要する分野では,そのデータが不足している。
- 既存の合成データ生成手法は,専門家による評価指標の設計に依存し,ドメイン間の汎用性や最適化に課題がある。
- ターゲットモデルへの影響度に基づき,評価指標を自動的に最適化することで,合成データの品質向上を目指す。
- 提案手法では,合成データがターゲットモデルの学習に与える影響度を定量化し,その情報を評価指標の最適化に活用する。
- 実験の結果,様々なドメイン,ターゲットモデル,データ生成器において,タスク固有の調整なしに性能向上が確認された。
- 埋め込み空間での距離が近いサンプルでも,学習への影響度は大きく異なることが示された。
MATHENA:Mambaに基づく構造的歯階層推定器と解剖学的全体評価ネットワーク [cs.CV, cs.AI]目的:歯科レントゲン画像からの歯の検出,虫歯セグメンテーション,異常検出,および歯の発育段階評価
- 歯科診断は,口腔内の健康状態を把握するために不可欠であり,早期発見・早期治療に繋がる。
- 従来の歯科画像解析は,個別のタスクに分かれており,処理に時間と専門知識が必要となる。
- 本研究は,複数のタスクを統合的に処理し,より効率的かつ正確な歯科診断を実現することを目的とする。
- MATHENAは,Mambaアーキテクチャを用いた新たなフレームワークであり,歯の検出において93.78%のmAP@50を達成した。
- 虫歯セグメンテーションでは90.11%のDice係数,異常検出では88.35%,歯の発育段階評価では72.40%の精度をそれぞれ示した。
- 新たに構築したベンチマークデータセットPARTHENONを用いて,MATHENAの有効性を検証した。
統合はコストを伴うか?Uni-SafeBench:統一されたマルチモーダル大規模モデルの安全性ベンチマーク [cs.AI, cs.LG]目的:統一されたマルチモーダル大規模モデルの安全性評価
- マルチモーダル大規模モデルは,AIの多様な応用を可能にする重要な技術である。
- 既存の安全性評価は部分的なタスクに偏っており,統合されたモデルの全体的な安全性を測れていない。
- 統合されたモデルにおける潜在的な安全性のリスクを明らかにし,より安全なAGI開発を促進する。
- モデルの統合は能力を向上させる一方で,基盤となるLLMの安全性を著しく低下させる。
- オープンソースのUMLMは,生成または理解に特化したマルチモーダル大規模モデルと比較して,安全性能が低い。
- Uni-SafeBenchとUni-Judgerを公開することで,これらのリスクを体系的に検証し,安全なAI開発を支援する。
BloClaw:次世代科学的発見のための全知的なマルチモーダルエージェントワークスペース [cs.AI]目的:AI4Sのための統合的なマルチモーダルオペレーティングシステムの構築
- 生命科学におけるLLM活用は進むが,実用的な研究環境の構築にはインフラ脆弱性が課題である。
- 既存のフレームワークは,JSONベースのツール呼び出しや,動的なデータ出力の扱いに弱点がある。
- BloClawは,これらの課題を克服し,堅牢かつ自己進化的な研究支援パラダイムを目指す。
- BloClawは,XML-Regex二重トラックルーティングプロトコルにより,シリアライゼーションエラーを大幅に削減した。
- ランタイム状態インターセプションサンドボックスにより,動的なデータ可視化を自動的にキャプチャし,CORSポリシーの問題を回避した。
- 化学情報学,タンパク質フォールディング,分子ドッキング,RAGなど,幅広い分野でBloClawの有効性が確認された。
オントロジー制約によるニューラル推論:企業エージェントシステムにおけるドメインに基づいたAIエージェントのためのニューロシンボリックアーキテクチャ [cs.DL, cs.AI, cs.CL, cs.SE]目的:企業向けエージェントシステムのニューラル推論におけるオントロジー制約の導入
- 企業におけるLLM活用は進むが,ハルシネーションやドメインドリフト,規制遵守の課題が存在する。
- LLMは知識の根拠が不明確であり,企業での信頼性と正確性が求められる。
- オントロジーを用いてLLMの推論を制約し,信頼性と正確性を向上させる。
- 本研究では,役割,ドメイン,相互作用の3層オントロジーを導入し,LLMベースのエージェントに形式的な意味的根拠を提供した。
- オントロジーとの結合により,金融,保険,医療,ベトナムの銀行・保険業界など,5つの業界で高い指標精度,規制遵守,役割一貫性が確認された。
- LLMのパラメータ的知識が弱いドメイン,特にベトナムローカライズド領域において,オントロジーによる制約の効果が大きかった。
住宅相談のためのエンドツーエンドマルチエージェントシステム:HabitatAgent [cs.LG, cs.AI, cs.ET, q-fin.CP, q-fin.RM]目的:住宅相談における意思決定支援
- 住宅選択は重要な決定であり,その質は生活の質に直結する。
- 既存のプラットフォームは透明性に欠け,複雑な条件への対応が難しい。
- 正確かつ信頼性の高い住宅相談の実現を目指す。
- HabitatAgentは,記憶,検索,生成,検証の4つのエージェントから構成される。
- 実ユーザーのシナリオにおいて,従来の基盤モデルを大きく上回る精度を達成した。
- HabitatAgentは,住宅相談の意思決定プロセスを可視化し,信頼性を高める。
データ効率の良いロボット模倣学習のためのマルチカメラビューのスケーリング [cs.RO, cs.CV, cs.LG]目的:ロボットの模倣学習におけるデータ効率と汎化性能の向上
- ロボットの操作における模倣学習は重要であり,多様な専門家によるデモンストレーションが不可欠である。
- 多様な環境でのデモンストレーション収集はコストと手間がかかり,汎化性能のボトルネックとなる。
- カメラビューのスケーリングにより,追加の人的努力なしにシーンの多様性を活用し,汎化性能を高める。
- カメラビューのスケーリングによって擬似デモンストレーションが生成され,学習分布が豊かになり,視点不変性が向上した。
- カメラ空間表現は多様性をさらに高め,異なる行動空間との相互作用が分析された。
- マルチビュー行動集約手法は,単一視点ポリシーが複数のカメラから利益を得ることを可能にした。シミュレーションと実世界の両方で,データ効率と汎化性能が大幅に向上した。
表現の選択がタンパク質コンフォメーションダイナミクスの解釈を左右する [eess.SY, cs.SY, eess.SY, cs.SY, eess.SY, cs.SY, eess.SY, cs.SY, cs.PF, cs.CL, cs.LG, q-bio.BM]目的:タンパク質コンフォメーションダイナミクスの解釈における表現選択の影響
- 分子動力学シミュレーションは詳細な分子挙動を捉えるが,その解釈は容易ではない。
- 既存の研究では,単一の表現に依存することが多く,それが解釈の偏りを生む可能性がある。
- 本研究は,多様な表現を用いた比較分析を通じて,より包括的な解釈を可能にすることを目指す。
- 表現の選択によって,タンパク質のコンフォメーション空間,類似性関係,遷移が異なって認識されることが示された。
- 新たに導入したOrientation特徴は,既存の表現とは異なる側面を強調し,全体像の把握に貢献する。
- ManiProtライブラリの開発により,多様な表現の効率的な計算と分析が可能となり,比較研究を促進する。
UniMixer: レコメンデーションシステムにおけるスケーリング則のための統一アーキテクチャ [cs.CL, cs.IR, cs.AI]目的:レコメンデーションシステムのスケーリング則
- レコメンデーションシステムの性能向上は,ビジネスにおいて重要な課題である。
- 既存のスケーリング手法は,アーキテクチャが異なり,理論的な統一性が欠けている。
- スケーリング効率を改善し,統一的な理論的枠組みを確立すること。
- 本研究では,UniMixerと呼ばれる統一的なスケーリングアーキテクチャを提案した。
- UniMixerは,TokenMixerをパラメータ化された構造に変換し,特徴量混合モジュールを最適化する。
- オフラインおよびオンライン実験により,UniMixerのスケーリング能力が検証された。
エージェント心理測定:エージェント型コーディングベンチマークにおけるタスクレベルの性能予測 [cs.AI]目的:エージェント型コーディングベンチマークにおけるタスクレベルの性能予測
- LLMを活用したコーディングにおいて,エージェントと環境の相互作用が重要視されており,その性能評価手法の確立が求められている。
- 従来のベンチマーク集計による評価では,ベンチマーク内のタスクの多様性が考慮されず,課題の特定が困難であった。
- 個々のタスクに対するエージェントの成功・失敗を予測し,ベンチマーク設計の改善に貢献することを目的とする。
- 本研究では,課題文やテストケースなどのタスクの特徴量と,IRTを用いてエージェントの性能を予測するフレームワークを提案した。
- 提案手法により,LLMとスキャフォールドの能力を分離し,異なるベンチマークやLLM-スキャフォールドの組み合わせに対するタスクレベルの性能予測を高精度で行うことができた。
- 本手法は,ベンチマーク設計者が,計算コストの高いエージェント評価なしにタスクの難易度を調整する上で有用である。
