arXiv雑要約
AI - 2026/02/05 公開
AGMA:事前知識誘導型多次元人間軌跡予測のための適応ガウス混合アンカー [cs.CV, cs.LG]目的:歩行者の行動の多次元性を捉えた人間軌跡予測
- 人間中心の社会において,安全な移動やロボットとの協調に不可欠な技術である。
- 既存手法では,事前知識の不整合が課題であり,予測の精度と多様性を制限している。
- 高品質な事前知識を構築することで,軌跡予測の性能向上を目指す。
- 提案手法AGMAは,学習データから多様な行動パターンを抽出し,シーンに適応した事前知識を生成する。
- ETH-UCY,Stanford Drone,JRDBデータセットを用いた実験で,AGMAが最先端の性能を達成した。
- この結果は,高品質な事前知識が軌跡予測において極めて重要な役割を果たすことを示している。
法的尋問における単調な進捗の強制:LLMベースの質問における長期的停滞の防止 [cs.CL, cs.AI]目的:LLMベースの質問における手続き的停滞の防止
- 法的推論は,人間の判断の根幹であり,その正確性と効率性が重要である。
- LLMは流暢な言語能力を持つが,明示的な手続き制約下での長期的タスク完了に課題がある。
- 手続き的停滞を克服し,LLMによる質問の信頼性と完了率を向上させる。
- 提案手法Soft-FSMは,外部の決定論的状態コントローラーを通じて単調な進捗を強制することで,手続き的停滞を回避する。
- 実際の台湾の刑事事件3件における実験で,Soft-FSMは97%以上の完了率を達成し,冗長性をほぼゼロに抑えた。
- LLM単独の創発的な挙動だけでは信頼性の高いタスク完了は保証されず,外部状態制御が不可欠である。
SCALE:自己不確実性に基づいた適応的な視線と実行による視覚言語行動モデル [cs.RO, cs.AI, cs.LG]目的:視覚言語行動モデルのロバスト性を向上させるためのテスト時スケーリング手法
- 汎用的なロボット制御において,視覚,言語,行動を統合するモデルの重要性が増している。
- 既存のテスト時スケーリング手法は,追加学習や検証器が必要で,実用性に課題がある。
- 知覚の曖昧性下において,視覚情報の再検討と行動決定を同時に行う手法を開発すること。
- SCALEは,追加学習や検証器を必要とせず,単一のフォワードパスで推論を行うシンプルな手法である。
- 不確実性が高い状況では視覚と行動の両方の探索を広げ,確信度が高い状況では活用に焦点を当てる。
- シミュレーションおよび実環境での評価により,既存手法を上回り,単一パス効率を維持していることが示された。
大規模なインタラクティブな監視によるLLMの操縦 [cs.AI, cs.LG]目的:LLMの制御可能性向上
- LLMは複雑なタスクを自動化するが,効果的な人間の指示が課題。
- 専門知識不足や意図の曖昧さにより,LLMを適切に導くのが困難。
- 人間の能力を超えるタスクにおけるAIの制御を可能にする。
- 複雑な意図を管理しやすい決定のツリー構造に分解し,人間の監視を強化。
- ウェブ開発タスクにおいて,非専門家でも専門家レベルのPRDを作成可能に。
- オンラインユーザーフィードバックのみで強化学習による最適化を実現。
言語モデルは文脈内で学習した表現の利用に苦戦する [cs.CL, cs.AI]目的:文脈内学習による表現の利用可能性の評価
- AI研究の目標は,実世界のような変化に対応できる汎用的なシステムを構築すること。
- 現在の言語モデルは,新しい文脈への適応が苦手であり,柔軟な表現の利用が課題。
- 文脈内で学習した表現を効果的に利用するための方法論を開発すること。
- 大規模言語モデル(LLM)は文脈から表現を誘導できるものの,その表現を次の単語予測や適応的世界モデリングといった下流タスクに活用する能力が限定的であることが示された。
- オープンウェイトおよびクローズドソースの最先端モデルの両方において,文脈内で定義された新しい意味を確実に活用できないことが確認された。
- 本研究は,モデルが文脈情報をエンコードするだけでなく,その情報を柔軟に展開できるようになるための新たなアプローチを促すことを目指す。
InterPReT:対話的なポリシー再構築と訓練による,一般ユーザーからの効果的な模倣学習 [cs.AI]目的:一般ユーザーからの模倣学習の有効性
- AI技術の普及には,専門知識のないユーザーがAIにスキルを教えることが不可欠である。
- 従来の模倣学習は専門家のデモンストレーションと監視が必要で,一般ユーザーにはハードルが高い。
- ユーザーが容易にAIにスキルを教えられるように,ポリシー構造の更新と最適化を可能にする。
- InterPReTは,ユーザーの指示に基づいてポリシー構造を継続的に更新し,ユーザーのデモンストレーションに適合させる。
- ユーザー調査(N=34)の結果,InterPReTは汎用的な模倣学習よりも,ロバストなポリシーを生成し,使いやすさを損なわないことが確認された。
- 本手法は,機械学習の専門知識が少ないエンドユーザーでも,信頼性の高いポリシーを訓練するのに適している。
OAT:順序付き行動トークン化 [cs.RO, cs.RO, cs.AI, cs.LG]目的:ロボットの行動を効果的にトークン化する手法
- ロボット学習において,スケーラビリティと柔軟性が重要視されている。
- 連続的なロボット行動を扱う場合,トークン列が長くなりすぎるか,構造が欠如している。
- 圧縮率,完全復号性,因果的な順序性を満たす行動トークン化手法を確立すること。
- 提案手法OATは,Transformerとレジスタ,有限スカラー量子化を用いることで,これらの課題を克服した。
- OATは,様々なシミュレーションと実世界のタスクにおいて,既存の手法や拡散モデルよりも優れた性能を示した。
- 推論コストと行動の忠実度とのトレードオフを可能にする柔軟性も兼ね備えている。
RAPO:汎用的な安全な推論のためのリスク認識型選好最適化 [eess.SY, cs.SY, cs.LG, cs.AI, cs.CL, cs.CR, math.OC]目的:大規模推論モデルの安全な推論能力の汎化
- 大規模言語モデルの能力向上に伴い,安全性確保が重要課題となっている。
- 安全な推論を促す手法が,巧妙な攻撃プロンプトに対して脆弱であることが課題である。
- 複雑な攻撃プロンプトに対する安全性を高めるための新たな手法を提案する。
- 本研究では,リスク認識型選好最適化(RAPO)フレームワークを提案し,モデルが思考内容における安全リスクを適切に認識・対処することを可能にした。
- 実験の結果,RAPOは様々な攻撃プロンプトに対し,複数の大規模推論モデルの安全な推論能力を効果的に汎化させることが示された。
- RAPOは,汎用的な性能を維持しつつ,大規模推論モデルの安全性を高める堅牢なアライメント技術を提供する。
カスケードロバスト性検証:効率的なモデル非依存認証に向けて [cs.LG]目的:ニューラルネットワークの敵対的サンプルに対するロバスト性の認証
- ニューラルネットワークの安全性確保は重要であり,特にセキュリティが求められる分野での応用が進んでいる。
- 既存の厳密な認証手法は計算コストが高く,現実的な応用が困難であるという課題がある。
- 複数の検証手法を組み合わせることで,効率性と信頼性を両立したロバスト性認証を目指す。
- 提案手法CRVは,複数の検証手法を段階的に適用し,最初にロバスト性が証明された時点で検証を停止することで,計算コストを削減する。
- CRVは,既存の強力な不完全検証器と同等以上の認証精度を達成しつつ,検証オーバーヘッドを大幅に削減できることを理論的に証明した。
- 実験結果により,CRVは既存手法と同等以上の入力に対してロバスト性を証明し,実行時間を最大90%改善することが確認された。
SPOT-Occ:スパースプロトタイプ誘導トランスフォーマーによるカメラベース3D占有率予測 [cs.CV, cs.LG, cs.RO]目的:カメラ画像からの3D占有率予測の精度向上
- 自動運転車の安全かつ実用的な運用には,高精度かつリアルタイムな3D環境理解が不可欠である。
- スパース3D表現はエンコーディングのボトルネックを解消するが,不均一なボクセル特徴量の効率的な集約が課題である。
- プロトタイプ誘導による効率的な特徴選択と集約により,計算コストを抑えつつ予測精度を向上させる。
- 提案手法SPOT-Occは,従来の稠密なアテンション機構に代わり,効率的な2段階プロセス(誘導特徴選択と集約)を導入した。
- スパースプロトタイプ選択機構により,各クエリが最も重要なボクセル特徴(プロトタイプ)を動的に特定し,集約する。
- 実験結果から,SPOT-Occは既存手法と比較して,速度と精度において大幅な改善を達成することが示された。
グラフをベクトルとして表現する基礎モデルの学習 [cs.CL, cs.HC, cs.RO, cs.LG]目的:グラフのベクトル表現
- グラフ構造は,社会ネットワークや分子構造など多様な分野で重要な役割を果たす。
- 既存手法では,特定のタスクに特化し,汎用的なグラフ表現を獲得することが困難である。
- 多様なグラフデータから汎化性能の高いグラフ表現を学習することを目指す。
- 本研究では,複数のグラフデータを利用した特徴量アライメント手法を提案した。
- 密度最大化平均アライメントアルゴリズムにより,異なるデータセット間の特徴量の一貫性を向上させた。
- Few-shotグラフ分類およびクラスタリング実験で,提案手法が既存手法を上回る性能を示した。
経験的MCTS:デュアル経験モンテカルロ木探索による継続的エージェント進化 [cs.AI, cs.CL]目的:大規模言語モデルの推論能力向上戦略に関する研究
- LLMの推論能力向上は,より高度な問題解決を可能にするため重要である。
- 既存手法はステートレスであり,問題解決の過程で得られた知見を蓄積できない。
- 経験的MCTSは,探索と記憶を組み合わせ,継続的な学習を可能にすることで,この問題を解決する。
- 経験的MCTSは,ステートレスMCTSや経験に基づくエージェントと比較して,複雑な推論ベンチマークで優れた性能を示した。
- Pairwise-Experience-Evolutionary Meta-Prompting (PE-EMP)により,局所探索における適応的な基準とメタプロンプトの進化を実現した。
- Memory Optimization Agentが,質の高い洞察を問題間で蒸留し,動的なポリシー事前知識として活用した。
ACIL:画像分類のための能動的クラス増分学習 [cs.CV, cs.AI]目的:画像分類におけるクラス増分学習のための能動学習フレームワーク
- 画像認識システムの現実的な学習シナリオとして重要であり,継続的な学習能力が求められる。
- 過去のデータにアクセスできない状況下で,モデルが既存の知識を忘却する「破滅的忘却」が課題となる。
- アノテーションコストを削減しつつ,破滅的忘却を回避する学習手法を開発すること。
- 本研究では,不確実性と多様性に基づく基準を用いて,アノテーションが必要な代表的なサンプルを特定するACILを提案する。
- 提案手法は,アノテーションコストを大幅に削減し,破滅的忘却を抑制する効果が期待される。
- 複数の画像データセットを用いた実験により,ACILの有効性が確認された。
曖昧性から行動へ:部分多重ラベル曖昧性とその水平線一つの解決に対するPOMDP的視点 [cs.CL, cs.LG]目的:部分多重ラベル学習におけるラベル曖昧性解消と特徴選択の同時モデリング
- 機械学習において,ラベル付けされたデータはモデル性能に不可欠であり,ラベルの質が重要である。
- 部分多重ラベル学習では真のラベルが不明であり,曖昧なラベルが誤りを伝播させやすい。
- ラベル曖昧性の解消と特徴選択を統合的に行うことで,よりロバストな学習を目指す。
- 本研究では,部分多重ラベル学習をPOMDPとしてモデル化し,期待収益最大化によるリスク最小化を試みた。
- 強化学習を用いたTransformerポリシーにより,高品質な擬似ラベルを生成し,特徴選択の段階的最適化を実現した。
- 理論的な解析により,擬似ラベルの質とサンプルサイズが誤差に与える影響を明らかにした。
AppleVLM:高度な知覚と計画を強化したVision-Languageモデルによるエンドツーエンドの自律運転 [cs.RO, cs.AI]目的:エンドツーエンドの自律運転のための,高度な知覚と計画を強化したVision-Languageモデルの提案
- 自動運転技術は,安全性向上や移動の効率化に不可欠であり,社会実装が期待されている。
- 既存の自律運転システムは,未知の状況への対応や言語指示の解釈に課題が残る。
- 言語バイアスを軽減し,多様な環境下で堅牢な自律運転を実現すること。
- AppleVLMは,変形Transformerを用いた新たなVisionエンコーダにより,カメラの変動に対するロバスト性を向上させた。
- 計画モダリティを導入することで,言語指示のバイアスを軽減し,ナビゲーション精度を高めた。
- CARLAベンチマークおよびAGVプラットフォームでの実験により,最先端の自律運転性能を実証した。
死んだニューロンから深層近似器へ:深層ベルンシュタインネットワークは残差層の証明可能な代替手段 [cs.DB, eess.SY, cs.SY, math.OC, cs.IR, cs.LG, cs.AI, cs.NA, math.NA]目的:深層ベルンシュタインネットワークの有効性
- 深層学習の性能向上のためには,勾配消失問題の解決が不可欠である。
- 残差接続は広く利用されているが,構造的な制約があり,活性化関数の非効率性に対処できない。
- ベルンシュタイン多項式を用いたネットワークが,残差接続なしで学習性と表現力を向上させる。
- 深層ベルンシュタインネットワークは,ローカル導関数に理論的な下限を確立し,勾配消失を防ぐ。
- 標準的な深層ネットワークにおける「死んだ」ニューロンを90%から5%以下に削減し,ReLU等の他の活性化関数を上回る性能を示す。
- ベルンシュタインベースのネットワークの近似誤差は深さとともに指数関数的に減衰し,ReLUベースのアーキテクチャよりも優れている。
厚化から薄化へ:LLM推論のための人間らしい学習ダイナミクスによる報酬形状化 [cs.LG, cs.AI]目的:LLMの推論能力向上のための報酬形状化手法
- 大規模言語モデルの推論能力は重要であり,その改善は様々な応用を可能にする。
- 従来の強化学習では,エントロピー崩壊や冗長性,探索不足といった課題が存在する。
- 問題解決時の探索と,習熟した知識の効率性のバランスを取り,推論能力を向上させる。
- 提案手法T2Tは,初期の誤った試行では探索を促す「厚化」を行い,正解後には冗長性を抑制する「薄化」を行う。
- 数学ベンチマーク(MATH-500,AIME,AMC)において,QwenシリーズおよびDeepseekモデルで標準的なGRPOや既存手法を凌駕する性能を示した。
- T2Tは,モデルの自信を高め,推論能力を結晶化させる効果が確認された。
カテゴリ横断的なラベルの多重統合によるコンポーネント識別 (MILCCI) [cs.LG, q-bio.NC, q-bio.QM, stat.ML]目的:多種多様なカテゴリにわたるラベルを統合し,データに内在する解釈可能なコンポーネントの識別
- 時間経過データ分析は,神経科学や行動分析など,多様な分野で重要である。
- 異なるカテゴリのラベルがデータにどのようにエンコードされているかの解明が困難である。
- 各カテゴリのラベルがデータの表現に与える影響を識別し,データ解析を高度化する。
- MILCCIは,データの背後にある解釈可能なコンポーネントを識別し,試行間の変動を捉える。
- 各カテゴリのラベル情報を統合することで,データの表現を詳細に理解することが可能となる。
- 合成データおよび実データ(投票パターン,Webアクセス,ニューロン記録など)を用いて,MILCCIの有効性が示された。
ガウススケルトン:ガウススケルトン化による編集可能な4次元生成 [cs.CV, cs.AI, cs.GR]目的:編集可能な動的3Dガウスの生成
- 動的な3Dコンテンツ生成は,エンターテインメント,デザイン,科学シミュレーション等,幅広い分野で重要性が増している。
- 既存手法は,動きを暗黙的な変形場として表現するため,直接的な制御や編集が困難である。
- 本研究は,動きを明示的に表現することで,より直感的で編集可能な4D生成を実現することを目指す。
- 提案手法であるSkeletonGaussianは,単眼動画から編集可能な動的3Dガウスを生成する新しいフレームワークである。
- 本手法は,骨格駆動の剛体運動と,ヘキソプレーンに基づく非剛体変形を組み合わせることで,高い生成品質と編集性を実現する。
- 実験結果から,SkeletonGaussianは既存手法を上回り,編集可能な4D生成の新たなパラダイムを確立することが示された。
有限要素法,機械学習,粒子群最適化およびベイズ最適化アルゴリズムを用いた非空気圧乗用車タイヤの多目的設計最適化 [cs.LG, cs.AI]目的:非空気圧タイヤ(UPTIS)のスポーク形状の最適化
- タイヤ性能は,自動車の安全性と快適性に不可欠であり,継続的な改善が求められている。
- 従来の非空気圧タイヤは,剛性,耐久性,高速振動の抑制が課題であった。
- 機械学習と最適化アルゴリズムを活用し,高性能な非空気圧タイヤのスポーク構造を効率的に開発すること。
- 提案手法により,剛性の調整範囲が53%向上し,耐久性は最大50%改善された。
- 振動は最大43%低減され,乗用車の乗り心地向上に貢献する可能性が示された。
- 粒子群最適化は迅速な収束を,ベイズ最適化は多目的トレードオフの探索に有効であった。
エージェント・オミット:エージェント的強化学習による適応的な思考と観察の省略のための効率的なLLMエージェントの訓練 [cs.IR, cs.CL, cs.AI, cs.LG]目的:多段階のエージェントと環境の相互作用における思考と観察の効率的な管理
- エージェントの効率改善には,思考と観察の管理が重要である。計算資源の制約下での高性能化が求められている。
- 既存研究では,各段階における思考と観察の必要性や有用性の違いが考慮されていない。
- 思考と観察の冗長性を適応的に省略する能力をLLMエージェントに付与することを目指す。
- 提案手法Agent-Omitは,LLMエージェントが冗長な思考と観察を適応的に省略することを可能にする。
- オミットを意識したエージェント的強化学習と二重サンプリングメカニズム,そして省略報酬を導入。
- 5つのベンチマークで,最先端のLLMエージェントと同等の性能を発揮し,効率性と効果性のバランスに優れる。
前方および逆問題のための畳み込み演算子ネットワーク (FI-Conv): プラズマ乱流シミュレーションへの応用 [cs.LG]目的:複雑な時空間ダイナミクスにおけるシステム進化の予測およびパラメータ推定
- 乱流をはじめとする複雑な現象の理解と予測は,科学技術の進歩に不可欠である。
- 従来の数値シミュレーションは計算コストが高く,長時間の予測やパラメータ推定が困難である。
- FI-Convを用いて,計算効率良く高精度な予測とパラメータ推定を実現すること。
- FI-Convは,U-Netアーキテクチャを基盤とし,ConvNeXt V2ブロックを用いることで,高周波変動に対する性能を維持しつつ計算量を削減している。
- Hasegawa-Wakatani (HW) 方程式で記述されるプラズマ乱流において,FI-Convは短期的な状態進化予測と長期的統計量の捕捉に成功した。
- 訓練済みモデルの重みを変更せずに,プラズマ状態の進化データから偏微分方程式のパラメータを正確に推定する逆推定手法を開発した。
文脈的ドラッグ:文脈中の誤りがLLMの推論に及ぼす影響 [cs.CL, cs.AI, cs.LG]目的:大規模言語モデルにおける文脈的ドラッグの存在とその影響
- LLMの性能向上には,過去の誤りからの学習が重要であると考えられる。
- LLMは,過去の失敗が文脈中に存在することで,類似した誤りを繰り返す傾向がある。
- LLMの推論における文脈的ドラッグの影響を定量化し,その軽減策を探る。
- 文脈的ドラッグは,11のLLMにおいて10-20%の性能低下を引き起こすことが確認された。
- 自己改善を繰り返すことで性能が低下する「自己劣化」現象が,文脈的ドラッグが深刻なモデルで観察された。
- 外部からのフィードバックや自己検証だけでは,この影響を完全に解消することは困難である。
言語モデリングのためのプロキシ圧縮 [cs.CL, cs.LG]目的:言語モデリングにおける訓練効率の向上
- 言語モデルの規模拡大に伴い,計算資源の効率的な利用が重要になっている。
- 既存のトークナイザーに依存した圧縮方式は,モデルの汎用性と柔軟性を制限する可能性がある。
- 本研究は,トークナイザーに依存せず,生のバイト列で推論可能なモデルの実現を目指す。
- プロキシ圧縮により,訓練効率が大幅に向上し,固定計算量下で従来のバイトレベルベースラインを上回る性能が確認された。
- モデル規模が大きくなるほど,その効果は顕著になり,トークナイザーを用いた手法と同等またはそれ以上の性能を達成することが示された。
- プロキシ圧縮により訓練されたモデルは,生のバイト列のみを扱い,バイトレベルモデリングの持つ堅牢性を維持する。
マルチエキスパート編成における因果的重要性と言語構造の分離 [cs.CL, cs.LG, cs.AI, cs.MA]目的:マルチエキスパートシステムの編成方針の解釈可能性分析
- 複雑な課題解決において,複数の大規模言語モデルを連携させる手法が注目されている。
- エキスパート間の連携や実行順序を決定する編成方針は,その仕組みが不透明である。
- 編成方針を分析し,エキスパートの因果的影響と構造的役割を明確にすること。
- 編成方針は,エキスパート間の相互作用構造,実行順序,因果的帰属を分析可能な計算として捉えられる。
- ルーティングの優位性は,機能的な必要性を示す指標として不適切であることが示された。
- 頻繁に選択されるエキスパートは相互作用のハブとなることが多い一方,疎にルーティングされるエキスパートが構造的に重要であることが確認された。
Few-shotデモンストレーションがLLM脱獄攻撃に対するプロンプトベース防御に与える影響 [cs.CL, cs.AI, cs.CR]目的:LLM脱獄攻撃に対するプロンプトベース防御におけるFew-shotデモンストレーションの役割
- 大規模言語モデルの安全性が重要視される中,脱獄攻撃への対策が不可欠である。
- 既存のプロンプトベース防御の有効性は確認されているものの,Few-shotデモンストレーションの影響は不明確である。
- Few-shotデモンストレーションとシステムプロンプト戦略の相互作用を解明し,より効果的な防御策を提案する。
- Role-Oriented Prompts (RoP)では,Few-shotデモンストレーションが役割の同一性を強化し,安全性向上に寄与することが明らかになった。
- Task-Oriented Prompts (ToP)では,Few-shotデモンストレーションがタスク指示から注意をそらし,効果を低下させることが示された。
- これらの結果に基づき,実用的なプロンプトベース防御の展開に関する提言を行う。
ProxyWar:ゲーム環境におけるLLMコード生成の動的評価 [cs.SE, cs.AI]目的:LLMコード生成の品質評価
- LLMは自動コード生成を革新したが,実用的な有効性の評価は限定的である。
- 従来の評価は静的なベンチマークに依存し,プログラムの動作特性を捉えられていない。
- 動的な環境下での性能評価を通じて,LLMコード生成の限界と改善点を探る。
- ProxyWarは,LLM生成エージェントを競争的なゲーム環境に組み込むことでコード品質を評価する。
- ベンチマークスコアと実際のパフォーマンスに乖離が見られ,LLMの限界が明らかになった。
- 本フレームワークは,LLM駆動のアルゴリズム発見や適応的な問題解決研究の基盤となる。
大規模言語モデルにおけるテキスト分類のプロンプト感受性:プロンプトの曖昧性の役割 [cs.CL, cs.AI, cs.LG]目的:大規模言語モデルにおけるプロンプト感受性の要因分析
- 自然言語処理において,大規模言語モデルの活用が進んでいる。プロンプトを通じてタスクを制御する点が重要である。
- プロンプトのわずかな変更が性能に大きな影響を与えるプロンプト感受性が課題となっている。
- プロンプトの曖昧性が感受性に与える影響を明らかにし,より堅牢なプロンプト設計に貢献することを目指す。
- 曖昧なプロンプトは,具体的な指示を含むプロンプトと比較して,性能変動が大きいことが示された。
- 曖昧なプロンプトは,関連トークンのロジット値が低く,性能に悪影響を及ぼすことが確認された。
- プロンプトの曖昧性の影響は,主に最終層で顕在化し,モデル内部表現への影響は限定的であると示唆された。
静的クロッピングを超えて:層適応型視覚局所化とデコーディング強化 [cs.CV, cs.AI, cs.CL]目的:視覚局所化とデコーディングの強化
- 大規模ビジョン言語モデルの発展には,視覚情報とテキスト情報の整合性が不可欠である。
- 固定された視覚トークン予算が,画像の詳細を失わせ,言語事前知識への過度な依存を引き起こす。
- クエリに特化した視覚的局所化に最適な層を動的に特定し,推論時の性能向上を目指す。
- 提案手法 LASER は,VQA ベンチマークにおいて,複雑なタスクでの精度を大幅に向上させる。
- 視覚的局所化は層に依存する動的なプロセスであり,タスクに応じて必要な層が変化する。
- クエリに対する注意マップの感度を測定する指標 VAQ を導入し,タスクに適した層を適応的に選択する。
DeFrame:大規模言語モデルにおけるフレーミング効果に対するバイアス軽減 [cs.CL, cs.AI]目的:大規模言語モデルの公平性評価におけるフレーミングの影響の定量化と,それに対するバイアス軽減手法
- 大規模言語モデルの社会実装が進む中で,人口統計学的属性に応じた公平な応答が不可欠である。
- 既存の評価設定では公平に見えても,異なる表現(フレーミング)でバイアスが生じるという課題がある。
- フレーミングに起因する公平性の格差を低減し,より公平で一貫性のある応答を実現することを目指す。
- 「フレーミング格差」という概念を導入し,公平性評価におけるフレーミングの影響を定量的に示した。
- 既存のバイアス軽減手法では,フレーミングに起因する公平性の格差を十分に解消できないことがわかった。
- 提案手法は,全体的なバイアスを低減し,フレーミングに対するロバスト性を向上させることを実証した。
カルテジアン局所環境多体結合による効率的な等変高階結晶テンソル予測 [cs.CL, cs.LG, cs.AI]目的:高階結晶テンソル特性の原子構造からの予測
- 材料開発において,結晶の電気的・機械的特性予測は不可欠である。
- 高階テンソル予測には計算コストが大きく,効率的な手法が求められる。
- 計算効率を維持しつつ,高精度な高階テンソル予測を実現すること。
- CEITNetは,チャネル空間での学習とカルテジアンテンソル基底を用いることで,効率的な高階テンソル構築を可能にする。
- 誘電率,圧電率,弾性率のベンチマークデータセットにおいて,既存手法を精度と計算効率の両面で上回る結果が得られた。
- CEITNetは,高精度な高階テンソル予測と高い計算効率を両立する有効な手法である。
仮定から行動へ:LLMの推論を不確実性認識型プランニングへ転換し,具現化されたエージェントを動かす [cs.AI, cs.CL, cs.MA]目的:LLMの推論に潜む断片的な仮定を構造化された決定木に変換するフレームワークの開発
- マルチエージェント環境における具現化されたエージェントは,隠れた情報や相手の意図の不確実性に対応する必要がある。
- 既存手法では,不確実性への対処に過度の通信コストがかかり,人間との連携を阻害する可能性がある。
- LLMの潜在的な仮定を構造的に扱い,より効率的かつ信頼性の高いプランニングを実現することを目指す。
- 提案手法PCEは,既存の通信中心型ベースラインと比較して,成功率とタスク効率において一貫して優れた性能を示す。
- モデルの容量や推論深度を向上させても,PCEを適用することで性能向上が持続し,PCE自体が性能向上に寄与することが示された。
- ユーザースタディの結果,PCEが生成するコミュニケーションパターンは,人間がより効率的で信頼できると認識することが明らかになった。
人間によるアノテーションなしでの事前学習済み視覚言語モデルのファインチューニング [cs.CV, cs.AI]目的:視覚言語モデルのタスク適応
- 視覚言語モデルは汎用性が高いが,特定タスクへの適応にはコストのかかるラベル付きデータが必要となる。
- 既存の教師なし自己学習法は擬似ラベリングに依存するが,信頼性の低いフィルタリングや確証バイアスに悩まされる。
- 擬似ラベルの質を明示的にモデル化し,ノイズの多い教師信号下でのロバスト性を向上させる。
- 提案手法CoFTは,二つのモデル間の協調学習を通じて,ラベルなしデータを活用する。
- CoFTは,正と負のテキストプロンプトを用いることで,擬似ラベルの信頼性をサンプルごとに評価する。
- 実験結果から,CoFTは既存手法や少量ショットの教師あり学習ベースラインよりも優れていることが示された。
機械学習モデルにおける公平性の対話的視覚的診断:RISE [cs.LG]目的:機械学習モデルの公平性評価における問題点の特定
- 機械学習の社会実装が進む中,モデルの公平性は重要な課題となっている。
- 従来の公平性指標は,不均衡が生じる具体的な箇所を示せていない。
- ドメインシフト下での公平性評価を可能にし,潜在的な不均衡を発見すること。
- RISEは,ソートされた残差を解釈可能なパターンに変換する対話型可視化ツールである。
- 残差曲線の構造と公平性の概念を結びつけることで,局所的な不均衡を診断できる。
- RISEは,集計統計では見過ごされる精度と公平性のトレードオフを明らかにする。
CLIPアダプテーションのための明示的な不確実性モデリング:二重プロンプトチューニング [cs.CV, cs.AI]目的:アクティブCLIPアダプテーションにおける不確実性モデリング
- 画像認識分野において,事前学習済みのモデルの転移学習は重要であり,限られたアノテーション資源での適応が課題。
- アクティブ学習では,最適なデータ選択が重要だが,既存手法はモデル側の不確実性を明示的にモデル化していない。
- モデル側の不確実性を明示的にモデル化することで,より効率的なデータ選択を目指す。
- 二重プロンプトチューニングを用いたフレームワークを提案し,CLIPモデルの適応における不確実性モデリングを実現。
- 正のプロンプトは識別能力を向上させ,負のプロンプトは予測ラベルの正しさを確率的にモデル化することで,不確実性の指標を提供する。
- 様々なファインチューニング設定で,提案手法が既存のアクティブ学習手法を上回る性能を示すことが確認された。
UnMaskFork:マスク拡散における決定論的行動分岐によるテスト時スケーリング [cs.LG, cs.AI]目的:マスク拡散言語モデルのテスト時スケーリング手法
- 大規模言語モデルの推論能力向上には計算資源の活用が不可欠である。
- 既存のスケーリング手法は確率的サンプリングに依存し,効率性に課題がある。
- 決定論的行動分岐による探索を通じて,より効率的なテスト時スケーリングを実現する。
- 提案手法UnMaskForkは,複雑なコーディングベンチマークにおいて既存手法を上回る性能を示す。
- UMFは,探索空間を決定論的に部分的にマスクする複数のMDLMを用いて生成経路を最適化する。
- 数学的推論タスクにおいても高いスケーラビリティを示す。
MirrorLA:ビジョン線形アテンションのための特徴マップの反射 [cs.LG]目的:線形アテンションにおける性能低下の原因究明と改善
- Transformerは自然言語処理や画像認識で重要な役割を担うが,計算コストが高い。
- 線形アテンションは計算量を削減するが,従来のsoftmaxアテンションに劣る性能が課題。
- 特徴マップの負領域の情報を活用することで,線形アテンションの性能向上を目指す。
- MirrorLAは学習可能なハウスホルダー反射を用いて特徴マップを非負の領域に回転させる。
- 局所的な識別能力向上,長文脈の安定化,分散した部分空間の統合を多段階で実現する。
- 標準的なベンチマークで最先端の性能を達成し,線形効率と表現力の両立を実証した。
VecSet-Edit:単一画像からのメッシュ編集における事前学習済みLRMの活用 [cs.CV, cs.AI]目的:単一画像からの3Dメッシュ編集手法
- 3Dアセットの柔軟な制御が求められる中,3D編集技術は重要な研究分野となっている。
- 既存手法は3D Gaussian Splatting等に偏り,直接的なメッシュ編集は未開拓である。
- 高精度なVecSet LRMを用いて,2D画像のみから高精度なメッシュ編集を実現する。
- 本研究では,VecSetトークンの空間的特性を分析し,トークン部分集合が特定の幾何領域を制御することを発見した。
- Mask-guided Token SeedingとAttention-aligned Token Gating戦略により,2D画像に基づいた正確なターゲット領域の特定を可能にした。
- Detail-preserving Texture Bakingモジュールにより,幾何学的詳細とテクスチャ情報を両立した編集を実現した。
モザイク学習:モデル断片化による分散学習のフレームワーク [cs.LG]目的:分散学習のためのフレームワーク
- データ中央集約が困難な環境下での機械学習を可能にする分散学習の重要性
- 従来の分散学習では,パラメータの相関による冗長な通信が発生しやすい点
- モデル断片化により通信コストを抑えつつ,情報伝播の多様性を高めること
- モザイク学習は,最悪の場合の収束レートにおいて最先端の性能を示すことが理論的に証明された。
- 機械学習モデルのパラメータ相関を活用し,システムの最大固有値を減少させることで収縮率を向上させる。
- 4つの学習タスクにおいて,既存の分散学習手法と比較してノードレベルのテスト精度が最大12パーセント向上した。
ハイパーグラフニューラルネットワークに対する反事実的説明 [cs.LG, cs.AI, cs.CY]目的:ハイパーグラフニューラルネットワークの予測を変える最小限の構造変化の特定
- 現実世界の複雑なシステムをモデル化する上で重要性が増しているため。
- ハイパーグラフニューラルネットワークは解釈が難しく,実用化の妨げとなっている。
- ハイパーグラフニューラルネットワークの意思決定における重要な関係性を明らかにすること。
- CF-HyperGNNExplainerは,ハイパーグラフのノード-ハイパーエッジ間の関係の削除やハイパーエッジの削除という実行可能な編集を用いて,有効かつ簡潔な反事実グラフを生成する。
- 3つのベンチマークデータセットを用いた実験により,CF-HyperGNNExplainerがハイパーグラフニューラルネットワークの意思決定に最も重要な高次の関係性を強調することが示された。
SparVAR:視覚的自己回帰モデリングにおけるスパース性の探求 - 学習不要な高速化 [cs.CV, cs.AI, cs.LG]目的:視覚的自己回帰モデリングの高速化手法
- 高解像度画像生成において,計算コストが課題であり,リアルタイム処理が求められている。
- 従来のVARモデルは,解像度向上に伴い計算量が指数関数的に増加し,遅延が大きくなる。
- 高解像度画像生成時の遅延を削減し,高周波詳細を維持した高速化を実現することを目指す。
- 提案手法SparVARは,VARアテンションの特性に着目し,学習なしで高速化を達成した。
- 8Bモデルによる1024x1024画像生成を1秒台に短縮し,高周波詳細の劣化を抑制することを示した。
- FlashAttentionと比較して1.57倍の高速化,既存のスキップ戦略との組み合わせで最大2.28倍の高速化を達成した。
大規模チャート理解学習セットの能力向上を測るためのエントロピー増益最大化による部分集合選択 [cs.LG]目的:大規模チャート理解学習セットの能力向上を測る部分集合
- マルチモーダル大規模言語モデルの性能向上が期待され,チャート理解能力の学習データセットの重要性が増している。
- フルセットでのファインチューニングには時間がかかり,データセットの反復的な改良サイクルが阻害されている。
- エントロピー増益最大化により,効率的に能力向上を測る部分集合の選択を目指す。
- 提案手法EXaMCaPは,既存手法と比較してチャート理解学習セットの能力向上を測る性能に優れている。
- 様々な部分集合サイズや,多様なマルチモーダル大規模言語モデルアーキテクチャに対して有効であることが示された。
- エントロピーに着目することで,データの多様性を考慮した部分集合選択が可能となった。
マルチスケールハイパーグラフとLLM:時系列分析のための大規模言語モデルの整合 [cs.LG]目的:時系列分析のための大規模言語モデルの整合手法
- 時系列データは様々な分野で重要であり,その分析は予測や意思決定に不可欠である。
- 自然言語と時系列データのマルチスケール構造が十分に考慮されておらず,LLMの能力が活かされていない。
- 自然言語と時系列データのマルチスケール構造を整合させ,LLMの時系列分析能力を向上させる。
- 提案手法MSH-LLMは,時系列データのセマンティック空間におけるマルチスケール情報を強化するハイパーエッジング機構を導入した。
- 異なるスケールで自然言語と時系列データのモダリティを整合させるクロスモダリティ整合(CMA)モジュールを導入した。
- コンテキスト情報を提供し,LLMが時系列データのマルチスケール時間パターンを理解する能力を強化するプロンプトの混合(MoP)機構を導入した。実験結果は,MSH-LLMが最先端の結果を達成することを示した。
時系列マッピングにおけるラベル付与負担の軽減:ランドカバーと種の経時変化追跡のための半自動アプローチ「Common Ground」 [cs.LG]目的:時系列リモートセンシングデータ分類におけるラベル効率の向上
- 地球観測データの信頼性向上には,一貫性のある最新の参照ラベルが不可欠である。
- 動的または遠隔な生態系において,各時点での新しいラベルデータ収集は費用と労力を要する。
- 初期時点の参照データのみで,将来の時点での分類精度を維持することを目指す。
- 「Common Ground」は,時間的に安定した領域を活用し,動的領域への半教師あり学習を適用することで,分類精度を向上させた。
- 外来樹種マッピングでは,単純な時間的転移と比較して21~40%の分類精度向上が確認された。
- ヨーロッパの土地被覆マッピングでは,2%の精度向上が認められ,安定参照スクリーニングと半教師あり学習の有効性が示された。
KLダイバージェンスを超えて:LLM推論のための柔軟なブ Bregmanダイバージェンスによる方策最適化 [cs.LG, cs.AI]目的:LLM推論における方策最適化
- 大規模言語モデル(LLM)の推論能力向上は,AI研究の重要な課題である。
- 既存の方策最適化手法は,KLダイバージェンスのみに依存しており,多様なダイバージェンス関数の可能性が探求されていない。
- 柔軟なBregmanダイバージェンスを導入し,LLMの推論性能を向上させる。
- GSM8K数学推論において,ProbL2-GRPOは86.7%の精度を達成し,Dr. GRPOベースラインを5.5ポイント上回った。
- MBPPコード生成において,ニューラルミラーマップは60.1-60.8%のpass@1を達成し,ランダム初期化でも大部分の利点が捉えられた。
- 進化戦略メタ学習はわずかな精度向上をもたらすが,分散の低減と効率の向上に貢献する。
低スペックCPUでのリアルタイム大腸内視鏡ポリプセグメンテーションを実現する超軽量アーキテクチャ [cs.CV, cs.AI]目的:大腸内視鏡ポリプのリアルタイムかつ正確なセグメンテーション
- 大腸がんの早期発見には,リアルタイムでの正確なポリプ識別と切除が不可欠である。
- 既存の高精度セグメンテーションモデルはGPUに依存しており,中小規模の病院や移動型内視鏡ユニットへの導入が困難である。
- 本研究は,リソースに制約のある環境でもGPUなしでセグメンテーションを実行可能とする。
- UltraSegファミリーは,0.3Mパラメータ以下の極限的な圧縮率で動作し,単一CPUコアで90FPSを実現した。
- UltraSegは,31MパラメータのU-Netと比較して0.4%のパラメータ数で,Diceスコアの94%以上を維持した。
- 本研究は,大腸内視鏡検査だけでなく,他の低侵襲手術における画像処理にも応用可能な基盤を提供する。
持続可能な小売のためのブロックチェーンを用いた連合学習:協調的な需要予測による廃棄物削減 [cs.LG, cs.AI, cs.CR]目的:食品廃棄物削減のための協調的な需要予測
- 小売業において,需要予測の精度向上は,廃棄物削減と効率化に不可欠である。
- 小売店間のデータ共有にはプライバシー上の懸念があり,予測精度の向上が妨げられている。
- データ共有を伴わずに需要予測の精度を向上させ,廃棄物削減を実現すること。
- 連合学習モデルは,データ共有が行われる理想的な状況とほぼ同等の性能を示した。
- 個々の小売店がデータ共有なしに構築したモデルと比較して,連合学習モデルは優れた性能を発揮する。
- 本研究は,廃棄物削減と効率向上に貢献する可能性を示す。
デジタルツインとZeroConf AI:産業応用向け自動知能パイプラインの構造化 [cs.AI, cs.SE]目的:産業応用における自動知能パイプラインの構造化
- サイバーフィジカルシステムは産業の高度化に不可欠だが,その複雑さが増している。
- IoT/IIoT技術の断片化が,低レベル層と高レベル知能機能間のギャップを大きくしている。
- デジタルツインを活用し,AIパイプラインの構成を容易にすることで,その課題を解決する。
- デジタルツインがデータ管理と知能拡張をオーケストレーションすることで,AIパイプラインのシームレスな統合を実現した。
- ZeroConf AIパイプラインにより,AI機能の再利用性と拡張性が向上し,構成が簡素化された。
- MicroFactory環境での実証実験により,動的なデータ処理と並行MLモデルのサポートが確認された。
大規模言語モデルを用いたニューラルネットワークのデータセット生成に関する研究 [cs.LG]目的:ニューラルネットワークのデータセット
- 意思決定支援におけるニューラルネットワークの重要性が増しており,信頼性評価が不可欠である。
- ニューラルネットワークのツール評価には,多様なデータセットが存在せず,体系的な検証が困難である。
- 大規模言語モデルを用いて多様なニューラルネットワークデータセットを生成し,評価を可能にすること。
- 大規模言語モデルを用いて608個のニューラルネットワークサンプルを生成した。
- 生成されたネットワークは多様なアーキテクチャ構成と入力データに対応している。
- 静的解析と記号的トレーシングにより,生成されたネットワークの正しさを検証した。
LoRDO:不頻度通信による分散低ランク最適化 [cs.CL, cs.CL, cs.HC, cs.CY, cs.LG, cs.AI]目的:分散低ランク最適化のフレームワーク
- 大規模モデルの分散学習は必須であり,計算資源の効率的な利用が求められている。
- 既存手法では,通信帯域幅や最適化状態のメモリ要件がボトルネックとなりやすい。
- 低ランク最適化と不頻度通信を組み合わせ,通信量を削減しつつ性能を維持する。
- LoRDOは,言語モデリングや下流タスクにおいて,低ランクDDPと同等の性能を達成する。
- 通信量を約10倍削減し,メモリ制約下での性能向上も確認された。
- 擬似勾配に基づく全局投影の制限を克服するため,フルランク準双曲線更新を導入した。
