arXiv雑要約
AI - 2026/02/02 公開
Wi-Fi駆動ネットワークにおける屋内位置推定のための空間適応共形グラフ変換器 [cs.LG, eess.SP]目的:屋内位置推定の精度と信頼性向上
- スマート環境におけるナビゲーション等,位置情報に基づくサービスは重要性が高まっている。
- 既存のグラフベースモデルは位置分解能は向上するも,実用化には不確実性の定量化が課題である。
- 環境条件に応じた信頼性の高い位置推定と,統計的に妥当な信頼領域の提供を目指す。
- 提案手法SAC-GTは,Wi-Fiネットワークの空間的トポロジーと信号強度を捉えるグラフ変換器と,空間適応共形予測を統合する。
- 大規模な実環境データセットでの評価により,SAC-GTが最先端の位置推定精度を達成し,堅牢な信頼性を実現することが示された。
- SAC-GTは,環境条件の変化に応じて信頼領域を調整し,高い信頼性を提供する。
SCOPE:事前推論によるスケーラブルで制御可能なルーティング [cs.LG]目的:言語モデルのルーティングにおける費用対効果の最適化
- 言語モデルの推論コストは高く,効率的な運用が重要である
- 既存のルーティング手法は,モデルの追加や予算変化への対応が困難である
- 未知のモデルにも対応可能な,柔軟なルーティング手法を確立する
- SCOPEは,モデルの性能と費用を予測することで,動的なルーティングを実現する
- 性能を優先する場合には精度が最大25.7%向上し,効率を優先する場合にはコストが最大95.1%削減された
- 既存手法と比較して,新しいモデルや変化する予算にも柔軟に対応可能である
AgentScore:臨床スコアリングシステムの自動生成 [cs.LG, cs.MA]目的:展開可能な臨床スコアリングシステムの自動生成
- 臨床現場では,簡潔なスコアリングシステムが不可欠であり,根拠に基づいた診療を支援する。
- 機械学習モデルの性能は高いものの,実用化には,記憶性や監査可能性などの制約との整合性が課題。
- 展開可能なガイドラインに合致するスコアの学習を可能にし,臨床現場での利用を促進すること。
- AgentScoreは,LLMを用いてルール候補を提案し,統計的妥当性と展開可能性を検証することで,効率的にスコアリングシステムを生成する。
- 8つの臨床予測タスクにおいて,既存の手法を上回り,より柔軟な解釈可能なモデルと同等のAUCを達成した。
- 外部検証タスクにおいても,確立されたガイドラインベースのスコアよりも高い識別能力を示した。
分類モデルの監視における層化重要度サンプリングによるラベル効率の向上 [cs.LG, stat.AP]目的:分類モデル監視のためのラベル効率改善手法
- モデルの精度維持は重要だが,実運用でのラベル取得コストが高い
- 実運用ではラベル予算が厳しく,誤り率も極めて低いことが課題
- ラベル予算内で効率的にモデル性能を監視する手法を確立する
- 層化重要度サンプリング(SIS)は,重要度サンプリング(IS)や層化ランダムサンプリング(SRS)に対し,有限サンプルでの二乗誤差平均(MSE)を改善する。
- SISは最適な提案分布や層化を必要とせず,ノイズのあるプロキシや不完全な層化でもISやSRSより効率的になりうる。
- 二値分類および多クラス分類タスクにおいて,固定のラベル予算下で一貫した効率向上が確認された。
暗黙的関数空間におけるハイパーネットワークを通じた分子表現 [cs.LG]目的:分子の関数空間における学習
- 分子構造と物理的性質の予測において,機械学習の性能向上は重要である。
- 従来の分子表現は,分子の連続的な物理的性質を捉えきれていない。
- 分子を連続関数として表現することで,汎化性能の向上を目指す。
- MolFieldは,ハイパーネットワークを用いて分子場の分布を学習する。
- 分子を3次元空間における連続関数として扱うことで,タスク間の汎化性能が向上した。
- 分子の離散化方法やクエリ方法に依存しない安定した挙動が確認された。
知識に基づいたカーネル状態再構成による解釈可能な力学系発見 [cs.LG]目的:データからの支配方程式の回復
- 科学的発見において,データから法則性を抽出することは重要である。
- ノイズや不完全な観測下では既存手法は困難であり,ブラックボックス化しやすい。
- 断片的なデータから物理的に整合性のとれた状態推定を行うことで,法則発見を支援する。
- MAATはカーネル状態再構成を用いて,物理的制約を状態推定に組み込む。
- 多様な科学的ベンチマークにおいて,既存手法と比較して状態推定のMSEを大幅に削減。
- 滑らかで物理的に整合性の高い状態推定と解析的な時間微分を提供。
合理性の閃き:推論型LLMは人間の判断と選択と一致するか? [cs.AI, cs.CY]目的:人間の判断と選択における合理性と感情のバランスをLLMで再現可能かどうかの評価
- LLMは意思決定支援への応用が期待され,その判断の質が重要視されている。
- 現実の人間判断は感情に左右されるため,LLMの合理性のみでは不十分である。
- LLMが人間の合理性と非合理性を再現し,より人間らしい判断を可能にすること。
- LLMに「熟考」させることで合理性が向上し,期待値最大化に近づく傾向が確認された。
- 感情誘導手法(ICPとRLS)を試みた結果,ICPは極端なシフト,RLSは心理的に妥当なパターンを示した。
- 合理性を高めるメカニズムは,感情への感受性を増幅させ,感情誘導方法によって制御性と人間らしい行動のバランスが変化する。
細胞ペインティングにおけるバッチ効果の効率的な補正:バッチ依存カーネルと適応的サンプリングによる手法 [cs.LG, stat.CO]目的:細胞ペインティングデータにおけるバッチ効果の補正
- 創薬研究において,細胞の形態変化を定量的に評価する細胞ペインティングは重要な手法である。
- 実験室,機器,プロトコル等の違いに起因するバッチ効果が,細胞ペインティングデータの解析を阻害する。
- 大規模な細胞ペインティングデータにおけるバッチ効果を効率的に補正する手法を開発し,生物学的シグナルを明確にすること。
- BALANSは,ペアワイズ距離から構築される平滑化されたアフィニティ行列を用いて,バッチ間のサンプルを整列させる。
- 適応的サンプリングにより,計算量を削減しつつ,補正精度を維持し,大規模データセットにも対応可能である。
- 実際の細胞ペインティングデータおよび合成データを用いた実験により,BALANSの有効性とスケーラビリティが示された。
DP-λCGD:差分プライバシー保護モデル学習のための効率的なノイズ相関 [cs.LG]目的:差分プライバシー保護モデル学習におけるノイズ相関戦略
- 機械学習モデルのプライバシー保護は重要であり,データ漏洩のリスクを軽減する。
- 従来のDP-SGDは,プライバシー保護とモデル精度のトレードオフが課題であった。
- 本研究は,メモリ効率を保ちつつDP-SGDの精度を向上させることを目指す。
- 提案手法DP-λCGDは,直前の反復とのみノイズ相関を持たせることで,過去のノイズ保存を不要とした。
- DP-λCGDは,標準的なDP-SGDと同等の計算コストで,より高い精度を実現する。
- 擬似乱数生成器を用いることで,ノイズの再生が可能となり,メモリオーバーヘッドを抑制した。
嗜好学習のための知識勾配 [cs.LG, stat.ML]目的:嗜好学習における知識勾配の導出
- 最適化問題において,未知の関数を効率的に探索する手法が求められている。
- 従来の知識勾配法は,関数の直接評価を必要とし,比較評価のみが可能な状況には適用が困難であった。
- 比較評価のみから知識勾配を導出し,嗜好学習における最適化性能の向上を目指す。
- 本研究では,嗜好学習のための正確な知識勾配を解析的に導出した。
- 導出された知識勾配は,ベンチマーク問題において既存の手法を上回る性能を示した。
- 特定の条件下における知識勾配の限界についてもケーススタディを通じて示唆された。
情報検索からAIによる推論へ:臨床意思決定支援における人間とAIの連携を支える多様なインタラクション様式の探求 [cs.HC, cs.AI]目的:臨床意思決定支援における人間とAIの連携を支えるインタラクション様式の違い
- 臨床現場での意思決定の質向上は医療安全の根幹であり,AI技術はその可能性を秘めている。
- 既存の臨床意思決定支援システムには,情報過多や操作性の問題など,使い勝手の課題が存在する。
- AIの活用方法を理解し,臨床医の認知特性に合わせた最適なインタラクション様式を確立すること。
- 臨床医はLLMを情報検索と確認のためのツールとして中心的に利用する傾向があり,複雑な質問を処理できる積極的な議論パートナーとしては活用されていない。
- インタラクション設定の変更や個人の認知スタイルによって,AIへの関与度が異なることが示唆された。
- テキスト,音声,従来のUIの利点と欠点から,臨床意思決定支援において万能なインタラクション様式は存在しないことが明らかになった。
量子に着想を得た強化学習による,安全で持続可能なAIoT駆動型サプライチェーンシステム [cs.LG, quant-ph]目的:安全で持続可能なAIoT駆動型サプライチェーンシステムの最適化
- 現代のサプライチェーンは,速度,環境負荷,セキュリティのバランスが重要視されている。
- 従来の最適化モデルは,持続可能性やサイバーセキュリティの脆弱性を見過ごしがちである。
- カーボンフットプリント削減,在庫管理,セキュリティ対策を統合的に解決する。
- 提案手法は,量子に着想を得た強化学習フレームワークを用いて,信頼性,セキュリティ,カーボンコストを最適化する。
- シミュレーションにおいて,本手法は標準的な手法と比較して,安定した収束と優れた性能を示した。
- ノイズ環境下でも頑健性を維持し,リアルタイムの持続可能性とリスクに対応できる可能性が示された。
インタラクティブなタスクにおける言語モデルの探索不足 [cs.LG]目的:インタラクティブ環境下での言語モデルの探索能力の評価
- AIエージェントが現実世界で活動するには,環境とのインタラクションを通じた探索が不可欠である。
- 言語モデルは探索が苦手であり,限られた試行回数では最適な解決策を見つけられない場合が多い。
- 限られた試行回数下で,言語モデルがより効率的に環境を探索する方法を模索する。
- 最先端の言語モデルにおいて,系統的な探索不足と最適解に至らない結果が確認された。
- 予算を分割して並列実行する介入は,理論的な予想に反して性能向上に寄与した。
- インタラクション履歴を定期的に要約することで,重要な発見を保持し,探索能力をさらに向上させることができた。
MixQuant:ポストトレーニング量子化におけるブロック回転の限界の克服 [cs.LG, cs.AI]目的:ブロック回転を考慮した量子化フレームワークの提案
- 深層学習モデルの効率化が重要であり,量子化はその主要な手法の一つである。
- 従来の量子化手法では,外れ値の抑制が課題であり,回転演算のコストも大きい。
- ブロック回転の限界を克服し,より高い精度で量子化を実現することを目指す。
- MixQuantは,ブロック回転の前に活性化の質量を再分配することで,外れ値抑制を改善する。
- Llama3 1BをINT4に量子化した場合,ブロックサイズ16で,フルベクトル回転の性能の90%を回復した。
- 置換をモデルの重みに統合することで,推論時のオーバーヘッドを回避している。
操舵可能な行動合成のためのポリシー表現学習 [cs.LG, cs.AI]目的:行動操舵を容易にするためのポリシー表現
- ロボットの自律行動において,多様なタスクに適応可能な柔軟性が重要である。
- 既存手法では,タスク変更時にポリシーを再学習する必要があり,効率が悪い。
- 未知の報酬関数制約下でも行動を操舵できる,汎用的なポリシー表現の獲得。
- 提案手法は,占有測度に対する状態行動特徴マップの期待値としてポリシー表現をモデル化する。
- 集合ベースのアーキテクチャにより,多様なポリシーに対する表現を均一に近似可能である。
- 潜在空間における勾配ベースの最適化により,追加学習なしで未踏の制約条件に対応できる。
回復可能性には法則がある:ツール拡張エージェントのためのERR指標 [cs.LG, cs.AI]目的:ツール使用エージェントにおける回復可能性の法則性
- 言語モデルエージェントの応用が広がる中で,その堅牢性評価が重要となっている。
- ツール使用時のエラーからの回復能力は,実用上の課題であり,そのメカニズムは不明確であった。
- 回復能力を定量的に評価し,その法則性を明らかにすることで,エージェントの信頼性を向上させる。
- 回復可能性は,期待される回復後悔 (ERR) と効率スコア (ES) の関係によって予測可能であることが示された。
- ERR-ES法則は,五つのツール使用ベンチマークにおいて,観測された回復後悔と高い一致度を示した。
- 回復可能性は,モデルの規模や構造に依存するものではなく,相互作用の動的な特性によって制御されることが明らかになった。
相対ワッサーシュタイン角と$W_2$近傍ガウス分布の問題 [cs.LG]目的:経験分布のガウス性からの逸脱の度合いの定量化
- 最適輸送理論は,確率分布間の距離を測る強力なツールであり,機械学習等の分野で重要性が増している。
- 経験分布のガウス近似の質を評価する適切な指標が不足しており,既存手法では必ずしも最適なガウス分布が得られない。
- 相対ワッサーシュタイン角と直交投影距離という新たな指標を導入し,経験分布のガウス性からのずれをより正確に評価すること。
- 相対ワッサーシュタイン角と直交投影距離は,ガウス性からのずれを意味のある指標として提供する。
- 従来のモーメントマッチングによるガウス近似が,必ずしも$W_2$近傍のガウス分布ではないことが示された。
- 実験により,相対ワッサーシュタイン角はワッサーシュタイン距離よりもロバストであり,提案手法はFIDスコアの評価においてモーメントマッチングを上回る性能を示すことが確認された。
PoSafeNet:ポセット構造ニューラルネットによる安全な学習 [cs.LG, cs.RO]目的:ポセット構造化安全性の実現
- ロボットシステムにおける安全性が重要であり,学習に基づく制御への応用が求められている。
- 既存手法は制約を一律に扱うか,固定の優先順位を用いるため,実現不可能性や脆さの問題がある。
- 部分的な優先関係を持つ異質な安全制約を扱うための,柔軟な安全性の構成手法を提案する。
- PoSafeNetは,ポセット構造に基づき,制約順序に沿った閉形式投影により安全性を確保する微分可能なニューラル安全層である。
- これにより,有効な安全実行を適応的に選択・混合し,優先順位を維持しながら実現可能性,ロバスト性,スケーラビリティを向上させる。
- 多障害物ナビゲーション,制約付きロボット操作,視覚ベースの自動運転実験で,その有効性が確認された。
ちょっとした会話,大きな影響:AIに感謝するコスト [cs.LG]目的:AIとの対話における「ありがとう」のような礼儀正しいメッセージのエネルギー消費量
- AI利用の拡大に伴い,環境負荷への意識が高まっており,持続可能性が重要課題となっている。
- LLMの推論には大量のエネルギーを消費するため,わずかな対話でも無視できないコストが生じる。
- LLMの対話におけるエネルギー消費量を定量化し,より効率的な運用方法を模索する。
- 入力・出力の長さ,モデルのサイズがエネルギー消費量に影響することが明らかになった。
- 礼儀正しい表現は,LLMのエネルギーフットプリントを測定するための再現性のある指標となりうる。
- LLMアプリケーションの持続可能性と効率性を向上させるための知見を提供する。
見えない脅威:摂動されたサンプル下における機械的アンラーニングにおける残存知識 [cs.LG, cs.AI]目的:機械的アンラーニングにおける残存知識の形式化と軽減
- プライバシー保護の重要性が増しており,個人データの削除の信頼性確保が不可欠である。
- 既存のアンラーニング手法は,摂動された入力に対して十分なプライバシー保護を提供していない。
- 摂動された忘却サンプルにおける残存知識を抑制し,プライバシーリスクを軽減すること。
- 本研究では,高次元設定において残存知識が避けられないことを形式化して示した。
- 既存のアンラーニング手法において,残存知識が広く存在することを確認した。
- 提案手法RURKは,摂動された忘却サンプルを再認識するモデルの能力を効果的に抑制することが示された。
MERMAID:複数エージェントによる反復的な知識に基づいた真偽性評価のためのメモリ増強検索と推論 [cs.CL, cs.AI, cs.LG]目的:オンラインコンテンツの真偽性評価
- インターネット上の誤情報拡散が深刻化しており,真偽性評価技術の重要性が増している。
- 既存手法では,証拠の検索が独立したステップとして扱われ,再利用が不十分である。
- 検索と推論を連携させ,証拠を効率的に再利用することで,真偽性評価の精度と効率を向上させる。
- 提案手法MERMAIDは,複数のファクトチェックベンチマークと主張検証データセットで最先端の性能を達成した。
- 検索と推論,メモリを組み合わせることで,信頼性の高い真偽性評価が可能になることを示した。
- 証拠メモリを活用することで,冗長な検索を減らし,検証の効率と一貫性を改善した。
LLMのエネルギー使用量における効率性の理解:量子化,バッチ処理,および提供戦略 [cs.LG]目的:LLMのエネルギー使用量に対する量子化,バッチ処理,および提供戦略の影響
- LLMの利用拡大に伴い,学習から推論への計算資源・エネルギー負荷の移行が進んでいる。
- 既存研究では推論ごとのエネルギーコストが中心であり,システム設計選択の影響が不明確である。
- システムレベルの設計選択がLLM推論のエネルギー消費に与える影響を定量的に明らかにする。
- 量子化は,計算負荷の高い場合にのみエネルギー効率の向上に貢献する。
- バッチ処理は,特にデコードのようなメモリボトルネックとなるフェーズにおいて,エネルギー効率を改善する。
- リクエストタイミングの制御(到着レートの調整)により,リクエストあたりのエネルギー消費量を最大100倍削減できる。
文脈構造が言語モデルの表現幾何学を再構築する [cs.CL, cs.AI]目的:言語モデルにおける表現の幾何学的構造の変化
- 言語モデルの性能向上には,入力シーケンスの表現方法が重要である。
- 文脈学習における表現の変化が,モデルの予測性能にどう影響するか不明である。
- 文脈学習における表現の直線化が,予測性能にどのように関わるかを解明する。
- 継続的な予測タスクでは,文脈の増加に伴い,ニューラルシーケンス軌跡の直線性が増し,予測性能の向上と相関関係が見られた。
- 構造化された予測タスクでは,直線化は一貫しておらず,明示的な構造を持つ段階でのみ認められた。
- 言語モデルは,タスク構造に応じて戦略を動的に選択し,表現の直線化は一部の戦略でのみ生じる。
大規模言語モデルによるギルバート・ポラック予想への取り組み [cs.DM, cs.LG]目的:ギルバート・ポラック予想に対するよりタイトな下限の導出
- 幾何学における長年の未解決問題であり,グラフ理論や最適化への応用が期待される。
- 過去30年間,実質的な進展がなく,計算困難な問題として認識されていた。
- 大規模言語モデルを用いて,幾何学的補題を生成し,厳密な下限を導くことで解決を目指す。
- 大規模言語モデルを活用した新しいAIシステムを開発し,ステイナー比の下限値を算出。
- AIシステムは,実行可能なコードとして実装された制約付き幾何学的補題を生成する。
- その結果,ステイナー比の新しい証明された下限値として0.8559を確立した。
証明可能な正当な分散プロトコルの学習:人間の知識なし [cs.AI, cs.DC]目的:分散プロトコルの設計
- 現代の分散システムにおいて重要な役割を担うため。
- 設計は難しく,長年の人間の努力が必要とされてきた。
- 人間の知識に頼らずに,正しいプロトコルを自動的に学習すること。
- GGMSは,モンテカルロ木探索とTransformerベースのアクションエンコーダを統合し,局所的最小値からの脱出とモデルチェッカーからの反復的なフィードバックを可能にする。
- GGMSによって出力されるプロトコルは,限定された設定下でのすべての実行に対して徹底的なモデルチェックによって正当性が検証される。
- 穏やかな仮定の下で,探索プロセスが完全であることが証明された。つまり,正しいプロトコルが存在すれば,GGMSは最終的にそれを見つける。
FIRE:テーブル形式基礎モデルを用いた分布条件付き文脈学習による多忠実度回帰 [cs.LG]目的:多忠実度回帰における性能と計算時間のトレードオフ改善
- 実世界の問題解決には,計算コストを抑えつつ高精度な予測が求められるため,多忠実度回帰が重要となる。
- 従来のガウス過程による代理モデルは,計算量が増大しやすく,データが少ない場合に過学習しやすいという課題があった。
- 本研究は,事前学習済みのテーブル形式基礎モデルを活用し,データ再学習なしに高精度な回帰を実現することを目指す。
- FIREは,31のベンチマーク問題において,既存の最先端手法と比較して,精度と不確実性量子の両面で優れた性能を示した。
- 低忠実度モデルの予測分布情報を活用することで,異分散誤差を捉え,ロバストな残差学習を可能にした。
- 文脈学習のウィンドウサイズや,事前学習済みモデルの品質が性能に影響を与えるという限界も示された。
生物設計のための純粋なエージェント型ブラックボックス最適化 [cs.CL, cs.RO, cs.HC, cs.LG]目的:生物学的設計におけるブラックボックス最適化手法
- 創薬やタンパク質工学など,生物学分野の課題解決に不可欠な技術である。
- 既存手法は構造データに偏重し,豊富な科学文献の活用が不十分である。
- 言語モデルを活用し,より効率的かつ高精度な生物学的設計を目指す。
- PABLOは,GuacaMolや抗菌ペプチド最適化タスクにおいて,最先端の性能を達成した。
- 既存手法と比較して,サンプル効率と目的関数の値を大幅に改善した。
- PABLOによって最適化されたペプチドは,薬剤耐性菌に対して強い活性を示し,治療薬開発への応用が期待される。
グラフはデータモダリティの基盤となる [cs.LG, cs.AI]目的:異種モダリティとタスク間におけるグラフ構造の持続と蓄積
- 多様な分野で関係構造の自然な表現としてグラフが重要視されている。
- グラフ構造は通常,特定のモダリティやタスクごとに独立して学習され,再利用されない。
- 共通のグラフ構造を基盤とすることで,異種モダリティ間での知識伝移を可能にすること。
- G-Substrateは,共有グラフ構造を学習の中心に据えることで,異種モダリティとタスク間での構造的整合性を実現する。
- G-Substrateは,統一的な構造スキーマと役割ベースのインターリーブ学習戦略を組み合わせる。
- 実験結果から,G-Substrateはタスク固有学習や単純なマルチタスク学習よりも優れた性能を示すことが確認された。
SP^2DPO:LLM支援セマンティックペアごとのDPO汎化 [cs.CL, cs.AI, cs.LG]目的:LLMを用いたセマンティックペアごとのDPO汎化手法
- LLMの性能向上には,人間のフィードバックに基づく学習が重要である。
- 既存のDPOは,全てのペアを等しく扱うため,ノイズや主観的な区別に影響を受けやすい。
- セマンティックギャップに基づいたペアごとの温度調整により,学習効率と精度を向上させる。
- SP2DPOは,教師LLMによるセマンティックギャップアノテーションを用いて,ペアごとに最適な温度パラメータを事前に決定する。
- UltraFeedbackデータセットを用いた実験により,SP2DPOが既存のDPOと同等以上の性能を示すことが確認された。
- 特に,長さ制御されたwin rateにおいて,4つのバックボーンモデルのうち2つで性能が向上した。
大規模言語モデルにおける文化に基づいたペルソナ:社会心理学的価値観フレームワークとの特性評価と整合性 [cs.HC, eess.SY, cs.SY, cs.CL, cs.AI, cs.CY, cs.HC, physics.soc-ph]目的:大規模言語モデル生成ペルソナの文化特性と価値観の整合性
- 人間行動のシミュレーションにおいて,大規模言語モデルの活用が進むにつれて,文化的多様性を考慮した評価が不可欠となっている。
- 既存の大規模言語モデルのペルソナは,文化的な背景や価値観を十分に反映していない場合がある。
- 本研究は,文化に基づいたペルソナ生成と分析を通じて,文化間構造と道徳的差異を評価することを目指す。
- 大規模言語モデルを用いて,世界価値観調査(WVS)に由来する変数に基づいた文化に基づいたペルソナを生成した。
- 生成されたペルソナは,Inglehart-Welzel文化地図上での位置づけ,WVSの集団分布との整合性,道徳的基盤理論に基づく道徳的プロファイルを通して分析された。
- 分析の結果,生成されたペルソナが文化的な差異を反映し,道徳的な応答が文化構成によって変化することが示された。
SAIR:文脈内強化学習による多段階MLパイプラインの費用対効果の高い自動スケーリング [cs.LG, cs.DC]目的:多段階ML推論パイプラインの自動スケーリング手法
- MLパイプラインの効率的な運用は,複雑さが増す現代のAIシステムにおいて重要である。
- 異種リソース,ステージ間結合,動的なボトルネック移動により,自動スケーリングは困難を伴う。
- ボトルネックを検出し,費用対効果の高いリソース配分を実現する自動スケーリングを可能にする。
- SAIRは,LLMを文脈内強化学習コントローラーとして利用し,オフライン学習なしでポリシーを改善する。
- 4つのMLパイプラインと3つのワークロードパターンにおいて,SAIRはP99レイテンシと費用対効果において既存手法を上回る性能を示した。
- P99レイテンシを最大50%改善し,費用を最大97%削減,ボトルネック検出精度は86%を達成した。
視覚言語モデルに対するマルチモーダル推論による脱獄 [cs.CV, cs.AI]目的:視覚言語モデルの安全性に対する脆弱性の解明
- 視覚言語モデルは,画像認識や自然言語処理において重要な役割を担う。
- プロンプトのわずかな変化で出力が変わり,安全性確保が課題。
- CoTプロンプトとReActを用いた,安全フィルター回避の手法開発。
- 提示されたフレームワークは,安全フィルターを回避する巧妙なプロンプトを生成する。
- ReAct駆動の適応的ノイズ機構により,攻撃成功率を向上させる。
- テキストと画像の自然性を維持しつつ,攻撃成功率を大幅に改善した。
外れ値の根本原因の説明のためのスコアベース統合勾配 [cs.LG, cs.AI]目的:外れ値の根本原因の特定
- 因果推論や異常検知において,外れ値の原因特定は不可欠である。
- 既存手法は不確実性や高次元の依存関係下で課題を抱えている。
- 不確実性を考慮した原因特定を可能にすること。
- 本研究で提案するSIRENは,データ尤度関数のスコア関数を推定することで外れ値の原因を特定する。
- SIRENは,Shapley値の公理を満たし,非線形モデルや高次元データにも適用可能である。
- 合成データおよび実データを用いた実験により,既存手法を上回る精度と効率が示された。
Geminiを用いた半自律的な数学的発見:エルデシュ問題へのケーススタディ [cs.AI, math.CO, math.NT]目的:エルデシュ問題データベースにおける未解決の仮説の体系的評価
- 数学研究の進展には,既存の未解決問題への新たなアプローチが不可欠である。
- 未解決問題の真偽判定には専門知識と時間が必要であり,効率的な解決方法が求められている。
- AIを活用し,未解決問題の解決を加速させ,その背景にある課題を明らかにすること。
- Geminiを用いて700の未解決仮説を評価した結果,5つの問題に対してAIによる新たな解決策が示唆された。
- さらに8つの問題については,既存の研究文献における解決策の特定に成功した。
- 未解決とされていた問題の多くは,難易度よりも認知度の低さが原因であることが示唆された。
二焦点注意:幾何学的およびスペクトル位置埋め込みの調和 [cs.CL, cs.FL, cs.LG]目的:幾何学的およびスペクトル位置埋め込みの調和
- 大規模言語モデルの性能向上には,位置情報の効果的なエンコーディングが不可欠である。
- 従来のRoPEは局所的な構文の一貫性には優れるが,長距離の周期構造を捉えきれない。
- 再帰的な論理やアルゴリズム推論に適した位置埋め込みを開発し,構造ギャップを解消する。
- 二焦点注意機構は,幾何学的注意とスペクトル注意という異なるモダリティを組み合わせることで,この課題を解決する。
- スペクトル進化という新しい学習プロトコルを導入し,タスクのアルゴリズム構造に合わせて位置周波数を最適化する。
- 実験結果は,二焦点注意がより深い再帰ステップへの外挿において優れた性能を発揮することを示している。
勾配降下法におけるKolmogorov-Arnoldネットワークの最適化,汎化,および差分プライバシーの限界 [eess.SY, cs.SY, cs.RO, cs.LG, cs.AI, stat.ML]目的:Kolmogorov-Arnoldネットワークの学習ダイナミクス,汎化性能,およびプライバシー特性の限界
- 近年注目を集めるKolmogorov-Arnoldネットワークは,標準的な多層パーセプトロンの代替となり得る。
- Kolmogorov-Arnoldネットワークの学習ダイナミクス,汎化,プライバシーに関する理論的根拠は十分ではない。
- 差分プライバシー下での最適化,汎化,およびユーティリティに関する一般化可能な限界を導出する。
- 2層のKolmogorov-Arnoldネットワークに対する勾配降下法の解析により,最適化レートが1/T,汎化レートが1/nとなることが示された。
- 差分プライバシーを考慮した場合,必要なノイズ量とユーティリティの限界が,古典的な凸リプシッツ問題の下限と一致することが明らかになった。
- 差分プライバシー下では,多項式幅が十分であるだけでなく必要条件でもあることが示され,プライベートとノンプライベートの学習レジームの間に質的な差があることが示唆された。
MM-OpenFGL:マルチモーダル分散グラフ学習の包括的ベンチマーク [cs.LG]目的:マルチモーダル分散グラフ学習の評価基準
- 現実世界では,複雑な関係データを扱うマルチモーダルグラフが不可欠である。
- 既存研究では,単一モーダルのグラフ学習に偏っており,マルチモーダルの分散環境への対応が不足している。
- マルチモーダル分散グラフ学習における課題を明確化し,評価を可能にするためのベンチマークを提供する。
- MM-OpenFGLは,19のデータセット,7のアプリケーション領域,8のシミュレーション戦略,6つのタスク,57の手法を包含する。
- 実験の結果,マルチモーダル分散グラフ学習の必要性,有効性,ロバスト性,効率性が検証された。
- 本ベンチマークは,今後のマルチモーダル分散グラフ学習研究に貴重な知見を提供する。
AIを活用した廃棄物分類:循環経済と都市の持続可能性を支援するデータ駆動型意思決定ツール [cs.AI]目的:廃棄物画像の二値分類による,循環経済と都市の持続可能性を支援するデータ駆動型意思決定システムの構築
- スマートシティにおける資源回収と循環経済の実現には,効率的な廃棄物分別が不可欠である。
- 従来の廃棄物分別は人手に頼る部分が多く,効率性と精度に課題があった。
- AIを活用することで,廃棄物分別を自動化し,資源循環を促進することを目指す。
- DenseNet121が91%の最高精度と0.98のROC-AUCを達成し,従来の分類器を20%ポイント上回った。
- 主成分分析(PCA)は古典的な手法に対してほとんど効果がなかったが,転移学習は限られたデータ条件下で性能を大幅に向上させた。
- 本研究で開発されたモデルは,廃棄物分別を自動化し,埋立地の使用量削減とライフサイクル環境負荷の低減に貢献する可能性がある。
動的厚生最大化プールドテスト [cs.GT, cs.AI]目的:厚生の最大化
- 公衆衛生上の疾病スクリーニングにおいて,限られた検査資源を有効活用する手法として重要である。
- 従来のプールドテスト研究は静的な定式化が多く,検査割り当てが事前に決定される点が課題であった。
- 検査を逐次的に行うことで,より効率的に健康な個人の総効用を最大化することを目指す。
- 動的テストは,限られた予算において静的テストよりも大きな厚生改善をもたらすことが示された。
- 単純な貪欲法が静的な手法を大幅に上回り,計算効率も維持できることが明らかになった。
- 学習ベースの手法は柔軟な基盤として含まれるものの,貪欲法を安定的に上回る結果は得られなかった。
MetaLead:機械学習実験の透明性のある報告のための包括的な人間がキュレーションしたリーダーボードデータセット [cs.LG, cs.AI]目的:機械学習実験結果の透明性向上と,それに基づいた評価の促進
- 機械学習分野の進歩を測る上で,客観的な評価指標は不可欠である。
- 既存のリーダーボードデータセットは,最良の結果のみを記録しており,情報が限定的である。
- 実験結果の全てを網羅し,詳細なメタデータを付与することで,より深い分析を可能にする。
- MetaLeadは,実験タイプ(ベースライン,提案手法,バリエーション)を明示し,実験間の比較を容易にする。
- 訓練データとテストデータを分離することで,異なるドメインにおける評価を可能にする。
- 人間によるアノテーションにより,データの信頼性と透明性を確保している。
CoDCL:連続時間動的ネットワークリンク予測のための反実仮想データ拡張対照学習 [cs.CY, cs.HC, cs.LG, cs.AI]目的:動的ネットワークにおけるリンク予測の性能向上
- ネットワーク構造が急速に変化するため,正確な予測が不可欠である。
- 既存モデルは,構造変化への適応性に課題がある。
- 反実仮想データ拡張と対照学習により,変化への適応性を高める。
- CoDCLは,動的ネットワーク学習のための汎用的なモジュールとして設計されている。
- 複数の実データセットにおいて,既存の最先端モデルを大幅に上回る性能を示した。
- 反実仮想データ拡張が,動的表現学習において重要な役割を果たすことが確認された。
ReNCE: ノイズ対比推定による推論学習 [cs.HC, cs.LG, cs.CL]目的:事前学習済み大規模言語モデルへの推論能力付与手法
- 大規模言語モデルの推論能力は,多様なタスクへの応用を可能にする重要な要素である。
- 既存の推論学習手法は,ハイパーパラメータ調整が難しく,性能向上のための知見が必要とされる。
- ノイズ対比推定を用いることで,より効率的かつ安定した推論学習を目指す。
- 提案手法ReNCEは,正例と負例を明確に区別することで,対比学習に基づいた推論学習を実現する。
- ReNCEは,DAPOやオンラインDPOといった強力なベースラインと比較して,競争力のある性能を示す。
- ReNCEは,実証的な知見に依存する既存手法の課題を克服し,より簡潔な学習プロセスを提供する。
LLMとファジーTOPSISの統合による,自動プロファイル分析を通じた人事選考 [cs.AI, cs.SE]目的:人事選考のための自動化システム
- 競争の激しい雇用環境下において,適切な人材の選定は組織の成功に不可欠である。
- 候補者の評価には,主観や曖昧さが伴い,客観的な判断が難しいという課題がある。
- 自然言語処理とファジー決定理論を融合させ,人事選考の精度と効率の向上を目指す。
- LLM-TOPSISフレームワークを開発し,候補者のランク付けに活用した結果,専門家の評価と高い一致度を示した。
- 特に,経験に関する評価と総合評価において,最大91%の精度を達成した。
- 本研究は,自然言語処理を活用したフレームワークが,採用プロセスの拡張性,一貫性,偏りの軽減に貢献できる可能性を示唆する。
合成データ生成における匿名性主張の再考:モデル中心のプライバシー攻撃の視点 [cs.CR, cs.CY, cs.LG]目的:合成データ生成における匿名性に関する考察
- データ共有におけるプライバシー保護の重要性が増しており,合成データ生成はその有効な手法として注目されている。
- 既存の研究や規制では,個々のデータセットレベルでの匿名性が評価されることが多いが,モデルの能力が考慮されていない。
- モデルの特性と最新のプライバシー攻撃を考慮し,より現実的な匿名性の評価方法を提案すること。
- 本研究は,合成データの匿名性評価において,モデルのアクセス可能性を考慮する必要性を強調する。
- 合成データ技術単独では十分な匿名性を保証できない可能性を示唆し,差分プライバシー(DP)の有効性を指摘する。
- 類似度に基づくプライバシー指標(SBPM)は,十分な保護を提供しない可能性があり,規制当局への信頼できる評価を可能にする。
大規模言語モデルの提供におけるレジリエンス:KevlarFlowによるアプローチ [cs.CL, cs.DC, cs.CL, cs.LG]目的:大規模言語モデルの提供システムの耐障害性向上
- 大規模言語モデルの普及に伴い,安定した提供基盤の重要性が増している。
- ハイパースケール環境ではハードウェア障害が頻発し,サービス停止に繋がる脆弱性が存在する。
- ハードウェアの信頼性の低さとサービス可用性のギャップを埋めることを目指す。
- KevlarFlowは,モデル並列初期化の分離,動的トラフィックルーティング,KVキャッシュのバックグラウンド複製により,部分的な障害時でも高いスループットを維持する。
- 平均復旧時間(MTTR)を20倍短縮し,障害発生下での平均レイテンシを3.1倍,99パーセンタイル(p99)レイテンシを2.8倍改善した。
- また,最初のトークンまでの時間(TTFT)の平均とp99値をそれぞれ378.9倍,574.6倍に改善し,ランタイムオーバーヘッドは軽微である。
AIと私の価値観:LLMが日常会話から人間の価値観を抽出,体現,説明する能力に対するユーザーの認識 [cs.CL, cs.HC, cs.AI, cs.CL]目的:LLMにおける価値観の反映と,それに対する人間の評価に関する認識
- AI技術の発展に伴い,人間の価値観との整合性が重要課題となっている。
- LLMが価値観をどのように理解し反映するかという評価方法が確立されていない。
- LLMの価値観反映能力を評価し,倫理的なAI開発の指針を示す。
- 参加者の13名は,AIが人間の価値観を理解できると考えるようになった。
- AIの推論に説得されたという意見があり,自己省察の機会になったと評価された。
- 価値観に沿ったAIが,必ずしも人間の幸福に繋がるとは限らない「武器化された共感」のリスクが示唆された。
AsyncMesh: データ並列性とパイプライン並列性のための完全非同期最適化 [cs.LG, cs.DC]目的:データ並列性とパイプライン並列性における通信コストの低減
- ニューラルネットワークの学習において,大規模化には並列化が不可欠であり,データ並列性とパイプライン並列性は主要な手法である。
- 並列化には高速なインターコネクトを持つ計算クラスタが必要であり,スケーラビリティが制限されるという課題がある。
- 非同期更新により,この通信ボトルネックを解消し,並列化のスケーラビリティを向上させることを目指す。
- 提案手法は,パイプライン並列性において重み先読み法,データ並列性において非同期疎平均法を採用することで,鮮度による影響を軽減している。
- 疎平均法と非同期更新の両方について,収束性の保証が提供されている。
- 大規模言語モデル(最大10億パラメータ)を用いた実験により,提案手法が同期ベースラインと同等の性能を発揮しつつ,通信オーバーヘッドを大幅に削減できることが示された。
弱い拡散事前分布でも,強力な逆問題性能を達成できる [cs.LG, cs.CV, stat.CO, stat.ML]目的:逆問題における弱い拡散事前分布の有効性
- 逆問題は,画像再構成などに応用され,多くの分野で重要な課題である。
- 通常,逆問題では,未知信号に密接に関連するデータで訓練された高精度なモデルが必要とされる。
- 異なるデータで訓練された,または低精度な拡散事前分布でも,十分な性能を発揮できることを検証する。
- 測定データが豊富な場合,弱い拡散事前分布でも高い性能を示すことが実験的に示された。
- ベイズ整合性に基づく理論により,高次元の測定が事後分布を真の信号の近くに集中させる条件が明らかになった。
- 弱い拡散事前分布を信頼性高く利用できる条件に関する理論的根拠が提供された。
AI評価のための予測質問の自動生成と解決 [cs.LG, cs.AI]目的:AI評価のための予測質問の自動生成と解決システム
- 将来予測は意思決定に不可欠であり,汎用人工知能の重要な指標となる。
- 予測評価には多様で困難な質問が必要だが,自動化はデータソースの制約により困難だった。
- LLMを活用し,高品質な予測質問を大量に自動生成・解決することを目指す。
- 本システムは1499件の多様な予測質問を生成し,数ヶ月後に解決した。
- 質問の検証可能性は96%と高く,既存のプラットフォームを上回った。
- より高性能なLLMを用いることで,予測精度が向上することを確認した。
いつでも安全なPAC効率的推論 [cs.AI]目的:大規模推論モデルにおける安全かつ効率的なオンライン推論手法
- 複雑なタスク解決において,大規模推論モデルの性能は高いが,計算コストが課題となっている。
- 選択的思考戦略では誤りが生じやすく,特にオンライン環境下では性能低下の制御が困難である。
- 部分的なフィードバック下で,いつでも安全かつ効率的に推論を行う手法を確立すること。
- 提案手法B-PAC推論は,候補閾値に対するテスト超マルチンゲールを構築し,安全性の統計的証拠に基づいて動的にルーティング閾値を調整する。
- 理論的に,B-PAC推論の有効性および効率性が確立されている。
- 実験により,思考モデルの使用量を最大81.01%削減し,性能損失をユーザー指定レベル以下に抑えることが示された。
