arXiv雑要約
AI - 2026/03/03 公開
BAED:説明をループに組み込んだ少数のグラフ学習のための新しいパラダイム [cs.LG]目的:少数のグラフ学習における説明可能性と性能の向上
- グラフ構造データは,複雑な関係性を表現可能であり,様々な分野で重要性が増している。
- グラフデータのラベル付けには専門知識が必要であり,ラベルの質と量が十分でない場合が多い。
- ノイズの影響を軽減し,説明可能な形で少数のグラフ学習における予測精度を高める。
- BAEDは,信念伝播アルゴリズムを用いてグラフ上のラベルを拡張することで,学習データを効果的に増強する。
- 補助グラフニューラルネットワークと勾配逆伝播法により,ターゲットノード周辺の説明的な部分グラフを抽出する。
- 抽出された情報に基づき予測を行うことで,冗長な情報の影響を抑制し,高い予測精度と説明性を実現する。
LLMソーシャルメディアボットへの対抗としての脱獄:平和構築の実践 [cs.HC, cs.AI]目的:LLMソーシャルメディアボットに対抗するための脱獄という平和構築の実践
- ソーシャルメディア上の政治的言説は,LLMによって操作され,対立を激化させている。
- 既存研究はプラットフォームによる規制に焦点を当てており,ユーザー側の対抗手段が不足している。
- LLMの安全対策を回避し,自動化された振る舞いを露呈させることで,誤った情報の拡散を抑制する。
- ユーザーによる脱獄行為は,LLMボットの活動を妨害し,その自動性を明らかにする。
- これはプラットフォームに依存しない,非暴力的な対立緩和の実践である。
- 脱獄は,誤った情報の流れを断ち切るための,新たなユーザー中心のアプローチを提供する。
数値だけでは語れない:トピックモデル評価における人間と指標の整合性 [cs.CL, cs.AI, cs.LG]目的:トピックモデル評価における人間と自動指標の整合性の検証
- テキストデータの潜在的な主題構造を明らかにするトピックモデルは,様々な分野で活用されている。
- 既存の評価指標は,人間の判断と必ずしも一致せず,特に専門領域では課題が残る。
- 本研究は,人間による評価タスクを通じて,トピックモデルの評価指標との乖離を明確にすることを目指す。
- 新しい人間評価タスクである「トピックワード混合(TWM)」を提案し,トピック間の識別可能性を評価した。
- 専門分野のコーパスを用いた実験で,従来の指標(word intrusion,topic coherence)と人間の評価結果に不一致が見られた。
- TWMは人間の知覚するトピック間の明確性を捉え,多様性指標との整合性も示唆された。
PhysFusion:開水域における物体検出のためのTransformerベースの二重ストリームレーダー・ビジョン融合フレームワーク [cs.CV, cs.AI]目的:開水域におけるレーダーとビジョンの融合による物体検出
- 無人水上車両(USV)の安全な航行には,水面上の物体を正確に認識する必要がある。
- レーダーデータの疎さや反射強度の変動が,従来の融合設計の課題となっている。
- レーダーの物理特性に基づき,高精度な物体検出を実現すること。
- PhysFusionは,水面上の物体検出において,既存の手法を上回る性能を示す。
- レーダーデータの信頼性を向上させるPhysics-Informed Radar Encoderが有効であることが確認された。
- Scattering-Aware Self-Attentionを用いたグローバルな推論が,検出性能の向上に貢献する。
学習済みシミュレータの確率的レトロフィッティング [cs.LG, cs.AI, cs.CE]目的:偏微分方程式モデリングにおける確率的予測の精度向上
- 物理現象の多くはカオス的・不確実であり,確率的なモデリングが不可欠である。
- 既存の決定論的モデルを確率的モデルに変換するには,多大な計算コストが必要となる。
- 事前学習済みの決定論的モデルを効率的に確率的モデルに変換する手法を開発する。
- 提案手法は,様々なモデルアーキテクチャに対して適用可能であり,最小限のコード変更で確率的予測を実現する。
- 単一の力学系で学習したモデルにおいて,CRPSを20-54%削減,VRMSEを最大30%改善した。
- 複数のシステムで学習したPDEファウンデーションモデルにおいても,CRPSを最大40%,VRMSEを最大15%改善した。
意味的類似性は漫画理解の欺瞞的な指標である:ベンチマーク実験における教訓 [cs.LG, cs.CL, cs.CV]目的:漫画理解に関する視覚言語モデルの性能評価
- 視覚障碍者への新たなストーリーテリング手段提供が期待される分野である。
- 既存研究は,パネルレベルの分析に限定されており,ページレベルの理解が不足している。
- 視覚言語モデルの漫画解釈における幻覚を特定し,軽減策を検討する。
- 視覚言語モデルの漫画解釈タスクにおける性能のベンチマーク実験を実施した。
- 実験中に発生する幻覚を分類し,オブジェクト幻覚の分類体系を構築した。
- 幻覚の軽減とデータキュレーション改善が,今後の研究課題であると結論付けた。
一般化線形予測に対するシングルパスSGDの高速化 [cs.LG, math.OC, stat.ML]目的:一般化線形予測におけるストリーミング設定下での学習高速化
- 機械学習において,ストリーミングデータに対する効率的な学習手法は重要である。
- 単一パスの確率的最適化におけるモーメンタムの効果は未解決問題であった。
- データ依存型近接法によるモーメンタム導入と加速化を実現する。
- 本研究では,新しいアルゴリズムにより,モーメンタムによる二重モーメンタム加速を達成した。
- 過剰リスクの上界を,最適化誤差,統計誤差,モデル誤指定誤差の3つの要素に分解した。
- ストリーミング設定において,分散減少よりもモーメンタム加速が効果的であることを示した。
LiveCultureBench:動的なソーシャルシミュレーションにおける大規模言語モデルのためのマルチエージェント,多文化ベンチマーク [cs.AI]目的:大規模言語モデルの社会規範への適合性と評価の信頼性に関する評価
- LLMが自律エージェントとして活用される場面が増加しており,その社会実装への関心が高まっている。
- 既存の評価はタスクの成功に偏っており,文化的な適切性や評価者の信頼性が十分に検証されていない。
- LLMエージェントのクロスカルチャーにおける頑健性,効率性と規範遵守のバランス,自動ベンチマークの信頼性を検証する。
- LiveCultureBenchは,LLMをシミュレーションされた町に配置し,タスク遂行と社会規範への準拠を評価する。
- モデルや文化的プロファイルを通じて,LLMエージェントのクロスカルチャーでの頑健性が確認された。
- タスクと規範のトレードオフ,およびLLMを評価者として用いることの信頼性に関する知見が得られた。
動的な修正を伴う閉ループアクションチャンクによるトレーニング不要の拡散ポリシー [cs.RO, cs.AI, cs.CV]目的:拡散ポリシーにおける動的なシナリオへの適応性向上
- ロボット操作は自動化の鍵であり,より高度な制御技術が求められている。
- 従来の拡散ポリシーは,動的な状況下での迅速な適応に課題を抱えていた。
- 本研究は,動的な環境変化に対応可能な,リアルタイムな修正機構を確立することを目指す。
- DCDPは,自己教師あり学習による動的特徴エンコーダ,クロスアテンション融合,非対称アクションエンコーダ・デコーダを統合する。
- シミュレーション実験では,DCDPは再学習なしで適応性を19%向上させ,計算コストはわずか5%の増加で済んだ。
- DCDPのモジュール設計により,現実世界のロボット操作タスクにおいても,時間的整合性とリアルタイム応答性を実現した。
状態追跡のための対角SSMの表現力の限界 [cs.LG]目的:状態追跡における対角SSMの表現力
- 長距離系列モデリングにおいて,効率性と並列性が求められている。
- SSMの表現力の理論的理解は十分ではない。
- 可解群における状態追跡の表現可能な範囲を特定する。
- 単層DCD SSMでは,有限精度において非アベル群の状態追跡は表現できないことが示された。
- k層DCD SSMは,アベル因子を持つ長さkの部分正規列を持つ群の状態追跡を表現できる。
- 多層モデルは非アベル群の状態追跡の学習に失敗することが多く,表現力と学習可能性のギャップが示唆された。
TiledAttention:PyTorchのためのCUDAタイルSDPAカーネル [cs.LG, cs.AI]目的:NVIDIA GPUにおけるSDPA研究のためのスケールドット積注意(SDPA)順伝播演算子
- 高性能なAIモデル実現には,GPUの効率的な活用が不可欠であり,注意機構はその重要な構成要素である。
- 既存のCUDA実装は修正が難しく,研究開発のボトルネックとなりやすい。
- Pythonレベルでのカスタマイズ性と高いパフォーマンスを両立する,新しいカーネル開発環境の提供。
- TiledAttentionは,標準的な注意演算よりも高速な処理速度を実現している。
- Pythonからタイル形状やメモリレイアウトなどを直接変更できるため,カーネル研究の効率が向上する。
- 本実装はPyTorchワークフローに組み込むことが可能であり,実用性とカスタマイズ性を兼ね備えている。
CoVAE:相関のあるマルチモーダル生成モデリング [cs.LG, q-bio.QM]目的:マルチモーダルデータの相関構造の捉え方
- マルチモーダルデータ活用において,データの表現学習は重要である。
- 既存手法では,潜在空間での融合によりデータ間の相関構造が失われる。
- マルチモーダルデータの相関構造を捉え,生成能力と不確実性の定量化を向上させる。
- CoVAEは,異なるモダリティ間の相関を捉える新しい生成アーキテクチャである。
- 実データと合成データを用いた実験により,正確なクロスモーダル再構成が可能であることが示された。
- また,関連する不確実性の効果的な定量化も実現している。
AMemGym:長期間の会話におけるアシスタントのためのインタラクティブなメモリベンチマーク [cs.CL, cs.AI]目的:長期間の会話におけるアシスタントのメモリ管理の評価と最適化
- LLMアシスタントの性能向上には,ユーザーとの継続的な対話において記憶能力が不可欠である。
- 既存のメモリベンチマークは静的なデータに依存しており,評価の信頼性と拡張性に課題がある。
- インタラクティブな環境を提供し,メモリ駆動型パーソナライゼーションの評価と最適化を可能にすること。
- AMemGymは,ユーザープロファイル,質問,状態遷移を構造化されたデータサンプリングで定義することで,高品質な対話データ生成を可能にする。
- 既存のメモリシステム(RAG,長文脈LLM,エージェントメモリなど)における性能差と,その理由を明らかにしている。
- 構造化された状態遷移と自由形式の対話の架け橋となり,会話エージェントのメモリ能力向上に貢献する環境を提供する。
アルゴリズムタスクにおける一般化の推進力としての内在的タスク対称性 [cs.LG, cs.AI]目的:アルゴリズムタスクにおける一般化のメカニズム解明
- 深層学習モデルの汎化能力向上は,AI研究の根幹であり,そのメカニズム解明が重要である。
- モデルが単純な記憶から汎化へ移行する「グロキング」のメカニズムは未だ解明されていない。
- 内在的タスク対称性がグロキングを促進し,モデル表現空間の構造化に寄与することを明らかにする。
- グロキングは,記憶,対称性の獲得,幾何学的構造化という一貫した3段階の学習ダイナミクスを示すことが明らかになった。
- 一般化は,対称性の獲得段階で出現し,表現はタスクに沿った構造へと再編成されることが確認された。
- 対称性に基づいた診断により,一般化の開始を予測し,学習を加速化する戦略が提案された。
CharacterFlywheel:実運用におけるLLMの継続的改善をスケールさせる [eess.SY, cs.SY, cs.CL, cs.AI, cs.SI]目的:LLMの実運用における継続的改善プロセス
- 大規模言語モデルは,ソーシャルアプリケーションにおいて重要な役割を果たしている。
- 実運用データを用いたLLMの継続的な改善は,過学習などの課題を伴う。
- 本研究は,実運用データを活用し,LLMのエンゲージメントと制御性を向上させる。
- LLaMA 3.1を基に15世代にわたるモデルを改良し,継続的にA/Bテストを実施した結果,8回中7回のデプロイでエンゲージメントが向上した。
- 最も性能の良いモデルでは,エンゲージメントの幅が最大8.8%,深さが19.4%改善された。
- 指示への追従性は59.2%から84.8%に向上し,指示違反は26.6%から5.8%に減少した。
高次U統計量の正確,プライベート,安全,連合計算 [cs.CR, cs.LG]目的:高次U統計量の連合学習における計算
- データプライバシー保護の重要性が増す中,分散データに対する統計計算が求められている。
- 既存手法は,プライバシー保護レベルが低かったり,計算量が膨大になるという課題があった。
- 本研究は,プライバシー保護と計算効率を両立する高次U統計量の連合計算手法を提案する。
- 提案手法は,多者間計算(MPC)を活用し,中心的差分プライバシー下で高次U統計量を安全に計算する。
- 既存手法と比較して,大幅な精度向上が確認された(例えば,Kendallのτ係数で平均二乗誤差が最大4桁削減)。
- 理論的分析により,精度,通信量,計算量の特性が詳細に評価された。
私によれば:長期にわたるパーソナライズされた参照記憶QA [cs.AI, cs.CL, cs.CV]目的:パーソナライズされた参照記憶QAのベンチマーク
- AIアシスタントの性能向上には,長期にわたるユーザーの記憶を理解することが不可欠である。
- 既存のベンチマークは対話履歴に偏っており,現実のパーソナルな参照を捉えられていない。
- 生活経験に基づいた,マルチモーダル・マルチソースのパーソナライズされた参照QAを評価する。
- ATM-Benchは,約4年間の個人記憶データと,正解の根拠を含む質問応答ペアで構成される。
- 既存の記憶システムは,ATM-Bench-Hardセットにおいて20%以下の精度しか示せていない。
- Schema-Guided Memory (SGM) は,従来のDescriptive Memoryよりも性能を向上させる。
視覚に基づく全方向ナビゲーション学習:単眼深度推定を用いた教師・生徒アプローチ [cs.RO, cs.CV, cs.LG]目的:視覚に基づく全方向ナビゲーションの実現
- 産業環境における安全な移動ロボットの自律走行には,周囲の状況を正確に把握することが不可欠である。
- 従来の2D LiDARセンサーは,環境の水平方向のスライスしか認識できず,高さ方向の障害物を検知できないという課題がある。
- LiDARセンサーに依存せず,単眼深度推定を用いたナビゲーションにより,この問題を解決することを目指す。
- シミュレーション実験では,生徒モデルは教師モデルを上回り,82-96.5%の成功率を達成した。
- 実環境実験では,複雑な3D形状の障害物(張り出し構造や低プロファイルの物体など)に対するナビゲーションにおいて,生徒モデルが2D LiDAR教師モデルを上回った。
- 本研究は,NVIDIA Jetson Orin AGXに搭載されたロボットプラットフォームにおいて,LiDARなしで自律走行を実現した。
MatRIS:信頼性と効率性を追求した事前学習済み機械学習相互作用ポテンシャルの開発 [cs.DB, cs.LG, cs.AI]目的:機械学習相互作用ポテンシャル(MLIP)のコンパクトなモデルの構築
- 材料科学と計算化学において,機械学習を活用した材料モデリングの重要性が高まっている。
- 既存のMLIPは,計算コストが高く,大規模データセットへの適用が課題となっている。
- 計算効率を維持しつつ,高次元な原子間相互作用を捉えるモデルを開発する。
- MatRISは,3体相互作用のモデリングに注意機構を導入した不変MLIPであり,計算コストを抑制。
- MatRISは,Matbench-Discoveryなどのベンチマークテストで,主要な等変モデルに匹敵する精度を達成。
- MatRISは,訓練コストを削減しつつ,高精度を実現可能であり,効率的なMLIP開発の可能性を示す。
グラフ拡散におけるトポロジーバイアス軽減:反実仮想介入によるアプローチ [cs.RO, cs.LG, cs.AI, cs.SI]目的:グラフの公平性と有用性のバランスを取りながら,トポロジーバイアスを軽減すること
- グラフ拡散モデルはグラフ生成において注目されているが,倫理的な問題や公平性の問題が課題である。
- 既存手法は特定の用途に限定されるか,構造と属性の同時更新が必要であり,汎用性に欠ける。
- グラフのトポロジーに直接介入することで,より一般的な公平なグラフ生成を目指す。
- 提案手法FairGDiffは,因果モデルを用いてバイアスの原因を特定し,反実仮想介入によってバイアスを軽減する。
- 拡散過程の前進と逆伝播の両方で反実仮想学習を統合することで,生成されたグラフが機密属性に依存しないようにする。
- 実世界データセットでの実験により,FairGDiffは既存手法を凌駕し,公平性と有用性の間で優れたトレードオフを実現することが示された。
探索のための時間的表現:外部報酬なしでの複雑な探索行動の学習 [cs.LG]目的:強化学習における効果的な探索
- ロボットの自律的な行動学習には,環境の理解と効率的な探索が不可欠である。
- 従来の探索手法は,報酬が少ない環境や複雑なタスクにおいて,十分な性能を発揮できない場合がある。
- 時間的表現を用いて,将来の予測が困難な状態を優先的に探索することで,効率的な学習を目指す。
- 時間的コントラスティブ表現を活用した探索手法を提案し,多様なタスクで複雑な探索行動を学習できることを示した。
- この手法は,従来の距離学習やエピソード記憶メカニズムに依存せず,時間的な類似性に基づいて単純かつ効果的な探索を実現する。
- 外部報酬なしで,運動,操作,具現化されたAIタスクにおいて,高度な能力と行動が確認された。
指数族における微分プライバシーに基づく十分統計量からのノイズ較正推論 [cs.LG, stat.ML]目的:指数族における微分プライバシーに基づく十分統計量のノイズ較正推論手法
- データプライバシー保護は重要であり,特に個人情報を含むデータ分析において不可欠である。
- 既存の微分プライバシー保護手法では,推論の誤較正や不確実性定量化の困難さといった問題がある。
- 十分統計量を用いたノイズ較正推論により,プライバシー保護と精度の両立を目指す。
- 十分統計量を微分プライバシー保護しながら公開し,尤度ベースの推論を行うことで,精度の高い推定を可能にする。
- プラグインDP最尤推定量の漸近正規性,分散膨張,および有効なWald型信頼区間が示された。
- ノイズを考慮した尤度補正により,ブートストラップに基づく信頼区間をサポートし,理論的な下限との整合性も確認された。
MAP-Diff:マルチアンカー誘導拡散による漸進的な3D全身低線量PETノイズ除去 [cs.CV, cs.AI]目的:3D全身PET画像のノイズ除去
- PET検査は放射線被ばくを伴うが,診断精度維持が重要である。
- 低線量PETではノイズが大きくなり,定量的な精度が低下する。
- 線量に応じた中間状態を考慮したノイズ除去手法の開発。
- 提案手法MAP-Diffは,臨床的に観測される中間線量スキャンをアンカーとして利用し,拡散過程を線量に沿った中間状態に誘導する。
- 内部検証データセットにおいて,PSNRが42.48dBから43.71dBに向上 (+1.23dB),SSIMが0.986に増加,NMAEが0.115から0.103に減少 (-0.012) した。
- 異なるスキャナを用いた検証でも,性能向上が確認され,他の手法を上回る結果が得られた。
CausalWrap:表形式合成データのためのモデル非依存型因果制約ラッパー [cs.LG]目的:表形式合成データ生成における因果的関係性の維持
- 因果推論は,政策評価や介入効果の推定など,重要な意思決定を支援する。
- 既存の合成データ生成手法は,観測分布の一致に偏重し,因果関係の構造を十分に保持していない。
- 因果推論の精度向上を目指し,事前知識に基づいた制約を合成データ生成に組み込む。
- CausalWrapは,既存の生成モデルに追加可能なラッパーであり,モデル内部にアクセスする必要がない。
- ACICベンチマークにおいて,平均処置効果(ATE)の誤差を最大63%削減し,因果的信頼性を向上させた。
- 集中治療室(ICU)データセットでは,ATEの一致度を0.00から0.38に改善し,実用性も示した。
権限としての選択:制約付き強化学習による意思決定権限の限界 [cs.MA, cs.AI, cs.CE, cs.LG]目的:高リスクなエージェントシステムにおける権限選択の動的ガバナンス
- 高リスクシステムにおいて,エージェントの行動は人々に大きな影響を与えうるため,安全な制御が重要である。
- 既存のガバナンスは静的であり,時間経過に伴う権限の変化に対応できていないという課題があった。
- 外部からの制約の下で選択ガバナンスを強化し,権限集中を抑制することで適応的な改善を目指す。
- 制約付き強化学習により,パラメータ更新がガバナンス定義の制約を満たし,権限集中を防ぐことができた。
- 金融シナリオにおいて,制約なしの強化学習は決定的な支配に陥りやすい一方,制約付きガバナンスは適応的な改善を可能にした。
- 制約に基づく投影は,強化学習を不可逆的なロックインから制御された適応へと変え,ガバナンス負債を定量化した。
CodecFlow:ニューラルコーデック潜在空間における条件付きフローマッチングによる効率的な帯域拡張 [cs.SD, cs.AI]目的:低帯域音声の帯域拡張による明瞭度および知覚品質の向上
- 音声通信における高音域の情報は,明瞭度と自然さに不可欠である。
- 既存手法は計算コストが高く,高周波域の忠実度に限界がある場合がある。
- コーデックの潜在空間における効率的な高周波成分の復元を目指す。
- CodecFlowは,コンパクトな潜在空間で効率的な音声再構築を実現する。
- ボイス活性情報に基づいた条件付きフロー変換器と制約付き残差ベクトル量子化器を用いることで,潜在表現の整合性を高めている。
- 8kHzから16kHz,および44.1kHzの音声帯域拡張において,優れたスペクトル忠実度と知覚品質を達成した。
MMR-Life:現実世界のシーンを組み合わせたマルチモーダルマルチ画像推論 [cs.CL, cs.CL, cs.AI, cs.CV]目的:マルチモーダル大規模言語モデルの現実世界における多様な推論能力の評価
- マルチモーダル大規模言語モデルは,科学分析や数学的推論など複雑なタスクを遂行可能になりつつある。
- 現実世界の多様なシナリオにおける推論能力は十分に検証されておらず,標準的な評価ベンチマークが存在しない。
- 現実世界のシーンに基づいた包括的な評価ベンチマークを構築し,マルチモーダル推論能力を向上させる。
- MMR-Lifeは,19,108枚の画像と2,646の多肢選択問題から構成され,7種類の推論タイプを網羅している。
- 既存のモデル37個の評価により,MMR-Lifeが示す課題の大きさが明らかになった。GPT-5でも正答率は58%に留まる。
- 思考の長さ,推論方法,推論タイプなどの要因が,モデルの性能に与える影響に関する分析を行った。
グラフ概念ボトルネック層によるGNNの組み合わせ推論の解明 [cs.LG, cs.AI]目的:GNNの予測の根底にある組み合わせ推論の本質
- GNNは様々な分野で成功を収めているが,その内部の推論過程は不透明である。
- 既存研究では,グラフ概念間の厳密な論理規則のみが明らかであり,各概念の貢献度を定量化できない。
- GNNがグラフ概念を通して論理規則をどのように形成するかを解明し,解釈可能性を高める。
- 提案手法GCBMsは,分類タスクと解釈可能性の両方において,最先端の性能を達成した。
- グラフ概念ボトルネック層は,GNNが識別的なグローバルグラフ概念を予測するように誘導する。
- 概念を「グラフの単語」,グラフを「グラフの文」として捉え,言語モデルを活用してグラフ概念埋め込みを学習した。
病変を意識した視覚言語事前学習:3D CTにおける注視位置学習 [cs.CV, cs.CL, cs.LG]目的:3D CT画像とレポート間の関連性学習
- 医療画像診断の精度向上に,画像と自然言語の理解が不可欠である。
- 既存モデルは,限られたデータと大まかな教師信号に依存している。
- 画像内の特定部位とテキスト記述を結びつける局所的な情報を活用する。
- 本研究では,大規模なCTデータセットと疾患に基づいたプロンプト学習により,最先端の画像検索性能を達成した。
- さらに,報告書内の記述とCT画像のaxial位置を関連付けるタスクを導入し,位置予測精度を向上させた。
- 検索,分類,局所化を統合した統一モデルを構築し,既存手法と同等以上の性能を示した。
マスクされたパッチに対する潜在的注意:流れ場の再構成 [cs.LG]目的:マスクされた流れ場の再構成
- 科学分野,特に流体力学におけるシミュレーションの精度向上は重要である。
- 流れ場の完全な観測は困難であり,欠損データからの再構成が課題となる。
- 欠損データやノイズを含む流れ場に対し,高精度な再構成を可能とする。
- LAMPモデルは,90%マスクされノイズを含む入力から流れ場を正確に再構成できる。
- 非線形な測定状態を組み込むことで,予測誤差を大幅に削減できる。
- 学習された注意行列は,物理的に解釈可能なセンサー配置マップを提供する。
安価なシグナルからの豊富な知見:テンソル分解による効率的な評価 [cs.AI, cs.LG, stat.ML]目的:生成モデルの強みと弱点の診断
- 生成モデルの性能評価は,その能力を最大限に引き出す上で不可欠である。
- 詳細な評価には人的コストがかかり,自動評価は人間の判断とずれやすい。
- 自動評価と限定的な人的ラベルを融合し,効率的な評価を実現する。
- 提案手法は,安価な自動評価データと限られた人的ラベルを組み合わせることで,効率的な評価を可能にする。
- 自動評価の品質に頑健であり,プロンプトごとの人間の選好を正確に予測する。
- プロンプトの品質に基づく詳細なリーダーボードの構築や,自動評価のみでのモデル性能推定を可能にする。
EstLLM:継続事前学習と後学習による多言語LLMにおけるエストニア語能力の向上 [cs.CL, cs.AI]目的:エストニア語能力の向上
- LLMは言語処理の基盤であり,多様な言語への対応が不可欠である。
- LLMは英語中心のデータで学習されることが多く,小規模言語の性能が低いという課題がある。
- エストニア語に特化した継続事前学習と後学習により,LLMの性能を改善する。
- Llama 3.1 8Bを基盤とし,エストニア語データを含む混合データで継続事前学習を行った結果,エストニア語の言語能力,知識,推論,翻訳品質,指示応答性が向上した。
- 英語のベンチマーク性能を維持しつつ,エストニア語のベンチマークにおいて一貫した改善が見られた。
- データ混合バランスのとれた継続事前学習と後学習による調整が,多言語LLMにおける単言語能力を大幅に向上させることが示された。
一般仮説クラスに対するリーブワンアウト予測 [cs.LG, stat.ML]目的:一般化のデータ依存的尺度であるリーブワンアウト予測の理論的保証
- 機械学習において,未知データへの汎化性能の評価は重要な課題である。
- リーブワンアウト予測の完全な帰納的設定における保証は,特定のモデル以外では未解明である。
- 経験リスク最小化周辺のレベル集合に基づく集約手続きを用いて,リーブワンアウト誤差の上界を確立する。
- 任意の固定データセットと損失関数に対し,オラクル不等式を導出した。
- VCクラスによる分類では,複雑度は$O(d \log n)$として示された。
- 有限仮説クラスと密度クラスでは,それぞれ$O(\log |H|)$と$O(\log |P|)$の複雑度となることが分かった。
戦略誘導探索によるLLMエージェントの能力拡張 [cs.LG]目的:LLMエージェントにおける探索戦略
- LLMは汎用的なタスクに活用でき,その能力向上は様々な分野に貢献する。
- LLMエージェントの探索は,複雑な環境と希薄な報酬設定により困難を伴う。
- より構造化された多様な探索を通じて,学習効率と性能を改善すること。
- 提案手法SGEは,環境との相互作用において,低レベルな行動ではなく,高レベルな戦略による探索を行う。
- SGEは,多様な戦略を並行して探索する混合温度サンプリングと,過去の戦略結果に基づく戦略反映プロセスを導入する。
- UI操作,ツール利用,コーディング,そして具現化されたエージェント環境において,SGEは既存手法を上回り,ベースモデルでは解けなかったタスクを学習可能にした。
「いつ委譲し,いつ協働するか」:同時対話を通じた人間とエージェントの協調的創造活動の拡大 [cs.HC, cs.AI]目的:人間とエージェントの協調的創造活動における協調状況認識
- 創造活動において,人間の協調は不可欠であり,その効率と質を向上させることは重要である。
- 既存のAIエージェントは,出力のみを提供するか,実行プロセスを一方的に提示するだけで,双方向の協調が困難である。
- 人間との同時対話を通じてエージェントが状況を認識し,リアルタイムに適応することで,協調的な創造活動を促進する。
- プロセス可視化はエージェントの行動理解を助けるが,フィードバックと独立作業の区別が困難な場合に衝突が生じることが示された。
- CLEOは協調的意図を解釈し,リアルタイムに適応することで,委譲,指示,同時作業の選択を支援する。
- 分析の結果,デザイナーは70.1%の確率で委譲,28.5%で指示,31.8%で同時作業を選択することが明らかになった。
個人AI時代における戦略的助言 [cs.HC, cs.LG, cs.GT, cs.HC]目的:個人AIが助言に与える影響の分析
- 個人の意思決定において,専門家への助言の重要性は依然として高い。
- 個人AIの普及により,助言の質や信頼性が変化する可能性が懸念される。
- 個人AIの利用状況に応じた助言者の戦略を明らかにし,最適な助言のあり方を模索する。
- 個人AIへの相談頻度が増加すると,助言者はAIの推奨に反する方向に助言を行う傾向が強まる。
- 助言者のパフォーマンスは一様ではなく,AIの利用度が中程度の場合に損失が最大化し,利用しない場合や常に利用する場合に損失は消失する。
- AIの影響力が強まるほど,助言者は脆弱になり,信頼構築への投資インセンティブが変化する。
視覚注意制御のモデル化における資源合理性の原理 [cs.HC, cs.AI]目的:視覚注意の配分に関する資源合理性の原理
- 人間とコンピュータの相互作用において,視覚注意の理解は不可欠である。
- 既存の計算モデルは記述的,タスク特化的,または解釈が困難な場合が多い。
- 知覚,記憶,時間の制約下における視覚注意の意思決定過程をモデル化すること。
- 本研究は,視覚注意を合理的な適応から生じる逐次的な意思決定過程として捉える枠組みを提案する。
- テキスト読解や歩行中の読解といったシミュレーション環境で,古典的な実験結果を再現し,理解と安全性のトレードオフを説明する。
- 時間的プレッシャーやインターフェースの変化下で新たな予測を生成し,理論に基づいたHCI設計に貢献する。
OpenRad:放射線科AIモデルのオープンアクセスリポジトリ [cs.AI]目的:放射線科におけるオープンアクセスAIモデルの集約と標準化
- 放射線学におけるAI技術の進歩は目覚ましいが,その応用には課題が多い。
- AIモデルが分散しており,発見,再現,臨床応用が困難である。
- AIモデルの検索性と利用可能性を高め,研究開発を加速させる。
- OpenRadは,PubMed,arXiv,Scopus等の文献を基に,1700以上の放射線科AIモデルを収録した。
- LLMによる自動抽出は高い安定性を示し,専門家によるレビューにおいても軽微な修正で済んだ。
- OpenRadは,キーワード検索やフィルタリング機能を備え,放射線科医がAIモデルを容易に発見・活用できる環境を提供する。
再パラメータ化された最急降下法を鞍点回避のための鏡像流として [cs.LG]目的:モデルの特徴学習能力を最適化アルゴリズムの選択がどのように左右するか
- 機械学習の性能向上には,最適化アルゴリズムの理解と改善が不可欠である。
- 従来の最適化手法では,鞍点の回避や特徴学習の安定性が課題となっていた。
- 最急降下法の最適化幾何学に基づき,鞍点回避と特徴学習を促進するメカニズムを解明する。
- 最急鏡像流という理論的枠組みにより,最適化の幾何学が学習ダイナミクス,暗黙的なバイアス,スパース性に影響を与えることが示された。
- AdamやAdamWが微調整においてSGDよりも優れた性能を発揮する理由を,鞍点回避と特徴学習の観点から説明した。
- デカップルド重み減衰は,AdamWにおいて特徴学習を安定化させる新たなバランス方程式を適用することを示した。
RLによるメッシュ最適化を通じた偏微分方程式の代理モデルの高速化 [cs.LG]目的:偏微分方程式の代理モデル効率的な学習
- 偏微分方程式のシミュレーションは科学技術計算の根幹であり,高精度な近似が求められる。
- 従来の代理モデルは大量の計算資源を必要とし,実用的な問題への適用が困難であった。
- 限られたシミュレーション予算内で,高精度な代理モデルを学習することを目指す。
- 本研究で提案するRLMeshは,強化学習を用いてシミュレーション領域内のメッシュ配置を適応的に最適化することで,計算コストを削減する。
- 軽量なプロキシモデルを用いることで,強化学習の訓練を加速し,効率的な報酬推定を実現する。
- 実験結果から,RLMeshは既存手法と同等の精度を,より少ないシミュレーション回数で達成できることが示された。
線形回帰におけるSignSGDのスケール則:SGDを上回る条件 [cs.LG, cs.AI, math.OC, stat.ML]目的:線形回帰におけるSignSGDのスケール則
- 機械学習モデルの規模拡大に伴い,計算コストと性能のバランスが重要となる。
- 勾配降下法(SGD)は計算コストが高い場合があり,効率的な最適化手法が求められる。
- SignSGDがSGDよりも優れた性能を発揮する条件を明らかにすること。
- SignSGDの計算リスクを,モデルサイズ,学習ステップ数,学習率,特徴量とターゲットの減衰パラメータの関数として表現した。
- SignSGD特有のドリフト正規化効果とノイズ再整形効果を特定し,ノイズが支配的な領域でSGDよりも優れた計算効率を示す可能性を示した。
- 特徴量の減衰が速く,ターゲットの減衰が遅い場合,WSDスケジュールがノイズ項をさらに削減し,最適な計算勾配をより急にすると観察された。
会話を通じた計画空間の探求:計画におけるLLM仲介の説明のためのエージェント的フレームワーク [cs.AI, cs.CL, cs.HC, cs.MA]目的:LLMを活用した計画の説明における,ユーザーと状況に応じた対話的説明の実現
- 現実世界の意思決定問題において,AIは人間の計画者を補完し,協調することが重要である。
- AI計画システムの透明性が低く,ユーザーがAIの提案を理解し,信頼することが困難である。
- AI計画システムの理解度と信頼性を高めるため,自然な対話を通じた説明能力の向上を目指す。
- 提案するマルチエージェントLLMアーキテクチャは,説明フレームワークに依存せず,柔軟な対話的説明を可能にする。
- 目標競合の説明にフレームワークを適用し,テンプレートベースのインターフェースとの比較実験を行った。
- ユーザー調査の結果,LLMを活用した対話的説明が,ユーザーの理解促進に貢献することが示唆された。
認知プロセティック:知識労働におけるエピソード記憶を支援するAI搭載マルチモーダルシステム [cs.HC, cs.AI]目的:知識労働におけるエピソード記憶の想起支援システム
- 現代の知識労働は,人間のエピソード記憶に大きな負荷をかけている。
- 既存のツールは,記憶の表現に認知・生理・注意の文脈を統合していない。
- 多様なセンサーデータを検索可能なエピソード記憶へと変換することを目指す。
- 本研究では,音声トランスクリプト,生理信号,視線データを同期させ,プライバシーを保護したJSONベースのエピソード記録を作成した。
- 自然言語によるクエリを用いて,意味内容,時間,注意,生理状態などを用いて過去の職場体験を検索できるウェブインターフェースを実装した。
- 提案システムは,異種センサーデータを検索可能なエピソード記憶に変換する技術的な実現可能性を示した。
ピクセルからパッチへ:地球埋め込みのためのプーリング戦略 [cs.CV, cs.LG]目的:地球埋め込みのパッチ表現を生成するためのプーリング戦略の評価
- 地理空間基礎モデルの発展に伴い,ピクセルレベル埋め込みの集約方法が重要になっている。
- 平均プーリングはパッチ内の変動を無視し,空間的なずれにより精度が低下することが問題である。
- より高度なプーリング手法が地理的な汎化性能を向上させ,精度を改善することを検証する。
- 平均プーリングと比較して,よりリッチなプーリングスキームは地理的な汎化ギャップを最大40%削減する。
- 空間的分割における精度は最大5%向上し,Generalized Mean Pooling (GeM)が平均プーリングの代替として推奨される。
- 最大精度を得るには,Statsプーリングが最適だが,埋め込みサイズが4倍になる。
GenDB:クエリ処理の次世代 – 合成によるアプローチ [cs.DB, cs.AI, cs.CL, cs.LG, cs.MA]目的:クエリ処理におけるLLMを活用した実行コードの合成
- クエリ処理はデータベースの性能を左右する重要分野であり,高速化と効率化が求められる。
- 従来のクエリ処理エンジンは複雑で拡張が難しく,新たな技術や要件への対応が遅れる場合がある。
- LLMを用いてクエリごとに最適化された実行コードを合成し,柔軟性と性能を向上させることを目指す。
- GenDBは,LLMを活用してデータ,ワークロード,ハードウェアに特化したクエリ実行コードを生成するシステムである。
- OLAPワークロードを用いた評価では,GenDBはDuckDB,Umbra,MonetDBなどの既存のクエリエンジンを大幅に上回る性能を示した。
- GenDBにはまだ制限があるものの,今後の拡張と関連する研究課題が示されている。
検出ゲートを用いた声門セグメンテーション:ゼロショットクロスデータセット転移と臨床的特徴抽出 [cs.CV, cs.AI, cs.LG]目的:高速度ビデオ内視鏡(HSV)における正確な声門セグメンテーションによる,喉頭機能の運動学的バイオマーカー抽出
- 喉頭機能評価において,客観的かつ定量的な指標の必要性が高まっている。
- 既存の深層学習モデルは,非声門フレームでの誤検出や,異なる臨床環境への汎化性能の低さが課題である。
- 異なるデータセット間での汎化性能を高め,臨床現場での利用を可能とする声門セグメンテーション手法を開発する。
- 提案手法はGIRAFEベンチマークにおいて最先端の性能(DSC 0.81)を達成し,BAGLSデータセットにおいても優れた汎化性能を示した(DSC 0.85)。
- 臨床的検証では,抽出された運動学的特徴量(開声時間,変動係数)が既存の臨床的基準と一致した。
- 声門面積の変動係数は,正常な声門機能と異常な声門機能の識別において有意な指標であることが示された(p=0.006)。
合成データからの学習が多段推論を改善する [cs.LG, cs.AI, cs.CL]目的:多段推論における言語モデルの性能向上
- 大規模言語モデルの推論能力向上は,数学,コーディング,質問応答など広範な分野で重要である。
- 強化学習のファインチューニングには高品質な検証データが必要だが,その収集はコストや精度が課題となる。
- ルールに基づいた合成データを利用し,データ収集のコストを削減し,推論能力の向上を目指す。
- 合成データでファインチューニングされた言語モデルは,実世界の質問応答ベンチマークで有意に高い性能を示した。
- 特に難易度の高い問題において,合成データが知識の構成という基本的な推論スキルを習得させていることが示された。
- ルール生成による合成データは,言語モデルの推論能力を改善するための自由でスケーラブルなリソースとなり得る。
Adamは更新規則の修正なしに収束する [cs.LG, math.OC]目的:Adam最適化アルゴリズムの収束条件
- 深層学習モデルの学習においてAdamは広く用いられており,その安定性は重要である。
- Adamが発散する可能性が指摘されており,実用的なAIモデルの学習に懸念が生じている。
- 問題に依存した適切なハイパーパラメータ設定によりAdamが収束することを示す。
- Adamは$\beta_2$が大きい場合,かつ$\beta_1 < \sqrt{\beta_2}$の条件下で収束することが証明された。
- $\beta_2$が小さい場合,Adamが発散する可能性のある$(\beta_1,\beta_2)$の組み合わせ領域が特定された。
- Adamの収束・発散には相転移が存在し,その境界は問題に依存し,特にバッチサイズの影響を受けることが示された。
非線形ニューラルネットワークにおける勾配降下法の収束レート:敵対的頑健性の視点から [cs.LG, cs.AI]目的:非線形モデルにおける頑健性マージンの収束レート
- ニューラルネットワークの頑健性は,現実世界のアプリケーションにおいて極めて重要である。
- 非線形モデルの学習における収束速度の理論的保証は,未だ十分とは言えない。
- 単純化されたモデルを用いて,頑健性マージンの収束レートの理論的な下界を確立する。
- 勾配降下法は最適な頑健性マージンに収束するものの,その収束レートは極めて遅いことが示された。
- 収束レートは$\Theta(1/\ln(t))$として厳密に決定され,これは非線形モデルにおける頑健性マージンの収束レートに関する初めての下界である。
- 実験的シミュレーションにより,この挙動はネットワークの初期値に依存せず,普遍的に見られることが確認された。
FluxMem:ストリーミング動画理解のための適応階層型メモリ [cs.CV, cs.AI]目的:ストリーミング動画理解における効率的なメモリ圧縮
- 動画データは情報量が大きく,様々な分野で活用が期待されている。
- 動画処理には計算資源が必要であり,リアルタイム処理が課題となる場合が多い。
- メモリ使用量を削減し,低遅延で動画理解を可能にすること。
- FluxMemは,TASとSDCという二段階の階層構造により,冗長な視覚情報を効率的に圧縮する。
- 自己適応的なトークン圧縮機構を導入することで,シーンの変化に応じて圧縮率を自動的に調整する。
- StreamingBenchで76.4,OVO-Benchで67.2を達成し,遅延を69.9%,GPUメモリ使用量を34.5%削減した。
