arXiv雑要約
AI - 2026/04/21 公開
GRAIL:ニューロシンボリック強化学習のための自律的な概念的基盤形成 [cs.AI, cs.LG]目的:ニューロシンボリック強化学習における概念的基盤の自律的な形成
- 解釈性と汎化性能が求められる強化学習において,記号的な推論と勾配法を組み合わせるアプローチの重要性が高まっている。
- 従来の概念定義は専門家による手動定義に依存し,環境の変化への適応が困難であった。
- 環境との相互作用を通じて,環境固有の意味を捉えた概念的基盤を自動的に形成し,適応性を向上させる。
- GRAILは,大規模言語モデルを活用し,初期の概念表現を環境に適合させることで,報酬が希薄な状況や概念のずれを解消する。
- 簡略化された環境では,手動で作成された概念を用いたエージェントと同等以上の性能を達成した。
- 完全な環境では,報酬最大化と高レベルな目標達成の間のトレードオフを明らかにした。
訓練されていないCNNはV1において逆伝播と同等の性能を示す:4つの学習則に対する体系的なRSA比較と人間のfMRI [cs.DL, cs.LG, q-bio.NC]目的:神経科学における学習則と人間の視覚皮質における内部表現の一致度
- 脳の機能理解に不可欠であり,人工知能の設計にも応用が期待される分野である。
- 学習則が視覚皮質の表現にどのように影響するか,明確な理解が得られていない。
- アーキテクチャと学習則が視覚皮質の表現に及ぼす影響を定量的に比較すること。
- 初期視覚野(V1/V2)においては,訓練されていないCNNが逆伝播と同程度の表現の一致度を示した。
- 高次視覚野(LOC/IT)においては,逆伝播が最も高い表現の一致度を示した。
- 予測符号化は,局所的なヘブ則による更新により,逆伝播とほぼ同等のIT野における表現の一致度を達成した。
OC-Distill:ICUリスク予測のためのオントロジーを意識したコントラスト学習とクロスモーダル蒸留 [cs.LG]目的:集中治療室における重篤な臨床悪化の早期予測と残存入院期間の推定
- 集中治療室のような高急性度環境では,迅速な介入と適切な資源配分が重要であるため。
- 既存手法は,関連する診断を持つ患者間の臨床的に意味のある類似性を捉えられていない。
- 臨床メモなどの補完的なモダリティを活用し,臨床的に根拠のある表現学習を目指す。
- OC-Distillは,ICD階層を利用したオントロジーを意識したコントラスト学習を導入し,患者の類似性を定量化する。
- 事前学習されたエンコーダは,臨床メモからの知識を蒸留することでファインチューニングされ,補完的な情報を学習する。
- MIMICデータセットでの評価で,OC-Distillはラベル効率の向上と最先端の性能を示した。
強化学習と検証可能な報酬による異文化間エンティティ翻訳のためのパラメトリック知識のインセンティブ付与 [cs.NI, cs.CL, cs.AI]目的:異文化間エンティティ翻訳におけるパラメトリック知識の活用促進
- 大規模言語モデルの性能向上には,多様な文化背景への対応が不可欠である。
- 既存モデルは,文脈に応じた適切な翻訳よりも直訳や音訳に陥りがちである。
- モデルが持つ潜在的な知識を引き出し,より正確な翻訳を実現すること。
- 提案手法EA-RLVRは,外部知識ベースに依存せず,エンティティレベルの検証可能な報酬信号によってモデルを最適化する。
- わずか7kのサンプルでQwen3-14Bのエンティティ翻訳精度を23.66%から31.87%に向上させた。
- 学習された翻訳能力は汎用翻訳にも転移し,WMT24++でXCOMETスコアを+1.35改善した。
SinkRouter:大規模言語・マルチモーダルモデルにおける効率的な長文コンテキスト復号のためのシンク認識ルーティング [cs.LG, cs.AI]目的:長文コンテキスト復号における効率化
- 大規模言語モデルの発展により,長文コンテキスト処理の重要性が増している。
- 長文処理では,アテンション機構のメモリ使用量がボトルネックとなっている。
- アテンションシンク現象の理解に基づき,不要な計算を削減する。
- SinkRouterは,アテンションシンク信号を検出し,ほぼゼロの出力を生成する計算をスキップすることで,効率を向上させる。
- 多様なベンチマークにおいて,SinkRouterは精度を維持しつつ,復号効率を改善した。
- 512Kのコンテキスト長において,2.03倍の高速化を達成した。
完全パラメータフリー確率的最適化に向けた試行錯誤探索:自己拘束解析を伴う [cs.RO, cs.RO, cs.LG, math.OC]目的:完全パラメータフリー確率的最適化手法の開発
- 機械学習等において,最適化問題は不可欠であり,その効率的な解法が重要である。
- 既存手法はパラメータ調整が必要であり,問題固有の情報を事前に知っている必要がある。
- 問題パラメータに関する事前知識を一切必要としない,真にパラメータフリーな最適化手法を確立すること。
- 提案手法 \textsc{Grasp} は,自己拘束解析を用いて探索範囲を決定し,パラメータ調整を不要とする。
- 非凸問題において,最適な収束率に近い性能を達成し,汎用性も高い。
- 凸問題においては,加速性能と普遍性において既存手法と遜色ない性能を示す。
Step-GRPO:効率的な推論のための動的早期終了の内部化 [cs.CL, cs.AI]目的:大規模推論モデルの効率化
- 複雑な問題解決において,大規模言語モデルの高性能化が重要視されている。
- 推論過程での冗長な計算が計算資源の無駄を招いている。
- 推論過程の冗長性を低減し,効率性と精度を両立することを目指す。
- Step-GRPOは,推論の各ステップを意味論的に構造化することで,動的早期終了機能をモデル内部に組み込む。
- Dynamic Truncated Rollout機構とStep-Aware Relative Rewardにより,冗長性を抑えつつ高い精度を維持する。
- Qwen3-8Bにおいて,トークン消費量を32.0%削減し,従来手法でみられた精度低下を回避した。
EasyVideoR1:ビデオ理解のためのより容易な強化学習 [cs.CV, cs.LG]目的:ビデオ理解のための強化学習フレームワークの効率化
- 大規模言語モデルの推論能力向上に,検証可能な報酬を用いた強化学習が有効性が示されている。
- ビデオデータの多様性,計算コスト,再現性のある評価の難しさから,ビデオ理解への応用は遅れている。
- ビデオデータに特化した強化学習フレームワークを開発し,効率性と再現性を高める。
- EasyVideoR1は,ビデオの冗長なデコードを排除し,スループットを1.47倍に向上させるパイプラインを実現した。
- 11種類のビデオ・画像問題に対応する報酬システムを構築し,多様なタスクへの拡張性を確保した。
- オフラインデータとオンライン探索を組み合わせた学習パラダイムにより,難しいタスクの学習効果を高めた。
少サンプル環境における共分散に基づく構造方程式モデリング ($p>n$) [cs.LG, stat.ME, stat.ML]目的:少サンプル環境における構造方程式モデリングの推定原理
- 構造方程式モデリングは,複雑な関係性を分析する上で重要な手法である。
- サンプルサイズが小さく,変数数がサンプルサイズを超える場合($p>n$),共分散行列が正定値でなくなる問題がある。
- 少サンプルかつ$p>n$の状況下でも安定した推定を可能とする手法を提案する。
- 提案手法は,共分散構造を自己共分散と交差共分散成分に再構成することで,推定の実現可能性を確保する。
- シミュレーションデータおよび実データを用いた実験により,特に構造パラメータの符号と方向の推定において安定性が向上することが示された。
- 本研究は,共分散に基づく構造方程式モデリングの適用範囲を拡大し,意思決定のための有用な方向性情報を提供する。
物理情報に基づくトラッキング (PIT) [cs.CV, cs.AI]目的:単一粒子の動画トラッキング手法
- 動画解析における物体追跡は,科学研究やロボティクス等,広範な応用分野で重要である。
- 従来の追跡手法では,ノイズやオクルージョンに対し頑健な追跡が困難な場合がある。
- 物理法則を組み込むことで,より正確でロバストな追跡を実現することを目指す。
- 本研究では,ニューラルネットワークと物理モデルを統合したPITフレームワークを提案した。
- 提案手法は,教師あり・教師なし学習の両方をサポートし,亜ピクセル精度での追跡を達成した。
- 物理情報に基づく損失関数を用いることで,ラベルなしでも物理的に整合性の取れた軌跡を推定できることを示した。
テキスト優位性を超えて:多角的大規模言語モデルのモダリティ選好の理解 [cs.AI]目的:多角的大規模言語モデルにおけるモダリティ選好の定量化とメカニズム解明
- 近年のAI研究において,画像とテキストを統合する多角的モデルが注目されている。
- 既存モデルではテキストへの偏りが課題であり,他のモダリティの活用が不十分であった。
- 多角的モデルのモダリティ選好を明らかにすることで,より信頼性の高いモデル構築を目指す。
- 多角的モデルの多くは,従来の画像・テキストモデルとは異なり,視覚情報への強い選好を示すことが判明した。
- モダリティ選好は,モデルの中間層から後半層にかけて徐々に形成されることが明らかになった。
- 内部信号を活用することで,クロスモーダルなハルシネーションの診断が可能となり,タスク特化的なデータなしで良好な性能を発揮した。
PRISM:LLMのハルシネーションにおける推論,指示,情報源記憶の探求 [cs.RO, eess.SY, cs.SY, math.OC, eess.SY, cs.SY, cs.CL, cs.AI]目的:LLMのハルシネーションの診断
- LLMは高リスク領域での利用が増加しており,その信頼性が重要である。
- 既存の評価指標は出力レベルでのみハルシネーションの度合いを測るため,原因特定が困難である。
- LLMのハルシネーションが起こるメカニズムを理解し,信頼性向上に貢献すること。
- PRISMは,知識の欠落,誤り,推論ミス,指示追従ミスという4つの次元でハルシネーションを分解する。
- 評価の結果,指示追従,記憶検索,論理的推論の間には一貫したトレードオフが存在することが明らかになった。
- PRISMは,LLMのハルシネーションを理解するためのフレームワークとして,信頼性の高いLLM開発を加速させることを期待する。
Skilldex:エージェントスキルパッケージのパッケージマネージャーと階層的スコープに基づく配布レジストリ [cs.AI]目的:エージェントスキルパッケージのパッケージ管理とレジストリ
- LLMエージェントの能力拡張にスキルパッケージが不可欠であり,その効率的な管理が求められている。
- 既存のツールでは,スキルパッケージのフォーマット検証や関連スキルの整合性維持が不十分である。
- スキルパッケージのフォーマット準拠確認と,関連スキル間の文脈の一貫性確保を目指す。
- Skilldexは,Anthropicのスキル仕様に対するコンパイラ形式のフォーマット準拠スコアリング機能を備える。
- スキルセット抽象化により,共有アセットを用いた関連スキルのバンドルと行動の一貫性維持を実現する。
- 階層的スコープシステム,エージェント提案ループ,メタデータのみのコミュニティレジストリ,MCPサーバー等のインフラも提供する。
認知的なペナルティ:分散型合意形成のためのエッジネイティブSLMにおけるシステム1およびシステム2の推論の除去 [cs.AI, cs.CL, cs.CR, cs.DC]目的:エッジネイティブSLMにおけるシステム1とシステム2の推論の影響の評価
- DAOの信頼性と安全性を確保するため,効率的な意思決定メカニズムが不可欠である。
- 高度な推論能力(システム2)が,敵対的環境下でのDAOのガバナンスに及ぼす影響は不明である。
- システム1とシステム2の推論を分離し,分散型合意形成における最適なアプローチを特定すること。
- Qwen-3.5-9Bモデルを用いた実験により,システム2の推論は不安定性を招き,認知的な崩壊を引き起こすことが明らかになった。
- システム1の直感的な推論は,堅牢性,一貫性,および最終決定性において優れた性能を示し,システム2よりも構造的および経済的に優れている。
- システム2の推論によって,試行間の合意安定性が低下し,遅延が増加し,ガバナンス抽出可能価値(GEV)に対する脆弱性が生じる可能性があることが示された。
LLM/VLM強化学習のための鮮度を考慮した優先順位付き経験再生 [cs.CL, cs.CL, cs.CL, cs.LG]目的:LLM/VLM強化学習におけるサンプル効率の向上
- 大規模言語モデルの性能向上は,様々な分野で重要な課題である。
- 従来の強化学習手法では,サンプル効率が悪く,計算コストが高いという問題がある。
- 鮮度を考慮した優先順位付き経験再生により,サンプル効率の低下を改善する。
- 提案手法である鮮度を考慮したPERは,LLM/VLM強化学習にPERを適用する初の試みである。
- NQ Searchで+46%,Sokobanで+367%,VLM FrozenLakeで+133%と,既存手法と比較して大幅な性能向上を達成した。
- 標準的なPERは性能劣化をもたらす一方,提案手法は鮮度を考慮することで,より有効な学習を実現した。
ノイズ適応型拡散サンプリング:タスク固有の調整なし逆問題への適用 [cs.LG, cs.AI, cs.CV]目的:逆問題に対するノイズ適応型拡散サンプリング手法
- 画像復元などの逆問題は,情報が不足する状況下での高品質な画像再構築に不可欠である。
- 従来の最適化手法は局所解に陥りやすく,また拡散モデルはノイズ過学習を引き起こす可能性がある。
- ノイズ空間におけるハミルトニアンモンテカルロ法により,よりロバストな逆問題解決を目指す。
- 提案手法N-HMCは,拡散過程を決定論的な写像として捉え,解空間を網羅的に探索することで局所解を回避する。
- ノイズ適応型N-HMC (NA-NHMC) は,未知のノイズタイプやレベルを持つ逆問題に対しても有効に機能する。
- 線形・非線形逆問題における実験結果から,NA-NHMCが既存の最先端手法を大幅に上回る再構成品質を示すことが確認された。
ClimAgent:自律的なオープンエンド気候科学分析のためのLLMエージェント [cs.AI]目的:気候科学における自律的な分析フレームワークの構築
- 地球規模の環境危機を軽減するため,気候研究の重要性は増している。
- 多規模データ量の増加と複雑な分析ツールが,研究のボトルネックとなっている。
- 複雑な制約とデータ駆動型分析を考慮した,高度な気候科学分析を目指す。
- ClimAgentは,多様な気候分野における広範な研究タスクを遂行できる汎用的な自律フレームワークである。
- 提案されたClimaBenchを用いて評価した結果,ClimAgentは既存の基盤モデルを大幅に上回り,解決策の厳密性と実用性で40.21%の改善を示した。
- ClimAgentは,従来のLLMの単純な質問応答タスクの限界を超え,エンドツーエンドのモデリングと分析を可能にする。
アライメント印: 証明可能な選好の差異によるゼロショットAI生成テキスト検出 [cs.AI]目的:AI生成テキストの検出
- AI技術の急速な発展に伴い,AI生成テキストの識別が重要になっている。
- 既存の検出手法は,テキストの複雑さに左右されやすく,安定性に課題がある。
- AIモデルのアライメント過程に着目し,それによって生じる分布の差異を利用して検出精度を向上させる。
- 本研究では,アライメント印と呼ばれる新しい指標を理論的に導出した。
- 提案手法LAPDは,既存の最先端手法と比較して45.82%の性能向上を達成した。
- LAPDは,アライメントされたモデルとベースモデルが分布的に近い場合,アライメントスコアを厳密に改善することが示された。
テスト時適応による脳波基盤モデル:現実世界の分布シフト下における体系的な研究 [cs.LG, cs.AI, eess.SP]目的:脳波基盤モデルにおけるテスト時適応手法の有効性評価
- 臨床現場での応用には,様々な環境や患者群への対応が不可欠である。
- 異なる臨床環境やデバイス間での分布シフトが,性能低下の原因となる。
- プライバシー保護やラベル付きデータ不足下での適応能力向上を目指す。
- 標準的なテスト時適応手法は一貫した改善を示さず,むしろ性能低下を引き起こす場合がある。
- 勾配ベースの手法は特に性能劣化しやすく,最適化不要な手法の方が安定した改善が見られた。
- 既存のテスト時適応技術には限界があり,脳波特有の適応戦略が必要であることが示唆された。
CoGR-MoE:一貫した選択と柔軟な推論を備えたコンセプト誘導エキスパートルーティング [cs.CL, cs.CV, cs.AI]目的:視覚的質問応答におけるコンセプト誘導エキスパートルーティング手法
- 視覚情報とテキスト情報を統合し,適切な回答を選択する能力が重要である。
- エキスパートのルーティングが不安定だと,同じ質問タイプで選択されるエキスパートが一貫しない。
- コンセプト誘導によりルーティングを安定化させ,柔軟性を維持することで,VQAの性能向上を目指す。
- 提案手法CoGR-MoEは,回答候補の意味的情報を活用してエキスパート選択を誘導する。
- 選択されたエキスパートの重みを調整し,各候補の識別表現を生成する。
- 複数のVQAタスクにおいて,CoGR-MoEが高い性能を示すことが実験的に確認された。
思考の木構造を利用した推論モデルの精度予測:コーディング課題への応用 [cs.AI]目的:コーディング課題における推論モデルの精度予測
- 大規模言語モデルの発展により,複雑なタスクの性能向上が期待される分野。
- 既存の評価指標は競技プログラミングに偏っており,実際のコーディング能力を反映しにくい。
- 推論過程の構造に着目し,精度予測モデルを構築することで,効率的な問題解決を目指す。
- 推論過程の構造が,正答率と強い相関関係を持つことが示された。
- 思考の木構造を用いて,推論過程の特徴を抽出し,精度予測を行う分類器を開発した。
- 異常な構造を持つ推論過程を検出し,再試行することで,低難易度課題において性能向上が確認された。
LLMは,論理的誤謬の中で,AIへの信頼と感情的な訴えかけを通じて,社会問題において心理的に感受性の高い人々のみを説得できる [cs.AI, cs.CY, cs.HC, cs.LG, cs.SI]目的:LLMの説得力と人間らしさの時間的変化に関する心理学的枠組みの定量化
- 社会問題における意見形成のメカニズム解明は,民主主義社会の健全な発展に不可欠である。
- LLMの説得力が個人の心理的特性にどのように影響されるのかは未解明な点が多い。
- 本研究は,LLMが人間の意見に影響を与える心理的経路を特定することを目的とする。
- LLMとの対話後も,個人の初期意見への固執が見られ,意見の容易な変化は限定的であった。
- LLMと人間は,対話の中で頻繁に論理的誤謬を用いていることが示され,「LLMは優れたシステム」という見解に反する結果が得られた。
- LLMに対する信頼,協調性,外向性,認知欲求の高さが,LLMによる意見変化を受けやすい心理的特性と関連することが示された。
少数ショット微細画像分類のための適応的受容野に基づく空間周波数特徴再構成ネットワーク [cs.CV, cs.AI]目的:少数ショット微細画像分類における空間周波数特徴再構成
- 画像認識技術は,様々な分野で応用が広がっており,その重要性は増している。
- 少数サンプルでの分類は難しく,特に微細なカテゴリの区別が困難である。
- 異なるカテゴリ画像から最適な特徴量を抽出するための受容野サイズの適応的決定を目指す。
- 提案手法であるARF-SFR-Netは,空間的特徴と周波数的特徴の受容野サイズを適応的に決定する能力を有する。
- ARF-SFR-Netは,特徴量の再構成と少数ショット微細画像分類タスクにおいて高い性能を発揮する。
- 複数のベンチマークテストにおいて,最先端の手法と比較して有効性と優位性が実証された。
D-QRELO:量子化と残差低ランク近似による大規模言語モデルのトレーニング・データフリーデルタ圧縮 [cs.CL, cs.LG, cs.AI]目的:大規模言語モデルのデルタ圧縮手法
- LLMの活用が拡大する中で,タスク固有モデルの増加によるメモリ消費が課題となっている。
- 既存のデルタ圧縮手法は,大規模データセットでファインチューニングされたモデルに対しては性能が劣化する。
- 大規模データセットでファインチューニングされたモデルに対する,効率的なデルタ圧縮を可能にすること。
- 提案手法D-QRELOは,量子化と残差低ランク近似を組み合わせることで,既存手法よりも高い圧縮性能を発揮する。
- タスク難易度,アーキテクチャ,層の位置などが圧縮戦略に影響を与えることを明らかにした。
- D-QRELOは,denseおよびMoEアーキテクチャを持つ様々なLLMで有効性が確認された。
MEMRES:信頼度カスケードを備えたエージェント型Python依存性解決システム [cs.SE, cs.AI]目的:Python依存性解決の自動化
- Python開発において,依存関係の管理は不可欠であり,効率的な解決が生産性向上に繋がる。
- 依存関係解決は,パッケージ名とバージョンの不一致やエラーにより,頻繁に失敗する。
- 既存手法の成功率向上と,よりロバストな依存関係解決を目指す。
- MEMRESは,HG2.9Kデータセットにおいて,Gemma-2 9Bを用いて86.6%の成功率を達成した。
- これは,既存のPLLMの54.7%を大幅に上回る結果である。
- 自己進化型メモリ,エラーパターン知識ベース,意味的インポート解析器,Python 2ヒューリスティック検出器を組み合わせている。
線形モデルにおけるパラメータ的ガウスメッセージパッシングによるL1正則化パス [cs.LG, eess.SP, stat.ME]目的:L1正則化パスの計算
- 状態空間における正則化は,カルマン平滑化や線形SVMなど広範な問題に応用可能である。
- 既存手法では計算コストが高く,大規模データへの適用が課題となっていた。
- 効率的な計算手法を開発し,大規模データへの適用可能性を高める。
- 提案手法は,独立変数と従属変数の両方に対するL1正則化に適用できる二つのアルゴリズムを提供する。
- これらのアルゴリズムはパラメータ的ガウスメッセージパッシング(カルマン型再帰計算)を基盤とし,主に行列積のみで構成される。
- 提案手法は計算複雑性において既存手法と競合可能であり,幅広い適用範囲を持つ。
AutoPKG:動的eコマース製品属性知識グラフ構築の自動化フレームワーク [cs.AI]目的:eコマース製品属性知識グラフの自動構築
- eコマースにおける製品情報の構造化は,検索やレコメンデーションの精度向上に不可欠である。
- 既存の製品属性オントロジーは不整合,不完全,高コストであり,運用が困難である。
- マルチエージェントLLMフレームワークを用いて,動的に知識グラフを構築し,製品属性情報の維持・更新を自動化する。
- AutoPKGは,大規模なeコマースカタログデータセットにおいて,製品タイプに関して0.953のWeighted Knowledge Efficiency(WKE)を達成した。
- 属性キーに関しては0.724のWKE,マルチモーダル値抽出においては0.531のエッジレベルF1スコアを達成した。
- オンラインA/Bテストの結果,AutoPKG由来の属性は,Badge, Search, RecommendationにおいてそれぞれGMVを3.81%, 5.32%, 7.89%増加させた。
網膜画像の経時予測における訓練と推論の入力整列がフレームワーク選択よりも重要である [cs.CV, cs.AI, cs.LG]目的:進行性黄斑疾患における臨床的意思決定を支援するための,経時的な網膜画像からの将来の外観の定量的な予測
- 進行性黄斑疾患の診断と治療において,客観的な指標の重要性が高まっている。
- 既存の手法は定量的評価が困難であり,疾患進行の正確な予測が課題となっている。
- 本研究は,入力分布の整列が予測精度に与える影響を明らかにすることを目的とする。
- 訓練と推論の入力分布の整列により,予測精度が大幅に向上した (delta-SSIM +0.082, SSIM +0.086)。
- 整列されたフレームワーク間の選択は,主要な評価指標に有意な影響を与えなかった。
- TRU(Temporal Retinal U-Net)は,様々なプラットフォームで最先端のベンチマークを上回り,履歴の長さとともに優位性が増した。
Open-TQ-Metal:Apple Siliconにおける長文脈LLM推論のための融合圧縮領域アテンション [cs.LG]目的:長文脈LLM推論の高速化とメモリ効率の向上
- 大規模言語モデルの性能向上には,より長い文脈を処理する能力が不可欠である。
- 既存の推論フレームワークでは,長文脈の処理に膨大なメモリと計算資源が必要となる。
- Apple Silicon上で,メモリ使用量を削減しつつ高速な推論を実現すること。
- Open-TQ-Metalは,64GBのMacでLlama 3.1 70Bの128K文脈推論を可能にした初の実装である。
- KVキャッシュをint4に量子化し,Metalコンピュートシェーダを用いて圧縮された表現上で直接アテンションを計算することで,48倍のアテンション速度向上を実現した。
- KVキャッシュメモリを3.2倍に圧縮し,FP16推論と同等のトークン予測精度を維持した。
不完全マルチビュークラスタリングのための双曲型表現学習の強化 [cs.LG, cs.CV]目的:不完全マルチビューデータからの識別的な表現学習
- 現実世界データは階層構造を持つことが多く,その構造を捉えた表現学習が重要である。
- 既存のユークリッド空間に基づく手法では,階層構造を持つデータに対し,意味的曖昧さが生じやすい。
- 双曲空間を利用し,構造を意識した潜在空間を構築することで,表現学習の精度を向上させる。
- 提案手法HERLは,双曲空間上で角度ベース損失と距離ベース損失を組み合わせた二重制約による対照学習を行う。
- HERLは,クロスビューの階層構造を考慮したプロトタイプ分布を整列させることで,グローバルな構造ずれを修正する。
- 実験結果から,HERLが最先端手法と比較して一貫して優れた性能を示すことが確認された。
合成開口レーダー搭載機による多目標監視のための多段階計画:目標視認性を考慮 [cs.RO, cs.AI]目的:合成開口レーダー搭載機の軌道計画
- 安全保障や災害対策において,広範囲かつ高精度な監視能力は不可欠である。
- 従来の軌道計画は,地形や機体姿勢に依存する目標視認性を考慮していない。
- 目標視認性を考慮したリアルタイムな多目標監視を可能とする軌道計画手法を開発する。
- 本研究では,ウェイポイントの順序決定,視認性を最大化する直線飛行区間の予測,そして3D Dubins曲線による接続を行う多段階計画システムを提案する。
- 提案手法は,深層強化学習を用いたニューラルネットワークにより,地形と機体姿勢に応じた最適な直線飛行区間を予測する。
- 評価実験により,提案システムが3D地形と目標視認性を考慮した高品質な多目標SAR画像取得を可能にし,リアルタイム性能も示すことが確認された。
視覚的インセプション:マルチモーダルメモリーポイズニングによるエージェント型レコメンダーの長期計画侵害 [cs.HC, cs.AR, cs.AR, cs.CR, cs.AI]目的:エージェント型レコメンダーシステムにおける長期記憶を悪用した攻撃と防御
- レコメンダーシステムは,パーソナライズされた提案を行う上で不可欠であり,近年その重要性が増している。
- エージェント型レコメンダーシステムは長期記憶に依存するため,その記憶内容が改ざんされるリスクが存在する。
- 本研究は,画像に埋め込まれたトリガーによる長期記憶の汚染を防ぎ,安全な計画立案を実現することを目指す。
- Visual Inceptionと呼ばれる攻撃手法により,85%程度の目標達成率(GHR)で長期計画を乗っ取ることが可能であることが示された。
- 提案手法CognitiveGuardは,GHRを約10%まで大幅に低減し,効果的な防御策となりうる。
- CognitiveGuardは,軽量モードで約1.5秒,完全検証モードで約6.5秒の遅延を伴うが,提案品質を損なうことなくリスクを軽減できる。
NaviFormer:ナビゲーション問題を包括的に解決する深層強化学習Transformerモデル [cs.RO, cs.AI]目的:ナビゲーション問題解決のための手法
- 実世界でのロボットなどの自律移動体には,効率的なナビゲーションが不可欠である。
- 従来の経路計画と軌道計画は分離されており,両者を同時に最適化する手法が課題であった。
- 経路計画と軌道計画を統合的に解決し,リアルタイム性能も両立する手法を開発する。
- NaviFormerは,Transformerアーキテクチャを基盤とする深層強化学習モデルであり,経路と軌道を同時に予測することで,ナビゲーション問題を解決する。
- 実験結果から,NaviFormerは既存の手法と遜色ない精度を示し,各サブ問題の制約を理解し,それに応じて行動することで性能を向上させることが示された。
- また,NaviFormerの高速な計算速度は,リアルタイムミッションへの適用可能性を示唆している。
大規模推論モデルのための熟練度統合型方策最適化 [cs.AI]目的:大規模言語モデルの推論能力向上
- 大規模言語モデルは多様なタスクに対応可能だが,複雑な推論能力の向上が課題。
- 既存の強化学習アルゴリズムは,高精度な問題において学習信号が消失したり,最適化努力の配分が不十分になる。
- 熟練度に応じた正則化と重み付けにより,学習の安定性と効率を改善する。
- MCPOは,数学的ベンチマークにおいてpass@1性能を安定的に向上させる。
- 熟練度の統合は,解の多様性を促進し,pass@k指標も改善する。
- 熟練した問題に対する有害な方策のドリフトを抑制し,部分的な正答から熟練への移行を強化する。
適応座標変換下におけるエルミート近似の収束理論 [math.NA, cs.LG, cs.NA, stat.ML]目的:エルミート展開と適応座標変換を用いた関数近似の誤差評価
- 数値計算において,関数の近似精度向上は重要課題である。特に高次元関数では効率的な近似手法が求められる。
- 従来のスペクトル近似法では,関数の特性によっては収束が遅い場合がある。座標変換による最適化が課題となっていた。
- 座標変換を用いてエルミート展開の収束を加速する理論的根拠を確立し,誤差評価を行うことを目指す。
- 座標変換後の基底での関数近似は,元の基底における関数のプルバックの近似と同等であることが示された。
- 関数の減衰特性に合わせた単調な輸送写像を構築することで,エルミート展開のスペクトル収束性を保証することができた。
- 本研究は,正規化フローに基づく適応エルミート近似の収束挙動に関する理論的洞察を提供する。
入院診断におけるマルチモーダルLLMの評価:10の最先端モデルにおける現実世界での性能,安全性,およびコスト [cs.LG, cs.AI]目的:入院患者の診断支援におけるマルチモーダルLLMの性能評価
- 医療現場における診断支援の自動化は,医療従事者の負担軽減と診断精度の向上に貢献する。
- 低・中所得国(LMIC)の公立病院における現実世界のマルチモーダル入院データを用いたLLMの評価は不足している。
- LMIC環境における,費用対効果と安全性を考慮したLLMの導入可能性を検証する。
- マルチモーダルLLMの診断性能は,コストに大きな差があっても,比較的狭い範囲に集中しており,低コストモデルも高性能モデルと同等の性能を示した。
- 全てのLLMは,平均的な診断および安全性スコアにおいて,通常の病棟での診断を大きく上回った。
- GPT-5.1とGeminiモデルが最も高い性能を示し,画像診断レポートの追加は性能を約6%向上させた。
表現型駆動型・証拠に基づく知識グラフの拡充と仮説発見フレームワーク [cs.AI]目的:集団データの知識グラフ拡充と仮説発見
- 知識グラフは,複雑な関係性を表現し,データ分析における洞察を深める上で重要である。
- 既存手法は既知の関係の再現に偏り,新規または文脈依存性の高い知見の発見が困難である。
- データと科学的証拠に基づき,新規性の高い仮説を発見し,知識グラフを効果的に拡充すること。
- 本フレームワークは,グラフニューラルネットワークと大規模言語モデルを統合し,解釈可能な表現型と文脈依存性の高い因果構造を発見する。
- 候補となる関係性は,データの構造的サポートと文献における探索の少なさの観点から評価され,バランスの取れた知識の拡充を実現する。
- 検索拡張設定において,高い再現率(Recall@5=0.98)と低い幻覚率(0.05)を示し,大規模言語モデルの出力の根拠付けに有効であることが示された。
文脈学習における体制変化 [cs.LG, cs.AI]目的:体制変化下の文脈学習能力
- 制御,予測,意思決定において,非定常な系列データは頻繁に現れるため,その対応は重要である。
- 従来のモデルは,変化を検出し,古い情報を適切に処理し,新しい状況に適応することが難しい。
- Transformerモデルにおける体制変化の検出・適応能力を評価し,その限界と改善策を明らかにする。
- Transformerモデルは,変化点の位置に関する情報量に応じて,必要な層数やパラメータ数が変化することが示された。
- 合成データ実験において,訓練済みのTransformerモデルは,最適なベースラインと同等の性能を示した。
- 感染症予測や金融ボラティリティ予測など,実世界のデータにおいても,変化点に関する知識を組み込むことで性能向上が確認された。
Bolzano:LLM支援による数学研究の事例研究 [cs.CL, cs.AI, cs.LG, cs.LO]目的:LLM支援による数学研究の事例
- 数学研究は科学技術の発展に不可欠であり,その進歩は社会全体に大きな影響を与える。
- 複雑な数学的問題の解決には,高度な専門知識と膨大な時間が必要となる。
- LLMを活用することで,数学研究の効率化と新たな発見の促進を目指す。
- Bolzanoシステムを用いて,数学および理論計算科学における6つの問題に取り組んだ。
- その結果,6件のうち4件が公表可能な研究レベルに達し,3件はほぼ自律的にBolzanoによって生成された。
- これらの結果は,LLMが数学研究に貢献できる可能性を示唆するものである。
Rule-VLN:意味的推論と幾何学的修正による知覚とコンプライアンスの架け橋 [cs.AI, cs.CV, cs.RO]目的:ルール遵守型ナビゲーションの実現
- 現実世界でのAI活用には,経路探索だけでなく社会的な規範遵守が不可欠である。
- 既存のナビゲーションAIは,物理的な到達可能性に偏重し,行動規範への配慮が不足している。
- 視覚情報と行動規範を統合し,安全性を考慮したナビゲーションAIを開発すること。
- 新たなベンチマーク「Rule-VLN」を構築し,多様な行動規範が設定された大規模な都市環境を整備した。
- SNRM(Semantic Navigation Rectification Module)を提案し,事前学習済みのAIモデルに安全性に関する知識を付与した。
- SNRMの導入により,ナビゲーション性能が向上し,CVRの低下とTCの向上が確認された。
大規模言語モデルにおける強化学習のための,より良い探索に向けた確率絞り込みの舵取り (SPS) [cs.CL, cs.LG]目的:大規模言語モデルの推論能力向上のための強化学習における探索性能改善
- 大規模言語モデルの推論能力は重要であり,その学習に強化学習が注目されている。
- 従来の強化学習では,多様な推論経路の探索が不十分であり,複数サンプル性能の向上に課題がある。
- 確率分布の過度な集中による探索の制限を解消し,強化学習における探索能力を向上させる。
- 提案手法SPSは,強化学習と逆強化学習を組み合わせることで,探索を促進し,Pass@kを改善する。
- 実験結果から,SPSが五つの推論ベンチマークにおいて,探索性能とPass@kを向上させることが示された。
- 強化学習の学習ダイナミクスの分析から,Pass@kの上限が示され,内在的な探索の限界が明らかになった。
任意のサンプリングによるテンソル補完のための帰納的畳み込み核ノルム最小化 [cs.CV, cs.AI]目的:テンソル補完における復元性能の向上
- テンソル分解は,高次元データの解析に有効であり,多様な応用分野で重要である。
- 既存手法では,特異値分解の繰り返し計算により,計算コストが高いという課題があった。
- 事前学習された畳み込み固有ベクトルを用いることで,計算効率と復元性能の向上を目指す。
- 提案手法ICNNMは,既存手法CNNMと比較して,特異値分解を回避することで計算時間を大幅に削減する。
- 事前学習された畳み込み固有ベクトルが,より高い復元性能に貢献する。
- 動画補完,予測,フレーム補間などの実験により,ICNNMの優位性が確認された。
MobileAgeNet:モバイル展開のための軽量な顔年齢推定 [cs.CV, cs.AI]目的:モバイルデバイスでの顔年齢推定のための軽量なモデル
- 顔年齢推定は,セキュリティやマーケティングなど,様々な分野で応用が期待されている重要な技術である。
- 既存のモデルは,精度が高い反面,計算コストが高く,モバイルデバイスへの搭載が困難であるという課題がある。
- 本研究は,モバイルデバイスでもリアルタイムに動作する,軽量かつ高精度な顔年齢推定モデルを開発することを目的とする。
- MobileAgeNetは,UTKFaceデータセットにおいて4.65年の平均絶対誤差(MAE)を達成した。
- AI Benchmarkアプリケーションを用いた測定では,平均遅延時間が14.4msであり,モバイルデバイス上での効率的な推論が可能であることが示された。
- PyTorchで学習したモデルをONNX経由でTensorFlow Liteに変換するパイプラインは,推論性能を損なうことなく,実用的なオンデバイス条件を維持することが確認された。
小規模モデルによるマスターオーケストレーター:並列サブタスク分解による統一的なエージェント・ツールオーケストレーションの学習 [cs.CL, cs.AI]目的:エージェントとツールの統一的なオーケストレーション
- 複雑な問題を解決するため,多様なエージェントとツールを連携させるMASの重要性が高まっている。
- 既存のオーケストレーション手法は静的なワークフローや直列処理に依存し,ツールとエージェント間のインターフェースが複雑である。
- 標準化された行動空間と状態フィードバックにより,並列サブタスク分解と非同期実行を可能にする。
- 提案手法ParaManagerは,複数のベンチマークにおいて高い性能を示し,未知のモデルプールに対しても頑健な汎化性能を発揮する。
- 二段階の学習パイプラインにより,タスク成功率,プロトコル遵守,多様性,推論効率のバランスを最適化する。
- エージェントとツールを標準化された学習可能な行動空間に抽象化し,プロトコル正規化と明示的な状態フィードバックを実現する。
形式検証を用いた意味的同値性自己対戦によるLLMコード推論の改善 [cs.CL, cs.AI, cs.LG, cs.PL]目的:LLMのコード推論能力向上
- 大規模言語モデルのコード生成能力は向上しているが,その信頼性には課題が残る。
- コードの正当性検証は困難であり,既存手法では誤ったコードを生成する可能性がある。
- 意味的同値性検証を通じて,より信頼性の高いコード生成を実現することを目指す。
- Haskellの形式検証を活用した自己対戦フレームワークを開発し,敵対的学習を試みた。
- 約28kの検証済みHaskellプログラムからなる合成データセット「OpInstruct-HSx」を公開した。
- 提案手法はEquiBenchとPySecDBでそれぞれ最大13.3pp,一貫した精度向上を達成した。
Mini-BEHAVIOR-Gran: 指示の粒度が言語誘導型エージェントの性能に及ぼすU字型の効果の解明 [cs.AI]目的:指示の粒度とエージェントの性能の関係性の解明
- 言語誘導型ロボットの発展には,人間らしい自然な指示の理解が不可欠である。
- 既存のベンチマークでは,指示の粒度が制御されておらず,性能への影響が不明確である。
- 指示の粒度を制御し,エージェントの性能への影響を定量的に評価すること。
- 新しいベンチマークMini-BEHAVIOR-Granを導入し,指示の粒度の定量化指標を比較した。
- 計画幅が,エージェントの性能と最も一貫して相関することが明らかになった。
- 指示の粒度と性能の間にはU字型の関係があり,細かい指示と大まかな指示で性能がピークを迎する。
静的ベンチマークを超えて:パーソナベースのシミュレーションによる有害コンテンツ合成と堅牢な評価 [cs.CL, cs.AI]目的:有害コンテンツ検出のための堅牢な評価手法
- 有害コンテンツの拡散防止は,オンラインプラットフォームにおける重要な課題である。
- 既存のベンチマークは多様性に欠け,学習データへの汚染の影響も懸念される。
- 多様かつ現実的な有害な対話をシミュレーションし,評価の改善を目指す。
- 提案手法では,人口統計学的特徴と関心事に基づいたパーソナを生成し,有害な戦略を組み込むことで多様な対話を合成する。
- 人間およびLLMによる評価の結果,合成されたコンテンツの有害性が確認された。
- 実験により,既存のベンチマークよりも検出が困難なシナリオが生成されることが示された。
ブラックボックスラベルを超えて:主観的NLPタスクの診断のための解釈可能な基準 [cs.CL, cs.AI]目的:主観的NLPタスクの診断基準
- NLPの主観評価は,多様な意見を考慮する必要があり,その品質が重要である。
- アノテーター間の意見の不一致の原因特定が難しく,評価基準の曖昧さが課題である。
- 評価スキーマの設計段階で問題点を特定し,評価の信頼性を高めることを目指す。
- 本研究では,複数のアノテーターによる基準判断を用いて,評価スキーマを診断する手法を提案した。
- 不安定な基準や,カテゴリ間の境界の曖昧さを分離し,意見の不一致の原因を特定した。
- 商業文書における説得的価値抽出において,不一致は特定の基準に集中し,複数のカテゴリが活性化されることが示された。
タイピングの終焉:AIが知識労働におけるキーボード時代に挑戦する理由 [cs.HC, cs.AI, cs.CY]目的:キーボードの役割がAIシステムに移行すること
- 知識労働において,キーボードは長らく標準的な入力手段であり,その重要性は揺るぎないものであった。
- AIの発展により,キーボードに依存した従来の知識労働のあり方が変化しつつあり,課題が生じている。
- AIの能力向上に伴い,キーボードの機能がAIに代替されることで生じる変化とその影響を明らかにすること。
- キーボードの優位性は,認知的な必要性ではなく,制度上の慣習に由来するものであり,AIの進化によりその地位は失われつつある。
- AIが生成にかかる摩擦を軽減することで,知識労働者の役割は,単なる入力者から,AIの生成結果を評価する監査者へと変化する。
- 口頭入力をテキスト出力に変換する「合成リテラシー」が,この移行を特徴づける要素となる。将来シナリオにおける検証基準も提示されている。
資産としてのハーネス:収束型AIエージェントフレームワーク(CAAF)による決定性の強制 [cs.AI, cs.LG]目的:安全性が重要なエンジニアリングにおける制御可能性のギャップを解消する
- 大規模言語モデルの活用が進む中で,安全性確保が不可欠である。
- 既存のオーケストレーション手法では,制約違反や確率的な変動が課題である。
- 決定性のあるフレームワークを通じて,安全なAIエージェントのワークフローを実現する。
- CAAFは,2つの領域(自動運転,医薬品連続フロー反応器設計)において,100%のパラドックス検出率を達成した。
- 既存のGPT-4oや他のマルチエージェントアーキテクチャではパラドックス検出率が0%であった。
- CAAFの信頼性は,決定的なUAIに由来し,プロンプトの影響を受けず,オフラインでの展開が可能である。
