arXiv雑要約
AI - 2026/03/10 公開
900万件の数学定理に対する意味検索 [cs.IR, cs.AI, math.HO]目的:数学定理の検索手法
- 数学研究において,定理の迅速な特定は不可欠である。効率的な検索は研究の進展に大きく貢献する。
- 既存の検索ツールは論文全体を対象とすることが多く,特定の定理を見つけ出すには手間がかかるという課題がある。
- 大規模な定理群から必要な定理を効率的に検索するための新たな手法を確立することを目指す。
- 大規模な定理コーパス(920万件)に対し,自然言語による記述を用いた意味検索を実装し,評価を行った。
- 検索性能に影響を与える要素(文脈,言語モデル,埋め込みモデル,プロンプト戦略)を体系的に分析した。
- 専門数学者による評価セットにおいて,既存手法と比較して定理レベルおよび論文レベルの検索性能が大幅に向上した。
ヒンジ回帰木:傾斜回帰木分割のためのニュートン法 [cs.LG]目的:傾斜回帰木分割における最適化手法
- 決定木は解釈性が高く,多変量決定境界を持つ傾斜決定木は表現力に優れる。
- 高品質な傾斜分割の学習はNP困難であり,既存手法は探索に時間がかかるか,理論的根拠がない。
- 効率的かつ安定した傾斜分割を可能にする最適化手法を開発する。
- ヒンジ回帰木(HRT)を提案し,各分割を2つの線形予測子の最大/最小エンベロープによる非線形最小二乗問題として定式化。
- HRTの反復適合手順は,固定分割内において減衰ニュートン法(ガウス-ニュートン法)と等価であることが示された。
- HRTは汎用近似器であり,実験的に既存手法と同等またはそれ以上の性能を示すことが確認された。
LMMRec:LLM駆動のモチベーションを考慮したマルチモーダル推薦 [cs.IR, cs.AI]目的:モチベーションを考慮したマルチモーダル推薦モデル
- ユーザー行動の背後にある動機を理解することは,推薦システムの精度向上に不可欠である。
- 既存手法は,レビューなどの異種情報を活用せず,モチベーションを潜在変数として扱うことが多い。
- 異なるモダリティ間におけるノイズの影響を軽減し,共通のモチベーションを特定することを目的とする。
- LMMRecは,大規模言語モデルを活用し,テキストから詳細なユーザーとアイテムのモチベーションを抽出する。
- デュアルエンコーダー構造により,テキストとインタラクションに基づくモチベーションをモデル化し,クロスモーダルアライメントを実現する。
- 3つのデータセットでの実験により,LMMRecが最大4.98%の性能向上を達成することが示された。
ハード制約下における条件付き拡散ガイダンス:確率的解析アプローチ [cs.HC, cs.AI]目的:拡散モデルにおけるハード制約下での条件付き生成
- 安全性や稀少事象シミュレーション等,制約を満たす必要がある場面が増加している。
- 従来のソフトガイダンス法では,制約の確実な充足が保証されないという課題があった。
- 確率解釈とドブ変換に基づき,制約を満たす条件付き拡散ガイダンスの枠組みを構築する。
- 提案手法は,事前学習済み拡散モデルに明示的なドリフト補正を加えることで,ハード制約を効果的に実行できる。
- マルチンゲール損失とマルチンゲール共分散損失に基づくオフポリシー学習アルゴリズムを新たに提案した。
- 全変動距離とワッサーシュタイン距離における条件付きサンプラーの非漸近的保証を示した。
報酬をラベルとして:分類の観点からのRLVRの再検討 [cs.LG, cs.CL]目的:検証可能な報酬を用いた強化学習における問題点の解決と,その性能向上
- 大規模言語モデルの複雑な推論能力向上において,明示的なルールに基づく指導が重要である。
- 既存手法では,勾配の誤配分や負例の支配といった問題があり,効率的かつ最適な方策更新が困難である。
- 検証可能な報酬をカテゴリカルなラベルとして捉え直し,方策最適化を分類問題として再構築することで,上記の問題を解決する。
- 本研究で提案するREALは,単調かつ有界な勾配重みを誘導し,ロールアウト全体にわたる勾配のバランスの取れた配分を実現する。
- 数学的推論ベンチマークにおける実験結果から,REALは学習の安定性を向上させ,GRPOやDAPOなどの既存手法を凌駕することが示された。
- 1.5BモデルではPass@1の平均値をDAPOより6.7%向上させ,7BモデルでもDAPOとGSPOをそれぞれ6.2%と1.7%上回った。
エージェントの進化的なセキュリティ評価のためのフレームワーク NAAMSE [cs.AI, cs.MA]目的:エージェントのセキュリティ評価
- AIエージェントの利用拡大に伴い,そのセキュリティ確保は重要課題となっている。
- 従来のセキュリティ評価は,手動による検証や静的なベンチマークに依存し,適応的な攻撃を模倣できない。
- 本研究は,進化的な手法を用いて,より現実的かつスケーラブルなセキュリティ評価を実現する。
- NAAMSEは,遺伝的プロンプト変異,階層的コーパス探索,非対称な行動スコアリングを組み合わせた進化的なフレームワークである。
- このフレームワークは,モデルの応答を適応度として利用し,効果的な攻撃戦略を反復的に進化させながら,過剰な拒否反応を防ぐ。
- 実験により,NAAMSEが既存手法で見過ごされた脆弱性を増幅させ,深刻な故障モードを特定できることが示された。
放射状ミュンツ・サシャスネットワーク:多次元特異点のための学習可能な基底を持つニューラルアーキテクチャ [cs.LG, cs.NA, math.NA]目的:多次元特異点をモデル化するためのニューラルアーキテクチャの開発
- 物理現象や工学問題において,特異点の正確なモデリングは不可欠である。
- 従来の座標分離可能なニューラルネットワークでは,放射状特異点を正確に表現することが困難である。
- 学習可能な基底関数を用いることで,複雑な放射状特異点を高精度に表現することを目指す。
- 放射状ミュンツ・サシャスネットワーク(RMN)は,MLPやSIRENと比較して,RMSEを大幅に低減した。
- RMNは,わずか27パラメータで,MLP(33,537パラメータ)やSIREN(8,577パラメータ)よりも優れた性能を発揮した。
- RMNは,複数のソースや角度依存性を考慮した拡張バージョンでも高い精度を維持した。
SDFed:サブスペースの改良と発散制御による連合プロンプト学習における局所的・グローバルな不一致の解消 [cs.LG, cs.DB]目的:連合プロンプト学習における局所的・グローバルな不一致の解消
- 大規模言語モデルの活用が重要視される中,プライバシー保護と効率的な学習が課題となっている。
- クライアント間のデータ分布やシステムリソースの差異により,統一的なプロンプト構造が最適ではない場合がある。
- クライアント固有のデータ特性に適応し,知識の衝突を抑制する学習フレームワークを構築する。
- SDFedは,効率的な集約を維持しつつ,クライアントごとに可変長のローカルプロンプトを学習する。
- サブスペースの改良によりローカルプロンプトの精度を高め,情報保持と発散制御により知識の衝突を軽減する。
- 複数のデータセットで,SDFedが異質な連合環境において性能とロバスト性を向上させることが示された。
ハイブリッドRAGにおける検索ピボット攻撃:ベクトルシードからグラフ拡張への増幅された漏洩の測定と軽減 [cs.CR, cs.IR, cs.LG]目的:ハイブリッドRAGパイプラインにおける検索ピボットリスクの測定と軽減
- RAGは,大規模言語モデルの性能向上に不可欠であり,多様な知識源の活用が求められている。
- ベクトル検索と知識グラフの組み合わせは強力だが,セキュリティ上の脆弱性をもたらす可能性がある。
- ベクトルからグラフへの境界における情報漏洩リスクを特定し,効果的な対策を提案する。
- ハイブリッドRAGパイプラインは,ベクトル検索で取得したシードチャンクを通じて,機密性の高いグラフ近傍へと情報が漏洩するリスクがあることが示された。
- 提示された7つの検索ピボット攻撃により,敵対的注入なしに自然なエンティティ共有を通じて漏洩が起こることが確認された。
- グラフ拡張境界での認可施行により,測定された漏洩をほぼゼロにすることができ,境界施行の重要性が示唆された。
拡散誘導型事前学習による脳グラフ基盤モデル [cs.LG, cs.AI]目的:脳グラフ基盤モデルの事前学習手法
- 脳信号の解析において,基盤モデルの重要性が高まっており,転移学習可能な表現を獲得する手段としてグラフベースの事前学習が注目されている。
- 既存の事前学習法は,脳グラフの構造を無視したランダムなマスキングや欠損処理を用いるため,意味のある接続パターンを破壊してしまうという問題がある。
- 拡散モデルを用いることで,脳グラフの構造を考慮したマスキングや欠損処理を可能にし,よりロバストな表現学習を実現することを目指す。
- 本研究で提案する拡散ベースの事前学習フレームワークは,構造を考慮したマスキング戦略と,グローバルな構造情報を捉える readout スキームにより,表現の質を向上させる。
- 25,000人以上の被験者と60,000件の脳画像データを用いた実験により,様々な精神疾患や脳アトラスにおいて,既存手法を上回る性能が確認された。
- 拡散モデルを用いることで,脳グラフのセマンティクスを維持しつつ,効果的な事前学習の多様性を確保することが可能となった。
層間の不一致を活用した幻覚の軽減 [cs.CL, cs.AI]目的:大規模言語モデルにおける幻覚軽減手法
- 大規模言語モデルの信頼性は,その応用範囲を左右する重要な要素である。
- 大規模言語モデルは,流暢な文章を生成する一方で,事実に基づかない内容を出力しやすい。
- モデル内部層の不一致を検出し,より一貫性のある出力を生成することを目指す。
- CoCoAは,モデルの内部層の信号を「聞く」ことで,推論時に幻覚を軽減する新しいデコーディングアルゴリズムである。
- 提案手法は,内部層の不安定性を定量化する指標を用いて,モデルの出力を罰し,事実に基づいた出力を促す。
- 様々なタスクにおいて,CoCoAは事実の正確性を大幅に向上させ,モデルの信頼性を高めることが示された。
LLM交渉担当者におけるMERITフィードバックの交渉改善効果 [cs.AI]目的:LLM交渉担当者の交渉能力向上
- 交渉は意思決定の重要な場面であり,AIによる自動化が期待される。
- LLMは戦略的思考の浅さや人間の複雑な要素への適応の難しさから交渉に苦戦している。
- 人間の選好と合致した,より戦略的な交渉AIの実現。
- 新たなベンチマークAgoraBenchを構築し,多様な交渉戦略を評価可能にした。
- 人間の選好を反映した経済学に基づいた評価指標(効用,交渉力,獲得率)を導入した。
- MERITフィードバック機構により,LLMの交渉性能が大幅に向上し,戦略性と相手への理解度が高まった。
シャッフルされたWOO公開文書におけるページ順序学習 [cs.CL, cs.LG, cs.CL]目的:WOO公開文書のページ順序再構築
- 情報公開文書の効率的な利用には,適切なページ順序が不可欠である。
- セマンティックな順序を示す手がかりが乏しい文書群のページ順序決定が困難である。
- ページ埋め込みを用いて,シャッフルされた文書のページ順序を学習し,再構築することを目指す。
- ページ埋め込みを用いた手法が,最大15ページまでの文書において高い再構築精度を達成した。
- Seq2Seq Transformerは長文において汎化性能が著しく低下することが示された。
- 注意機構解析から,短文と長文では異なる順序戦略が必要であることが明らかになり,カリキュラム学習の失敗原因を説明している。
SToRM:効率的なエンドツーエンド自動運転に向けたマルチモーダルLLMの教師ありトークン削減 [cs.CV, cs.AI, cs.RO]目的:マルチモーダルLLMにおけるトークン削減手法
- 自動運転におけるエンドツーエンドシステムは,安全性向上と人間の介入を可能にする重要な技術である。
- LLMとセンサー入力の多数の視覚トークンにより,計算資源が大幅に消費されるという課題がある。
- トークン削減による計算コスト削減と,性能低下の抑制を目指す。
- 提案手法SToRMは,既存のE2E運転MLLMと比較して,同じトークン削減量において性能を維持する。
- トークン重要度予測,教師あり学習,アンカーコンテキストマージングの3要素で構成される。
- 計算コストを最大30倍削減することが可能である。
エージェントガイダンスによるロボット強化学習の高速化 [cs.RO, cs.AI]目的:ロボット強化学習のサンプル効率向上
- ロボットの自律的な操作スキルの獲得に強化学習は有効だが,実用化には課題が多い。
- 人間の指導に依存する手法は,スケーラビリティ,疲労,指導のばらつきといった問題がある。
- エージェントによる自動指導により,人間による監視のボトルネックを解消し,スケーラブルな学習を実現する。
- 提案手法AGPSは,人間の指導をマルチモーダルエージェントに置き換えることで,学習パイプラインを自動化する。
- AGPSは,従来のHIL手法と比較して,サンプル効率が向上することを確認した。
- エージェントが持つ意味的World Modelが,物理的な探索を構造化し,効率的な学習を可能にする。
ミックスかマージか:大規模言語モデルのためのマルチドメイン強化学習へ [cs.AI]目的:大規模言語モデルにおけるマルチドメイン強化学習の比較検討
- 大規模言語モデルの能力向上は,自然言語処理の様々な応用において不可欠である。
- マルチドメイン環境での強化学習は,各ドメインの干渉や知識の転移が課題となる。
- 異なる訓練パラダイムの比較を通じて,最適なマルチドメイン強化学習手法を特定する。
- マルチドメイン強化学習において,ドメイン間の相互干渉は少ないことが示された。
- 特に推論能力を要するドメイン間では,相乗効果が確認された。
- 重み空間の幾何学,モデルの予測行動,情報制約,自己検証の観点から,相互利益のメカニズムが分析された。
心理尺度における意味的潜在構造の発見:効率的な簡略化へのレスポンスフリーな経路 [cs.CL, cs.LG]目的:心理尺度簡略化のための意味的潜在構造の発見
- 心理尺度の質的向上は,信頼性と妥当性を高め,実用的な応用を促進する上で不可欠である。
- 従来の心理尺度改良法は,大規模なサンプルを必要とし,データ入手可能性や文化的比較可能性に制約を受ける場合がある。
- 本研究は,応答データに依存しないアプローチにより,心理尺度を効率的に簡略化することを目的とする。
- 提案手法は,確立された構成概念と整合性のある,一貫性のある因子類似グループを復元した。
- 選択された項目により,尺度の長さは平均して60.5%削減され,心理測定学的妥当性が維持された。
- 簡略化された尺度は,元の因子構造と高い一致性を示し,因子間の相関関係も保持された。
SkillsBench:多様なタスクにおけるエージェントのスキル効果のベンチマーク [cs.AI]目的:エージェントのスキル効果の測定
- LLMエージェントの性能向上において,手続き的知識の活用が重要視されている。
- スキルの効果を定量的に評価する標準的な方法が存在しない。
- スキルの有効性を客観的に評価し,その利用方法を最適化すること。
- キュレーションされたスキルは平均合格率を16.2%向上させたが,効果はドメインやタスクによって大きく異なった。
- 自己生成されたスキルは平均的に効果がなく,モデル自身による手続き的知識の作成は困難であることが示された。
- 2〜3モジュールに焦点を当てたスキルは,包括的なドキュメントよりも優れた性能を示し,小規模モデルでもスキルを活用することで大規模モデルに匹敵する性能が得られた。
インタラクティブな説明システムの参照アーキテクチャ:X-SYS [cs.AI, cs.HC, cs.SE]目的:インタラクティブな説明システムの参照アーキテクチャの提案
- 説明可能なAIは重要性を増しているが,システムとしての実装は課題が多い。
- 既存手法では,継続的なクエリやモデルの変化,ガバナンス制約への対応が難しい。
- X-SYSは,説明可能性を情報システムの問題として捉え,システム要件を定義する。
- X-SYSは,スケーラビリティ,トレーサビリティ,応答性,適応性という4つの品質属性を重視する。
- X-SYSは,XUIサービス,説明サービス,モデルサービス,データサービス,オーケストレーションとガバナンスという5つのコンポーネントで構成される。
- SemanticLensの実装は,X-SYSの有効性を示しており,独立した進化と応答性を実現する。
LLMにおける幻覚の幾何学的分類 [cs.AI, cs.CL]目的:LLMの幻覚の幾何学的特徴に基づく分類
- LLMの性能向上には,その誤り傾向の理解が不可欠である。
- LLMの「幻覚」は多様な誤りを含み,的確な分析が困難である。
- LLMの幻覚を幾何学的に分類し,検出方法を開発すること。
- 幻覚を,文脈無視,虚偽の内容生成,事実誤認の3種類に分類した。
- Type I検出にはSemantic Grounding Index (SGI),Type II検出にはDirectional Grounding Index (DGI)を導入した。
- DGIは人工的な虚偽内容の検出で高い性能を示したが,外部ベンチマークではドメイン依存性が見られた。
TrasMuon:直交化モーメンタム最適化のためのトラスト領域適応スケーリング [cs.LG, cs.AI]目的:Muon様式の最適化における収束性の向上
- 最適化アルゴリズムは深層学習モデルの学習において重要な役割を担う。
- Muon様式最適化は,ステップサイズに敏感で,高エネルギーの急増が起こりやすい。
- 高エネルギーの急増を抑制し,安定性と効率性を両立する手法の開発。
- TrasMuonは,Muonの幾何学的構造を維持しつつ,RMSキャリブレーションとエネルギーベースのトラスト領域クリッピングにより,安定性を高める。
- 適応スケーリングを再導入することで最適化効率が向上する一方,不安定化を招く可能性をTrasMuonは抑制する。
- 画像と言語モデルの実験により,TrasMuonがベースラインよりも高速に収束することが示された。
ベンチマークデータの漏洩トラップ:LLMベースの推薦システムは信頼できるか [cs.LG]目的:LLMベースの推薦システムにおけるベンチマークデータ漏洩の問題
- 推薦システムは,ユーザーに最適な情報を提供する上で重要な役割を担う。
- LLMの事前学習やファインチューニング時に,ベンチマークデータがモデルに記憶される可能性があった。
- ベンチマークデータ漏洩がモデル性能評価に与える影響を明らかにすること。
- LLMがベンチマークデータに漏洩した場合,性能が実際よりも高く評価されることが示された。
- ドメイン関連データが漏洩すると,見かけ上の性能向上が生じるが,これは誤解を招きやすい。
- ドメイン無関係のデータ漏洩は,推薦精度を低下させる場合があることがわかった。
軽量自動AIパイプラインは研究レベルの数学問題を解決できるか? [cs.AI, math.AC, math.CO, math.CT]目的:研究レベルの数学問題に対するAIパイプラインの解決能力の検証
- 数学分野におけるAIの応用は,長年の課題解決や新たな発見に貢献しうる重要な研究領域である。
- 既存のAIモデルは,特定の数学コンテスト問題には高い性能を示すものの,研究レベルの問題への適用は限定的である。
- 本研究は,軽量なAIパイプラインを用いて,未解決の研究レベルの数学問題の解決を目指す。
- 次世代LLMと引用検証を最適化した自動パイプラインが,高度な研究レベルの問題を解決可能であることが示された。
- ICCM問題セットと「First Proof」問題セットに対し,すべての問題に対して候補となる証明が生成された。
- ICCM問題セットの最初の2セットと「First Proof」問題セットの問題4は,チームによって完全に検証された。
一歩先のアクション生成のための瞬間速度制約付き平均流ポリシー [cs.LG, cs.AI]目的:強化学習における表現力と効率性に優れたポリシー関数の学習
- ロボット制御など,複雑なタスクを自動化する上で,強化学習は重要な役割を担う。
- 従来のフローベースポリシーは計算コストが高く,表現力と計算量のトレードオフが存在する。
- 高速なアクション生成と高い表現力を両立する新しいポリシー関数を提案することで,この課題を解決する。
- 提案する平均流ポリシー(MVP)は,RobomimicとOGBenchのロボット操作タスクにおいて,最先端の成功率を達成した。
- MVPは,既存のフローベースポリシーと比較して,学習と推論の速度においても大幅な改善を示した。
- 瞬間速度制約(IVC)を導入することで,学習精度とポリシーの表現力が向上することが理論的に証明された。
Pawsterior:構造化シミュレーションに基づく推論のための変分フローマッチング [cs.LG, cs.AI]目的:構造化シミュレーションに基づく推論の改善と拡張
- シミュレーションは複雑なシステムの理解に不可欠であり,推論はモデルの不確実性を定量化する。
- 標準的なフローマッチング法は制約のない空間で動作するため,構造化された領域の制約を効率的に学習できない。
- 幾何学的制約と離散潜伏構造を考慮することで,より幅広い構造化SBI設定への適用を目指す。
- Pawsteriorは,エンドポイント誘導アフィン幾何学的制約を導入し,サンプリングの数値的安定性と事後分布の精度を向上させた。
- 従来のフローマッチングでは困難な,離散潜伏構造を含むSBIタスクを可能にした。
- 標準的なSBIベンチマークにおける二標本検定の性能向上により,その有効性が示された。
なぜコードなのか,なぜ今なのか:機械学習の学習可能性,計算可能性,そして現実的な限界 [cs.LG, cs.CL]目的:機械学習の学習可能性に関する構造的限界
- 機械学習は社会の様々な分野で活用が拡大しており,その可能性が注目されている。
- 強化学習は,コード生成に比べて学習が難しいという課題がある。
- タスクが学習可能であるかどうかが,機械学習の進歩の上限を左右するという点を明らかにする。
- コードは,トークンごとに密で局所的,かつ検証可能なフィードバックを提供する点が強化学習との重要な違いである。
- 学習可能性の階層構造を提示し,表現可能性,計算可能性,学習可能性の関係性を明確にした。
- コードに対する教師あり学習のスケーラビリティと,強化学習におけるスケーリングの限界について構造的な違いを説明した。
LLMファインチューニングデータセットにおける説明可能なトークンレベルノイズフィルタリング [cs.CL, cs.AI]目的:LLMファインチューニングデータセットのトークンレベルノイズフィルタリング
- LLMは多様な応用で目覚ましい進歩を遂げており,その性能向上が重要である。
- 既存のファインチューニングデータセットは文レベル設計であり,トークンレベルのノイズを含む。
- トークンレベルのデータへの寄与を分解し,ノイズを特定・除去することで性能向上を目指す。
- 提案手法XTFは,トークンレベルの重要度,新規性,タスク関連性を評価し,ノイズとなるトークンの勾配をマスクする。
- 7つの主流LLMと3つのタスク(数学,コード,医学)における実験で,最大13.7%の性能向上が確認された。
- 本研究はトークンレベルでのデータセット最適化の重要性と,属性分解に基づく戦略の可能性を示す。
直接コレン・ポラックフィードバック整列による予測符号化ネットワークの高速化 [eess.SY, cs.SY, cs.LG]目的:予測符号化ネットワークの高速化とスケーラビリティ向上
- 深層学習の効率化は,計算資源の制約やリアルタイム処理の要求から重要である。
- 従来の予測符号化では,誤差伝播の遅延とフィードバックの減衰が課題となっていた。
- 誤差伝播の遅延を解消し,フィードバック減衰を抑制することで,学習効率を高める。
- 提案手法であるDKP-PCは,誤差伝播時間複雑度をO(L)からO(1)に短縮した。
- DKP-PCは,標準的な予測符号化と同等以上の性能を達成し,遅延と計算性能を改善した。
- 本研究は,カスタムハードウェア効率の良い実装の可能性を示唆している。
理解に基づく記憶:グローバル意味拡散を用いた認知ジスト駆動型RAGフレームワーク [cs.CL, cs.AI]目的:大規模言語モデルにおける幻覚の軽減と知識統合・推論能力の向上
- 大規模言語モデルの活用が進む中で,外部知識の組み込みによる性能向上が重要視されている。
- 既存のRAGフレームワークでは,テキストの離散的な表現が意味の劣化を招き,検索精度が低下する問題がある。
- 人間の認知記憶メカニズムを模倣し,より高精度な知識検索と推論を可能にするRAGフレームワークを開発する。
- 提案手法CogitoRAGは,知識グラフと拡散メカニズムを組み合わせることで,複雑なクエリに対する関連性の高い情報を効率的に検索できる。
- クエリ分解モジュールとEntity Diffusion Moduleにより,構造的な関連性とエンティティの頻度に基づいた関連性検索を実現している。
- 主要なQAベンチマークとGraphBenchでの実験結果から,既存のRAG手法を大きく上回る性能が示され,複雑な知識統合・推論能力の高さが確認された。
共有特徴抽出器学習におけるソーススクリーニングの力 [cs.LG]目的:共有表現学習における最適な部分集合の特定
- 異種データソース間の共通性と異質性を分離する有効な手法として,共有表現学習が広く認識されている。
- 質の低いまたは関連性の低いデータソースが,表現学習の妨げとなることが知られている。
- データソースの最適な部分集合を特定し,効率的な学習を実現することを目指す。
- ソーススクリーニングが,統計的に最適な部分空間推定において重要な役割を果たすことが示された。
- 問題インスタンスの広範なクラスにおいて,大量のデータを破棄しても,慎重に選択されたソース部分集合でミニマックス最適性を達成できる。
- 情報的なサブポピュレーションの概念を形式化し,識別するためのアルゴリズムとヒューリスティクスを開発した。
感情衝突器:反感情反射による感情回復のための双曲ハイパーボリック鏡面多様体 [cs.MM, cs.CL, cs.LG]目的:マルチモーダル感情とセンチメントのモデリング
- 自然なコミュニケーションや人間とコンピュータの有効な相互作用には,感情表現が不可欠である。
- 既存手法では,ノイズや欠損したモダリティに対してロバストな感情理解が課題であった。
- 明示的な階層構造とハイパーグラフ融合により,ロバストなマルチモーダル感情理解を目指す。
- EC-Netは,ポアンカレ球埋め込みと双方向メッセージパッシングによるハイパーグラフ機構を用いることで,ロバストかつ意味的に一貫性のある表現を生成する。
- 双曲空間におけるコントラスティブ学習により,クラス分離を鮮明化し,精度が向上する。
- 標準的なマルチモーダル感情ベンチマークにおいて,特にモダリティが部分的に欠損またはノイズに汚染されている場合に,EC-Netは一貫して高い性能を示す。
ModalImmune:自己破壊的訓練による免疫駆動型アンラーニング [cs.LG, cs.CL, cs.MM]目的:マルチモーダルシステムのロバスト性向上
- 現実世界での利用において,マルチモーダルシステムの信頼性は重要である。
- 展開時に入力チャンネルが失われることで,マルチモーダルシステムの性能が低下する。
- 入力チャンネルの損失に対するロバスト性を高めることが課題である。
- ModalImmuneは,訓練中に意図的に特定のモダリティ情報を崩壊させることで,モダリティの免疫性を高める。
- スペクトル適応崩壊正則化,情報ゲイン誘導コントローラー,曲率を考慮した勾配マスキング,ノイマン切断ハイパー勾配法を組み合わせる。
- 標準的なマルチモーダルベンチマークにおいて,モダリティの削除や破損に対する耐性を向上させ,収束安定性と再構成能力を維持することを示した。
文脈依存型バイオメディカル質問応答のための条件ゲート付き推論 [cs.NI, cs.RO, cs.CL, cs.AI]目的:文脈依存型バイオメディカル質問応答における条件付き推論
- 医療現場では,患者の状態によって判断が異なるため,知識の条件付き適用が重要である。
- 既存の質問応答システムは知識の一律適用を前提としており,患者特有の状況を考慮できない。
- 患者の状態に応じた適切な知識を選択し,正確な推論を行うこと。
- 本研究では,条件付きバイオメディカル質問応答の最初のベンチマークであるCondMedQAを提案した。
- さらに,条件を考慮した知識グラフを構築し,条件に応じて推論経路を選択的に活性化/削除するCGRを提案した。
- CGRは,既存のシステムと同等以上の性能を発揮しつつ,条件に適切な回答をより確実に選択することが示された。
全脳コネクトームグラフモデルによるショウジョウバエの全身運動制御 [cs.LG, cs.RO]目的:ショウジョウバエの全身運動制御のための全脳コネクトームグラフモデル
- 脳の構造は行動の基盤であり,その理解は神経科学において重要である。
- 従来のニューラルネットワークは,生物の脳構造を十分に活用できていない。
- ショウジョウバエの全脳コネクトームを直接制御器として利用し,効率的な運動制御を目指す。
- 開発したFlyGMは,ショウジョウバエのコネクトームを基盤とし,多様な運動タスクにおいて安定した制御を実現した。
- FlyGMは,ランダムグラフや多層パーセプトロンと比較して,高いサンプル効率と優れた性能を示した。
- 静的な脳コネクトームが,運動制御のための効果的なニューラルポリシーを具現化できることを示した。
潜在的等変オペレータによるロバストな物体認識:可能性と課題 [cs.CV, cs.LG]目的:ロバストな物体認識のための潜在的等変オペレータの有効性と課題
- 画像認識は深層学習の成功により進展したが,訓練データにない変換への汎化が課題である。
- 既存の等変ネットワークは変換を事前に知る必要があり,未知の変換への対応が困難である。
- 潜在空間で等変オペレータを学習することで,未知の変換に対してもロバストな認識を目指す。
- 回転や並進変換を含むMNISTデータセットで,提案手法が従来のネットワークよりも優れた分類性能を示した。
- 未知の分布からのデータに対しても,提案手法は高い識別能力を発揮することが確認された。
- より複雑なデータセットへの拡張には課題が残るが,将来的な発展の可能性を示唆している。
有限一次の領域における異常検知のためのABD [cs.AI, cs.SC]目的:有限一次の領域における異常検知のベンチマーク
- 人工知能において,知識表現と推論は重要な研究課題である。
- 異常検知は,既存の知識と矛盾する例外的な状況を特定することが困難である。
- 異常を定義する論理式を効率的に見つけ,矛盾を解消することを目指す。
- ABDベンチマークは,異常を定義する論理式を評価するための環境を提供する。
- 最先端の大規模言語モデル(LLM)において,有効性は高いものの,簡潔性には課題が残る。
- 各観察体制において,モデルの一般化における特有の失敗モードが明らかになった。
誘導:一階述語論理における有限構造概念合成 [cs.AI]目的:一階述語論理における有限構造概念合成のベンチマーク
- 論理学や人工知能において,概念の形式化と推論は重要な課題である。
- 有限構造における概念合成は,複雑な構造を持つデータからの知識抽出が困難である。
- 本研究は,有限構造の概念を効率的かつ正確に合成する手法を評価することを目的とする。
- 新しいベンチマーク「INDUCTION」が提案され,一階述語論理における有限構造概念合成を評価することが可能となった。
- 実験により,難易度勾配,困難な構造的ファミリー,および少ない論理式が汎化性能に優れることが示された。
- 高性能モデル間では,タスクや評価指標に応じて異なる戦略が観察され,概念汎化のメカニズムに関する洞察が得られた。
都市エネルギー制御のためのMARLの特性評価:CityLearn環境における多岐にわたるKPIベンチマーク [cs.AI, cs.LG, cs.MA]目的:都市エネルギーシステムの最適化
- 持続可能で強靭なスマートシティ実現には,複雑化する都市エネルギーシステムの最適化が不可欠である。
- MARLのスケーラビリティと協調性の課題を解決するための信頼性のあるベンチマーク環境が不足している。
- MARLアルゴリズムのエネルギー管理タスクにおける性能を包括的に評価する新たな基準を確立すること。
- 分散学習・分散実行 (DTDE) が,平均的および最悪の場合の性能において,集中学習・分散実行 (CTDE) を上回ることが示された。
- 時間依存性の学習は,ランプアップやバッテリー使用量といったメモリ依存型KPIの制御を改善し,より持続可能なバッテリー運用に貢献した。
- エージェントやリソースの除去に対する頑健性が確認され,学習されたポリシーのレジリエンスと分散性が示された。
RAmmStein:平均回帰市場におけるStein閾値を用いたレジーム適応 - 集中型AMMにおける最適インパルス制御 [cs.LG, q-fin.TR]目的:分散型取引所における流動性管理の最適化
- 分散型取引所はDeFiエコシステムの中核であり,効率的な流動性管理が重要である。
- 従来の流動性管理手法は市場のダイナミクスを考慮せず,最適化が不十分である。
- 市場の状態に適応し,取引コストを最小限に抑えつつ収益を最大化する流動性管理手法を開発する。
- RAmmSteinは,高頻度取引データを用いた実験で,他の現実的な戦略と比較して最も高い純ROI(1.60%)を達成した。
- 本手法は,貪欲な戦略と比較して,リバランスの頻度を85%削減し,ガス代による損失を抑制した。
- RAmmStein-Widthは,自己学習によりリバランスの回数を大幅に削減し,ガス代を最小限に抑えることができた。
分子回帰タスクにおけるGNNモデルのベンチマークとCKAに基づく表現解析 [cs.LG]目的:分子回帰タスクにおけるGNNモデルの性能評価と表現の類似性分析
- 計算化学,創薬,生化学,材料科学において,分子構造に基づいた物性予測の重要性が増している。
- 既存の分子フィンガープリントは固定長であるため,分子構造の複雑な関係性を捉えきれないという課題がある。
- GNNモデルの性能を様々なデータセットで比較し,フィンガープリントとの表現空間の違いを明らかにすることで,より効果的な分子表現学習を目指す。
- GNNとフィンガープリントの融合モデル(GNN+FP)は,単独のGNNモデルやベースラインモデルと比較して,一貫して高い予測性能を示した(RMSE改善率 $>7\%$)。
- GNNとフィンガープリントの埋め込み表現は,CKA値が低い($\le0.46$)ことから,独立した潜在空間を占めていることが示された。
- GCN,GraphSAGE,GINといった異方性モデル間では高い表現の類似性(CKA $\geq0.88$)が見られ,GATはやや独立した表現を学習していることが確認された。
CrystaL:MLLMにおける視覚潜在表現の自発的創発 [cs.CV, cs.AI]目的:MLLMにおける視覚潜在表現の結晶化と,それによる視覚理解能力の向上
- マルチモーダルLLMは,言語と視覚情報の統合により目覚ましい性能を発揮しているため,そのメカニズム解明が重要である。
- 既存の潜在的CoT手法では,中間潜在状態における重要な視覚情報の維持のための誘導が不十分である。
- 画像と破損画像を用いた経路間で注意パターンと予測分布を整合させ,視覚セマンティクスを潜在表現に結晶化する。
- CrystaLは,既存の最先端手法と比較して,一貫して優れた性能を示し,微細な視覚理解において大幅な進歩を実現した。
- 本手法は,補助的な注釈や外部モジュールに依存することなく,タスクに関連する視覚セマンティクスを潜在表現に結晶化する。
- 頑健な推論能力を維持しつつ,知覚に重点を置いたベンチマークにおいて顕著な成果を上げた。
MrBERT:語彙,ドメイン,次元適応による最新多言語エンコーダ [cs.CL, cs.AI, cs.LG]目的:最新多言語エンコーダの構築と性能評価
- 多言語処理の重要性は,グローバル化の進展に伴い,言語の壁を超えた情報共有を可能にする点にある。
- 既存モデルは,特定の言語やドメインに特化した性能向上に課題が残っており,汎用性と専門性の両立が求められる。
- 地域言語や専門ドメインにおける性能向上と効率的な推論・保存コストの削減を目指す。
- MrBERTは,カタロニア語およびスペイン語の特定のタスクにおいて最先端の結果を達成した。
- バイオメディカルおよび法務といった専門分野においても,堅牢な性能を示した。
- マトリョーシカ表現学習(MRL)を組み込むことで,推論および保存コストを大幅に削減できる。
ARLArena:安定したエージェント型強化学習のための統一的フレームワーク [cs.AI]目的:エージェント型強化学習における訓練安定性の向上
- 複雑なタスク解決において,人間の介入を減らし,自律的な学習を実現する手段として重要。
- エージェント型強化学習は訓練が不安定で,環境やタスクの規模拡大が困難である。
- ARLArenaを通じて安定性を評価し,SAMPOという安定化手法を提案することで解決を目指す。
- 本研究では,訓練安定性を評価するためのフレームワークARLArenaを提案し,再現性のある設定で分析を行った。
- ポリシー勾配を4つの設計要素に分解し,それぞれの要素が訓練安定性に与える影響を詳細に分析した。
- その結果,SAMPOという安定化手法を提案し,多様なタスクにおいて安定した訓練と高い性能を達成した。
UniWhisper:堅牢な汎用オーディオ表現のための効率的な継続多タスク学習 [cs.SD, cs.AI]目的:汎用オーディオ表現の獲得
- 多様な音響情報の理解は,音声認識や環境音分析など,広範な応用分野で重要である。
- 既存のエンコーダは,特定のドメインに特化しやすく,他のドメインにおける性能が低下する傾向がある。
- 異なる種類のオーディオタスクを統合し,汎用的な性能を持つエンコーダを構築することを目指す。
- UniWhisperは,38,000時間の公開オーディオデータを用いて,音声,環境音,音楽の20タスクで評価された。
- MLPプローブによる評価では0.81,kNNによる評価では0.61の正規化加重平均スコアを達成し,Whisper(0.64,0.46)を上回った。
- UniWhisperは,高い音声認識性能を維持しつつ,多様なオーディオタスクにおいて優れた汎化性能を示すことが確認された。
狼として調査研究を行う:AIエージェントは社会科学者を代替または強化できるか [cs.AI, cs.HC]目的:AIエージェントによる社会科学研究の代替・強化可能性
- 社会科学研究における効率化と新たな知見の発見が求められている
- 既存の自動化技術では,複雑な研究プロセスの全体像を把握することが困難である
- AIエージェントの活用範囲と限界を明らかにすることで,研究者の役割再定義に貢献する
- AIエージェントは,研究のスピード,網羅性,方法論的な支援において優れている。
- 理論的な独創性や暗黙知を要する分野においては,依然として人間の能力が不可欠である。
- AIエージェントの利用は,研究者のスキル格差拡大や教育における課題を引き起こす可能性がある。
エージェンシーと知能の数学的理論 [cs.AI, cs.IT, math.IT]目的:エージェンシーと知能を定量化するための数学的枠組み
- 複雑なシステムが変化する状況下で安定的に機能するためには,資源利用効率の評価が不可欠である。
- 現在のAIシステムは予測精度を追求するが,環境との相互作用の質の低下が見過ごされている。
- 観察,行動,結果間の情報共有度を定量化し,適応的・強靭なAIの実現を目指す。
- 情報共有度である「両予測可能性」Pは,量子系で1,古典系で0.5以下,エージェンシー導入でさらに低下する。
- 二重振り子,強化学習エージェント,LLM会話において,理論値との整合性が確認された。
- エージェンシーは予測に基づく行動能力,知能は学習からの適応能力と自己モニタリングを含む。
脳波信号からの自己回帰的視覚デコーディング [cs.LG, cs.AI]目的:脳波信号からの視覚情報の復元
- 脳波は費用対効果が高く時間分解能も優れるため,視覚情報の復元に利用されることが増えている。
- 既存手法は脳波と画像データの間のモダリティギャップを埋めるのが難しく,一貫性を保てない問題がある。
- 本研究は,脳波信号から効率的に画像を復元する新しいフレームワークを提案し,その問題を解決する。
- 提案手法AVDEは,従来の最先端手法と比較して,画像検索と再構成の両タスクで優れた性能を示した。
- AVDEは,パラメータ数を10%に抑えながら,高性能を実現した。
- 中間出力の可視化により,AVDEの生成プロセスが人間の視覚知覚の階層的性質を反映していることが示された。
HealthBenchにおける医師間の不一致の分解 [cs.AI, stat.AP]目的:医師間の不一致の要因分析
- 医療AIの評価は,その信頼性と安全性を確保する上で不可欠である。
- 医療AI評価において,医師間の意見の不一致は大きな課題となっている。
- 評価における不一致の構造的要因を特定し,評価設計の改善を目指す。
- HealthBenchデータセットにおける医師間の不一致の大部分(81.8%)は,提供されたメタデータや言語表現では説明できない。
- 不一致は,回答の質が低い場合と高い場合では意見が一致しやすいが,中間の質においては意見が分かれる傾向がある。
- 不一致は,解決可能な不確実性(文脈の欠如,曖昧な表現)に大きく影響されるが,本質的な医療的曖昧さには影響されないことが示された。
CeRA:多様体拡張による低ランク適応の線形上限を打破 [cs.LG, cs.AI, cs.CL]目的:低ランク適応における性能向上
- 大規模言語モデルの効率的なファインチューニングは,計算資源の制約を克服する上で不可欠である。
- LoRAのような低ランク適応は,ランクを上げても性能向上が頭打ちになりやすいという課題がある。
- CeRAは,多様体拡張によってこの線形上限を打破し,より少ないパラメータで高性能を実現することを目指す。
- CeRAは,SlimOrcaベンチマークにおいて,LoRAよりも低いランクで同等以上の性能を発揮した。
- 数学的推論においても,CeRAはLoRAの飽和点を上回り,perplexityの点で優位性を示した。
- 特異値分解(SVD)分析により,CeRAが特異値スペクトルの末尾を活性化させ,ランク崩壊を防ぐことが確認された。
学習された遷移モデルによるサンプル効率的な汎化計画 [cs.AI]目的:汎化計画における,学習された遷移モデルを用いたサンプル効率の向上
- 計画立案はAIの重要な課題であり,現実世界の問題解決に不可欠である。
- 従来の汎化計画は抽象化に依存し,大規模データやモデルサイズが必要となる場合が多い。
- 遷移モデルを学習することで,少ないデータと小さなモデルで汎化性能を高めることを目指す。
- 明示的な遷移モデルの学習は,直接的な行動系列予測よりも,分布外のタスクにおける計画成功率が高い。
- 本研究では,少ない学習データと小さなモデルサイズで,高い汎化性能を実現した。
- 状態表現やニューラルアーキテクチャの検討により,サイズ不変な汎化とサンプル効率が向上した。
