arXiv雑要約
AI - 2026/06/05 公開
RAINO:現実へのアンカリング要素,エージェントベースモデリングにおけるリアリズムの体系的レビューと概念的フレームワーク [cs.MA, cs.AI]目的:エージェントベースモデリングにおけるリアリズムの運用と実証方法の特定
- エージェントベースモデリングは,複雑なシステム理解に不可欠であり,社会科学や自然科学への応用が拡大している。
- リアリズムの定義が曖昧であり,一貫した概念的枠組みが存在しないため,モデルの妥当性評価が困難である。
- リアリズムの評価基準を明確化し,モデル開発のアプローチ多様性を説明するフレームワークを提示すること。
- リアリズムは,現実のアンカー(実証データ,理論,専門知識など)と,モデルへの入力・出力の関係性によって特徴づけられる。
- RAINOフレームワークは,リアリズムの評価方法の違いを説明し,モデル開発における多様なアプローチを理解するのに役立つ。
- 既存の研究では,リアリズムの達成方法の説明が不足している点が明らかになった。
モデル崩壊の疫学:二層SIRダイナミクスによる合成データ汚染のモデリング [cs.CL, cs.AI, cs.LG]目的:合成データ汚染によるモデル崩壊のメカニズム解明
- AI技術の発展に伴い,合成データの利用が増加しており,その影響評価が重要である。
- 合成データによる汚染は,単一の劣化過程として扱われることが多く,生態系全体の相互作用が考慮されていない。
- データとモデル間の相互汚染を考慮した,より現実的なモデルを構築し,その影響を定量的に評価すること。
- 二層のSIR/SIRSモデルを提案し,データ集とAIモデルを相互作用する集団として表現した。
- 基本再生産数$R_0$を導出し,伝染病閾値の結果を二層システムに適用することで,臨界的なダイナミクスが示された。
- 合成テキスト検出の重要性が示唆され,検出ベースのフィルタリングと集団免疫が有効な対策となりうる。
LLMベンチマーク評価の盲点:大規模言語モデルのベンチマーク網羅性の立体幾何学的理論 [cs.LG]目的:LLMベンチマーク評価における盲点の立体幾何学的分析と,ベンチマーク網羅性の評価
- 大規模言語モデルの性能評価は,AI技術の発展において不可欠であり,その信頼性が重要である。
- 既存のベンチマーク評価では,評価の盲点や統計的ノイズの影響が無視されており,正確な性能評価が困難である。
- ベンチマークの構造的盲点を定量化し,最小限のベンチマーク数で網羅性を高める方法を提案する。
- ベンチマークの有効次元は2.86~4.80であり,構造的盲点は観測されたスコア差を大きく上回る。
- シミュレーションの結果,トップモデルの入れ替わりが発生する頻度が高く,ベンチマークの選択が評価に大きく影響することが示された。
- 7つのベンチマークで90%の網羅性を達成でき,選定されたサブセットは時間経過による性能変化にも対応可能である。
ERRORQUAKE:オープンウェイト大規模言語モデルにおける誤差の重大度分布の裾の重さ [cs.LG]目的:オープンウェイト大規模言語モデルにおける誤差の重大度分布の形状の違い
- 大規模言語モデルの性能評価は重要であり,より詳細な分析が求められている。
- 従来の評価指標では,誤差の重大度の違いが見過ごされがちである。
- 誤差の重大度分布を分析することで,モデルの特性をより深く理解することを目指す。
- モデル間の誤差の重大度分布には有意な違いが見られ,同じ精度でも分布が異なる場合がある。
- 誤差の重大度指数(b値)は,モデルの誤差の種類と関連しており,モデルのサイズによって異なる傾向がある。
- 重大度分布は,従来の誤差率だけでは捉えきれない情報を持ち,モデルの比較に役立つ。
予測と再構成:自己教師あり言語表現学習のための共同目的 [cs.CL, cs.AI]目的:自己教師あり言語表現学習のための共同目的の提案
- 言語モデルは自然言語処理の基盤であり,その性能向上は様々な応用分野に貢献する。
- 従来のマスク言語モデリングは,表面的なトークン情報に偏った表現学習になりやすい。
- 潜在空間予測とマスク言語モデリングを組み合わせることで,より意味的な表現を獲得することを目指す。
- 提案手法は,標準的なMLMと比較して,より均質な埋め込み表現を生成することが示された。
- 最大プーリング下では,より豊かなスペクトル幾何学構造を持つことが確認された。
- 線形評価の精度はMLMと同程度だが,潜在空間の幾何学的特性に有意な差が見られた。
LLMにおける心臓医療質問応答の改善:分散を考慮した評価基準報酬とGRPOによるアプローチ [cs.CL, cs.AI]目的:心臓医療に関する質問応答におけるLLMの性能向上
- 医療分野におけるLLM活用は,診断支援や効率化に貢献する可能性を秘めている。
- 汎用LLMは,プライバシー,コスト,エッジデバイスでの利用といった課題を抱えている。
- 評価基準に基づく報酬設計により,LLMの医療質問応答の精度と安定性を高める。
- 提案手法である分散を考慮した報酬フレームワークとGRPOを用いることで,心臓医療質問応答の精度とF1スコアが大幅に向上した。
- Qwen3-14Bモデルにおいて,精度が0.362から0.502へ,F1スコアが0.532から0.668へと改善された。
- 本研究は,LLMを用いた医療質問応答において,適切な評価基準報酬設計が有効であることを示した。
通信顧客サポートにおけるSLMのPEFT:LoRA構成とエネルギー消費の比較研究 [cs.CL, cs.CL, cs.AI]目的:通信顧客サポート特化型対話型アシスタントの構築
- 自然言語処理技術は,顧客対応の自動化や効率化に不可欠であり,顧客満足度向上に貢献する。
- 外部ホスト型LLM利用時のデータ主権や規制,顧客情報の取り扱いが課題となっている。
- LoRAを活用したPEFTによる,ドメイン特化型LLMの効率的な構築を目指す。
- 定量評価と定性評価の間で乖離が見られ,検証損失が低いモデルが必ずしも人間による評価で上位とは限らない。
- 検証損失が最も低いモデルは定性評価で6~7位であったのに対し,最も高いモデルは両方の評価者によって1位と評価された。
- 本研究は,合成データセット構築手法,LoRAターゲットモジュール選択の影響,および持続可能なLLM展開のためのエネルギー・性能トレードオフ分析に貢献する。
MCBench:汎用大規模言語モデルの安全性評価のための多状況ベンチマーク [cs.CL, cs.AI, eess.AS]目的:汎用大規模言語モデルの安全性評価
- AIの社会実装が進む中で,安全性確保は重要な課題である。
- 既存の安全性評価は視覚情報に偏っており,多様な入力に対応できない。
- 複数のモダリティを統合した安全性評価手法の確立を目指す。
- MCBenchは,視覚,音声,テキストを統合的に評価する1196のシナリオを含む。
- 評価の結果,汎用大規模言語モデルは微妙なリスクや非物理的リスクの判断に課題があることが示された。
- モデルはモダリティ固有の情報は抽出できるものの,安全性の判断には統合的な推論が不可欠であることが示唆された。
仮想ラウンドテーブル:人間のブレインストーミングのダイナミクスをシミュレートするマルチエージェントペルソナ [cs.HC, cs.AI]目的:人間のブレインストーミングのダイナミクスシミュレーション
- AI主導の製品開発が加速する中,何を作るかが重要課題となっている。
- 従来のブレインストーミングは,群思化やエコーチェンバー,多様性の欠如といった課題を抱えている。
- 多様なアイデア創出と評価を通じて,ブレインストーミングの課題解決を目指す。
- 本システムは,多様かつ関連性の高いアイデアを生成し,その進化に関する洞察を得ることができた。
- ペルソナ間の意見交換の積み重ねにより,議論とアイデアの質が段階的に向上した。
- アイデアの系統を追跡することで,概念の起源と相互受粉を捉えることが可能となった。
スコアリングから説明へ:評価基準に基づいた教育の質評価におけるSHAPとLLMの根拠の評価 [cs.CL, cs.CL, cs.AI]目的:評価基準に基づく教育の質評価におけるSHAPとLLMの根拠の比較
- 教育の質評価は,学習成果の向上に不可欠であり,客観的かつ透明性の高い評価手法が求められている。
- 自動スコアリングモデルは,評価の効率化に貢献する一方,その判断根拠が不明瞭であるという課題がある。
- 本研究は,SHAPとLLMを用いた根拠に基づき,自動スコアリングモデルの解釈可能性を高めることを目指す。
- 微調整された事前学習済み言語モデル(PLM)は,LLMよりも予測精度が高いが,中間的なスコアへの偏りを示す。
- SHAPは,モデル予測を決定する信頼性の高い文を特定し,LLMが生成する根拠よりも大きな影響と一貫性を示す。
- SHAPの帰属値はモデル間での高い転移性を示す一方,LLMの根拠は限定的かつ不整合な影響を与える。
自然言語推論におけるマルチ粒度推論 [cs.CL, cs.AI]目的:自然言語推論における論理関係性の判断
- 自然言語処理の基礎であり,文章理解のベンチマークとして重要である。
- Transformerモデルの最終層表現は,複雑な意味的相互作用を捉えきれない。
- マルチ粒度な意味情報を統合し,より高度な推論を可能にすること。
- 提案手法MGRNは,階層的な意味特徴を対話的な推論空間で活用する。
- MGRNは,語彙レベルから文脈レベルまで,段階的かつ構造的に意味情報を統合する。
- 複数のベンチマークにおいて,既存の強豪モデルを上回る性能を実証した。
ジェミニモデルにおける追従性の多次元的縦断的監査:粒度ギャップ [cs.CL, cs.IR, cs.CL, cs.AI, cs.HC]目的:大規模言語モデルにおける追従性の定量化と,その改善
- LLMは重要な意思決定を支援する場面が増えているため,その信頼性評価が不可欠である。
- 既存の評価指標では,追従性を二値評価しているため,微妙な追従行動を見逃していた。
- 追従性を連続的な指標で評価し,モデルの世代間や設定による違いを明らかにすること。
- ジェミニモデルの約27.2%の応答に,ある程度の追従性が見られた。
- ジェミニ2.5は,2.0や3.0と比較して追従性が悪化する傾向があることが示された。
- 追従性と正確性には負の相関があり,社会的な適合性が事実の正確性を損なう可能性がある。
Drishti AI-Event Guardian:大規模集会のリアルタイム群衆監視と緊急対応システム [cs.CY, cs.CV, cs.LG]目的:大規模集会における群衆の安全管理と緊急時対応の向上
- 大規模イベントは人命に関わる事故が多発する。安全なイベント運営のためには,群衆の動向把握が不可欠である。
- 従来の監視システムは知能的な分析機能に乏しく,脅威の特定や適切な資源配分が遅れる場合がある。
- 本研究は,AIを活用し,大規模集会における群衆の安全管理と緊急時対応を迅速化・高度化することを目的とする。
- リアルタイム群衆密度推定において,平均絶対誤差3.2人/m2を達成し,高い精度を実証した。
- 異常検知ではF1スコア0.91,顔認識の適合率は0.93と高く,迅速な脅威検出が可能であることを示した。
- チャットボットはインシデント報告の89%をオペレーターなしで解決し,警備員の再配置時間を34%削減した。
予算制約下マイクロ事前学習のための段階的階層的スクリーニング [cs.LG, cs.CL]目的:予算制約下でのマイクロ事前学習における候補レシピの選別効率向上
- 大規模言語モデルの事前学習は計算資源を大量に消費するため,効率的な学習方法が重要である。
- 限られた予算内で最適なハイパーパラメータを見つけることは困難であり,探索空間の効率的な絞り込みが必要となる。
- 段階的階層的スクリーニングにより,初期段階で重要度の高いハイパーパラメータを特定し,効率的に学習を進めることを目指す。
- 段階的階層的スクリーニングは,短時間での実験から安定した効果構造を復元できることが示された。
- 総バッチサイズ,深さ,幅は短い予算では大きなペナルティとなるが,予算が増加するにつれて緩和される傾向がある。
- ブリッジモデルを用いた継続学習は,両方のホストで24時間までの一貫した結果を示し,ハードウェアに依存しないランキングや一般的なハイパーパラメータ最適化の優位性を示唆しない。
AI評価における地理的偏りと多様性 [cs.CY, cs.AI]目的:AI評価における地理的偏りと多様性に関する調査
- AIの倫理的開発・利用において,偏りは重要な課題であり,社会的不平等を助長する可能性がある。
- AIの偏りの地理的性質は十分に調査されておらず,偏りのないAIの定義も明確ではない。
- 生成AIを含むAIの地理的偏りを特定し,地理的多様性の評価基準を検討すること。
- AIの地理的偏りは,学習データやモデル設計に起因する表現の偏り,言語モデルの地域による事実の想起の差,生成AIによる特定の場所への過剰な偏りなど多岐にわたることが確認された。
- 近年の研究では,生成AIの出力における地理的多様性を,認知レベル,パラメータ設定,出力形式などを用いて評価することで,偏りの軽減が試みられている。
- 生成AIにおける地理的偏りに対処するためには,地理的多様性を考慮した評価方法の開発が不可欠である。
画像生成におけるAIの空間的表現の地理的多様性の評価 [cs.CY, cs.AI]目的:AI画像生成における地理的多様性の評価方法
- 地理情報科学において,AIの出力に内在する不確実性や認知バイアスを理解することは重要である。
- AIモデルが特定の地域や場所をステレオタイプに表現するリスクが存在する。
- AI画像生成における地理的多様性の評価基準を確立し,その問題を解決することを目指す。
- GPTとDALL-Eの地理的多様性評価において,プロンプトの修正が画像生成よりも多様性向上に寄与することが示された。
- 古いモデルの方が,画像品質は低いものの,地理的多様性が高い場合があるという,直感に反する結果が得られた。
- 選択されたモデルは,特定の場所の特徴を繰り返し描写し,モデルの均質性が地理的多様性の低さに寄与していることが明らかになった。
仮説に基づいた方程式発見と構造的識別可能性のためのPyCC.idパッケージ [cs.LG, eess.SP]目的:仮説駆動型方程式発見における構造的識別可能性の実現
- データ駆動型方程式発見は,複雑なシステムの理解に不可欠であり,科学技術の進歩に貢献する。
- 逆問題の性質上,複数の適合するモデルが得られやすく,適切なモデル選択が困難である。
- 構造的識別可能性を利用し,仮説検証とモデル絞り込みを効率化することを目指す。
- PyCC.idは,仮説と構造的識別可能性を組み合わせた方程式発見のためのPythonライブラリである。
- 本研究では,特徴曲線に着想を得た構造的「骨格」を用いて,ODEの発見プロセスを支援する。
- 多様な方程式発見パラダイム(ニューラルネットワーク,記号回帰,スパース回帰等)をモジュール的に利用可能である。
大規模言語モデルにおける時間的選好概念とその機能 [cs.LG, cs.AI, cs.CL]目的:大規模言語モデルにおける時間的選好の表現と解決メカニズムの解明
- 近年のLLM活用拡大に伴い,短期的な利益と長期的な影響のトレードオフが重要視されている。
- LLMがこれらのトレードオフをどのように内部で表現し,解決しているか不明確である。
- LLMの時間的選好をメカニズム的に解釈し,より信頼性の高い制御を目指す。
- 蒸留されたLLMにおいて,時間的選好に関連するサブグラフを特定し,特定の層にその表現が存在することを示した。
- LLMの時間軸の幾何学的構造が,特定層の残差ストリームに符号化されていることを明らかにした。
- LLMは人間よりも未来を低く評価する傾向があるが,文脈によって変動するため,明示的な制御が重要である。
状態コミットメント学習:計算とメモリを区別するための言語モデルの訓練 [cs.LG]目的:計算に用いるトークンと永続的な状態を構成するトークンを言語モデルが区別する能力の獲得
- 大規模言語モデルの推論能力向上には,情報の効率的な処理と記憶が不可欠である。
- 既存モデルは,推論過程で生成された不要な情報(試行錯誤など)を区別できず,後続の予測に悪影響を及ぼす。
- 推論に必要な情報を明確に分離し,不要な情報を破棄することで,より信頼性の高い推論を実現する。
- 本研究では,状態コミットメント学習という新たな訓練目的を提案し,モデルが永続状態と一時的な計算を明示的に区別できるようにした。
- 提案手法CERLは,隠れた思考を消去した場合でも正解が維持されるかどうかを評価するカウンターファクチュアル消去RLを用いており,隠れた思考への依存度を大幅に低減した。
- 数学,論理,科学QA,ツール利用といった多様なタスクにおいて,CERLは既存手法を上回り,精度の低下なく頑健性を向上させている。
多経路を持つ深層線形ネットワークにおける対称性の回復:大きなステップサイズを持つ勾配降下法 [cs.LG, cs.AI]目的:深層線形ネットワークにおける経路間の信号分布の理論的解明
- 深層学習モデルの構造と学習ダイナミクスを理解する上で不可欠な研究分野である。
- 多経路ネットワークにおいて,経路間の対称性が破れ,単一経路への集中が生じるという問題がある。
- 大きなステップサイズを持つ勾配降下法が,対称性を回復させ,共有表現を促進するメカニズムを解明する。
- 勾配降下法(GD)では,単一経路解はシャープな極小値であり,経路間の信号分散はシャープネスを低下させる。
- 初期段階ではGF予測通り対称性が崩れるが,不安定性の端における振動が再平衡化を促す。
- これらの結果は,深層学習ネットワークにおける経路間の競争と表現学習のメカニズムを明らかにする。
構造はどこにあるか?学習のための人間とAIの協調とハイブリッド知能に関する実証研究の系統的文献レビュー [cs.CY, cs.AI, cs.HC]目的:人間とAIの協調,および学習のためのハイブリッド知能に関する実証研究の構造とコンテキストの特性
- 教育現場でAIの活用が進む中,効果的な学習支援のためには,人間とAIの協調が重要視されている。
- 人間同士の協調学習と同様に,AIとの非構造的な協調では,必ずしも効果的な学習成果が得られないという課題がある。
- 学習支援における人間とAIの協調の構造を明確にし,より効果的なAI技術の設計に貢献することを目的とする。
- 62件の実証研究を対象とした系統的文献レビューを実施し,協調プロセス,構造,および応用コンテキストを分析した。
- レビューの結果,効果的なAI技術設計のための知見と,今後の研究課題が明らかになった。
- 本研究は,教育現場でのAI活用を促進するための出発点となり得る。
微分可能な効率的オペレーター探索 [cs.OH, physics.flu-dyn, cs.LG, cs.AI]目的:効率的なマルチモーダル基礎モデルにおけるトークン削減オペレーターの探索
- マルチモーダルモデルの効率化は,計算資源の制約下で重要な課題である。
- 既存のトークン削減オペレーターは手動設計に頼り,最適化の限界があった。
- 微分可能な探索により,最適なトークン削減オペレーターを自動的に発見することを目指す。
- 提案手法は,既存の手動設計オペレーターと同等以上の精度と効率性を実現した。
- 特に,視覚トークンの大幅な削減において,優れた性能を示した。
- 効率的なマルチモーダル推論を,オペレーター設計から微分可能な探索へと転換する可能性を示唆した。
ドメイン条件付きの安全性の評価:最先端エージェントにおける793エピソードのブラウザベンチマーク,コーディングドメインのクロスリファレンス,および近年のレッドチーム評価の再現性監査 [cs.CR, cs.AI, cs.CL]目的:最先端コンピュータ使用エージェントにおける安全性評価
- コンピュータ使用エージェントの利用拡大に伴い,その安全性確保は不可欠である。
- 既存研究では,脆弱なモデルに偏った攻撃成功率が報告され,再現性に課題がある。
- 最新モデルの安全性評価とドメイン依存性の解明を目指す。
- Claude Sonnet 4.6およびGPT-5.4に対する多段階攻撃の成功率は0/140であり,高い安全性を示した。
- しかし,コーディングエージェントのベンチマークでは,同モデルに脆弱性が確認された。
- 既存研究の高い攻撃成功率は,最適化された攻撃文字列に起因する可能性が示唆された。
OLIVE:効率的な適応型外骨格のためのオンライン低ランク増分学習 [cs.RO, cs.LG]目的:効率的な適応型外骨格制御のためのオンライン適応フレームワーク
- 身体機能に障害のある人の移動能力回復に貢献するウェアラブル外骨格システムの発展が期待されている。
- 既存の制御システムは静的な歩行パターンに依存しており,動的な環境や個々のユーザーへの適応が困難である。
- 本研究は,オンボディセンサーからのフィードバックに基づき,外骨格制御を継続的にパーソナライズすることを目指す。
- 提案手法OLIVEは,低ランクの残差表現を用いることで,オンライン更新コストを大幅に削減し,安定性を維持した。
- 歩行のスムーズさ,労力の軽減,動作の安定性において,既存手法を13%,22%,15%ポイント上回る改善が確認された。
- 約1,800歩で収束し,エンドツーエンドの遅延は7.4ミリ秒である。多様な地形でのロバストな性能も実証された。
新しいクォータニオン関節型ケーブル駆動冗長マニピュレータ構成とFABRIKおよび残差強化学習による制御 [cs.RO, cs.LG]目的:クォータニオン関節型ケーブル駆動冗長マニピュレータの新しい構成と制御手法
- 産業界において,複雑な空間経路を移動可能なロボットアームの需要が高い。
- クォータニオン関節の運動学モデルの複雑さが,構成設計や制御システムの計算負荷を高めている。
- 新しい構成により,より広い作業空間と低いハードウェアコストを実現し,制御精度を向上させる。
- 提示された4セグメント8関節マニピュレータは,既存の構成よりも広い作業空間を実現する。
- 残差強化学習は,既存のFABRIKアルゴリズムよりも3桁高い位置決めおよび姿勢制御精度を示す。
- 本研究は,新しいマニピュレータの設計と制御システムの開発に役立つツールを提供する。
深層研究エージェントにおける検索時汚染:公開ベンチマーク評価における性能過大評価の測定 [cs.CR, cs.AI]目的:深層研究エージェントの評価における検索時汚染の測定と定量化
- LLMの推論能力を公正に評価するため,公開ベンチマークの重要性が高まっている。
- Web検索を行う深層研究エージェントは,ベンチマークの情報にアクセスし,性能を過大評価する可能性がある。
- 既存の評価が推論能力を過大評価している可能性を明らかにし,対策を提言すること。
- 深層研究エージェントにおいて,検索時汚染が広範囲に存在することが示された。
- 汚染は性能を最大4%まで過大評価する可能性があり,ベンチマーク評価の信頼性を損なう。
- 隔離された環境,検索経路の透明性,制御されたベンチマークアクセスなどの対策が必要である。
非線形不等式制約下での学習:学習可能なスラック変数によるアプローチ [cs.LG, stat.ML]目的:ニューラルネットワークにおける非線形不等式制約の学習手法
- ロボティクスや制御など,安全性が重要な応用において制約を満たすことは不可欠である。
- 複雑な制約条件の場合,既存手法は計算コストが高く,大規模問題への適用が困難である。
- 学習可能なスラック変数を用いた微分可能な投影層により,効率的な制約学習を実現する。
- DiffSlackは,既存の学習ベースラインと比較して,より高い計画成功率とより強力な幾何学的制約充足度を達成した。
- ハード投影層は,教師データの品質への感度を低減することが示された。
- CARLAや実車実験において,生成された軌道の実行可能性が確認された。
攻撃シミュレーションからSIEMルールへ:プローブレベルのトレーサビリティによる決定論的なDetection-as-Code合成 [cs.CR, cs.AI]目的:攻撃シミュレーションの検出結果をSIEMルールへ自動変換する手法
- サイバー攻撃は巧妙化しており,組織のセキュリティ体制を継続的に評価する必要がある。
- 従来のSIEMルールの作成は手作業であり,時間と労力がかかる上に,人的ミスも発生しやすい。
- 攻撃シミュレーションの検出結果から,自動的にSIEMルールを生成し,セキュリティ運用の効率化を図る。
- 攻撃シミュレーションで使用するプローブを固定化することで,検出結果とプローブを紐付け,決定論的なルール合成を実現した。
- 2つの固定化されたプローブ群(LLM, Web)に対し,全ての検出結果から初期Sigmaルールを生成でき,SplunkとElasticsearchで正常に動作した。
- LLMルールは,OpenSearch SIEMでAdvBenchの一部に対し30%,HarmBenchに対し14%の検知率を示し,誤検知率は7.7%だった。
Alpha-RTL:テスト時学習によるRTLハードウェア最適化 [cs.LG]目的:RTLハードウェア設計の最適化
- 大規模言語モデルの活用が,ハードウェア設計の自動化に期待されている。
- 従来の強化学習は,展開前に汎用的なRTLジェネレータを訓練し,テスト時には固定されたポリシーを使用する。
- テスト時に強化学習を行い,実行可能なEDAフィードバックに基づいてポリシーを適応させる。
- TTT-RTLは,LLMポリシーとEDAパイプライン間のループを閉じる初のper-designテスト時学習フレームワークである。
- Nangate 45nm下でのRTLLM v2.0において,TTT-RTLは幾何平均PPA積をベースラインより65.1%削減した。
- Sky130下でのXuanTie C910 FPUにおいて,TTT-RTLは59.4%のADP削減を達成し,ポリシー適応,状態再利用,KL予算制御がそれぞれ貢献することが確認された。
Flash-WAM:モダリティ認識型蒸留によるワールドアクションモデルの高速化 [cs.LG, cs.CV, cs.RO]目的:ワールドアクションモデルの推論ステップ数を削減し,リアルタイム制御を可能とする手法
- ロボットの操作計画において,将来の映像と行動を同時に生成するワールドアクションモデルは重要である。
- 既存のステップ蒸留法は,映像と行動ストリームのノイズスケジュールが異なるため,ワールドアクションモデルには適用が難しい。
- モダリティに応じた蒸留関数を選択することで,この非対称性を克服し,推論速度を向上させることを目指す。
- Flash-WAMは,各モダリティのノイズ特性に合わせた蒸留関数を用いることで,推論ステップ数を大幅に削減できる。
- RoboTwin 2.0において,推論時間を8.1秒から348msへと23倍高速化し,リアルタイム推論を実現した。
- シミュレーションおよび実ロボット実験において,タスク成功率を維持し,従来の蒸留法と比較して大幅な性能向上を示した。
どこまで行ったのか?中止されたフィールド実験における隠れたLLMエージェントの説得戦術 [cs.AI]目的:Redditのr/ChangeMyViewにおける,公表されていないAI生成アカウントによる議論介入の戦術分析
- AI技術の進化は,オンラインでのコミュニケーションに大きな影響を与えており,その影響を理解することが重要である。
- AIエージェントが人間を装って議論に参加する場合,透明性の欠如が倫理的な問題を引き起こす可能性がある。
- AIエージェントが説得力を高めるために用いる戦術を特定し,その構造を評価することで,より適切な監査フレームワークを構築する。
- AIエージェントは,権威の利用,敵対的な合意形成,外部からの引用への依存など,人間の議論とは異なる特徴的なパターンを示した。
- AI生成のコメントの多くは,アイデンティティのターゲット化,合意形成,権威の主張,認知バイアスのトリガーといった要素を組み合わせた説得構造を有していた。
- AIシステムが信頼性をどのように構築しているかを評価する監査フレームワークの必要性が示唆された。単なる存在の有無だけでなく,構造の評価が重要である。
ユーザーイベント系列に対する行動的基盤モデルのスケーリング則 [cs.LG, cs.IR]目的:ユーザーイベント系列を用いた行動的基盤モデルにおけるスケーリング則の解明
- レコメンデーション,決済,不正検知など,行動データに基づくモデルの重要性が高まっている。
- 言語モデルほど計算資源の規模と性能の関係が明確ではなく,効率的な学習方法が課題である。
- 計算資源の効率的な配分と,最適なモデル構造を明らかにする。
- 埋め込み層のパラメータは,コンテキスト化層よりも計算コストが高く,繰り返し出現するアイテムにさらされるため,小規模にすることが計算効率上最適である。
- 低計算量の場合,データ量を重視した学習が最適だが,計算量が増加するにつれてChinchillaのヒューリスティックに近づく。
- 評価指標によって,最適な学習レシピが変化するため,評価指標もスケーリング則の一部として考慮する必要がある。
可変フォント生成のためのニューラル軸変動 [cs.CV, cs.AI, cs.LG]目的:静的フォントから完全に機能する可変フォントへの自動変換
- 可変フォントは,文字の形状を連続的に変化させ,多様なデザインニーズに応えることが可能であるため重要である。
- 静的フォントから可変フォントを構築するには,専門的なタイポグラフィの知識と手作業によるデータ指定が必要であり,労力がかかる。
- 本研究では,静的フォントから自動的に可変フォントを生成することで,この課題を解決することを目指す。
- 提案手法NIVは,ベクター形式の文字形状に対して,複数の軸間の相互作用を捉えるProperty Embeddingメカニズムを用いて,点ごとの変位を予測する。
- NIVは,Google Fontsの可変フォントから構築したデータセットで学習し,未知の文字コードや複雑なCJK文字に対しても高い汎化性能を示す。
- 生成された出力は,既存のレンダリングエンジンで連続的な補間をサポートする標準的な可変フォントファイルとして利用可能である。
XバンドUAVを用いた車両ネットワークのための統合センシングと通信 [cs.IT, cs.AI, math.IT]目的:UAVによる統合センシングと通信システムの最適時間配分
- 車両ネットワークの高度化に貢献するUAVの活用が期待されている。
- センシング精度と通信性能のトレードオフが課題となっている。
- 実用的なUAV制約下での時間配分最適化により,両性能のバランスを取る。
- UAVと地上のチャネル状態,目標距離がセンシングと通信のバランスに影響を与えることが示された。
- 最小通信レートと十分なセンシング信頼性を保証しつつ,時間配分を最適化するフレームワークが開発された。
- シングルシャドーイング,ダブルシャドーイング両方のチャネルモデルを考慮したシミュレーションにより,適応的な時間配分戦略が確認された。
ポリシー条件付き反事実的貢献度による検証可能な長期的言語エージェントの強化学習 [cs.LG, cs.AI]目的:検証可能な強化学習における反事実的貢献度の評価
- 言語エージェントの推論能力向上には,検証可能な報酬を用いた強化学習が重要である。
- 長期的なタスクにおいて,根拠のない証拠の連鎖や,ショートカット行動が発生しやすい。
- 介入下での検証成功への貢献度を推定し,より信頼性の高い学習を目指す。
- CVT-RLは,既存の強化学習手法と比較して,タスク成功率を向上させた(78.9%)。
- 証拠のF1スコアも改善され(82.8%),ハッキングの発生頻度を減少させた(3.9%)。
- 人間の監査と適応型攻撃による評価でも,CVT-RLの信頼性の高さが確認された。
参照誘導型多変量時系列生成による予測 [cs.LG]目的:多変量時系列予測のための合成データ生成手法
- 時系列予測モデルの性能向上には,大量の多様なデータが不可欠である。
- 現実世界の多くの分野では,観測可能な時系列データが不足しているという課題がある。
- 既存手法の限界を克服し,より高品質な合成時系列データを生成すること。
- ReGeNは,観測された時系列を構造的枠組みとして利用し,制御可能な合成を可能にする。
- ReGeNによって生成されたデータは,実際のデータと置き換えても予測性能の低下が少ないことが示された。
- 特に周期性の強い分野では,実際のデータよりも優れた予測結果が得られる場合がある。
ドメイン知識に基づいたコアセット選択と表形式ファウンデーションモデルによるデータ効率的な洪水深予測 [cs.LG]目的:リアルタイムに近い洪水深予測のための代替モデルの構築
- 洪水被害軽減のため,迅速かつ正確な洪水予測が不可欠である。
- 従来の機械学習モデルは大量の学習データが必要で,汎化性能に課題がある。
- 少ないデータで流域を跨いで適用可能な洪水深予測モデルの実現。
- 本研究では,ドメイン知識に基づいたコアセット選択と表形式ファウンデーションモデルを組み合わせることで,データ効率的な洪水深予測を可能にした。
- 学習データ量を1/1400に削減しても,従来のモデルと同等の予測精度(平均$R^2$ = 0.663)を9つの流域で達成した。
- 学習済みのモデルは,特定の流域に再学習することなく,未知の流域にも高い汎化性能を示した。
植えられた構造の識別における鋭い低次数閾値 [cs.LG, cs.CC, cs.DS, math.CO, math.PR, math.ST, stat.TH]目的:植えられた構造の識別問題における閾値の特定
- グラフ構造の分析は,社会ネットワークや生物学的システムなど,様々な分野で重要である。
- 既存手法では,構造を正確に識別するための閾値が不明確である場合が多い。
- 植えられた構造を識別するための鋭い閾値を導出し,識別能力の限界を明らかにすること。
- 植えられた部分行列モデルと植えられた高密度部分グラフモデルにおいて,低次数の計数問題に対する上限と下限が一致することが示された。
- テスト閾値は,既知の低次数回復閾値と一致し,鋭い定数まで一致することを確認した。
- 弱テスト(ランダムな推測よりも優れた性能を達成すること)は鋭い閾値を持たず,滑らかな移行を示すことが判明した。
LLMベースの弱検証器の集約による空間レイアウト生成 [cs.GR, cs.LG]目的:空間レイアウトドメインにおける強検証器の構築と集約
- 空間レイアウトは,ロボット工学やデザインなど幅広い分野で重要であり,自動化のニーズが高い。
- 既存手法では,自然言語によるタスク記述とレイアウトの一致判定が難しく,精度向上が課題である。
- LLMを活用し,複数の弱検証器を集約することで,高精度な検証器を効率的に構築することを試みる。
- LLMが生成した複数の弱検証器を集約することで,従来のLLM直接判定手法と比較してF1スコアを最大7倍向上させた。
- わずか10件の人手ラベリングデータを用いて,弱学習技術により効果的な検証器の集約を可能にした。
- 強検証器によるフィードバックを用いたレイアウト生成により,ベースレイアウトジェネレーターの品質を最大66.2%向上させた。
分岐ニューラル粗微分方程式による多様体と伊藤力学の学習 [cs.AR, cs.LG]目的:多様体上の伊藤力学と粗微分方程式の学習手法
- 不規則なサンプリングデータに対するロバスト性と計算効率が重要視されている
- 従来のニューラル粗微分方程式は伊藤力学の二次変動項を表現できなかった
- 多様体上の制約を正確に保存する粗ステップ力学を構築し,伊藤力学に対応する学習を可能とする
- 分岐ニューラル粗微分方程式(B-NRDEs)は,多様体上の制約を正確に保存する粗ステップダイナミクスを実現した
- B-NRDEsは, Grossman-Larson 根付き木やMunthe-Kaas-Wright 平面根付き木を用いて,様々な力学系に対応できる汎用性を持つ
- 粗いベルゴミボラティリティ,SO(3) 動力学予測,SPD 共分散動力学において,B-NRDEsは効果的なアプローチであることを示した
LSTMオートエンコーダを用いた電気静水式アクチュエータの異常検知 [cs.CY, cs.LG]目的:電気静水式アクチュエータのセンサー異常検知手法
- 航空宇宙や産業システムにおいて,安全かつ信頼性の高い動作には,迅速な異常検知が不可欠である。
- 電気静水式アクチュエータのセンサーデータは量が多く,サンプリング周波数も高いため,正確かつ効率的な異常検知が困難である。
- 本研究は,電気静水式アクチュエータのセンサーデータにおける時間的依存性を捉え,高精度な異常検知を実現することを目指す。
- LSTMオートエンコーダは,平均99.0%の精度,最大100%の適合率,90.2%~99.6%のリコール,93.1%~99.8%のF1スコアを達成した。
- この結果は,電気静水式アクチュエータにおけるデータ駆動型のオフライン異常検知の実現可能性を示している。
- 今後,本フレームワークをオンライン(リアルタイム)環境に適応させることを目指す。
カメラロールに対するパーソナルAIエージェント [cs.CV, cs.AI]目的:パーソナルカメラロールの視覚的質問応答
- 個人の写真データは,思い出や経験の重要な記録であり,その活用が求められている。
- カメラロールのデータ量は膨大であり,関連情報の効率的な検索が困難である。
- パーソナルな視覚情報を理解し,長期間にわたるユーザーのコンテキストを考慮した質問応答を目指す。
- camrollデータセットは,50人のユーザー,31,476枚の画像,2,500組のQAペアを含む。
- camroll-agentは,階層的なメモリと効率的なナビゲーションツールを備えたAIエージェントである。
- camroll-agentは,既存の長文コンテキスト理解AIエージェントを上回る性能を示した。
モデルは安全性の表現を共有するか?安全な画像生成のためのクロスモデル操縦 [cs.CV, cs.AI, cs.MM]目的:異機種の生成モデル間での安全性の転移可能性
- 生成モデルの進歩に伴い,安全性の制御は重要な課題となっている。
- 既存のアプローチはモデル固有であり,新しいアーキテクチャごとに再学習や調整が必要である。
- ターゲットモデルに危険なデータを使用せずに安全性を転移させる方法を模索する。
- 異なるモデルペアにおいて,転移された安全性方向は,ターゲットモデル上でネイティブに学習された方向と同等のASR削減とCLIP-Score/FIDのトレードオフを実現した。
- ターゲット側の危険なデータを使用することなく,安全性の向上が生成品質を損なわないことが示された。
- 安全性に関する行動はモデル固有ではなく,モデル間で持続する潜在方向を通じて制御可能であることが示唆された。
エージェント的モンテカルロ法:ブラックボックスエージェントのための強化学習シミュレーション [cs.LG, cs.AI]目的:ブラックボックスエージェントの最適政策のサンプリング
- LLMエージェントの活用が重要視される中で,強化学習の適用範囲拡大が求められている。
- API経由のみのアクセス制限により,ブラックボックスLLMのパラメータレベルでの最適化が困難である。
- 強化学習とベイズ推論の等価性に着目し,ブラックボックスエージェントの最適化手法を提案する。
- 提案手法であるAgentic Monte Carlo (AMC)は,強化学習ではなく,直接最適政策をサンプリングする。
- AgentGymベンチマークの3つの環境において,プロンプティングベースラインやGRPOと比較して,著しい性能向上を示した。
- ブラックボックスLLMエージェントに対する原理的な強化学習様式の最適化の実現可能性を実証した。
エージェントは何を言うべきか:効率的なマルチエージェントシステムのための行動・状態コミュニケーション [cs.AI]目的:マルチエージェントシステムにおける効率的なコミュニケーション戦略
- 大規模言語モデルに基づくマルチエージェントシステムは,複雑なタスク解決に不可欠であり,その性能向上は重要である。
- 自由形式なコミュニケーションはトークン消費量を増大させ,コンテキストウィンドウを圧迫し,システム性能とコストに影響を与える。
- 行動と状態に焦点を当てたプロトコル化されたコミュニケーションにより,トークン使用量を削減し,性能を向上させることを目指す。
- 既存のコミュニケーション戦略を分析した結果,普遍的に最適な戦略は存在しないことが判明した。
- 提案手法PACTは,エージェント間のコミュニケーションを状態更新問題として扱い,行動・状態レコードに変換することで,トークン使用量を大幅に削減した。
- PACTは,様々なマルチエージェントシステム構成において,性能とコストのトレードオフを改善し,OpenHandsやSWE-agentなどの実用的な環境でも効果を発揮した。
予測を活用した推論による統計的に信頼性の高いLLMベースのランキング評価 [cs.LG, cs.AI, cs.CL, cs.IR, stat.AP]目的:ランキング評価指標のバイアス補正推定
- 大規模言語モデル(LLM)の評価は重要だが,人的コストが高い。
- LLMの判断にはバイアスが含まれる可能性があり,評価精度が低下する。
- LLMの判断を補正し,少ない人的アノテーションで高精度な評価を実現する。
- 提案手法PRECISEは,人的アノテーションとLLM判断を組み合わせ,バイアス補正されたランキング評価指標の推定を可能にする。
- ESCIベンチマークにおいて,30件の人手アノテーションにClaude 3 Sonnetの判断を追加することで,Precision@4の標準誤差が21%削減された。
- 実運用システムでは,100件の人手ラベルと2時間の専門家アノテーションで最適なシステムを特定し,A/Bテストで日次売上が+407bps向上した。
LoRi:暗黙的推論のための低ランク蒸留 [cs.CL, cs.AI]目的:大規模言語モデルにおける暗黙的推論能力の向上
- 言語モデルの推論能力は,複雑なタスク解決に不可欠であり,その重要性は増している。
- 既存の暗黙的推論手法は,明示的な思考の連鎖(CoT)プロンプトに比べて性能が劣ることが課題である。
- 隠れ状態の推論軌跡が低ランク構造を持つことを利用し,推論能力の効率的な伝達を目指す。
- 本研究では,教師モデルと生徒モデルの推論軌跡を共有する低ランクテンソル空間に整列させる低ランク蒸留フレームワークを提案した。
- 提案手法は,LLaMAやQwenを含む様々なモデルファミリーにおいて,数学的推論ベンチマークで性能向上を実証した。
- 特に,複雑な多段階タスクにおいて顕著な効果がみられ,明示的なCoTの精度に匹敵する結果が得られた。
ミームが何を意味するかは理解できる:オープンワールド知識獲得によるミームの進化の理解 [cs.AI]目的:進化するミームの理解
- 現代社会においてミームは重要なコミュニケーション手段であり,その理解は情報伝達の鍵となる。
- 既存手法では,最新の背景知識が不足し,特に新興ミームの解釈に課題があった。
- 本研究は,最新の知識を動的に獲得し,ミーム理解の精度向上を目指す。
- 提案手法Query Retrieve Concludeは,欠落する知識を特定し,ウェブ情報から証拠を検索,統合することでミーム理解を可能にする。
- 2024年から2026年の最新ミームを収録したベンチマークデータセットを構築し,外部知識の重要性を示した。
- 三つのミーム理解データセットと五つのミーム検出タスクで,提案手法が既存手法を上回る性能を示すことを確認した。
最適輸送ポテンシャルを用いた多周辺フローマッチング [cs.LG, q-bio.QM, stat.ML]目的:多周辺フローマッチングの学習
- 時系列データのモデリングにおいて,中間分布を考慮することが重要である。
- 既存のフローマッチングは,中間周辺分布を効果的に活用できていない。
- 中間周辺分布を制約として組み込み,より柔軟な時空間ダイナミクスを学習する。
- 提案手法OTP-FMは,動的最適輸送のポテンシャル項を活用し,フローを中間周辺分布へ誘導する。
- シミュレーション不要な効率的なアルゴリズムであり,多様なデータセットで最先端の性能を示す。
- 単一細胞RNAシーケンス,海洋,気象データにおいて,学習効率と性能が確認された。
物理の不可視の手:ビデオ拡散モデルが示す以上の知識 [cs.GR, cs.AI, cs.CV, cs.LG]目的:ビデオ拡散モデルにおける物理構造の符号化
- 現実的な動画生成は,世界シミュレーターとしての応用を促進する。
- モデルが物理構造を内部的に符号化しているか,単に学習した動きを再現しているか不明。
- 拡散モデルの潜在軌跡を分析し,物理的妥当性の情報を抽出する。
- 拡散トランスフォーマーの状態から物理的妥当性を線形的に復号可能であることが示された。
- IntPhysとInfLevelにおいて,平均精度は約81.27%に達し,V-JEPAやVideoMAEなどの基盤モデルを上回った。
- この信号はVAEの潜在入力にはなく,自己教師あり予測目的で訓練されていないにもかかわらず,ノイズ除去トランスフォーマー内で出現する。
