arXiv雑要約
AI - 2026/03/18 公開
エージェントRosettaによるタンパク質設計:特殊な科学エージェントの事例研究 [cs.CL, cs.CL, cs.CY, cs.SI, cs.RO, cs.AI]目的:タンパク質設計におけるLLMエージェントの活用
- タンパク質設計は,創薬やバイオテクノロジーにおいて重要な役割を担う分野である。
- 既存の機械学習手法は,標準的なアミノ酸と限定的な目的にしか対応できていない。
- 非標準アミノ酸や複雑な形状の設計を可能にする汎用的なツールの開発が求められている。
- Agent Rosettaは,LLMとRosettaを組み合わせることで,複雑なタンパク質設計タスクを自動的に実行できる。
- 標準アミノ酸を用いた設計では,専門モデルや熟練者と同等の性能を発揮する。
- 非標準アミノ酸を用いた設計では,機械学習的手法が苦手とする分野で高い性能を達成した。
固定語彙から解放されたLLMのファミリー [cs.CL, cs.AI, cs.LG]目的:静的語彙に制約されないLLMの開発
- 自然言語処理において,LLMは不可欠であり,その性能はトークナイザーの質に大きく依存する。
- 従来のトークナイザーは語彙サイズが固定されており,新しいドメインや言語への適応が困難である。
- 本研究は,動的な語彙処理を可能にし,LLMの汎用性とロバスト性を向上させることを目指す。
- 階層型自己回帰Transformer(HAT)アーキテクチャに基づくモデルファミリーを提案し,事前学習済みのLlamaモデルをHATアーキテクチャに変換することに成功した。
- HATアーキテクチャは,テキスト圧縮を改善し,単語内のバリエーションに対するロバスト性を高めることが示された。
- 英語とドイツ語における事前学習,教師ありファインチューニング,直接選好最適化により,オリジナルのLlama 3.1を上回る性能が確認された。
MobileLLM-Flash:産業規模に向けた遅延を考慮したオンデバイスLLM設計 [cs.LG, cs.AI]目的:効率的なリソース制約のあるハードウェアへの展開に最適化されたオンデバイス大規模言語モデルの設計
- リアルタイムAI体験の実現には,モバイルデバイス上でのLLMの利用が不可欠である。
- モバイル環境でのLLM利用では,ハードウェア互換性と応答速度が課題となる。
- モバイルデバイス上でのLLMの効率的な動作と高性能の両立を目指す。
- MobileLLM-Flashは,350M,650M,1.4Bの3つのモデルサイズで提供され,最大8kのコンテキスト長をサポートする。
- モバイルCPUにおいて,従来のモデルと比較して,それぞれ最大1.8倍,1.6倍の高速化を実現した。
- パレート最適化設計の分析から,オンデバイスLLM設計における指針が得られた。
ExpertGen:不完全な行動事前知識からのスケーラブルなシミュレーションから現実世界への専門家ポリシー学習 [cs.RO, cs.AI]目的:シミュレーションにおける専門家ポリシー学習の自動化
- ロボティクスの汎化性能向上には大量の高品質データが必要不可欠である。
- 現実世界での高品質なロボットデータの取得は,コストと時間がかかる。
- シミュレーションで学習したポリシーを現実世界に適用する際のギャップを埋める。
- ExpertGenは,拡散ポリシーをベースに,わずかな報酬で高成功率な専門家ポリシーを生成することに成功した。
- 産業用組み立てタスクでは90.5%の全体的な成功率,長期的操作タスクでは85%の成功率を達成し,既存手法を上回った。
- 学習されたポリシーは,多様な初期設定や故障状態においてもロバストであり,現実のロボットハードウェアに展開可能であることを示した。
GASP:コーディングLLMのための誘導型非対称自己対戦 [cs.LG]目的:コーディングLLMの能力向上
- LLMの性能向上には,大規模な学習データが不可欠であり,データ効率が重要である。
- 既存の自己対戦法では,学習に有用でない難問も生成され,効率が低い。
- 実データに基づいた難問を提示し,段階的な難易度調整によって学習効率を高める。
- GASPは,誘導型自己対戦により,LiveCodeBench (LCB)におけるpass@20スコアを2.5%改善した。
- 教師モデルが生成するカリキュラムによって,ベースラインモデルが解決できない難問を解決することに成功した。
- GASPは,難易度調整によって,モデルが目標に近づくことを支援する。
現代最適化理論によるハイパーパラメータのスケーリング則の導出 [cs.LG]目的:ハイパーパラメータのスケーリング則
- 大規模モデルの学習において,ハイパーパラメータの適切な設定は性能に大きく影響する。
- モデルサイズ,バッチサイズ,学習期間など間でのハイパーパラメータの転移は経験則に頼る部分が多い。
- LMOに基づく収束性の理論的枠組みを用いて,ハイパーパラメータのスケーリング則を導き出す。
- 学習率,モメンタム,バッチサイズのスケーリング則が,反復回数またはトークン予算の関数として導出された。
- 既存研究の知見を統一的かつ原理的に説明できることが示された。
- モメンタムとバッチサイズのスケーリングの相互作用が示唆され,最適なスケーリング戦略の検討が必要である。
パンデミック時の病院収容能力最適化:戦略的患者転院のための二重構成フレームワーク [cs.AI]目的:パンデミック時における病院収容能力最適化のための戦略的患者転院フレームワーク
- 感染症のパンデミックは医療システムに深刻な負担をかけ,医療資源の最適化が重要である。
- 病院の収容能力不足は,適切な医療提供を妨げ,患者の健康を脅かす深刻な問題である。
- 本研究は,患者転院戦略を通じて,病院収容能力の最適化を図り,医療崩壊を防止することを目指す。
- 本研究では,患者到着率を予測する時系列予測モデルと,患者転院戦略の効果を評価するシミュレーションモデルという二重構成フレームワークを提案する。
- シミュレーションモデルは,ベッド数,スタッフ能力,輸送,患者の状態などを考慮し,最適な患者配置を評価する。
- 提案するフレームワークは,病院管理者に対して,需要予測,転院戦略のシミュレーション,最適なポリシーの実施を支援する意思決定ツールを提供する。
MoLoRA:トークンごとのアダプタールーティングによる合成的専門化 [cs.CL, cs.AI]目的:トークンごとのアダプタールーティングによる合成的専門化
- 大規模言語モデルの応用拡大に伴い,特定領域への適応が重要となる。
- 従来のシーケンス全体へのルーティングでは,複数の領域にまたがる要求への対応が困難。
- トークン単位でのルーティングにより,多様な領域への柔軟な対応を目指す。
- MoLoRAは,複数の専門化アダプターを組み合わせて,トークンごとに最適なアダプターを選択する。
- Qwen3-1.7Bが,MoLoRAによってQwen3-8Bを超える性能を4つの推論ベンチマークで実現した。
- 学習済みのLoRAモジュールを組み合わせて利用することで,再学習なしに機能を拡張可能。
マルチエージェント憲法学習 [cs.AI, cs.CL, cs.LG, cs.MA]目的:憲法学習の最適化
- 大規模言語モデルの制御は重要であり,その安全性と倫理性を確保する必要がある。
- 既存の手法では,学習に必要なラベルデータが膨大で,プロンプトの構造が不明瞭になりがちである。
- 構造化されたプロンプトを用いて,少ないデータで効果的な憲法学習を実現すること。
- マルチエージェント憲法学習(MAC)は,ルール更新の承認,編集,拒否を行う専門のエージェントネットワークを用いてプロンプトを最適化する。
- MACは,個人識別情報(PII)のタグ付けにおいて,最新のプロンプト最適化手法を50%以上上回る性能を示す。
- MACは,パラメータ更新なしで,教師ありファインチューニングやGRPOと同等の性能を達成し,解釈可能なルールセットを生成する。
AIクエリ近似によるAI性能分析:コストと遅延を100分の1に削減 [cs.CL, cs.DB, cs.AI]目的:AIクエリ近似によるコストと遅延削減の評価
- 構造化データと非構造化データを組み合わせた複雑なクエリに対し,LLM活用が不可欠となっている。
- LLMを用いたAIクエリは強力だが,多数実行するとコストが非常に高くなるという課題がある。
- 軽量なプロキシモデルを活用し,AIクエリのコストと遅延を大幅に削減することを目指す。
- 提案手法により,セマンティックフィルタ(AI.IF)演算子のコストと遅延が100倍以上削減された。
- セマンティックランキング(AI.RANK)においても,コストと性能の向上が確認された。
- プロキシモデルは,精度を維持し,場合によっては向上させながら,大幅なコストと遅延削減を実現した。
安全性は非構成的である:能力に基づくAIシステムの形式的枠組み [cs.AI]目的:能力依存性における安全性の非構成性の形式的証明
- AIの安全性の確保は,社会への実装において不可欠である。
- システムの複雑化に伴い,安全性評価が困難になっている。
- 複数のエージェントが連携した場合の安全性問題を解決する。
- 安全性は,個々の要素が安全であっても,組み合わせによって危険になりうる。
- 特に,能力間の論理積による依存関係が存在する場合に,この現象が顕著となる。
- 本研究は,この非構成性を示す初の形式的な証明を提供する。
PETScにおけるAI生成科学コードの評価フレームワーク [cs.AI]目的:AI生成科学コードの評価手法
- 高性能計算(HPC)において,科学計算ライブラリの利用は不可欠であり,コード品質が計算効率に直結する。
- 従来のテストケースマッチングによる評価では,ソルバー選択やAPI準拠など,HPC特有の重要な要素が評価できない。
- AI生成コードのライブラリ固有の規約遵守状況を,包括的に評価できるフレームワークを構築する。
- 本研究では,エージェント間の評価を通じてコードを評価するpetscagent-benchフレームワークを開発した。
- 実験の結果,現在のAIモデルは可読性の高いコードを生成するものの,ライブラリ固有の規約遵守に課題があることが示された。
- 本フレームワークは,AIモデルのソースコードにアクセスせずに,客観的な評価を可能にする。
ワークフロー自動化から能力閉包へ:安全かつ収益を意識した顧客サービスAIのための形式的フレームワーク [cs.HC, cs.AI]目的:顧客サービスAIの安全確保と収益向上
- 顧客対応の自動化は重要であり,効率化と顧客満足度向上に貢献する。
- 複数のAIエージェント連携時,個別に安全なエージェント同士が結合することで,予期せぬ危険な状態に陥る可能性がある。
- AIエージェント連携における安全性のギャップを埋め,安全かつ収益性の高い顧客サービスAIを実現すること。
- 既存のプラットフォームでは,個別に安全なエージェントの組み合わせによる危険な状態に対処できない。
- 本研究では,形式的なフレームワークを提案し,AIエージェントの連携における安全性を保証する。
- 提案フレームワークは,収益も考慮した安全な顧客サービスAIの実現を可能にする。
音声LLMにおけるパラ言語的理解と生成の整合:マルチタスク強化学習によるアプローチ [cs.CL, cs.AI]目的:音声LLMにおけるパラ言語的理解と生成の整合性向上
- 音声コミュニケーションにおいて,感情や意図を伝える上でパラ言語的要素は重要である。
- パラ言語的情報の学習データが不足しており,アノテーションも困難であるという課題がある。
- マルチタスク強化学習を通じて,パラ言語的推論能力を備えた音声LLMを開発することを目指す。
- 提案手法は,Expresso,IEMOCAP,RAVDESSのデータセットにおいて,既存モデル(Gemini-2.5-Pro,GPT-4o-audio)を8-12%上回るパラ言語的理解度を実現した。
- 感情推論を明示的に促すChain-of-Thoughtプロンプティングとマルチタスク強化学習が有効であることが示された。
- 感情的に知的な音声LLMを構築するためには,パラ言語的推論のモデル化が不可欠である。
非決定的な環境における決定論:時間的確率性を持つ電荷保存型連続時間ニューロモルフィックシステムにおける決定的な出力 [eess.SY, cs.SY, cs.LG]目的:非同期ニューロモルフィックシステムにおける決定的な計算結果の達成
- ニューロモルフィックシステムは,脳の効率的な情報処理を模倣する次世代コンピューティング技術として重要である。
- 連続時間ハードウェアに内在する時間的確率性のため,非同期ニューロモルフィックシステムで決定的な計算結果を得ることが困難である。
- 電荷保存則と最小限のニューロンレベル制約を組み合わせることで,時間的確率性に依存しない決定的な出力を実現する。
- 電荷保存型SNNは,集積入力電荷のみに依存する終端状態を持つため,時間的確率性に対して固有の累積出力不変性を示すことが証明された。
- 非循環ネットワークにおいてはスパイクタイミングに対する厳密な不変性が確立され,再帰的結合は時間的感受性を導入する可能性があることが示された。
- 電荷保存型SNNと量子化された人工ニューラルネットワークとの間の正確な表現上の対応関係が確立され,近似誤差なしに静的深層学習とイベント駆動型ダイナミクス間のギャップが埋められた。
W2T:LoRAの重みは既にその能力を知っている [cs.LG]目的:LoRA重みの情報からのモデル挙動の予測
- 大規模言語モデルの効率的な適応が重要視されており,LoRAはその有力な手法の一つである。
- LoRA重みの解釈が難しく,その性能を予測したり,適切なLoRAを選択したりすることが課題となっている。
- 重みの分解の曖昧性を取り除き,LoRA重みから直接モデルの振る舞いを予測する手法を確立する。
- 提案手法W2Tは,QR分解とSVDを用いてLoRA重みを一意な形式に変換することで,分解の曖昧性を解消する。
- 言語と画像両方のLoRAコレクションにおいて,属性分類,性能予測,アダプタ検索で高い性能を示す。
- LoRA重みは分解の曖昧性が解消されれば,モデルの挙動を信頼性高く示唆する情報を含んでいることが示された。
視線と手ポインタにおけるミダス・タッチ:XRインターフェースに向けたモダリティ固有の失敗モードと示唆 [cs.HC, cs.AI, cs.GR]目的:XR関連のポインティングパフォーマンス向上と,静的な単一モダリティインタラクションと比較した際のワークロード軽減
- XR技術は没入感の高い体験を提供するが,操作方法の負担軽減が課題となっている。
- 視線入力は精度に限界があり,意図しない選択を引き起こす「ミダス・タッチ」問題が存在する。
- モダリティ固有の適応的介入により,XRインターフェースのユーザビリティ改善を目指す。
- 手ポインタの方が,視線入力よりもスループットが高く,エラー率が低く,NASA-TLXワークロードも軽かった。
- 視線入力エラーは主に「滑り」が,手ポインタエラーは主に「見逃し」が占めており,ミダス・タッチの説明と一致した。
- 適応的介入である視線クラッタ減少は,タイムアウトをわずかに減少させたが,スリップの削減には至らなかった。
人工知能のための選択的記憶:階層的アーカイブによる書き込み時ゲーティング [eess.SY, cs.MA, cs.SY, cs.AI]目的:知識獲得時の選択的フィルタリング機構の開発
- 大規模言語モデルの性能向上には,適切な知識の選択と保存が不可欠である。
- 従来の知識拡張生成手法はノイズに弱く,精度が低下しやすいという課題がある。
- 本研究は,書き込み時に知識の重要度に基づいてフィルタリングするゲーティング機構を提案し,ノイズの影響を軽減する。
- 書き込み時ゲーティングは,質の低い情報を遮断することで,ノイズの多い環境下でも高い精度を維持できる。
- 特に,ノイズの比率が高い状況下では,従来の読み込み時フィルタリング手法よりも著しい性能向上を示す。
- 提案手法は,Wikipedia,薬理データ,arXiv論文といった多様なデータセットで有効性が確認された。
主にテキスト,賢いビジュアル:大規模視覚言語モデルのための非対称テキスト-ビジュアルプルーニング [cs.MM, cs.CL, cs.SC, cs.CL, cs.CY, cs.CV, cs.CL, cs.LG]目的:大規模視覚言語モデルの軽量化
- 近年,視覚情報とテキスト情報を統合する大規模モデルが重要性を増している。
- モデルのサイズが大きいことが計算コストやメモリ使用量の増加を招いている。
- テキストとビジュアル情報の特性の違いを考慮したプルーニング手法が求められている。
- テキストパスウェイはテキストトークンで,ビジュアルパスウェイは高い冗長性を持つことが示された。
- ATV-Pruningは,テキストとビジュアルの重要なトークンを選択することで,より正確なプルーニングを実現する。
- 標準的なマルチモーダルベンチマークにおいて,ATV-Pruningが最先端手法を上回る性能を示すことが確認された。
RadAnnotate:効率的かつ信頼性の高い放射線科レポート注釈のための大規模言語モデル [cs.CL, cs.AI, cs.LG]目的:放射線科レポートの注釈の効率化と信頼性向上
- 臨床自然言語処理において,放射線科レポートの注釈は不可欠であり,医療の質向上に貢献する。
- 手動による注釈は時間とコストがかかり,大規模なデータセットの構築が困難である。
- 大規模言語モデルを活用し,専門家の負担を軽減することで注釈作業を効率化すること。
- RadAnnotateは,検索拡張された合成レポートと信頼度に基づく選択的自動化により,専門家の注釈作業を削減する。
- 合成レポートのみのモデルでも,金標準データで訓練されたモデルと遜色なく,特に低リソース環境下で効果が認められた。
- エンティティ固有の信頼度閾値を学習することで,レポートの55-90%を0.86-0.92のエンティティマッチスコアで自動注釈できる。
大規模コードベースにおけるエージェント的最適化の評価 [cs.HC, cs.CY, cs.SE, cs.AI, cs.CL]目的:大規模コードベースに対するエージェント的最適化の評価
- LLMを活用したコード生成が発展し,大規模なコードベース全体の最適化が求められている
- 既存のコードベンチマークは,現実的な制約下での全体的な最適化行動を評価するには不十分である
- LLMエージェントによる現実的な制約下でのコードベース最適化能力を包括的に評価すること
- 本研究では,科学計算用Pythonリポジトリから抽出された957個の性能ボトルネックを含む「FormulaCode」という新しいベンチマークを提案した。
- FormulaCodeは,各タスクに対して専門家が作成したパッチと,平均264.6個のコミュニティが維持する性能ワークロードを伴う。
- 評価の結果,大規模かつ多目的最適化は,最先端のLLMエージェントにとって依然として大きな課題であることが示された。
スムーズな較正の重要性 [cs.LG, cs.DS]目的:スムーズな較正の理論的基礎の一般化と拡張
- 予測モデルの信頼性評価において,正確な確率予測が不可欠であるため。
- 従来の較正指標では,ロバストな評価が困難であり,過剰に自信のある予測が生じやすい。
- スムーズな較正に基づく新たな普遍予測保証を提示し,モデルの汎化性能向上を目指す。
- スムーズな較正予測子に対する普遍予測保証を,全ての有界な適切な損失関数に対して確立した。
- 予測子にノイズを加えることで,ベンチマーク予測子との競争において,スムーズな較正誤差とアースムーバー距離が重要な役割を果たすことが示された。
- スムーズな較正を,予測とラベルの結合分布へのアースムーバー距離を用いて特徴づける新たな表現を提示し,サンプル複雑性に関する限界を示した。
FlatLands: 単一の主観視点からのフロアマップ生成補完 [cs.CV, cs.AI, cs.RO, eess.IV]目的:単一視点からのフロアマップ生成補完
- 屋内ナビゲーション等の応用には,周囲の正確な移動可能マップが不可欠である。
- 単一画像では捉えられる床領域が限られており,完全なマップ生成が課題である。
- 単一画像から完全なフロアマップを生成し,不確実性を考慮した屋内マッピングを目指す。
- FlatLandsデータセットは,既存の6つのデータセットから27万件以上の屋内シーンを含む。
- 多様な評価プロトコルを用いて,様々なモデル(非学習型,決定論的,生成型)を比較検証した。
- RGB画像からフロアマップを直接生成するエンドツーエンドのパイプラインを構築した。
大規模言語モデルにおける道徳的推論経路の理解:探査に基づく説明可能性に向けて [cs.CL, cs.AI]目的:大規模言語モデルにおける道徳的推論経路
- AIの倫理的判断は社会実装において不可欠であり,その透明性と信頼性が重要である。
- LLMの道徳的推論プロセスはブラックボックスであり,どのように倫理的枠組みを適用しているか不明確である。
- LLMの道徳的推論経路を明らかにし,説明可能性を高めることを目指す。
- 道徳的推論においては,複数の倫理的枠組みを順次適用する傾向が確認された(ステップの55.4-57.7%)。
- 推論経路が不安定な場合,誘導攻撃に対する脆弱性が高まることが示された(1.29倍)。
- 線形プローブにより,倫理的枠組みのエンコーディングがモデル固有の層に局在することが判明し,MRC指標とLLMのコヒーレンス評価に高い相関が認められた(r=0.715)。
IRAM-Omega-Q:人工エージェントにおける不確実性制御のための計算アーキテクチャ [cs.HC, cs.NI, cs.AI]目的:人工エージェントにおける不確実性制御のアーキテクチャ
- 人工知能の分野では,エージェントの安定性や制御メカニズムの理解が重要である。
- エージェントの内部制御,不確実性の管理,および確率的変動に対する安定性が不透明であるという課題がある。
- 不確実性制御を具体的なアーキテクチャ原則として確立し,安定性や制御効果を分析すること。
- IRAM-Omega-Qは,量子様状態表現を用いた閉ループ制御による内部制御をモデル化する。
- 密度行列を用いてエントロピー,純度,コヒーレンスなどの指標を計算し,不確実性を直接的に制御する。
- 制御更新の順序の違いが安定性に影響を与えることが,シミュレーションによって明らかになった。
解釈可能なコンテキスト手法:エージェント的アーキテクチャとしてのフォルダー構造 [cs.AI, cs.HC]目的:AIエージェントのコンテキスト構造化手法
- AIエージェントの活用は,多様なタスクの自動化を可能にする重要な技術分野である。
- 複雑なワークフローでは,コンテキスト管理やエラー処理のオーバーヘッドが課題となる。
- ファイルシステム構造を用いて,よりシンプルで効率的なコンテキスト管理を実現すること。
- 本研究では,Model Workspace Protocol (MWP)を提案し,フォルダー構造によってAIエージェントのワークフローを制御する。
- MWPは,従来のマルチエージェントフレームワークの複雑さを回避し,単一エージェントによる逐次処理に特化している。
- Unixパイプライン設計やリテラートプログラミングの概念を応用し,AIエージェントへのコンテキスト提供を効率化する。
最新のTransformerアーキテクチャにおける残差ストリームの二重性 [cs.LG, cs.AI, cs.CL]目的:Transformerにおける残差経路の役割の理解
- Transformerは自然言語処理において重要な役割を果たしており,その性能向上は不可欠である。
- 残差接続の働きは十分に解明されておらず,設計空間の整理が求められていた。
- 残差ストリームの二重性を明らかにし,効率的なTransformer設計の指針を示す。
- 残差経路は単なる最適化手段ではなく,モデルの表現能力の一部を担っていることが示された。
- 層インデックスを順序変数として扱うことで,残差ストリームと因果的な短距離スライディングウィンドウアテンションの演算上の二重性が明らかになった。
- 大規模な自己回帰モデルでは,シーケンス軸のShortSWAがハードウェア効率に優れ,残差接続の変更にはDDLが適していると提言される。
批評家なし強化学習による協調的時系列特徴生成:ユーザ間センサベース活動認識 [cs.RO, cs.LG, cs.AI, cs.CV]目的:ユーザ間変動に対応した活動認識のための,汎化可能な時系列特徴抽出
- ウェアラブルセンサを用いた活動認識は,健康管理や運動分析などに応用が期待されている重要な技術である。
- ユーザの生理的特性や動作習慣の違いにより,異なるユーザ間での活動認識精度にばらつきが生じる点が課題である。
- 強化学習を用いて,ユーザに依存しない汎化性能の高い特徴量を自動的に生成し,活動認識精度を向上させる。
- 提案手法CTFGは,Transformerベースの生成モデルを用いて時系列特徴を協調的に生成し,ユーザ間変動の影響を低減する。
- 批評家なし強化学習により,安定した学習と高い汎化性能を実現し,既存手法を上回る活動認識精度を達成した。
- DSADSとPAMAP2のベンチマークにおいて,最先端のユーザ間精度(88.53%と75.22%)を示し,学習の安定性も確認された。
VLAの言語一般化能力の向上:合成指示拡張によるOpenVLAのファインチューニング [cs.AI]目的:VLAの言語一般化能力の向上
- 具現化されたAIにおいて,ロボットは多様な環境に適応する必要があり,その能力が重要である。
- 大規模な事前学習を行うOpenVLA等のモデルであっても,全く新しい環境へのゼロショット性能には限界がある。
- 合成された指示データを用いてOpenVLAをファインチューニングし,言語空間を豊かにすることで,この課題を解決する。
- LoRAを用いたファインチューニングにより,OpenVLAの頑健性が向上した。
- 特に,Bridge Dataset V2における性能向上から,専門的なデータセットにおける言語空間の拡充が重要であることが示唆される。
- LLMを用いて多様な指示文を生成することで,複雑な自然言語とロボットの行動のギャップを埋めることに貢献する。
POaaS:オンデバイス小規模LLMの精度向上と幻覚抑制のための最小編集プロンプト最適化サービス [cs.AI]目的:オンデバイス小規模LLMにおける精度と事実性の向上
- モバイル機器等でのLLM利用拡大に伴い,その性能向上が重要視されている。
- ユーザープロンプトの不備が,LLMの誤りや誤情報の生成を引き起こす可能性がある。
- 限られた計算資源下で,プロンプトを効率的に改善し,精度と信頼性を高める。
- POaaSは,クリーンナー,言い換え,ファクトアダーといった軽量な専門家を活用し,プロンプトを最適化する。
- Llama-3.2-3B-Instruct及びLlama-3.1-8B-Instructを用いた実験で,POaaSは既存のAPO手法と比較して精度と事実性を向上させた。
- 特に,トークン削除や混合といったノイズ条件下で,最大7.4%の精度回復効果が確認された。
人間とLLMの対話の首尾一貫性を高める文脈アライメント前処理器 [cs.AI]目的:人間とLLMの対話における文脈のずれを解消し,対話の首尾一貫性を高めるための前処理システムの開発
- LLMは流暢な文章生成に成功しているが,長期的かつ動的な対話における文脈の維持が課題である。
- 対話中,利用者が前提を省略したり,参照を簡略化したり,文脈を急に変化させたりすると,LLMは意図を理解できなくなる。
- 利用者の意図を正確に捉え,より自然で協調的な対話を可能にするための技術的解決策を提供する。
- 提案するC.A.P.は,ユーザー入力と応答生成の間に位置する前処理モジュールとして機能し,文脈の拡張,時間加重コンテキスト検索,アライメント検証を行う。
- C.A.P.は,会話のずれを検知した場合に構造化された明確化プロトコルを開始し,ユーザーとシステムが会話を再調整することを支援する。
- 本研究は,C.A.P.が単なる技術的改良ではなく,人間とコンピュータの対話を一方通行の命令実行から双方向の協力関係へと移行させる一歩であると主張する。
階層型強化学習における内在的スキル進化によるエージェントの推論 [cs.RO, cs.AI]目的:言語モデルにおける数学的推論能力の向上
- 言語モデルの数学的推論能力向上は,その応用範囲を広げる上で不可欠である。
- 従来の強化学習は,個々の問題に焦点を当て,学習中に獲得された再利用可能な戦略を活用できていない。
- ARISEは,戦略の再利用と推論能力の進化を促し,この課題を解決することを目指す。
- ARISEは,数学の問題解決において,既存のGRPO系列アルゴリズムやメモリ拡張ベースラインを安定的に上回る性能を示した。
- 特に,分布外タスクにおいて顕著な性能向上が認められた。
- スキルライブラリの質と推論性能は,学習を通して相乗的に向上することが確認された。
大規模報酬モデル:視覚言語モデルによるロボット報酬の汎化可能なオンライン生成 [cs.RO, cs.AI]目的:ロボットの報酬関数の汎化可能性
- ロボットの器用さを向上させる強化学習において,汎用的な報酬関数の設計が課題となっている。
- 手動での報酬設計は時間と労力がかかり,多様な環境への対応が難しい。
- 視覚言語モデルを用いて,ロボット学習における報酬生成を自動化し,効率的なオンライン学習を実現する。
- 提案手法は,既存の事前学習済み視覚言語モデルをオンライン報酬生成器として活用する。
- ベースポリシー(模倣学習による)をわずか30回の強化学習反復で改善し,高いサンプル効率を示す。
- 実験結果から,視覚言語モデルが生成する報酬信号が,実行エラーを解決するための信頼性の高いフィードバックを提供することが示された。
高次元逆問題に対する適応的な正則化パラメータ選択:タッカー低ランク制約を用いたベイズアプローチ [cs.LG]目的:高次元逆問題解決のための,タッカー分解を組み込んだ新しい変分ベイズ法
- 逆問題は,画像処理,リモートセンシング,科学計算など広範な分野で重要である。
- 高次元逆問題では,計算コストが膨大になり,適切な正則化パラメータの選択が困難である。
- タッカー分解による低次元空間への変換と,適応的な正則化によって,この問題を解決することを目指す。
- 提案手法は,従来の正則化パラメータ選択手法(L曲線法,GCV,UPRE,DPなど)と比較して,定量評価指標(PSNR,SSIM)および視覚的評価において一貫した改善を示す。
- 特に,画像鮮明化タスクでは0.73~2.09dB,3次元熱伝導問題では6.75dBの性能向上が確認された。
- 本手法は,ベイズ理論とスケーラブルな計算を組み合わせることで,大規模逆問題への実用的な解決策を提供する。
属性アップサンプリングは補間ではなく再分配を行うべきである [cs.CV, cs.LG]目的:説明可能なAIにおける属性の信頼性向上
- AIの解釈可能性は,モデルの意思決定プロセスを理解する上で不可欠であり,信頼性の高いAIシステムの構築に繋がる。
- 既存のアップサンプリング手法は自然画像向けに設計されており,属性マップの特性を考慮していないため,誤った解釈を招く恐れがある。
- 属性マップのアップサンプリングを,モデルの推論に基づいた意味的境界を考慮した再分配問題として捉え,より忠実な説明を生成すること。
- 提案手法であるUniversal Semantic-Aware Upsampling (USU)は,属性の総量と相対的な重要度の順序を数学的に保証する。
- USUは,アップサンプリングに関する4つの要件を形式化し,既存の補間手法がその3つに違反することを示している。
- ImageNet,CIFAR-10,CUB-200といったデータセットを用いた評価により,USUが既存手法よりも忠実度が高く,意味的に一貫性のある説明を生成することが確認された。
大規模言語モデルにおけるリソース消費の脅威 [cs.CR, cs.AI, cs.CL]目的:大規模言語モデルのリソース消費に関する脅威の体系的レビュー
- 計算資源の制約下,効率的なLLMはサービス能力向上とコスト削減に不可欠である。
- 過剰な生成を誘発するリソース消費の脅威が,LLMの効率性と持続可能性を損ねている。
- LLMにおけるリソース消費の脅威を包括的に理解し,対策の基盤を明確にすることを目的とする。
- 本レビューでは,LLMにおけるリソース消費の脅威を体系的に分類・分析した。
- 脅威の誘発から対策まで,LLMのパイプライン全体を通して問題を包括的に考察した。
- この分野の問題像を明確化し,特性評価と緩和策の基礎を確立した。
SEAHateCheck:東南アジアの低リソース言語におけるヘイトスピーチ検出のための機能テスト [cs.CL, cs.AI]目的:東南アジアの低リソース言語におけるヘイトスピーチ検出のためのデータセット及び評価手法
- ヘイトスピーチの検出は,オンライン上の安全な環境を維持する上で不可欠であり,多様な言語への対応が求められる。
- ヘイトスピーチ検出のリソースは高リソース言語に偏っており,東南アジアのような言語多様性の高い地域での対応が遅れている。
- 東南アジアの低リソース言語におけるヘイトスピーチ検出モデルの性能を評価し,改善のための指標を提供する。
- SEAHateCheckは,インドネシア語,タガログ語,タイ語,ベトナム語に対応した初の機能テストスイートである。
- 特にタガログ語のテストケースでは,モデルの精度が低く,言語的複雑さと学習データの不足が要因として考えられる。
- スラングを用いたテストでは,文化的なニュアンスを捉えるのが難しく,モデルの弱点が明らかになった。
MDM-Prime-v2: 二値符号化とインデックスシャッフルによる拡散言語モデルのスケーリング最適化 [cs.CL, eess.SY, cs.SY, math.OC, cs.LG]目的:拡散言語モデルのスケーリング最適化
- 自然言語処理における言語モデルは,その性能向上が重要な課題である。
- 既存の言語モデルは計算コストが高く,スケーリングに課題がある。
- 二値符号化とインデックスシャッフルにより,計算効率を改善する。
- MDM-Prime-v2は,自己回帰モデル(ARM)と比較して21.8倍の計算効率を示す。
- OpenWebTextにおいて,MDM-Prime-v2は7.77のパープレキシティを達成し,ARM(12.99),MDM(18.94),MDM-Prime(13.41)を上回る。
- 1.1Bパラメータのモデルでは,常識推論タスクにおいて優れたゼロショット精度を示す。
ビットコイン取引システムにおけるユークリッド空間と双曲空間グラフニューラルネットワークの比較研究 [cs.LG]目的:ビットコイン取引システムのノード分類における埋め込み空間の違いの分析
- 社会技術システム分析において,ノード間の相互作用パターン理解が重要である。
- 大規模グラフにおける,近傍集約と埋め込み幾何学の関係性が十分に解明されていない。
- ビットコイン取引ネットワークにおける埋め込み幾何学と近傍深さの役割を明らかにする。
- ユークリッド空間と双曲空間のGNNにおいて,近傍の深さが分類性能に与える影響を比較した。
- 双曲空間GNNでは,学習率と曲率の適切な選択が,高次元埋め込みの安定化に不可欠であることが示された。
- 本研究は,大規模取引ネットワークのモデリングにおける埋め込み幾何学の重要性を示唆する。
Interact3D:インタラクティブなオブジェクトの構成的な3D生成 [cs.CV, cs.AI]目的:インタラクティブなオブジェクトの構成的な3D生成
- 3D生成技術は,仮想現実やロボティクスなど幅広い分野で重要性が増している。
- 単一の画像から3D構成オブジェクトを生成する際,隠れた領域の幾何学的詳細の劣化やオブジェクト間の空間関係の維持が課題である。
- 隠れた領域の情報を活用し,物理的に妥当な3D構成オブジェクトを生成することを目指す。
- Interact3Dは,高品質な個々のアセットをキュレーションし,統一された3Dガイダンスシーンを活用する。
- 2段階の構成パイプラインにより,正確な幾何学的アライメントと,幾何学的交差を抑制するSDFベースの最適化を実現する。
- VLMによる多視点レンダリングの分析と,それに基づく自己修正により,衝突を意識した構成を生成する。
ビジョン・サウンド・言語・行動パラダイムへ:音響中心操作のためのHEARフレームワーク [cs.RO, cs.AI, cs.CV, cs.SD]目的:音響を中心とした操作のためのフレームワークの提案
- ロボットの環境認識とインタラクションにおいて,視覚だけでなく聴覚も重要な役割を担うことが認識されている。
- 既存のVLAモデルは音響を静的なプロンプトとして扱うか,人間の音声に焦点を当てており,リアルタイムな音響中心操作に対応できていない。
- 環境音の変化を継続的に認識し,遅延ループ下で制御を行うことで,よりロバストな操作を実現することを目指す。
- 提案手法HEARは,音響情報の文脈維持,マルチセンサリ入力の推論,時間的動的な学習,そして滑らかな行動生成を実現する。
- 大規模な音響データセットOpenX-Soundと,厳密な因果的タイミング規則を持つベンチマークHEAR-Benchを新たに構築した。
- 実験結果から,因果的な持続性と明示的な時間的学習が,音響中心操作において必要不可欠であることが示唆された。
説明可能な推薦システムの次世代幾何学的パラダイム:RecBundle [cs.IR, cs.AI]目的:推薦システムにおける情報繭や進化的な偏り等の体系的バイアスの源泉の識別
- 推薦システムは利用者の意思決定に大きな影響を与え,情報アクセスや消費行動を左右する重要な技術である。
- 既存手法では,多様な情報を単一の空間に統合するため,バイアスの原因特定が困難である。
- 近年の微分幾何学のファイバーバンドル理論を導入し,幾何学的な分析パラダイムを確立することで上記問題の解決を目指す。
- 本研究では,ユーザーインタラクションネットワークを基底多様体,個々のユーザーの動的な嗜好をファイバーとして捉えるRecBundleを提案した。
- ユーザー間の協調を基底多様体上の幾何学的接続と平行移動として定式化し,コンテンツ進化をファイバー上のホロノミー変換として表現することで,バイアスの定量化が可能となる。
- MovieLensおよびAmazon Beautyデータセットを用いた実証実験により,提案フレームワークの有効性が確認された。
CounterRefine: 推論時の知識修正のための,回答条件付き反証検索 [cs.CL, cs.AI]目的:事実に基づいた質問応答における,推論時間の知識修正機構
- 質問応答システムにおいて,正答率向上には知識の正確な利用が不可欠である。
- 関連する証拠は取得できるものの,誤った回答に至るケースが存在する。
- 暫定的な回答を検証し,必要に応じて修正することで,回答の信頼性向上を目指す。
- CounterRefineは,既存のRAGベースラインモデル(GPT-5 Baseline-RAG)の精度を5.8ポイント向上させた。
- SimpleQAベンチマークにおいて,73.1%という正答率を達成し,GPT-5.4のワンショット性能を約40ポイント上回った。
- 検索は,より多くの文脈を集めるだけでなく,暫定的な回答を検証する手段として機能することが示唆された。
大規模視覚言語モデルにおける並列文脈学習 [cs.CV, cs.AI, cs.LG]目的:大規模視覚言語モデルにおける効率的な文脈学習手法
- 視覚と言語を統合したモデルは,多様なタスクに応用可能であり,AI研究の重要な方向性である。
- 文脈学習は性能向上に寄与するが,計算コストが大きく,推論速度が課題となっている。
- 推論速度を改善しつつ,性能を維持できる文脈学習手法を開発すること。
- 提案手法Parallel-ICLは,文脈を分割して並列処理することで推論速度を向上させる。
- クラスタリングと類似度に基づいた文脈の分割・統合により,精度を維持する。
- VQA,画像キャプション,分類タスクで,従来の文脈学習と同等の性能を達成する。
共同オーディオ・ビデオ生成のための拡散モデル [cs.SD, cs.AI, cs.CV, cs.MM]目的:共同オーディオ・ビデオ生成の実現
- マルチモーダル生成は,映像や音声の合成において目覚ましい進歩を遂げている。
- しかし,映像と音声を真に共同で生成することは依然として困難な課題である。
- 本研究は,映像と音声の同期性を高めるための新たな手法を提案する。
- 高品質なオーディオ・ビデオペアデータセットを新たに構築し,公開した。
- MM-Diffusionアーキテクチャを用いて,意味的に一貫性のあるオーディオ・ビデオペア生成を実証した。
- テキストからオーディオ・ビデオを生成する二段階パイプラインが,高忠実度な生成結果を生み出すことを示した。
LICA:グラフィックデザイン研究のための階層型画像合成注釈 [cs.CV, cs.AI]目的:グラフィックデザインのレイアウト構造の理解と生成を促進するための大規模データセット
- グラフィックデザインは,視覚コミュニケーションにおいて重要な役割を担い,その自動化技術へのニーズは高い。
- 既存のデータセットは,グラフィックデザインの構造的な情報を十分に捉えていない。
- デザイン要素間の階層構造と関係性を明示的に表現することで,より高度なモデル開発を目指す。
- LICAは,155万を超える多層グラフィックデザイン構成を含む大規模データセットである。
- 各デザインは,テキスト,画像,ベクターなどの要素からなる階層構造で表現され,豊富なメタデータが付与されている。
- このデータセットは,レイヤーを意識した画像補完や,構造化されたレイアウト生成など,新たな研究課題を可能にする。
エージェントワークフローのための効率的なLLMサービング:データシステムの視点 [cs.MA, cs.AI, cs.DB]目的:エージェントワークフローにおけるLLMサービングの効率化
- AIシステムの主要なワークロードであるエージェントワークフローの重要性が増している。
- 既存のLLMサービングシステムは,LLM間の依存関係を考慮せず,非効率な状態である。
- ワークフロー全体を最適化することで,LLMベースのエージェントのスケーラビリティと効率性を向上させる。
- Heliumは,エージェントワークフローをクエリプランとしてモデル化し,LLM呼び出しを第一級オペレーターとして扱う。
- プロアクティブなキャッシュとキャッシュを意識したスケジューリングを統合し,プロンプト,KV状態,ワークフロー全体での再利用を最大化する。
- 最先端のエージェントサービングシステムと比較して,最大1.56倍の速度向上を達成した。
頻度こそ重要:プルーニングと量子化のための高速モデル非依存データキュレーション [cs.CL, cs.AI]目的:プルーニングと量子化のための高性能なキャリブレーションデータセットの特定
- 大規模言語モデルの移植性を高めるため,モデル圧縮は不可欠である。
- キャリブレーションデータの選択は重要だが,その適切な選択方法が課題である。
- データ特性に基づき,効率的かつ高性能なキャリブレーションデータセットを構築する。
- 提案手法ZipCalは,Zipfの法則に基づき語彙的多様性を最大化する。
- ZipCalは,様々なプルーニングベンチマークにおいて,標準的なランダムサンプリングを上回る性能を示す。
- ZipCalは,大規模モデルやデータセットで高コストとなる最先端手法と同等の性能を,240倍の速度で達成する。
リポジトリレベルコードレビューのためのローカル優先型マルチエージェントアーキテクチャ RepoReviewer [cs.SE, cs.AI]目的:リポジトリレベルコードレビューのためのマルチエージェントシステム
- ソフトウェア開発において,コードレビューは品質向上の重要なプロセスである。
- 既存の自動レビューは,構造,コンテキスト,実装の詳細を統合的に処理できず,効率が低い。
- リポジトリレベルの自動レビューを効率化するアーキテクチャの提案と評価。
- RepoReviewerは,リポジトリ取得,コンテキスト合成,ファイルレベル分析,優先順位付け,要約生成の各段階に分解する。
- 本システムは,Python CLI,FastAPI API,LangGraph,Next.js UIを備えたローカル優先型の設計である。
- ベンチマーク優位性を主張するのではなく,将来の研究のための再利用可能な評価基盤を提供する。
VIGIL:企業ITサポートのためのエッジ拡張型自律AI [cs.AI]目的:企業ITサポートにおける問題解決の効率化
- 企業IT環境は複雑化の一途を辿り,迅速な問題解決が不可欠である。
- 中央集権的な解決策では,多様なデバイスや状況に対応しきれない。
- エッジAIを活用し,デバイス上での自律的な問題解決を目指す。
- VIGILは,エンドポイントに常駐するエージェントにより,現場での診断,知識検索,そしてポリシーに基づいた修復を実現した。
- 10週間のパイロット試験で,VIGILはインタラクション回数を39%削減し,診断時間を4倍に短縮,82%のケースで自己解決を支援した。
- ユーザビリティ,信頼性,認知負荷の評価において良好な結果が得られ,透明性が信頼構築に重要であることが示された。
