arXiv雑要約
AI - 2026/05/15 公開
発達的スキャフォールド学習による自己組織化の誘導 [cs.AI, cs.SY, eess.SY, q-bio.QM]目的:自己組織化を導く発達的スキャフォールドの学習
- 自然界の多様なシステムでは,自己組織化が複雑な構造を生み出す重要なメカニズムである。
- 自己組織化プロセスを駆動する情報が,自己組織化自体からではなく,初期条件に依存している場合がある。
- 初期条件と自己組織化ルールの相互作用を学習し,その効果を定量的に評価することを目的とする。
- ニューラル・セルラー・オートマトンと学習されたパターン生成器を組み合わせることで,ロバスト性,符号化容量,対称性の破れを向上させた。
- 効果的な初期パターンは,目標を単純に近似するのではなく,自己組織化の収束を促進するようにダイナミクスをバイアスさせる。
- 初期条件の構造と自己組織化のダイナミクスの間に,自明ではない関係が存在することが示唆された。
視線情報に基づいたAI開示インターフェースの探求:AI支援ニュースを読む際の注意と認知負荷に関する眼球追跡調査 [cs.HC, cs.AI]目的:AI支援ニュースにおける開示インターフェース設計に関する注意と認知負荷の影響
- AIが報道に浸透する中,読者への情報提供と負担軽減を両立する開示方法が重要である。
- 既存研究は信頼性に着目する一方,開示が読者の注意や認知負荷に与える影響は未解明である。
- AI利用状況の開示レベルが読者の注意に与える影響を検証し,適応的なインターフェース設計に貢献する。
- 一行の開示文は,特にAI編集コンテンツにおいて,注視時間とサッカード回数を有意に増加させ,注意コストが高いことが示された。
- 詳細な開示文は追加の負担とならず,情報ギャップ理論に基づき,簡潔なラベルがAI利用を認識させつつ情報不足を引き起こす可能性が示唆された。
- NASA-TLXスコアや瞳孔径の変化は有意差がなく,AI利用の開示は認知負荷を高めないことが示された。読者は詳細な開示,またはオンデマンド型を好む傾向が見られた。
最先端LLMにおける早期結論化の定量化と軽減 [cs.CL, cs.AI]目的:最先端LLMにおける早期結論化の程度と,その軽減策
- 医療分野において,診断エラーの要因の一つとして早期結論化が認識されている。
- LLMにおいて,不確実な状況下での早期結論化は未解明な点が多い。
- LLMがいつ回答を控えるべきかを判断する能力を評価・改善する。
- 最先端LLMは,正解が削除されたMedQAおよびAfriMed-QAで高い誤答率(53-82%)を示した。
- HealthBenchおよびadversarial queriesでは,不適切な回答がそれぞれ30%と78%の頻度で確認された。
- 安全性を重視したプロンプトにより早期結論化は軽減されたが,残存する失敗が示唆された。
深層トークンEEG:トークン化されたEEG特徴による軽度認知障害およびアルツハイマー病の分類の向上 [cs.LG]目的:アルツハイマー病および軽度認知障害の分類
- アルツハイマー病の早期発見は患者の予後改善に不可欠であり,その診断技術の重要性は高い。
- 脳波を用いた診断は非侵襲的だが,データ不足や解釈の専門性,深層学習の精度改善が課題である。
- 高精度かつ軽量なモデルを開発し,アルツハイマー病の早期発見・スクリーニングへの応用を目指す。
- 提案手法DeepTokenEEGは,空間的・時間的トークナイザーにより,アルツハイマー病関連バイオマーカーを効率的に捉える。
- 274人(アルツハイマー病180例,健常者94例)のデータセットで訓練した結果,特定の周波数帯で100%の精度を達成した。
- 既存手法と比較して,1.41〜15.35%の精度向上を示し,早期発見・スクリーニングへの応用が期待される。
検証可能な報酬を用いた強化学習におけるランダム選択された少数の事例によるガイダンスによる性能向上 [cs.CL, cs.LG, cs.AI, cs.CL]目的:強化学習における性能向上
- 大規模言語モデルの性能向上に不可欠であり,特に推論能力が必要なタスクで重要性が増している。
- 難しい問題では,正しい推論経路の生成が困難で,サンプル効率が課題となっている。
- 少数の事例から効率的に学習し,サンプル効率の問題を解決することを目指す。
- 提案手法FESTは,わずか128件の事例で,既存手法を上回る性能を達成した。
- FESTの成功には,教師あり信号,オンポリシー信号,そして過学習を防ぐための減衰重みが重要である。
- FESTは,既存手法と同等の性能を,より少ないデータ量で実現することが示された。
教育評価設計におけるチームメイトとしての小規模プライベート言語モデル [cs.AI, cs.CL, cs.HC]目的:教育評価問題の設計における大規模言語モデルと小規模言語モデルの比較
- 教育現場でのAI活用は,学習効果の向上や評価の効率化に貢献し得るため重要である。
- 既存のAIモデルは,プライバシーやリソースの制約,評価の客観性の問題が課題となっている。
- 本研究は,プライバシーとリソース制約を考慮した小規模言語モデルの有効性を評価し,教育評価への応用を目指す。
- 小規模言語モデルは,教育評価問題の設計において,大規模言語モデルと同等の性能を示すことが確認された。
- ただし,モデルによる評価は,専門家による評価と系統的な不一致や偏りを示すことが明らかになった。
- 言語モデルは,評価ワークフローにおける限定的な支援ツールとして活用可能であり,人間の介入の重要性が示唆された。
COTCAgent:確率的思考連鎖完結による予防的相談 [cs.CL, cs.AI]目的:縦断的電子カルテにおける臨床的意思決定支援
- 医療現場において,LLMによる意思決定支援の重要性が高まっている。
- 既存のLLMは,縦断的電子カルテの時系列推論に課題を抱えている。
- 定量的な証拠の解釈や長期的な依存関係の把握を改善する。
- COTCAgentは,Baichuan-M2を用いて自己構築データセットで90.47%のTop-1精度を達成した。
- HealthBenchにおいても70.41%の精度を示し,既存の医療エージェントや汎用LLMを上回った。
- 統計計算,特徴量照合,言語生成を分離することで,効率的な縦断的記録分析を実現した。
汎用化された優先度を考慮したシャプレイ値 [cs.LG, cs.AI]目的:機械学習における評価手法
- 機械学習モデルの公平性や貢献度評価において重要性が増している。
- 既存手法は優先度を二値かつ非循環であると限定しており,現実データでは制約となる。
- 任意の有向重み付き優先度グラフでシャプレイ値を定義し,この制約を克服する。
- 汎用化された優先度を考慮したシャプレイ値(GPASV)を提案し,公理的特徴付けを行った。
- 計算手法を開発し,優先度スイープ診断を導入することで,既存手法の拡張性を実現した。
- チャットボットアリーナの好みのグラフにGPASVを適用し,優先度バランスが評価に影響することを示した。
SemaTune: 大規模言語モデルを用いた意味論に基づいたオンラインOSチューニング [cs.OS, cs.AI, cs.PF]目的:オンラインOSチューニングの性能向上
- 長時間のサービス運用において,OSのチューニングはパフォーマンス改善に不可欠である。
- 既存のチューニング手法は,OSの制御パラメータをブラックボックスとして扱い,最適な設定を見つけにくい。
- SemaTuneは,言語モデルの活用により,より意味論に基づいたOSチューニングを可能にする。
- SemaTuneは,13種類のワークロードと41のLinuxパラメータを用いた実験で,デフォルト設定よりも72.5%高い安定相パフォーマンスを示した。
- また,既存の非LLMベースラインと比較して,153.3%の改善が見られた。
- ホストレベルの指標のみでも,アプリケーションの直接的な目標を与えるベースラインを93.7%上回る性能を示し,性能劣化領域への到達を回避した。
WARD:プロンプトインジェクションに対するWebエージェントの敵対的堅牢性防御 [cs.MA, cs.CR, cs.AI]目的:Webエージェントに対するプロンプトインジェクション攻撃への堅牢な防御
- Webエージェントの活用が拡大する中で,セキュリティ確保は不可欠である。
- 既存の防御モデルは,未知のドメインや攻撃パターンへの対応が課題である。
- 分布シフトや敵対的攻撃に対しても堅牢な防御モデルを開発すること。
- WARDは,大規模データセットと適応的敵対的攻撃訓練フレームワークを活用し,高い防御性能を実現した。
- 未知のベンチマークにおいてほぼ完璧な再現率を達成し,誤検知率を低く抑え,Webエージェントの有用性を維持する。
- 分布の変化や,防御モデルを直接標的とした攻撃に対しても堅牢であり,遅延なく効率的に動作する。
AIは監視されていることを知っている:大規模言語モデルにおける機能的戦略的行動と文脈的登録変調 [cs.SI, cs.CC, cs.CL, cs.AI, cs.CY, cs.MA]目的:大規模言語モデルにおける,文脈に応じた言語適応
- AIガバナンスや監査の実現には,AIの社会的な文脈におけるコミュニケーション能力の理解が不可欠である。
- LLMの社会構造化された文脈におけるコミュニケーション主体としての振る舞いは,十分に研究されていない。
- LLMが社会的な観察状況を認識し,それに応じて言語行動を変化させるかを検証する。
- LLMは,監視されている状況下で,語彙の多様性を増加させる傾向が確認された。
- メッセージ長は,観察状況とは無関係に変化する。
- 人間の観察者とAI観察者の区別により,言語の形式化の度合いに差が生じた。
TopoPrimer:予測モデルにおける欠如していた位相的文脈 [cs.LG]目的:時系列データの位相構造を予測モデルへの明示的な入力とする枠組み
- 時系列予測は,需要予測,資源配分など,幅広い分野で不可欠な技術である。
- 従来の予測モデルは,時系列データの背後にある位相的構造を考慮していない場合がある。
- 時系列データの位相的構造を組み込むことで,予測精度と安定性を向上させる。
- TopoPrimerは,多様なドメインで予測精度を向上させ,季節的な需要急増時の予測を安定化させる。
- TopoPrimerは,コールドスタート問題を解決し,アイテム履歴のない状況でも予測誤差を大幅に削減する。
- 位相的構造の利点は,ゼロショット学習とファインチューニングの両方で一貫して見られ,異なる学習方法で補完的な信号を捉えていることを示唆する。
Orchard: オープンソースのエージェントモデリングフレームワーク [cs.AI, cs.CL]目的:スケーラブルなエージェントモデリングのためのフレームワーク
- LLMを自律的にタスクを解決するエージェントへと進化させる研究が盛んであり,その重要性が高まっている。
- 多くの高性能システムは,プロプライエタリなコードベース,モデル,またはサービスに依存しており,オープンソースでの研究開発が制約されている。
- オープンソースのフレームワークを用いて,スケーラブルなエージェントの学習と評価を可能にすることを目標とする。
- Orchardは,環境のライフサイクル管理を容易にする軽量な環境サービスOrchard Envを中核としている。
- Orchard-SWEは,MiniMax-M2.5とQwen3.5-397Bの107K件の軌跡を蒸留し,SWE-bench Verifiedで67.5%という最高水準の性能を達成した。
- Orchard-GUIとOrchard-Clawは,それぞれ少ないデータで高い成功率をWebVoyager等のベンチマークで示した。
LLMツール利用における適応的推論と実行のケースベースキャリブレーション [cs.AI, cs.CL]目的:LLMツール利用における適応的推論と実行のキャリブレーション
- LLMはパラメータ的知識を超えて活用範囲を広げている。信頼性向上が重要課題である。
- 適切な推論の深さと厳密な構造的妥当性のバランスが課題となっている。
- 過去の実行軌跡を再利用し,適応的な戦略を自動的に学習することを目指す。
- CASTは過去の実行事例を構造化されたケースとして扱い,最適な推論戦略と構造的欠陥を推定する。
- BFCLv2とToolBenchでの実験により,CASTは実行の正確性とタスク成功率を向上させ,不必要な推論を削減する。
- 全体的な実行精度が最大5.85%向上し,平均推論長は26%短縮され,構造的エラーが大幅に軽減された。
潜在フロー復元による分単位の人間アニメーション:EverAnimate [cs.CV, cs.AI]目的:長尺アニメーションビデオ生成における品質とキャラクターの一貫性維持
- 人間アニメーションは,エンターテイメントや仮想現実など,多様な分野で重要な役割を担う。
- 長尺アニメーション生成では,動きの積み重ねによる品質劣化やキャラクターの不整合が課題となる。
- 潜在フロー復元により,長尺アニメーションにおけるドリフトを抑制し,高品質な生成を目指す。
- EverAnimateは,軽量なLoRA調整のみで,既存の長尺アニメーション手法を上回る性能を示す。
- 10秒の動画生成において,PSNR/SSIMがそれぞれ8%/7%改善し,LPIPS/FIDは22%/11%減少した。
- 90秒の動画生成では,改善幅がさらに広がり,PSNR/SSIMは15%/15%,LPIPS/FIDは32%/27%減少した。
SpeakerLLM:話者理解と検証推論のための話者特化型音声LLM [cs.SD, cs.AI, cs.LG, cs.MM, eess.AS]目的:話者理解と検証推論のための音声LLMフレームワーク
- 物理AIや会話ロボットの普及に伴い,話者固有の理解が重要となる。
- 従来の音声システムは,言語的証拠が乏しいか,話者情報を十分に活用できていない。
- 話者プロファイリング,録音条件理解,話者比較,検証推論を統合的に解決する。
- SpeakerLLMは,汎用的な音声LLMと比較して,話者プロファイルと録音条件の理解度を向上させた。
- SpeakerLLM-VRは,高い検証精度を維持しつつ,検証推論スキーマに基づいた決定トレースを生成する。
- メタデータ付きの教師データセットとターゲット構築コードを公開し,再現性を確保する。
深層生成モデルにおける線形逆問題に対する内在的曖昧性と推定不確実性の分離 [cs.RO, cs.MA, cs.SY, eess.SY, cs.LG]目的:深層生成モデルにおける事後不確実性の構造的分解
- 医療画像や科学的発見など,高いリスクを伴う応用において予測の不確実性は予測自体と同様に重要である。
- 事後不確実性は,前方演算子に内在する曖昧さと推論を通じて伝播する不確実性が混在しているため解釈が困難である。
- 内在的曖昧性を分離し,その校正分析を可能にすることで,再構成品質だけでは隠蔽された失敗モードを明らかにすること。
- 事後不確実性の構造的分解により,内在的曖昧さを分離し,校正分析へのアクセスを可能にした。
- 加速磁気共鳴イメージング(MRI)と脳波(EEG)ソースイメージングへの適用を通して,分解の有効性を検証した。
- 再構成品質のみでモデルを選択すると隠れてしまう失敗モードを,シミュレーションベースの校正テストによって明らかにすることができた。
LLMサービングにおける推測デコーディングの解釈可能な遅延モデル [cs.LG, cs.PF]目的:LLMサービングにおける推測デコーディングの遅延をモデル化すること
- 大規模言語モデルの推論速度向上は,実用的な応用を可能にする上で重要である。
- 推測デコーディングの遅延は,サーバ負荷の変化やバッチサイズの変動により予測が困難である。
- サーバ負荷を考慮した推測デコーディングの遅延モデルを構築し,パフォーマンスを改善すること。
- 本研究では,リトル則を用いて効率的なバッチサイズを推測し,推測デコーディングの遅延を構成要素ごとに分解するモデルを開発した。
- このモデルは,vLLMを用いた広範な測定により検証され,観測された遅延を正確に記述し,負荷増大に伴う速度低下の理由を説明することができた。
- また,モデルはMoEモデルにも拡張可能であり,専門家の活性化が負荷に応じたサービスコストに与える影響を分析できることが示された。
TFGN:タスクフリー,リプレイフリーな大規模言語モデル継続事前学習:破滅的忘却なし [cs.LG, cs.AI]目的:大規模言語モデルにおける,リプレイやタスクラベルを用いない継続事前学習のアーキテクチャ
- 言語モデルは汎用性が重要であり,多様なデータへの適応能力が求められる。
- 継続学習において,過去の知識を失う破滅的忘却が大きな課題となっている。
- 破滅的忘却を抑制しつつ,大規模言語モデルの継続学習を可能にすること。
- TFGNは,パラメータ効率の良い更新を可能にするTransformer言語モデルのアーキテクチャオーバーレイである。
- TFGNは,リプレイ,タスクID,Fisherペナルティを使用せずに,高い性能を達成した。
- Pythonでの学習のみで,JavaScriptのPPLが大幅に改善されるなど,正のクロスドメイン転移が確認された。
拡散OPD:拡散モデルにおけるオンポリシー蒸留の統一的見解 [cs.LG, cs.CV]目的:拡散モデルにおけるマルチタスク学習のための新たなパラダイム
- 拡散モデルはテキストから画像を生成する強力な技術であり,その性能向上は重要である。
- マルチタスク学習は,タスク間の干渉や学習の不安定性といった課題を抱えている。
- 既存手法の課題を克服し,効率的かつ高性能なマルチタスク学習を実現すること。
- DiffusionOPDは,タスク固有の教師モデルから単一の学生モデルへ知識を蒸留する。
- これにより,タスク間の干渉を抑制し,効率的なマルチタスク学習を可能にする。
- 実験結果は,DiffusionOPDが既存手法を上回り,最先端の結果を達成することを示している。
NeuroTrain:スパイクニューラルネットワークの局所学習規則に関するサーベイと,オープンなベンチマークフレームワーク [cs.HC, cs.NE, cs.AI]目的:スパイクニューラルネットワークの学習アルゴリズムの分類とベンチマーク
- スパイクニューラルネットワークは,低消費電力な情報処理の実現に貢献し,脳型コンピューティングの基盤となる。
- 学習アルゴリズムが多様化する中で,体系的な分類と,それらの関係性の明確化が課題となっていた。
- 多様な学習アルゴリズムを整理し,統一的なベンチマーク環境を提供することで,今後の研究を促進する。
- 本研究では,スパイクニューラルネットワークの学習アルゴリズムを,勾配法,局所学習規則,生物学的メカニズム等に基づき分類した。
- オープンソースのベンチマークフレームワークNeuroTrainを開発し,様々なデータセット,アーキテクチャ,学習条件下での評価を可能にした。
- 既存の研究を統合し,スケーラブルで効率的なスパイクニューラルネットワーク学習に関する課題と将来の方向性を示した。
視覚言語モデルにおける文化的アナクロニズムと時間的推論 [cs.HC, cs.CV, cs.AI, cs.CL]目的:視覚言語モデルにおける文化的アナクロニズムの定量化と評価
- 文化遺産デジタル化が進み,AIによる活用が期待される一方で,歴史的文脈の理解が課題となっている。
- 視覚言語モデルは,歴史的対象を時間的に不適切な概念で解釈する傾向があり,誤った認識を生む可能性がある。
- 歴史的対象に対する時間的推論能力の欠如を明らかにし,その改善に向けた基盤を提供すること。
- 本研究では,視覚言語モデルの文化的アナクロニズムを評価するためのベンチマークデータセット(TAB-VLM)を開発した。
- 10種類の最先端モデルの評価結果,既存モデルは本ベンチマークにおいて顕著な課題を抱えていることが示された。
- 特に,GPT-5.2のような高性能モデルでも,全体の正答率は58.7%にとどまり,文化遺産資料の正確な解釈には限界がある。
モデル変更なしでの並行処理:LLMのためのFutureベースの非同期関数呼び出し [cs.RO, cs.CL, cs.AI, cs.LG]目的:LLMのための非同期関数呼び出しの実現
- LLMエージェントの主要機能である関数呼び出しの効率化が重要である。
- 従来の同期実行により,関数呼び出しの完了を待つ間,LLMの処理がブロックされるという課題がある。
- LLMのデコードと関数実行のオーバーラップを実現し,遅延を削減することを目標とする。
- AsyncFCは,既存のモデルや関数実装を変更することなく,LLMのデコードと関数実行を分離する実行層フレームワークである。
- 標準的なベンチマークにおいて,AsyncFCはタスク完了時間を大幅に短縮し,タスクの精度を維持している。
- LLMは未解決の実行結果を表すFutureを扱う能力を有しており,非同期パラダイムを可能にすることが示された。
クロワッサンベイカー:発見可能,管理可能,再利用可能なMLデータセットのメタデータ生成 [cs.LG, cs.DB, cs.DL, cs.IR]目的:機械学習データセットのメタデータ生成
- 機械学習の発展には,高品質なデータセットが不可欠であり,その管理と共有が重要である。
- 既存のメタデータ生成手法は,公開プラットフォームへのアップロードに依存し,ローカルリポジトリには適用が困難であった。
- ローカル環境でも容易にメタデータを生成し,データセットの管理と活用を促進すること。
- Croissant Bakerは,ローカル環境でCroissantメタデータを生成するコマンドラインツールである。
- 140を超えるデータセットで評価を行った結果,最大886百万行のMIMIC-IVデータセットにも対応可能であることが示された。
- 生成されたメタデータは,真値データとの比較で97-100%の一致率を達成し,高い精度を持つことが確認された。
多言語世界のための包括的かつ効率的な埋め込み表現:ML-Embed [cs.CL, cs.AI]目的:多言語対応の高品質な埋め込みモデルの開発
- AI技術のグローバルな普及には,多様な言語への対応が不可欠である。
- 既存の埋め込みモデルは,計算コストが高く,対応言語が限定的で,透明性に欠けるという課題がある。
- これらの課題を克服し,公平で効率的なAIシステムの構築を目指す。
- ML-Embedは,3次元マトリオシカ学習(3D-ML)という新たなフレームワークに基づき,計算効率とパラメータ効率を向上させている。
- 大規模な多言語データセットを用いて1億4000万から80億パラメータのモデル群を学習し,低リソース言語で特に優れた性能を示した。
- 全てのモデル,データ,コードを公開することで,透明性と再現性を確保し,AI研究の促進に貢献する。
車両事故負傷重症度予測のための新規動的バッチ感受性Adam最適化手法 [cs.LG, cs.AI]目的:車両事故負傷重症度予測におけるモデル効率と収束速度の向上
- 深層学習において,最適化手法はモデル性能に大きな影響を与えるため,その選択は重要である。
- 不均衡データや系列データに対して,既存の最適化手法は少数クラスのパターンを捉えるのが難しい場合がある。
- 本研究は,不均衡かつ系列データにおける最適化の課題を解決し,予測精度を向上させることを目指す。
- 提案手法DBS-Adamは,勾配ノルムとバッチ損失の指数移動平均に基づき,学習率を動的に調整することで,学習の安定性と収束性を高める。
- 実験結果から,DBS-Adamは既存の最適化手法と比較して,統計的に有意な精度向上(p=0.020)を示した。
- DBS-AdamをBi-LSTMネットワークに統合した結果,テスト精度95.22%,適合率96.11%を達成し,緊急対応や道路安全対策への貢献が期待される。
二次元整合性:推論時スケーリングにおける予算と品質のバランス [cs.AI]目的:推論時スケーリングにおける予算と品質のトレードオフ
- 大規模言語モデルの活用には,推論コストと性能のバランスが重要である。
- 従来の戦略では,幅と深さの調整が独立しており,幻覚の増幅や有効な推論の途絶といった課題がある。
- 高品質な推論経路にリソースを集中し,幻覚を抑制しながら合意形成を加速させることを目指す。
- 提案手法DDCは,トークン消費量を10倍以上削減しつつ,既存手法と同等以上の精度を維持する。
- Confidence-Weighted BayesianプロトコルとTrend-Aware Stratified Pruningを組み合わせ,効率的な推論を実現する。
- 5つのベンチマークにおいて,様々なLLMで有効性が確認された。
自己想起思考による複数ターンの対話一貫性の向上 [cs.CL, cs.AI]目的:複数ターンの対話における一貫性およびスケーラビリティの改善
- 対話システムは人間との自然なコミュニケーションに不可欠であり,その性能向上は重要な課題である。
- 長文の対話では,重要な情報が埋もれてしまい,文脈の追跡が困難になるという課題がある。
- 遠隔の文脈依存性と,対話における情報の希薄さという問題を解決することを目指す。
- 自己想起思考(SRT)フレームワークは,過去の有用なターンを特定し,文脈に応じた応答を生成することで,長文の対話における一貫性を高める。
- 実験の結果,SRTはF1スコアを4.7%向上させ,エンドツーエンドのレイテンシを14.7%削減することに成功した。
- SRTは,推論の遅延性と精度を両立し,最先端のベースラインモデルを上回る性能を示した。
近隣が重要な理由:エージェント型GraphRAGにおける探索経路と由来 [cs.NI, cs.CL, cs.AI, cs.IR]目的:エージェント型GraphRAGにおける引用の忠実性に関する研究
- 知識獲得における外部証拠の活用は,生成される情報の信頼性向上に不可欠である。
- エージェント型GraphRAGでは,探索経路が結果に影響するため,引用の忠実性の評価が困難である。
- 引用だけでなく,探索経路全体を考慮した評価手法の確立を目指す。
- 引用された証拠は回答の正確性に必要であり,その削除は回答を大きく変化させる。
- しかし,正確な回答は引用されなかった探索経路やグラフ構造にも依存することが示された。
- エージェント型GraphRAGにおける引用評価は,情報源の裏付けだけでなく,より広範な探索経路の由来評価へと移行すべきである。
文字列類似度計算と分類のための統計的特徴の提案と研究 [cs.LG, cs.CL, cs.IT, math.IT]目的:文字列類似度計算と分類のための統計的特徴
- 情報処理において,文字列の類似性を評価することは,情報検索や自然言語処理において不可欠である。
- 既存手法では,言語依存性が高く,多様な言語や文法構造への適用が困難な場合がある。
- 言語非依存で汎用的な文字列類似度評価手法を確立し,高精度な分類を可能にすること。
- 提案手法である共起行列(COM)と連長行列(RLM)は,合成データ実験において既存の統計的特徴を上回る性能を示した。
- 特にRLMとCOMは,距離に基づく手法と比較して統計的に有意な差(P値 < 0.001)を示した。
- 実際のテキスト盗用検出データセットにおいても,RLMが最良の結果を得た。
言語フィードバックを通じた方策蒸留学習 [cs.LG]目的:言語フィードバックを利用した方策学習の枠組み
- 複雑な推論タスクにおいて,強化学習の探索は困難であり,効率的な学習手法が求められている。
- 検証可能な報酬に基づく強化学習は,疎な信号による探索のボトルネックが課題である。
- 言語フィードバックを活用し,教師を動的に改善することで,学習の停滞を防ぐ。
- 提案手法VPDは,言語フィードバックを確率的EM問題として捉え,教師と生徒の方策を共同進化させる。
- VPDは,科学的推論やコード生成タスクにおいて,既存手法を上回る性能を示した。
- 厳しい数学的推論やコールドスタート環境下での評価により,フィードバック駆動型自己蒸留の限界が明らかになった。
CLOVER:エンドツーエンド自動運転計画のための閉ループ値推定とランキング [cs.RO, cs.AI, cs.CV]目的:エンドツーエンド自動運転計画のための価値推定とランキングフレームワークの開発
- 自動運転技術は,交通安全の向上や移動の効率化に不可欠であり,社会実装が期待されている。
- 既存手法では,学習データと評価指標の間にずれがあり,性能向上のボトルネックとなっていた。
- CLOVERは,このずれを解消し,自動運転計画の精度と安全性を向上させることを目指す。
- CLOVERは,多様な候補軌道を生成し,計画指標に基づいたスコアリングによってランキングを行う。
- NavSIMにおける評価で,PDMS 94.5,EPDMS 90.4を達成し,最新技術を上回る性能を示した。
- より困難なNavHard分割においても,EPDMS 48.3を達成し,既存の最高結果に匹敵する性能を示した。
CoCo-InEKF:動的接触環境下における学習された接触共分散を用いた状態推定 [cs.RO, cs.LG, cs.SY, eess.SY]目的:動的接触環境下における状態推定の精度向上
- 二足歩行ロボットなどの動作において,正確な状態推定は不可欠である。
- 従来の二値化された接触状態では,部分的接触や方向性スリップを捉えきれない。
- 連続的な接触速度共分散を用いることで,より正確な接触状態を推定する。
- CoCo-InEKFは,微分可能なインバリアント拡張カルマンフィルターである。
- 学習された接触共分散は,接触の確信度を動的に調整し,多様な接触状態に対応する。
- 二足歩行ロボットの実験により,線形速度推定の精度とフィルターの一貫性が向上することが示された。
米国における留学生の異文化適応支援における会話型AIの利用状況の理解 [cs.HC, cs.AI]目的:米国における留学生の異文化適応支援における会話型AIの利用状況と認識
- グローバル化の進展により,留学生数は増加の一途を辿っており,その適応支援は重要である。
- 既存の支援体制は断片化しており,留学生が抱える複合的な課題に対応しきれていない。
- 会話型AIが留学生の長期的な適応を支援するための可能性を探求し,具体的な提言を行う。
- 調査の結果,AIは即時的な課題解決ツールとして認識されている。
- 留学生はAIを短期的な支援から長期的な伴侶へと進化させることに興味を示している。
- AIが長期的な支援を提供できる範囲と,その限界を特定し,個別ニーズに合わせたAI支援策を提案する。
自然合成:大規模推論モデルによるリアクティブ合成ツールの性能向上 [cs.LG]目的:リアクティブ合成と自然言語からの形式仕様の自動生成
- ハードウェア検証において,形式的な手法は信頼性の高い設計に不可欠であり,自動化が課題。
- 形式仕様の記述が困難であり,リアクティブ合成は計算量的に難しいことが課題。
- 大規模推論モデルとモデルチェッカを組み合わせ,自然言語から直接ハードウェアを生成すること。
- 提案手法は,年次合成競技会において既存のツールを上回る性能を示した。
- パラメータ化されたシステムの構築にも対応し,決定不能問題への拡張を実現した。
- 自然言語からの自動形式化により,形式仕様からの開始と同等の性能を達成した。
APWA:並列化可能なエージェントワークフローのための分散アーキテクチャ [cs.AI, cs.DC, cs.MA]目的:並列化可能なエージェントワークフローの効率的な処理
- LLMを活用した自律型マルチエージェントシステムは,多様な分野で複雑な課題解決能力を示す。
- 大規模・複雑なタスクにおいて,推論,協調,計算能力のスケーリングがボトルネックとなる。
- 高並列処理可能なタスクに対するスループット向上を目指し,分散アーキテクチャを提案する。
- APWAは,ワークフローを相互に干渉しない部分問題に分解し,独立したリソースで並列実行を可能にする。
- 多様なデータや並列処理パターンに対応し,幅広い分野のタスクを扱える。
- 評価実験により,APWAが複雑なクエリを並列化可能なワークフローに動的に分解し,既存システムが失敗するタスクでもスケーリングできることを示した。
連続処置に対する因果基盤モデル [cs.LG]目的:連続値をとる介入変数を持つ設定における因果効果予測能力
- 因果推論は多分野で不可欠であり,特に連続処置設定は重要性が増している。
- 従来の二値処置設定からの転換で,連続的な処置値に対する効果表現が課題。
- 未学習のタスクにおける因果効果予測を,追加学習なしに実現すること。
- 提案モデルは,連続処置変数を持つデータ生成プロセスに対する新規事前分布を設計した。
- これにより,豊富な因果学習コーパスを生成し,Transformerを用いて観測データから処置応答曲線を再構成する。
- 特定のタスク向けに学習された因果モデルと比較して,最先端の性能を達成した。
予測可能な失敗を用いた機械学習モデルの訓練 [cs.LG]目的:機械学習モデルの展開規模における失敗頻度の推定
- 機械学習モデルの安全性評価は重要であり,展開前に潜在的なリスクを把握する必要がある。
- 評価セットのサイズが限られており,実際に問題となる失敗事例を捉えきれない場合がある。
- 評価セットの限界を克服し,より正確な展開規模での失敗予測を可能にすること。
- Jonesらの手法には過予測のバイアスが存在し,特に稀な高失敗モードを見逃した場合に予測精度が低下する。
- 提案手法であるforecastability lossは,このバイアスを軽減し,予測精度を向上させる。
- 言語モデルと強化学習の実験で,提案手法は予測誤差を減らしつつ,主要タスクの能力と安全性を維持した。
定着する忘却:回路帰属による量子化永続的アンラーニング [cs.LG, cs.CL, cs.ET]目的:量子化されたモデルにおける機械的アンラーニングの課題解決
- 大規模言語モデルの利用拡大に伴い,プライバシー保護とモデルの安全性確保が重要課題となっている。
- 量子化によってモデルの性能が低下し,アンラーニングの有効性が損なわれる問題が存在する。
- 量子化の影響を受けにくい,より効果的なアンラーニング手法の開発を目指す。
- MANSUは,回路帰属により忘却対象の最小部分グラフを特定し,量子化条件下でも効果的なアンラーニングを実現した。
- MANSUは,既存手法と比較して,有意な忘却,保持保存,PTQギャップの抑制,構造的消去の全てにおいて優位性を示した。
- 回路帰属ダイバージェンス(CAD)は,構造的消去と行動抑制を区別する新たな検証指標として導入された。
乖離を広げる:外れ値注入によるLLM量子化の悪用 [cs.LG, cs.AI]目的:LLM量子化におけるセキュリティリスクの拡大
- LLMの展開にはメモリ効率が不可欠であり,量子化はその重要な手法である。
- 既存の量子化攻撃は単純な量子化手法に限られ,高度な手法への適用が困難であった。
- 多様な量子化手法に対する攻撃を可能にし,量子化のセキュリティリスクを実証する。
- 本研究では,AWQ,GPTQ,GGUF I-quantsなど,高度な量子化手法に対しても悪意のある動作を誘発する攻撃を初めて実現した。
- 攻撃は,量子化時に大きな外れ値が他の重みをゼロに丸め込む性質を利用し,特定の重みブロックに外れ値を注入することで,標的とする重みの崩壊を誘発する。
- 評価の結果,幅広い量子化手法に対して高い成功率を示し,量子化のセキュリティリスクが複雑な手法にも及ぶことを示した。
ペリカン統一1.0:理解,推論,想像,行動を統合する具現化された知能モデル [cs.RO, cs.AI]目的:理解,推論,想像,行動を統合する基盤モデルの構築
- ロボット工学の発展には,環境を理解し,自律的に行動できる知能が不可欠である。
- 従来のモデルは,各機能を個別に学習させており,統合的な学習が困難であった。
- 理解,推論,想像,行動を一つのモデルで統一し,高性能を実現すること。
- ペリカン統一1.0は,単一のチェックポイントで,VLMベンチマークで高い性能を示した。
- WorldArenaにおいて1位,RoboTwinにおいて2位の平均スコアを獲得した。
- この結果は,統一されたパラダイムが専門性を維持しつつ,複数の機能を統合できることを示している。
自己蒸留型エージェント強化学習 [cs.LG, cs.AI, cs.CL]目的:長期的相互作用における密なトークンレベルのガイダンスによるLLMエージェントの性能向上
- LLMエージェントの能力向上は,自然言語処理分野における重要な課題である。
- 強化学習の軌跡レベルの報酬信号は粗く,多段階エージェントの安定化が困難である。
- 自己蒸留をゲート付き補助目的として導入し,強化学習の不安定性を回避し性能を向上させる。
- SDARは,ALFWorld,WebShop,Search-QAにおいて,既存手法(GRPO)を大幅に上回る性能を示した。
- 特に,ALFWorldで+9.4%,Search-QAで+7.0%,WebShop-Accで+10.2%の改善が見られた。
- モデルの規模に関わらず,ハイブリッドRL--OPSDベースラインを安定的に上回る結果が得られた。
MeMo:モデルとしての記憶 [cs.CL, cs.AI, cs.LG]目的:大規模言語モデルへの新たな知識の効率的な組み込み機構
- 実世界アプリケーションでは,常に最新の情報を必要とするため,知識更新が重要である。
- 事前学習済みのLLMは更新が難しく,特定ドメインの情報を迅速に反映させることが課題である。
- LLM自体の変更なしに,外部記憶を活用して新たな知識を効率的に追加することを可能とする。
- MeMoは,複雑な文書間の関係性を捉え,検索ノイズにも強いことが示された。
- LLMのパラメータや出力にアクセスすることなく,オープンソース,クローズドソース両方のLLMに適用可能である。
- BrowseComp-Plus,NarrativeQA,MuSiQueの3つのベンチマークで,既存手法と比較して高い性能を示した。
ハンド・イン・ザ・ループ:シームレスな介入補正による高度なVLAの改善 [cs.RO, cs.LG]目的:高度なVLAにおける,シームレスな介入補正を通じた性能向上
- ロボットによる複雑な操作は,実世界での応用において重要であり,その精度向上が求められている。
- 高次元な行動空間と接触の多い力学系により,VLAモデルは誤差が蓄積しやすく,長時間の操作で問題となる。
- 人間の介入による修正を滑らかに行い,ロボットハンドの急な姿勢変化を防ぐことで,操作の安定性を高める。
- HandITLは,直接的な遠隔操作によるテイクオーバーと比較して,テイクオーバー時のジッターを99.8%削減することに成功した。
- HandITLを用いることで,把持失敗率が87.5%減少し,平均完了時間も19.1%短縮された。
- 介入データを用いたポリシーの改善により,標準的な遠隔操作データで訓練されたポリシーよりも平均19%高い性能を示した。
行動保証は,現在求められる安全性に関する主張を検証できない [cs.LG, cs.AI]目的:AIガバナンスにおける安全性主張の検証限界
- AI技術の発展に伴い,その安全性確保の重要性が増している。
- 既存の行動保証手法では,潜在的なリスクを十分に検証できない。
- 検証可能な範囲を明確化し,安全性確保の信頼性を高めることを目指す。
- 行動保証は,AIの隠れた目的や制御不能のリスク,潜在的な危険性を検証するには限界がある。
- この構造的なミスマッチは「監査のギャップ」と呼ばれ,表面的な行動指標が重視される傾向が分析された。
- 法的文書における行動証拠の重みを制限し,メカニズムに基づいた証拠の活用を提案する。
テキストは何を知っているか,表はいつ知っているか:検索拡張マルチモーダルアラインメントによる臨床タイムライン再構築 [cs.CL, cs.AI, cs.LG, stat.ML]目的:臨床タイムラインの再構築
- 複雑な疾患(敗血症など)の患者経過をモデル化し,リスクを予測する上で不可欠である。
- 臨床ナラティブは詳細だが時間精度が低い。構造化データは正確だが,イベントの網羅性に欠ける。
- テキストと表形式データの統合により,より正確で臨床的に有用なタイムライン再構築を目指す。
- 検索拡張マルチモーダルアラインメントフレームワークにより,絶対的なタイムスタンプの精度が向上した。
- テキストのみでの再構築と比較して,ほとんどの評価モデルで時間的整合性が向上した。
- テキストから抽出されたイベントの34.8%が表形式データに存在しないことが示され,マルチモーダルアラインメントの有効性が確認された。
証拠に基づく推論が解釈可能な現実世界の疾患スクリーニングを促進する [cs.CV, cs.AI, cs.LG]目的:疾患スクリーニングにおける解釈可能性と性能の向上
- 疾患の早期発見と適切な介入は,臨床現場において極めて重要である。
- 既存の画像診断モデルは,解釈性の低さや性能の限界といった課題を抱えている。
- 過去の症例を参照し,透明性の高い推論経路を示すスクリーニング手法の開発。
- 提案手法EviScreenは,過去症例からの領域レベルの証拠を活用し,解釈可能性の高い疾患スクリーニングを実現した。
- 二つの知識ベースからの証拠検索により,遡及的な解釈可能性を提供し,異常マップを活用することで局所化の解釈性を高めた。
- 確立されたベンチマークにおいて,臨床レベルのリコールを維持しつつ,特異度を大幅に向上させる優れた性能を示した。
OpenDeepThink:ブラッドリー・テリー集計による並行推論 [cs.AI]目的:テスト時計算のスケーリングによるLLMの推論能力向上
- LLMの推論能力向上には計算資源の効率的な活用が不可欠である。
- 複数の候補を並行して生成する際,信頼性の高い選択方法が課題となっている。
- ペアワイズ比較とブラッドリー・テリー集計による,ノイズの少ない選択手法を確立する。
- OpenDeepThinkは,Gemini 3.1 ProのCodeforces Eloを+405ポイント向上させた。
- このパイプラインは,モデルの性能に関わらず転移可能であり,客観的に検証可能なドメインで効果が高かった。
- 専門家による評価と高い一致率を示すCodeforces問題セットCF-73を公開した。
マルチフィジックス基礎モデルにおけるスパース Mixture-of-Experts ルーティングによる負の転移の除去 [cs.LG, cs.AI, physics.comp-ph]目的:マルチフィジックス輸送のためのスパース活性化潜在トランスフォーマーアーキテクチャの開発
- 科学的機械学習は,様々な物理現象を統合的に理解するための基盤技術として重要である。
- 異なる物理現象を同時に学習する際,勾配の衝突や最適化の不安定性といった負の転移が問題となる。
- スパース Mixture-of-Experts を用いて,各物理現象に特化したパラメータパスを構築し,負の転移を抑制することを目指す。
- 提案手法Shodh-MoEは,物理情報を考慮したオートエンコーダとヘルムホルツ様速度パラメータ化を用いることで,正確な質量保存を実現した。
- 分散事前学習の結果,オープンチャネルと多孔質媒体のドメインがそれぞれ異なる専門家ネットワークに自動的に割り当てられることが確認された。
- 両ドメインにおいて同時に収束し,低い潜在空間および物理空間のMSEを達成することで,スパースルーティングの有効性が示された。
2つのネットワークはいつ同じなのか?機械的解釈のためのテンソル類似性 [cs.LG]目的:機械的解釈における計算の同一性の検証
- モデルの内部構造を理解し,予測の根拠を明確化することはAIの信頼性向上に不可欠である。
- 既存の類似性指標は,分布外の挙動や重み空間の対称性を考慮していない。
- テンソルベースモデルにおいて,これらの課題を克服し,機能的な同等性を正確に評価すること。
- 提案手法であるテンソル類似性は,重み空間の対称性に対して不変であり,グローバルな機能的同等性を捉える。
- 実験的に,テンソル類似性は,既存の指標よりもgrokkigやバックドア挿入といった機能的な学習ダイナミクスを高い忠実度で追跡できる。
- これにより,類似性の測定と忠実性の検証は,経験的な近似の問題ではなく,解決された代数的な問題へと変化する。
