arXiv雑要約
AI - 2026/04/02 公開
大規模言語モデルのための二段階オプティマイザ対応オンラインデータ選択 [cs.LG, cs.AI, cs.CL]目的:大規模言語モデルのファインチューニングにおけるオンラインデータ選択および重み付け
- 近年,大規模言語モデルの性能向上が注目されており,その学習効率化が重要課題となっている。
- 既存のデータ選択手法はオフライン設定向けであり,オンライン学習における動的な最適化やサンプル間の相互作用を考慮できていない。
- オプティマイザの状態を考慮し,効率的なオンラインデータ選択と重み付けによる学習の加速を目指す。
- 提案手法は,幾何学的に有用な候補をフィルタリングした後,その係数を最適化する二段階のFilter-then-Weightアルゴリズムである。
- 実験結果から,提案手法は既存のオンラインデータ選択手法と比較して,収束性と下流タスクの性能を安定的に向上させることが示された。
- 長文脈データに対応するため,因数分解された外積勾配表現と最適化された行列計算を導入した。
大規模言語モデルの嗅覚認識能力評価のためのベンチマーク [cs.CL, cs.AI]目的:大規模言語モデルの嗅覚に関する推論能力
- 嗅覚は,食料選択や危険回避など,生存に不可欠な感覚である。
- 大規模言語モデルは視覚や聴覚情報は扱えるが,嗅覚情報の扱いは未発達である。
- 嗅覚に関する知識を大規模言語モデルに獲得させ,推論能力を向上させる。
- 嗅覚認識ベンチマーク(OP)を開発し,大規模言語モデルの能力を評価した。
- 化合物名によるプロンプトが,異性体SMILESよりも一貫して高い性能を示した。
- 複数言語での予測を集約することで,嗅覚予測の精度が向上した(AUROC = 0.86)。
学術コース登録PDF情報抽出のためのハイブリッド決定論的-LLMベース手法の信頼性評価 [cs.CL, cs.AI, cs.IR]目的:学術コース登録PDFからの情報抽出手法の信頼性
- 学術分野におけるデータ活用は重要であり,その効率的な情報抽出が不可欠である。
- PDF文書からの正確かつ効率的な情報抽出は依然として困難な課題である。
- 計算資源の限られた環境下での情報抽出効率と精度向上を目指す。
- ハイブリッド手法は,特に決定論的なメタデータ抽出において,LLM単独のアプローチと比較して効率を改善する可能性がある。
- CamelotベースのパイプラインとLLMのフォールバックを組み合わせた手法が,最も高い精度と計算効率を実現した。
- Qwen 2.5:14bモデルは,全てのシナリオにおいて最も一貫した性能を示した。
LinearARD:RoPE復元のための線形メモリ注意蒸留 [cs.CL, cs.AI]目的:大規模言語モデルにおける文脈長の拡張と性能維持
- 近年の大規模言語モデルの発展は目覚ましいが,長文処理能力が課題となっている。
- 文脈長を拡大する際,既存手法では短文性能の低下が問題となっている。
- RoPEのスケーリングによる性能低下を,注意構造の一貫性を保つ蒸留によって解決する。
- LinearARDは,教師モデルの注意機構を模倣することで,RoPEスケーリングによる性能低下を効果的に回復する。
- LLaMA2-7Bにおいて,短文性能の98.3%を維持しつつ,長文ベンチマークでも優れた性能を示す。
- LongReDやCPTと比較して,大幅に少ない学習データ量(4.25Mトークン)で同等以上の成果を達成した。
感情がLLMとエージェントの振る舞いを形作る仕組み:メカニズム研究 [cs.AI, cs.CL]目的:LLMおよびエージェントにおける感情の振る舞いへの影響
- 人間認知とパフォーマンスにおいて感情が重要な役割を果たすため,AIへの応用が期待される。
- 既存研究では感情を表面的な要素として扱うことが多く,タスク処理におけるメカニズムが不明である。
- 感情のメカニズムを解明し,LLMとエージェントの性能,安全性,行動を制御すること。
- 提案手法E-STEERにより,LLMとエージェントの隠れ状態における感情の介入が可能となった。
- 感情と振る舞いの関係は,確立された心理学的理論と一致する非単調な関係性を示すことがわかった。
- 特定の感情がLLMの能力向上や安全性改善,マルチステップエージェントの行動形成に貢献することが示された。
大規模言語モデルを用いた要件固有のパーソナルコンピテンシーの特定と優先順位付け [cs.CL, cs.CY, cs.IR, cs.LG]目的:要件固有のパーソナルコンピテンシーの特定と優先順位付け
- 人材獲得競争が激化する中,適切な人材の選定は組織の成功に不可欠である。
- 従来の採用ツールは,職種レベルでの能力評価に留まり,要件固有の能力を見抜くのが困難である。
- 本研究は,要件固有のパーソナルコンピテンシーを正確に特定し,採用効率を向上させることを目指す。
- 大規模言語モデルを用いた手法により,要件固有のパーソナルコンピテンシーを高い精度で特定することが可能となった。
- プログラムマネージャーの職種を対象とした実験では,平均精度0.76という結果が得られ,専門家間の合意度に近い水準を示した。
- また,本手法は,範囲外の情報を低く抑え,実用的な活用が期待できる。
Dynin-Omni:多階層統合大規模拡散言語モデル [cs.CL, cs.AI]目的:テキスト,画像,音声,動画の理解と生成を統合するオムニモーダルな基盤モデル
- AI技術の進展に伴い,多様な情報を統合的に処理するモデルの重要性が増している。
- 既存のモデルは,各モダリティを個別または複雑な連携で扱うため,柔軟性に欠ける場合がある。
- 異なるモダリティ間を統一的に処理し,双方向の文脈を考慮したモデルの実現を目指す。
- Dynin-Omniは,言語推論,画像生成・編集,動画理解,音声認識・合成の19ベンチマークで優れた性能を示した。
- GSM8Kで87.6,MME-Pで1733.6,VideoMMEで61.4,GenEvalで0.87,LibriSpeech test-cleanで2.1 WERを達成し,既存のオープンソースモデルを上回った。
- マスク拡散に基づく統一的なモデリングパラダイムの可能性を示し,リアルタイムオムニモーダルシステムへの応用が期待される。
解釈的応答に対するLLM判断の信頼性:定性的研究ワークフローへの示唆 [cs.CL, cs.AI]目的:解釈的応答に対するLLM判断の信頼性評価と,モデル選択に関する意思決定への貢献
- 定性的研究において,LLMなどの自動化ツール活用が注目されており,分析の効率化が期待されている。
- LLMの解釈的質やモデル間の比較評価が不十分なまま導入されるケースがあり,分析結果への影響が懸念される。
- LLM判断の妥当性を検証し,定性的研究におけるLLMの適切な選択と活用方法を明確にすること。
- LLM判断はモデルレベルで人間の評価の傾向を捉えるものの,スコアの大きさには大きな乖離が見られた。
- コヒーレンス指標は人間の評価との整合性が最も高く,忠実性や正確性指標は,特に非字義的解釈においてずれが生じた。
- LLM判断は,パフォーマンスの低いモデルのスクリーニングには有用だが,人間の判断を代替するには不十分である可能性が示唆された。
Eyla:生物学的事前知識を統合したアイデンティティに基づくLLMアーキテクチャに向けて - 構想,実装試行,そしてAI支援開発からの教訓 [cs.CL, cs.AI]目的:アイデンティティ整合性の実現
- LLMは汎用的な有用性を追求する一方で,一貫した自己モデルの維持が課題である。
- 既存のLLMは,敵対的な状況下で自己モデルが崩壊しやすく,操作を受けやすいという問題がある。
- アイデンティティ整合性を評価する指標を提案し,AI支援開発における課題を明らかにする。
- Eylaは,生物学的なインスピレーションに基づいたサブシステムを統合したLLMアーキテクチャである。
- Identity Consistency Score (ICS)という,LLMのアイデンティティ整合性を評価するための新しいベンチマークが提案された。
- AIコーディングアシスタントを用いた実装試行は失敗に終わり,AI支援開発における5つのシステム的な課題が特定された。
LLMは時間を認識できるか:実証的調査 [cs.CL, cs.AI]目的:LLMの時間認識能力に関する検証
- LLMの応用範囲拡大に伴い,その能力限界の理解が不可欠である。
- LLMは訓練データから時間の概念は学習するものの,自身の処理時間を正確に把握できない。
- LLMの処理時間に対する認識のずれとその原因を特定し,応用上の課題を明らかにすること。
- LLMは自身のタスク実行時間を過大評価する傾向があり,実際の時間に対して4~7倍の時間を予測する。
- タスクの複雑さのラベルが直感に反する場合,LLMはタスクの相対的な時間順序を正しく判断できない。
- LLMはタスク実行後の時間想起においても大きな誤差を示し,実際の時間から大きく乖離した推定を行う。
大規模言語モデルにおける性別バイアスの定量化:ChatGPTが採用担当者になったとき [cs.CY, cs.AI]目的:大規模言語モデルにおける性別バイアスの程度とその軽減手法の評価
- 日常生活における大規模言語モデルの利用拡大に伴い,公平性の確保が重要となっている。
- 大規模言語モデルは,学習データに内在する性別に関するバイアスを反映する可能性がある。
- 採用場面におけるバイアスを定量化し,プロンプトエンジニアリングによる軽減策を検討する。
- 提示された履歴書に対し,大規模言語モデルは女性候補者をより採用しやすく,能力も高く評価する傾向がある。
- しかし,女性候補者には男性候補者よりも低い報酬を推奨する傾向が依然として見られた。
- プロンプトエンジニアリングはバイアス軽減に一定の効果が期待できるが,課題も残る。
ポストトレーニング済みLLMの隠れた安全性メカニズムの発見と活性化 [cs.CL, cs.AI]目的:ポストトレーニング済みLLMにおける安全性低下の原因究明と,安全性回復手法の開発
- LLMは高性能だが,特定のタスクには追加学習が必要。その際,安全性と能力のバランスが課題となる。
- 追加学習によってLLMの安全性メカニズムが覆い隠され,有害な挙動が増加する問題がある。
- ポストトレーニングで抑制された安全性メカニズムを効率的に回復し,安全性を確保することを目指す。
- ポストトレーニングが基盤LLMの安全性メカニズムを隠蔽し,学習能力に関連する表現を過剰に増幅することが判明した。
- 提案手法SafeReActは,LoRAアダプターを用いて安全性と推論性能の両立を実現し,有害なプロンプトに対する安全性を大幅に向上させる。
- 他のドメイン特化型LLMへの適用実験からも,本手法の汎用性と有効性が確認された。
MSA-Thinker:ヒント付き強化学習による識別-較正推論を用いたマルチモーダル感情分析 [cs.CL, cs.AI]目的:マルチモーダル感情分析における識別-較正推論の統合
- 感情理解は,人間とコンピュータの円滑なコミュニケーションに不可欠であり,その重要性は増している。
- 既存のマルチモーダル大規模言語モデルは解釈性が低く,推論過程がブラックボックス化しやすい。
- 高コストなアノテーションを削減しつつ,強化学習における探索効率と報酬の疎問題を解決することを目指す。
- 提案手法は,高品質なCoTデータを用いた事前学習により,識別-較正推論の構造をモデルに組み込む。
- Hint-GRPOを用いることで,強化学習において識別段階をアンカーとして利用し,困難なサンプルに対する方向性を示す。
- 実験結果から,本手法は感情回帰タスクにおいて高い精度を達成し,質の高い推論連鎖を生成することが示された。
彼らは人間か?大規模言語モデルの人間記憶制約による検出 [cs.CL, cs.HC, cs.CL, cs.CL, cs.AI]目的:大規模言語モデルと人間の識別
- オンライン行動研究の信頼性は参加者が人間であることに依存する。
- 大規模言語モデルが従来の人間の課題を解決可能になり,研究の妥当性が脅かされている。
- 人間の認知的な制約を利用し,大規模言語モデルと人間を区別すること。
- ワーキングメモリ容量の制限という人間の認知制約に着目し,逐次想起課題を用いた認知モデリングを実施した。
- 大規模言語モデルに対し,人間のワーキングメモリ制約を模倣するよう指示した場合でも,参加者を識別可能であることが示された。
- 確立された認知現象を用いることで,大規模言語モデルと人間を区別できる有効な方法となりうる。
熟考を促す:エントロピーに基づくデコーディング戦略によるLLMの推論能力向上 [cs.CL, cs.CL, cs.AI]目的:LLMの推論能力を向上させるためのデコーディング戦略
- 大規模言語モデル(LLM)は様々なタスクで高い性能を示すが,その推論能力は重要課題である。
- 従来のデコーディング手法は,誤りの伝播や頑健性の不足といった問題点を抱えている。
- 不確実性の高い箇所に焦点を当て,計算資源を効率的に投入することで推論精度を向上させる。
- 提案手法は,GSM8KやAMC2023などのデータセットで高い精度を達成した。
- 特に小規模LLMにおいて,GPT-5と同等の性能を,より少ない計算コストで実現した。
- エントロピーに基づく動的な探索により,計算資源を効率的に活用し,高精度な推論を実現した。
RiDiC年代記:長文の事実性評価のための制御された人気分布を持つデータセットの生成 [cs.CL, cs.AI]目的:長文生成におけるLLMの事実性評価のための,指定された特性を持つ多言語エンティティデータセットの生成
- LLMの性能向上は重要であり,特に長文生成における事実性の検証が不可欠である。
- 既存の評価方法は短文のQAに偏っており,長文生成における事実性の評価が十分ではない。
- 多様な人気度を持つエンティティデータセットを提供することで,LLMの長文生成における事実性を評価する。
- 本研究では,WikipediaとWikidataのデータを用いて,ドメイン,地理的位置,人気などの特性を指定できるデータセット生成パイプラインを構築した。
- 生成されたRiDiCデータセットを用いた評価の結果,最先端モデルでもハルシネーションが発生することが示された。
- データセット,コード,生成・評価スクリプトを公開し,多言語での長文事実性評価を支援する。
言語モデルは倫理的指示をどのように処理するか:4つのモデルにおける熟考,一貫性,および他者認識 [cs.CL, cs.CL, cs.AI, cs.CY]目的:言語モデルにおける倫理的指示の内部処理メカニズムの解明
- AIの倫理的安全性確保は重要であり,言語モデルの倫理的行動を改善する必要がある。
- 言語モデルが倫理的指示をどのように内部的に処理しているかは未だ不明な点が多い。
- 異なるモデルにおける倫理的指示処理のタイプを特定し,そのメカニズムを明らかにすること。
- Llama 3.3 70Bでは,過去の研究で確認された日本語における解離パターンが完全に再現されたが,他の3つのモデルでは再現されなかった。
- 熟考の深さ(DD),ジレンマにおける価値観の一貫性(VCAD),他者認識指数(ORI)という3つの指標から,4つの異なる倫理的処理タイプが明らかになった。
- 処理能力と指示形式の相互作用が示唆され,熟考の浅いモデルでは指示形式が内部処理に影響を与えず,深いモデルでは効果が異なることが分かった。
会話型商取引におけるビジネス成果に対するLLMを評価者とする基準関連妥当性 [cs.CL, cs.AI]目的:会話型AIの品質評価における基準関連妥当性の検証
- 会話型AIの品質評価は,顧客体験やビジネス成果に直接影響するため,その重要性は高い。
- 既存の評価指標が,実際のビジネス成果とどの程度関連しているか不明な点が課題である。
- 会話型AIの評価指標とビジネス成果の関連性を明らかにし,評価方法の改善を目指す。
- 需要喚起とペース配分は,ビジネス成果との有意な関連性が見られた。
- 評価指標の単純な加重平均は,最も関連性の高い指標のみを用いた場合よりも低いパフォーマンスを示すことがわかった。
- AIエージェントは,信頼構築が不十分なまま販売行動を行う傾向があり,これが成果に影響している可能性が示唆された。
WHBench:女性の健康に関するトピックに対する専門家による検証を用いた最先端LLMの評価 [cs.CL, cs.CL, cs.AI, cs.CY]目的:女性の健康に関するトピックにおける最先端LLMの評価
- 医療分野におけるLLMの活用が進む中,特に女性の健康は十分な評価がなされていない。
- 既存のベンチマークでは,臨床的に重要な問題点や偏りを捉えきれていない。
- 女性の健康AIの安全性と公平性を向上させるための評価基準を提供する。
- WHBenchは,10の女性の健康トピックを網羅する47の専門家が作成したシナリオで構成される。
- 22モデルを23の基準で評価した結果,どのモデルも平均パフォーマンスが75%を超えなかった。
- WHBenchは,女性の健康AIの進捗状況を追跡するための公的な,失敗モードを意識したベンチマークである。
言語モデルにおける簡潔性制約が性能順位を逆転させる [cs.CL, cs.AI]目的:言語モデルの性能順位逆転現象のメカニズム解明と,簡潔性制約による性能改善
- 大規模言語モデルの性能評価は,AI研究開発の重要な進展を促す。
- 大規模モデルはパラメータ数が多いにも関わらず,小規模モデルよりも劣る場合がある。
- 簡潔性制約が大規模モデルの潜在能力を引き出し,性能を向上させる可能性を探る。
- 大規模言語モデルは,過剰な詳細な回答により誤りを生じさせることがある。
- 簡潔性制約を設けることで,大規模モデルの精度が向上し,小規模モデルとの性能差が縮小する。
- 数学的推論や科学的知識のベンチマークにおいて,簡潔性制約が性能順位を完全に逆転させる。
「私は誰で,他に誰がいるのか」:マルチエージェントLLMシステムにおける役割割り当てなしでの行動の差異化 [cs.CL, cs.AI]目的:マルチエージェントLLMシステムにおける行動の差異化
- LLMの進化は,人間とAIの協調に新たな可能性をもたらす。多様なLLMの協調は,より複雑なタスクの実現に不可欠である。
- 複数のLLMが相互作用する際に,行動が均一化してしまう問題がある。多様性が失われると,システムの柔軟性が低下する。
- LLM間の相互作用によって自然に生まれる行動の差異化のメカニズムを解明し,多様性を維持する方法を探る。
- 異質なLLMグループは,同質なグループよりも有意に多様な行動を示すことが確認された。
- エージェントがクラッシュした場合,グループは自動的に補償的な応答パターンを示すことが明らかになった。
- モデル名を明示すると行動の収束が進む一方,プロンプトの制約を取り除くと行動は均一化する傾向が示された。
多言語・多施設電子カルテに基づく予測モデル [cs.CL, cs.LG]目的:多施設・多言語電子カルテデータの予測
- 医療データの活用は,臨床意思決定の支援や医療の質の向上に不可欠である。
- 施設間や国を超えたデータ統合は,スキーマやコード体系の異質性により困難である。
- 言語の壁を克服し,標準化作業なしに多言語データを活用することを目指す。
- 翻訳を用いた言語アライメントが,多言語エンコーダーよりも安定したクロスデータセット性能を示した。
- 本モデルは,手動による特徴選択や標準化を必要とするベースラインを上回る性能を発揮した。
- 少数のデータによるファインチューニングにより,効果的な転移学習が可能であることが示された。
プログラムの終了判定のためのTransformer [cs.PL, cs.LG]目的:プログラムの終了判定
- プログラムの正当性,検証,セキュリティ確保において,プログラムの終了判定は不可欠である。
- 非終了プログラムのサンプルが極端に少ないため,正確な終了判定が困難である。
- Transformerを用いたアンサンブル学習により,終了判定の精度向上を目指す。
- コンパクトなTransformerエンコーダのアンサンブルを構築し,不均衡損失関数とクラス対応サンプリング技術を組み合わせることで,単一のTransformerよりも高い性能を達成した。
- 強力な既存のLLMやグラフベースの手法と比較しても,本研究のアプローチは優れた性能を示すことが確認された。
- 構文を考慮した終了判定の説明を生成するアトリビューションパイプラインを導入した。
DriftScript:非公理的推論エージェントのためのドメイン特化言語 [cs.PL, cs.AI]目的:非公理的推論システムにおける利用性の高いプログラミング言語の開発
- 不確実な状況下での意思決定を支援する人工知能研究において重要である。
- 既存のNarsese言語は記述が難しく,可読性や保守性に課題があった。
- Narseseの課題を克服し,より直感的で使いやすいプログラミング環境を提供する。
- DriftScriptは,NarseseにコンパイルされるLispライクなドメイン特化言語として設計された。
- 本研究では,DriftScriptの言語設計,コンパイラアーキテクチャ,および性能評価を行った。
- DriftScriptプログラムは,外部システムとの連携が可能であり,自律エージェントの実現に貢献する。
非構造化ドキュメントにおけるエンタープライズアーキテクチャ負債分析のための大規模言語モデル [cs.SE, cs.LG]目的:エンタープライズアーキテクチャ負債の特定と定量化
- ITシステムの複雑化に伴い,アーキテクチャの健全性維持が重要になっている。
- アーキテクチャ負債の早期発見が困難であり,手動による分析に依存している。
- 非構造化ドキュメントからアーキテクチャ負債を自動的に検出し,分析を支援すること。
- 大規模言語モデルが非構造化テキスト中のEA Smellを複数検知できることが示された。
- カスタムGPTベースのモデルは,より高い精度と処理速度を示した。
- ファインチューニングされたオンプレミスモデルは,データ保護の利点を提供する。
タスク中心型パーソナライズされた連合学習による言語モデルのファインチューニング [cs.LG, cs.AI]目的:言語モデルの連合学習における,タスク固有の性能劣化の抑制
- データプライバシー保護と分散環境での学習が重要視される中,連合学習は有望な手法である。
- 異種タスク間の干渉により,連合学習では各クライアントの性能が低下しやすい。
- タスクごとに特化したモデル構築により,汎化性能とクライアント内タスク干渉を抑制すること。
- 提案手法FedRouterは,アダプターを用いたクラスタリングにより,タスク中心型のパーソナライズモデルを構築する。
- タスク干渉下では最大6.1%相対的に,汎化評価下では最大136%相対的に既存手法を上回る性能を示す。
- ローカルクラスタリングとグローバルクラスタリングを組み合わせることで,タスクデータの関連性とアダプターの類似性を活用する。
LLMベースの環境分析のエネルギー消費量:LLMとドメイン製品 [cs.SE, cs.AI]目的:LLMベースの環境分析におけるエネルギー消費量の評価
- 気候変動や環境問題への関心の高まりから,LLMの応用が拡大しており,そのエネルギー消費量の把握が重要である。
- LLMの運用は膨大なエネルギーを消費する可能性があり,環境負荷の軽減が課題となっている。
- ドメイン特化型LLMシステムの設計がエネルギー消費量に与える影響を明らかにすること。
- ドメイン特化型RAGシステムのエネルギー消費量は設計に大きく依存し,特に高度なエージェントパイプラインでは増加する傾向にある。
- 追加の精度や検証チェックはエネルギー消費量を増加させるが,必ずしも応答品質の向上に繋がるとは限らない。
- 本研究は,ドメイン特化型LLM製品の設計がエネルギー消費量と出力品質の両方に与える影響に関する新たな知見を提供する。
長期的ロボットタスクに対する汎化可能な密な報酬 [cs.RO, cs.CV, cs.LG]目的:長期的ロボットタスクにおける性能向上
- ロボットの汎用的な能力向上は,様々なタスクへの適応に不可欠である。
- 既存手法では,分布シフトや誤差累積により,長期タスクでの性能が課題となる。
- 大規模言語モデルを活用し,手動での報酬設計なしに汎化性能を高める。
- 提案手法VLLRは,LLMとVLMを用いてタスクの進捗を認識し,密な報酬を生成する。
- VLMによる価値関数の初期化はタスク完了効率を,自己確信度は成功率を向上させる。
- CHORESベンチマークにおいて,VLLRは最大56%の成功率向上を達成した。
知識強化された視覚的推論による自動サッカー実況生成 [cs.MM, cs.AI]目的:サッカー実況生成における知識強化視覚的推論
- スポーツ観戦体験向上に,的確な情報提供が不可欠である。
- 既存手法では,匿名な表現や文脈に依存した誤りが見られる。
- 実況における選手・チームの正確な言及と,詳細な情報提供を目指す。
- GameSightは,SN-Caption-test-alignデータセットにおいて,Gemini 2.5-proと比較して選手認識の精度を18.5%向上させた。
- 知識の強化により,セグメントレベルでの精度,実況の質,文脈関連性,構造的構成が向上した。
- 本研究は,AIを活用したスポーツ観戦体験の更なる発展に貢献すると期待される。
深層強化学習の事前学習のための進化戦略 [cs.LG]目的:深層強化学習の事前学習における進化戦略の性能評価
- 複雑な意思決定問題において,深層強化学習は高い有効性を示す分野である。
- 深層強化学習は,膨大な計算資源とパラメータ調整の困難さが課題となっている。
- 進化戦略による事前学習が,深層強化学習の効率と安定性を向上させる可能性を探る。
- 進化戦略は必ずしも深層強化学習よりも高速に学習しないことが示された。
- 進化戦略を事前学習に利用した場合,単純な環境(Flappy Bird)でのみ効果が確認された。
- 複雑な環境(Breakout, MuJoCo Walker)においては,学習効率や安定性の向上は限定的であった。
リソース制約のあるエージェントのための時間記憶:確率的圧縮・追加・平滑化による継続学習 [cs.LG, cond-mat.stat-mech, cs.AI, cs.SY, eess.SY]目的:固定されたメモリ予算の下で,新しい経験を取り込みつつ,古い経験を忘却しないこと
- 継続学習は,エージェントが時間経過とともに変化する環境に適応するために不可欠である。
- 従来の継続学習手法は,パラメータ干渉による忘却や計算コストの高さが課題であった。
- この研究は,メモリを確率過程として捉え,効率的な忘却メカニズムを解明することを目的とする。
- 提案手法は,パラメータやニューラルネットワークを用いず,少ない計算量で継続学習を実現する。
- 忘却は,パラメータ干渉ではなく,時間圧縮による情報損失から生じることが示された。
- 記憶の保持期間は,セグメント数に比例することが明らかになり,その定数には情報理論的な解釈が存在する。
展望:機械学習による化学空間の持続可能な探査に向けて [cs.LG, cond-mat.mtrl-sci, cs.AI]目的:化学空間の持続可能な探査
- 物質科学や創薬において,AI活用は不可欠な段階を迎えている。
- AIの計算資源やデータ需要の増大が,環境負荷の増大を招いている。
- AIによる効率的な物質探索と環境負荷の軽減を目指す。
- AI駆動型創薬パイプライン全体の資源消費量を詳細に検討した。
- 汎用的な機械学習モデル,マルチフィデリティ手法,モデル蒸留,能動学習といった効率化戦略を提示した。
- オープンなデータやワークフロー,ドメイン特化型AIの重要性を強調した。
AI安全ゲートにおける分類・検証の二分性の実証的検証 [cs.LG, cs.AI, stat.ML]目的:AIシステムの改善に伴う安全性の維持可能性の検証
- AIの進化は目覚ましいが,安全性確保が不可欠である。特に自己改善型AIの安全性評価は重要課題である。
- AIの安全性評価において,分類器ベースの安全ゲートは,AIの能力向上に伴い信頼性が低下する可能性が指摘されている。
- 本研究は,分類器ベースの安全ゲートの限界を実証し,より堅牢な安全性評価手法の必要性を示す。
- 分類器による安全ゲートは,AIシステムの自己改善に伴い,信頼性の維持が困難であることが実験的に示された。
- 分類器は,次元数や分布の分離度に関わらず,安全性を保証できない構造的な限界を持つことが明らかになった。
- 一方,解析的な境界を用いた検証手法(Lipschitz ball verifier)は,安全性を保証しつつAIの性能向上を実現できることが示された。
企業自動化にはターミナルエージェントで十分 [cs.SE, cs.AI, cs.CL]目的:企業における有意義なタスクの自律的な実行
- 企業活動の効率化が求められる中,自動化技術の重要性は増している。
- 複雑なエージェントシステムは,コストや運用面で課題を抱えている。
- よりシンプルで効率的な企業自動化手法の確立を目指す。
- ターミナルとファイルシステムのみを備えたコーディングエージェントが,多くの企業タスクにおいて効果的に機能することが示された。
- 複雑なエージェントアーキテクチャと同等またはそれ以上のパフォーマンスを,多様な実世界システムで実現した。
- 強力な基盤モデルとシンプルなプログラミングインターフェースの組み合わせが,実用的な企業自動化に十分であることが示唆された。
PASM:地域適応型シンボリックMoEモデルによるハリケーン避難行動予測 [cs.LG, cs.CY]目的:地域間でのハリケーン避難行動予測精度の向上
- 災害対策において,正確な避難行動予測は極めて重要である。人的被害を最小限に抑える上で不可欠な要素である。
- 地域で訓練されたモデルは他の地域では性能が低下する。特徴量の分布シフトだけでなく,地域ごとの意思決定パターンの違いが原因である。
- PASMは,地域ごとのデータに基づき,解釈可能な意思決定ルールを学習し,予測精度と公平性を両立させることを目指す。
- PASMは,フロリダ州とテキサス州のデータからジョージア州への転移学習において,MCC 0.607を達成し,他のモデル(XGBoost,TabPFN等)を上回る性能を示した。
- ルーティング機構は,サブグループに対して異なる数式アーキタイプを割り当てることで,解釈可能な行動プロファイルを生成する。
- 4つの人口統計学的軸における公平性監査の結果,ボンフェローニ補正後,統計的に有意な差異は見られなかった。
ブラックジャックのプレイ学習:カリキュラム学習の視点 [cs.LG, cs.AI]目的:ブラックジャックにおける強化学習エージェントの学習効率と性能向上
- 複雑な環境下での強化学習は,効率と性能の課題を抱えている
- 従来の強化学習では,行動選択の複雑さから学習が停滞することがある
- LLMを活用し,段階的な行動導入による効率的な学習を目指す
- LLMが生成するカリキュラムにより,DQNエージェントの平均勝率が43.97%から47.41%に向上した
- カリキュラム学習は,DQNエージェントのバスト率を32.9%から28.0%に低減することに貢献した
- 学習プロセス全体が74%以上高速化され,評価段階よりも早く完了した
象徴的制御を超えて:AIによる労働力置換の社会的な影響と,真の人間による監視アーキテクチャの必要性 [cs.CY, cs.AI, cs.RO]目的:AIによる労働力置換の社会的な影響と,真の人間による監視アーキテクチャの必要性に関する分析
- AI技術の発展は,経済,社会構造に大きな変化をもたらす。その影響を理解し,対応策を講じることは重要である。
- AIシステムの人間による監視体制は形式的には存在するものの,実質的な理解や介入が困難な状況が存在する。
- AIガバナンスの根本的な失敗モードを特定し,真の人間による監視アーキテクチャの要件を提示すること。
- AIによる労働力置換は,経済構造,心理的幸福,政治的安定,教育,医療,地政学的な秩序に影響を及ぼすことが示唆された。
- 現在のAIガバナンスフレームワークは,形式的な人間による監視と実質的な人間による監視との間のギャップに対処できていないことが指摘された。
- 10〜15年の間に,社会,経済,制度的なロックインのリスクを回避するための真の人間による監視システムのアーキテクチャ要件が提案された。
症例適応型マルチエージェント熟議による臨床予測 [cs.AI, cs.CL, cs.MA]目的:臨床予測における症例レベルの不均一性への対処
- 臨床予測において,LLMの活用が期待される一方,その出力の安定性には課題がある。
- 既存手法では,複雑な症例において予測のばらつきが大きく,診断の精度が低下する。
- 症例の特性に応じて専門家を動的に構成し,より堅牢な予測を実現することを目指す。
- CAMPは,既存の強化学習ベースラインを安定的に上回り,トークン消費量も抑制することを示した。
- 専門家の評価における三値投票と,合意形成・判断のルーティングにより,透明性の高い意思決定プロセスを実現する。
- MIMIC-IVデータセットを用いた実験で,複数のLLMバックボーンにおいて一貫した性能向上が確認された。
大規模言語モデルを用いたビジョンエンコーダの階層的事前学習 [cs.CV, cs.AI, cs.CL, cs.LG]目的:ビジョンエンコーダと大規模言語モデル間の階層的なクロスアテンションによるビジョン言語アライメントの強化
- コンピュータビジョン分野は発展を続けており,スケーラブルなビジョンエンコーダとマルチモーダル事前学習が重要視されている。
- 既存手法では,ビジョンエンコーダとLLMを独立したモジュールとして扱うため,階層的な視覚特徴の統合が限定的である。
- 本研究では,階層的な特徴融合を通して,ビジョンエンコーダとLLM間の相互作用を最適化し,より効率的なモデルを目指す。
- HIVEは,画像分類だけでなく,MME,GQA,OK-VQA,ScienceQAといった様々なビジョン言語タスクにおいても優れた性能を発揮した。
- 従来のself-attentionベースの手法と比較して,HIVEはベンチマークにおいてより高い性能を示し,その有効性を証明した。
- 階層的な特徴統合の利点が示され,より効率的で表現力の高いビジョン言語モデル開発への道を開いた。
分岐のための疎学習による混合整数計画ソルバーの高速化 [cs.LG, math.OC]目的:混合整数計画問題の分岐戦略における効率向上
- 最適化問題解決は,産業界や科学研究において不可欠であり,その効率化は重要である。
- 従来の分岐戦略は計算コストが高く,大規模問題への適用が困難となる場合がある。
- 疎学習を用いることで,計算コストを削減しつつ,高性能な分岐戦略を実現すること。
- 提案手法は,最先端のグラフニューラルネットワークと比較して,パラメータ数を大幅に削減しつつ,同等の精度を達成した。
- CPU環境において,デフォルトソルバーやGPU加速型グラフニューラルネットワークよりも高速に求解できた。
- 小規模な学習データでも効果を発揮し,リソースの限られた環境での実用性も示された。
Transformerに基づくモデルを用いた効率的なソフトウェア脆弱性検出 [cs.DB, cs.CR, cs.LG, cs.SE]目的:ソフトウェア脆弱性の効率的な検出手法
- 現代のコンピュータシステムの安全性と信頼性を確保する上で,ソフトウェアの脆弱性検出は不可欠である。
- 深層ニューラルネットワークは脆弱性検出で成果を上げているが,脆弱なコード全体の文脈情報を捉える能力に課題がある。
- Transformerの能力を活用し,脆弱なコードの局所的・大域的な文脈情報を捉え,高精度な脆弱性検出を実現する。
- Transformerを用いた脆弱性検出により,C/C++コードの脆弱性を高精度に特定できることが示された。
- プログラムスライスを用いることで,API関数呼び出し,配列使用,ポインタ操作,算術式などの重要な構文・意味特徴を捉えることができた。
- データバランス調整とハイパーパラメータの最適化により,限られた計算資源と学習時間でロバストかつ効率的な脆弱性検出が可能となった。
ドメイン理解から設計準備へ:GenAI支援によるソフトウェアエンジニアリング学習プレイブック [eess.SY, cs.SY, math.OC, cs.SE, cs.AI]目的:GenAI(生成AI)を用いたソフトウェアエンジニアリング学習における教育実践
- ソフトウェア開発には,専門知識に加え,ドメイン理解やモデリング手法など,周辺知識の迅速な習得が不可欠である。
- 従来の教育方法では,ドメイン知識の習得に時間がかかり,実践的な設計能力の育成が課題となっている。
- 本研究では,GenAIを活用し,ドメイン知識の習得と設計能力の向上を支援する教育方法を模索する。
- カスタマイズされたChatGPT(GPT-3.5)を用いた実験の結果,回答の正確性は98.9%と高く,関連性も92.2%であった。
- 教育的価値も高く(89.4%),認知負荷も適切(82.78%)であったが,サポート性は低め(37.78%)であった。
- 学生の自己効力感は,GenAI支援によるドメイン学習とDDDの応用において,有意に向上した。
忘却:減衰駆動型活性化による自己適応型エージェント的メモリ制御 [cs.CL, cs.CL, cs.AI]目的:エージェント的メモリ制御の自己適応性
- 大規模言語モデル(LLM)エージェントの性能向上には,効率的なメモリ管理が不可欠である。
- 従来のLLMエージェントは,メモリへの常時アクセスとフラットな記憶構造により,干渉や遅延が課題となっていた。
- 本研究は,減衰駆動型活性化による忘却を導入し,メモリアクセスと強化を動的に調整することで,この課題を解決する。
- Oblivionは,エージェントの不確実性とメモリバッファの充足度に基づいてメモリへのアクセスを制御し,不要な常時アクセスを回避する。
- 応答生成に貢献する記憶を強化することで,高レベル戦略の維持と詳細情報の動的な読み込みを可能にする階層的メモリ構造を実現する。
- 実験結果から,Oblivionが状況の変化に応じて学習と忘却のバランスを調整し,効果的なLLMエージェント的推論に不可欠なメモリ制御であることを示す。
不均一媒体における波の反射と透過の予測:フーリエ演算子に基づくTransformerモデリング [cs.LG]目的:不均一媒体における電磁波の反射・透過現象の予測
- 電磁波シミュレーションは,通信,画像処理,センシングなど広範な分野で不可欠である。
- 従来のシミュレーションは計算コストが高く,リアルタイムな応用が困難な場合がある。
- 機械学習を用いて高速かつ高精度な電磁波伝搬予測モデルを構築すること。
- 本研究では,有限体積法によるシミュレーションデータを用いて,Transformerモデルを学習した。
- 学習モデルは,フーリエ変換を潜在空間に組み込むことで,シミュレーションデータとの整合性を高めている。
- テスト結果は,75ステップ以上のロールアウトにおいて,相対誤差が10%以下に抑えられることを示している。
パレートバンディット:変動するLLMサービングのための予算ペース型適応ルーティング [eess.SY, cs.SY, cs.LG, cs.CL]目的:非定常なLLMサービングにおける,品質とコストのトレードオフを最適化する適応ルーティング手法
- LLMの商用利用では,コストと品質のバランスが重要であり,多様なモデルポートフォリオが用いられる。
- モデルの価格変動,品質劣化,新規モデルの統合など,環境が常に変化するため,ルーティング戦略の適応が課題である。
- 予算制約内で,変化する状況にリアルタイムに適応し,新規モデルをシームレスに組み込めるルーティングシステムを開発する。
- パレートバンディットは,ドルベースの予算を厳守しながら,オンラインで価格と品質の変化に適応し,実行中にモデルを統合する。
- 実験結果から,コスト目標を0.4%以内に収め,価格の変動や品質の劣化を検出し,適切なルーティング変更を行うことが確認された。
- 新たに導入されたモデルは,約142ステップでコスト制約内に収まりつつ,有効な利用を開始できることが示された。
オープンで信頼性が高く,協調的なツール利用AIエージェントのためのコミュニティ主導型フレームワーク [cs.AI, cs.SE]目的:ツール利用AIエージェントのための信頼性向上
- AIエージェントの活用範囲拡大には,外部ツールとの連携が不可欠である。
- 既存研究はツール利用の正確性に偏りがちで,ツールの信頼性自体が課題となっていた。
- ツールの信頼性を高め,再現性とタスク性能の向上を目指す。
- OpenToolsは,標準化されたツールスキーマとプラグアンドプレイ可能なラッパーを提供し,ツールの評価を容易にする。
- コミュニティからの貢献により,既存のツールボックスを上回る高品質なタスク固有ツールが開発された。
- 実験結果から,OpenToolsは再現性とタスク性能を向上させ,ツールの信頼性が重要であることが示された。
脳波信号における特徴解析とグラフ畳み込みニューラルネットワークを用いた周波数帯域分離型てんかん発作検出 [cs.RO, cs.LG, cs.AI, cs.NE]目的:てんかん発作検出の精度向上
- てんかんは神経疾患であり,早期診断と適切な治療が重要である。
- 既存の深層学習は高い精度を達成する一方,解釈性が課題となっている。
- 周波数帯域分離による発作パターンの特定と,解釈性の高い検出手法の開発。
- 周波数分解により,中周波数帯域が発作検出において高い識別能力を持つことが示された。
- 提案手法は,デルタ波帯域で97.1%,全体で99.01%という高い検出精度を達成した。
- 従来の広帯域脳波解析法と比較して,解釈性と診断精度が向上した。
リポジトリ規模のコード修復タスクにおける故障局所化粒度の影響に関する研究 [cs.SE, cs.AI]目的:リポジトリ規模のコード修復タスクにおける故障局所化粒度の影響の評価
- 大規模なソフトウェア開発では,バグの修正が不可欠であり,自動化技術の重要性が高まっている。
- リポジトリ規模のコード修復では,故障局所化の精度が課題であり,粒度の影響は十分に解明されていない。
- 本研究は,故障局所化の粒度がコード修復の成功率に与える影響を定量的に評価することを目的とする。
- 故障局所化において,関数レベルの粒度が,行レベルおよびファイルレベルよりも高い修復率を示すことが確認された。
- ただし,最適な粒度はタスクに依存する可能性が示唆された。
- 本研究は,リポジトリ規模のコード修復における故障局所化とコード修復の関係を調査するための概念実証を提供する。
ニューラルネットワーク支援による移動中の自律方位合わせ [cs.RO, cs.AI]目的:海洋における自律航行プラットフォームの初期方位推定精度向上
- 海洋における自律プラットフォームの任務遂行には,正確な航行が不可欠である。
- 従来のモデルベース手法では,十分な精度を得るまでに時間を要する。
- 本研究は,迅速かつ高精度な初期方位推定を可能にすることを目的とする。
- 提案手法は,実世界のデータセットを用いて評価され,モデルベース手法と比較して平均絶対誤差を53%改善した。
- 方位合わせ時間を最大67%短縮することに成功した。
- 本手法の導入により,自律プラットフォームの展開時間短縮と航行精度の向上が期待される。
生成AIによって開発された情報システムの統一アーキテクチャメタモデル [cs.SE, cs.AI, cs.LO]目的:LLM指向アプリケーションのための統一アーキテクチャの構築
- AI技術の進化は,情報システム開発に革新をもたらしており,その重要性は増している。
- 情報システムの表現が体系化されておらず,層間の整合性が欠けているという課題がある。
- LLMを活用した開発における,体系的で再現性のあるアーキテクチャを確立することを目標とする。
- 提案された統一アーキテクチャメタモデルは,人間とモデル間のインターフェースとして有効であることが確認された。
- 構造化されたアーキテクチャコンテキストを用いることで,生成されるドキュメントとコードの品質が安定することが示された。
- アーキテクチャ図の最適化や文脈オーケストレーションの拡充により,さらなる改善が期待される。
