arXiv雑要約
AI - 2026/05/19 公開
推論モデルがカバレッジを失う理由:データと岐路の役割 [cs.DL, cs.SI, cs.LG]目的:推論モデルにおけるカバレッジ低下のメカニズム解明
- 大規模言語モデルの推論能力向上は,複雑なタスク遂行に不可欠である。
- 推論モデルのファインチューニング時に,性能向上とカバレッジ低下が同時に起こり得る。
- 岐路となる状況を含むデータが,カバレッジ低下に影響を与える可能性に着目し,改善策を探る。
- 推論モデルのカバレッジ低下は,ファインチューニングデータに含まれる岐路の頻度と相関関係があることが示された。
- 岐路の状況を模倣したデータ合成によって,カバレッジ低下を部分的に軽減できることが確認された。
- 多様性を促進するデコーディングメカニズムが,カバレッジ低下の抑制に有効であることが示唆された。
PARALLAX:真正な幻覚検出とベンチマーク構築のアーティファクトの分離 [cs.CL, cs.AI]目的:大規模言語モデルの幻覚検出における進捗状況の評価
- 大規模言語モデルの利用拡大に伴い,その信頼性確保が不可欠である。特に医療,法律,科学分野での誤りは深刻な影響を及ぼす。
- 既存の幻覚検出ベンチマークには,正解情報が入力に含まれるなど,問題点が存在し,検出性能を正しく評価できない可能性がある。
- ベンチマーク構築のアーティファクトの影響を排除し,言語モデルの真の幻覚検出能力を評価することを目的とする。
- 既存の多くの幻覚検出手法は,ベンチマークの構造的な問題によって過大評価されていることが示された。
- 正解が入力に含まれるベンチマークでは,単純なテキスト類似度比較ベースラインでも高い検出精度が得られた。
- SAPLMAとDRIFTは,ベンチマークのアーティファクトの影響を受けにくく,安定した性能を示すことが確認された。
大規模言語モデルにおけるコード生成におけるタスク拒否 [cs.SE, cs.AI]目的:大規模言語モデルのコード生成におけるタスク拒否のメカニズム
- コード生成の自動化は,ソフトウェア開発の効率化に不可欠である。
- 大規模言語モデルは,誤ったコードを生成する「幻覚」を起こす可能性がある。
- 幻覚のリスクが高いタスクを特定し,コード生成を回避すること。
- 提案手法は,複数の仮説検定に基づいた校正済みの拒否ルールを用いる。
- コード実行結果による生成の一貫性を評価し,正確な拒否判断を可能にする。
- 既存手法と比較して,幻覚を誘発するタスクからの拒否性能が向上し,安全なコード生成に貢献する。
データ機密性を考慮した検索拡張生成におけるプライバシーポリシー遵守のガードレール [cs.CY, cs.RO, cs.LG, cs.AI, cs.CR]目的:検索拡張生成システムにおけるプライバシーポリシー遵守の枠組み
- 個人情報保護は,AI技術の社会実装において不可欠であり,その重要性はますます高まっている。
- 従来のPIIフィルタでは,文脈に依存した個人情報漏洩を見逃す場合がある。
- 文脈に依存した個人情報漏洩を検出し,プライバシーポリシー遵守を強化すること。
- 二つの異常検知器とテキスト埋め込みを組み合わせたPPEフレームワークを提案した。
- 合成データを用いた評価で,従来の基盤モデルと比較して,境界領域の識別性能が大幅に向上した。
- 提案手法は,誤検知率を44-55%削減し,低遅延を実現し,運用面での優位性を示した。
サプライチェーン管理における自律型AIエージェントの信頼性と有効性 [cs.AI, cs.LG, cs.MA, cs.SY, eess.SY]目的:サプライチェーンにおける自律型生成AIエージェントの性能評価
- サプライチェーンはグローバル経済を支える基盤であり,効率化と最適化が不可欠である。
- AIエージェントの意思決定の信頼性や安定性が課題であり,予期せぬリスクが発生する可能性がある。
- AIエージェントの信頼性を高め,サプライチェーン全体の安定性を実現すること。
- MITビールゲームを用いた実験で,高性能なAIエージェントが人間のパフォーマンスを上回ることが確認された。
- AIエージェントの意思決定における不安定さ,いわゆる「エージェントムチウチ効果」が,多層構造のサプライチェーンにおいて顕著に現れることが示された。
- GRPOを用いた強化学習による後学習によって,AIエージェントの信頼性を高め,サプライチェーン全体の安定性を向上させることができた。
D$^2$Evo:データ効率的な強化学習のための二重難易度を意識した自己進化 [cs.LG, cs.AI, cs.CL]目的:大規模言語モデルの推論能力向上
- 言語モデルの推論能力は重要であり,その向上は様々な応用を可能にする。
- 強化学習では,適切な難易度の訓練データが不足し,モデルの学習が進むにつれて難易度が変化する。
- 難易度を意識した自己進化により,効率的な強化学習を実現し,少ないデータで高い性能を目指す。
- 提案手法D$^2$Evoは,数学的推論ベンチマークにおいて,既存手法を凌駕する性能を示した。
- D$^2$Evoは,2000個以下の実際の数学サンプルで高い性能を達成し,汎化性能も高い。
- 質問者とソルバーの協調進化により,推論能力の段階的な向上を実現している。
ポッシビリスティック構造における証拠情報の融合 [cs.AI]目的:証拠情報の融合手法
- 不確実な情報に基づく意思決定の重要性が高まっており,証拠理論はその基盤技術の一つである。
- 従来の Dempster 則は構造制約が強く,複雑な情報源や融合シナリオへの対応が難しいという課題がある。
- ポッシビリスティック構造への変換と三角ファジー和の導入により,より柔軟な融合フレームワークを構築し,その問題を解決する。
- 提案手法は,Dempster 則に縛られない柔軟な情報融合を可能にし,多様な情報源からの証拠情報の組み合わせに優れている。
- 特に,情報源が完全に異なる場合や,矛盾する情報が存在する場合においても,有効な融合結果が得られる。
- パラメータ調整の自由度が高く,異種情報の融合にも対応可能な汎用性の高いフレームワークである。
分散型太陽光発電システムにおけるプライバシー保護生成不正検知:太陽光放射量融合型連合学習フレームワーク [cs.LG, cs.CE]目的:分散型太陽光発電システムにおける生成不正検知手法
- 住宅用太陽光発電の普及により,不正検知の重要性が増している。電力消費側だけでなく,発電側の不正も考慮する必要がある。
- 太陽光発電は天候に左右されるため,変動が大きく,不正検知が困難である。また,分散型システムでは中央集権的な検知がプライバシー上の問題を引き起こす。
- プライバシーを保護しつつ,分散環境で太陽光発電の不正を検知するためのフレームワークを構築すること。
- 提案手法は,連合学習を用いて各家庭のモデルを統合し,プライバシーを保護しながら不正検知を実現する。
- 太陽光発電量と気象データを組み合わせることで,不正検知の精度を向上させている。
- 実データを用いた実験により,提案手法が既存の連合学習手法よりも優れた性能を示すことが確認された。
エージェントAI翻訳:コミュニケーションデザインとしての翻訳を志向するエージェント翻訳プロトタイプ [cs.CL, cs.AI, cs.HC]目的:生成AIのための翻訳研究のメタ言語を命令コードとして捉えるという山田氏の提論を具現化するエージェント翻訳プロトタイプの開発
- 翻訳は国際コミュニケーションの基盤であり,グローバル化社会においてその重要性はますます高まっている。
- 従来の機械翻訳はテキスト変換に偏重し,コミュニケーションの意図や文脈を十分に考慮できていない。
- 本研究は,翻訳をコミュニケーションデザインとして捉え,より効果的な情報伝達を実現することを目指す。
- 本プロトタイプは,翻訳の要求定義から検証までを包含するエージェントサイクルを採用し,対話的な要求仕様段階を設ける。
- 翻訳の品質評価にはGEMBA-MQMエラー評価プロトコルを用い,文書レベルの一貫性はDelTA-liteメモリと二言語要約によって維持される。
- 本研究の貢献は概念的・アーキテクチャ的なものであり,生成AI時代における翻訳をコミュニケーションデザインと捉える立場を具体化した実行可能なモデルである。
PersonaArena:大規模言語モデルにおけるパーソナレベルロールプレイングの評価と向上を目的とした動的シミュレーション [cs.AI]目的:大規模言語モデルにおけるパーソナレベルロールプレイングの評価と向上
- LLMがインタラクティブな社会的なエージェントとして活用される場面が増加しており,その能力向上が重要である。
- 既存研究はキャラクターレベルに偏り,静的な評価形式であり,日常的な社会対話の複雑さを捉えられていない。
- LLMのパーソナレベルロールプレイングの能力を厳密に評価し,より自然で社会的に適応性のあるAIエージェント開発を目指す。
- PersonaArenaは,ユーザー生成の社会的なコンテンツから構築された豊富なパーソナバンクを活用し,多岐にわたるコンテキストの中でロールプレイングを可能にする。
- このフレームワークは,多エージェントによる議論形式の評価者を用いることで,客観的かつ包括的な評価を実現する。
- 実験の結果,PersonaArenaはLLMのロールプレイング能力の厳密な評価と向上に貢献し,より自然なAIエージェント開発を促進することが示された。
ベルギーにおける日前および需給調整電力価格予測のための時系列基盤モデルの実証評価 [eess.SY, cs.LG, cs.SY]目的:ベルギーの日前および需給調整電力価格予測における時系列基盤モデルの性能評価
- 電力市場は変動が激しく,正確な価格予測が不可欠である。需給バランス維持と取引戦略に影響する。
- 既存の機械学習手法は,市場の特殊性に特化した調整が必要であり,汎用性に課題がある。
- 本研究は,時系列基盤モデルの電力価格予測への適用可能性を検証し,その限界を明らかにする。
- Chronos-2(ARXモード)が,日前電力市場において最も精度の高い予測結果を示した。
- Chronos-2の平均絶対誤差(MAE)は,他の機械学習アンサンブル予測よりも5%低い。
- 需給調整電力価格予測では,Chronos-2は2時間先予測を除き,10%高いMAEを示した。また,極端な市場状況下では,時系列基盤モデルは依然として苦戦する。
1GC-7RC:1つのグラフィックカード -- 7つの研究課題!AIエージェントはあなたの仕事をどの程度こなせるか? [cs.LG, cs.AI, cs.CL]目的:多様なドメインにおけるモデルの設計,実装,訓練をゼロから行うAIエージェントの能力評価
- AI技術は,機械学習の実践において重要な役割を果たしており,その発展が不可欠である。
- 既存の評価基準が確立されておらず,AIエージェントの能力を客観的に比較することが困難である。
- AIエージェントの暗黙的な機械学習知識,計画能力,時間管理能力を定量的に評価すること。
- 新たに「1GC-7RC」ベンチマークを導入し,言語モデリング,画像分類など7つの機械学習タスクを用いてAIエージェントを評価した。
- 評価の結果,AIエージェント間で性能に大きな差が認められ,暗黙的な知識,計画能力,時間管理能力の差異が明らかになった。
- 本ベンチマークは,新たなタスクやドメインへの拡張,GPU予算の調整,マルチエージェント環境での利用が可能であり,今後の研究プラットフォームとして活用できる。
階層的組合せ計画のための多時間スケール抽象化学習 [eess.SY, cs.SY, cs.CY, cs.LG]目的:階層的組合せ計画における多時間スケール抽象化
- 組合せ最適化問題は,現実世界の複雑な意思決定をモデル化する上で重要である。
- 強化学習において,行動空間の爆発的拡大や不確実性が課題となっている。
- 可変時間行動を伴う半マルコフ決定過程における計画の困難さを克服すること。
- 提案手法は,潜在空間木探索プランナーと時間スケールを考慮した世界モデルを組み合わせる。
- 多時間スケール目的関数は,抽象化された行動の有効な時間スケールを反映するダイナミクスを構造化する。
- 難しいSSCOベンチマークにおいて,既存の強化学習手法を上回る性能を示した。
範囲は狭まるが,脅威は残る:2026年最先端モデル群におけるLLMパッケージの幻覚の再評価 [cs.CR, cs.LG, cs.SE]目的:LLMパッケージの幻覚率の評価と,それによるサプライチェーン攻撃の可能性
- ソフトウェアサプライチェーンのセキュリティは,現代のソフトウェア開発において極めて重要である。
- LLMが生成する存在しないパッケージ名が,悪意のあるパッケージ登録(slopsquatting)を誘発するリスクがある。
- 最新のLLMにおける幻覚率を測定し,モデル間での共通の幻覚パッケージを特定すること。
- 評価の結果,幻覚率はSpracklenらの研究と比較して大幅に減少したが,脅威は依然として残存していることが示された。
- 5つのモデル全てで同一の幻覚パッケージが127個特定され,モデルに依存しないサプライチェーン攻撃の潜在的な攻撃対象となりうる。
- PythonとJavaScriptにおける幻覚率には非対称性が認められ,Anthropicモデル内ではHaikuとSonnetで逆転した結果が得られた。
人間レベルの書籍執筆能力に向けて [cs.NI, cs.AI]目的:高品質な創作物のためのデータセット構築と学習フレームワーク
- 文学作品は,人間の感情や思考を深く理解させる重要な手段である。
- 指示に従うように最適化された言語モデルは,創造的な執筆には不向きである。
- 人間が執筆した小説を模倣し,文学的な表現を学習すること。
- 本研究では,小説の要約を多段階に生成する手法を開発した。
- この手法により,大規模な小説生成が学習可能となり,アシスタントのような文体から文学的な文体への移行が期待される。
- 生成された物語は,構造的に正しく,かつ人間らしい文学的行動に基づいたものとなる。
AnchorDiff:トポロジーを意識したマスク拡散と信頼度に基づく書き換えによる放射線科レポート生成 [cs.AI]目的:放射線科レポートの自動生成
- 医療画像からの診断レポート自動化は,医師の負担軽減と迅速な診断支援に不可欠である。
- 既存手法は自己回帰モデルに依存し,固定された生成順序が画質に基づく根拠の反映を妨げる。
- 臨床知識に基づく拡散モデルを導入し,生成過程におけるバイアスを軽減し,レポートの精度向上を目指す。
- AnchorDiffは,知識グラフ由来の臨床アンカーを拡散言語モデルに統合した初のマスク拡散フレームワークである。
- RadGraph由来のエンティティ階層に基づいたトポロジーを意識した訓練戦略により,重要なトークン保護と損失重みの調整を実現した。
- 摂動に基づくテストで不安定なトークンを検出し,ノイズ除去時に選択的に書き換える推論時書き換え戦略が有効である。
RAGA:自律的な知識グラフの構築と検索拡張生成のための読解・グラフ構築エージェント [cs.AI, cs.CL]目的:知識グラフの構築と検索拡張生成
- 知識は意思決定や問題解決に不可欠であり,その構造化が重要である。
- 既存手法では,断片的な意味関係の把握や曖昧性の解消が課題である。
- 知識グラフ構築プロセス全体の信頼性と説明可能性を向上させる。
- RAGAは,知識グラフのライフサイクル全体をサポートするツールセットを提供する。
- KGとベクトル表現を同期させることで,ハイブリッドな検索を実現している。
- QASPERデータセットでの実験で,RAGAの検索性能がベースラインを上回った。
S-Bus: マルチエージェントLLMの状態協調のための自動リードセット再構築 [cs.LG, cs.AI, cs.DC, cs.MA]目的:マルチエージェントLLMにおける共有状態の整合性確保
- LLMエージェントの協調は,複雑なタスクを効率化する上で重要である。
- 共有状態への同時書き込みによる競合状態が,出力の信頼性を損なう可能性がある。
- HTTPトラフィックに基づきリードセットを自動再構築し,競合状態を防止することを目指す。
- S-Busは,エージェントSDKの変更なしにHTTP GET操作のログからリードセットを再構築するDeliveryLogメカニズムを提供する。
- DeliveryLogが提供するObservable-Read Isolation (ORI)は,構造的競合を防止し,共有シャード環境での整合性を担保する。
- 実験により,S-BusはPostgreSQLやRedisと同等の整合性を提供し,Type-Iの破損をゼロに抑えることが示された。
ロボットへの指示方法:密な言語注釈がロボットのポリシー学習を強化する [cs.RO, cs.AI]目的:ロボットのポリシー学習における言語注釈の活用
- ロボットの自律的な動作には,豊富な学習データが不可欠であり,そのデータ収集コストが課題となっている。
- 既存の学習データに対する言語注釈は安価だが,その情報を最大限に活用するための方法が確立されていない。
- 固定されたロボットデータセットからより多くの情報を引き出し,学習効率を向上させることを目指す。
- 提案手法DeMiAnにより,既存のロボットデータと人間視点ビデオデータを用いたポリシー学習の性能が向上した。
- RoboCasa環境において,タスクのみのベースラインと比較して成功率が5ポイント向上し,タスク毎の最適な注釈に迫った。
- 密な言語注釈を再利用することで,計算コストを考慮しても,ロボットのポリシー学習のスケーラビリティが実質的に向上することが示された。
LLMは消費者のように考えられるか? ConsumerSimBenchを用いた集団レベルの反応再構築のベンチマーク [cs.CL, cs.AI, cs.CY]目的:消費者反応の再構築能力の評価
- マーケティングや世論調査において,消費者の反応を予測することは,意思決定の重要な要素である。
- 既存のLLM評価では,実際の消費者の反応パターンを再現できるかどうかが十分に検証されていない。
- 実際の消費者反応を基準としたベンチマークにより,LLMの消費者シミュレーション能力を定量的に評価すること。
- ConsumerSimBenchは,1553の中国ソーシャルメディアの話題と23122の評価基準から構成され,LLMの反応再構築能力を詳細に分析可能である。
- Gemini-3.1-Proを含む13の最先端モデルでは,実際の反応基準の約47.8%しかカバーできず,技術ベンチマークの性能と実際の消費者直感の間には大きな隔たりがあることが示された。
- 構造化された推論プロンプトはカバレッジを低下させたが,生成と反省を組み合わせたマルチエージェントパイプラインはMiMo-V2.5-Proの性能を向上させた。
モデルの規模が予測のための表現幾何学の組織化を決定する [cs.LG, cs.CL]目的:言語モデルにおける表現幾何学の組織化
- 言語モデルの性能向上には,表現空間の構造理解が不可欠である。
- 既存手法では,表現空間の形状は評価できるが,その組織化目的は不明である。
- モデル規模と表現幾何学の組織化の関係を明らかにすること。
- モデル規模が小さい場合,学習が進むにつれて表現幾何学の予測構造が失われる。
- モデル規模が大きい場合,学習を通して予測構造が維持される。
- この違いは,表現空間の容量制約に起因することが示唆された。
ターゲットKL正則化によるAudio VAEの制御 [cs.SD, cs.LG, eess.AS]目的:Audio VAEの圧縮率と歪みの関係性の解明
- 音響生成において,潜在拡散モデルが主流となりつつあるため,その構成要素であるVAEの最適化が重要である。
- VAEの正則化は,出力品質と予測の難易度のトレードオフがあり,適切な正則化の強さを決定することが困難である。
- ターゲットKL正則化によりVAEを特定のビットレートで学習し,このトレードオフを詳細に分析することで解決を目指す。
- ターゲットKL正則化によってVAEの圧縮率を制御し,レート歪み曲線を作成することが可能となった。
- 実験結果から,圧縮率を調整することで最適な生成設定を特定できることが示された。
- このフレームワークは,離散ニューラルオーディオコーデックモデルとの直接比較を可能にする。
メカニズム学習:科学的予測のためのプロトタイプアンカーに基づくメカニズム推論 [cs.CL, cs.LG]目的:科学的予測におけるメカニズムの推定
- データ不足や複雑なシステムにおいて,予測の精度向上が求められている。
- 従来の直接状態予測は,データ不足下や長期間予測で脆さを抱える。
- 局所的な進化規則に着目し,ロバストな予測手法を確立すること。
- 本研究では,局所的な時空間断片をメカニズム記述子に圧縮するメカニズム学習を提案した。
- 学習されたメカニズム空間は崩壊に強く,局所的な一貫性を保つことが示された。
- Burgers力学,WeatherBench2,Lorenz96において,既存手法を上回る予測性能を達成した。
ボディカメラ映像における警察官活動の視覚的タイムライン:OpenBWCにおける訓練と分析のための運用状況と活動カタログ [cs.CV, cs.AI, cs.LG]目的:ボディカメラ映像の運用状況と活動内容の分類
- 警察活動の透明性向上と証拠保全の重要性が高まっている。
- 膨大なボディカメラ映像から必要な場面を特定するには,時間と労力がかかる。
- 映像を効率的に分析し,訓練やレビューを迅速化すること。
- ボディカメラ映像を10秒単位の固定長ウィンドウに分割し,プライバシーに配慮したプロトコルで処理・ラベル付けを行った。
- 各ウィンドウに対し,運用状況と運動強度の2つの側面からラベル付けし,分類モデルを訓練した。
- 運用状況の分類精度は78.75%,活動レベルの分類精度は88.33%を達成し,インシデントレビューの効率化と訓練ワークフローの改善に貢献する。
SEMA-RAG:医療推論のための自己進化型マルチエージェント検索拡張生成フレームワーク [cs.CL, cs.AI]目的:医療質問応答における推論プロセスの改善
- 医療分野では,正確な知識に基づいた迅速な意思決定が求められるため,信頼性の高い情報検索が重要である。
- 従来の検索拡張生成(RAG)は,単一ラウンドの静的な検索に依存しており,臨床推論の多段階プロセスに合致していない。
- SEMA-RAGは,タスクの分離と動的な多段階探索により,より信頼性の高いエビデンスチェーンを構築することを目指す。
- SEMA-RAGは,臨床スキーマ解釈,十分性に基づいた自己進化型検索,エビデンスの判断を行う3つの専門エージェントで構成される。
- 5つのベンチマークと5つのLLMバックボーンで評価した結果,SEMA-RAGは最も強力なベースラインと比較して,平均で精度が+6.46ポイント向上した。
- この結果は,SEMA-RAGが医療質問応答において,より正確で信頼性の高い回答を生成できることを示唆している。
LLMの推論における科学的論理性を強化する手法:物理学の実践 [eess.SY, cs.SY, eess.SP, cs.AI]目的:LLMの科学的推論における論理性の向上
- 科学的推論は,信頼性のある結論を導く上で不可欠であり,その重要性は増している。
- 既存研究では,論理的な妥当性の検証が不十分で,推論の信頼性に課題がある。
- LLMの科学的推論における論理的整合性を評価・改善し,問題解決能力を高める。
- 構築した学習データが,LLMの科学的推論における論理性を効果的に向上させることが示された。
- 論理性の強化は,科学的問題の解決において重要な役割を果たすことが明らかになった。
- 物理学を例として,提案手法の有効性を3つのLLMで検証した結果,性能が向上した。
HyDRA:異種LLMプール向けのハイブリッド動的ルーティングアーキテクチャ [cs.CL, cs.LG]目的:異種LLMプールの効率的なリソース配分
- LLMの利用拡大に伴い,コストと性能のバランスが重要視されている。
- 従来のルーティング手法は,モデル変更時に再学習が必要となる場合がある。
- モデルカタログの変更に柔軟に対応可能なルーティングシステムの構築。
- HyDRAは,クエリの多次元能力要件を予測し,設定されたモデルプロファイルと照合することで,最適なモデルを選択する。
- SWE-Bench Verifiedにおいて,HyDRAはコストを12.9%削減しつつ,最上位モデルと同等の性能を実現した。
- また,HyDRAはCJK,ヨーロッパなど,様々な言語でのルーティングが可能であることを実証した。
並列再帰LSTM [cs.LG]目的:長文脈設定における効率性向上
- 系列モデリングは自然言語処理の根幹であり,高性能化が求められている。
- Transformerは計算コストが高く,長文脈の処理に限界がある。
- LSTMの並列性を高め,Transformerの課題を克服する。
- PR-LSTMは,標準的なRNN,LSTM,Transformerよりも多くの形式言語ベンチマークで高い性能を示した。
- PR-LSTMは,再帰的非線形状態合成により,再帰並列深度を線形から対数的に削減した。
- 階層的な再帰計算により,並列性を高め,遷移ダイナミクスを制限することなく高性能を実現した。
DynMuon:ミューオンの動的なスペクトル整形に関する考察 [cs.LG, cs.AI]目的:大規模言語モデル訓練におけるミューオン法の効率的な動的スペクトル整形手法
- 近年,Transformerモデルの訓練において,勾配降下法に代わる有力な手法としてミューオン法が注目されている。
- 従来のミューオン法では,スペクトル整形パラメータが固定されており,訓練の様々な段階に応じた最適化が困難であった。
- 損失関数の局所的な曲率やノイズの影響を考慮し,訓練段階に応じて最適なスペクトル整形を行うことで,より効率的な学習を目指す。
- 提案手法DynMuonは,訓練初期には高曲率方向を強調し,信号の収縮を加速することで学習を促進する。
- 訓練後期には,低曲率方向への更新強度を再配分することで,有用な訓練信号を維持し,汎化性能を向上させる。
- 様々なモデルや設定での実験により,DynMuonがミューオン法と比較して,少ないステップ数で同等の損失に到達することが示された。
エビデンスに基づくクエリクラスタリングによるLLM能力の把握 [cs.AI, cs.LG]目的:LLM能力を反映したクエリのグループ化
- LLMの性能評価において,潜在的な能力要件を把握することは重要である。
- 既存のクラスタリング手法では,表面的な意味論と実際のモデル性能のずれが課題である。
- 表面的な意味論と潜在的な能力要件のギャップを埋め,LLM能力の評価精度向上を目指す。
- 提案手法ECCは,事後的なモデル比較を用いて意味埋め込みを調整し,能力要件を捉える。
- ECCは,Bradley-Terryモデルによる能力プロファイルと学習可能な混合重みを用いて柔軟なクラスタリング構造を実現する。
- 定量・定性評価の結果,ECCは既存手法と比較してLLM能力ランキングの質を大幅に向上させる。
欺瞞的コミットメントの言語モデルにおける推論における反事実的局所化 [cs.CL, cs.AI]目的:言語モデルの推論における欺瞞的コミットメントの局所化
- 言語モデルの推論過程における欺瞞の理解は,安全で信頼できるAIの開発に不可欠である。
- 既存の研究では,欺瞞を最終的な応答の特性として捉え,推論過程におけるコミットメント時点が不明確である。
- 推論過程における欺瞞へのコミットメント地点を特定し,欺瞞のメカニズムを解明することを目的とする。
- 反事実的局所化という手法を導入し,推論過程の各段階で欺瞞的な結果となる確率を推定した。
- 欺瞞的コミットメントは,表層的な語彙的特徴よりも,推論ダイナミクスの変化に依存することが示された。
- 特定された少数のアテンションヘッドセットが,異なる環境間で欺瞞的コミットメントを抑制できることが明らかになった。
F2IND-IT!--画像とテキストを用いたファジーフェイクインドニュース検出 [cs.AI]目的:インドのメディアにおけるフェイクニュース検出のための多Modalフレームワーク
- 多様な情報源が存在するインドにおいて,誤情報検出は社会的な安定にとって重要である。
- インドのメディアでは,地域や国を跨いだ偏った報道により,誤情報の検出が困難である。
- 画像とテキストの両方を活用することで,既存手法の検出精度を向上させる。
- 提案手法は,画像特徴抽出にResNet-50,テキスト表現にDistilBERT,信頼度算出にANFISを用いる。
- 軽量なAttention機構により,各Modalへの重みを学習し,効果的な融合を実現した。
- IFNDデータセットを用いた実験で,精度,適合率,再現率,F1スコアにおいて既存手法を上回る性能を示した。
深層学習における保証付き公平性を実現する微分可能最適化層 [cs.LG, stat.CO, stat.ML]目的:深層学習モデルの公平性保証
- AIの社会実装が進む中で,公平性の確保は不可欠である。
- 既存手法では,バッチサイズが小さい場合に公平性制約が厳しすぎる問題がある。
- ストリーミング予測における集団全体の公平性を保証する手法を開発する。
- 公平性層をニューラルネットワークに出力層に追加することで,指定された公平性の概念を保証する。
- オンラインの原始・双対推論アルゴリズムにより,任意のバッチサイズで集団全体の公平性を証明する。
- 数値実験の結果,提案手法が有効であり,微分可能性と安定性も確認された。
月面クレーター検出のための主成分分析 [cs.HC, cs.RO, cs.CV, cs.LG]目的:月面クレーター検出手法の開発
- 月探査ミッションにおいて光学ナビゲーションは重要であり,クレーターは豊富な特徴点として利用可能である。
- クレーターは形状が類似しているため,テンプレートマッチングにおいて汎用的なテンプレートの作成が課題である。
- 主成分分析を用いてクレーターのテンプレートを自動生成し,検出精度と位置推定の向上を目指す。
- 提案手法EigenCraterは,クレーターのDEMデータに対して主成分分析を行い,自動的にテンプレートを生成する。
- シミュレーション画像を用いた実験により,手動で選択したテンプレートと比較して,より優れた検出性能と位置推定精度が確認された。
大規模モデルに対する広範な網羅的ジェイルブレイク攻撃のリスク [cs.CR, cs.AI]目的:大規模モデルに対する広範な網羅的ジェイルブレイク攻撃の安全性評価
- 大規模言語モデルの社会への影響が大きいため,安全性確保は不可欠である。
- 単一モデルへの攻撃対策が進む一方,複数モデルへの同時攻撃の脆弱性は看過されてきた。
- 広範な網羅的攻撃という新たな攻撃シナリオを提示し,そのリスクを定量的に示す。
- 広範な網羅的攻撃において,既存の大規模モデルは高い確率で有害な出力を生成する。
- 提案手法を用いることで,追加の安全対策がないモデルでは100%の成功率を達成したケースも存在する。
- この攻撃シナリオは,今後の評価・防御研究において重要な検討課題となる。
点群分類・セグメンテーションのための深層学習アーキテクチャに関する体系的調査 [cs.CV, cs.AI, cs.LG]目的:点群分類,部品セグメンテーション,意味的セグメンテーションにおける深層学習モデルの調査と評価
- 3D形状やシーンの表現として点群は広く利用され,自動運転やロボティクス等の発展に不可欠である。
- 点群データは順序や規則性がなく,ノイズや隠蔽の影響を受けやすく,機械学習への適用が困難である。
- 点群データの特性に適した深層学習アーキテクチャの現状を整理し,課題と今後の方向性を示す。
- 本研究では,点群分類・セグメンテーションに関する深層学習モデルを,バックボーン構造に基づき分類し,主要なベンチマークにおける性能を比較検討した。
- その結果,アーキテクチャの革新と限界が明らかになり,今後の3D点群理解のための方向性を示唆する知見が得られた。
- 点群データは,順序性を持たせる変換,局所的な幾何学的特徴の抽出,置換不変または自己注意メカニズムの利用などの多様な戦略によって処理されている。
CAM-VFD:クロスアテンション多Modalビデオフォレンジック検出 [cs.CV, cs.AI]目的:ビデオフォレンジックにおける偽造検出
- デジタルコンテンツの信頼性確保は,法的手続きや報道において極めて重要である。
- 既存手法は単一のModalに依存しており,高度な偽造技術によるModal間の矛盾検出が困難。
- クロスModal間の矛盾を検出し,より堅牢な偽造検出を実現すること。
- 提案手法CAM-VFDは,クロスアテンション機構を用いて,視覚,時間,幾何学的な証拠間の矛盾を捉える。
- GenVidBenchとGenVideoの評価実験において,それぞれ95.31%,93.43%の高い精度を達成した。
- 圧縮,ノイズ,ぼかし,敵対的摂動に対しても安定した性能を示し,堅牢性に貢献する。
潜在的ヒューリスティック探索:自動アルゴリズム設計のための連続最適化 [cs.AI]目的:自動アルゴリズム設計のための連続最適化手法
- アルゴリズム設計は計算機科学の根幹であり,問題解決の効率を左右する。
- 従来の自動アルゴリズム設計は,離散的なプログラム空間を探索するため効率が低い。
- 潜在空間での連続最適化により,効率的なアルゴリズム探索を実現することを目指す。
- 提案手法は,離散プログラムを連続埋め込みに変換し,勾配ベースの探索を可能にする。
- TSP,CVRP,KSP,OBPといった問題で,最先端の離散進化型手法と同等の性能を達成した。
- この手法は,自動アルゴリズム設計のための新たな方法論を提供する。
UCSF-PDGM-VQA:脳腫瘍MRI解釈のための視覚的質問応答データセット [cs.CV, cs.AI, cs.CL]目的:脳腫瘍MRIの解釈に関する視覚的質問応答データセット
- 脳腫瘍診断はMRIが不可欠であり,高度な専門知識と時間が必要である。
- 放射線科医の専門知識の規模拡大が難しく,医療システムへの負担が大きい。
- 脳腫瘍MRIに特化した視覚的質問応答ベンチマークを提供し,モデルの性能評価を可能とする。
- 既存のモデルは,多系列3次元MRIスキャンを効果的に処理できず,視覚情報の抑制と言語的先入観への依存が生じている。
- この結果から,現在のモデルの臨床現場での信頼性と安全性に課題があることが示唆される。
- 脳腫瘍領域に特化した,堅牢な視覚言語モデルの開発が求められる。
AIアートコンペにおける集団的創造性のダイナミクス [cs.AI]目的:AIアートコンペにおける集団的創造性のメカニズム解明
- 文化の進化において創造性は不可欠であり,その集団的プロセスを理解することは重要である。
- 文化伝達において,学習者のバイアスが作品を歪めることが知られているが,人間とAIが協働する現代の文化生産においては不明な点が多い。
- 人間とAIの協働による文化生産において,創造性のダイナミクスを明らかにし,その特性を解明することを目指す。
- 画像は単純化し,スチームパンクや異星建築などの共通テーマに収束する傾向が見られた。
- 新規性の高い画像は,より新規で複雑な画像を生成するが,利用者は複雑さの低い画像を好むという逆説的な傾向が見られた。
- 大規模なリミックスパーティでは,複雑度が低下する一方で,新規性が向上する傾向が認められた。
コントラスト概念子活性制御 (COAST): 隠れ状態による視覚言語行動モデルの能力解放 [cs.RO, cs.AI, cs.LG]目的:視覚言語行動モデルの潜在表現を操作し,タスク成功率の向上
- 視覚言語行動モデルは,大規模な視覚言語モデルの事前学習を活用するが,その性能は不安定である
- 単純なロボットタスクでも失敗することが多く,実用上の課題となっている
- 成功と失敗のロールアウトから成功に不可欠な部分空間を特定し,潜在表現を操作することで性能改善を目指す
- COASTは,3種類の異なるニューラルポリシーにおいて,シミュレーションと実ロボットタスクの成功率をそれぞれ20%以上,40%以上向上させた。
- 失敗モードはタスク間で共通の構造を持ち,成功表現はタスク固有であることが活性化部分空間の幾何学から示唆された。
- 類似した失敗モードを持つタスク間で概念子を転用することで,追加の学習なしに性能向上が確認された。
重み付きフローマッチングと物理情報非線形フィルタリングによるデジタルツインのパラメータ推定 [cs.CE, cs.LG, cs.SY, eess.SY]目的:デジタルツインにおけるパラメータ推定の向上
- 物理システムと仮想モデルの同期が重要であり,リアルタイムなパラメータ推定が不可欠である。
- 観測性の低さ,弱い励起,非線形性,ノイズなどがパラメータ推定の課題となっている。
- 不確実性下でのパラメータ推定精度を向上させ,デジタルツインのリアルタイム同期を実現する。
- 重み付きフローマッチング(WFM)と物理情報非線形フィルタリングを組み合わせた新しいフレームワークを開発した。
- WFMは,システム状態に最も情報をもたらすパラメータ領域へと生成モデルを誘導する。
- 宇宙機デジタルツインにおいて,既存手法と比較して安定した慣性モーメント推定を達成した。
レビィ飛行を用いたマンタレイ最適化による,晶体構造予測のための初期エネルギー景観を持つ進化型極限学習機械 [cs.NE, cs.AI, cs.LG]目的:晶体構造予測のための進化型極限学習機械の開発
- 物質開発において,安定な晶体構造の予測は重要であり,計算コスト削減が求められる。
- 従来の晶体構造予測手法は,計算時間が長く,複雑なエネルギー景観に陥りやすい。
- マンタレイ最適化とレビィ飛行を組み合わせることで,局所最適解への陥入を防ぎ,予測精度向上を目指す。
- 提案手法EELM-MRFO-LFは,既存の自然界にヒントを得たアルゴリズムと比較して,優れた性能を示した。
- レビィ飛行を導入することで,初期エネルギー景観の探索範囲が広がり,多様性が向上した。
- 入力重みの選択にMRFOとLFを用いることで,効率的に出力重みを決定し,予測精度を高めた。
製造業における時系列・動的なB2B顧客セグメンテーションのための多基準分析フレームワーク [cs.LG]目的:製造業における時系列・動的なB2B顧客セグメンテーションのための多基準分析手法
- 顧客セグメンテーションは,販売・マーケティング戦略やサプライチェーン管理において重要である。
- 従来のセグメンテーションは,RFM分析などの限られた基準に依存し,複雑な取引関係を捉えきれない。
- 本研究は,より複雑な顧客関係を捉え,動的なセグメンテーションを可能にすることを目的とする。
- RFM分析を安定性と成長の次元で拡張し,適応的な階層分析プロセスを統合した。
- 顧客の安定性,セグメント間の移行,経時的な変動を測定し,グラフベースのコンセンサスモデルを適用した。
- 3,000件以上のB2B顧客データを用いた検証により,時間的な変化に対する堅牢性が確認された。
ニューラルネットワーク検証器に対する,証明可能なロバストな事例を用いたストレステスト [cs.CL, cs.LG, cs.LO, math.OC]目的:ニューラルネットワーク検証器の性能評価のための枠組み
- 機械学習モデルの安全性確保が重要視される中で,検証器はモデルの振る舞いを形式的に保証する役割を担う。
- 既存の検証ベンチマークは正解ラベルの欠如により,検証器の評価が間接的なヒューリスティックに依存している。
- 正解ラベルが事前にわかっている検証事例を生成し,検証器の信頼性向上に貢献する。
- 本研究で開発した枠組みにより,既存の検証器における数値許容誤差や実装上のバグが複数発見された。
- 検証の難易度プロファイルを用いることで,検証器の弱点や改善点を特定することが可能となった。
- 異なる事例が検証パイプラインの異なる側面をストレステストすることが示され,今後の検証器開発に役立つ知見が得られた。
MADP:人間介入型による持続可能な文書処理のためのマルチエージェントパイプライン [cs.AR, cs.AI, cs.MA]目的:企業における持続可能な文書処理の自動化
- 企業の業務効率化は,競争力強化の鍵であり,文書処理はその重要な一部である。
- 従来の文書処理は,人的コストが高く,誤りが生じやすいという課題が存在する。
- 本研究は,AIと人間による協調を通じて,文書処理の自動化と効率化を実現することを目指す。
- MADPは,分類,分割,解析,抽出,検証の5つのエージェントと人間介入機構を統合したシステムである。
- 年間10万件の請求書処理を対象とした分析では,FTE要件を約70%削減できる可能性が示された。
- 2026年1月までに955件のリアルワールド文書を処理した結果,全パイプラインの自動化率は97.0%を達成した。
- また,CO2排出量,エネルギー消費量,水使用量をそれぞれ69%,69%,63%削減できることが示された。
ビットが壊れた際の救済策:反事実に基づいた忠実な量子化 [cs.LG, cs.AI, cs.CV]目的:量子化における反事実の挙動の維持
- 機械学習モデルの軽量化は,計算資源の制約がある環境での利用を可能にするため重要である。
- 量子化によって予測精度は維持されるものの,モデルに対する介入(recourse)が機能しなくなる場合がある。
- 量子化による反事実の挙動の変化を抑制し,より信頼性の高いモデルを構築することを目指す。
- 本研究では,量子化による反事実の挙動の変化を評価するための指標(VD,CRG)を新たに提案した。
- 提案手法CFQは,量子化パラメータとビット割り当てを学習することで,反事実の挙動を維持し,recourseの安定性を向上させる。
- 実験結果から,CFQは精度を維持しつつ,既存手法よりもVDとCRGを大幅に改善することが示された。
模倣から相互作用へ:浅い強化学習によるシュナップセンの習得 [cs.AI, cs.LG]目的:カードゲーム「シュナップセン」の習得
- ゲームAI研究は,複雑な戦略を必要とする環境における知能の実現を目指す上で重要である。
- 既存のゲームAIは,計算資源を大量に消費する傾向があり,軽量なAIの開発が課題となっていた。
- 浅いニューラルネットワークを用いたAIが,高度なゲームAIに匹敵する性能を発揮できるか検証する。
- 教師あり学習による模倣だけでは,強力な対戦相手に勝利することは困難であった。
- 強化学習を用いることで,より優れたエージェントが生成されることが示された。
- 学習された価値関数と探索の深さを組み合わせることで,最も高い勝率が達成された。
STRIDE-AI:生成AIのセキュリティ評価のための脅威モデリングフレームワーク [cs.CR, cs.AI]目的:生成AIのセキュリティ評価に関する脅威モデリングフレームワーク
- AI技術の発展は社会に大きな変革をもたらす一方,セキュリティリスクも増大している。
- 従来のセキュリティ手法はAIの確率的な性質に対応できず,攻撃に脆弱である。
- 生成AI特有の攻撃に対応可能な,体系的な脅威モデリング手法の確立。
- STRIDE-AIフレームワークは,NIST AI RMFとOWASP LLM Top 10を統合することで,AIセキュリティのギャップを埋める。
- 本フレームワークの活用により,LLMチャットボットに対する攻撃成功率を80%から15%まで大幅に低減することに成功した。
- 6段階の評価ライフサイクルと,AIシステムに特化したSTRIDEの適応により,実用的な脅威モデリングを可能にする。
Charon:大規模LLMの学習と推論のための統合的かつ詳細なシミュレータ [cs.DC, cs.AI, cs.LG, cs.PL]目的:大規模言語モデルの学習と推論における性能予測
- 高性能なLLM運用は重要であり,並列化戦略等の最適化が不可欠である。
- 複雑なシステム設計空間のため,最適化は困難であり,評価に時間がかかる。
- シミュレーションを通じて,効率的な最適化とシステム研究を支援すること。
- Charonは,様々なモデルと設定で高い精度を達成し,全体的な予測誤差は一貫して5.35%未満である。
- 大規模GPUクラスタを用いた学習では,予測誤差は3.74%以下に抑えられた。
- 実用的な推論環境において,Charonはエンジニア調整済みのベースラインを上回る性能改善の構成を発見した。
