arXiv雑要約
AI - 2026/03/24 公開
医学的VQAにおける信頼度・証拠ベイズ利得による決定論的幻覚検出 [cs.AI]目的:医学的VQAにおける幻覚検出手法
- 医療現場でのLLM活用が進む中,誤った情報提供は重大なリスクを伴うため,信頼性確保が重要である。
- 既存手法は確率的処理や外部モデルに依存し,計算コストが高く実用化が困難である。
- モデル内部の確率分布から幻覚を効率的に特定し,実用的な検出手法を確立することを目指す。
- 提案手法CEBaGは,確率的サンプリングや外部モデルを必要とせず,決定論的に幻覚を検出する。
- 4つの医学的MLLMと3つのVQAベンチマークにおいて,CEBaGは16の設定中13で最高AUCを達成した。
- 平均でVASEよりも8AUCポイント向上し,計算効率と精度を両立した。
旅行計画における交渉対話のためのマルチエージェント推論:MIND [cs.AI]目的:旅行計画における交渉対話のためのマルチエージェント推論フレームワーク
- 複雑な利害関係の調整は重要であり,特に旅行計画のような分野では,そのニーズは大きい。
- 既存のマルチエージェント議論フレームワークは,現実的な交渉の複雑さを捉えきれていない。
- 異質な嗜好を持つ旅行者間の合意形成をより現実的にモデル化し,交渉の成功率を高める。
- MINDは,相手の交渉意欲を高い精度(90.2%)で推論する「戦略的評価」フェーズを導入した。
- 実験結果から,MINDは従来のフレームワークを上回り,High-w HitとDebate Hit-Rateをそれぞれ20.5%,30.7%向上させた。
- LLMによる評価では,MINDはRationality(68.8%)とFluency(72.4%)においても優位性を示し,総合的な勝率は68.3%であった。
構造化された視覚的物語は,マルチモーダル大規模言語モデルの安全性調整を損なう [cs.CR, cs.AI, cs.MM]目的:マルチモーダル大規模言語モデルにおける安全性低下のメカニズムの解明
- 大規模言語モデルの進化に伴い,視覚情報を理解する能力が求められている。
- 視覚情報に基づいた指示により,新たな安全性に関する問題が生じている。
- 物語形式の視覚的情報を用いた攻撃に対する耐性向上を目指す。
- コミックテンプレートを用いた攻撃は,既存のルールベースの攻撃と同等の成功率を示す。
- 防御機構は有害なコミックに対して有効だが,無害なプロンプトに対する拒否率も高い。
- 既存の安全性評価手法は,微妙な内容に対して信頼性が低い可能性がある。
自動車空気抵抗予測のための自己進化型コーディングエージェントの設計 [cs.AI]目的:自動車空気抵抗係数予測のための実行可能な代替パイプラインの発見
- 自動車の空気力学性能は,燃費や走行性能に大きく影響するため,設計段階での正確な評価が不可欠である。
- 高精度な空気抵抗評価は計算時間よりも,幾何形状の修正,メッシュ作成の再試行,計算資源の競合,再現性の問題に制約される。
- 本研究は,これらの課題を解決し,効率的かつ信頼性の高い空気抵抗予測ワークフローの実現を目指す。
- 提案手法は,プログラムの制約付き最適化を通じて代替パイプラインを探索し,0.9335の複合スコアと0.9180の符号精度を達成した。
- 適応的サンプリングと島間移行が収束品質の主要な推進力であることが,軌跡分析とアブレーション分析から示された。
- 本手法は,設計探索のための高速なランキングを提供しつつ,低信頼度または分布外のケースは高精度CFDに自動的にエスカレートする「スクリーニングとエスカレーション」モデルを採用する。
大規模ビジョン言語モデルにおけるトークン削減の再考 [cs.CV, cs.AI]目的:大規模ビジョン言語モデルのトークン削減手法の改善
- 近年,画像理解と推論に優れた大規模ビジョン言語モデルの利用が拡大している。
- これらのモデルは,過剰な視覚トークン数により推論コストが高いという課題がある。
- 複数ターンVQAにおけるトークン削減の有効性を高め,効率と精度を両立することを目指す。
- 本研究では,学習ベースのプロンプト非依存型手法MetaCompressを提案し,既存手法の限界を克服した。
- MetaCompressは,トークン削減を学習可能な圧縮写像として定式化し,学習効率の良いパラダイムを導入した。
- 実験結果から,MetaCompressは複数ターンVQAベンチマークにおいて,高い効率と精度のトレードオフを実現することが示された。
データフリーなFisher情報に基づく層適応型LLMのマージング [cs.LG]目的:長文から短文への推論を行うLLMにおける能力統合
- LLMの活用範囲拡大のため,複数の専門モデルを効率的に組み合わせる手法が求められている。
- 既存のマージング手法は線形性を仮定しており,長文推論においては精度が低下する問題がある。
- Fisher情報を用いて層ごとに最適なマージング係数を決定し,精度向上と出力短縮を目指す。
- 提案手法FIM-Mergingは,7Bベンチマークにおいて6つの評価基準のうち5つで最先端の性能を達成した。
- MATH500において,ACM-TIESと比較して6.2ポイントの精度向上(90.2 vs 84.0)を示した。
- 1.5Bベンチマークでは平均精度47.3を達成し,ACM-TIESを3.9ポイント上回り,応答長を91.9%削減した。
長期尾クラス増分学習における視覚的不足の補償:階層型言語ガイダンスによるアプローチ [cs.AI, cs.CV]目的:長期尾クラス増分学習における課題解決
- 視覚情報だけでは認識が困難なケースが多く,言語情報を活用することで認識精度向上が期待される。
- 尾クラスのサンプル数が少ないため学習が難しく,連続的なデータ変化により知識の忘却が深刻化する。
- 言語知識を活用し,尾クラスの学習を促進し,知識の忘却を軽減することを目指す。
- 大規模言語モデルを用いて階層的な言語ツリーを構築し,粗い粒度から細かい粒度へとセマンティック情報を整理した。
- 学習可能な重みを用いてマルチスケールなセマンティック表現を統合する階層型適応言語ガイダンスを導入した。
- 言語ツリーの構造的安定性を利用し,最適化を制約し,セマンティック視覚的アライメントを強化する階層型アライメント言語ガイダンスを導入した。
混合貪欲法:多様性認識型多腕バンディットにおいてUCBは必要か [cs.LG, cs.AI, cs.CV]目的:多様性認識型評価指標下における生成モデル選択問題の効率的な解決
- 現代の生成AIにおいて,生成モデルの選択は重要であり,非最適なモデルからのサンプリングコストが課題となる。
- 従来の多腕バンディット問題とは異なり,多様性認識型評価指標では,混合モデルが単一モデルを上回る可能性がある。
- 本研究は,明示的なUCB型探索ボーナスなしで,より効率的なモデル選択を可能にすることを目的とする。
- 実験結果から,UCB項は収束を遅らせ,サンプル効率を低下させる一方,単純な混合貪欲法がより高速に収束し,優れた性能を発揮することが示された。
- 多様性認識型目的関数は,内部分散混合を優先することで暗黙的な探索を誘導し,線形サンプリングとサブ線形後悔保証を実現することが理論的に示された。
- 生成モデル選択のための多様性認識型多腕バンディットにおいて,探索は目的関数の幾何学から内在的に生じることが示唆され,明示的な信頼区間ボーナスの必要性が疑われる。
科学画像における分布間フローマッチングの不確実性定量化 [cs.LG]目的:科学画像における分布間フローマッチングの不確実性定量化手法
- 科学画像は,細胞変化のモデル化や医療画像変換など,幅広い研究分野で重要である。
- 生成モデルの信頼性と説明責任が課題であり,特に分布間生成モデルでは不確実性評価が不十分である。
- 未知のデータに対する信頼性と,予測の信頼性低下を検知する説明責任を向上させることを目指す。
- 本研究では,確率的フローマッチング(SFM)とモンテカルロドロップアウト(MCD)を組み合わせた不確実性定量化フレームワーク(BSFM)を提案した。
- SFMは拡散項により汎化性能を向上させ,MCD-Antitheticは効率的な異常スコアを提供し,分布外検出を可能にする。
- 細胞画像や脳fMRI実験により,SFMが信頼性を,MCD-Antitheticが説明責任を向上させることが示された。
SemEval-2026タスク12:帰納的イベント推論 - 大規模言語モデルのための現実世界イベント因果推論に向けて [cs.CL, cs.CL, cs.AI]目的:現実世界イベントの直接的な原因の特定
- 自然言語処理と意思決定において,イベント発生理由の理解は重要である。
- 証拠に基づいた環境下での直接的な原因推論は十分に研究されていない。
- 大規模言語モデルにおける現実世界の因果推論の課題を明確化する。
- SemEval-2026タスク12:帰納的イベント推論(AER)が組織された。
- AERは,分散した証拠や因果関係のない類似情報を伴う現実世界の因果推論の課題を捉えた,複数選択形式の評価基準である。
- 本タスクには122人の参加者と518件の提出があり,現実世界イベントにおける帰納的推論のベンチマークを提供する。
時系列予測のためのTransformerモデルにおける自己注意機構のファジー推論システムによる置換 [cs.RO, cs.MA, cs.LG, cs.AI]目的:時系列予測におけるTransformerモデルの性能向上
- 時系列データは多様な分野で重要であり,正確な予測は意思決定に不可欠である。
- 従来のTransformerモデルは,決定論的な注意機構に依存しており,不確実性のモデリングが課題である。
- ファジー推論システムを用いることで,不確実性と非線形依存関係をより適切に捉える。
- FISFormerは,既存のTransformerモデルと比較して,優れた予測精度を実現した。
- 提案手法は,ノイズに対するロバスト性においても優位性を示した。
- ファジー推論システムの導入により,モデルの解釈可能性が向上した。
CurvZO:効率的なLLMファインチューニングのための適応的曲率誘導疎ゼロ次最適化 [cs.AI, cs.LG]目的:大規模言語モデルの効率的なファインチューニング手法
- 近年の自然言語処理において,大規模言語モデルの活用が不可欠となっている。
- LLMのファインチューニングには大量のメモリが必要であり,リソースに制約がある環境でのスケーラビリティが課題である。
- 高分散な勾配推定による収束の遅延や不安定性を解決し,メモリ効率を維持したファインチューニングを実現する。
- 提案手法CurvZOは,スカラーZOフィードバックからオンラインで曲率信号を追跡し,それを用いてパラメータごとのサンプリング分布を構築する。
- これにより,疎ZO勾配推定量の分散を低減し,精度向上と学習時間の短縮を実現する。
- OPTおよびLlamaを用いた実験により,CurvZOは既存のZOベースラインと比較して,一貫して性能を向上させることが示された。
チェックリストに基づく強化学習による科学的アイデアの進化 [eess.SY, cs.SY, cs.AI, cs.CL]目的:科学的アイデアの進化
- 科学的知識の自動発見において,アイデア創出は不可欠である。
- LLMは初期概念を高品質な研究提案に進化させる反復が困難である。
- チェックリストに基づくフィードバックでアイデアを系統的に進化させる。
- EvoIdeatorは,Qwen3-4Bを基盤とし,主要な科学的指標において大規模モデルを凌駕する性能を示した。
- 学習されたポリシーは,追加のファインチューニングなしに,多様な外部フィードバックに強い汎化性を持つ。
- チェックリストに基づくフィードバックを強化学習の目的に組み込むことで,自己改善型の自律的なアイデア創出への道を開く。
認知的主体性の放棄:足場付きAIフリクションによる認識的自律性の擁護 [cs.HC, cs.AI]目的:生成AIによる認知的主体性の放棄のリスク
- 生成AIの普及は,人間の認知能力に大きな影響を与え,社会全体の認知的な回復力にとって重要である。
- AIインターフェースの「ゼロフリクション」設計は,人間の思考を停止させ,自動化バイアスを誘発する問題がある。
- 足場付き認知フリクションを導入し,AIガバナンスを強化し,認知的な自律性を維持することを目指す。
- 2023年から2026年初頭のAI-HCI論文分析で,人間の認識的主権を守る研究が一時的に増加したが,その後急速に減少した。
- 無摩擦な使いやすさが支配的であり,自律的な機械エージェントの最適化へのシフトが加速していることが明らかになった。
- マルチエージェントシステムを認知的な強制関数として再利用し,視線追跡,瞳孔反応,fNIRS,HDDMなどの多角的な計測により認知努力を解き明かす。
推論についての推論エラー:異なる種類の推論が異なる表現構造を必要とする理由 [cs.AI, cs.CL]目的:異なる種類の推論が表現システムに求める構造的要件の体系的説明
- 心理学,AI,心の哲学において,推論の構造的要件は未解明であり,認知科学の根幹に関わる。
- 既存研究では,推論の種類に応じた表現構造の違いが考慮されておらず,推論エラーの説明が不十分である。
- 推論の種類ごとに異なる構造的性質(操作性,一貫性,構造保存性,構成性)の要求度合いを明確化し,推論エラーの分類を試みる。
- 表現システムには,操作性,一貫性,構造保存性,構成性という4つの構造的性質があり,推論の種類によって要求される度合いが異なる。
- ある境界線を境に,それ以下の推論は連合的・確率的表現で可能だが,それ以上の推論には4つの性質全てが必要となる。
- AI評価,発達心理学,認知神経科学の証拠がこの枠組みを支持しており,構造的破壊に対する脆弱性やスケーリングによる不可逆性などの予測を導出できる。
CellFluxRL:強化学習による生物学的制約付き仮想細胞モデリング [cs.FL, cs.LG, q-bio.QM]目的:生物学的に妥当な仮想細胞モデルの構築
- 創薬加速に貢献するin silico細胞挙動シミュレーションの重要性が高まっている。
- 既存の画像生成アプローチでは,物理・生物学的制約に反する不自然な細胞画像が生成されることがある。
- 強化学習を用いて物理・生物学的制約を仮想細胞モデルに組み込むことで,より現実的な細胞生成を目指す。
- CellFluxRLは,CellFluxと比較して,全ての報酬において性能が向上した。
- テスト時のスケーリングにより,さらなる性能向上が確認された。
- 本研究は,視覚的なリアリティを超え,生物学的に意味のある仮想細胞モデリングフレームワークを提示する。
表象生成における前提の問題 [cs.AI, cs.CL]目的:表象生成のメカニズムに関する考察
- 認知科学において,表象の起源は重要なテーマである。
- 既存の認知システムでは生成過程が不明であり,哲学的な議論も限定的である。
- 大規模言語モデルを事例に,表象生成の本質的な問題点を構造的に明らかにする。
- 大規模言語モデルは,表象生成を伴わずに高度な認知能力を示す最初のシステムである。
- 既存の哲学的な枠組みは,表象の成立を前提とした概念を使用しており,説明の循環に陥る。
- この問題構造を「表象前提」と定義し,回避するための理論の必要条件を提示する。
画像を用いた効率的な思考:動的かつ精密な視覚的思考によるインターリーブ型連鎖思考フレームワーク [cs.HC, cs.CV, cs.AI]目的:インターリーブ型連鎖思考推論における効率性と柔軟性の向上
- マルチモーダルな情報処理は,より高度なAIシステムの実現に不可欠であり,特に画像とテキストの連携が重要である。
- 既存のインターリーブ型連鎖思考法では,視覚情報の挿入位置が固定化され,冗長性や非効率性が課題となっていた。
- 視覚情報の動的な統合と精密な表現を通じて,より効率的で効果的な推論を実現することを目指している。
- 提案手法DaP-ICoTは,複数のベンチマークとモデルにおいて最先端の性能を達成した。
- DaP-ICoTは,画像挿入数を大幅に削減し,トークン消費量を72.6%減少させることで,より効率的な推論を可能にした。
- 動的な視覚情報統合と精密な視覚的ガイダンスにより,推論の効率性と表現の整合性が向上した。
レーダー観測と基盤モデルの事前情報をスペクトル融合により拡張した降水予測 [cs.HC, cs.LG, cs.AI]目的:降水予測の地平線延長
- 災害軽減や航空安全において,リアルタイムの降水予測は非常に重要である。
- レーダーのみのモデルでは,大規模な気象状況の把握が難しく,予測時間が長くなるほど精度が低下する。
- レーダーと気象モデルの情報を効果的に融合し,予測の信頼性向上を目指す。
- 提案手法PW-FouCastは,周波数領域での融合により,レーダー観測とPangu-Weatherの予測を効果的に統合する。
- Pangu-Weatherの予測をスペクトル事前情報として活用することで,より正確な降水予測を実現した。
- SEVIRおよびMeteoNetのベンチマークにおいて,最先端の性能を達成し,予測の信頼できる地平線を延長した。
モデル検証のための不変集合からの効率的なサンプリング:知られていないものを教えてくれ [cs.RO, cs.SI, cs.CY, cs.LG]目的:機械学習モデルの学習済み特徴の分析
- 機械学習の性能は,学習済み特徴の質に依存する。データ変動に頑健かつタスク関連の詳細に敏感な特徴が重要。
- 特徴抽出器が不変性を持つべき領域と,そうでない領域の可視化が困難であった。
- 事前学習済みの拡散モデルを用いて,特徴抽出器の不変性を効率的に分析し,問題点を明らかにする。
- 提案手法は,各特徴検出器ごとに専用の生成モデルを訓練する必要がなく,訓練フリーで動作する。
- ファイバー損失を用いて,ノイズ除去プロセスを目的とする同値クラスへ誘導し,不変性の学習にかかる時間を大幅に短縮する。
- ImageNetやCheXpertなどのデータセットで,望ましい不変性から懸念される挙動まで,多様な不変性を明らかにすることができた。
制御駆動型オンラインデータ拡張 [cs.CV, cs.AI, cs.LG, cs.SY, eess.SY]目的:画像認識タスクにおけるデータ拡張の自動化
- 画像認識の性能向上には,大量かつ多様な学習データが不可欠である。
- 適切なデータ拡張戦略を手動で設計するには,専門知識と試行錯誤が必要となる。
- データ拡張の強度を自動的に調整することで,タスクへの適応性を高める。
- 提案手法Ctrl-Aは,制御理論に基づき,データ拡張の強度分布をオンラインで調整する。
- 初期設定なしに,学習中に各拡張の強度を動的に適応させ,性能を低下させる拡張を抑制する。
- CIFAR-10, CIFAR-100, SVHN-coreデータセットでの実験により,最先端のデータ拡張戦略に匹敵する性能を示す。
SteelDefectX:汎用的な鋼表面欠陥検出のための粗粒度から細粒度までのビジョン言語データセットとベンチマーク [cs.CL, cs.CY, cs.CV, cs.AI]目的:汎用的な鋼表面欠陥検出のためのビジョン言語データセットとベンチマーク
- 現代の製造業において,製品の品質と信頼性を確保するために鋼表面欠陥検出は不可欠である。
- 既存手法は,ラベルのみのデータセットで訓練された基本的な画像分類モデルに依存しており,解釈性と汎化性能に限界がある。
- 本研究は,粗粒度から細粒度までのテキスト記述を用いて,解釈可能で汎用性の高い鋼表面欠陥検出モデルの開発を目指す。
- SteelDefectXは,25種類の欠陥カテゴリを含む7,778枚の画像と,粗粒度から細粒度までのテキスト記述アノテーションを含むビジョン言語データセットである。
- 粗粒度レベルでは,欠陥カテゴリ,代表的な視覚的特徴,および関連する産業原因などのクラスレベル情報が提供される。
- 実験の結果,粗粒度から細粒度までのテキストアノテーションが,解釈性,汎化性能,および転移学習能力を大幅に向上させることが示された。
BadminSense:単一のスマートウォッチによるバドミントンストロークのきめ細かい評価の実現 [cs.HC, cs.AI]目的:バドミントンパフォーマンスのきめ細かい分析
- バドミントン競技のレベル向上には,客観的なパフォーマンス評価が不可欠である。
- 専門的な指導は限られており,アマチュア選手が自身のストロークを改善する手段が不足している。
- スマートウォッチを用いた,手軽で詳細なストローク評価システムの開発。
- BadminSenseは,スマートウォッチの振動信号を用いてストロークをセグメント化,分類する。
- ストロークの質を予測し,シャトルの打撃位置を推定することに成功した。
- 経験豊富なアマチュア選手のデータセットを用いて評価を行い,有効性を検証した。
相関認識アダプターによる多変量予測のための時系列基盤モデルの強化 (CoRA) [cs.LG, cs.AI]目的:多変量時系列予測における時系列基盤モデルの性能向上
- 多変量時系列データは,経済,環境,医療など,多くの分野で重要である。分析の精度が求められる。
- 既存の時系列基盤モデルは,チャネル間の相関を無視したり,その多様な側面を見過ごす傾向がある。
- チャネル間の相関を捉え,多変量時系列予測の精度向上を目指す。
- 提案手法CoRAは,軽量なプラグアンドプレイ型であり,時系列基盤モデルの微調整のみで利用可能である。
- 相関行列を低ランクの時間変動成分と時間不変成分に分解することで,複雑さを軽減している。
- 実験の結果,CoRAは10の現実世界のデータセットにおいて,多変量予測性能を向上させることが示された。
光プティスモグラフィーからの健康指標の導出:MIMIC-III-Ext-PPGからのベンチマークと洞察 [cs.HC, cs.RO, math.DG, cs.LG, eess.SP]目的:光プティスモグラフィーに基づく臨床予測のベンチマーク
- 臨床予測において,光プティスモグラフィーは広く利用されている重要なバイオシグナルである。
- 既存のアルゴリズムは小規模で質が不確かなデータセットで学習されることが多く,比較が困難である。
- 大規模データセットを用いて,臨床予測における光プティスモグラフィーの性能を評価し,基準を提供する。
- 心房細動(AF)検出において,高い性能(AUROC = 0.96)が確認された。
- 呼吸数,心拍数,血圧などの生理的パラメータの推定も良好な精度を示した(RR MAE: 2.97 bpm; HR MAE: 1.13 bpm; SBP/DBP MAE: 16.13/8.70 mmHg)。
- AF検出は異なるデータセットでも高い汎化性能(AUROC = 0.97)を示し,血圧や心拍数などのサブグループ分析により性能差が明らかになった。
記号回帰のための命令セットと言語 [cs.CL, cs.AI, cs.PL]目的:記号回帰における構造的冗長性の削減
- 記号回帰は,データから数式を発見する強力な手法であり,科学的発見やモデル構築に役立つ。
- 記号回帰では,同じ数式を表す多数の異なる表現が存在し,計算資源を無駄にしている。
- 表現の冗長性を解消し,探索効率を向上させることを目指す。
- IsalSRという表現フレームワークを提案し,数式DAGをコンパクトな文字列として表現する。
- IsalSRは,DAGの同型性を不変とするカノニカル文字列を生成し,冗長な表現を統合する。
- この手法により,記号回帰の探索空間を大幅に削減し,効率的な学習が可能となる。
選択,ラベル付け,評価:NLPにおけるアクティブテスト [cs.CL, cs.AI]目的:NLPにおけるモデル性能推定の精度向上
- NLPの発展には,モデルの精度向上と評価が不可欠である。
- 高品質なテストデータのラベル付けには,コストと時間がかかる。
- ラベル付けコストを削減しつつ,正確なモデル評価を実現する。
- アクティブテストにより,最大95%のラベル付けコスト削減が可能となった。
- 推定されたモデル性能は,完全なテストセットの結果と1%以内の差で一致した。
- データ特性やタスクの種類によって,有効な手法が異なることが示された。
制約ベース因果探索における条件独立性検定の回数について [cs.LG, cs.AI, stat.ME, stat.ML]目的:制約ベース因果探索アルゴリズムの計算量
- 観測データから因果関係を学習することは,様々な分野で重要な課題である。
- 従来のアルゴリズムは指数関数的な数の独立性検定を必要とする場合がある。
- 本研究では,より効率的な計算量のアルゴリズムを開発し,その限界を明らかにする。
- 提案アルゴリズムは,$p^{\mathcal{O}(s)}$回の検定で問題を解決し,既存手法より計算量が少ない。
- 制約ベースアルゴリズムは少なくとも$2^{\Omega(s)}$回の検定が必要であり,提案アルゴリズムはほぼ最適である。
- シミュレーションおよび実データ実験により,提案アルゴリズムの効率性が確認された。
知識グラフを用いた適応的な科学的説明のための行動主体型ペルソナ [cs.AI, cs.HC]目的:科学的説明における専門家の認知戦略や知識的立場を反映した適応的な説明生成
- 科学的発見などの複雑な分野では,専門家の多様な思考様式を考慮した説明が不可欠である。
- 従来のAI説明手法は静的なユーザーモデルに依存し,専門家のニーズに合わせた説明が困難であった。
- 専門家からの直接的なフィードバックが限られている状況で,適応的な説明を効率的に生成すること。
- 行動主体型ペルソナは,専門家の知識的嗜好に沿った説明生成を可能にし,最先端の予測性能と同等の結果を示した。
- 適応的な説明は,非適応的な説明と比較して,一貫して好まれた(n = 22)。
- ペルソナに基づく学習により,フィードバックに必要な量を大幅に削減することができた。
単一の二項演算による全ての基本関数 [cs.SC, cs.LG]目的:全ての基本関数を生成する単一の二項演算子の存在
- 数学的計算において,様々な演算が必要とされることは周知の事実である。
- 連続数学では,sin, cos, sqrt, logのような基本関数を計算する統一的な演算子が未確立であった。
- この研究は,単一の二項演算子を用いて全ての基本関数を生成する可能性を探求する。
- 提案された演算子eml(x,y)=exp(x)-ln(y)と定数1を用いることで,科学計算機に搭載されている全ての関数を生成できることが示された。
- EML形式では,全ての式が同一ノードの二分木となる単純な文法S→1|eml(S,S)が実現される。
- EML木を学習可能な回路として使用し,数値データから閉じた形式の基本関数を浅い深さの木構造で正確に復元できることが実証された。
関節トルク空間摂動注入によるヒューマノイド運動制御ポリシーのシミュレーションから実機への転移 [cs.RO, cs.AI]目的:ヒューマノイド運動制御ポリシーの実機への転移
- ロボットの自律的な動作を実現するには,実環境での堅牢性が不可欠である。
- シミュレーション環境と実環境の乖離が,実機での性能低下の大きな要因となっている。
- 状態に依存した摂動注入により,パラメータ化されたランダム化では捉えきれない不確実性を克服する。
- 提案手法は,シミュレーション中にジョイントトルクに状態依存的な摂動を注入することで,現実世界のギャップをより広範囲にシミュレートする。
- 柔軟な摂動生成器であるニューラルネットワークを用いることで,非線形アクチュエータダイナミクスや接触コンプライアンスといった複雑な不確実性を表現可能となる。
- 実験結果から,提案手法が複雑な現実世界のギャップに対して,シミュレーションおよび実機環境で優れたロバスト性を持つことが示された。
推論か,レトリックか:大規模言語モデルにおける道徳的推論の説明に関する実証分析 [cs.AI]目的:大規模言語モデルにおける道徳的推論の説明の性質
- AI倫理は,AI技術の責任ある開発と利用のために不可欠である。
- 大規模言語モデルの道徳的判断能力は不明確であり,表面的な模倣の可能性が指摘されている。
- 大規模言語モデルの道徳的推論が,真の道徳的発達過程を反映しているか検証する。
- 大規模言語モデルの応答は,モデルの規模,アーキテクチャ,プロンプト戦略に関わらず,一貫して高度な道徳段階(5-6)に対応する傾向がある。
- 一部のモデルでは,道徳的根拠と行動選択の間に不整合が見られ,論理的な一貫性の欠如が示唆された。
- これらの結果は,モデルが道徳的慣習を学習しているだけで,真の道徳的発達過程を反映していない可能性を示唆する。
最適な Mixture-of-Experts アーキテクチャ最適化のための包括的なスケーリング則 [cs.LG]目的:MoEアーキテクチャの最適化
- 大規模言語モデルの発展に伴い,効率的な計算資源の活用が重要になっている。
- MoEモデルのアーキテクチャ探索空間が広大であり,最適な設定を見つけることが困難である。
- 計算資源の制約下で,MoEモデルの最適なアーキテクチャを決定するための枠組みを提供する。
- 本研究では,トークンあたりのFLOPs,活性パラメータ,総パラメータの3つの制約項を組み合わせた。
- 代数的な制約と隠れ次元のランク保存特性を用いて,16次元の探索空間を2段階の低次元空間に削減した。
- 計算規模が6桁異なる数百のMoEモデルで検証した結果,ロバストなスケーリング則が得られた。
適応的ビデオ蒸留:少数ステップ生成における過飽和と時間的崩壊の緩和 [cs.CV, cs.AI]目的:ビデオ蒸留による効率的なビデオ生成手法
- 生成AI分野において,ビデオ生成は重要な課題となっている。
- ビデオ合成の計算コストが高く,効率的な展開が課題である。
- 既存手法が抱える過飽和や時間的崩壊といった問題の解決を目指す。
- 提案手法は,空間的監督重みを動的に調整する適応的回帰損失を導入し,分布シフトによるアーティファクトを抑制。
- 時間的崩壊に対抗するため,滑らかで物理的に妥当なサンプリング軌跡を促進する時間的正則化損失を導入。
- 推論時のフレーム補間戦略により,サンプリングオーバーヘッドを削減しつつ,知覚的品質を維持。
生成AIを用いた暗黙知マネジメント:GenAI SECIモデルの提案 [cs.AI]目的:生成AIを活用した知識創造プロセスモデルの提案
- 知識マネジメントは組織の競争力源泉であり,その重要性は増している。
- 従来の知識マネジメントは,暗黙知の扱いに課題を抱えていた。
- 生成AIを用いて暗黙知と形式知を統合的に扱うモデルを構築する。
- 本研究では,知識創造プロセスモデル(SECIモデル)を更新し,生成AIの能力を活用した「GenAI SECIモデル」を提案した。
- 新たな概念である「デジタル断片化知識」を導入し,サイバー空間における形式知と暗黙知の統合を図った。
- 提案モデルの具体的なシステムアーキテクチャを示し,既存研究との比較を行った。
敵対的カモフラージュ [cs.CV, cs.AI]目的:顔認識に対する欺瞞によるプライバシー保護
- 顔認識技術は利便性をもたらす一方,監視社会化やプライバシー侵害のリスクが懸念される。
- 既存手法では,実用性や汎用性に課題があり,多様な顔認識システムへの対応が困難である。
- 本研究は,顔に特定のパターンを付加することで,様々な顔認識システムを欺瞞し,プライバシーを保護することを目指す。
- 提案手法は,色,形状,角度をパラメータとしたパターンを最適化し,顔の特定領域に投影することで顔認識エラーを最大化する。
- シミュレーション及び実証実験の結果,最先端の顔認識モデルの性能を大幅に低下させることが確認された。
- また,モデル間の頑健性や攻撃の転移可能性に関する知見が得られた。
ビデオ生成のための強化学習における多様体認識探索 [cs.IR, cs.SI, cs.CV, cs.AI]目的:ビデオ生成における強化学習のための多様体認識探索手法
- ビデオ生成は,言語モデルや画像生成に比べ,複雑な解空間を持つため,安定した学習が困難である。
- 従来の探索手法では,過剰なノイズが注入され,ロールアウト品質が低下し,報酬推定の信頼性が損なわれる。
- 事前学習済みモデルが定義するビデオデータの多様体近傍に探索を制約することで,安定した学習を実現する。
- SAGE-GRPOは,マイクロレベルとマクロレベルの両方で制約を適用し,探索の安定性と信頼性を向上させる。
- HunyuanVideo1.5データセットを用いた実験により,既存手法と比較して,VQ,MQ,TA,CLIPScore,PickScoreといった評価指標で一貫した改善が確認された。
- 報酬最大化と全体的なビデオ品質の両方において,SAGE-GRPOが優れた性能を示すことが示された。
P^2O:ジョイントなポリシーとプロンプトの最適化 [cs.LG, cs.AI]目的:大規模言語モデルの推論能力向上を目指した検証可能な報酬を用いた強化学習における効率的な探索手法
- 大規模言語モデルの性能向上は,自然言語処理の発展に不可欠であり,様々な応用を可能にする。
- 従来の強化学習では,成功率の低い困難な事例に対し,十分な学習信号が得られず,性能向上が停滞する。
- 困難な事例に対しても効果的に学習を進めるため,プロンプト最適化とポリシー最適化を組み合わせる。
- P^2Oは,学習中に困難な事例を特定し,遺伝的パレート最適化(GEPA)を用いて成功率を高めるプロンプトを生成する。
- 最適化されたプロンプトによる推論能力の向上をモデルパラメータに直接組み込むことで,困難な事例に対する学習効率を向上させる。
- 実験結果から,P^2Oは既存手法と比較して,分布内および分布外のデータセットにおいて優れた性能と汎化能力を示す。
SmaAT-QMix-UNet:降水予測のためのパラメータ効率の良いベクトル量子化UNet [cs.LG, cs.AI]目的:降水予測のための,パラメータ効率の良いベクトル量子化UNetの提案
- 気象予報は社会経済活動や環境保護に不可欠である。高精度な予測が求められている。
- 数値予報モデルは計算コストが高く,一部のアプリケーションには不向きな場合がある。
- 深層学習モデルを用いて,計算コストを抑えつつ高精度な降水予測を実現することを目指す。
- SmaAT-QMix-UNetは,ベクトル量子化ボトルネックとMixConvを用いることで,モデルサイズを削減しつつ予測性能を向上させた。
- オランダのレーダー降水データを用いて評価した結果,VQとMixConvを組み合わせたSmaAT-QMix-UNetが最も優れた性能を示した。
- Grad-CAMを用いて予測に影響を与える領域を可視化し,UMAPを用いてベクトル量子化層のクラスタリングを分析した。
すべてのレイヤーが同じではない:パーソナライズ画像生成のための適応LoRAランク [cs.CV, cs.AI, cs.LG]目的:パーソナライズ画像生成におけるLoRAランクの適応的な選択
- 事前学習済み拡散モデルのファインチューニングは,パーソナライズされた画像生成において重要な役割を果たす。
- LoRAのランク選択は性能とメモリ消費のトレードオフに関わるが,被写体の複雑さを考慮した最適な選択は困難である。
- 各レイヤーのランクを適応的に学習することで,メモリ消費を抑えつつ高性能なパーソナライズ画像生成を目指す。
- 提案手法LoRA$^2$は,29種類の被写体に対し,DINO,CLIP-I,CLIP-Tの評価指標で優れた性能とメモリ効率を実現した。
- 従来の高ランクLoRAと比較して,必要なメモリ量とランクを大幅に削減することに成功した。
- ランクの重要度に応じた順序付けにより,必要な場合にのみ高ランクが生成されるように促している。
SHAPE:構造を考慮した階層的教師なしドメイン適応と妥当性評価による医療画像セグメンテーション [cs.CV, cs.AI]目的:医療画像セグメンテーションにおけるドメイン適応手法の性能向上
- 医療画像診断の精度向上には,様々な臨床環境への適応が不可欠である。
- 既存手法は,意味的理解に基づかない特徴量のアライメントや,グローバルな解剖学的制約を無視した擬似ラベルの検証が課題である。
- グローバルな解剖学的妥当性を考慮したドメイン適応により,より信頼性の高いセグメンテーションを実現する。
- SHAPEは,DINOv3を基盤とし,階層的特徴量変調(HFM)モジュールにより高精度でクラス認識可能な特徴量を生成する。
- ハーパーグラフ妥当性推定(HPE)を導入し,標準グラフでは捉えきれないグローバルな解剖学的妥当性を評価することで,擬似ラベルの検証を強化する。
- 心臓および腹部クロスモーダルベンチマークにおいて,既存手法を大きく上回り,最先端のDiceスコアを達成した(MRI→CT:90.08%,CT→MRI:78.51%,腹部MRI→CT:87.48%,CT→MRI:86.89%)。
SparseDVFS:スパース性を考慮したエッジ推論のためのDVFS [cs.LG]目的:省電力エッジ推論のためのDVFSフレームワーク
- 深層ニューラルネットワークをエッジデバイスに展開する際の電力消費は重要な課題である。
- 従来のDVFSは粒度が粗く,推論内の変動に対応できない場合がある。
- 演算子のスパース性を活用し,最適な周波数設定を行うことで省電力化を目指す。
- SparseDVFSは,最先端のソリューションと比較して平均78.17%のエネルギー効率向上を達成した。
- 演算子のスパース性と最適な周波数トリプレットの間に決定的なマッピングを確立するオフラインモデラーを導入した。
- スケール粒度とDVFS切り替え遅延のバランスを取る,貪欲マージヒューリスティックを用いたランタイムグラフパーティショナーを開発した。
物理情報学習における曲線ドメイン境界上のディリクレ,ノイマン,ロビン条件を正確に適用する新規手法 [math.NA, cs.LG, cs.NA, physics.comp-ph]目的:曲線ドメイン境界上のディリクレ,ノイマン,ロビン条件を正確に適用するための手法
- 物理現象のシミュレーションにおいて,境界条件の正確な適用は,計算精度の向上に不可欠である。
- 複雑な形状のドメインにおいて,境界条件を正確に適用することは困難であり,誤差の原因となる。
- 曲線ドメイン境界上の境界条件を正確に適用し,物理情報学習の精度を向上させる。
- 一般的な四角形ドメインと標準ドメイン間の正確な写像を利用し,TFC制約と超越補間を組み合わせた手法を開発した。
- ノイマン境界やロビン境界が交差する場合の適合条件を正確に適用するための構成を詳細に分析・提示した。
- 提案手法は,複雑な形状の二次元ドメインにおいて,境界条件を機械精度で正確に適用できることを数値実験で示した。
リモートセンシングにおけるハイパースペクトル画像エミュレーションのための潜在表現学習フレームワーク [cs.ET, cs.CV, cs.LG, eess.IV]目的:ハイパースペクトルデータの潜在的生成表現の学習
- 大規模シミュレーションやアルゴリズム開発に不可欠であり,リモートセンシングの発展に寄与する。
- 従来の放射輸送モデルは計算コストが高く,スペクトルレベルの出力に限定される場合がある。
- 計算効率が高く,空間スペクトルエミュレーションも可能な手法を開発し,実用的なデータを提供する。
- 提案手法は,古典的な回帰ベースのエミュレータよりも再構成精度,スペクトル忠実度,空間変動へのロバスト性が向上した。
- エミュレーションされたハイパースペクトル画像は,バイオフィジカルパラメータの逆算性能を維持し,リモートセンシング応用への実用性を示した。
- 潜在表現に基づくフレームワークは,スペクトルレベルと空間スペクトルレベルの両方のエミュレーションをサポートする。
深層強化学習と二つの時間差誤差 [eess.SY, cs.SY, cs.LG, cs.AI]目的:時間差誤差の二つの解釈の違い
- 強化学習は,報酬を最大化する行動戦略を学習する技術であり,ロボット工学やゲームAI等に応用が期待される。
- 時間差誤差の解釈が曖昧であり,深層強化学習アーキテクチャにおいて数値的な差異が生じることが問題視されている。
- 深層強化学習における時間差誤差の解釈の違いが,アルゴリズムの性能に影響を与えることを明らかにする。
- 深層強化学習アーキテクチャが非線形化するにつれて,時間差誤差の二つの解釈は異なる数値となりうる。
- 時間差誤差のどちらの解釈を選択するかによって,深層微分強化学習を含むアルゴリズムの性能が変化する。
- ブートストラップされた目標値と予測値との差であるという,時間差誤差の標準的な解釈は,深層強化学習設定では常に成立しない。
眼科臨床意思決定支援のためのガイドラインに基づく検索拡張生成 [cs.AI]目的:眼科臨床質問応答と意思決定支援のためのマルチモーダル視覚検索拡張生成システム
- 眼科領域における正確な診断と治療は重要であり,最新のガイドラインに基づいた意思決定が求められる。
- 既存のAIシステムは,複雑な眼科ガイドラインを正確に理解し,根拠に基づいた回答を生成することが難しい。
- ガイドライン情報を効果的に活用し,AIの臨床意思決定の精度と信頼性を向上させることを目指す。
- 提案手法Oph-Guid-RAGは,HealthBenchの難易度が高いデータセットにおいて,GPT-5.2と比較してスコアを30.0%向上させた。
- GPT-5.4と比較しても,精度の大幅な向上(+0.1289, +24.4%)を示し,高度な根拠に基づく推論が必要な症例で有効であることが示された。
- リランキング,ルーティング,検索設計が,システム性能の安定化に不可欠であることが検証された。
ゴールデンサブスペース:継続的テスト時適応における効率性と汎化性の両立 [cs.RO, cs.CV, cs.LG]目的:継続的テスト時適応における効率性と汎化性のトレードオフの解消
- 機械学習モデルは現実世界で変化するデータ分布に対応する必要があるため,オンライン適応技術は重要である。
- 既存の継続的テスト時適応手法は,適応の度合いとオンライン推論効率の間でトレードオフが発生する。
- 事前学習済み分類器の行空間である「ゴールデンサブスペース」を利用することで,最小限のパラメータ更新で効果的な適応を目指す。
- 提案手法GOLDは,特徴量をゴールデンサブスペースへ投影する軽量アダプターと,AGOPによる動的なサブスペース更新を用いる。
- 分類およびセグメンテーションのベンチマークテストの結果,GOLDは優れた効率性,安定性,および全体的な性能を示した。
- AGOPを用いることで,分類器の重みを再学習せずに効率的に推定できることが示された。
記述子に基づくベータエビデンスによる3Dガウススプラットのカメラ非依存的プルーニング [cs.CV, cs.AI, cs.LG]目的:3Dガウススプラットのプルーニング手法
- 3Dガウススプラットは,効率的な保存・伝送・処理のために複雑さを軽減する必要がある。
- 既存のプルーニング戦略はカメラパラメータに依存し,カメラ非依存的な交換設定下では課題となる。
- スプラット表現から直接構造と外観の一貫性を捉え,カメラ非依存的なプルーニングを実現する。
- 提案手法は,標準的なISO/IEC MPEG CTCテストシーケンスにおいて,再構成品質を維持しつつ大幅なプルーニングを達成した。
- プルーニングを統計的エビデンス推定問題として定式化し,ベータエビデンスモデルを用いてスプラットの信頼性を定量化した。
- 既存のカメラ依存的プルーニング戦略に代わる,実用的かつ汎用性の高い手法を確立した。
時系列対照学習:不可逆性疾患における少数ショット進行評価 [cs.CV, cs.AI]目的:不可逆性疾患における進行評価のための表現学習
- 医学画像における定量的な疾患重症度評価は,医療の質向上に不可欠である。
- 専門家による疾患重症度評価はコストと時間がかかり,読者間のばらつきが生じやすい。
- 時系列データの順序情報を活用し,専門家のラベルに依存しない表現学習を目指す。
- 本研究で提案するChronoConは,時系列データにおける訪問順序に基づいた対照学習を行うことで,疾患に関連する表現を獲得する。
- 少数のラベルデータを用いた実験では,ChronoConはImageNetで初期化された完全教師あり学習モデルを大幅に上回る性能を示した。
- わずか5人の患者データでファインチューニングした結果,重症度スコア予測において86%のICC(クラス内相関係数)を達成した。
医療テキスト要約のためのパラメータ効率的ファインチューニング:LoRA,プロンプトチューニング,およびフルファインチューニングの比較研究 [cs.CL, cs.AI]目的:医療テキスト要約におけるパラメータ効率的ファインチューニング手法の比較
- 大規模言語モデルの医療分野への応用は重要だが,計算資源が課題となる。
- フルファインチューニングは計算コストが高く,効率的な手法が求められている。
- パラメータ効率的ファインチューニングにより,計算コストを抑えつつ性能を維持すること。
- LoRAはFlan-T5-Largeにおいて,フルファインチューニングよりも高いROUGE-1スコア(43.52 +/- 0.18)を達成した。
- LoRAはフルファインチューニングと比較して,学習可能なパラメータ数が0.6%に抑制された。
- LoRAのランク制約は,正則化効果をもたらし,フルパラメータ更新の必要性に対する仮説に疑問を投げかけている。
