arXiv雑要約
AI - 2026/03/20 公開
知的スチュワードシップ:AI時代における創造的知識労働のための人間の知性の再適応 [cs.CY, cs.CY, cs.AI]目的:AI時代における創造的知識労働のための人間の知性の再適応
- AI技術の発展は,学習研究において人間の役割と責任を再考する必要性を生み出している。
- AIによるタスクの自動化が進む中で,人間の知性と創造性をどのように維持・発展させるかという課題がある。
- AI時代に適応した学習実践を促進するための概念的枠組みを提示し,知性的な成長を支援すること。
- 本研究は,知的スチュワードシップという人間中心の枠組みを提案し,AIと人間の協調による創造的な学習を促進する。
- 知的スチュワードシップは,知識,知性,倫理,自己成長といった側面を包含し,AIを活用した学習環境における人間の適応を促す。
- この枠組みは,知恵に基づいた,社会的に責任ある知識構築者育成に向けたメタレベルの能力開発の重要性を示唆している。
Insight-V++:マルチモーダル大規模言語モデルによる高度な長鎖視覚推論に向けて [cs.CV, cs.AI, cs.LG]目的:マルチモーダル大規模言語モデルにおける長鎖視覚推論能力の向上
- 視覚情報を理解し,高度な推論を行うことは,AIの応用範囲を広げる上で重要である。
- 高品質な長鎖推論データの不足と,最適化された学習パイプラインが,マルチモーダル大規模言語モデルの能力向上を阻害している。
- 本研究は,自動データ生成と多重エージェントシステムにより,長鎖視覚推論能力の向上を目指す。
- Insight-V++は,画像と動画の両領域で複雑な推論軌跡を自動生成するパイプラインを開発した。
- 推論エージェントと要約エージェントの二重エージェントアーキテクチャと,ST-GRPO,J-GRPOアルゴリズムにより,空間・時間的推論を強化した。
- LLaVA-NeXTやQwen2.5-VLといった基盤モデルで,視覚推論ベンチマークにおいて著しい性能向上を実証した。
DNN推論における物理的障害攻撃の緩和のための数学的活性化誤差検出 [cs.CR, cs.LG]目的:DNN推論における物理的障害攻撃に対する数学的活性化誤差検出
- 組み込みシステムにおけるDNN利用が拡大する中で,セキュリティ確保が重要課題となっている。
- DNN推論フェーズは,故障攻撃や自然故障に脆弱であり,誤った予測を引き起こす可能性がある。
- アルゴリズムレベルでの誤差検出により,DNNの信頼性を高めることを目指す。
- 提案手法MAEDは,数学的恒等式を用いて活性化関数の計算を検証し,高い誤差検出率を達成した。
- シミュレーションでは,100%近い誤差検出率で既存の故障攻撃を緩和できることを確認した。
- マイクロコントローラ上でのオーバーヘッドは1%未満,FPGA上では面積増加はほぼゼロで,遅延が20%程度増加した。
コード骨格で構築:専門家向け低コストなエージェントワークフローのインタラクティブなノーコードノートブック [cs.AI, cs.HC, cs.PL, cs.SY, eess.SY]目的:AIエージェントを用いたワークフローの構築
- AI技術の活用範囲拡大のため,専門知識がなくてもワークフローを構築できる環境が求められている。
- 従来のワークフロー構築は,技術的な知識が必要であり,専門家以外には参入障壁が高い。
- 専門家が容易にワークフローを構築し,低コストで運用できる手段を提供する。
- Skele-Codeは,自然言語とグラフベースのインターフェースにより,技術者でないユーザーでもワークフローを構築可能にする。
- コード生成とエラーリカバリーにエージェントを活用することで,トークンコストを削減し,効率的なワークフロー構築を実現する。
- 生成されたワークフローはモジュール化されており,拡張性や共有性に優れている。
医療におけるロボティクスとAIに関するワークショップ最終報告書 [cs.CL, cs.AR, physics.chem-ph, cs.RO, cs.AI]目的:医療分野におけるロボティクスとAIの発展に向けた国家的なビジョン策定
- 医療現場における技術革新と臨床ニーズのギャップを埋める必要性が高まっている。
- データ不足,評価手法の標準化,規制,人材育成が,ロボット技術の導入を阻害している。
- ロボット技術とAIを活用し,医療の安全性,信頼性,実用化を促進すること。
- ワークショップでは,医療におけるロボティクスとAIの進歩に対する喫緊の必要性が確認された。
- 人間とロボットの協調,自律性,シミュレーション,多種多様なセンシング,AIの倫理的統合などが,優先研究分野として特定された。
- 医療におけるAIとロボティクスの卓越センター(CARE)設立に対する幅広い合意が形成された。
オンライン学習によるk-中央値問題に対する学習拡張アルゴリズム [cs.DS, cs.LG]目的:k-中央値問題における学習拡張アルゴリズムの性能向上
- 機械学習の活用により,過去のデータから効率的な問題解決が期待される分野である。
- 従来のアルゴリズムは,問題の特性変化に追随できず,最適な解が得られない場合がある。
- 過去の事例を学習し,将来の事例に対応可能なアルゴリズムを開発し,性能向上を目指す。
- 提案手法は,オンライン学習の枠組みに基づき,k-中央値問題に適用できる学習拡張アルゴリズムである。
- 実験結果から,提案手法は最適な固定k-中央値解の平均性能に近似できることが示された。
- また,動的に変化するデータ系列に対して,自動的に適応する能力を持つことが確認された。
LLMが我々の文章表現をどのように歪めるか [cs.CL, cs.AI]目的:LLMによる文章作成支援が,人間の文章表現に及ぼす影響の解明
- 文章表現は思考の基盤であり,社会や文化の伝達において不可欠である。
- LLMの普及に伴い,文章表現の均質化や意味の変化が懸念されている。
- LLM利用が文章の質と意味に与える影響を定量的に明らかにする。
- LLMの利用頻度が高いほど,エッセイの論点が曖昧になり,中立的な回答が増加する傾向が見られた。
- LLMに校正を依頼した場合でも,意味が大きく変化し,文脈が歪められることが示された。
- AI生成の査読では,研究の明確性や重要性への評価が低く,平均的なスコアが高くなる傾向が確認された。
動的クラスタリングによる効率的な群衆軌跡予測 [cs.AI]目的:群衆軌跡予測の効率化
- 公共の安全管理において重要であり,群集事故の防止に貢献しうる分野である。
- 高密度な群衆における自動化が難しく,追跡データのノイズや不正確さが課題となっている。
- 高密度な群衆においても,高速かつ正確な軌跡予測を可能にすることを目的とする。
- 提案手法は,類似した属性を持つ個体を時間的にクラスタリングすることで,高速な処理を実現する。
- 既存の軌跡予測器に容易に組み込むことが可能であり,精度の低下を抑えつつ計算コストを削減する。
- 複数の高密度な群衆シーンにおいて,最先端手法と比較して処理速度とメモリ使用量の削減を実証した。
確率的機械学習述語のための競合のないポリシー言語:フレームワークとセマンティック・ルーターDSLによる事例研究 [cs.CL, cs.CL, cs.LG]目的:ポリシー言語における競合検出の課題解決
- ポリシー制御はシステムセキュリティの根幹であり,正確な動作が不可欠である。
- 従来のポリシー言語は厳密な真偽値に基づき,確率的な機械学習信号には対応できない。
- 確率的機械学習信号による誤ったルーティングを防ぐためのフレームワークを提案する。
- 従来の競合検出手法は決定可能だが,埋め込みや分類器の競合はより複雑である。
- 埋め込みの場合,温度スケーリングされたsoftmaxを用いることで競合を回避できる。
- このメカニズムをセマンティック・ルーターDSLに実装し,実用性を検証した。
VLM-AutoDrive:安全重視の自動運転イベントに対するポストトレーニングのビジョン言語モデル [cs.CV, cs.AI]目的:安全重視の自動運転イベント検出のためのビジョン言語モデルの適応
- 自動運転技術の発展には,安全性確保が不可欠であり,異常検知の精度向上が求められる。
- 既存のビジョンモデルは,短時間で発生し,頻度が低い安全関連イベントの検出が困難である。
- 汎用的なビジョン言語モデルを,自動運転ドメインに特化して高精度な異常検知に活用すること。
- VLM-AutoDriveは,既存のビジョン言語モデルをポストトレーニングで適応させることで,衝突検出のF1スコアを0.00から0.69に向上させた。
- 同フレームワークにより,全体的な精度も35.35%から77.27%に大幅に改善された。
- 実世界のダッシュカム映像を用いた評価では,衝突およびニアミス検出性能が大幅に向上し,解釈可能な推論過程を提供した。
TeachingCoach:インストラクター向け指導ガイダンスを提供するファインチューニングされたスキャフォールディングチャットボット [cs.CL, cs.AI]目的:インストラクターの指導ガイダンス
- 高等教育における質の高い教育は重要であり,そのためには教員の継続的な専門能力開発が不可欠である。
- 教員は適切なタイミングでの教育的根拠に基づいた支援を受けにくく,既存のツールは汎用的なアドバイスに終始する。
- 本研究は,教員の課題特定,診断,戦略策定を支援する,教育的根拠に基づいたチャットボットの開発を目指す。
- TeachingCoachは,GPT-4oミニベースラインと比較して,より明確で内省的,かつ応答性の高いガイダンスを提供する。
- 教員を対象としたユーザースタディでは,会話の深さとインタラクション効率のトレードオフが明らかになった。
- 教育的根拠に基づき,合成データ駆動型チャットボットが指導支援を改善し,将来のシステムの設計アプローチとなりうる。
セキュリティインシデント分析のためのRetrieval-Augmented LLM [cs.CR, cs.AI]目的:セキュリティインシデントの分析手法
- サイバーセキュリティは重要性が増しており,迅速かつ正確なインシデント分析が不可欠である。
- インシデント分析は労力と時間を要し,専門家不足も課題となっている。
- LLMとRAGを活用し,効率的かつ費用対効果の高い分析手法を確立すること。
- RAGベースのシステムは,セキュリティインシデントの分析において,クエリに基づいたフィルタリングとLLMのセマンティック推論を活用する。
- Claude Sonnet 4とDeepSeek V3は,マルウェアシナリオにおいて100%の再現率を達成し,DeepSeekはコスト効率に優れる。
- Active Directoryシナリオでは,攻撃ステップの検出において100%の適合率と82%の再現率を達成した。RAGアーキテクチャが不可欠であることが確認された。
エージェント型AIによる委任された重要タスクのためのアクセス制御されたウェブサイトインタラクション [cs.AI, cs.CR, cs.NI]目的:エージェント型AIにおける委任された重要タスクのためのアクセス制御
- AIの自律性が高まる中で,ウェブサイトへのアクセス制御は,セキュリティと機能性の両立に不可欠である。
- 既存のウェブサイトは,エージェント型AIのためのきめ細かいアクセス制御機構が不足しているという課題がある。
- エージェント型AIが安全かつ効率的にウェブサイトを利用するためのアクセス制御設計を提案し,検証すること。
- 本研究では,エージェント型AIが委任された重要タスクを実行するための,きめ細かいアクセス制御を備えたウェブサイトの設計と実装を行った。
- オープンソースの認可サービスへのアクセス許可プロトコルの変更により,エージェント型AIに特化したウェブサイトでの利用に適応させた。
- 評価の結果,提案するアクセス制御されたウェブサイトが,AIエージェントによって効果的に利用できることが示された。
人工知能システムの信頼性に関する誤差伝播を考慮した計算効率の良い学習 [eess.SY, cs.SY, cs.AI, stat.CO]目的:人工知能システムの信頼性モデリング
- スマートシティにおけるAI活用が拡大する中で,その信頼性は重要な課題である。
- 実データが不足し,誤差の依存関係が統計的推論を困難にしている。
- 誤差伝播を明示的にモデル化し,計算効率の良い推定手法を開発する。
- 物理ベースのシミュレーションと誤差注入により,高品質なデータを生成した。
- 誤差伝播を考慮した新しい信頼性モデリングフレームワークを開発した。
- 合成尤度期待値最大化アルゴリズムにより,予測精度と計算効率を両立した。
R2-Dreamer:デコーダーやデータ拡張を用いない冗長性を削減したワールドモデル [cs.LG, cs.AI, cs.RO]目的:画像ベースのモデルベース強化学習における表現学習
- 視覚情報から本質的な情報を抽出する表現学習は,強化学習の効率と汎化性能に不可欠である。
- 再構成に基づく既存手法は,タスクに関係ない領域に容量を浪費する傾向がある。
- データ拡張に依存しない内部正則化による,汎用性の高いデコーダーフリーな強化学習フレームワークの実現。
- R2-Dreamerは,DeepMind Control SuiteとMeta-Worldにおいて,DreamerV3やTD-MPC2といった強力なベースラインと同等の性能を示す。
- DreamerV3と比較して,1.59倍高速に学習を完了する。
- DMC-Subtleのような,タスクに関係するオブジェクトが小さい環境において,顕著な性能向上を達成した。
勾配情報に基づいた時間的サンプリングが偏微分方程式の代理モデル訓練におけるロールアウト精度を向上させる [eess.SY, cs.SY, cs.LG, cs.AI]目的:偏微分方程式の代理モデル訓練におけるロールアウト精度最大化のためのデータサンプリング
- 物理現象のシミュレーションにおいて,計算コスト削減と高精度な予測が求められるため,代理モデルが重要視されている。
- 既存のデータサンプリング手法は,情報密度が高い領域に偏りやすいか,汎用性が低いという問題があった。
- モデル特有性と時間情報のバランスを最適化し,ロールアウト精度を向上させるデータサンプリング手法を開発する。
- 提案手法GITSは,複数の偏微分方程式システム,モデルバックボーン,サンプル比率において,他のサンプリング手法と比較してロールアウトエラーを低減した。
- GITSにおける2つの最適化目的(勾配と時間的カバレッジ)は,それぞれ必要であり,相補的であることが消去研究によって示された。
- GITSの成功パターンと,GITSが失敗する典型的な偏微分方程式システムおよびモデルバックボーンが分析された。
AGRI-Fidelity:家禽疾病検出における説明の信頼性評価 [cs.RO, cs.LG]目的:家禽疾病検出のための説明の信頼性評価手法
- 畜産環境における疾病早期発見は,経済的損失の低減と動物福祉の向上に不可欠である。
- 既存の説明可能AI指標は,モデルの多様性を考慮せず,誤った音響手がかりに依存する可能性がある。
- 農場環境のノイズの影響を受けやすい説明の信頼性を高め,より正確な疾病検出を可能にすること。
- AGRI-Fidelityは,複数モデル間の合意と時間的置換を用いて,ノイズによる誤検出を抑制する。
- この手法は,空間的真実値なしで,信頼性に基づいた識別を可能にする。
- 実データと制御データセットにおいて,AGRI-Fidelityは既存の指標よりも有効であることが示された。
ベイズ推定における計算量・有用性・プライバシーのトレードオフ [cs.NI, cs.DS, cs.CC, cs.IT, cs.LG, math.IT, stat.ML]目的:ベイズ推定におけるプライバシー保護と推定精度の両立
- 現代データ科学の根幹をなすベイズ推定は,データ制約下での推定や不確実性の定量化に不可欠である。
- 現実世界での応用において,個人のプライバシー保護が求められるが,プライバシー保護と推定精度の両立は困難である。
- 本研究では,プライバシー保護下でのベイズ推定における最適な推定精度を追求し,計算量との関係を明らかにする。
- ガウス分布の平均推定と線形回帰問題に対し,$(1+o(1))\mathrm{OPT}$ の平均二乗誤差を達成する効率的なアルゴリズムを開発した。
- 両タスクにおいて,計算量と統計的精度の間に興味深いギャップが存在することを示した。
- プライバシー保護されたベイズ推定を実現するため,経験平均やOLS推定器に対するロバスト推定器を設計する必要があることを示した。
MolRGen:推論モデルを用いた新規分子生成のための学習と評価設定 [cs.LG, cs.AI]目的:新規分子生成のための推論に基づく大規模言語モデルの学習と評価
- 創薬や分子設計において,推論能力を持つ大規模言語モデルの活用が期待されている。
- 既存研究は評価か,既知の性質を持つ分子ペアが必要で,新規分子生成には不向きである。
- 新規分子生成における事前知識の不足を補い,高性能なモデルの学習を可能にする。
- MolRGenは,新規分子生成と物性予測のための学習・評価設定を提供する。
- 多様性を考慮した新しいトップ-$k$スコアを導入し,生成分子の品質と多様性を評価する。
- 24BのLLMを強化学習で学習させ,その性能と限界を詳細に分析した。
制御可能な要素の発見:強化学習のための介入境界探索 [cs.LG, cs.AI]目的:強化学習における因果的影響範囲の発見
- 複雑な環境下での効率的な学習には,重要な状態変数の特定が不可欠である。
- 観測データのみでは,行動と相関する変数と,行動が原因となる変数を区別できない。
- 混同変数の影響を取り除き,真に制御可能な要素を特定することを目指す。
- 提案手法であるIBDは,介入操作と二標本検定を用いて,観測次元に対する解釈可能なマスクを生成する。
- 観測データのみによる特徴選択は,混同変数を誤って選択し,真の因果変数を排除する可能性がある。
- IBDは,様々な連続制御環境において,オラクル性能に匹敵する結果を示し,SACやTD3といった異なる強化学習アルゴリズムへの適用も可能である。
ロジット空間におけるシャープネス認識最小化による直接選好最適化の効率的な強化 [cs.LG, cs.AI]目的:事前学習済み大規模言語モデルと人間の選好との整合性向上
- 大規模言語モデルの性能向上には,人間の選好との整合性が不可欠である。
- 直接選好最適化(DPO)は確率の減少という「絞扼効果」に悩まされている。
- ロジット空間におけるシャープネス認識最小化(SAM)の活用により,DPOの効率と有効性を高める。
- 本研究では,DPOにおける絞扼効果の原因をロジット空間の座標ごとの動態として理論的に解明した。
- ロジットSAMは,出力層のみを摂動させることで,計算コストを抑えつつDPOの効果を改善する。
- Pythia, Mistral, Gemmaといったモデルで複数のデータセットにおいて,ロジットSAMがDPOを安定して改善することを示した。
LRConv-NeRV:効率的なニューラルビデオ圧縮のための低ランク畳み込み [cs.RO, cs.CV, cs.AI]目的:ニューラルビデオ圧縮における効率性向上
- ビデオ圧縮は,帯域幅やストレージ容量の制約下で高品質な映像伝送・保存に不可欠である。
- 従来のビデオコーデックは複雑であり,計算資源の制約がある環境での利用が難しい場合がある。
- 計算量とメモリ消費を抑えつつ,高品質なビデオ復元を可能とするアーキテクチャの提案。
- LRConv-NeRVは,NeRVのデコーダにおいて選択的な畳み込み層を低ランク分離畳み込みに置き換えることで,計算量とモデルサイズを削減する。
- 最終層のみにLRConvを適用することで,計算量を68%削減し,モデルサイズを9.3%削減しつつ,画質劣化は無視できる程度である。
- INT8量子化下では,NeRVと同等の復元品質を維持し,より積極的な低ランク化は画質の著しい劣化を招く。
Enactor:交通シミュレータから代理世界モデルへ [cs.LG, cs.AI]目的:道路ネットワークにおける性能評価のための現実的な行動モデルの構築
- 交通シミュレーションは都市計画や交通管理において不可欠であり,その精度向上が重要である。
- 既存の交通シミュレータでは,交通参加者の行動モデルが単純化され,現実的な相互作用を捉えられていない。
- 本研究では,交通交差点における複雑な状況下での,物理的に整合性の取れた行動生成を目指す。
- 提案手法は,交通参加者間の複雑な相互作用を効果的に捉え,長時間の物理的に整合性のとれた軌跡を生成できる。
- 従来の生成モデルと比較して,少ない学習データで高い性能を発揮し,KL-ダイバージェンスにおいて10倍以上の改善が見られた。
- SUMOを用いた「シミュレーション・イン・ザ・ループ」設定で検証し,長時間のシミュレーションにおいても安定した性能を示した。
経験から学習するRetrieval-Augmented LLMエージェント [cs.RO, cs.AI, cs.CL]目的:大規模言語モデルエージェントにおける経験の活用と汎化性能の向上
- 汎用的なエージェント開発において,大規模言語モデルは重要な役割を担う。
- 未知のタスクへの頑健な汎化が課題であり,ファインチューニングや経験検索では限界がある。
- 経験検索をファインチューニングに統合し,エージェントの学習能力を高める。
- LoRAを用いた強力なファインチューニング手法を確立し,既存の最先端エージェント訓練パイプラインを上回る性能を示した。
- 経験検索におけるストレージ,クエリ,軌跡選択の最適戦略を詳細に分析した。
- 経験検索をファインチューニングに統合したパイプラインが,未知のタスクへの汎化性能を大幅に向上させた。
EDM-ARS:教育データマイニング研究の自動化のためのドメイン特化型マルチエージェントシステム [cs.AI]目的:教育データマイニング研究の自動化
- 教育データの活用は,学習効果の向上や教育方法の改善に不可欠であり,その重要性は増している。
- 教育データマイニング研究は専門知識を要し,研究の実行に時間と労力がかかるという課題がある。
- 本研究は,教育データマイニング研究プロセスを自動化し,研究の効率化を目指す。
- EDM-ARSは,問題定義から論文執筆までの一連の研究プロセスを自動化するマルチエージェントシステムである。
- LLMを活用した各エージェントが連携し,予測モデリングタスクを実行,LaTeX形式の論文を作成する。
- 本システムはオープンソースとして公開され,教育研究コミュニティへの貢献を目指す。
検出は安価だが,ルーティングは学習される:拒否に基づくアライメント評価が失敗する理由 [cs.LG, cs.AI, cs.CL]目的:政治検閲における概念検出から行動方針へのルーティング機構の解明
- AIモデルの安全性確保は重要であり,特に有害な情報の生成を抑制する必要がある。
- 既存のアライメント評価では,危険な概念のエンコードや有害な要求の拒否のみに焦点が当てられ,ルーティングの評価が不足している。
- この研究は,ルーティング機構を評価することで,アライメント評価の課題を克服し,より安全なAIモデル開発に貢献することを目指す。
- 中国発の言語モデルにおける政治検閲を分析した結果,概念検出の精度だけではアライメント評価は困難であることが示された。
- モデルのルーティングは実験室ごとに異なり,政治的感受性に関連する部分の除去によって検閲が解消される一方で,一部のモデルでは事実誤認が生じた。
- 拒否が検閲の主要なメカニズムではなくなり,ナラティブステアリングが重要になっていることが明らかになり,従来の評価指標の限界が示された。
風力発電所の発電量予測のための加法ガウス過程について [cs.LG]目的:風力発電所の発電量予測モデルのばらつきの解明
- 風力発電所の効率的な運用は,再生可能エネルギーの普及に不可欠である。
- 発電量予測の精度は,風力発電所の安定稼働と電力系統への統合に課題がある。
- 風力発電所全体の発電パターンを把握し,制御や意思決定の改善に貢献すること。
- 加法ガウス過程を用いることで,風車固有のモデルと発電所全体のモデルにおける変動を明らかにできた。
- 予測結果は直感に合致しており,発電所の発電パターンを理解する上で有用である。
- 本研究は,風力発電所のより適切な制御と意思決定を可能にする情報を提供する。
オフロードかオーバーロードか:モバイルロボット操作ワークロードのプラットフォーム計測研究 [cs.RO, cs.AI, cs.NI, cs.SY, eess.SY]目的:モバイルロボット操作ワークロードの計測
- 物理AIの根幹技術であり,ロボットの自律性と汎用性を高める上で不可欠である。
- 高性能化には計算コストが伴い,ロボットのバッテリー持続時間や遅延が課題となる。
- 最適な計算資源の割り当て方法を明らかにし,実用的なモバイルロボットシステムの実現を目指す。
- オンボードGPUではワークロード全体を実行できないか,バッテリー消費が著しく増加することが示された。
- オフロードは制約を緩和する一方,ネットワーク遅延によるタスク精度低下や帯域幅の制約が課題となることが判明した。
- ロボット群間での計算資源の共有には潜在的なメリットと課題が存在することが定量的に示された。
CORE:信頼性と直交残差スコアリングによる分布外検出の堅牢化 [cs.AI]目的:分布外データの検出手法
- 深層学習モデルの信頼性向上には不可欠であり,現実世界での応用を支える重要な技術である。
- 既存手法は,アーキテクチャやデータセットによって性能が大きく変動し,汎用性に欠けるという課題がある。
- 信頼性と残差スコアリングを組み合わせ,より安定した分布外検出を実現することを目指す。
- COREは,ペナルタイマ特徴を信頼性成分と残差成分に分解し,それぞれ独立にスコアリングすることで,ロバストな検出を可能にする。
- 5つのアーキテクチャと5つのベンチマーク設定において,競争力のある,あるいは最先端の性能を達成し,3つの設定で最高AUROCを記録した。
- 計算オーバーヘッドはわずかであり,実用的な応用にも適している。
健康AI評価における妥当性ギャップ:ベンチマーク構成の横断分析 [cs.AI]目的:健康AI評価ベンチマークの構成に関する現状の把握
- 医療AIの発展は,臨床現場での活用を促進し,医療の質向上に貢献しうる。
- 既存のベンチマークは,評価対象のデータ構成が明確でなく,臨床現場への適用可能性が不明確である。
- ベンチマークのデータ構成を標準化することで,AIの臨床利用に向けた妥当性を評価可能とする。
- 既存の健康AI評価ベンチマークでは,臨床現場で求められる多様なデータが不足していることが示された。
- 特に,客観的データはウェルネス関連に偏っており,診断に必要な検査値や画像データは少ない傾向にある。
- 臨床的に重要な状況(自殺・自傷行為,慢性疾患管理など)や脆弱な集団(小児・高齢者)のデータも不足している。
制約付きハイブリッドメタヒューリスティック:連続最適化のための汎用フレームワーク [cs.NE]目的:連続最適化のための汎用的なフレームワーク
- 最適化問題は,科学技術の様々な分野で不可欠であり,効率的な解法が求められている。
- 既存のメタヒューリスティックは,特定の関数クラスや問題に特化し汎用性に欠ける場合が多い。
- 未知の特性を持つ関数に対しても適用可能な,より柔軟で強力な最適化手法を開発すること。
- 提案手法cHMは,28のベンチマーク関数において,従来のメタヒューリスティックと同等以上の性能を示した。
- cHMは,問題の特性に応じて適切な探索行動を動的に適応させ,収束性とロバスト性を向上させる。
- データ分類における特徴選択問題への応用により,実用的な有効性が確認された。
パス制約混合エキスパート [cs.LG]目的:スパース混合エキスパートの効率的なスケーリング
- 大規模言語モデルのパラメータ数を増やすことで性能向上が期待される。
- エキスパートの組み合わせ数が指数関数的に増加し,学習データが不足する。
- 層間でルーターパラメータを共有することで,学習効率を高める。
- 提案手法pathmoeは,perplexityと下流タスクにおいて独立ルーティングよりも一貫して性能が向上した。
- 同じパスをたどるトークンは自然に言語機能ごとにクラスタリングされ,より集中したグループが生成された。
- pathmoeは,層間の一貫性とルーティング摂動に対するロバスト性を向上させた。
Sparse3DTrack:疎な教師ありデータを用いた単眼3Dオブジェクト追跡 [cs.RO, cs.AI, cs.CV]目的:単眼3Dオブジェクト追跡における3次元オブジェクト姿勢の時系列的な推定
- 自動運転などの自律エージェントが,周囲の状況を理解し,動的に変化する環境に対応するために不可欠な技術。
- 既存手法は高価で大規模な3Dアノテーションに依存しており,データの取得と拡張が困難であるという課題がある。
- 疎な教師ありデータから高精度な3D追跡を実現し,アノテーションコストを削減することを目的とする。
- 提案手法は,2Dクエリマッチングと3Dジオメトリ推定という2つの段階に追跡タスクを分解することで,性能向上を実現した。
- 疎なアノテーションデータから高品質な3D擬似ラベルを自動生成し,実質的に密な3D追跡アノテーションを構築できる。
- KITTIおよびnuScenesデータセットにおいて,既存手法を最大15.50%改善し,トラックあたり最大4つの正解アノテーションで高い性能を達成した。
ALIGN:汎化性能の高い音声神経義肢のための敵対的学習 [cs.LG, cs.NE, cs.SD]目的:音声神経義肢の汎化性能向上
- 脳皮質内脳波を用いたBCIは,音声復元に有用であり,医療現場での応用が期待されている。
- セッションを跨いだデータへの汎化が難しく,電極のずれやユーザーの戦略変化が性能低下の原因となる。
- セッション間の非定常性を軽減し,長期的なBCI音声復元の安定化を目指す。
- ALIGNは,潜在表現空間で敵対的学習を行うことで,セッション固有情報を抑制し,タスク関連情報を保持する。
- その結果,ALIGNは未知のセッションへの汎化性能が向上し,音素エラー率と単語エラー率が改善された。
- 敵対的ドメインアライメントは,セッションレベルの分布シフトを軽減する有効な手法であることが示唆される。
LLMにおけるブランドおよび文化に対する選好の監査 [cs.HC, cs.AI, cs.CY, cs.IR, cs.LG]目的:LLMにおけるブランドおよび文化に対する選好の定量化
- LLMが人々の選択に影響を与える度合いが増しており,公平性や競争への影響を評価する必要がある。
- LLMが特定のブランドや文化に偏った選好を示す可能性があり,市場の多様性を損なう恐れがある。
- LLMの選好傾向を定量的に評価し,公平性や透明性を確保するための枠組みを提供する。
- ChoiceEvalという,LLMにおけるブランド・文化選好を監査する再現性のあるフレームワークが開発された。
- GeminiとGPTはアメリカの企業を好む傾向が強く,DeepSeekはよりバランスが取れているものの地理的選好が認められた。
- これらの傾向はユーザーの属性に関わらず見られ,系統的な影響を示唆している。
衛星シーン再構成のための高速かつ汎用的なNeRFアーキテクチャ選択 [cs.CV, cs.LG]目的:衛星シーン再構成におけるNeRFアーキテクチャ選択の高速化と汎用性向上
- 衛星画像は広範囲の地理情報を取得可能であり,都市計画や環境モニタリング等に不可欠である。
- NeRFの衛星画像への適用は計算コストが高く,シーンごとに学習が必要となる点が課題である。
- NeRFの学習前に品質を予測し,最適なアーキテクチャを迅速に選択することで,計算コストを削減する。
- 提案手法PreSCANは,軽量な特徴量を用いてNeRFの品質を学習前に予測し,アーキテクチャ選択を30秒未満で実現する。
- PreSCANは,NASと比較して1000倍の高速化を達成し,予測誤差は1dB未満である。
- エッジプラットフォーム上での実験では,推論時の電力消費を26%,遅延を43%削減し,品質劣化を最小限に抑えることが確認された。
ニューラルグラフ表現と強化学習を用いた近似部分グラフマッチング [cs.LG, cs.AI]目的:近似部分グラフマッチングの性能向上
- グラフ分析は,データベース,ネットワーク科学,生化学など多様な分野で不可欠である。
- 既存手法は,グラフ情報を十分に活用できず,最適解が得られない場合がある。
- グラフ情報に基づいた効率的な近似部分グラフマッチング手法の開発。
- 本研究では,グラフ変換器を用いてグラフ表現を抽出し,強化学習に基づいたポリシーを適用するRL-ASMアルゴリズムを提案した。
- 提案手法は,既存手法と比較して,効果と効率の面で優れていることが実験的に示された。
- 教師あり学習とPPOによる強化学習により,長期的な報酬を最適化するポリシーを学習した。
DriveVLM-RL:ビジョン言語モデルを用いた神経科学的強化学習による安全で実用的な自動運転 [cs.RO, cs.AI, cs.CV]目的:安全で実用的な自動運転のための強化学習フレームワーク
- 自動運転技術は社会実装が期待されるが,安全性確保が重要な課題である。
- 従来の強化学習は報酬設計が困難で,現実環境での安全な探索が課題である。
- ビジョン言語モデルの知識を強化学習に組み込み,安全性を高めることを目指す。
- 提案手法DriveVLM-RLは,CLIPベースの静的経路と軽量検出器を用いた動的経路を組み合わせる。
- オフライン学習でビジョン言語モデルを活用し,実環境でのリアルタイム性を担保する。
- CARLAシミュレーターでの実験で,衝突回避性能とタスク成功率が大幅に向上した。
カリキュラムを用いた推論学習 I:自動カリキュラムの証明可能な利点 [cs.LG, stat.ML]目的:言語モデルにおける推論能力向上
- 大規模言語モデルの性能向上には,複雑な推論能力が不可欠である。
- 推論能力を訓練するには,大量のデータと計算資源が必要となる。
- モデル自身の性能に基づき学習データを選択する自動カリキュラムを提案する。
- 自動カリキュラムは,教師ありファインチューニングにおいて,従来のファインチューニングよりも少ない推論データで同等の性能を達成する。
- 強化学習のファインチューニングにおいては,自動カリキュラムは計算コストを教師モデルの品質から分離し,目標精度への収束を加速させる。
- これらの改善は,ブースティングや反例学習といった古典的な手法に基づいている。
オフライン悲観主義からの脱却:安全なフロンティア探索のためのベクトル場報酬成形 [cs.LG]目的:オフライン強化学習における安全なフロンティア探索
- 実世界でのロボット制御など,データ収集が困難な場合に強化学習を適用するための重要性。
- オフライン強化学習は安全性を重視しすぎるため,探索能力が制限され,新たなデータ収集が困難になるという課題。
- オフラインデータで安全に探索可能な領域の境界を効率的に探索し,データ収集とタスク達成を両立させる。
- 提案手法は,不確実性オラクルを用いてベクトル場報酬を生成し,持続的な境界探索を促す。
- 理論的な分析により,この報酬構造が安全なデータ収集とタスク完了のバランスを保ちながら境界に沿った探索を促進することが示された。
- 2次元ナビゲーション課題において,提案手法をSoft Actor-Criticに組み込むことで,効果が検証された。
患者・臨床医会話から生成されるAI起案ノートと臨床医による最終文書における言語変化:多層分析 [cs.AI]目的:AI起案ノートの消費者向け表現から臨床用語への修正の定量化
- AI技術の医療応用が進む中で,患者と臨床医のコミュニケーションを支援するツールの重要性が増している。
- AIが生成する文章は,必ずしも専門的な臨床用語を使用せず,患者への理解を優先した表現になりがちである。
- AI起案ノートを臨床文書として適切に利用するために,臨床医による修正パターンを明らかにすることが求められる。
- 臨床医による編集によって,すべてのセクションにおいて消費者向け用語の頻度が有意に減少した。
- AssessmentとPlanのセクションで最も多くの用語変換が発生し,全体の59.3%を占めた。
- 編集の強度には臨床医間でばらつきが見られたが,全体として会話的な表現から標準化された臨床用語への移行が確認された。
物理情報ニューラルネットワークにおける故障モードを軽減するための適応的活性化関数群 [cs.LG]目的:物理情報ニューラルネットワークにおける故障モードの軽減
- 科学技術計算において,物理法則を組み込んだニューラルネットワークの応用が期待されている。
- 従来の物理情報ニューラルネットワークは,学習の安定性や表現力に課題が残る場合がある。
- 本研究は,ウェーブレット関数を用いた新たな活性化関数を提案し,その有効性を検証する。
- 提案する活性化関数は,ウェーブレット関数と双曲線正接関数またはソフトプラス関数を組み合わせることで,学習の安定性と表現力を向上させる。
- 4種類の偏微分方程式に対して,提案手法は従来の活性化関数と比較して,ロバスト性と精度が向上することが示された。
- PINNsFormerなどの他の深層学習モデルとの比較からも,提案手法の有効性と汎用性が確認された。
FaithSteer-BENCH: 推論時ステアリングの展開を考慮したストレステストベンチマーク [cs.AI]目的:推論時ステアリング手法の評価基準
- 大規模言語モデルの制御は重要であり,その軽量かつパラメータフリーな手法として推論時ステアリングが注目されている。
- 既存研究は評価設定が限定的で,展開時の制約や実世界での頑健性を考慮していない点が課題である。
- 展開環境を考慮した評価を通じて,推論時ステアリング手法の信頼性と限界を明らかにすること。
- FaithSteer-BENCHを用いた評価により,既存手法が制御性,有用性維持,頑健性の面で課題を抱えていることが明らかになった。
- 特に,見かけ上の制御性,無関係な能力への影響,軽微な入力変化に対する脆弱性が顕著に示された。
- 多くのステアリング手法は,安定した潜在的変化ではなく,プロンプトに依存したアライメントを引き起こすことが示唆された。
MemArchitect:ポリシー駆動型メモリガバナンス層 [cs.AI, cs.HC, cs.LG, cs.MA]目的:LLMエージェントにおけるメモリ管理のガバナンス
- LLMの普及に伴い,エージェントの信頼性と安全性が重要になっている。
- 既存のRAGフレームワークでは,メモリ管理にガバナンスがなく,矛盾やプライバシー侵害のリスクがある。
- 矛盾解消,プライバシー保護,陳腐化情報の排除といったメモリガバナンスを実現する。
- MemArchitectは,メモリのライフサイクル管理とモデルを分離し,ポリシーに基づいたガバナンスを提供する。
- 実験により,MemArchitectを用いて管理されたメモリが,管理されていないメモリよりも高い性能を示すことが示された。
- 構造化されたメモリガバナンスは,信頼性と安全な自律システムの構築に不可欠である。
微分方程式による深層ニューラルネットワークの理論的基盤の理解 [cs.AI]目的:深層ニューラルネットワークの理論的基盤
- 深層学習は目覚ましい成果を上げているが,その理論的根拠は十分とは言えない。
- 深層ニューラルネットワークの設計や性能向上は,経験則に頼る部分が大きい。
- 微分方程式の枠組みを通して,深層学習の理論的理解と改善を目指す。
- 本研究では,深層ニューラルネットワークを微分方程式として捉えることで,その理論的基盤を明らかにした。
- モデル全体や各層を微分方程式としてモデル化することで,設計,分析,性能向上の関係性を整理した。
- 微分方程式の理論とツールを用いることで,深層学習の実用的な応用範囲が広がる可能性を示唆した。
LLMはRust検証のための自動定理証明機のように推論できるか? VCoT-Bench:検証Chain of Thoughtによる評価 [eess.SY, cs.SY, cs.SE, cs.AI, cs.LG]目的:Rustプログラム検証におけるLLMの推論能力の評価
- ソフトウェアの安全性確保が重要視される中,形式検証の自動化が求められている。
- 既存のLLM評価は,検証結果の合否のみに着目しており,推論過程が不明瞭である。
- LLMの検証プロセス理解度を,詳細な推論過程を通して明らかにすること。
- VCoT-Liftフレームワークにより,ソルバーレベルの推論を人間が理解可能な検証ステップとして提示できる。
- VCoT-Benchベンチマークは,1,988のVCoTタスクを用いてLLMの検証プロセス理解度を評価する。
- 評価の結果,現在のLLMは自動定理証明機と比較して,推論能力が著しく劣ることが示された。
重大な瞬間に不確実性を集中:VLAモデルの信頼性のある不確実性定量化に向けて [eess.SY, cs.SY, cs.RO, cs.RO, cs.AI, cs.LG]目的:VLAモデルにおけるロールアウトの成功/失敗予測のための不確実性定量化手法
- ロボットの自律性向上には,環境認識と指示理解に基づく行動計画が不可欠である。
- 既存手法では,不確実性の平均化により,安全に関わる一時的なリスクを見逃しやすい。
- 短期的なリスク信号を保持し,不安定な行動を重視する不確実性定量化を目指す。
- 提案手法は,ロールアウトの成功/失敗予測精度を大幅に向上させることを示した。
- 特に,短期的なリスク信号を保持するmax-based poolingが有効であることが示された。
- 運動を考慮した重み付けとDoF適応型キャリブレーションも,性能向上に貢献している。
HRI-SA:遠隔ヒューマン・ロボット連携における人間の状況把握能力オンライン評価のためのマルチモーダルデータセット [cs.RO, cs.HC, cs.LG, cs.MA]目的:遠隔ヒューマン・ロボット連携における人間の状況把握能力オンライン評価
- ヒューマン・ロボットチームにおいて,状況把握能力は不可欠であり,連携の成功に大きく影響する。
- 高負荷や動的な状況下では,オペレーターは状況把握の遅れを経験しやすく,連携の効率を低下させる。
- 本研究は,オペレーターの状況把握の遅れを自動的に検出し,支援を提供することで,連携の改善を目指す。
- 本データセットHRI-SAは,現実的な探索・救助シナリオにおいて,30人の参加者の眼球運動,瞳孔径,生理信号,ユーザーインタラクション,ロボットデータを収録したものである。
- 眼球運動の特徴量のみでも,状況把握の遅れ(知覚的遅延)の分類に高い性能を示した(再現率88.91%,F1値67.63%)。
- コンテキストデータの融合により,性能が向上した(再現率91.51%,F1値80.38%)。
エピステミック敵対的生成ネットワーク [cs.LG, cs.CV]目的:生成モデルにおける出力多様性の向上
- 画像生成技術は,データ拡張や新たなコンテンツ創出において重要な役割を担う。
- 既存のGANは,生成されるサンプルが類似しやすく,多様性に課題がある。
- 不確実性のモデリングを通して,GANの出力の多様性を高めることを目指す。
- 本研究では,Dempster-Shafer理論に基づいた損失関数をGANに導入した。
- これにより,生成モデルが画像の各ピクセルに対する質量関数を予測し,不確実性を定量化できるようになった。
- 実験結果から,提案手法は生成される画像の多様性を向上させることが示された。
Moltbookにおける政治プロパガンダの大規模分析 [cs.AI, cs.CL]目的:Moltbookにおける政治プロパガンダの検出と分析
- AIエージェント間のコミュニケーションが活発化する中で,情報操作のリスクが高まっている。
- オンラインプラットフォームにおけるプロパガンダの蔓延は,社会的な分断を招く深刻な問題である。
- AIエージェントが生成するプロパガンダの特性を把握し,対策を講じることを目指す。
- Moltbookの投稿・コメントデータから,プロパガンダが全投稿の1%,政治コンテンツの42%を占めることが判明した。
- プロパガンダ投稿は特定のコミュニティに集中しており,上位5つのコミュニティで全体の70%が確認された。
- 少数のエージェントがプロパガンダ投稿の過半数を生成しており,類似コンテンツの繰り返し投稿が認められた。
