arXiv雑要約
AI - 2026/02/05 公開
ハイブリッド質問:インパクトの高い研究課題の特定における人間とAIの協調 [cs.HC, cs.AI, cs.CL, cs.LG]目的:インパクトの高い研究課題の特定
- 科学研究はAIの導入により加速し,その範囲が拡大することが期待されている。
- AIが戦略的かつ長期的な視点で意義深い研究課題を自律的に特定できるかは不明である。
- 人間とAIの協調により,より質の高い研究課題の特定を目指す。
- AIは過去のブレークスルーの認識において人間専門家と高い一致性を示す。
- 将来的な課題の予測においては,AIと人間で意見の相違が見られ,人間の判断が重要であることが示唆された。
- AIによる大量の文献処理能力と人間による価値判断を組み合わせることで,効果的な研究課題の特定が可能である。
WebAccessVL:違反条件付きVLMによるアクセシブルなWebの実現 [cs.HC, cs.AI, cs.CV]目的:ウェブコンテンツ・アクセシビリティ・ガイドライン2(WCAG2)違反への対応を目的としたウェブサイトHTMLの自動修正
- デジタルコンテンツの利用において,アクセシビリティの確保は,多様な利用者を包摂する上で不可欠である。
- 既存のウェブサイトには,WCAG2に準拠しないアクセシビリティ違反が依然として多く存在し,対応に課題がある。
- WCAG2違反を検出し,視覚情報と違反情報を条件としてHTMLを修正することで,アクセシビリティ改善を自動化する。
- 提案手法は,ウェブサイト1つあたりの平均違反数を5.34から0.44に効果的に削減することを示した。
- 商用LLM API(Gemini,GPT-5)と比較して,優れた性能を発揮することが確認された。
- 修正されたウェブサイトは,元の視覚的外観とコンテンツを維持していることが,知覚研究により裏付けられた。
AI-CBTに対する認識:中国人大学院生の信頼と障壁 [cs.HC, cs.HC, cs.AI, cs.CY]目的:中国人大学院生におけるAI-CBTの認識と利用
- 大学院生のメンタルヘルスは重要課題であり,効果的なサポート体制の必要性が高まっている。
- スケーラブルなサポートの導入は進んでいない現状があり,メンタルヘルスケアのアクセスに課題がある。
- AI-CBTの利用に対する中国人大学院生の認識と障壁を明らかにすることで,文化に配慮した設計に貢献する。
- AI-CBTに対して,有用性と24時間アクセス可能性は好意的な態度を醸成する一方で,プライバシーや安全性への懸念が存在する。
- 複雑な問題への対応力に対する不確実性や,社会的なスティグマ,デジタルリテラシーなどが利用意向に影響を与える。
- 透明性,安全対策,段階的なケアパスの設計が,中国人学生向けのAIメンタルヘルスツールの導入において重要である。
Scholar DAGを用いたマルチモーダル学術プレゼンテーション生成の統一的フレームワークPaperX [cs.HC, cs.HC, cs.CY, cs.DL, cs.DL, cs.DL, cs.AI]目的:学術プレゼンテーション生成の構造変換とレンダリングプロセス
- 研究成果の普及には不可欠だが,手作業による労力が大きい。
- 既存手法は各形式を独立して扱うため,冗長な処理や意味の不整合が生じる。
- PaperXは,論文の論理構造と表現形式を分離し,効率的な生成を目指す。
- PaperXは,単一のソースから多様かつ高品質なプレゼンテーションを生成できる。
- コンテンツの忠実度と美的品質において,最先端の性能を達成した。
- 単一タスクエージェントと比較して,コスト効率が大幅に向上した。
長尾データに対する差分プライバシー学習の影響の理解 [cs.LG, cs.AI]目的:長尾データに対する差分プライバシー学習の影響の解明
- 深層学習モデルの予測精度向上に伴い,プライバシー保護の重要性が増している。
- 差分プライバシー学習は汎化性能を低下させる可能性があり,特に長尾データにおいて顕著である。
- 長尾データにおける差分プライバシー学習の理論的枠組みを構築し,性能低下の原因を特定する。
- 差分プライバシー学習は,長尾サブポピュレーションにおけるテスト誤差を大幅に増加させる。
- 勾配クリッピングとノイズ注入が,モデルの少数サンプル学習能力を損なうことが示された。
- 理論的結果は,合成データと実データを用いた実験によって検証された。
音声言語モデルにおけるテスト時スケーリングを用いた曖昧な感情の解読 [cs.SD, cs.AI, eess.AS]目的:音声における曖昧な感情認識のためのベンチマーク
- 人間らしい会話型AIの実現には,音声からの感情認識が不可欠である。
- 現実世界の感情は曖昧で重なり合い,文脈に依存するため,モデル化が困難である。
- 大規模音声言語モデルとテスト時スケーリングの有効性を検証し,曖昧な感情認識の課題を明らかにする。
- 本研究では,音声言語モデルとテスト時スケーリングを用いた曖昧な感情認識のベンチマークを新たに構築した。
- 8つの最先端音声言語モデルと5つのテスト時スケーリング戦略を比較評価した結果,モデルの能力とテスト時スケーリングが曖昧な感情認識に影響を与えることが示された。
- このベンチマークは,より堅牢で文脈を考慮した,感情的に知的な音声AIシステムの開発の基礎となる。
ケモインフォマティクスにおける13C NMRのための可逆深層学習:構造とスペクトルに関して [cs.LG, cs.AI, q-bio.QM]目的:分子構造とスペクトルの間の双方向マッピング
- 化学物質の構造解析にはNMRスペクトルが不可欠であり,効率的な解析手法が求められている。
- スペクトルから構造を推定する過程は一意ではないため,不確実性の問題が存在する。
- スペクトル予測と構造生成を統合し,不確実性を考慮した候補生成を目指す。
- 可逆深層学習モデルは,分子構造と13C NMRスペクトルの間の変換において,高い性能を示した。
- 訓練データ上で数値的に可逆性を持ち,スペクトルコードの予測精度は偶然レベルを上回った。
- 検証スペクトルから構造候補を生成する際,粗いながらも意味のある構造的信号が得られた。
ランキングに基づく報酬を用いた方策最適化 [cs.LG, cs.AI]目的:ランキングに基づく報酬の利用
- 人間のフィードバックを用いた強化学習は,大規模言語モデルの性能向上に不可欠である。
- 報酬の絶対値に依存する既存手法は,主観的な評価に基づくタスクで最適化が困難である。
- 報酬の絶対値を用いず,ランキングのみに基づいた方策最適化により,その問題を解決する。
- ランキングに基づく報酬変換により,GRPOと比較して,報酬軌跡が向上した。
- 中間ステップにおけるLLMによる評価も改善され,より少ない学習ステップで同等の性能に到達した。
- 様々なタスクとモデルサイズで一貫した改善が確認された。
TruKAN: truncated power関数を用いたより効率的なKolmogorov-Arnoldネットワークに向けて [cs.CV, cs.AI, cs.LG]目的:Kolmogorov-Arnoldネットワークの効率性向上
- Kolmogorov-Arnoldネットワークは,関数近似において高い表現力を持つ。
- 従来のネットワークでは,計算効率と表現力のバランスが課題だった。
- truncated power関数を用いて,計算効率と表現力を両立することを目指す。
- TruKANは,従来のKANと比較して,精度,計算効率,メモリ使用量の全てで優れていた。
- truncated power関数を用いることで,ネットワークの解釈性が向上した。
- EfficientNet-V2との統合により,複雑な画像認識タスクにおいても高い性能を発揮した。
DiGAN:拡散を誘導する注意ネットワークによる早期アルツハイマー病検出 [cs.CV, cs.AI, cs.LG]目的:早期アルツハイマー病検出のための手法
- アルツハイマー病は高齢化社会において重要な課題であり,早期発見が治療に繋がる。
- プロドロマル期における脳構造変化は微細かつ不規則であり,既存手法では検出が困難である。
- 限られたデータから脳画像経時変化を合成し,早期アルツハイマー病検出の精度向上を目指す。
- DiGANは潜在拡散モデルと注意機構を組み合わせることで,従来の深層学習手法の課題を克服した。
- 合成データとADNIデータセットの実験により,DiGANが最先端の手法を上回る性能を示すことが確認された。
- DiGANは,臨床データにおける時間的連続性とモダリティの不規則性を効果的にモデル化できる。
PriorProbe:表情認識におけるニューラルネットワークの個人化のための個別事前知識の回収 [cs.CV, cs.AI]目的:表情認識におけるニューラルネットワークの個人化のための個別事前知識の回収と活用
- 人間の認知特性を考慮することで,ニューラルネットワークの性能向上が期待される分野である。
- 既存手法では,個人の事前知識を正確に特定したり,系統的な偏りを導入したりする問題がある。
- PriorProbeにより,個人の事前知識を正確に回収し,ニューラルネットワークの個人化を実現する。
- PriorProbeによって回収された事前知識は,最先端のニューラルネットワークの性能を大幅に向上させた。
- ニューラルネットワーク単体や,他の事前知識と比較しても優れた結果が得られた。
- また,PriorProbeは,ネットワークの正確な推論能力を維持しながら個人化を達成した。
アディティブマニュファクチャリングにおける自動的な孔検出と重要度評価のための説明可能なコンピュータビジョンフレームワーク [cs.CV, cs.AI, cs.CE, cs.LG]目的:アディティブマニュファクチャリングにおける孔の検出と重要度の評価
- アディティブマニュファクチャリングの品質と信頼性を確保するため,内部欠陥の検出が不可欠である。
- 既存の自動欠陥検出方法は解釈可能性に欠け,欠陥の重要度の根拠が不明確である。
- 欠陥の重要度評価の根拠を明らかにし,製造プロセスの最適化に役立てる。
- 機械学習モデルによる重要度予測において,表面距離が他の特徴量よりも圧倒的に大きな影響を与えることが示された。
- 孔のサイズや幾何学的パラメータは重要度予測にほとんど影響を与えないことが明らかになった。
- 表面との距離と重要度の間に強い負の相関関係があり,境界に起因する破壊メカニズムを示唆している。
セグメンテーション後の監査:言語参照オーディオビジュアルセグメンテーションのための参照不要マスク品質評価 [cs.CV, cs.AI, cs.LG, cs.MM, cs.SD, eess.AS]目的:言語参照オーディオビジュアルセグメンテーションにおけるマスク品質の評価
- 近年,映像,音声,テキストを統合的に解析する技術が発展しており,その応用範囲は広い。
- セグメンテーションマスクの品質評価は重要だが,参照データなしで行うことは困難である。
- 本研究は,参照データなしでセグメンテーションマスクの品質を評価し,改善を促すことを目指す。
- 本研究では,参照データなしのマスク品質評価タスク(MQA-RefAVS)を提案し,多様なマスクエラーモードのベンチマーク(MQ-RAVSBench)を構築した。
- 提案手法MQ-Auditorは,マルチモーダル大規模言語モデル(MLLM)を用いて,定量・定性のマスク品質評価を実現した。
- 実験により,MQ-Auditorが既存のMLLMを上回り,セグメンテーションシステムの改善に貢献できることが示された。
動物画像に対するゼロショットクラスタリングのためのVision Transformer:比較ベンチマーク研究 [cs.CV, cs.AI]目的:動物画像の種レベルクラスタリング
- 生態学的調査において,動物画像のラベル付けは大きな課題であり,生物多様性モニタリングの効率を制限している。
- 大量の未ラベル動物画像を扱う際に,手動によるラベル付けの労力がボトルネックとなっている。
- ViTモデルを用いて,ラベル付けなしで効率的に動物画像を種レベルで分類することを目指す。
- DINOv3埋め込みとt-SNE,および教師あり階層的クラスタリングを組み合わせることで,ほぼ完璧な種レベルクラスタリング(V-measure: 0.958)が達成された。
- 教師なしアプローチは,事前知識なしで競争力のある性能(0.943)を示し,専門家によるレビューが必要な外れ値をわずか1.14%に抑えた。
- 意図的な過剰クラスタリングにより,年齢層,性的二型性,毛皮の違いなど,種内変異を確実に抽出できることが示された。
視覚モデルからLVLMへのバイアス軽減のベンチマーク:公平性と危害回避に向けて [cs.CV, cs.LG]目的:バイアス軽減手法の有効性比較のための統一的ベンチマーク
- 実世界データに基づく機械学習モデルは社会集団に対するバイアスを内在し,大規模展開における倫理的懸念が高まっている。
- 既存のバイアス軽減手法の比較は,データセットの異質性や評価指標の不統一により困難である。
- 標準化されたデータと指標を用いた,公平性と精度を両立する効果的なバイアス軽減手法の特定を目指す。
- NH-Fairは,視覚モデルと大規模視覚言語モデル(LVLM)の両方に対応した公平性評価のベンチマークである。
- 多くのバイアス軽減手法は,適切に調整されたERMベースラインを安定的に上回らず,複合データ拡張手法が有効であることが示された。
- LVLMは平均精度が高いが,サブグループ間の不均衡は依然として存在し,モデルの規模拡大による改善は限定的である。
知識モデルによるプロンプティングがLLMの計画タスクにおける性能を向上させる [cs.AI]目的:大規模言語モデルにおける計画能力の向上
- LLMの発展は,多様なタスク自動化を可能にするが,推論能力が課題となる。
- 既存のプロンプティング技術では,LLMの推論能力限界が露呈しつつある。
- タスク・方法・知識(TMK)フレームワークを用いて,LLMの計画能力を向上させる。
- TMKフレームワークによるプロンプティングにより,Blocksworldタスクで最大97.3%の精度を達成した。
- 従来のLLMでは失敗していたタスク(精度31.5%)において,大幅な性能向上が認められた。
- TMKは単なる文脈提供ではなく,LLMを言語的モードからコード実行経路へと誘導する機能を持つ。
NeuroPareto:広大なパラメータ空間における高コストな多目的探索のための校正された獲得関数 [cs.LG, cs.NE]目的:高次元探索空間における最適なトレードオフの追求
- 多目的最適化は,工学設計や資源配分など,様々な分野で重要な課題である。
- 計算資源に制約がある場合,高次元空間での効率的な探索が困難である。
- NeuroParetoは,限られた計算資源下での多目的探索の効率と精度を向上させる。
- NeuroParetoは,ランク中心のフィルタリング,不確実性の分離,履歴に基づいた獲得戦略を統合したアーキテクチャである。
- ベイズ分類器による不確実性の推定と,ガウス過程による予測不確実性の分離により,低コストで高品質な候補を生成する。
- 実験の結果,NeuroParetoは既存手法と比較して,Pareto近似精度とハイパーボリュームにおいて一貫して優れた性能を示した。
幾何学的情報ボトルネック:統計多様体圧縮によるアプローチ [cs.LG, cs.AI, cs.IT, math.IT, stat.ML]目的:情報ボトルネック問題における情報圧縮の制御と最適化
- 深層学習において,特徴表現の学習と汎化性能の向上には,情報量の制御が重要である。
- 従来のIBの実装では,MIの直接的な制御が難しく,近似や推定誤差の影響を受けやすい。
- 情報幾何学の視点からIB問題を再検討し,MI推定を用いない新たな手法を提案することで,安定した最適化を目指す。
- 提案手法GeoIBは,予測精度と圧縮率のトレードオフにおいて,既存のIBベースラインよりも優れた性能を示した。
- 分布レベルのFisher-Rao不一致と,幾何レベルのJacobian-Frobenius項により,効果的な情報圧縮を達成する。
- 自然勾配最適化器を導出し,その有効性を理論的,実験的に検証した。
HY3D-Bench:3Dアセットの生成 [cs.CV, cs.AI]目的:3D生成のための統一的で高品質な基盤
- 近年のAI技術発展により3Dコンテンツ生成が注目されている。
- 大規模なデータ処理のボトルネックが3Dコンテンツ作成の制約となっている。
- 多様な3Dアセットの不足を補い,データアクセスを容易にすること。
- HY3D-Benchは,25万件の高精度な3Dオブジェクトのライブラリを構築した。
- 構造化されたパートレベル分解を導入し,詳細な知覚と制御可能な編集を可能にした。
- AIGC合成パイプラインにより12.5万件の合成アセットを追加し,多様性を向上させた。
Q学習における目標更新頻度の役割 [cs.LG, math.OC, stat.ML]目的:Q学習における目標更新頻度の理論的分析
- 強化学習は,複雑な環境下での意思決定を自動化する上で重要な技術である。
- Q学習の安定化には目標ネットワークの更新頻度が重要だが,その選択は経験則に頼る部分が多い。
- 目標更新頻度の最適化を通じて,サンプル複雑性を低減し,学習効率を向上させる。
- 目標更新頻度を,近似動的計画法の文脈下で,不正確なベルマン最適性オペレーターの反復最適化スキームとして定式化。
- 非同期サンプリング設定における有限時間収束解析を行い,内側のループで確率的勾配降下法を専門的に扱う。
- 最適目標更新頻度が学習過程を通して幾何級数的に増加することを示し,定数更新スケジュールが最適ではないことを証明。
時系列予測のためのエコー状態ネットワーク:ハイパーパラメータスイープとベンチマーク [cs.LG]目的:時系列予測におけるエコー状態ネットワークの予測性能評価
- 時系列データは,経済,気象,金融など,様々な分野で広く利用されており,その予測は重要である。
- 従来の時系列予測手法は,複雑なモデル設定や計算コストが高い場合がある。
- 自動化された,フィードバック駆動型のエコー状態ネットワークが,既存手法の代替となり得るか検証する。
- ハイパーパラメータ分析の結果,月次データは適度な持続性を持つ貯蔵槽を,四半期データはより収縮的なダイナミクスを好むことが示された。
- 外挿評価において,エコー状態ネットワークは月次データではARIMAやTBATSと同等の性能を示し,四半期データでは平均MASEが最も低かった。
- エコー状態ネットワークは,予測精度,堅牢性,計算効率のバランスが良く,自動時系列予測の実用的な選択肢となり得る。
エントロピーを考慮した構造的アライメントによるゼロショット手書き中国文字認識 [cs.CV, cs.AI, cs.LG]目的:未視認文字の認識
- 手書き中国文字認識は,文化的遺産や情報アクセシビリティにおいて重要な役割を果たす。
- 既存手法では,文字の階層構造や各構成要素の情報密度が考慮されていない。
- 文字の構造的特徴を捉え,視覚と意味のギャップを埋めることを目指す。
- 提案手法は,情報理論的モデリングにより,位置埋め込みを動的に調整し,識別力の高い要素を優先する。
- 二つの視点からラジカルツリーを構築し,多粒度構造特徴を抽出,グローバルレイアウトとローカル空間役割をエンコードする。
- セマンティック近傍の重心を利用することで,視覚的な曖昧さを特徴レベルでの合意によって修正する。
超構造と分割統治に基づく断面データからの因果探索 [cs.LG, stat.ME]目的:断面データにおける因果関係の探索
- データから因果関係を導出することは,科学的発見や意思決定に不可欠である。
- 大規模データに対する因果探索は,計算コストが非常に高く,困難である。
- 超構造の構築コストを削減し,効率的な因果探索を実現すること。
- 提案手法は,厳密な超構造の構築要件を緩和し,分割統治の利点を維持することで,計算コストを大幅に削減する。
- 合成データおよび現実のデータセット(CHARLS)を用いた実験により,提案手法はPCやFCIと同等または近似的な構造精度を達成することが示された。
- 本研究は,最小限の仮定の下でもスケーラブルな因果探索が可能であることを示し,バイオメディカルや社会科学分野への応用を促進する。
物理科学のための高忠実度離散トークン化学習:Phaedra [cs.CV, cs.AI, cs.CE, cs.LG]目的:物理科学画像におけるPDE特性の忠実度を測る指標を用いた画像トークナイザーの精度評価と,その改善
- 深層学習の規模拡大に不可欠であり,画像・動画生成,物理シミュレーションなど幅広い分野で基盤技術となっている。
- 既存のトークナイザーは現実的な視覚認識に最適化されており,物理的・分光学的特性を保持する必要がある科学画像には不向きな点がある。
- 科学画像特有のダイナミックレンジに対応し,PDE特性をより忠実に捉えるトークナイザーを開発することで,その精度向上を目指す。
- 提案手法Phaedraは,古典的な形状-ゲイン量子化と固有直交分解に触発されており,様々なPDEデータセットにおいて再構成精度を向上させる。
- Phaedraは,異なる条件の既知のPDE,未知のPDE,現実世界の地球観測・気象データといった複雑性の異なるタスクにおいて,高い分布外汎化能力を示す。
- 既存の画像トークナイザーでは,微細な詳細と正確な大きさの両方を捉えるのが難しいという課題を克服している。
SpatiaLab:大規模言語モデルは現実世界で空間推論を行えるか [cs.CV, cs.CE, cs.CL, cs.LG]目的:視覚と言語モデルにおける空間推論能力の評価
- 空間推論は人間認知の根幹であり,AIにおける高度な理解に不可欠である。
- 既存の評価は合成環境や単純なタスクに偏り,現実世界の複雑さを捉えきれていない。
- 現実的で制約のない環境下での空間推論能力を評価し,課題を明確にすること。
- SpatiaLabは,相対位置,奥行き,方向など6つの主要カテゴリからなる大規模なベンチマークである。
- 最先端の視覚言語モデルは,人間の精度と比較して,空間推論において顕著な差が見られた。
- SpatiaLabは,空間推論能力の向上に向けた研究を促進するための評価フレームワークを提供する。
SpecMD:投機的エキスパートprefetchingに関する包括的研究 [cs.RO, cs.HC, cs.LG, cs.AI]目的:MoEキャッシュ戦略のベンチマークと新しい退去ポリシーの提案
- MoEモデルは大規模言語モデルの効率的な学習・推論に不可欠であり,その性能向上は重要である。
- 既存のキャッシュポリシーがハードウェア仕様とどのように相互作用するか,理解が不十分である。
- MoEの予測可能なエキスパートアクセスパターンを活用し,キャッシュミスを削減する。
- SpecMDという標準化されたベンチマークフレームワークを開発し,様々なMoEキャッシュ戦略を評価した。
- MoEエキスパートアクセスは,一般的な時間局所性の仮定(LRU,LFUなど)に従わないことが明らかになった。
- 新しい退去ポリシー「Least-Stale」を提案し,LRUと比較して最大85倍の衝突ミス削減を達成した。これにより,VRAMキャッシュ容量の5%または0.6GBで,TTFTを最大34.7%削減し,ヒット率を88%以上を実現した。
オンラインベクトル量子化注意機構 [cs.LG]目的:効率と性能のバランス
- 言語モデルにおいて,長い文脈を扱う能力が重要であり,計算資源の効率的な利用が求められる。
- 自己注意機構は高性能だが計算コストが高い。線形注意やSSMは高速だが,長い文脈での性能が課題である。
- 計算・メモリコストを抑えつつ,長い文脈処理能力を高める注意機構を開発すること。
- 本研究で提案するオンラインベクトル量子化(OVQ)注意機構は,線形計算コストと定数メモリ使用量を実現する。
- OVQ注意機構は,疎なメモリ更新により,メモリ状態の規模を拡大し,高い記憶容量を実現する。
- 実験の結果,OVQ注意機構は線形注意や従来のVQ注意機構を上回り,自己注意機構と同等の性能を示す。
WIND:ゼロショット大気モデリングのための気象逆拡散 [cs.LG, cs.AI, physics.ao-ph]目的:ゼロショット大気モデリングのための基盤モデル
- 気象・気候モデリングは重要であり,社会への影響が大きい。精度の高い予測が求められている。
- 既存モデルは特定タスクに特化しており,汎用性に乏しい。タスクごとにモデルを訓練する必要がある。
- タスク固有のファインチューニングなしで,多様なタスクに対応できる汎用的なモデルを開発する。
- WINDは,自己教師ありビデオ再構成により,タスクに依存しない大気の事前知識を学習した。
- 多様な問題を逆問題として定式化し,事後サンプリングによって解決することで,広範なタスクに対応可能である。
- WINDは,確率的予測,空間・時間的ダウンスケーリング,スパース再構成,保存則の適用など,様々な気象・気候問題に対応できる。
C-IDS:情報指向目的による文脈的POMDPの解法 [eess.SY, cs.LG, cs.SY]目的:文脈的POMDPにおける方策合成
- 不確実な環境下での意思決定は,ロボティクスやAIにおいて重要な課題である。
- 潜在的な文脈がPOMDPのダイナミクスに影響する場合,効率的な学習が困難である。
- 文脈の識別を加速し,累積報酬を最大化する方策の合成を目指す。
- 提案手法C-IDSは,報酬最大化に加えて,潜在文脈と観測値間の相互情報量を最大化する情報指向目的を導入する。
- この目的関数は,線形情報比率のラグランジュ緩和と解釈でき,温度パラメータが情報比率の上限となることが証明された。
- シミュレーション結果から,C-IDSは既存のPOMDPソルバーよりも文脈の識別が早く,高い報酬を得られることが示された。
リアルタイムな手頃な価格の住宅地選定のための自律型AIエージェント:規制制約下における多目的強化学習 [cs.LG]目的:手頃な価格の住宅地選定
- 世界的に住宅不足が深刻であり,適切な住宅の確保は重要な課題である。
- 土地の希少性や規制により,住宅地選定プロセスが遅延し,効率化が求められている。
- 規制遵守を維持しつつ,効率的に最適な住宅地を選定することを目指す。
- AURAは,厳格な規制下で94.3%の規制遵守率を達成した。
- 既存手法と比較して,パレート最適解の範囲を37.2%向上させた。
- ニューヨーク市での事例研究では,選定時間を18ヶ月から72時間に短縮し,より多くの候補地を特定した。
臨床的意思決定抽出における言語的盲点 [cs.CL, cs.AI]目的:臨床的意思決定抽出における言語的特徴と抽出失敗の関係性
- 臨床支援や患者向け要約において,臨床記録からの意思決定抽出は重要な役割を果たす。
- 意思決定の種類によって言語的特徴が異なり,その違いが抽出エラーの原因となりうる。
- 臨床的意思決定抽出における言語的盲点を特定し,抽出精度向上に貢献すること。
- 意思決定カテゴリによって言語的特徴が明確に異なり,薬剤関連や問題定義は簡潔,助言や注意は記述的な傾向が見られた。
- 厳密な一致評価では再現率は48%であり,stop wordの割合が高いほど,また,ヘッジや否定表現を含む場合に再現率が低下した。
- オーバーラップベースの評価では再現率は71%に向上し,境界のずれが主要な誤りの原因であることが示唆された。
Grables:独立した行を超える表形式学習 [cs.CY, cs.LG]目的:表形式データの構造的特徴を利用した学習手法の開発
- 表形式データは,様々な分野で広く利用されており,その学習は重要である。
- 従来の表形式学習は,行ごとに独立して予測を行うため,行間の依存関係を捉えられない。
- 行間の依存関係を捉え,より高精度な予測を実現することを目指す。
- Grablesというモジュールインターフェースを提案し,表データのグラフ化と予測計算を分離した。
- メッセージパッシングを用いることで,行間の依存関係を捉え,従来の行ごとのモデルよりも優れた性能を発揮した。
- 行間の構造を明示的に抽出し,強化学習モデルに組み込むことで,さらなる性能向上が確認された。
意味レート歪みと事後設計:計算制約,多峰性,戦略的推論 [cs.IT, cs.AI, cs.LG, math.IT]目的:意味圧縮における戦略的ガウス最適化
- AIの効率化には,データ量と計算資源の制約下での情報伝達の理解が不可欠である。
- 従来のレート歪み理論では,計算資源の制約や多峰性データへの対応が十分ではない。
- 計算資源と情報伝達レートの制約下における最適な意味圧縮戦略を確立すること。
- レート歪み関数を解析的に導出し,計算制約下での水張り法やガウス最適解を提示した。
- 計算資源の制約が暗黙的なレート制約として機能し,モデルの深さと推論時間によって意味精度が指数関数的に向上することを示した。
- 多峰性データを用いることで,遠隔符号化における幾何平均ペナルティを解消できることを示した。
LLMにおける実行駆動型推論拡張を通じた数学問題解決の強化 [cs.AI, cs.LG, cs.MA]目的:大規模言語モデルの数学問題解決能力向上
- AIの推論能力評価の基礎であり,教育・科学・工学分野への応用が期待される
- 既存手法では,推論過程の修正が困難,または自己評価による誤り検出が不十分
- 反復的なプログラム構築と実行結果のフィードバックによる推論精度の向上
- 提案手法IIPCは,複数の基盤LLMにおいて,既存手法を上回る性能を示す。
- IIPCは,プログラムによる文脈が言語モデルの精度低下を引き起こす問題を軽減する。
- 推論過程を反復的に改善し,高水準の文脈理解を維持する。
分布外汎化性能の診断としての表現幾何学 [cs.LG, cs.CV, math.DG, math.GN]目的:分布外データのロバスト性評価指標
- 機械学習モデルの汎化性能評価は重要であり,特に分布外データへの対応能力は不可欠である。
- 分布外データに対する性能予測が難しく,同じ精度でもロバスト性に差が生じることが課題である。
- 学習済み埋め込みの幾何学的構造からロバスト性を診断し,ラベルなしでcheckpointを選択すること。
- 埋め込み空間のスペクトル複雑性とオッリビエ・リッチ曲率が,分布外データの精度と相関することが示された。
- スペクトル複雑性の低下とリッチ曲率の上昇は,よりロバストなモデルを示す指標となりうる。
- 表現幾何学は,解釈可能なロバスト性診断を可能にし,分布シフト下でのcheckpoint選択を支援する。
AgentArk:複数エージェントの知能を単一のLLMエージェントへ蒸留 [cs.AI, cs.MA]目的:複数エージェントのダイナミクスを単一モデルの重みに蒸留するフレームワーク
- LLMの複数エージェントシステムは高度な推論能力を持つが,計算コストが高い点が課題である。
- 複数エージェントシステムは計算コストが高く,エラー伝播のリスクがある。
- 複数エージェントの推論能力を単一エージェントで効率的に実現することを目指す。
- AgentArkは,複数エージェント間の明示的なやり取りを,モデルの暗黙的な能力として変換する。
- 学習時に計算負荷をシフトすることで,単一エージェントの効率性と複数エージェントの推論・自己修正能力を両立する。
- 様々な推論タスクにおいて,高い堅牢性と汎化性能を示すことが確認された。
バングラデシュにおける小児死亡率予測:10年間の検証研究 [cs.LG, cs.CY]目的:バングラデシュにおける小児死亡率予測モデルの性能評価と公平性
- 小児死亡率削減は,公衆衛生上の重要な課題であり,データ駆動型のアプローチが求められている。
- 従来の交差検証法では,将来の集団への予測精度が低下し,バイアスが生じやすい。
- 交差検証における先回りバイアスを回避し,実用的な予測モデルを構築すること。
- 2011年から2014年のデータで学習,2017年で検証,2022年でテストした結果,遺伝的アルゴリズムを用いたニューラルアーキテクチャ探索により,単層ニューラルネットワークがXGBoostよりも優れていることが示された(AUROC = 0.76 vs. 0.73)。
- 詳細な公平性監査により,地域貧困レベルとアルゴリズムのAUCとの間に負の相関関係が見られ,社会経済的予測勾配が確認された。
- モデルは最も貧しい地域で高い性能を示し(AUC 0.74),最も豊かな地域では性能が低下した(AUC 0.66)。これは,介入を最も必要とする地域を特定していることを示唆する。
進化戦略による非線形PCA:新しい目的関数 [cs.HC, cs.CL, cs.NI, cs.LG, cs.NE]目的:非線形データの構造解析手法
- データ解析において次元削減は重要であり,効率的な情報抽出に不可欠である。
- 従来のPCAは線形であるため,複雑なデータ構造の捉え方に限界があった。
- 非線形性を持ちながらも解釈性を損なわない次元削減手法の確立を目指す。
- 提案手法は,線形PCAおよびカーネルPCAよりも説明分散において有意に高い性能を示すことが確認された。
- 標準的なバイプロットなどのツールを用いて,特徴量の貢献度を可視化・分析することが可能である。
- 本手法は,カテゴリ変数や順序変数をワンホットエンコーディングなしで扱える。
AI arXivプレプリント研究エコシステムにおける機関参加と共同研究の構造的変化 [eess.SY, cs.SY, cs.SI, cs.AI]目的:AI研究における機関参加と共同研究の構造変化
- AI分野の急速な発展に伴い,研究動向の把握が重要になっている。
- 学術機関と産業界の連携が十分ではなく,研究開発の効率を阻害している。
- AI研究エコシステムの構造変化を分析し,今後の連携促進策を検討する。
- ChatGPTの登場以降,arXivにおける論文投稿数が急増した。
- 学術機関が依然として最も多くの研究成果を上げている。
- 学術機関と産業界の連携は依然として抑制されており,分野を問わずランダムな連携基線を下回っている。
クエリ効率の良い検証計画のための能動的認識制御 [cs.AI]目的:部分観測下におけるインタラクティブ環境での計画の効率化
- ロボットが現実世界で活動するには,不確実性下での計画が不可欠である。
- 学習された世界モデルは予測誤差により,実行不可能な計画を生み出す可能性がある。
- 認識的計画を通して,効率的な情報収集と安全な計画実行を目指す。
- 提案手法AECは,確実性の低い場合にのみ環境へのクエリを行い,効率的な計画を実現する。
- AECは,確実性の高い場合にはシミュレーションを用いて計画候補を絞り込むことで,計算コストを削減する。
- ALFWorldおよびScienceWorldでの実験により,AECが既存のLLMエージェントと同等の成功率を少ない再計画回数で達成できることが示された。
カテゴリ構造に基づく学習されたヒューリスティクスによる適応的テスト時計算量配分 [cs.AI]目的:テスト時における計算量配分の最適化
- 大規模言語モデルの推論能力向上には計算量が重要だが,検証コストがボトルネックとなっている。
- 中間仮説の検証に多くの計算資源が費やされている場合があり,効率性に課題がある。
- 検証コストを制限下で,中間状態への検証努力の最適な配分方法を確立すること。
- 提案手法は,構造化された移動インターフェースにおける決定論的ゲート,事前検証ランキング,および局所的な不確実性に基づく適応的な検証割り当てを組み合わせる。
- MATHベンチマークにおいて,既存手法(best-of-N,多数決,ビームサーチ)と比較して,より高い精度を検証コスト44%削減で達成した。
- 検証努力を最も有益な箇所に配分することで,効率的な推論を実現する。
モニター可能性の無償の恩恵:RLVRにおける推論の自発的な整合性 [cs.AI, cs.LG]目的:大規模推論モデルにおける思考過程の監査可能性
- 大規模言語モデルの利用拡大に伴い,安全性確保が重要課題となっている。
- 思考過程の監査は困難であり,モデルの内部動作がブラックボックス化しやすい。
- 検証可能な報酬を用いた強化学習(RLVR)による監査可能性の向上メカニズムを解明する。
- RLVR初期段階で,モニター可能性が「無償の恩恵」として自然に現れる場合があることが示された。
- モニター可能性の向上はデータに強く依存し,多様性や指示への追従データが重要であることが明らかになった。
- モニター可能性は能力とは独立しており,推論性能向上は必ずしも透明性の向上には繋がらない。
Transformerは適応的部分プーリングを行う [cs.CL, cs.CL, cs.AI]目的:Transformerにおける次単語予測の学習特性の解明
- 言語モデルは未知の状況への対応が求められるため,文脈情報の活用が重要である。
- Transformerは学習が進むにつれて,文脈外の情報の影響を受けにくくなる傾向がある。
- Transformerの学習における部分的プーリングの度合いが,文脈頻度や多様性にどのように影響されるかを明らかにする。
- Transformerの次単語予測は,学習が進むにつれて文脈外の情報の影響を受けにくくなり,プーリングの度合いが減少する。
- プーリングの度合いは,文脈頻度,文脈数,文脈の変動性に影響され,階層回帰と同様の傾向を示す。
- この学習特性は,合理的な根拠と実証的な証拠に基づいて現実的であると考えられる。
DeXposure-FM:分散型金融ネットワークにおける信用エクスポージャーと安定性を予測する時系列グラフ基礎モデル [cs.LG, cs.AI, econ.EM]目的:分散型金融(DeFi)ネットワークにおけるプロトコル間信用エクスポージャーの測定と予測
- DeFiは急速に成長しており,金融システム全体への影響が大きいため,リスク管理が重要である。
- DeFiにおける信用エクスポージャーは暗黙的で,ショックが連鎖的に広がる可能性がある。
- DeFiにおける信用エクスポージャーを定量化し,システムリスクを評価するためのツールを提供する。
- DeXposure-FMは,既存の最先端手法を凌駕し,高い予測精度を示した。
- 本研究は,DeFiにおけるプロトコルレベルの重要度やセクター間の波及効果を評価するためのツールを開発した。
- DeXposure-FMは,DeFiのストレステストやマクロプルーデンス監視に貢献し,金融システムの安定性向上に役立つ。
eCP:事前学習済みモデルを用いたEquivariantized Conformal Predictionによる情報的な不確実性定量化 [cs.LG, cs.RO, cs.SY, eess.SY]目的:不確実性定量化のためのConformal Predictionにおける群対称性の効果
- ロボティクスや予測問題において,モデルの不確実性を評価することは,安全かつ信頼性の高いシステム構築に不可欠である。
- 従来のConformal Predictionは,予測範囲が広がりやすく,特に長期間の予測においては実用的な保証が得られない場合がある。
- 事前学習済みモデルの群対称性を活用し,不確実性定量化の精度向上と,より狭い予測範囲の実現を目指す。
- 事前学習済みモデルの群平均化により,Non-conformityスコアの縮小を証明的に保証した。
- 期待される指数型境界が改善され,特に高い信頼水準において,よりシャープなConformal Predictionセットが得られる。
- 歩行者軌道予測の実験設計を通じて,理論的根拠の妥当性を検証した。
思考の連鎖が重要でない場合:大規模言語モデルにおける因果的迂回 [cs.IR, cs.LG, cs.AI]目的:大規模言語モデルにおける思考連鎖の因果的依存性の検証
- 言語モデルの発展は,人間らしい思考能力の実現に不可欠であり,透明性の高い推論過程が求められる。
- 思考連鎖プロンプティングは推論過程の可視化を意図するが,表面的遵守と因果的依存性の乖離が問題となる。
- 思考連鎖の有効性を評価し,モデルが思考過程に頼らずに回答を生成する迂回路の存在を明らかにする。
- 思考連鎖プロンプティングを用いても,モデルの回答は思考連鎖の内容に因果的に依存しない場合が多いことが判明した。
- 提示された診断フレームワークにより,思考連鎖における操作可能な信号の評価と,それを通じた影響の測定が可能となった。
- 層ごとの分析から,平均的な因果的影響が低い場合でも,タスクに依存した狭い「推論ウィンドウ」が存在することが示された。
AIが説得するとき:AI支援意思決定における人間のAIへの信頼に対する敵対的な説明攻撃 [cs.HC, cs.AI]目的:AI支援意思決定における人間のAIへの信頼を操作する敵対的な説明攻撃の検証
- AIは意思決定プロセスに深く関わるようになり,人間との協調が重要になっている。
- AIの説明は人間の理解と信頼に影響を与えるが,その脆弱性は十分に理解されていない。
- AIの説明を操作することで,人間のAIへの信頼を誤らせる攻撃を分析し,対策を検討する。
- 敵対的な説明攻撃は,正しくないAIの出力に対しても人間の信頼を維持することが示された。
- 専門家によるコミュニケーションに類似した説明が,最も脆弱であることが明らかになった。
- 難易度の高いタスクや事実に基づいた分野,AIへの信頼が高い参加者ほど攻撃の影響を受けやすい。
Rational ANOVAネットワーク [cs.DB, cs.LG, cs.AI]目的:Rational ANOVAネットワークのアーキテクチャ
- 深層ニューラルネットワークの解釈性と制御性の向上は重要な課題である。
- 既存の加法モデルは計算効率や境界の安定性に課題がある。
- Rational ANOVAネットワークによる効率的かつ安定な関数近似を目指す。
- Rational ANOVAネットワークは,関数ANOVA分解とPadé近似に基づいた新しいアーキテクチャである。
- このネットワークは,メイン効果と疎な二項交互作用の組み合わせで関数をモデル化する。
- 実験の結果,RANは既存のMLPや学習可能な活性化ベースラインと同等またはそれ以上の性能を示した。
プロンプトレベルの不一致を明らかにするPromptSplit [cs.LG, cs.AI, cs.CV]目的:生成モデル間のプロンプト依存性の不一致の検出と分析
- 生成AIモデルは急速に発展しており,その多様な挙動を理解する必要がある
- 異なるデータやアーキテクチャで学習されたモデル間の挙動の違いを特定する方法が不足している
- 生成モデルがどこで意見を異にするかを検出し,解釈可能なツールを提供する
- PromptSplitは,プロンプトと出力の表現をテンソル積埋め込みで構築し,カーネル共分散行列を計算する
- 行列差分の重み付き固有空間を用いて,プロンプト間の行動の違いの主要な方向性を特定する
- テキスト・画像間,テキスト・テキスト間,画像・キャプション間の設定で,PromptSplitは挙動の違いを正確に検出し,原因となるプロンプトを特定する
大規模言語モデルのパラメータ効率的なファインチューニングにおける層配置の理解と誘導 [cs.RO, cs.MA, cs.DC, cs.HC, cs.HC, cs.CL, cs.LG, cs.AI]目的:大規模言語モデルのパラメータ効率的なファインチューニングにおける層配置戦略
- 大規模言語モデルの発展に伴い,ファインチューニングの重要性が増している。
- 全パラメータのファインチューニングはコストが高く,層選択の理解が不足している。
- 層の重要度を評価し,効率的な層配置戦略を確立すること。
- 提案手法「Layer Card」により,各層の残差信号強度や計算コストを可視化できる。
- Layer Cardに基づいた層配置は,性能最大化とファインチューニングコスト削減を両立する。
- Qwen3-8Bにおいて,選択的な層適応はフル層LoRAに近い性能で,コストと推論層数を削減した。
