arXiv雑要約
AI - 2025/12/19 公開
MoHoBench:視覚的に答えられない質問によるマルチモーダル大規模言語モデルの正直性の評価 [cs.AI, cs.CV]目的:マルチモーダル大規模言語モデルの正直性評価
- 近年,大規模言語モデルの性能向上は目覚ましいが,誤情報や有害なコンテンツの生成リスクも存在する。
- 視覚情報と自然言語処理を組み合わせたマルチモーダル大規模言語モデルにおける正直性の評価は未解明な点が多い。
- 視覚的に答えられない質問に対するモデルの応答を通して,正直性の評価基準を確立し,改善策を探る。
- 既存の多くのモデルは,不回答が必要な場合に適切に拒否できないことが示された。
- マルチモーダル大規模言語モデルの正直性は,言語モデルの能力だけでなく,視覚情報の影響を強く受けることが明らかになった。
- 教師あり学習と嗜好学習を用いた初期的な正直性向上策を実装し,今後の信頼性向上に向けた基盤を構築した。
バイブコーディング:ソフトウェア開発における意図媒介の再構成 - 定義,示唆,研究アジェンダ [cs.SE, cs.AI, cs.HC]目的:バイブコーディングという新たなソフトウェア開発パラダイムの定義と,その影響および今後の研究課題
- ソフトウェア開発はAI技術の進化により変革期にあり,その本質を理解することが重要である。
- バイブコーディングの急速な普及と概念的理解の遅れが課題となっている。
- 人間の意図とAIの推論の間の媒介プロセスを再定義し,バイブコーディングの可能性とリスクを明らかにすること。
- バイブコーディングは,人間と生成AIが自然言語を通じて協調的にソフトウェアを開発するパラダイムである。
- このパラダイムは,知識労働を人間から機械へ再分配し,技術実装から協調的オーケストレーションへの専門性を移行させる。
- バイブコーディングは,民主化,加速化,システム的な活用といった機会をもたらす一方で,ブラックボックス化や責任の所在不明確化といったリスクも伴う。
教師モデルの洗練による強化学習:機械翻訳のための段階的模倣学習 [cs.CL, cs.AI]目的:機械翻訳における段階的模倣学習
- 機械翻訳の性能向上は,グローバルコミュニケーションにおいて不可欠であり,その自動化ニーズは高い。
- 従来の機械翻訳は,高品質な学習データに依存しており,ドメイン外への汎化が課題であった。
- 教師モデルからの継続的なフィードバックを利用し,データ依存性を軽減し汎化性能を高める。
- RLfRは,既存のSFTやPreference-based baselineと比較して,FLORES-200ベンチマークにおいてCOMETスコアとM-ETAスコアを有意に改善した。
- 各翻訳ステップをマイクロチュートリアルとして捉え,教師モデルの洗練を通して段階的に模倣学習を行う点が特徴である。
- 負の編集距離とCOMETスコアを組み合わせた報酬信号により,語彙・構造の忠実性と意味的妥当性の両立を実現した。
オンライン継続グラフ学習 [cs.DL, cs.LG]目的:継続的な知識獲得と破滅的忘却の軽減
- 現実世界のネットワークは時間とともに変化するため,タイムリーな予測が不可欠である。
- 既存手法はグラフ全体のデータや複数回のタスク処理を前提としており,オンライン設定の効率性を損なう。
- 厳格なメモリと計算資源の制約下で,ノードレベルの継続学習を可能にすること。
- オンライン継続グラフ学習 (OCGL) の設定を定義し,ノードレベル情報のストリームを効率的に処理する枠組みを提示した。
- 7つのデータセットと9つのCL戦略を用いた包括的なベンチマークを確立し,標準的な評価設定を可能にした。
- ベンチマーク結果に基づいた,高効率で競争力のあるベースラインモデルを提案した。
MEML-GRPO:RLVRの進歩のための異種マルチエキスパート相互学習 [cs.HC, cs.AI]目的:RLVRにおける推論能力向上
- 大規模言語モデルの推論能力向上に,検証可能な報酬を用いた強化学習(RLVR)が有効であることが示されている。
- 従来のRLVRは,正解候補が常に不正確な場合に学習信号が得られない報酬の疎さという課題を抱えている。
- 多様な専門家プロンプトを利用し,より広範囲な回答を生成することで,正解を特定する可能性を高めることを目指す。
- 提案手法MEML-GRPOは,複数の推論ベンチマークにおいて大幅な改善を示した。
- Qwenでは平均4.89%,Llamaでは11.33%の性能向上を達成し,従来のRLVRの限界を克服した。
- エキスパート間の相互学習メカニズムにより,知識の共有と転移が促進され,モデルの性能がさらに向上した。
信頼してくれ,この関数は知っている:バイアスを用いたLLM静的解析の乗っ取り [cs.LG, cs.CR]目的:LLMベースのコード解析における脆弱性の特定と悪用
- コードの安全性を高めるため,LLMによる自動コードレビューの重要性が増している。
- LLMは,慣れたパターンに偏り,わずかなバグを見落とす傾向がある。
- この偏りを悪用し,LLMの解釈を乗っ取る攻撃(FPA)を自動化する。
- FPAは,基本的なモデルや推論モデルに対して効果的であり,モデル系列やプログラミング言語に依存しないことが示された。
- FPAは,システムプロンプトによる警告に対しても有効であり,その頑健性が確認された。
- FPAの防御的な利用法も検討され,コード指向LLMの信頼性・安全性への広範な影響が議論された。
ニューロシンボリック問題解決のスケーリング:制約と目的のソルバーフリー学習 [cs.AI, cs.LO, cs.SC]目的:ニューロシンボリック問題解決における制約と目的の学習
- 離散推論とニューラルネットの融合は,AIの高度化に不可欠であり,複雑な問題を解決する可能性を秘めている。
- 大規模言語モデルを含む既存手法では,自然な入力からの離散推論や最適化問題解決が困難であるという課題が存在する。
- 本研究は,ソルバーを用いずに制約と目的を学習することで,スケーラブルかつ高精度な問題解決を目指す。
- 提案手法は,自然な入力からNP困難な推論問題を効率的に学習できることを実験的に示した。
- Sudokuベンチマークにおいて,他のハイブリッド手法と比較して,大幅に短い学習時間で同等の性能を達成した。
- 視覚的なMin-Cut/Max-cutタスクやタンパク質設計問題においても,良好な結果が得られた。
ModalSurv:前立腺および膀胱がんにおけるマルチモーダル深層生存学習の機会と限界の調査 [cs.LG]目的:前立腺および膀胱がんにおけるマルチモーダル深層生存学習の機会と限界
- がんの個別化治療には正確な生存予測が不可欠であり,近年その重要性が増している。
- 臨床データだけでなく,画像や遺伝子情報といったマルチモーダルデータの統合は困難を伴う。
- マルチモーダルデータの有効性を評価し,汎化性能の高い生存予測モデルの構築を目指す。
- ModalSurvは,前立腺がんデータセットにおいてC-index 0.7402を達成し,ランキング1位となった。
- 一方,外部テストでは臨床データのみの性能がマルチモーダルモデルを上回り,汎化性能の課題が示唆された。
- 本研究は,マルチモーダル生存モデリングの可能性と,そのスケーラブルかつ汎化可能ながん予後予測への限界を明らかにした。
憲法とAIガバナンス:モデルライセンスと研究分類の制約 [cs.CY, cs.AI]目的:AI技術の規制に関する法的制約
- AI技術の急速な発展は,社会に大きな変革をもたらすと同時に,リスクも伴うため,法的な枠組みの整備が急務である。
- AI技術の規制は,表現の自由との関係で憲法上の問題が生じる可能性があり,明確な法的根拠と範囲の特定が課題となっている。
- 米国憲法のもとでのAI規制の可能性を探り,モデルライセンスと研究分類という具体的な手段における法的課題を明らかにすること。
- 表現の自由に関する第一修正条項は,モデルアルゴリズムや出力に対して一定の保護を提供する可能性があるが,規制を完全に排除するものではない。
- 行政法上の要件も考慮する必要があり,政府機関の審査と権限が規制の実施に影響を与える。
- 手続き的適正手続きの観点から,政府は開発者がモデルに法的利益を持つ時点を明確に定義する必要がある。
計画とコードの反省による長期的視覚模倣学習 [cs.RO, cs.AI, cs.LG]目的:長期的視覚模倣学習における性能向上
- ロボットの自律的な行動学習において,人間のデモンストレーションからの学習は重要である。
- 複雑な行動系列を持つ長期的デモンストレーションの学習は,時間的・空間的関係の理解が困難である。
- 計画生成とコード生成の誤りを検出し修正することで,複雑なタスクにおける性能を向上させる。
- 提案手法は,計画とコードをそれぞれ反省するモジュールを導入することで,時間的・空間的な一貫性を強化する。
- 新ベンチマークLongVILBenchを導入し,既存手法がこのベンチマークにおいて性能が低いことを示す。
- 提案手法は,LongVILBenchにおいて強力なベースラインを確立し,長期的視覚模倣学習の性能を向上させる。
ポリープのセグメンテーション改善と可視化による説明可能性分析 [cs.CV, cs.LG]目的:ポリープのセグメンテーション精度向上と,その根拠の可視化
- 大腸癌は罹患率・死亡率が高く,早期発見が重要である。ポリープはその前駆体となりうる。
- ポリープの正確な手動セグメンテーションは労力と時間がかかり,観察者によるばらつきが生じやすい。
- 深層学習による自動化と,その判断根拠の透明性を確保することで,臨床応用を促進すること。
- 提案手法PolypSeg-GradCAMは,Kvasir-SEGデータセットにおいて高いセグメンテーション精度を示した (Dice係数: 0.8902)。
- IoU (Intersection-over-Union) は0.8023,AUC-ROCは0.9722であり,高い感度 (0.9058) と精度 (0.9083) を実現した。
- Grad-CAMによる可視化により,モデルの予測が臨床的に妥当な領域に基づいて行われていることが確認された。
最大エントロピーRLHFの失敗モード [cs.CL, cs.LG, cs.CL]目的:最大エントロピー強化学習によるオンラインRLHFにおける過最適化とKLダイナミクスの不安定性
- 人間からのフィードバックを用いた強化学習は,大規模言語モデルの性能向上に不可欠である。
- オンラインRLHFにおいて,報酬ハッキングや学習の不安定性が問題となっている。
- 最大エントロピー強化学習の課題を特定し,SimPOの成功要因との差異を解明する。
- SimPOは最大エントロピー強化学習として導出され,理論的根拠が示された。
- 最大エントロピー強化学習はオンラインRLHFにおいて過最適化と不安定なKLダイナミクスを示すことが確認された。
- エントロピー正則化は報酬ハッキングを防ぐことができず,過最適化と相関関係があることが示唆された。
確率的微分方程式に基づく空間的-時間的グラフ深層学習によるアルツハイマー病進行の解明 [cs.CL, cs.LG, cs.AI]目的:アルツハイマー病の進行予測のための神経画像バイオマーカーの特定
- アルツハイマー病は高齢化社会において患者数増加が予想され,早期発見と介入が重要である
- 既存の手法では,脳ネットワークの複雑な空間的・時間的特性が十分に考慮されていない
- 不規則にサンプリングされた脳機能画像データから,病状進行を正確に予測することを目指す
- 提案手法は,脳の重要な領域および結合の確率を学習し,アルツハイマー病進行に関連する脳回路異常を特定した。
- 海馬傍回,前頭前皮質,頭頂葉が重要な領域として検出され,腹側注意ネットワーク等の異常が確認された。
- 得られた結果は,臨床症状と強く相関し,新たな神経学的バイオマーカーの発見に繋がる可能性がある。
CompareBench:ビジョン言語モデルにおける視覚的比較推論のためのベンチマーク [cs.CL, cs.CV, cs.AI]目的:視覚的比較推論の評価
- 視覚と言語を理解するAIの性能向上は,人間とAIのより自然な対話を可能にする上で重要である。
- 既存のビジョン言語モデルは,単純な視覚的比較推論タスクでも性能が低い場合がある。
- 現在のビジョン言語モデルの視覚的比較推論における限界を明らかにし,改善の方向性を示す。
- CompareBenchは,数量,時間,幾何学,空間に関する1000組の質問応答ペアで構成される。
- 強力なモデルであっても,時間順序の理解や空間関係の認識に課題があり,基本的な数え方や幾何学的な比較でも誤りを犯す。
- このベンチマークは,より信頼性の高いマルチモーダル推論を実現するための基礎を築く。
線形リザバーコンピューターのネットワークトポロジーの最適化 [eess.SY, cs.LG, cs.SY, nlin.CD]目的:線形リザバーコンピューターのネットワークトポロジー最適化
- 機械学習は,予測や制御を含む様々な分野で不可欠な手法となっている。
- 既存のリザバーコンピューターのネットワーク接続はランダムに生成されるため,性能向上の余地がある。
- 独立モードに分解することで,リザバーコンピューターの性能と解釈性を向上させる最適化手法を確立する。
- 最適化された線形リザバーコンピューターは,訓練およびテストの両フェーズでランダムに構成されたリザバーを大幅に上回る性能を示した。
- 同等の規模の非線形リザバーと比較しても,優れた性能を発揮することが確認された。
- 本研究は,効率的でタスク固有,かつ解析的に透明性の高いリザバーコンピューターアーキテクチャ設計のための実用的な利点と理論的指針を提供する。
ネットワーク最適化スパイクニューラルネットワーク:イベント駆動型ネットワークへの応用 [cs.NE, cs.LG, cs.NI, math.OC]目的:イベント駆動型ネットワークにおける低遅延な意思決定
- ネットワークの性能向上には,迅速かつ効率的なデータ処理が不可欠であり,そのために新しい計算モデルが求められている。
- 従来の固定ステップのニューラル推論は,スパースでバースト的なテレメトリデータに対して計算資源を浪費しやすい。
- ネットワークの特性に最適化されたスパイクニューラルネットワークを開発し,低遅延性と効率性を実現することを目指す。
- 提案手法であるNOSは,正規化されたキュー占有率と回復リソースを表現する2状態ニューロンを用いることで,有限バッファとサービス漏れを考慮した飽和励起非線形性を実現した。
- NOSは,グラフ局所入力とリンクごとのゲート,遅延,そして代替勾配やニューロモルフィック展開に対応した微分可能なリセットを備えている。
- 実験の結果,NOSは,チェイン,スター,スケールフリーグラフにおいて,従来のMLP,RNN,GRU,temporal-GNNと比較して,早期警告のF1スコアと検出遅延の点で優れていた。
AuON:直交モーメンタム更新の線形時間代替手法 [cs.LG, stat.ML]目的:直交モーメンタム勾配更新の特性解析と,それに基づく効率的な最適化手法の開発
- 深層学習モデルの学習において,最適化アルゴリズムの性能は重要であり,学習速度と精度に直接影響する。
- Adamのようなベクトルベースの最適化手法はメモリコストが高く,モーメンタム勾配の更新が条件数の悪い問題に陥りやすい。
- 従来の直交モーメンタム手法の計算コストを削減し,より効率的かつ高性能な最適化手法を提供することを目指す。
- 提案手法AuONは,近似直交行列を用いずに,線形時間で高い性能を実現し,構造的アラインメントを維持し,不良条件の更新を再調整する。
- AuONは, exploding attention logitsを抑制するための自動的な「緊急ブレーキ」機能を備えている。
- ハイブリッド変種Hybrid-AuONは,Newton-Schulz反復と線形変換を組み合わせることで,言語モデリングタスクにおいてMuonを上回る性能を示す。
誰が主導権を握るか:指示遵守における役割対立の解剖 [eess.SY, cs.SY, math.CA, cs.CL, cs.LG]目的:大規模言語モデルにおける役割対立のメカニズム解明
- 言語モデルの指示遵守は,人間との円滑なコミュニケーションに不可欠である。
- システム指示とユーザー入力の優先順位付けが不十分な場合がある。
- 役割や社会的要素が指示遵守に与える影響を明らかにする。
- 線形探査により,システム-ユーザー対立と社会的対立が異なる空間に符号化されることが示された。
- 直接ロジット帰属分析により,システム-ユーザー対立の方が内部的な対立検出が強いことが明らかになった。
- 社会的要素を活用したベクトル操作が,役割に依存せず指示遵守を強化することが示唆された。
TACOS:タスク非依存型マルチドローンシステムコーディネーター [cs.RO, cs.AI, cs.MA]目的:マルチドローンシステムにおける高レベルな自然言語制御
- ドローン技術は,物流,監視,災害対応など多岐にわたる分野で活用が期待されている。
- 単一の操縦者によるマルチドローンの制御は,作業負荷が大きく,柔軟性に欠ける場合がある。
- 自然言語による直感的な指示を通じて,ドローンシステムの自律性と操縦者の負担軽減を目指す。
- TACOSは,大規模言語モデル(LLM)を用いて,マルチドローンシステムを高レベルな自然言語で制御する統合フレームワークである。
- TACOSは,自然言語インターフェース,インテリジェントなコーディネーター,自律エージェントの3つの要素を統合している。
- 実世界のマルチドローンシステムでTACOSの有効性を実証し,各モジュールの貢献度を検証した。
分岐系列 [cs.LG]目的:時系列予測における予測安定性の向上
- 時系列予測は,ビジネスや科学において不可欠であり,精度の高い予測が求められる。
- 予測モデルは高い精度を持つものの,予測作成日によって予測値が大きく変動し,信頼性を損なう場合がある。
- 予測作成日を跨いだ予測の変動を抑え,より安定した予測を提供することを目指す。
- 分岐系列は,訓練中の勾配更新をより安定させ,一貫性を高める効果がある。
- アンサンブル学習を通じて予測変動を低減し,予測の信頼性を向上させる。
- 推論時の計算効率を改善し,より迅速な予測を可能にする。
D2E:デスクトップデータを活用したビジョン・アクション事前学習の拡張と,具現化されたAIへの転移 [cs.AI, cs.CV, cs.RO]目的:デスクトップ環境におけるデータを用いた,具現化されたAIタスクへの事前学習フレームワークの確立
- 具現化されたAIは,現実世界とのインタラクションを必要とするため,その学習には大規模なデータとコストがかかる。
- 物理的な軌跡データの収集は費用がかかるため,具現化されたAIの研究開発はデータ量の制約を受けている。
- デスクトップ環境のデータを活用することで,具現化されたAIの学習に必要なデータ取得コストを削減し,性能向上を目指す。
- D2Eフレームワークは,デスクトップ環境で収集されたデータを用いて,ロボットの具現化されたAIタスクにおける事前学習を可能にした。
- 1.3K+時間のデータを用いて,LIBERO操作タスクで96.6%,CANVASナビゲーションタスクで83.3%の成功率を達成した。
- デジタルインタラクションにおけるセンサーモータープリミティブが,物理的な具現化されたタスクへ有効に転移することを示した。
分散型SGDの高確率収束保証の改善 [cs.LG, cs.MA, math.OC]目的:分散型確率的勾配降下法(DSGD)の高確率収束保証に関する研究
- 機械学習の分散学習は,大規模データセットを効率的に処理し,計算資源を有効活用するために重要である。
- 分散型設定における高確率収束保証は,集中型設定と比較して未発達であり,仮定が厳しすぎる場合が多い。
- 高確率収束保証における不要な仮定を解消し,平均二乗誤差(MSE)収束と同等の条件で収束を保証すること。
- 本研究では,DSGDが高確率で収束するための条件が,MSE収束の条件と一致することを示した。
- これにより,勾配の有界性といった制約的な仮定が不要となり,非凸関数および強凸関数に対して最適な収束レートを達成する。
- さらに,ユーザー数が増加すると収束が早くなる線形速度向上効果が確認され,分散型学習におけるDSGDの性能が向上することが示された。
確率的予測に基づくリスク制約付き強化学習のための不確実性認識マルコフ決定過程 (UAMDP) [cs.CL, cs.LG]目的:不確実性を考慮した強化学習のための枠組み
- 高リスクな状況下での意思決定において,期待収益の最大化だけでは不十分であり,不確実性の管理が重要である。
- 既存の手法では,不確実性を定量的に評価し,リスクを考慮した意思決定を行うことが困難である。
- ベイズ予測とリスク回避的な強化学習を組み合わせることで,より安全で収益性の高い意思決定を可能にすること。
- UAMDPは,ベイズ予測,事後サンプリングによる強化学習,CVaR制約下での計画を統合した統一的な枠組みである。
- 実験の結果,UAMDPは,高頻度株式取引と小売在庫管理の2つの領域において,長期予測精度が向上し,経済的パフォーマンスも改善された。
- UAMDPは,確率的モデリング,不確実性に基づいた探索,リスクを考慮した制御を組み合わせることで,ロバストで汎用性の高いアプローチを実現する。
BigCodeArena:コード生成における信頼性の高い人間の選好を,実行を通じて明らかに [cs.SE, cs.AI, cs.CL]目的:コード生成における人間の選好の把握
- 近年,LLMの能力向上に伴い,コード生成の自動化が重要視されている。
- コードの品質評価は専門知識が必要であり,人間による評価は困難を伴う。
- 実行環境を用いた評価により,コードの正確性と効率性を客観的に判断する。
- BigCodeArenaは,コード生成の人間による評価プラットフォームであり,実行環境を統合している。
- 14,000件以上の会話データから4,700件以上のペアワイズ選好データを収集し,詳細な分析を行った。
- 報酬モデルと人間の選好の一貫性を評価した結果,実行結果がある場合に,より正確な評価が可能であることが示された。
大規模な逆教師あり学習:指数探索とアノテーションの経済性 [cs.LG, cs.AI]目的:大規模な未ラベルデータセットにおけるラベル探索を通じた,小規模なラベルデータセットにおける誤差最小化
- 機械学習において,ラベル付きデータはモデルの性能を大きく左右する。データの量は常に課題である。
- ラベル付けはコストと時間がかかるため,大規模なデータセットに対しては困難が生じる。
- 生成AIを活用し,人間の労力を軽減しながら高品質なラベルを効率的に生成すること。
- 指数的な探索空間が存在するため,計算速度の向上だけではラベルの必要性を根本的に解決できない。
- 生成AIは,人間のキュレーションによるコアデータセットを増幅し,教師あり学習のループを効率化する「ラベル増幅器」として機能する。
- 最終的なシステムのキャリブレーション,ドリフト検出,および障害監査には,人間の監視が不可欠である。
ProtoSiTex:マルチラベルテキスト分類のための半解釈可能なプロトタイプ学習 [cs.AI]目的:マルチラベルテキスト分類のための半解釈可能なプロトタイプ
- デジタルプラットフォームにおけるユーザー生成テキストの急増により,詳細なテキスト分類と説明が可能な解釈可能なモデルの必要性が高まっている。
- 既存のプロトタイプベースモデルは直感的な説明を提供するが,粒度が粗く(文またはドキュメントレベル),現実世界のマルチラベルテキスト分類に対応できない。
- 本研究は,文節レベルでの複数のラベルを扱える,半解釈可能なマルチラベルテキスト分類モデルの開発を目指す。
- ProtoSiTexは,意味的に一貫性があり多様なプロトタイプを学習する非教師ありのプロトタイプ探索段階と,これらのプロトタイプをクラスラベルにマッピングする教師ありの分類段階という二段階の交互学習戦略を採用している。
- 階層的損失関数は文節,文,ドキュメントレベルの一貫性を強制し,解釈可能性と整合性を高める。
- 実験結果から,ProtoSiTexは最先端の性能を達成し,忠実で人間と整合性の取れた説明を提供することが示された。
DriveVLA-W0:自動運転におけるデータスケーリング則をワールドモデルが強化する [cs.CV, cs.AI]目的:自動運転のための汎化性能向上
- 自動運転は,社会における安全性向上や移動の効率化に不可欠な技術である。
- 大規模なデータが必要だが,行動のラベルは疎であり,モデル能力を十分に活用できていない。
- ワールドモデルによる自己教師あり学習で,環境の潜在的なダイナミクスを学習し,性能向上を目指す。
- DriveVLA-W0は,離散的な視覚トークンと連続的な視覚特徴の両方に対して有効であることが示された。
- NAVsimベンチマークおよび大規模な社内データセットで,既存のBEVおよびVLAの性能を大幅に上回った。
- データセットの規模が大きくなるにつれて,性能向上の速度が加速するという,データスケーリング則を強化することが確認された。
著者の属性特定と検証のためのLLMワンショットスタイル転移 [cs.CL, cs.AI]目的:著者属性特定と検証におけるスタイル転移の測定
- 文章のスタイル分析は,筆者特定や剽窃検出など,様々な応用分野において重要である。
- 既存手法は,スタイルと内容が混在したデータに依存し,正確な分析が困難である。
- LLMの潜在能力を活用し,内容の影響を受けにくいスタイル転移に基づく手法を確立する。
- 提案手法は,同程度のモデル規模の既存手法と比較して,著者の属性特定において大幅な性能向上を示した。
- 内容の重複を制御した場合,コントラスト学習によって訓練されたモデルを上回る結果が得られた。
- 検証タスクにおいては,計算コストと精度を調整可能なメカニズムを導入し,より高い精度を実現した。
3D脳解析のための深層生成事前分布 [cs.CV, cs.LG]目的:3D脳画像解析における逆問題解決のための深層生成事前分布の応用
- 脳画像解析は,脳の構造と機能の理解に不可欠であり,医療診断や治療に貢献する重要な分野である。
- 従来の脳画像解析では,複雑な脳の構造を捉えきれない古典的な数学的事前分布に依存している場合が多い。
- 拡散モデルを用いて,脳の複雑な構造をより正確に捉えた事前分布を構築し,脳画像解析の精度向上を目指す。
- 拡散モデルを事前分布として用いることで,多様な脳MRIデータに対して一貫性のある高品質な解が得られた。
- 既存の深層学習手法の結果を改善し,解剖学的忠実度を高めることが示された。
- ペアリングされた学習データセットを必要とせず,最先端の性能を達成した。
圃場内作物収量回帰のための地理空間基礎モデルの微調整:FARM [cs.CV, cs.LG, eess.IV]目的:圃場内菜種収量の高精度予測
- 食料安全保障と現代農業管理において,正確かつタイムリーな作物収量予測は不可欠である。
- 従来の収量予測手法は,精密農業に必要なスケーラビリティや粒度が不足している。
- 大規模な地理空間基礎モデルを微調整し,データ不足な精密農業における予測精度向上を目指す。
- FARMは,カナダのプレーリー地方のデータセットにおいて,RMSE 0.44,R^2 0.81を達成した。
- 限られた地上真値ラベルでのFARMの微調整は,同アーキテクチャをゼロから学習するよりも優れた性能を示した。
- FARMは3D-CNNやDeepYieldといったベースラインモデルと比較して,農業分野特化型応用における基礎モデル微調整の有効性を示した。
nanoTabPFN:TabPFNの軽量かつ教育的な再実装 [cs.SI, cs.LG]目的:TabPFN v2アーキテクチャの簡略化と軽量化による再実装
- 表形式データ予測における基盤モデルの重要性が高まっている
- 既存のオープンソース実装は複雑で理解や拡張が困難である
- 教育目的や小規模な実験環境での利用を可能とする
- nanoTabPFNは,TabPFN v2と同程度の性能を,従来の機械学習ベースラインと比較して1分以内に達成する。
- 事前学習に必要な計算資源を大幅に削減し,教育利用へのアクセスを容易にする。
- コードはGitHubで公開されており,学生や研究者にとって利用しやすい。
刑事司法における代替的な公平性と精度の最適化 [cs.LG, cs.AI, cs.CY]目的:刑事司法における公平性と精度の最適化手法
- 公正な意思決定は社会の根幹であり,特に刑事司法の分野では重要性が高い。
- アルゴリズムの公平性評価指標が複数存在し,それらの整合性や実用性に課題がある。
- 保護集団間の偽陰性率の差を許容範囲内に抑えつつ,誤差を最小化する手法を提案する。
- 既存のグループ公平性手法を修正し,より現実的な解の探索を可能にした。
- 予測精度を向上させつつ,倫理的な選択である誤差コストを明確化した。
- 実用的な導入フレームワークとして,必要性の原則,透明性と説明責任,限定的な定義と解決策を提示した。
忘却は遍在する [cs.LG, stat.ML]目的:学習における忘却の理解
- 汎用的な学習アルゴリズム開発には,過去知識の保持が不可欠である。
- 忘却のメカニズムが不明確であり,学習効率を阻害する要因となっている。
- 予測分布の一貫性欠如として忘却を捉え,その定量的評価を目指す。
- 忘却は,学習者の将来の経験に対する予測分布における自己整合性の欠如として特徴付けられる。
- ベイズ学習者は,忘却を起こすことなく適応できることが示された。
- 分類,回帰,生成モデリング,強化学習を含む実験により,忘却が深層学習のあらゆる設定で存在し,学習効率に影響を与えることが確認された。
データ価値評価における誤差推定と収束解析 [cs.LG]目的:データ価値評価の誤差推定と収束性
- データはAI発展の基盤であり,その価値を定量化する重要性が増している。
- 既存手法では,単一の学習プロセスで妥当性を保証できないという課題があった。
- 本研究は,データ価値評価における誤差の定量化と収束性の解析を目指す。
- Lipschitz条件と滑らかさの仮定の下で,誤差の上界を導出した。誤差は時間ステップに反比例し,制御変動の二乗に比例する。
- 学習損失の勾配ノルムの期待値が漸近的に消失し,メタ損失が反直線的に収束することを証明した。
- 特に,NDDV手法が反直線収束を達成することを示した。
マルチモーダル患者データ制御のための音声インタラクティブ手術支援システム [cs.CL, cs.AI]目的:ロボット手術におけるマルチモーダル患者データ制御の実現
- ロボット手術の普及に伴い,手術中の情報管理の効率化が重要課題となっている。
- 手術中は両手が塞がれており,視覚情報も集中するため,データ操作が困難である。
- 音声による指示操作により,手術ワークフローを中断することなくデータ制御を可能にする。
- 提案システムVISAは,階層型マルチエージェントフレームワークとLLMを活用し,高い精度で音声指示を解釈・実行できる。
- 構築した評価指標MOEMにより,コマンドレベルおよびカテゴリレベルでの性能と堅牢性を評価した。
- 転写エラーや曖昧な表現に対しても,VISAは高い耐性を持ち,多様な音声表現に対応可能である。
生物学的情報に基づいたハイブリッドなメンバーシップ推論攻撃:生成ゲノムモデルへの応用 [cs.CR, cs.AI]目的:生成ゲノムモデルに対するメンバーシップ推論攻撃の検証
- ゲノムデータは研究を加速する一方,個人情報保護の観点から厳重な取り扱いが求められる。
- 差分プライバシー等の対策が講じられているものの,プライバシー侵害のリスクは残存する。
- 既存のメンバーシップ推論攻撃を強化し,プライバシー保護の限界を明らかにする。
- 遺伝子データ生成モデルのプライバシー保護性能を評価するため,生物学的情報を取り入れた新たな攻撃手法を提案した。
- 提案手法は従来のメンバーシップ推論攻撃よりも高い成功率を示すことが実験で確認された。
- 小規模なゲノムデータに対し,Transformerモデルによる合成バリアント生成の有効性を示唆する。
エージェントの質的経験収集のための環境スケーリングに関する調査 [cs.LG, cs.AI]目的:エージェントの質的経験収集のための環境スケーリング手法
- LLMベースのエージェントの能力向上には,適応的行動や長期的な意思決定能力が不可欠である。
- 従来の静的なデータセットは構築にコストがかかり,現実世界の多様性や動的な変化に対応できない。
- 環境とのインタラクションを通して学習するGEFループを効率化し,環境のスケーリングを促進する。
- LLMベースのエージェントの能力向上には,環境とのインタラクションによる経験学習が重要である。
- 本調査では,GEFループの各段階における環境スケーリング手法を体系的にレビューした。
- 実装フレームワーク,課題,応用例を分析し,今後の研究方向性を示唆した。
KarmaTS:関数的因果力学を持つ多変量時系列の汎用シミュレーションプラットフォーム [cs.AI, cs.HC]目的:多変量時系列シミュレーションのための,ラグインデックス化された実行可能な時空間因果グラフモデル構築フレームワーク
- 生理学的データの利用制限という課題に対し,因果関係に基づいたデータ生成が重要である。
- リアルワールドデータだけでは,因果構造の検証が難しく,ベンチマークも困難である。
- 専門家の知識とアルゴリズム提案を組み合わせ,柔軟な因果構造のシミュレーションを実現する。
- KarmaTSは,専門家の知識とデータに基づいた因果モデルを構築し,シミュレーションと因果介入を可能にする。
- 様々な変数型,同時およびラグ付きエッジ,パラメータ化可能なテンプレートからニューラルネットワークモデルまでのモジュール式エッジ関数を扱える。
- これにより,因果発見アルゴリズムの検証とベンチマークを専門家の知識に基づいて柔軟に行うことができる。
高速かつ堅牢な拡散モデルサンプリングのための階層的スケジュール最適化 [cs.LG, cs.CV]目的:拡散モデルのサンプリング速度向上と堅牢性確保のための最適なスケジュール
- 拡散モデルは高品質な画像生成を可能にするが,サンプリングに時間がかかる点が課題である。
- 既存のスケジュール最適化手法は,効果,適応性,堅牢性,計算効率を両立できていない。
- 本研究は,限られた計算資源で高品質なサンプリングを実現するスケジュール最適化手法を開発する。
- 提案手法HSOは,少ないFunction Evaluation回数(NFE)でも優れた性能を発揮する。
- NFEが5回という極めて少ない状況下で,Stable Diffusion v2.1においてFIDスコア11.94を達成した。
- 再学習のコストをかけずに,高速な最適化により拡散モデルの高速化を実現する。
2つの敵対者に対する調整:ハイパーパラメータ調整による転移攻撃とクエリベース攻撃に対するロバスト性の向上 [cs.LG, cs.CR, cs.CV]目的:転移攻撃とクエリベース攻撃に対するロバスト性の向上
- 機械学習モデルのセキュリティ確保は重要であり,攻撃に対するロバスト性は,実用化において不可欠な要素である。
- 従来の学習方法では,攻撃の種類によって最適なハイパーパラメータが異なるため,両方の攻撃に同時に対応することが困難であった。
- ハイパーパラメータ調整を通じて,転移攻撃とクエリベース攻撃の両方に対するロバスト性を同時に高めることを目指す。
- 学習率の低下は転移攻撃に対するロバスト性を最大64%向上させる。
- 一方,学習率の増加はクエリベース攻撃に対するロバスト性を最大28%向上させる。
- 分散モデルはハイパーパラメータ調整の恩恵が最も大きく,両方の攻撃タイプを効果的に軽減できるトレードオフを実現する。
介入効率と摂動検証フレームワーク:ラショモン効果下における容量認識型かつ堅牢な臨床モデル選択 [cs.LG]目的:臨床モデルの選択
- 医療現場での機械学習活用は,より質の高い医療の提供や効率化に不可欠である。
- 同程度の性能を持つ複数のモデルが存在するラショモン効果により,信頼性のあるモデル選択が困難である。
- 限られた医療資源を考慮した上で,堅牢なモデル選択を実現し,臨床的有用性を高める。
- 提案手法は,介入効率という指標を用いて,限られた介入下での真陽性検出効率を定量化する。
- 摂動検証フレームワークにより,データ摂動に対するモデルの安定性を評価し,頑健なモデルを特定する。
- 合成データおよび実医療データを用いた実験により,提案手法がより一般化性能の高いモデル選択を可能にする。
大規模なMILP問題を分散メモリ環境下で解くための並列フレームワークN2N [cs.AI, cs.DC, math.OC]目的:大規模MILP問題の並列解法
- 最適化問題は科学技術計算や産業工学において不可欠であり,効率的な解法が求められている。
- 大規模MILP問題の求解には時間がかかり,計算資源の限界が課題となっている。
- 分散メモリ環境下での並列化により,大規模MILP問題の求解速度を向上させる。
- N2Nは,B&Bノードを分散コンピューティングノードにマッピングするノード間フレームワークであり,決定論的および非決定論的モードをサポートする。
- 非決定論的モードにおいて,N2N-SCIPはParaSCIPと比較して,Kunpengおよびx86コンピューティングクラスタ上でそれぞれ1.98倍,2.08倍高速化を達成した。
- 決定論的モードにおいても,N2N-SCIPはParaSCIPに対して有意な性能向上を示し,HiGHSとの統合によりN2Nの汎用性が確認された。
OceanForecastBench:データ駆動型グローバル海洋予測のベンチマークデータセット [cs.LG, stat.ML]目的:データ駆動型グローバル海洋予測モデルの評価と開発のためのベンチマーク
- 海洋は気候変動や生態系に大きな影響を与え,予測は不可欠である。
- 既存の研究では,データ利用や評価方法が標準化されておらず,比較が困難である。
- 標準化されたベンチマークを提供し,モデル開発と公平な評価を促進すること。
- OceanForecastBenchは,28年間の高品質な海洋再解析データと,約1億個の観測データを提供する。
- 評価パイプラインと6つのベースラインモデルによるベンチマークにより,多角的な性能評価が可能である。
- データ駆動型海洋予測における,最も包括的なベンチマークフレームワークとして公開されている。
手首型光プトレトグラフィーによる食事情報の予測 [cs.LG, cs.AI, cs.CL]目的:食事情報の予測
- 健康管理における食事の重要性は高く,客観的な食事量把握が課題である。
- 従来の食事記録は手間がかかり,正確性に課題がある。
- ウェアラブルデバイスを用いた,受動的な食事量モニタリングの実現を目指す。
- 手首型光プトレトグラフィー(PPG)を用いて食事内容を予測できることが示された。
- PPGの予測精度は,食事からの距離が離れるほど低下する。
- PPGは,食事摂取量と満腹感の予測において,AUCを11%向上させた。
複数プレイヤーゲームにおけるESSの計算 [cs.CL, cs.GT, cs.AI, cs.MA, econ.TH, q-bio.PE]目的:複数プレイヤーの非退化正常形ゲームにおける全ての進化的に安定な戦略
- ゲーム理論は,生物学,経済学,政治学など幅広い分野に応用される重要な学問分野である。
- プレイヤー数が多いゲームにおける進化的に安定な戦略の計算は,計算量が膨大であり困難である。
- 3人以上のプレイヤーを持つ非退化正常形ゲームにおけるESSを効率的に計算すること。
- 本研究では,3人以上のプレイヤーを持つ非退化正常形ゲームにおける全ての進化的に安定な戦略を計算するためのアルゴリズムを提案した。
- 提案アルゴリズムにより,これまで困難であった多人数プレイヤーゲームにおけるESSの解析が可能となった。
ゲート付きKalmaNet:テスト時リッジ回帰による減衰する記憶層 [cs.LG, cs.CL]目的:効率的な注意機構の代替案としての線形状態空間モデル(SSM)の性能向上
- 近年,Transformerモデルの効率化が重要視されており,SSMはその有望な代替案として注目を集めている。
- 既存のSSMは過去の情報を要約する際に情報損失が発生し,特に想起を必要とするタスクで性能が低下する傾向がある。
- Kalman Filterの枠組みに基づき,過去の情報をより正確に保持しつつ,SSMの効率性を維持することを目指す。
- Gated KalmaNet(GKA)は,誤差共分散行列を正確に計算することで,既存のSSMよりも優れた性能を発揮する。
- GKAは,入力依存的なゲーティングを用いた適応的な正則化とChebyshev反復法により,低精度環境下での数値的安定性と並列化を実現する。
- 実験結果から,GKAは短文タスクだけでなく,128kトークンまでの長文RAGおよびLongQAタスクにおいても既存のSSMを上回る性能を示すことが確認された。
プログレッシブ再アラインメントによるマルチモーダルテスト時適応 [cs.RO, cs.DB, cs.LG, cs.CV]目的:マルチモーダルテスト時適応における課題解決
- モデルの汎化性能向上のため,テストデータを用いたオンライン適応が重要視されている。
- マルチモーダルデータでは,各モダリティ間の分布シフトが複雑に絡み合い,適応を困難にしている。
- 異なるモダリティ間のセマンティックなずれを解消し,よりロバストな適応を実現することを目指す。
- 提案手法BriMPRは,プロンプトチューニングを用いて各モダリティの分布を調整し,初期的なセマンティック再アラインメントを実現する。
- マスクされたモダリティの組み合わせに対して擬似ラベルを付与し,モダリティ間の情報交流を促進するコントラスティブ学習を導入する。
- 汚損データや実世界のドメインシフトのベンチマークにおいて,提案手法が既存手法を上回る性能を示すことが確認された。
生成レコメンデーションのためのマスク拡散 [cs.LG, cs.IR]目的:生成レコメンデーションにおける系列確率モデリング
- レコメンデーションは情報過多な現代において,ユーザーが必要な情報に効率的にアクセスするために不可欠である。
- 従来のレコメンデーション手法は,表現力や効率性の面で課題を抱えており,新たなアプローチが求められている。
- 本研究は,自己回帰モデルの課題を克服し,より効率的で高性能なレコメンデーション手法を確立することを目的とする。
- 提案手法は,マスク拡散モデルを用いることで,自己回帰モデルと比較して高い性能を示すことが実験的に確認された。
- 特に,データが限られた状況や粗粒度の再現率において,その性能差が顕著に現れることが示された。
- 推論時に複数のアイテムを並行して予測できる柔軟性を持ち,自己回帰モデルを上回る性能を維持する。
まず危害を加えず:臨床的に安全な大規模言語モデルへ [cs.DB, cs.CY, cs.AI]目的:大規模言語モデルによる医療アドバイスの臨床的安全性評価
- 医療現場でのAI利用拡大に伴い,患者の安全性を確保することが重要となっている。
- 大規模言語モデルの医療アドバイスにおける安全性は十分に評価されていない。
- 大規模言語モデルの医療アドバイスにおける潜在的な危害を定量的に評価し,改善策を探る。
- 大規模言語モデルの推奨により,深刻な危害が生じる可能性が最大22.2%の症例で確認された。
- 危害の76.6%は,見過ごしによるものであった。
- 最良のモデルは一般医よりも安全性で優れており,複数エージェントによるアプローチは単独モデルよりも安全性が高かった。
交通事故予測と因果推定のためのマルチモーダル埋め込み学習 [cs.LG, cs.CV, cs.SI]目的:交通事故パターンの分析
- 交通安全の向上は社会的な重要課題であり,事故発生要因の特定が不可欠である。
- 従来の事故予測研究は道路ネットワーク構造に偏り,物理的・環境的情報が不足していた。
- 道路ネットワークと衛星画像を統合し,より高精度な事故予測と要因分析を目指す。
- マルチモーダル学習により,グラフニューラルネットワークのみを用いたモデルと比較して,予測精度が3.7%向上し,平均AUROCは90.1%を達成した。
- 降水量の増加により事故発生率が24%上昇し,高速道路では22%上昇,季節変動により29%上昇することが因果分析から明らかになった。
- 正確な予測には衛星画像の特徴が不可欠であることが,消去研究によって確認された。
