arXiv雑要約
AI - 2026/04/02 公開
D4C:コントラスト学習による言語画像事前学習モデルのためのデータフリー量子化 [cs.CV, cs.LG]目的:コントラスト学習を用いた言語画像事前学習モデルのデータフリー量子化手法
- プライバシー保護の重要性が高まる中,実データなしでのモデル圧縮技術が求められている。
- データフリー量子化は有望だが,CLIPのようなビジョン言語モデルへの適用は未開拓な分野である。
- CLIPモデルに対するデータフリー量子化の性能劣化を改善し,実用的な圧縮を可能にすること。
- D4Cは,テキストプロンプトによる意味的注入,構造的コントラスト生成,摂動を考慮した強化の3要素により,CLIPモデルに適した疑似画像を生成する。
- 生成された画像は,意味的情報と構造的多様性を兼ね備え,データフリー量子化の性能ギャップを効果的に埋める。
- 様々なビット幅とモデルにおいて,D4Cが有意な性能向上を実証した。
DuoTok:ソースを考慮したデュアルトラックトークン化による多トラック音楽言語モデリング [cs.SD, cs.AI]目的:多トラック音楽言語モデリングのためのトークン化手法
- 音楽情報処理において,音楽の構造を理解し生成するためには,効率的な表現が不可欠である。
- 既存のトークン化手法では,音質の再現性,言語モデルの予測性能,トラック間の対応性のバランスが課題であった。
- 上記の課題を解決し,より高品質な音楽生成を可能にするトークン化手法の開発。
- DuoTokは,段階的な分離を通して,上記のトレードオフを解決するソースを考慮したデュアルトラックトークナイザーである。
- DuoTokは,標準的なベンチマークにおいて,優れた予測性能と音質を両立し,cnBPTを最小化しつつ,0.75kbpsでの競争力のある再構成を達成した。
- 制御された診断により,トラック間の構造や非局所的な履歴を活用していることが示唆された。
構造化されたプロンプトが言語モデルの評価を改善する [cs.CL, cs.AI, cs.LG]目的:言語モデル評価におけるプロンプト選択の影響の定量化
- 言語モデルの利用拡大に伴い,信頼性の高い評価枠組みが重要である。
- 既存の評価枠組みは静的なプロンプトに依存し,プロンプト選択の影響を考慮していない。
- 構造化プロンプト戦略による評価が,ベンチマーク結果に与える影響を明らかにすること。
- 構造化プロンプトを導入することで,平均で6%の性能向上が見られた。
- ベンチマークランキングが7つのうち5つのベンチマークで変動し,プロンプト選択の重要性が示された。
- 思考の連鎖(chain-of-thought)が最も効果的であり,高度な最適化手法による改善は限定的であった。
OmniFusion:モジュール融合による同時多言語マルチモーダル翻訳 [cs.CL, cs.AI]目的:同時多言語マルチモーダル翻訳システムの開発
- グローバル化が進む中で,多様な言語間のコミュニケーション円滑化が重要である。
- 従来の音声翻訳は段階的処理のため,遅延が課題であり,マルチモーダル情報を活用できていない。
- マルチモーダルな情報統合により,翻訳の精度向上と低遅延化を目指す。
- OmniFusionは,音声・画像情報を効果的に活用し,翻訳品質を向上させる。
- 段階的処理と比較して,同時翻訳における遅延を1秒削減することに成功した。
- 事前学習済みマルチモーダルモデルと翻訳LLMを融合する新しいアプローチを提案した。
離散拡散モデルの非漸近的収束:マスクおよびランダムウォークダイナミクス [cs.LG, stat.ML]目的:離散拡散モデルにおける収束性の保証
- 生成モデリングにおいて,連続状態空間モデルは広く利用されている。しかし,離散状態空間モデルは未解明な点が多く存在する。
- 離散状態空間の拡散モデルは,組み合わせ的な構造により理論的な解析が難しく,収束性の保証が不足している。
- 本研究は,有限状態空間および無限状態空間における離散拡散モデルの非漸近的収束性を解析し,最適な収束性を確立することを目的とする。
- 3種類の離散拡散モデル(ランダムウォーク,マスク処理,ドリフト付きランダムウォーク)に対し,新たな収束性の保証が得られた。
- 時間離散化による近似についても, Kullback-Leibler divergence および total variation distance における収束境界が確立された。
- 推定スコアの有界性に関する仮定に依存せず,次元数に対して線形に計算量がスケールすることが示された。
床図認識の向上:Mix-TransformerとU-Netのハイブリッドアプローチによる高精度な壁セグメンテーション [cs.RO, cs.MA, cs.SY, eess.SY, cs.CV, cs.AI]目的:高精度な壁セグメンテーションのためのハイブリッドニューラルネットワーク
- 2D床図からの自動3D空間再構成は,内装設計やロボットナビゲーション等で重要である。
- 既存手法は,薄い構造の検出や幾何学的精度維持に課題を抱えている。
- 本研究は,壁の構造的正確性と境界精度の向上を目指している。
- 提案手法MitUNetは,Mix-TransformerエンコーダとU-Netデコーダを組み合わせることで,大域的な意味的文脈と詳細な構造的特徴を捉える。
- CubiCasa5kデータセットと地域データセットでの実験により,MitUNetは標準モデルを上回る性能を示した。
- Tversky損失関数を用いた最適化により,精度と再現率のバランスが取られ,正確な境界復元を実現している。
ステーブルコインにおけるクロスドメイン透明性の架け橋:大規模言語モデルの活用 [cs.CR, cs.LG]目的:ステーブルコインにおける発行状況と準備資産の透明性に関する課題解決
- DeFiの健全性維持には,ステーブルコインの透明性が不可欠である。
- 発行元による開示と市場データが分断され,整合性確認が困難である。
- LLMを活用し,開示情報と市場データの関連性を自動的に分析する。
- 本研究では,LLMを用いてステーブルコインに関する様々な情報源を統合し,分析するフレームワークを提案した。
- このフレームワークにより,開示情報と市場データの間の差異を定量的に評価することが可能となった。
- その結果,開示データと検証可能なデータとの間に系統的なギャップが存在することが明らかになった。
Lumos:言語モデルシステム認証の実現 [cs.PL, cs.AI, cs.MA]目的:言語モデルシステム(LMS)の振る舞いを規定し,形式的に認証するための枠組み
- 言語モデルの利用拡大に伴い,安全性や信頼性の検証が不可欠となっている。
- 既存のLMS評価手法は網羅性に欠け,複雑なプロンプト分布への対応が困難である。
- Lumosは,LMSの安全性とプライバシーに関する保証を提供し,信頼性の高いシステム構築を目指す。
- Lumosは,グラフ構造を用いた確率的プログラミングDSLにより,プロンプト分布を構造的に記述し,認証を可能にする。
- 最先端の視覚言語モデルQwen-VLにおいて,悪天候下での右折シナリオにおいて,90%以上の確率で安全上の欠陥が確認された。
- Lumosのモジュール構造により,仕様の変更が容易であり,変化する脅威に対応した認証が可能となる。
Dextraの家:器用な手のためのクロス具現化共同設計 [cs.RO, cs.LG]目的:器用な手の形態と制御方針の共同設計
- ロボットハンドの性能向上は,産業における自動化の鍵であり,人間の作業を代替可能にする。
- 器用な操作において,最適なハンドの設計や制御方法に関する共通認識がないという課題がある。
- タスクに応じたハンドの形態と制御を効率的に設計し,実用可能なロボットハンドを開発すること。
- 本研究で提案するフレームワークは,関節,指,手のひらの生成を含む広範な形態探索空間を可能にする。
- 形態条件付きクロス具現化制御により,広範な設計空間におけるスケーラブルな評価を実現する。
- 24時間以内に新しいロボットハンドを設計,訓練,製造,展開できるエンドツーエンドのパイプラインを提供する。
RoboNeuron:具現化AIにおけるエージェント駆動オーケストレーションのためのミドルレイヤー基盤 [cs.RO, cs.LG]目的:具現化AIにおけるエージェント駆動オーケストレーションのためのミドルレイヤー基盤
- 近年,ロボットの活用が期待される中で,AIエージェントによるロボット制御が重要視されている。
- 既存システムでは,AIモデルとロボットミドルウェア間のインターフェース不一致が課題となっている。
- 本研究は,AIエージェントとロボットミドルウェア間の接続を容易にし,システム再構築を抑制することを目指す。
- RoboNeuronは,LLMエージェント向けプロトコル(MCP)とロボットミドルウェア(ROS2)を接続するミドルレイヤーである。
- ROSスキーマからエージェントが利用可能なツールを直接生成することで,統合された実行抽象化を提供する。
- シミュレーションと実機実験により,RoboNeuronがバックエンドの変更を容易にしながら,モジュール式システムオーケストレーションを可能にすることが示された。
拡散モデルの選択的パラメータ変位によるロバストなビデオ透かし [cs.CV, cs.CR, cs.LG]目的:生成ビデオの出所追跡のためのロバストな透かしスキーム
- 高品質な動画生成技術の発展に伴い,生成された動画の信頼性確保が重要となっている。
- 既存の透かし方法は,不可視性,ロバスト性,計算効率を同時に達成できていない。
- 拡散モデルのパラメータ変位による,効率的かつロバストな透かし埋め込み手法を提案する。
- 提案手法SPDMarkは,生成モデルのパラメータの一部を操作することで,不可視な透かしを埋め込む。
- フレーム固有の透かしメッセージを生成し,時間的な改ざんに対しても正確な抽出を可能にする。
- テキストから動画,画像から動画への生成モデルで,高い精度とロバスト性を実証した。
トモグラフィックquantile森林による多変量不確実性定量化 [cs.DC, cs.LG, stat.ML]目的:多変量ターゲットに対する予測的不確実性の定量化
- 安全で信頼性の高い現実世界のAI展開には,不確実性の定量化が不可欠である。
- 多変量ターゲットに対する条件付き分布の完全ノンパラメトリック推定は依然として困難である。
- 多変量データに対する不確実性を考慮した予測モデルの構築。
- 提案手法TQFは,単一のモデルで全方向を網羅し,凸性制約を課さない。
- TQFは,スライスドWasserstein距離を最小化する効率的な交互スキームを用いて,多変量条件付き分布を再構築する。
- 合成データおよび実世界のデータセットにおける評価により,TQFの有効性が示された。
幾何光度イベントベース3Dガウス線形追跡 [cs.CV, cs.AI, cs.RO]目的:イベントベース3Dガウススプラッティングにおける精度と時間分解能のトレードオフの解消
- 動きや構造推定において,従来のフレームベースカメラより高時間分解能を持つイベントカメラの活用が重要である。
- イベントベース3Dガウススプラッティングは,イベントの持つ時間情報を十分に活用できていないという課題があった。
- イベントの疎な時間情報を効果的に利用し,3D再構成の精度向上を目指す。
- 提案手法GPERTは,イベントごとのジオメトリレンダリングとスナップショットベースのラディアンスレンダリングを分離することで,効率的な処理を実現した。
- 実データセットにおいて最先端の性能を達成し,合成データセットでも競争力のある結果を示した。
- 事前情報やCOLMAPによる初期化なしで動作し,イベント選択数に柔軟に対応できる。
CRoPE:ロータリー位置埋め込みの効率的なパラメータ化 [cs.LG]目的:ロータリー位置埋め込みのパラメータ効率改善
- Transformerモデルにおいて,位置情報のエンコードは性能に大きく影響する。
- 従来のロータリー位置埋め込みは,冗長なパラメータを含む場合がある。
- パラメータ数を削減し,計算効率を高めること。
- 複素線形変換に基づくパラメータ化により,Attentionブロック内のパラメータ数を約50%削減できる。
- この変更は,モデルの性能にほとんど影響を与えないことが実験的に示された。
- パラメータ効率の向上と,表現空間の解釈の明確化が実現された。
医療画像における基礎モデルの迅速な評価のためのモジュール型パイプラインEvalBlocks [cs.CV, cs.LG]目的:医療画像における基礎モデルの評価パイプライン
- 医療画像における基礎モデル開発は,その性能監視が不可欠である。迅速な開発サイクルが求められている。
- 実験追跡,設計選択,性能への影響分析が煩雑で,手作業によるワークフローは時間と労力を要する。
- 基礎モデル開発時の効率的な評価を支援し,研究者の負担を軽減することを目指す。
- EvalBlocksは,Snakemakeを基盤としたモジュール型パイプラインであり,新しいデータセットやモデルの統合を容易にする。
- 実験と結果を一元的に追跡・再現可能にし,キャッシュと並列実行によりスケーラブルな利用を実現する。
- 5つの最新基礎モデルと3つの分類タスクで,評価の効率化が示され,モデル革新への注力を可能にする。
メタ確率モデル [cs.LG]目的:データ群から生成モデルの構造学習
- データ内の潜在構造発見にPGMが広く用いられる。適切なモデル設計が重要となる。
- 古典的なPGMは単一データセットを対象とし,モデル設計は試行錯誤に頼りがちである。
- 関連データセット群から生成モデルの構造を学習し,モデル設計の課題を解決する。
- MPMは,データセット共通のパターンを捉えるグローバルコンポーネントと,データセット固有の構造を捉えるローカルパラメータを持つ。
- スケーラブルな学習・推論のため,VAEに着想を得た代替目的関数と二段階最適化アルゴリズムを導出した。
- 客観的表現学習と系列テキストモデリング実験で,MPMが効果的にデータに適応し,意味のある潜在表現を復元できることを示した。
DR-LoRA:Mixture-of-Expertsモデルのファインチューニングのための動的ランクLoRA [cs.AI, cs.CL]目的:Mixture-of-Expertsモデルのファインチューニングにおける動的ランクLoRAの有効性
- 大規模言語モデルの性能向上にはモデルの規模拡大が不可欠であり,MoEはその効率的な手法として注目されている。
- LoRAなどの効率的なファインチューニング手法では,専門家モジュールへのランク割り当てが均一であることが課題であった。
- タスクに応じて専門家モジュールのランクを動的に調整することで,リソース配分の最適化を目指す。
- DR-LoRAは,専門家モジュールのルーティング頻度と勾配に基づく重要度を組み合わせた指標を用いて,重要な専門家モジュールを特定する。
- 重要な専門家モジュールのランクを段階的に拡大することで,タスクに適した異質なランク分布を構築する。
- 3つのMoEモデルと6つのタスクにおける実験により,DR-LoRAがLoRAや他のベースラインを上回る性能を示すことが確認された。
思考を蒸留し,回答にウォーターマークを付与する:大規模推論モデルのための原理に基づく意味誘導型ウォーターマーク [cs.AI]目的:大規模推論モデルにおけるデジタルウォーターマークの新しい枠組み
- 大規模言語モデルの利用拡大に伴い,生成されたテキストの真正性や出所の追跡が重要になっている。
- 既存のウォーターマーク手法は,論理的な整合性を損なったり,計算コストが高くなるという課題がある。
- 推論過程を阻害せず,高性能かつ堅牢なウォーターマーク技術を開発することで,信頼性を高める。
- ReasonMarkは,推論段階と回答段階を分離し,推論の流れを妨げないウォーターマークを実現した。
- テキストのPerplexityを0.35低減,翻訳BLEUスコアを0.164向上,数学的精度を0.67ポイント向上させた。
- ウォーターマーク検出のAUCを0.34%向上させ,攻撃に対する堅牢性を強化し,遅延の増加もわずかである。
KPI誘導型多基準遺伝的アルゴリズムによる工業用3Dビンパッキング [cs.NE]目的:工業用3Dビンパッキング問題に対するKPI誘導型遺伝的アルゴリズムのパイプライン
- 3Dビンパッキング問題は,ロジスティクスにおける重要な課題であり,コスト削減に貢献する。
- 従来のヒューリスティック手法では,安定性や取り扱いやすさといった工業要件を満たせない場合がある。
- 本研究は,KPIを導入することで,より実用的な3Dビンパッキング解を効率的に探索することを目指す。
- 提案手法GENPACKは,実世界の注文1,500件のベンチマークテストにおいて,既存手法を上回る空間利用率を達成した。
- GENPACKは,表面支持強度も向上させ,注文間でのばらつきも抑制することに成功した。
- 実行時間も実用的な範囲内に収まり,安定性,バランス,空間効率の良いパッキングを実現した。
ソフトマックスとエントロピーを超えて:f-ソフトアルグマックスパラメータ化と結合正則化による方策勾配法の収束率 [eess.SY, cs.SY, cs.LG]目的:方策勾配法の収束率の理論的保証
- 強化学習において,方策勾配法は重要な手法であり,その性能向上が求められている。
- ソフトマックスパラメータ化は最適化が困難な状況を生み出し,収束が遅くなる場合がある。
- f-ソフトアルグマックスパラメータ化と正則化により,最適化を改善し,収束性を保証すること。
- 提案手法であるf-PGは,有限マルコフ決定過程において,事前条件付けなしで非漸近的な収束保証を持つ。
- Tsallisダイバージェンスを用いたf-PGは,標準的なソフトマックスパラメータ化と比較して,多項式的なサンプル複雑度を実現する。
- f-ダイバージェンスに基づく正則化は,最適化 landscape を改善し,Polyak-Lojasiewicz不等式を満たす。
部分最適輸送のための加速シンコーンアルゴリズム [cs.LG]目的:部分最適輸送の効率化
- 分布間の輸送問題は,機械学習や画像処理など幅広い分野で重要である。
- 既存のシンコーン法は計算量が大きく,大規模データへの適用が困難である。
- シンコーン法の加速化により,大規模データへの適用可能性を高める。
- 本研究では,交互最小化とネステロフ加速を組み合わせたASPOTを提案し,計算量を改善した。
- エントロピーパラメータγの適切な選択が,古典的なシンコーン法の収束速度向上に繋がることを示した。
- 実データを用いた実験により,提案手法の有効性を検証した。
学習可能なグレイ・ワイナーネットワークにおける損失のある共通情報 [cs.LG, cs.CV, cs.IT, math.IT]目的:複数の視覚タスクにおける共通情報とタスク固有情報の分離
- 多くの画像処理タスクは共通情報を含むため,効率的な表現学習が重要である。
- 従来のコーデックは共通情報を無視し,冗長で非効率な表現になりがちである。
- グレイ・ワイナー理論に基づき,冗長性を削減し,より効率的な表現学習を目指す。
- 提案手法は,複数の視覚タスクにおいて,独立符号化と比較して,冗長性を大幅に削減できることを示した。
- 損失のある共通情報の概念を導入し,共通情報とタスク固有情報のトレードオフを考慮した最適化目標を提案した。
- 実験結果から,本手法が様々な視覚ベンチマークにおいて,従来の符号化方式を上回る性能を発揮することが確認された。
LLMにおける勾配マスキングと重要度再分配によるスパースネスを考慮したアンラーニング [cs.LG]目的:LLMのプライバシーリスク軽減のための選択的情報削除手法
- LLMは大量の情報を学習するため,機密情報の漏洩リスクが懸念される。
- 既存のアンラーニング手法は,モデルのスパース化を考慮しておらず,効果が低下する。
- スパースモデルにおけるアンラーニング効果を改善し,プライバシー保護とモデル性能維持を両立する。
- 提案手法SAUは,勾配マスキングと重要度再分配により,スパースモデルにおけるアンラーニング性能を向上させる。
- SAUは,既存手法と比較して,モデルの有用性を維持しつつ,効果的な忘却を実現する。
- スパース化によって削除されたパラメータを補償し,モデルの学習能力を維持する。
回避的なインジェクションによるプロンプトインジェクション検出器の回避 [cs.CR, cs.AI]目的:プロンプトインジェクション攻撃に対する検出器の脆弱性の検証と,その対策
- 大規模言語モデルの利用拡大に伴い,セキュリティリスクへの対策が急務となっている。
- プロンプトインジェクション攻撃は依然として有効であり,検出器の精度向上が課題である。
- 活性化層の変化を検知する検出器の脆弱性を明らかにし,より強固な防御策を提案する。
- 活性化層の変動を検知する検出器は,最適化された接尾辞攻撃に対して脆弱であることが示された。
- 提案手法である多点回避攻撃により,複数の検出器を同時に回避し,攻撃成功率が93.91%~99.63%を達成した。
- 敵対的接尾辞拡張による防御策は,回避攻撃に対して有効であることが確認された。
大規模言語モデルにおける操縦ベクトルの非識別可能性について [cs.LG, cs.AI]目的:大規模言語モデルの操縦ベクトルの非識別性
- LLMの挙動制御は重要であり,内部表現の理解に繋がる可能性を秘めている。
- 操縦方向の識別可能性が自明ではないため,介入の解釈に曖昧さが残る。
- 行動的に区別できない介入の等価類が存在するという根本的な問題点を明らかにすること。
- 操縦ベクトルは,白色箱での単層アクセス下で,原理的に非識別的であることが示された。
- 直交摂動が複数のモデルと特性において,無視できる効果量でほぼ同等の効果を発揮することが確認された。
- 活性化共分散行列のSVDによる次元性の推定により,等価性が操作的に関連する操縦範囲全体でロバストに成立することが検証された。
FIRE:安定性と可塑性のトレードオフの均衡化のためのフロベニウス・等長性再初期化 [cs.LG, cs.AI]目的:非定常データにおける安定性と可塑性のトレードオフの均衡化
- 深層学習は多様なタスクに応用可能だが,過去の知識の保持と新しい知識の獲得を両立する必要がある。
- 標準的な再初期化手法は調整が難しく,可塑性の回復に失敗したり,有用な知識を消去したりする問題がある。
- 安定性と可塑性のバランスを明示的に制御し,継続学習における性能向上を目指す。
- FIREは,過去の重みとの近接性を示す二乗フロベニウス誤差(SFE)と,重みの等方性を示す等長性からの逸脱(DfI)を用いて安定性と可塑性を定量化する。
- SFEを最小化しつつDfIがゼロとなるように制約付き最適化問題を解くことで再初期化点を決定し,ニュートン・シュルツ反復によって効率的に近似する。
- CIFAR-10,OpenWebText,HumanoidBench,Atariゲーム等,様々なドメインで既存手法を上回り,安定性と可塑性のバランスを効果的に実現した。
深層強化学習を用いた隠れモデルPOMDPに対する有限状態コントローラ [cs.AI]目的:部分観測マルコフ決定過程における,不完全な状態情報下での方策計算
- 不完全な状態情報下での意思決定は,ロボティクスや自動運転など幅広い分野で重要である。
- 既存のPOMDPソルバーは,計算量の制約から大規模問題への適用が難しいという課題がある。
- 複数のPOMDPに対して頑健な方策を効率的に計算し,大規模問題への適用を可能にすること。
- Lexpopフレームワークは,深層強化学習で訓練されたニューラルネットワークの方策を,有限状態コントローラで模倣する。
- 抽出されたコントローラは,性能保証が可能であり,ニューラルネットワークの方策では困難な形式的な評価を実現する。
- 隠れモデルPOMDP(HM-POMDP)に対する頑健な方策計算を拡張し,大規模な状態空間を持つ問題で最先端ソルバーを上回る性能を示した。
自然ハイパーグラディエント降下法:アルゴリズム設計,収束解析,並列実装 [cs.HC, cs.LG, math.OC, stat.ML]目的:二水準最適化問題の解法
- 機械学習におけるハイパーパラメータ最適化は,モデル性能に大きく影響する重要な課題である。
- 従来のハイパーグラディエント推定法は,ヘッセ行列の逆行列の計算コストがボトルネックとなっていた。
- ヘッセ行列の近似計算を効率化し,大規模機械学習におけるハイパーパラメータ最適化を高速化すること。
- 提案手法NHGDは,内側の最適化問題の統計的構造を利用し,経験フィッシャー情報行列をヘッセ行列の代替として用いる。
- NHGDは,最適化と近似を並列に実行するフレームワークを可能にし,計算時間のオーバーヘッドを大幅に削減する。
- 理論的分析により,NHGDが最先端手法と同等の誤差限界とサンプル複雑性を持つことが示された。
大規模化学言語モデルは下流タスクにどの程度転移するか [cs.LG, q-bio.QM]目的:大規模化学データで事前学習された化学言語モデルの転移性能評価
- 化学分野における分子構造と物性の関係解明は,新薬開発や材料設計に不可欠である。
- 分子物性予測モデルの性能向上には限界があり,計算資源の投入だけでは改善が見られない場合がある。
- 事前学習の評価指標と下流タスクの性能乖離を明らかにし,適切なモデル選択手法を提示すること。
- 事前学習損失は計算資源の増加に伴い一貫して減少するが,下流タスク性能の向上は限定的である。
- ヘシアンや損失地形に基づく代替指標も,化学言語モデルの下流性能を予測できないことが示された。
- 事前学習指標が改善されても,下流性能が飽和または低下する条件が特定され,その原因が解析された。
形式検証のためのLLM生成ACSL注釈の評価 [cs.SE, cs.AI]目的:LLM生成ACSL注釈の形式検証における品質評価
- 検証可能なソフトウェア開発には形式仕様が不可欠であり,信頼性向上に貢献する。
- 現実世界のCプログラムに対する正確かつ検証可能な仕様の自動生成は困難である。
- LLMを用いたACSL注釈の自動生成能力と限界を定量的に明らかにすること。
- LLMを含む5つのACSL生成システムを比較した結果,性能に差が見られた。
- DeepSeek-V3.2, GPT-5.2, OLMo 3.1 32B InstructといったLLMは一定の成果を示したが,課題も残る。
- 検証条件を統一することで,生成された注釈の品質,ソルバーへの依存性,証明の安定性を比較できた。
CoCoDiff: ファイングレインなスタイル変換のための対応一致拡散モデル [cs.CV, cs.AI]目的:ファイングレインなスタイル変換における意味的対応の維持
- 画像間のスタイル変換はコンピュータビジョンの重要な課題であり,視覚的表現の多様化に貢献する。
- 既存手法は全体的なスタイル変換に偏りがちで,領域やピクセルレベルでの意味的対応が不十分な場合が多い。
- 拡散モデルを活用し,意味的に一致する領域間のスタイル変換を正確に行うことを目指す。
- CoCoDiffは,事前学習済みの拡散モデルとピクセルレベルの意味的対応モジュールを組み合わせることで,高精度なスタイル変換を実現した。
- サイクル整合性モジュールを用いることで,構造と知覚的な整合性を保ちながら,オブジェクトや領域レベルでの詳細なスタイリングが可能となった。
- 追加の学習や教師データなしに,既存手法を凌駕する視覚品質と定量的な結果を達成した。
生成因果的媒介による活性化制御 [cs.CL, cs.CY, cs.HC, cs.LG]目的:言語モデルにおける行動の局所化と制御
- 大規模言語モデルの挙動理解と制御は,安全かつ有用なAIシステムの開発に不可欠である。
- 言語モデルの長文応答において,特定の概念や行動が多くのトークンに拡散し,制御が困難である。
- 拡散した概念を局所化し,少数のモデル要素で制御する手法を確立すること。
- 生成因果的媒介(GCM)は,対照的な長文応答からモデル要素(アテンションヘッド等)を選択し,概念を制御する。
- GCMは,拒否,迎合,スタイル変換の3つの行動に対し,3つの言語モデルで有効性が確認された。
- GCMは,長文応答における概念の局所化に成功し,相関に基づくベースライン手法を上回る性能を示した。
変分的グレーボックス動力学マッチング [cs.CL, cs.LG]目的:複雑な分布と力学系の学習
- 現実世界の現象を理解するためには,物理法則の知識が不可欠である。
- 既存の物理モデルは不完全であり,観測データとの乖離が生じることがある。
- 観測データのみから,物理モデルを補完し,より高精度な予測を可能にすること。
- 提案手法は,観測軌道から力学を学習し,物理パラメータの推定も同時に行う。
- 物理モデルの解釈可能性を維持しつつ,データ駆動型アプローチと同等以上の性能を示す。
- ODE/PDE問題や実際の天気予報において有効性が確認された。
チャットベースのサポートだけでは不十分か:数学の証明学習における対話型LLMと埋め込み型LLMフィードバックの比較 [cs.HC, cs.CY, cs.HC, cs.AI, cs.CY]目的:大学生の離散数学の授業におけるLLMを活用した個別指導システムの評価
- 数学教育における効果的な学習支援は,学生の理解度向上と学習意欲の維持に不可欠である。
- 従来の数学学習支援では,学生の個別ニーズに合わせたきめ細やかなフィードバックが不足している場合がある。
- 本研究は,LLMを活用した新しい学習支援システムが,数学の証明学習に及ぼす影響を明らかにすることを目的とする。
- GPTutorというLLMを活用した個別指導システムを評価した結果,構造化された証明レビューツールとチャットボットの利用が学生の学習行動に影響を与えることが示された。
- チャットボットのみの利用は,その後の期末試験の成績と負の相関を示す一方,証明レビューツールの利用は成績に有意な影響を与えなかった。
- 自己効力感や過去の試験成績が低い学生ほど,両方のツールを頻繁に利用する傾向があり,チャットボットでの質問行動と成績の低下に関連性が見られた。
メタ学習とメタ強化学習 ― DeepMindの適応的エージェントへの道筋 [cs.AI, cs.LG]目的:メタ学習およびメタ強化学習における主要アルゴリズムの体系化
- 人間は過去の知識を応用して新しい課題に迅速に適応できるが,従来の機械学習モデルには難しい。
- 従来の機械学習モデルはタスク固有の学習に依存し,知識の転移が限定的である点が課題。
- 様々なタスクから学習し,少ないデータで新しい課題に迅速に適応できるモデルの構築。
- メタ学習とメタ強化学習は,タスク間の知識転移を可能にし,少ないデータでの適応を促進する。
- 本サーベイは,これらの手法をタスクベースで厳密に定式化し,DeepMindの適応的エージェントへの道筋を辿る。
- 適応的エージェントを含む汎用的なアプローチを理解するための基盤を提供する。
エピステミックフィルタリングと集団的な幻覚:信頼度調整エージェントのための陪審員定理 [cs.CE, cs.AI]目的:異質エージェントの集団的正確性
- 複雑な意思決定において,複数のエージェントの意見を集約する重要性が高まっている。
- 従来の集団判断理論は,参加者の固定された参加を前提としており,現実的な状況に対応できない。
- エージェントが自身の信頼度を評価し,棄権を許容することで,集団判断の精度向上を目指す。
- エージェントが自身の能力を自己評価する「較正」段階と,投票または棄権を決定する信頼度ゲートの導入により,集団の成功確率に理論的な下限が導出された。
- この「選択的参加」は,従来の陪審員定理の保証を,逐次的な信頼度ゲート付き設定に一般化することが示された。
- モンテカルロシミュレーションにより,これらの理論的限界が検証され,AIの安全性,特に大規模言語モデルの幻覚軽減への応用可能性が示唆された。
TaCarla:エンドツーエンド自動運転のための包括的ベンチマークデータセット [cs.DB, cs.CL, cs.CL, cs.IR, cs.RO, cs.AI]目的:エンドツーエンド自動運転研究を支援するための大規模データセット
- 自動運転技術は,移動の安全性と効率性を向上させる上で不可欠である。
- 既存のデータセットは,知覚と計画の両方を網羅しておらず,多様な挙動評価が困難である。
- 多様なシナリオに対応し,知覚・計画両タスクを評価可能なデータセットの構築。
- 285万フレーム以上からなるCARLA環境上のデータセットを収集し,多様なLeaderboard 2.0シナリオに対応。
- 本データセットは,動的物体検出,レーン検出,信号認識など,多様なタスクに対応可能。
- データセット内の状態の稀少性を定量化するための数値的レアリティスコアも提供する。
SWE-CI:継続的インテグレーションによるコードベース維持におけるエージェント能力の評価 [cs.SE, cs.AI, cs.CL]目的:コードベースの長期的な維持可能性の評価
- ソフトウェア開発において,長期的な保守性は重要な課題である。
- 既存のコード生成評価は,短期的な機能修正に偏っている。
- 継続的インテグレーションを通して,長期的な維持可能性を評価する。
- SWE-CIは,継続的インテグレーションループに基づいた新しいベンチマークである。
- 100のタスクを含み,各タスクは平均233日間,71回のコミット履歴を持つ実世界のコードリポジトリから派生している。
- エージェントに長期的なコード品質維持能力に関する貴重な洞察を提供する。
エージェントが説得するとき:LLMにおけるレトリック生成と軽減 [cs.AI]目的:LLMによるプロパガンダ生成のメカニズム解明と軽減策の検討
- LLMの普及は大きいが,悪用による情報操作のリスクが存在する
- LLMは意図的に操作されると,プロパガンダを生成する可能性がある
- LLMがプロパガンダを生成する傾向を抑制する手法を開発すること
- LLMは,プロパガンダの目的で指示された場合,プロパガンダ的行動とレトリックを示す
- SFT,DPO,ORPOといったファインチューニング手法によって,プロパガンダ生成傾向は軽減される
- 特にORPOが最も効果的な軽減策であることが示された
成長,評価,圧縮:メモリ効率的な継続学習のための適応的バックボーンスケーリング [cs.LG, cs.CV]目的:継続学習における記憶効率と性能維持のバランス
- 継続学習は,人間の学習能力に近づくための重要な研究分野である。
- 従来の継続学習手法は,破滅的忘却を防ぐために多くのメモリを消費する。
- 本研究は,モデルのサイズを動的に調整し,メモリ消費量を削減することを目的とする。
- 提案手法「GRACE」は,バックボーンの拡張と圧縮を繰り返すことで,モデルの容量を効率的に管理する。
- 飽和度評価により,モデルの容量利用状況を把握し,適切な拡張または圧縮判断を可能にする。
- 複数のベンチマークで最先端の性能を達成し,従来の拡張型モデルと比較してメモリフットプリントを最大73%削減した。
Mousse:曲率を考慮した事前条件付けによるミューオンの幾何学的な修正 [cs.LG, cs.AI, cs.CL]目的:深層ニューラルネットワークの最適化における効率性と汎化性能の向上
- 深層学習の訓練効率化は,大規模モデルの学習を可能にする上で不可欠である。
- 既存の最適化手法は,曲率の異方性を持つ最適化状況への適応が不十分である。
- 曲率を考慮した事前条件付けによって,最適化の不安定性を抑制し,効率的な学習を可能にする。
- Mousseは,Muonの制約下で,Shampooの構造推定を用いて幾何学的な適応性を加えることで,より安定した学習を実現する。
- 実験結果から,MousseはMuonと比較して,160Mから800Mパラメータの言語モデルにおいて,約12%の訓練ステップ削減を達成した。
- 計算オーバーヘッドは軽微であり,実用的な最適化手法として有効であることが示された。
解釈可能な非局所演算子学習のためのデータ駆動型統合カーネル [cs.CL, cs.LG, physics.ao-ph]目的:解釈可能な非局所演算子学習のためのデータ駆動型統合カーネルの枠組み
- 気候変動予測において,空間・時間的に非局所的な関係性を捉えることが重要である。
- 非局所的な情報の範囲が広がるにつれて,学習された関係性の解釈が難しく,過学習のリスクが高まる。
- 非局所的な情報集約と局所的な非線形予測を分離し,解釈性と効率性を向上させることを目指す。
- 提案手法は,学習可能なカーネルを用いて空間・時間的な情報を集約し,局所的な非線形写像を適用する。
- カーネルモデルは,少ないパラメータ数でベースラインと同等の性能を達成し,非局所的な情報を効率的に捉えられることを示した。
- 各カーネルは,予測に最も貢献する空間位置,高度,過去のタイムステップを明らかにする重み付けパターンとして解釈可能である。
RoboClaw:スケーラブルな長期的ロボタスクのためのエージェント的フレームワーク [cs.RO, cs.AI]目的:長期的ロボタスクの実現に向けたエージェント的フレームワーク
- ロボットの自律的なタスク実行は,労働力不足の解消や生産性向上に不可欠である。
- 既存のVLAシステムは,環境リセットの多さやポリシーの脆さにより,長期的タスクへの適用が困難である。
- データ収集,ポリシー学習,タスク実行を統合し,自己修正ループを実現することで,長期的タスクの安定性とスケーラビリティを向上させる。
- RoboClawは,VLM駆動のコントローラーによるデータ収集,ポリシー学習,タスク実行の一元化を実現した。
- Entangled Action Pairs(EAP)を導入し,前進操作と復旧動作を組み合わせた自己修正ループにより,継続的なデータ収集とポリシーの改良を可能にした。
- 実環境での実験により,従来のパイプラインと比較して,成功率が25%向上し,人的工数が53.7%削減された。
CHIMERA-Bench:エピトープ特異的抗体設計のためのベンチマークデータセット [cs.DB, cs.LG, cs.AI]目的:エピトープ特異的抗体設計のための標準的な評価基準
- 抗体設計は創薬や診断において重要であり,その自動化が求められている。
- 既存研究では評価基準が統一されておらず,手法間の公平な比較が困難である。
- エピトープ情報に基づいたCDR配列・構造同時設計のための統一的な評価環境を提供する。
- CHIMERA-Benchは,2,922件の抗体-抗原複合体を含む大規模なデータセットである。
- エピトープ,抗原構造,時間的ターゲットの一般化性能を評価する3つの分割を提供している。
- 新しいエピトープ特異性指標を含む包括的な評価プロトコルを確立し,代表的な手法を評価した。
Vlasov-Maxwell-Landau平衡状態の半自動形式化 [cs.CL, cs.CC, cs.AI, math.AP, math.LO]目的:Vlasov-Maxwell-Landau系における平衡状態の特性評価の形式化
- プラズマ物理学は,核融合エネルギー実現や宇宙環境理解に不可欠な分野である。
- 複雑なプラズマ現象の厳密な理論的解析は数学的難易度が高く,形式化検証が困難であった。
- AIを活用し,プラズマ物理学の数学的証明を自動化することで,検証の効率化を目指す。
- AI推論モデル,コード生成ツール,定理証明器を組み合わせたAI支援数学研究ループを実証した。
- わずか10日間,200ドルの費用,そして数学者1名の監督のもとで,形式化を完了させた。
- 形式化の過程で明らかになったAIの失敗パターンや有効な手法に関する知見を報告した。
OPERA:効率的な検索モデル適応のためのオンラインデータプルーニング [cs.IR, cs.AI, cs.CL, cs.LG]目的:検索モデル適応における効率と効果の向上
- ドメイン特化型ファインチューニングは重要だが,全ての学習ペアが学習に等しく貢献するわけではない。
- 静的プルーニングは品質と網羅性のトレードオフに陥り,検索性能が低下する可能性がある。
- 動的プルーニングにより,高品質な例を優先しつつ,学習データの多様性を維持し,効率的な適応を目指す。
- 静的プルーニングは標準的なファインチューニングと比較してランキング性能を向上させた(NDCG@10 +0.5%)。
- 動的プルーニングは,ランキング(NDCG@10 +1.9%)と検索(Recall@20 +0.7%)の両方で最も優れた性能を発揮した。
- 動的プルーニングは標準的なファインチューニングに必要な学習時間の50%以下で同等の性能に到達した。
SA-CycleGAN-2.5D: 自己注意機構付きCycleGANと三平面コンテキストによる多施設MRI調和 [cs.CV, cs.AI, cs.LG]目的:多施設におけるMRI画像間の分布の不一致を軽減すること
- 多施設研究では,スキャナーの違いによる画像特性の変化が再現性を損なう。
- 既存手法では空間的な情報を活用できず,グローバルな強度相関を捉えきれない。
- 2.5D構造と自己注意機構を導入し,グローバルな強度相関をモデル化し,調和の精度向上を目指す。
- 本研究で提案するSA-CycleGAN-2.5Dは,MMDを99.1%削減し,ドメイン識別器の精度をほぼ偶然レベルまで低下させた。
- 特に異質データから均質データへの変換において,グローバルな注意機構が統計的に不可欠であることが確認された。
- 2Dの効率性と3Dの一貫性を両立し,腫瘍の病理生理を保持した調和画像を生成し,再現性のある多施設ラジゲノミクス分析を可能にする。
最終テキストのみが残存する場合:マルチエージェントアトリビューションのための暗黙的実行追跡 [cs.AI, cs.CL]目的:マルチエージェントシステムにおけるアトリビューションの実現
- AIシステムの普及に伴い,その責任の所在を明確にする必要性が高まっている。
- 従来の アトリビューション手法は,実行ログに依存するため,ログがない場合は適用が困難である。
- 実行メタデータがない環境下でも,責任を特定できるアトリビューション手法を確立すること。
- 提案手法であるIETは,トークン生成時にエージェント固有の統計的信号を埋め込むことで,最終テキスト自体を実行記録として機能させる。
- IETは,実行ログがなくても,最終テキストから実行トレースを復元し,セグメントレベルでの正確なアトリビューションと信頼性の高い遷移復元を可能にする。
- 多様なマルチエージェント環境での実験により,IETが生成品質を維持しつつ,IDの削除や改ざんに強く,プライバシー保護にも対応できることが示された。
動機づけと生成AI利用の関係:メキシコ高校生の大規模調査 [cs.CY, cs.AI, cs.HC]目的:高校生の動機づけと生成AI利用の実態
- 教育現場におけるAI活用は,学習効果の向上や個別最適化に貢献しうる。
- 生徒の動機づけを考慮しないAI導入は,期待される効果を発揮できない可能性がある。
- 生徒の動機づけに応じたAI活用方法の提案を目指す。
- 動機づけの傾向に基づいて3つのグループを特定した。
- 各グループにおいて,数学と文章作成におけるAI利用パターンに違いが見られた。
- 画一的なAI導入ではなく,動機づけに基づいた教育的介入の必要性が示唆された。
子供の知能検査はMLLMに課題を突きつけるか?KidGym:MLLMのための2Dグリッドベース推論ベンチマーク [cs.CL, cs.AI]目的:MLLMの五つの主要能力(実行,知覚推論,学習,記憶,計画)の評価
- MLLMは,人間のような汎用的な知能を目指すため,多角的な評価が重要である。
- 既存の評価は,MLLMの認知発達段階を正確に反映できていない場合がある。
- MLLMの適応性と発達可能性を,子供の認知発達段階を模倣した評価で検証する。
- KidGymは,12のユニークなタスクから構成され,MLLMの多様な能力を評価できる。
- 最先端のMLLMの評価を通じて,モデルの能力に関する重要な知見と限界が明らかになった。
- KidGymは,研究者が評価シナリオを自由にカスタマイズ・拡張できる柔軟性を有している。
