arXiv雑要約
AI - 2026/04/21 公開
少ないデータと計算資源でのRLVRの効果測定 [cs.AI, cs.LG]目的:低データ・低計算資源環境におけるRLVRの有効性
- 大規模言語モデルの性能向上にはデータと計算資源が不可欠。しかし,現実には資源が限られる場合が多い。
- 高品質なアノテーション付きデータの不足や計算資源の制約が,LLMの活用を妨げる大きな課題となっている。
- 限られた資源下でも効率的にLLMをファインチューニングするためのデータ活用方法を明らかにすること。
- 手続き型データセットを用いることで,サイズ,多様性,複雑さを制御した評価とデータセット開発が可能になる。
- RLVR下において,低複雑度タスクで訓練されたモデルは,高複雑度タスクへの汎化能力を示す。
- 混合複雑度データセットでの訓練は,低データ環境においてサンプル効率を最大5倍向上させる。
ランダム初期化されたネットワークはピアツーピア合意から学習できる [cs.CL, cs.LG, cs.AI]目的:自己教師あり学習における表現学習のメカニズム
- 表現学習は,データから有用な特徴を自動的に抽出する上で重要である。
- 現在の自己蒸留法は複雑で,設計選択が不明確である。
- 最小限の構成で自己蒸留の効果を検証し,学習のメカニズムを解明する。
- ランダムに初期化されたネットワークのグループでも,ダウンストリームタスクにおいてランダムなベースラインよりも有意に改善された表現学習が可能であることが示された。
- この効果はハイパーパラメータによって異なり,モデルが学習している内容に関する分析も提示された。
- 複雑な機構を必要とせず,自己蒸留単体でも有効な表現学習が実現できることが明らかになった。
創造性評価のための進化木 기반 심리 측정 상황生成器 AlphaContext [cs.CL, cs.CL, cs.AI]目的:創造性評価のための心理測定状況の生成
- LLMと人間との協働が進む現代において,創造性は革新を支える重要な能力である。
- 質の高い創造性評価を行うためには,妥当性の高い評価ツールが不可欠だが,専門家が作成した状況は不足している。
- 既存のLLM 기반生成器の問題点を克服し,創造性評価に適した状況を効率的に生成することを目指す。
- AlphaContextは,専門家の設計を形式化するHyperTree Outline Plannerと,MCTS 기반のContext Generator, 進化アルゴリズムに基づくContext Optimizer, そして評価誘導進化Refinerを組み合わせる。
- 実験の結果,AlphaContextは6つの品質指標において既存手法と比較して平均8%の改善が見られた。
- 多様性と品質の両立により,創造性評価に適した状況生成が可能であることが示された。
災害に強い維持管理のためのR-GCN-VGAEを用いた橋梁を中心としたメタパス分類 [cs.LG]目的:災害時の橋梁の役割をメタパスに基づいて分類し,維持管理の優先順位付けを支援する手法
- 都市のレジリエンスにとって,災害に備えたインフラ管理は不可欠である。
- 既存の手法では,災害時の橋梁の多面的な役割を定量的に評価することが困難である。
- 橋梁の役割を明確化し,限られた予算での効率的な維持管理を支援すること。
- オープンデータを用いて都市の異種グラフを構築する手法を確立した。
- メタパスに基づく分類により,橋梁の災害時の役割を「サプライチェーン」「医療アクセス」「居住地保護」の3つに再定義した。
- 茨城県内の3都市(水戸市,筑西市,守谷市)で検証を行い,都市規模の違いによるk-NNチューニング戦略の有効性を示した。
Six Llamas:LoRA適応言語モデルによる比較宗教学倫理 [cs.AI]目的:宗教コーパスで微調整された大規模言語モデルにおける倫理的推論のパターン差異
- 倫理学研究は,人間社会の根幹をなす価値観の形成過程を理解する上で重要である。
- 宗教倫理は多様であり,その比較分析は困難を伴う。
- 言語モデルを用いて宗教倫理の差異を定量的に分析し,比較研究を促進する。
- LoRA適応モデルは,ベースモデルとは異なる倫理的推論パターンを示すことが確認された。
- 各モデルの推論パターンは,それぞれの宗教的伝統の倫理的論理と整合性があった。
- トロッコ問題のような合意の高い倫理的ジレンマでは,全モデルで一貫した回答が得られた。
小係数項を含む多重尺度非線形偏微分方程式に対するバランスガイド付き疎識別 [cs.LG, cs.NA, math.NA]目的:小係数項を含む多重尺度非線形偏微分方程式の支配方程式の発見
- データ駆動型モデリングは重要性が増している。複雑な現象の理解を深め,予測精度向上に貢献するからである。
- 既存手法では,小係数項を持つ多重尺度系において,重要な項を特定することが困難である。
- 支配バランスの原理に基づき,小係数項を持つ系においても支配的な項を正確に識別する手法を開発する。
- 提案手法BG-SINDyは,項レベルの正則化と漸進的な刈り込み戦略を用いて,小係数項を含む支配方程式を効率的に発見する。
- 項の寄与度を絶対値ではなく,支配方程式全体のバランスに対する相対的な貢献度で評価することで,小さな係数項を保持する。
- KdV方程式,修正Burgers方程式などへの適用により,BG-SINDyの有効性が検証された。
いつやめるかを知ること:LLM推論における動的棄権のための原理的な枠組み [cs.LG, cs.CL, stat.ML]目的:LLM推論における動的棄権戦略
- LLMの性能向上は,計算資源の効率的な利用に不可欠である。
- LLMは,誤った推論を長く続ける傾向があり,計算資源を浪費する。
- 推論途中の早期段階で誤りを見抜き,計算を中断することを目指す。
- 動的棄権を,正則化された強化学習フレームワーク内の明示的な行動としてモデル化することに成功した。
- 棄権報酬パラメータによって,計算量と情報のトレードオフを制御できることを示した。
- 数学的推論と有害性回避タスクにおいて,既存手法よりも選択的な精度が向上することを確認した。
リモートセンシングにおける変化VQA:構造化およびネイティブマルチモーダルQwenモデルによる再検討 [cs.CV, cs.AI]目的:変化VQAにおける性能向上
- リモートセンシング画像における変化検出は,土地利用変化の把握や災害評価等に不可欠である。
- 変化VQAは,専門的な知識を要するため,汎用的なモデルの適用が困難であった。
- 最新のマルチモーダルモデルを用いて,変化VQAの性能向上を目指す。
- 近年のVLMsは,既存の専用ベースラインを上回る性能を示すことが確認された。
- モデルサイズと性能の相関は一様ではなく,ネイティブマルチモーダルモデルの方が構造化されたVLMよりも効果的である。
- 言語駆動型セマンティック変化推論において,緊密に統合されたマルチモーダルバックボーンが重要であることが示唆された。
大規模物理制約ニューラル常微分方程式とデータ駆動型アルゴリズムを用いた空調システム [cs.LG, cs.SY, eess.SY, nlin.AO]目的:大規模空調システムのデータ駆動型シミュレーションフレームワーク
- 空調システムの最適制御は,エネルギー消費削減と快適性向上に不可欠である。
- 従来の高精度シミュレーションは計算コストが高く,リアルタイムな最適化が困難である。
- 物理制約を組み込んだニューラルネットワークで,高速かつ高精度なシミュレーションを実現する。
- 提案手法は,既存の高精度シミュレーションと比較して,数倍の高速化を達成した。
- 予測誤差は数パーセント程度と低く抑えられ,最大32組のコンプレッサー・コンデンサーペアを持つシステムに拡張可能である。
- 残差システムレベルのバイアスを軽減するため,軽量な補正ネットワークを導入した。
ProtoCLIP:プロトタイプに沿った潜在的洗練によるロバストなゼロショット胸部X線画像分類 [cs.LG, cs.AI, cs.CV]目的:ゼロショット胸部X線画像分類における識別能力の向上
- 医療画像診断の精度向上は,迅速かつ正確な診断を可能にし,患者の予後改善に不可欠である。
- 既存のゼロショットモデルは,ラベルの共起,クラスの不均衡,ドメインシフトによる性能低下が課題である。
- データキュレーションと知識蒸留による潜在的な洗練を通じて,これらの課題を克服し,診断精度を向上させる。
- ProtoCLIPは,VinDr-CXRデータセットにおいて,複数の所見に対して,既存のCLIPベースラインよりもAUCを2~10ポイント向上させた。
- 特に,気胸の検出において,ProtoCLIPは最先端のAUC0.94を達成した。
- アンカーに誘導された洗練とキュレーションされた教師信号により,大規模な再学習なしにゼロショット転移における一般的な失敗を軽減できる。
AutoPPA:コントラスト学習を用いたコードベースのルールライブラリ学習による自動回路PPA最適化 [cs.LG, cs.AR]目的:回路のPPA(性能,電力,面積)最適化
- RTL設計において,PPA最適化は不可欠であり,高性能なハードウェア開発の基盤となる。
- 既存手法は,事前知識の不足や人手による最適化ルールの作成に依存しており,効率が低い。
- 多様なコードペアから最適化ルールを自動生成し,汎用性の高い最適化を実現する。
- AutoPPAは,探索・評価・誘導($E^2I$)ワークフローを用いて,従来の知識ベースの手法を改善する。
- 実験の結果,AutoPPAは手動最適化や最先端手法(SymRTLO,RTLRewriter)を上回る性能を示す。
- AutoPPAは,適応的な多段階検索フレームワークにより,特定の回路に最適なルールを選択する。
証拠とタイミングが一致する透明性の高い意思決定によるプログレッシブなオンライン動画理解 [eess.SY, cs.SY, math.OC, cs.CV, cs.AI]目的:オンライン動画ストリームにおいて,十分な証拠が最初に現れた時点で正確に応答する能力の向上
- 動画理解は,ロボット工学や監視システムなど,様々な分野で重要な役割を担う技術である。
- 従来の動画LLMはオフライン設定で評価されるため,リアルタイムでの応答性や証拠との整合性が課題である。
- 本研究は,オンライン環境下での透明性と証拠に基づく正確な意思決定を可能にするフレームワークを提案する。
- 提案手法は,意思決定の過程を可視化する「Active Thinking Decision Maker (ATDM)」と,効率的なメモリシステムである「Hierarchical Progressive Semantic Integration (HPSI)」を組み合わせる。
- StreamingBenchベンチマークにおいて,既存の最先端手法と比較して精度を4\%向上させ,71.6\%の性能を達成した。
- OVOBenchベンチマークにおいても46.9\%の性能を示し,証拠に基づいた透明性の高いオンライン動画分析ソリューションの有効性を実証した。
因果推論の観点からのロバストなマルチモーダル学習のための不変モダリティ表現の学習 [cs.LG]目的:マルチモーダル学習におけるロバスト性の向上
- 感情認識等の分野において,言語,音声,視覚など複数モダリティの情報を活用する重要性が高まっている。
- 既存モデルは,分布の変化やノイズの影響を受けやすく,汎化性能が低いという課題がある。
- 因果推論に基づく不変表現学習により,ロバストかつ汎化性能の高いマルチモーダル学習を実現する。
- 提案手法(CmIR)は,各モダリティを「因果的に不変な表現」と「環境特有の spurious 表現」に分離する。
- CmIRは,不変性制約,相互情報制約,再構成制約を通じて,予測関係の安定性と十分な情報保持を両立する。
- 複数のベンチマークテストで最先端の性能を達成し,特に分布外データやノイズデータに対する頑健性が確認された。
大規模言語モデルを用いた具現化計画における系統的な安全性リスク [cs.AI, cs.LG, cs.RO]目的:ロボットシステムの計画における安全性評価
- ロボットの自律性が高まる中で,安全な動作計画は不可欠である。
- 大規模言語モデルの計画能力は向上する一方,安全性への配慮が十分ではない。
- 言語モデルプランナーの安全性向上策を特定し,実用化に向けた課題を明確にする。
- 大規模言語モデルは高い計画能力を持つが,必ずしも安全な計画を生成するとは限らないことが示された。
- モデルの規模拡大は計画能力を向上させるが,安全性への意識は相対的に低いままである。
- より高度な推論能力を持つモデルは高い安全性意識を示すものの,オープンソースモデルは課題が残る。
意味的ステップ予測:LLMの推論軌跡におけるステップサンプリングによる多段階潜在予測 [cs.LG]目的:LLMの推論における多段階潜在予測の精度向上
- LLMの推論能力は重要であり,その効率的な学習方法が求められている
- LLMの学習には大量のデータが必要であり,データ効率が課題となっている
- 推論ステップにおけるサンプリング位置の最適化により,幾何学的正則化を改善する
- 意味的ステップ予測(STP)を連続的な推論ステップ境界に適用することで,ProcessBenchにおいて潜在予測の精度が大幅に向上した。
- 学習された非線形予測器による潜在多様体への探査により,STPによって形状付けられた軌跡は滑らかな曲線であることが示された。
- 言語モデリング損失の除去は,幾何学的純度を高める一方で,生成品質とのトレードオフがあることが明らかになった。
ペプチド-タンパク質相互作用予測とターゲット条件付きペプチド生成のための統合された深層学習フレームワーク [cs.LG, cs.AI]目的:ペプチド-タンパク質相互作用の予測とターゲット条件付きペプチド生成
- 細胞調節やペプチド治療において,ペプチドとタンパク質の相互作用は中心的役割を果たす。
- 既存の手法は予測か生成に偏っており,候補の優先順位付けや残基レベルでの解釈が不十分である。
- 相互作用予測とペプチド生成を統合し,効率的なペプチドスクリーニングを実現すること。
- ConGA-PepPIは,非対称エンコーディング,双方向クロスアテンション,漸進的転移により,0.839の精度と0.921のAUROCを達成した。
- ConGA-PepPIは,タンパク質側で0.601,ペプチド側で0.950の結合部位AUPRを示し,外部ベンチマークでも高い競争力を持った。
- TC-PepGenによって生成されたペプチドの40.39%が,AlphaFold 3 ipTMにおいてネイティブテンプレートを上回る性能を示した。
アセットハーベスター:自動運転ログからの3Dアセット抽出によるシミュレーション [cs.CV, cs.AI, cs.GR, cs.LG]目的:自動運転ログからの3Dアセット抽出パイプライン
- 自動運転開発において,シミュレーションはスケーラブルなテストと安全検証に不可欠である。
- 既存のニューラルシーン再構成は,エージェント操作に必要な完全な3Dオブジェクトアセットを提供しない。
- 自動運転ログから再利用可能な3Dアセットを大規模に生成する。
- アセットハーベスターは,自動運転ログからsparseなオブジェクト観察を完全な3Dアセットに変換する。
- 大規模なオブジェクト中心トレーニングデータと,geometry-awareな前処理,3D Gaussian liftingを組み合わせたシステムレベル設計。
- SparseViewDiTは,限定的な視点や現実世界のデータ課題に対応するように設計されている。
需要応答サービスにおけるベースライン推定のための一般化合成統制法 [cs.AI]目的:需要応答におけるベースライン推定
- 電力市場において,需要応答の適切な清算には正確なベースライン推定が不可欠である。
- 既存の機械学習手法では予測性能に限界があり,因果推論や反事実予測の手法活用が遅れている。
- 時間的な構造を考慮した動的な反事実予測により,ベースライン推定の精度向上を目指す。
- 提案手法は,既存の合成統制法を拡張し,外部変数や過去の負荷データを取り入れることで,予測精度を向上させた。
- 特にデータが限られた状況下において,その効果が顕著に現れた。
- Ausgridのスマートメーターデータを用いた実験で,提案手法が既存手法を上回る性能を示した。
NIサンプリング:トークン順序最適化による離散拡散サンプリングの高速化 [cs.LG]目的:離散拡散言語モデルにおけるトークンサンプリング順序の最適化
- 言語モデルの効率的な生成は,自然言語処理の発展に不可欠である。
- 従来のサンプリング戦略は非効率であり,改善の余地が大きい。
- トークン順序を最適化することで,サンプリング回数を大幅に削減することを目指す。
- 提案手法であるNIサンプリングは,ニューラル指標を用いて各ステップでサンプリングするトークンを決定する。
- LLaDAおよびDreamモデルの実験により,フルステップサンプリングと比較して最大14.3倍の高速化を達成した。
- 性能劣化はわずかであり,信頼度閾値サンプリングよりも精度とステップ数のトレードオフにおいて優れている。
別々に学習し,統合する:専門家混合によるポストトレーニング [cs.LG]目的:言語モデルへの新しいドメイン能力の拡張
- 言語モデルの性能向上は,多様なタスクへの適応能力に依存する。
- 既存のモデルを新たなドメインに適応させる際,性能劣化やコスト増大が課題となる。
- ドメインごとに独立して学習可能なモジュール構造により,効率的な能力拡張を目指す。
- BAR(Branch-Adapt-Route)は,独立したドメインエキスパートを学習し,軽量なルーティング機構で統合する。
- 7Bモデルにおいて,数学,コード,ツール利用,安全性に関する実験で,再学習ベースラインと同等またはそれ以上のスコア(49.1)を達成した。
- ドメインを分離することで,後期の強化学習による能力劣化を防ぎ,更新コストを削減する。
マルチスケール可逆的カオスゲーム表現:系列分類のための統一的フレームワーク [cs.LG]目的:生物学的系列の解釈可能性を伴う分類
- 生物情報学において,遺伝子やタンパク質の機能解明は重要課題である。
- 既存の系列エンコーディング法では,系列情報の損失やスケール依存性がある。
- 本研究は,系列情報の損失なく,多岐にわたる解析を可能とする表現法を提案する。
- 提案手法MS-RCGRは,従来の系列エンコーディング法と比較して,分類性能を向上させる。
- 特に,事前学習済みの言語モデルとMS-RCGR特徴量を組み合わせたハイブリッド手法は,単独での使用よりも高い性能を示す。
- MS-RCGRの可逆性とマルチスケール解析により,個々の塩基から複雑なモチーフ構造までのパターンを捉えることが可能である。
WorldDB:オントロジーを意識した書き込み時調停を備えたベクトルグラフ・オブ・ワールド型メモリエンジン [cs.AI, cs.CL]目的:長期にわたるエージェントシステムのためのメモリエンジンの開発
- チャットボットをエージェントシステムへと進化させるには,持続的なメモリが不可欠である。
- 従来のベクトルストアは,事実を断片化し,セッション間の同一性を失い,矛盾を管理できない。
- WorldDBは,ノードの再帰的な構成,不変性,エッジのプログラム可能な挙動により,これらの課題を解決する。
- WorldDBは,LongMemEval-sにおいて,96.40%の全体精度と97.11%のタスク平均精度を達成した。
- これは,従来の最高性能システムHydra DBよりも5.61pp,Supermemoryよりも11.20ppの改善にあたる。
- 特に,時間推論,知識更新,嗜好の統合において高い性能を示した。
物理情報ニューラルネットワーク:完全な訓練サイクルの詳細な導出 [math.NA, cs.LG, cs.NA]目的:物理情報ニューラルネットワークの完全な訓練サイクル
- 機械学習と物理モデリングの融合が重要視されている。
- 既存のチュートリアルでは自動微分ライブラリに依存し,代数的な詳細が欠けている。
- 基礎的な代数から訓練サイクルを理解し,深層ネットワークへの応用を可能とする。
- 物理に基づいた損失関数のみを用いて,真の解からのデータなしで高い精度(相対L^2誤差$4.290 \times 10^{-4}$)を達成した。
- 得られた再帰的な公式は,任意の深さのネットワークに対する勾配計算を可能にする。
- 手計算による勾配と機械計算による勾配の相互検証が可能なJupyter/PyTorchノートブックが提供される。
学習された安全性フィルタと適応的適合性推論を用いた安全制御 [eess.SY, cs.LG, cs.RO, cs.SY]目的:安全性フィルタを用いた安全制御の実現
- 近年,ロボットや自動運転など,安全性が重要な制御システムの開発が盛んである。
- 従来の安全性保証手法は,高次元なシステムに対して適用が困難であるという課題がある。
- 学習に基づく安全性フィルタの信頼性向上と,安全性保証のレベルを向上させることを目指す。
- 適応的適合性推論(ACoFi)は,安全性フィルタの予測誤差に基づいて動的に閾値を調整することで,安全性評価の不確実性を定量化する。
- ACoFiは,安全性評価の誤りの割合を,ユーザー定義のパラメータによって漸近的に上界で抑えることを保証する。
- シミュレーション実験の結果,ACoFiは固定閾値を用いる既存手法と比較して,安全性向上と安全違反の減少に優れていることが示された。
敵対的人文評価ベンチマーク:最先端モデルの安全性におけるスタイル頑健性に関する結果 [cs.CL, cs.AI]目的:最先端モデルの安全性におけるスタイル頑健性の評価
- AI技術の進歩に伴い,その安全性確保が重要課題となっている。
- 現在の安全性対策は,特定のプロンプト形式に依存し,スタイルが変化すると回避されることがある。
- スタイルを変えた有害なプロンプトに対するモデルの脆弱性を評価し,安全性向上に貢献する。
- 敵対的な人文評価ベンチマーク(AHB)を用いた実験で,変換された攻撃手法の攻撃成功率は36.8%~65.0%に達した。
- 元の攻撃の攻撃成功率は3.84%であったため,スタイルを変えることで攻撃成功率が大幅に上昇することが示された。
- この結果は,現在の安全性対策が一般化に弱く,真の「危害を加えない」という理解が未解決である可能性を示唆する。
言語学的動機に基づく機械翻訳の多次元品質指標LQM [cs.CL, cs.AI]目的:機械翻訳の品質評価における言語学的根拠に基づいたエラー分類体系
- 機械翻訳の品質評価は,翻訳技術の発展と利用拡大において不可欠である。
- 既存の評価指標は言語非依存であるため,方言や文化固有のエラーを捉えきれない。
- 方言や文化的多様性を考慮した,より精緻な機械翻訳品質評価を可能にすること。
- LQMは,社会言語学,語用論,意味論など6つの言語学的レベルに基づく階層的なエラー分類体系である。
- 7つのアラビア方言を用いた実験により,6つのLLMのゼロショット性能を評価し,専門家によるエラーアノテーションを行った。
- LQMはアラビア語で検証されたが,他の言語への応用・適応が容易な言語非依存のフレームワークとして設計されている。
設計による高速化:専門家検証済みのCFDで学習したニューラルサロゲートによるインタラクティブな空力解析 [cs.LG, cs.AI]目的:レースカー空力開発におけるCFD計算コストのボトルネックを解消するためのニューラルサロゲートモデルの構築と検証
- レースカーの空力開発は性能向上に不可欠だが,CFD計算に膨大なコストがかかるため,設計空間の探索が制限されている。
- 公開されているデータセットは,レースカー特有の複雑な形状を十分に網羅しておらず,サロゲートモデルの性能評価が難しいという課題がある。
- 専門家が検証した高精度なデータセットと,複雑な形状に対応可能な新しいニューラルネットワークを開発し,インタラクティブな設計空間探索を実現する。
- LMP2クラスのCADモデルに基づいた高精度なRANSデータセットを構築し,直進時とコーナリング時の6つの運転条件下で空力専門家による検証を行った。
- グラフベースのニューラルオペレータであるGISTを提案し,メッシュ接続性をエンコードすることで複雑な形状での予測精度を向上させ,離散化不変性を保証した。
- GISTは,公開ベンチマークおよび提案されたレースカーデータセットにおいて最先端の精度を達成し,初期段階の空力設計に適した予測精度を実証した。
障壁制約を用いた多目的最適化による直接点予測と鋭い区間予測 [cs.LG, cs.SY, eess.SY]目的:点予測と区間予測の同時生成
- 時系列予測は,エネルギー管理や経済予測など,幅広い分野で不可欠である。
- 予測区間の信頼性と精度を両立させることは依然として困難な課題である。
- 予測区間の網羅率を保証しつつ,区間幅を最小化することを目指す。
- 提案手法は,既存の損失関数と比較して,目標とする網羅率を達成しつつ,最も狭い予測区間幅を実現した。
- 新しい区間予測損失関数は,スケールに依存せず,普遍的に適用可能である。
- LSTMやTransformerといった様々な深層学習構造に容易に組み込むことができる。
学習に飽和すぎる:飽和した推論データにおける強化学習 [cs.LG]目的:大規模言語モデルの推論能力向上
- 言語モデルの推論能力は重要であり,様々な分野への応用が期待されている。
- 高性能モデルは既存のベンチマークで飽和し,多様性に欠ける解法になりやすい。
- 多様性を維持し,より厳密な推論能力を獲得することを目指す。
- 提案手法であるCUTSは,モデルの偏りに捉われず,高信頼度な候補から均一にサンプリングすることで探索を促進する。
- Mixed-CUTSは,探索的・搾取的ロールアウトを組み合わせ,グループ内での優位性分散を増幅させる。
- AIME25ベンチマークにおいて,標準的なGRPOと比較してPass@1精度が最大15.1%向上し,多様性の重要性が示された。
科学的情報検索におけるドキュメント画像表現の限界 [cs.IR, cs.AI, cs.CL]目的:科学論文の検索性能に対するドキュメント表現手法の比較
- 科学技術の進展は,論文の量と複雑さを増しており,効率的な情報検索が不可欠である。
- 既存の検索ベンチマークがドキュメントを画像として扱い,テキスト構造を無視している。
- LaTeXソースに基づく新たなベンチマークを構築し,構造化された情報へのアクセス可能性を検証する。
- ドキュメントを画像として表現する方法は,特に文書が長くなるにつれて,一貫してパフォーマンスが低いことが示された。
- 図表ベースのクエリであっても,テキストベースの表現が,キャプションや周囲の文脈を活用することで最も有効であることがわかった。
- テキストと画像を組み合わせた表現は,ドキュメントを画像として扱う手法よりも高い性能を示し,特別な学習は必要ないことが示された。
有害なコンプライアンスに至る多様な経路:LLMジェイルブレイクにおける行動的副作用とメカニズムの乖離 [cs.CL, cs.CR, cs.AI, cs.CL]目的:LLMのジェイルブレイクによる安全性低下のメカニズム解明
- LLMの安全性確保は,社会実装において不可欠である。悪意のある利用を防ぐため,脆弱性の理解が重要となる。
- LLMのジェイルブレイク手法は多様であり,その影響やメカニズムが十分に解明されていない。
- ジェイルブレイク手法ごとの特性を明らかにすることで,より効果的な安全性対策を講じることが可能となる。
- 有害なSFT,RLVR,アブレーションの3つの経路で高い有害性コンプライアンスが確認されたが,それ以外の行動特性は異なった。
- RLVRによるジェイルブレイクは,有害性認識能力を維持しつつ,安全性を反映する指示によって有害行動を抑制できた。
- SFTによるジェイルブレイクは,安全性判断の低下,行動の変化,能力低下が最も顕著であり,RLVRとは対照的であった。
UDM-GRPO:一様離散拡散モデルに対する安定かつ効率的なグループ相対方策最適化 [cs.CV, cs.LG]目的:一様離散拡散モデルと強化学習の統合
- 離散データの生成モデリングは,画像,テキスト,音声など多様な分野で重要性を増している。
- 従来の強化学習との組み合わせは不安定になりやすく,性能向上が限定的である。
- 拡散モデルにおける学習の安定性と効率性を高め,性能向上を目指す。
- 提案手法UDM-GRPOは,画像生成タスクにおいてGenEvalの精度を69%から96%に,PickScoreを20.46から23.81に向上させた。
- 連続データと離散データの両方の設定で最先端の性能を達成している。
- OCRベンチマークにおいても精度が8%から57%へと大幅に向上し,汎化能力が確認された。
LLM内部からの安全性:内部表現を用いた有害コンテンツの検出 [cs.AI]目的:有害コンテンツ検出のメカニズム
- LLMの普及に伴い,有害なコンテンツの検出は重要な課題となっている。
- 既存のガードモデルは最終層のみに依存し,内部層の有用な情報を活用できていない。
- LLM内部の安全性を活用し,より高性能な有害コンテンツ検出を実現する。
- SIRENは,LLMの内部表現を活用した軽量なガードモデルである。
- 従来のオープンソースのガードモデルと比較して,複数のベンチマークで大幅に性能が向上した。
- SIRENは,未知のベンチマークへの汎化性能,リアルタイムストリーミング検出,推論効率も改善された。
IDOBE:感染症発生予測ベンチマーク生態系 [cs.LG, cs.AI, q-bio.PE]目的:感染症発生予測のための疫学時系列データセット
- 感染症の発生は公衆衛生上の重要な課題であり,迅速な対応が求められる。
- 感染症予測手法の評価には標準化されたベンチマークデータセットが不足している。
- 新規発生に対する予測性能の理解が十分でないため,改善が必要である。
- IDOBEは,1世紀以上にわたる米国内および世界各地の監視データから構築された,13種類の疾患の1万件を超える発生事例を含むデータセットである。
- 短期的(1~4週間先)な多段階予測実験の結果,MLPベースの手法が最も堅牢な性能を示した。
- 発生のピーク前段階では,統計的手法がわずかな優位性を示すことがわかった。
OGER:ハイブリッド強化学習のための堅牢なオフライン誘導探索報酬 [cs.PF, cs.DC, cs.AI]目的:大規模言語モデルの推論能力向上を目指した探索報酬のフレームワーク
- 強化学習は,複雑な意思決定問題への応用が期待され,特に大規模言語モデルの性能向上に貢献する。
- オフラインデータによる指導やエントロピー駆動戦略は存在するが,統合性やモデルの表現力に限界がある。
- オフラインデータとモデル自身のエントロピーを活用し,自律的な探索を促進する報酬モデルを構築する。
- OGERは,複数の教師を用いた共同学習により,オフライン指導とオンライン強化学習を統合している。
- 数学的推論ベンチマークにおいて,既存の基盤モデルを大きく上回り,汎化性能も高いことが示された。
- エントロピーを考慮した報酬調整が,学習のダイナミクスと効果に重要であることが検証された。
LTLf+義務に対する記号的合成 [cs.LO, cs.AI, cs.FL]目的:LTLfpで表現される義務プロパティに対する合成
- システムの正当性検証において,時間論理に基づくプロパティ仕様は不可欠である。
- 複雑な時間論理プロパティの自動的な検証・合成は,依然として困難な課題である。
- LTLfp義務プロパティの効率的な記号的合成手法を確立することを目指す。
- LTLfp義務プロパティは,記号的に表現された決定性弱いオートマトン(DWA)に変換可能である。
- DWAは,DFAの利点を受け継ぎ,Boolean閉包や多項式時間最小化が可能である。
- LTLfp義務プロパティに対する合成は,DWA構築後,線形時間で解けることが示された。
カウンセリング対話における次の対話行為予測のための遷移行列正則化 [cs.HC, cs.CL, cs.AI]目的:カウンセリング対話における次の対話行為予測の改善
- 対話システムにおいて,より自然で人間らしい応答を生成することが重要である。
- 既存の対話行為予測モデルは,対話の流れを十分に考慮できていない。
- 対話の流れの統計的パターンをモデルに組み込むことで,予測精度を向上させる。
- 提案手法は,60クラスのドイツ語カウンセリングタクソノミーを用いた5分割交差検証において,マクロF1値を9-42%改善した。
- 異種データセット(HOPE)による検証の結果,改善が言語やカウンセリングドメインを跨いで転移することが示された。
- 遷移正則化は,事前学習済みエンコーダやアーキテクチャに関わらず,一貫した改善効果をもたらし,特に性能の低いベースラインモデルに大きな恩恵をもたらすことがわかった。
ClawEnvKit:爪様ロボット向け自動環境生成 [cs.AI, cs.CL]目的:爪様ロボットの環境自動生成パイプライン
- ロボットの学習・評価には多様な環境が必要だが,手作業での環境構築は非効率である。
- 既存の環境構築は,拡張性や多様性の点で課題があった。
- 自然言語による指示から自動的に環境を生成し,評価を効率化すること。
- ClawEnvKitにより,爪様ロボット用の大規模ベンチマークAuto-ClawEvalを構築した(1,040環境)。
- Auto-ClawEvalは,人間が作成した環境と同等以上の品質を持ちながら,コストを大幅に削減した。
- 環境生成の自動化により,従来は不可能だった規模での評価が可能となった。
条件付きVaRを用いたWasserstein分布ロバストリスク感応推定 [cs.LG, eess.SP, math.OC]目的:未知信号のロバストなリスク感応推定
- 不確実な環境下での意思決定において,リスク管理は不可欠である。
- 分布が未知の場合,ロバストな推定は困難を伴う。
- 分布の不確実性を考慮した,リスクを最小化する推定手法の開発。
- 本研究では,Wasserstein距離に基づく分布ロバスト性のアプローチを提案。
- 中心分布が有限サポートを持つ場合,半正定計画問題として解けることを示した。
- 電力価格予測の実験により,既存手法と比較してCVaRが低いことを確認。
物理情報ニューラルネットワークによる生物学的2次元+時間反応拡散系 [cs.LG, q-bio.QM]目的:生物学的反応拡散系の支配方程式の学習
- 動的システムの理解には,その支配方程式の把握が不可欠である。
- 既存の手法では,高次元空間における複雑な反応拡散系のモデル同定が困難である。
- 実験データから直接,反応拡散系の閉じた形の支配方程式を効率的に発見すること。
- 物理情報ニューラルネットワーク(PINN)と生物学的情報を組み合わせた手法を開発した。
- 2次元+時間の反応拡散系に対して,データ前処理,方程式学習,記号回帰を統合したフレームワークを構築した。
- 肺がん細胞の動態データから,実験観察に基づいて反応拡散モデルを復元することに成功した。
TurboQuantとDRIVE/EDEN系統の研究に関する注記 [cs.LG]目的:TurboQuantと先行するDRIVE/EDENスキームとの関係性の明確化
- 量子化は,モデルサイズ削減と推論速度向上に不可欠であり,深層学習の効率化に貢献する。
- 既存の量子化手法は,ビット数やスケールパラメータの最適化が難しく,精度劣化を招く場合がある。
- 本研究は,TurboQuantの最適性について検証し,より高精度な量子化手法の指針を示す。
- TurboQuantは,スケールパラメータを固定したEDENの特殊なケースに相当することが示された。
- バイアス付きEDENでは,最適化されたスケールパラメータを使用することでTurboQuantよりも高い精度が得られる。
- 実験結果から,EDENはTurboQuantをあらゆる設定で上回ることが確認された。
GSQ:Gumbel-SoftmaxサンプリングによるLLMの高性能低精度スカラー量子化 [cs.CL, cs.LG]目的:LLMのスカラー量子化による効率的なデプロイメント
- LLMのローカル推論においては,モデルの効率化が不可欠であり,量子化はその重要な手法の一つである。
- 既存のスカラー量子化手法は,精度が3-4ビットで頭打ちになるという課題があった。
- GSQは,スカラー量子化の精度向上を目指し,ベクトル量子化手法の性能に迫ることを目標とする。
- GSQは,Llama-3.1モデルにおいて,2ビットおよび3ビットでの量子化精度において,QTIPに匹敵する性能を達成した。
- GSQは,既存のスカラー推論カーネルと互換性があり,実装が容易である。
- GSQは,Kimi-K2.5のような大規模MoEモデルにも適用可能であり,スケーラビリティに優れる。
システムダイナミクスAIアシスタントのベンチマーク:クラウド対ローカルLLMによるCLD抽出と議論 [cs.SI, cs.AI, cs.HC, cs.LG]目的:システムダイナミクスAI支援のためのLLM(大規模言語モデル)の性能評価
- システムダイナミクスは複雑なシステムを理解し,改善するための重要な手法である。
- AIアシスタントの性能は,モデルの規模や種類,実行環境に大きく依存する。
- クラウドとローカルLLMの性能差を明らかにし,実用的なAIアシスタント構築の指針を示す。
- クラウドモデルはCLD抽出において77~89%の合格率を達成し,最高のローカルモデルは77%と同等の性能を示した。
- 議論の分野では,ローカルモデルはモデル構築段階で50~100%の性能を示す一方,エラー修正では課題が残った。
- バックエンドの選択が量子化レベルよりも性能に大きな影響を与えることが示された。
潜在的位相変化ロールバック:残差ストリーム監視とKVキャッシュ操舵による推論時エラー訂正 [cs.LG, cs.AI, cs.CL]目的:大規模言語モデルにおける推論時エラー訂正手法
- 大規模言語モデルの発展は,複雑な推論タスクの自動化を可能にする。しかし,生成過程における誤りが累積しやすいという課題がある。
- 言語モデルは一度誤った方向に進むと,その後のトークン生成で誤りを修正できず,結果が悪化する傾向がある。
- 残差ストリームの監視とKVキャッシュ操舵により,推論過程におけるエラーを検出し,早期に修正することで精度向上を目指す。
- LPSRは,MATH-500データセットにおいて8Bモデルで44.0%の正答率を達成し,標準的な自己回帰モデル(28.8%)を15.2%ポイント上回った。
- プロンプトによる自己修正のような自然な推論時ベースライン(19.8%)よりもLPSRは24.2%ポイント高く,Best-of-16よりも7.8%ポイント高い性能を示した。
- エラー検出の最適な層と訂正の最適な層が異なることが示され,検出は層14,タスク精度は層16でピークを迎えた。
医療システム規模における仮想患者表現のためのマルチモーダル・時間的基盤モデル [cs.LG, cs.AI, cs.CL]目的:医療記録の統合的患者表現
- 現代医学では,膨大なマルチモーダルデータが生じるが,その活用は十分ではない。
- 臨床記録はシステムが分断されており,その全体性と時間的深さを統合するモデルが存在しない。
- 患者ケアの全過程をモデル化し,計算論的推論に利用できる基盤を構築すること。
- Apolloは,30年以上にわたる720万人分の記録から学習し,多様な臨床データを統合する。
- Apolloの埋め込みは,最長5年先の疾患発症リスク,進行,治療反応などを予測可能である。
- モデルの予測は,臨床的に解釈可能なバイオマーカーと一致し,マルチモーダル医療検索エンジンとしての可能性を示唆する。
プラトンの洞窟へ再び:大規模なクロスモーダル表現の収束に関する検証 [cs.CV, cs.AI, cs.LG]目的:クロスモーダル表現の収束度合いの評価
- 異なるモダリティ間の表現がどのように関連するかは,AIの汎用性と理解に不可欠である。
- 既存研究では,テキストと画像などのモダリティ間表現が収束するという仮説が提唱されている。
- 大規模データセットにおけるクロスモーダル表現の収束の信頼性を検証し,その限界を明らかにする。
- 先行研究で示されたクロスモーダル表現の収束は,評価方法に大きく依存することが示された。
- 大規模データセットでは,モダリティ間表現の収束度は低下し,意味的な大まかな一致にとどまる。
- 最新モデルでは,言語モデルと視覚モデルの表現が収束するという傾向は見られない。
LLMは弱教師あり学習でいつ推論できるようになるか [cs.LG, cs.AI]目的:弱教師あり学習下でのLLMの推論学習の可能性
- LLMの推論能力向上は,その実用化において重要であり,継続的な研究が必要とされている。
- 高品質な報酬信号の構築が困難であり,弱い教師あり学習下でのLLMの性能が課題となっている。
- 報酬飽和ダイナミクスに基づき,弱い教師あり学習下でのLLMの汎化性能向上を目指す。
- 報酬飽和の挙動が汎化性能を左右し,汎化可能なモデルは飽和前の段階で報酬と性能が共に上昇する。
- 推論の忠実性(中間ステップの論理的整合性)が,学習後のモデルの挙動を予測する重要な要素となる。
- 明示的な推論トレースによるSFTが,弱い教師あり学習下での汎化に必要であり,ドメインデータでの継続事前学習がその効果を増幅する。
言語的信念の逐次ベイズ更新によるエージェント的予測 [cs.AI]目的:二値予測のためのエージェントシステム
- 将来予測は,意思決定やリスク管理において不可欠であり,その精度向上は重要である。
- 従来の予測手法では,大量の証拠を処理し,信頼性の高い予測を行うことが困難であった。
- 言語モデルを活用し,信念状態を効率的に更新することで,予測精度を高めることを目指す。
- 提案手法BLFは,ForecastBenchベンチマークにおいて,既存のトップレベルの手法を上回る性能を発揮した。
- 構造化された信念状態と,多段階アグリゲーション,階層的較正が,予測性能向上に大きく貢献していることが示された。
- 厳密なバックテストフレームワークを開発し,信頼性の高い比較評価を実現した。
比率拘束強化学習 [cs.LG, cs.AI]目的:比率拘束強化学習のフレームワーク
- 強化学習は,自律的な意思決定システムの開発において重要な役割を担う
- 従来の強化学習アルゴリズムは,安定性や性能の向上が課題である
- PPOの理論的根拠と実装の乖離を解消し,安定性と性能を向上させる
- 本研究で提案するBRRLフレームワークは,単調な性能改善を保証する解析解を提供する。
- BPOアルゴリズムは,MuJoCo,Atari,IsaacLab環境においてPPOと同等以上の性能を示す。
- さらに,LLMのファインチューニング向けにGBPOを拡張し,その有効性を確認した。
Sessa:選択的状態空間注意 [cs.LG, cs.AI, cs.CL]目的:長文脈における系列モデリング性能の向上
- Transformerが主流だが,長文脈では注意機構の効率性が低下する。
- 既存モデルは,過去からの情報の取得方法が単一化されており,柔軟性に欠ける。
- フィードバックパス内に注意機構を導入し,多経路集約による長文脈処理を実現する。
- Sessaは,文脈長に対してべき乗則の減衰率を示すメモリテールを実現した。
- 均一ルーティング設定において,Sessaは理論的な限界に迫る選択的情報検索能力を示した。
- 長文脈ベンチマークにおいて,TransformerやMambaと比較して最も高い性能を発揮した。
