arXiv雑要約
AI - 2025/12/17 公開
サンプリングに基づく重み空間投影による制約付き方策最適化 [cs.LG, cs.RO]目的:安全性を考慮した方策学習
- 安全性が重要な制御問題において,性能向上と安全確保を両立する必要があるため。
- 制約条件が不明確な場合,安全な領域を効率的に探索することが困難である。
- 未知の制約条件のもとでも,安全性を保証しながら方策を改善する手法を開発する。
- 提案手法SCPOは,勾配情報なしでパラメータ空間における安全性を直接強制する。
- 軌道ロールアウトと滑らかさの制約を組み合わせることで局所的な安全領域を構築し,凸SOCPを用いて安全な更新を行う。
- 初期化が安全であれば,SCPOは中間の方策の安全性を保証し,閉ループ安定性も実現する。
EEG-D3:深層学習モデルの隠れた過学習問題に対する解決策 [cs.LG, cs.AI, cs.CV, cs.HC]目的:深層学習モデルにおける隠れた過学習問題の解決
- 脳波(EEG)信号解析は,脳機能解明やブレイン・マシン・インターフェース(BMI)等の応用において重要である。
- BMIベンチマークでの高い性能が,実際の応用場面で再現されないという乖離が存在する。
- タスクに関連する人工物による隠れた過学習を防ぎ,汎化性能の高いモデルを開発すること。
- 提案手法「EEG-D3」は,弱教師あり学習を用いて脳波活動の潜在要素を分離することに成功した。
- 分離された潜在要素を用いて下流の分類器を学習することで,隠れた過学習を抑制し,汎化性能を向上させた。
- 線形分離可能な潜在空間の活用により,少ないラベルデータでの睡眠段階分類においても高い性能を示した。
コード世界モデルの二面性:実行トレースによる悪意のある振る舞いの確実な解明 [eess.SY, cs.SY, cs.LG]目的:コード生成モデルにおけるバックドアの検出と悪意のある振る舞いの検証
- AIがコード生成を担う機会が増加しており,その安全性確保が重要となっている。
- AIによるコード生成に,バックドア混入や悪意のある振る舞いのリスクが伴う点が課題である。
- 実行トレースの整合性分析により,バックドアを検出し,AI制御を実現することを目指す。
- 提案手法であるCTVPは,潜在的に悪意のあるコードを直接実行することなく,セマンティック軌道分析を利用して検証を行う。
- セマンティック軌道分析における一貫性のパターンを分析することで,バックドアを示す行動の異常を検出する。
- 理論解析により,CTVPの検証コストが軌道のサイズと共に指数関数的に増加すること,敵対者が学習によって回避困難であることを示す。
VajraV1 - YOLOファミリーで最も高精度なリアルタイム物体検出器 [cs.CV, cs.AI]目的:リアルタイム物体検出の精度向上
- 自動運転や監視システムなど,リアルタイムな画像処理技術の重要性が高まっている。
- 既存のリアルタイム物体検出器は,精度と処理速度のバランスに課題があった。
- YOLOアーキテクチャの改良により,高精度かつ高速な物体検出を実現すること。
- VajraV1は,COCO検証セットにおいて,YOLOv12-NやYOLOv13-Nを上回るmAPを達成した。
- VajraV1-NanoからXlargeまで,全てのモデルにおいて既存のYOLOモデルを精度で上回った。
- 特にVajraV1-Xlargeは,既存のリアルタイム物体検出器全てを上回る最高のmAPを達成した。
人間のフィードバックによる説明可能な強化学習:言語モデルのアライメント改善 [eess.SY, cs.RO, cs.SY, math.OC, cs.LG]目的:言語モデルのアライメント改善に向けた,人間のフィードバックを用いた説明可能な強化学習
- 言語モデルは多様なタスクに活用されるが,その出力が必ずしも期待に沿うとは限らない。
- 強化学習による人間のフィードバック(RLHF)で調整された言語モデルでも,不十分な応答が見られる場合がある。
- 不十分な応答の原因を特定し,その原因を取り除くことで,言語モデルのアライメントを改善する。
- 本研究では,不十分な応答の原因を説明するために,その応答に影響を与えた学習データを特定する手法を提案した。
- 提案手法は,特徴空間におけるプロンプト-応答ペアとの距離に基づいて学習データを選択し,応答を学習データで説明可能にする。
- 実験結果から,提案手法がRLHFの性能を向上させることが示された。
BiCoRec:バイアス軽減された文脈を考慮したシーケンシャル推薦モデル [cs.IR, cs.LG]目的:バイアス軽減と文脈考慮によるシーケンシャル推薦性能の向上
- ユーザーの嗜好は時間とともに変化するため,シーケンシャル推薦は重要である。
- 既存モデルは,人気アイテムへの偏りが強く,ニッチなアイテムの推薦が課題である。
- ニッチなアイテムを好むユーザーに対する推薦精度向上を目指す。
- BiCoRecは,共同注意メカニズムを用いて,ユーザーのシーケンス表現を人気度で重み付けする。
- ニッチなアイテムを好むユーザーに対し,NDCG@10で最先端手法よりも平均26.00%の改善を達成した。
- Movies,Fashion,Games,Musicデータセットで,それぞれ0.0102,0.0047,0.0021,0.0005のNDCG@10スコアを獲得した。
トポロジー安定化グラフニューラルネットワーク:ドメイン横断的な経験的頑健性 [cs.LG, cs.SI]目的:グラフ構造の摂動に対する頑健性の向上
- グラフ構造データは様々な分野で重要であり,その解析手法の精度と信頼性が求められる。
- 従来のグラフニューラルネットワークは,構造のわずかな変化に脆弱であるという課題があった。
- 持続ホモロジーと安定化正則化を用いて,グラフニューラルネットワークの頑健性を高めることを目指す。
- 本研究では,持続ホモロジー特徴と安定性正則化を統合した新たなフレームワークを提案した。
- 提案手法は,生物化学,社会,コラボレーションネットワークを含む6つの多様なデータセットで,エッジ摂動に対する優れた頑健性を示した。
- 摂動下での性能劣化は最小限(ほとんどのデータセットで0-4%)であり,既存の安定化手法を大幅に上回る結果が得られた。
ドロップアウトニューラルネットワークの学習におけるパーコレーションの視点 [cs.LG, cond-mat.stat-mech, math.PR, stat.ML]目的:深層ニューラルネットワークにおけるドロップアウトのパーコレーション現象
- 深層学習の汎化性能向上は重要な課題であり,過学習抑制手法が求められている。
- ドロップアウトは有効な正則化手法だが,ネットワーク構造との関係性は未解明な点が多い。
- ドロップアウト学習におけるネットワークの接続遮断と予測能力の関係をパーコレーション理論で解明する。
- ドロップアウト学習中にネットワーク内でパーコレーション現象が発生することが理論的に示された。
- バイアス項がないニューラルネットワークにおいて,ドロップアウトが学習の破綻を引き起こす可能性が示唆された。
- このパーコレーション効果は,バイアス項があるネットワークにも同様に影響を及ぼす可能性がある。
医療画像におけるVision Language Modelの効率的なファインチューニングのための望遠鏡型アダプター [cs.CV, cs.AI]目的:医療画像におけるVision Language Segmentation Modelの適応
- 医療画像診断の精度向上は,早期発見や適切な治療に不可欠であり,その重要性は高い。
- 従来のファインチューニングは計算コストが高く,医療現場での実用化が課題となっていた。
- Transformer層の深さに応じたアダプター容量の最適化により,効率的なファインチューニングを実現する。
- 提案手法「Telescopic Adapters」は,従来のファインチューニングと比較して,必要な計算量を大幅に削減できる。
- 5つの医療画像データセットにおいて,ポリープセグメンテーション,皮膚病変検出,乳房超音波イメージングなどのタスクで優れた性能を示した。
- 深層のTransformer層ほど高い適応能力が必要であることが実験的に示され,その有効性が確認された。
EvoLattice:LLM誘導プログラム探索のためのマルチオルタナティブ品質多様性グラフ表現による持続的内部集団進化 [cs.AI, cs.CL, cs.LG, cs.MA, cs.NE]目的:LLM誘導プログラム探索における持続的な内部集団進化の実現
- LLMを用いたプログラム進化は,複雑な問題を解決するための有望な手法であり,その重要性が増している。
- 既存手法は単一候補の書き換えに依存するため,有用な変異が失われたり,構造的な失敗が起こりやすいという課題があった。
- EvoLatticeは,マルチオルタナティブ表現により,より安定した進化と表現力を実現し,性能向上を目指す。
- EvoLatticeは,候補プログラムの集団を単一の有向非巡回グラフとして表現し,多様な探索空間を効率的に活用する。
- オルタナティブレベルの評価により,局所的な設計選択が全体的な性能に与える影響を詳細に分析可能である。
- プログラム合成およびメタ学習タスクにおいて,EvoLatticeは従来のLLM誘導法よりも安定性,表現力,改善軌跡において優れた結果を示した。
階層型LLMエディタによる検証誘導型コンテキスト最適化:ツール呼び出しの検証 [cs.SE, cs.AI]目的:ツール呼び出しにおけるコンテキストの最適化
- 大規模言語モデルの能力拡張には,外部環境との連携が不可欠であり,ツール呼び出しはその重要な手段である。
- ツール利用の成否は,関連ドキュメントや知識ベースの質に大きく左右されるが,これらはLLMの解釈とずれが生じやすい。
- 本研究は,LLMをエディタとして活用し,ツール関連ドキュメントを自動的に改善することで,そのずれを解消することを目指す。
- 提案手法VGCOは,実世界の失敗事例からツールとコンテキストの不一致を特定し,階層的な編集を通じてコンテキストを最適化する。
- VGCOは,状態認識,アクション固有性,検証誘導型のLLMエディタを用いることで,効率的かつ標的を絞った改善を実現する。
- VGCOは,大規模モデルのプロンプトエンジニアリングや小規模モデルのポストトレーニングによって,費用対効果の高いサブタスク専門化を可能にする。
安全性を考慮したオンライン制御情報に基づく学習 [eess.SY, cs.LG, cs.SY, math.OC]目的:安全性重視の自律システムにおける学習フレームワーク
- 自律システムの安全性を確保することは,社会実装において極めて重要である。
- 従来の学習手法では,安全性制約の組み込みやパラメータ推定の確実性に課題があった。
- 本研究は,安全性と効率性を両立するオンライン学習フレームワークを提案し,その問題を解決する。
- 提案手法は,最適制御,パラメータ推定,安全性制約を統合したオンライン学習を実現する。
- 拡張カルマンフィルタにより,不確実性下でのロバストかつデータ効率的な適応を可能とする。
- 理論的解析により,収束性と安全性の保証が確立され,シミュレーション実験で有効性が示された。
不確実性校正の測定 [eess.SY, cs.HC, cs.NI, cs.SY, stat.AP, cs.LG]目的:二値分類器のL1校正誤差推定
- 機械学習モデルの信頼性評価は,実用上の安全性や意思決定に不可欠である。
- 限られたデータセットからの校正誤差推定は困難であり,過信または過小評価を生む。
- 校正誤差の上界を効率的に計算し,分類性能を損なわずに信頼性を向上させる。
- 変動が制限された校正関数を持つ分類器に対する校正誤差の上界が示された。
- 分類器の修正により,校正誤差の上界を効率的に計算し,性能への影響を最小限に抑えた。
- 実データセットでの校正誤差測定の実用的な手順が提案された。
連合学習とノイズ除去正則化によるプライバシー保護乳児泣き声分類 [cs.LG, cs.AI, cs.SD]目的:乳児のニーズ早期評価を支援する乳児泣き声分類の実現
- 乳児の健康状態把握において,泣き声は重要な指標であり,早期発見・対応に繋がる。
- 音声データのプライバシー保護,背景雑音への弱さ,環境変化への対応が課題となっていた。
- プライバシーを保護しつつ,ノイズに強く,効率的な乳児泣き声分類システムの構築を目指す。
- 提案手法は,Baby ChillantoおよびDonate-a-Cryデータセットにおいて,マクロF1スコア0.938,AUC 0.962,ECE 0.032を達成した。
- 通信効率の高い連合学習により,クライアントのアップロード量を大幅に削減(約36-42MBから3.3MBへ)。
- NVIDIA Jetson Nano上でのリアルタイム推論では,1秒スペクトログラムフレームあたり96msの処理速度を実現した。
OPTIMA:二次計画法再構成によるLLMの最適な一発プルーニング [cs.CL, cs.LG, cs.AI, cs.PF]目的:LLMの一発プルーニングにおける精度とスケーラビリティのバランス
- 大規模言語モデルの効率化は,計算資源の制約と性能維持の両立が重要である。
- 既存の一発プルーニング手法は,精度と計算コストのトレードオフに直面している。
- 二次計画法による再構成を用いて,精度劣化を抑制しつつスケーラブルなプルーニングを実現する。
- OPTIMAは,層ごとの重み再構成を独立した二次計画問題として定式化し,効率的な並列処理を可能にした。
- 実験結果から,OPTIMAは既存手法と比較して,最大3.97%の精度向上を達成した。
- 80億パラメータのTransformerモデルをNVIDIA H100上で40時間でプルーニング可能であり,メモリ使用量は60GBに収まった。
コンテキストに入れるだけでは不十分:長文脈LLMのためのテスト時学習 [cs.LG, cs.CL]目的:長文脈LLMの性能向上
- 大規模言語モデルの文脈長は重要性を増しており,その効果的な活用が求められている。
- 長文脈LLMは,文脈を十分に活用できず,性能が伸び悩む場合がある。
- 静的自己注意メカニズムの限界を克服し,文脈固有の情報を効果的に利用すること。
- テスト時学習において,思考トークンの生成よりも,文脈固有の勾配更新が有効である。
- 提案手法は,Qwen3-4BにおいてLongBench-v2とZeroScrollsのサブセットでそれぞれ12.6%,14.1%の性能向上を実現した。
- 長文脈においては,少量ではあるが文脈固有の学習が,推論計算資源のより良い活用法である。
KLO-Net:MRI画像からの効率的な前立腺腺分割のための動的K-NNアテンションU-NetとCSPエンコーダ [cs.CV, cs.LG]目的:MRI画像からの前立腺腺の効率的な分割
- 前立腺癌の早期発見と治療計画の精度向上には,正確な前立腺腺の自動分割が不可欠である。
- 既存の深層学習モデルは計算負荷が高く,臨床現場でのリアルタイム処理が困難な場合がある。
- 計算効率を向上させつつ,前立腺の解剖学的変動に対応し,高精度な分割を実現すること。
- 提案手法KLO-Netは,動的K-NNアテンション機構とCSPエンコーダにより,計算負荷を軽減しつつ,前立腺腺の分割精度を向上させる。
- 公開データセットPROMISE12とPROSTATExを用いた実験により,KLO-Netの計算効率と分割品質の優位性が示された。
- 動的K-NNアテンションは,各空間位置に応じた注意接続数を適応的に決定することで,モデルの柔軟性を高めている。
ビデオ翻訳のための生成AI:多言語ビデオ会議向けスケーラブルなアーキテクチャ [cs.RO, cs.MM, cs.AI, cs.CL, cs.CV]目的:ビデオ翻訳における生成AIパイプラインのスケーラビリティ向上
- グローバル化が進む中で,多言語コミュニケーションの重要性が増しており,リアルタイム翻訳技術への需要が高い。
- 生成AIパイプラインをビデオ翻訳に適用する際,逐次処理による遅延と,多人数参加時の計算量の増加が課題となっていた。
- 本研究は,ターン制のメカニズムとセグメント処理プロトコルにより,これらの課題を克服し,リアルタイム性を実現する。
- 提案アーキテクチャは,多人数参加シナリオにおいて計算量を二次から線形に削減し,スケーラビリティを向上させる。
- 様々なハードウェア構成(RTX 4060,T4,A100)での評価により,現代のハードウェア上でリアルタイムスループット(τ < 1.0)を達成できることを示した。
- 主観評価実験では,初期処理遅延が許容範囲内であり,スムーズな再生体験と引き換えに受け入れられることが示された。
EU AI法検証フレームワーク:高リスクシステムの評価 [cs.CY, cs.AI]目的:EU AI法等の法的義務検証のための体系的なアプローチ
- AI技術の発展に伴い,倫理的・法的課題への対応が急務となっている。
- AI規制の解釈の曖昧さが,加盟国間の準備状況の不均衡を招いている。
- 法的要件と技術基準の乖離を解消し,一貫性のある評価を支援する。
- 本フレームワークは,検証方法(管理とテスト)と評価対象(データ,モデル等)の二つの軸で構成される。
- 法的な要件と具体的な検証活動を紐付け,政策立案者と実務家の間の橋渡しを行う。
- 解釈の不確実性を低減し,AIライフサイクル全体を通して規制,倫理,技術の整合性を促進する。
南米における季節降水予測のための機械学習,深層学習,説明可能なAI手法の探求 [cs.LG, cs.AI]目的:南米の季節降水予測のための機械学習および深層学習モデルの性能評価
- 気象予測は社会にとって不可欠であり,その精度向上は防災・減災に大きく貢献する。
- データ駆動型アプローチの降水予測への適用可能性に関する広範な調査が不足している。
- 機械学習および深層学習モデルを用いた南米の季節降水予測の実現可能性を示す。
- LSTMモデルが優れた予測性能を示し,特に豪雨予測において高い精度を達成した。
- 従来の動的モデルであるBAMは最も低い予測性能を示した。
- コストを考慮する場合,XGBoostはわずかな精度低下で低遅延を実現する。
平衡状態からの量子多体系力学の時間発展をニューラル常微分方程式で捉える [cs.LG, cond-mat.stat-mech, quant-ph]目的:平衡状態からの量子多体系の時間発展の再現
- 量子多体系問題は,現代物理学の重要な課題であり,新物性解明の鍵となる。
- 大規模な量子多体系の厳密解法は指数関数的な計算コストを要し,現実的な計算が困難である。
- 本研究は,ニューラルODEを用いて,量子多体系の時間発展を効率的に予測することを目指す。
- ニューラルODEは,2粒子換算密度行列のデータから,3粒子情報を明示的に用いることなく時間発展を再現しうる。
- ただし,2粒子と3粒子の相関が低い領域では,ニューラルODEは失敗することから,時間局所的な関数では十分な精度が得られないことが示唆される。
- 3粒子相関の増加量が,予測の成功を予測する主要な指標であり,より高次の時間依存性を考慮したモデルが必要であることが示された。
LLM会話における文脈分岐:探索的プログラミングへのバージョン管理アプローチ [cs.SE, cs.AI, cs.HC]目的:LLM会話における文脈劣化の軽減と,探索的プログラミングの効率化
- LLMはソフトウェア開発に不可欠だが,複数ターンの会話では性能が低下する
- LLMは誤った前提を立てやすく,文脈汚染により修正が困難になる
- 文脈分岐により,探索の選択肢を分離し,文脈汚染を防ぐことを目指す
- 文脈分岐を用いることで,線形な会話と比較して応答品質が向上し,特に複雑なシナリオでの効果が大きかった。
- 分岐により文脈サイズが平均58.1%削減され,無関係な探索内容が排除された。
- 会話の分岐はAI支援による探索的作業の基本的な機能であり,文脈汚染の防止に貢献する。
予測的意思決定のための適応型デジタルツイン:状態遷移ダイナミクスのオンラインベイズ学習 [cs.SI, cs.LG, cs.NA, math.NA]目的:土木工学におけるデジタルツインの価値実現の向上
- 社会インフラの老朽化が進み,効率的な維持管理が喫緊の課題となっている。
- 既存のデジタルツインは,現実の変化への適応性が低く,精度が低下する可能性がある。
- 状態遷移モデルをオンラインで学習し,デジタルツインの適応性と予測精度を向上させる。
- 動的ベイズネットワークを用いて,物理的・仮想的領域間の双方向相互作用をモデル化する枠組みを提案した。
- 状態遷移確率をランダム変数として扱い,共役事前分布を用いることで,オンラインベイズ学習を可能にした。
- 鉄道橋の構造健全性モニタリングとメンテナンス計画のケーススタディにより,有効性を検証した。
系列モデルにおけるスライディングウィンドウ再帰 [cs.LG]目的:系列モデルの効率化
- 言語モデリングの性能向上は,自然言語処理の進歩に不可欠である。
- 既存のTransformerモデルは,長い系列長において計算コストが高いという課題がある。
- GPUメモリ階層に最適化された再帰アルゴリズムを開発し,計算効率を改善すること。
- スライディングウィンドウ再帰(SWR)を用いたPhalanx層を開発した。
- 10億パラメータのモデルにおいて,Transformerと比較して10〜40%の高速化を達成した。
- 系列長4Kから32Kにおいて,perplexityはTransformerと同等レベルを維持した。
球面等変グラフTransformerの完全ガイド [cs.NI, cs.LG, q-bio.QM]目的:球面等変グラフTransformerの理論的背景と実装
- 3次元分子や生体分子系の解析において,物理的な回転対称性を考慮することが重要である。
- 従来のGNNやTransformerでは,回転対称性を適切に扱えず,予測精度が制限される場合がある。
- 回転対称性を満たすモデルを構築し,より正確な予測を可能にすることを目的とする。
- 球面等変グラフニューラルネットワーク(EGNN)は,回転対称性を尊重した3次元分子解析の強力な基盤を提供する。
- 本ガイドでは,群表現や球面調和関数から,テンソル積,Clebsch-Gordan分解,SO(3)等変カーネルの構築まで,球面等変モデリングの基礎を体系的に解説する。
- Tensor Field NetworkやSE(3)-Transformerアーキテクチャの構築方法や,幾何学的グラフ上での等変メッセージパッシング,アテンションメカニズムについても説明する。
分子探索のための基盤モデルによる獲得関数の情報化 [cs.CG, math.AT, math.CO, cs.LG, cs.AI, q-bio.QM]目的:分子探索における獲得関数の情報化
- 分子探索は,新薬開発等において不可欠であり,効率的な手法が求められている。
- データ不足時や探索空間が広い場合,ベイズ最適化の性能が制限される。
- 基盤モデルを活用し,ベイズ最適化の効率性とスケーラビリティを向上させる。
- 提案手法は,明示的な代理モデルを回避し,獲得関数を直接情報化することで,効率的な分子探索を実現した。
- 分子探索空間を木構造で分割し,ローカルな獲得関数を用いることで,計算コストを削減し,スケーラビリティを向上させた。
- LLMに基づく粗視化クラスタリングにより,獲得関数評価の対象を絞り込み,大規模な候補集合への適用を可能にした。
パターン誘導型拡散モデル [eess.SY, cs.SY, cs.LG]目的:多変量時系列データの将来予測におけるパターン活用
- 時系列分析は,将来予測に不可欠であり,様々な分野で応用が広がっている。
- 既存手法では,時系列データに内在する反復構造やパターンが十分に考慮されていない。
- データ内のパターンを活用し,より現実的で信頼性の高い予測を実現すること。
- パターン誘導により,予測精度が大幅に向上し,平均絶対誤差(MAE)と連続階級予測スコア(CRPS)が最大40.67%/56.26%改善した。
- 視覚野測定値とモーションキャプチャフレームの予測において,既存手法を最大65.58%/84.83%と93.64%/92.55%上回った。
- パターン推定の不確実性に基づくガイダンスレベルの動的調整により,予測の信頼性向上に貢献した。
連合学習のための多次元レピュテーションに基づくインセンティブメカニズムMURIM [cs.AI]目的:連合学習における公正なインセンティブ配分と信頼性向上のためのメカニズム
- プライバシー保護が重要視される機械学習手法として注目されており,データ共有の制約を克服する。
- クライアントの信頼性評価が困難であり,悪意のあるクライアントによる攻撃や不公平なインセンティブ配分が問題となる。
- クライアントの信頼性,プライバシー,リソース,公平性を考慮し,悪意のあるクライアントからの不当な報酬獲得を防ぐ。
- MURIMは,最先端のベースラインと比較して,公平性指標を最大18%向上させる。
- プライバシー攻撃の成功率を5~9%削減し,ポイズニング攻撃やノイズ勾配攻撃に対する堅牢性を最大85%向上させる。
- MURIMは,敵対的脅威を軽減し,公正かつ誠実な参加を促進し,異質で動的な連合環境で安定したモデル収束を維持する。
インテリジェントIT運用のためのマルチエージェント協調フレームワーク:文脈認識圧縮と動的タスクスケジューリングを備えたAOIシステム [cs.MA, cs.AI]目的:インテリジェントIT運用を実現するためのマルチエージェント協調フレームワーク
- クラウドネイティブアーキテクチャの普及により,ITインフラは複雑化の一途を辿っている。
- 従来のシステムでは,大量の運用データ処理の非効率性,タスク連携の不足が課題である。
- 本研究は,情報過多を軽減し,コンテキストを維持した効率的なIT運用を目指す。
- 提案するAOIフレームワークは,リアルタイムなシステム状態に基づいてタスクを動的に優先する。
- 実験の結果,AOIは72.4%のコンテキスト圧縮率と92.8%の重要な情報保持率を達成した。
- タスク成功率は94.2%に達し,平均修復時間(MTTR)は34.4%短縮された。
Olmo 3 [cs.CL, cs.LG]目的:大規模言語モデルOlmo 3の開発
- 自然言語処理の発展は,人間と機械のコミュニケーションを豊かにし,様々な分野での応用を可能にする。
- 既存の言語モデルは,性能や透明性の面で課題が残されており,特に大規模モデルの再現性が低い。
- 長文脈推論,関数呼び出し,コーディング等のタスクにおいて,より高性能で透明性の高いオープンソースモデルの提供。
- Olmo 3は,70億および320億パラメータの完全オープンな言語モデルファミリーである。
- 特にOlmo 3 Think 32Bは,現時点で公開されているオープンソースの思考型モデルとして最高レベルの性能を示す。
- モデル構築の全工程,チェックポイント,データ,依存関係を全て公開することで,完全な再現性を実現している。
博士レベルの数学的推論における最先端LLMの評価:ランダム化アルゴリズムに関する理論計算機科学の教科書を用いたベンチマーク [cs.AI]目的:博士レベルの数学的推論能力の評価
- LLMの急速な進歩は,数学的推論や科学的発見を自動化する可能性を広げている。
- 大学院レベルの数学理論に対するLLMの厳密な評価が不可欠である。
- 最先端LLMの数学的推論能力の限界とばらつきを明らかにすること。
- GeminiとClaudeは,確率的推論と形式論理の理解度において高い正答率(約66%)を示した。
- GPT-5-ThinkingやGrok-4は一貫性に欠け,正答率は約40%にとどまった。
- 最先端LLMは大学院レベルの教育支援には活用できるが,厳密な数学的導出には信頼性にばらつきがある。
LLMの表現操作による内省制御:ReflCtrl [cs.AI]目的:LLMにおける内省の制御方法
- LLMのCoT推論は多様なタスクで高性能を示すが,内省という機能がコスト増の要因となる。
- 内省は性能向上に寄与する一方,推論コスト増加を引き起こすという課題がある。
- 内省の頻度を制御し,効率的な推論を可能にすることを目指す。
- モデルの潜在空間における内省方向を特定し,段階的な制御手法ReflCtrlを提案した。
- より高性能なモデルでは内省が冗長な場合が多く,推論トークンを最大33.6%削減可能であることを示した。
- モデルの内省行動と内部の不確実性シグナルが高い相関関係にあることが示唆され,不確実性によって内省が制御されている可能性がある。
任意の空間群に対する不変性を表現するための単一アーキテクチャ [cs.LG]目的:空間群に対する不変性を自動的に適用可能な機械学習アーキテクチャ
- 結晶性固体等の物性研究において,対称性は重要な役割を果たす。
- 各対称群ごとに専用のアーキテクチャが必要となり,汎用性や知識転移が課題である。
- 3次元空間群の多様性に対応し,データ不足時の問題を克服することを目指す。
- 本研究で開発したアーキテクチャは,任意の空間群に対する不変性を学習可能である。
- 対称性適応フーリエ基底を用いることで,異なる空間群間での重み共有を実現した。
- 材料特性予測や未知の空間群へのゼロショット学習において,良好な性能を示した。
大規模基盤モデル事前学習のためのスパース性制御可能な動的Top-p MoE [cs.NI, cs.AI]目的:大規模な基盤モデルの事前学習における,スパース性制御可能な動的Top-p MoEの提案
- モデルの性能向上には,モデルの規模拡大が不可欠である。しかし,計算資源の制約がある。
- 従来のMoEでは,トークンの難易度に応じたスパース性の制御が困難であった。
- 動的な閾値調整により,計算コストを制御しつつ,トークンに応じた最適なスパース性を実現する。
- DTop-p MoEは,Top-kや固定閾値のTop-pと比較して,一貫して高い性能を示すことが確認された。
- DTop-pは,活性化されるエキスパートの数を正確に制御し,トークンやレイヤーに応じてリソースを動的に配分する。
- DTop-pは,エキスパートの粒度,容量,モデルサイズ,データセットサイズに対して優れたスケーリング特性を示す。
音楽感情認識のための専門家注釈データセットと双方向適応フレームワークMemo2496 [cs.SD, cs.AI, cs.MM]目的:音楽感情認識のための高品質な注釈データセットの提供と,楽曲間特徴ドリフトへの対処
- 音楽感情認識は,人間の感情理解や音楽推薦システム等,多様な応用が期待される重要な研究分野である。
- 既存のデータセットの規模が小さく,品質が十分でないため,高精度な感情認識モデルの構築が困難である。
- 専門家による高品質な注釈データセットと,楽曲間特徴ドリフトを抑制する新しいフレームワークを開発し,認識精度を向上させる。
- 本研究で構築したデータセットMemo2496は,2496曲のインストゥルメンタル音楽に,30名の専門家による連続的な感情ラベルが付与されている。
- 提案手法DAMERは,Melスペクトログラムとコクログラム間の双方向相互作用,信頼性の高い擬似ラベル生成,および楽曲間特徴ドリフト抑制のためのメカニズムを統合している。
- Memo2496,1000songs,PMEmoの各データセットにおける実験により,DAMERが最先端の性能を示すことが実証された。
抗原提示における多段階予測によるMHC-IIエピトープ探索の加速 [cs.LG, q-bio.QM]目的:MHC-II抗原エピトープ探索の加速
- 免疫療法において,MHC-II分子が提示する抗原エピトープは重要な役割を担う。
- MHC-IIは結合特異性やモチーフパターンが複雑で,計算免疫療法における研究はMHC-Iに比べ進んでいない。
- MHC-II相互作用データの拡充と標準化,及び抗原提示経路の予測モデル開発を目的とする。
- 免疫エピトープデータベース(IEDB)等の公的ソースから,高品質で標準化されたMHC-IIペプチドデータセットを構築した。
- ペプチド結合,ペプチド提示,抗原提示という3つの機械学習タスクを定義し,MHC-II抗原提示経路を多段階で捉えるフレームワークを提示した。
- 既存モデルのベンチマーク評価とモデル設計の分析を行い,計算免疫療法の発展に貢献する基盤を整備した。
プロのソフトウェア開発者は「フィーリング」に頼らず,制御する:2025年のコーディングにおけるAIエージェントの活用 [cs.SE, cs.AI, cs.HC]目的:ソフトウェア開発におけるAIエージェントの利用状況とその効果
- ソフトウェア開発の効率化と品質向上が常に求められており,新たな技術の導入は不可欠である。
- AIエージェントの能力と,開発者の役割分担が明確でなく,効果的な活用方法が課題となっている。
- 熟練開発者のAIエージェント利用の実態を把握し,効果的な活用戦略を明らかにすること。
- 経験豊富な開発者は,AIエージェントを生産性向上のツールとして評価している。
- ソフトウェアの設計と実装においては,品質を重視し,エージェントの挙動を制御する戦略を用いている。
- エージェントの限界を補完できるという自信から,開発者はAIエージェントの組み込みに好意的である。
MobileWorldBench:モバイルエージェントのための意味的ワールドモデリングへ [cs.AI]目的:モバイルGUIエージェントのためのワールドモデルとしてのビジョン言語モデルの能力評価
- ロボットやAIエージェントの自律的な行動には,環境を理解し予測する能力が不可欠である。
- 従来のピクセルベースのワールドモデルは,GUI環境において複雑な視覚要素の予測が困難である。
- 自然言語を用いたワールドモデルを構築し,GUI環境におけるエージェントのタスク成功率向上を目指す。
- MobileWorldBenchというベンチマークを導入し,ビジョン言語モデルのワールドモデルとしての性能を評価した。
- 140万サンプルからなる大規模データセットMobileWorldを公開し,ビジョン言語モデルのワールドモデリング能力を向上させた。
- ビジョン言語モデルを計画フレームワークに統合する新しいフレームワークを提案し,タスク成功率の改善を実証した。
KFS-Bench:長編ビデオ理解におけるキーフレームサンプリングの包括的評価 [cs.CV, cs.AI]目的:長編ビデオ質問応答におけるキーフレームサンプリングの評価基準
- 長編ビデオの理解は,多様な応用において重要であり,計算コストの削減が課題である。
- 既存の研究では,キーフレーム選択の質を質問応答の精度を介して間接的に評価していた。
- 長編ビデオ全体の重要な内容を網羅するキーフレームサンプリング手法を直接評価する基準を提供する。
- KFS-Benchは,質問ごとに複数のシーンの注釈を提供し,サンプリング戦略を直接評価することを可能にする。
- サンプリング精度だけでなく,シーンの網羅性とサンプリングバランスが質問応答の性能に影響することが明らかになった。
- 質問とビデオの関連性を活用してサンプリングの多様性と類似性をバランスさせる新しいサンプリング手法が提案された。
PerfCoder:解釈可能なコード性能最適化のための大規模言語モデル [cs.SE, cs.AI]目的:コード性能最適化戦略の獲得
- ソフトウェアシステムの性能は重要であり,最適化技術の進歩が不可欠である。
- 既存のLLMは,性能改善に関する明確な指導が不足しており,最適化能力に限界がある。
- 解釈可能な最適化戦略に基づき,コード性能を向上させるLLMを開発すること。
- PerfCoderは,既存モデルを大きく上回り,コードの実行速度向上と効果的な最適化率を達成した。
- 性能向上には,モデルの規模だけでなく,最適化戦略の認識が重要であることが示された。
- PerfCoderはソースコードに関する解釈可能なフィードバックを提供し,他のLLMとの連携により更なる性能向上が可能となった。
EXAONE Path 2.5:マルチオミクスアラインメントによる病理基礎モデル [cs.LG, q-bio.QM]目的:病理画像,ゲノミクス,エピゲノミクス,トランスクリプトミクスを統合した患者表現
- 癌の進行は多層的な生物学的相互作用から生じるため,分子レベルでの理解が重要である。
- 画像のみでは捉えきれない分子層の情報が不足しており,包括的な癌理解の妨げとなっている。
- マルチオミクスデータを統合し,より生物学的に妥当な癌理解を可能にすること。
- EXAONE Path 2.5は,異なるモダリティ間での対照学習を可能にするSigLIP損失関数を導入した。
- WSI内の空間構造と組織フラグメントのトポロジーを保持するF-RoPEモジュールを組み込んだ。
- Patho-Benchおよび臨床データセットにおいて,最先端の基礎モデルと同等の性能を示し,特に臨床環境での適応性が高かった。
ハイブリッドユークリッド・SPD多様体グラフニューラルネットワークによる多変量時系列予測 [cs.LG]目的:多変量時系列予測における精度の向上
- 交通管理や予測保全など,様々な現実世界の応用において重要な役割を担う。
- 既存手法はユークリッド空間またはリーマン空間でのみモデリングし,複雑な時空間依存性を捉えきれない。
- 多様な幾何学的構造を捉え,予測精度を向上させることを目指す。
- 提案手法HSMGNNは,ユークリッド・リーマンハイブリッドなフレームワークで時系列データの幾何的特徴を捉える。
- 入力時系列をユークリッド空間とリーマン空間に射影するSCS埋め込みと,計算コストを削減するADB層を導入。
- 3つのベンチマークデータセットで,最先端手法と比較して最大13.8%の予測精度向上を達成。
建設タスクのための効率的なロボットスキル学習:階層型強化学習と視覚-言語-行動VLAモデルのベンチマーク [cs.RO, cs.AI]目的:建設ロボットの新しいスキル習得における,視覚-言語-行動(VLA)モデルと強化学習(RL)手法の適用可能性の評価
- 建設現場の自動化は,労働力不足の解消や生産性向上に不可欠であり,ロボット技術の活用が期待されている。
- 従来のロボットプログラミングは,時間と労力がかかり,タスクの変化への対応が困難であるという課題がある。
- 本研究は,少ないデータで多様なタスクに対応可能なロボットスキル学習手法を確立し,建設現場への導入を促進することを目指す。
- VLAモデルは,少ないデータで高い汎化性能とFew-shot学習能力を示し,ピックアップ段階で60%と100%の成功率を達成した。
- DQNは,調整により頑健性を高めることができるが,ノイズ付加などのチューニング作業が必要となり,負担が増加する。
- VLAモデルは,プログラミング工数の削減や最小限のデータでの有用な性能により,タスク変更に柔軟に対応できる実用的な利点を提供する。
ACE-SLAM:ニューラル暗黙的リアルタイムSLAMのためのシーン座標回帰 [cs.CV, cs.AI, eess.IV]目的:ニューラル暗黙的SLAMにおけるシーン座標回帰の利用
- SLAMはロボットの自律移動や環境理解に不可欠であり,その性能向上は重要な課題である。
- 従来のSLAMは計算コストが高く,リアルタイム処理やプライバシー保護が課題であった。
- シーン座標回帰を用いて,低コストで高速なSLAMシステムの実現を目指す。
- 本研究は,シーン座標回帰を中核とするニューラル暗黙的RGB-D SLAMシステムを提案し,リアルタイム性を実現した。
- 提案手法は,疎な特徴量と密な特徴量の両方をサポートし,動的な環境下でも安定して動作する。
- 合成データおよび実環境データによる評価により,最先端技術と同等以上の性能を示すことが確認された。
ChartAgent: ツール統合推論を用いたグラフ理解フレームワーク [cs.CV, cs.LG]目的:グラフ理解のためのフレームワーク
- データ分析やコミュニケーションにおいて,グラフは情報密度が高く直感的に理解しやすい重要な手段である。
- 既存のマルチモーダルLLMはテキスト注釈に依存しており,重要な数値が欠損すると性能が低下する。
- ツール統合推論により,グラフの体系的な解析と透明性の高い根拠提示を目指す。
- ChartAgentは,ツール統合推論(TIR)に基づくフレームワークであり,複雑なグラフ分析を再現可能なステップに分解する。
- キー要素検出,インスタンスセグメンテーション,OCRなど,12種類以上のツールを動的に編成し,多様なグラフタイプに対応する。
- 実験により,ChartAgentが疎な注釈環境下で堅牢性を向上させ,信頼性の高いグラフ理解システムを実現することが示された。
農場における自律的な意思決定支援システムのための小規模言語モデルの評価 [cs.IR, cs.CE, cs.AI]目的:酪農の意思決定支援
- 酪農における情報ニーズは高く,専門知識へのアクセスが課題である。
- 大規模言語モデルは計算資源を多く必要とし,農場での利用が困難である。
- 計算資源の制約下で動作する小規模言語モデルの有用性を検証する。
- Qwen-4Bが多くのタスクカテゴリで優れた性能を示したが,PySparkを通じたNoSQLデータベースとの連携では不安定さが見られた。
- 小規模言語モデルを酪農の意思決定エンジンとして利用する可能性を初めて評価した研究である。
- 酪農固有の質問に対する性能向上のためには,追加のファインチューニングが必要である。
OmniDrive-R1:強化学習駆動型多岐にわたるマルチモーダルChain-of-Thoughtによる信頼性の高い視覚言語自律運転 [cs.CV, cs.AI]目的:視覚言語モデルにおける物体幻覚の抑制と,自律運転における信頼性向上
- 自動運転は,人命に関わる安全性が重要であり,高度な認識と判断能力が求められる。
- 既存の視覚言語モデルは,根拠のないテキストベースの推論に依存し,物体幻覚といった信頼性の問題がある。
- マルチモーダルChain-of-Thoughtを統合し,強化学習による視覚的根拠付け能力を高めることで,この問題を解決する。
- OmniDrive-R1は,知覚と推論を統合したエンドツーエンドの視覚言語モデルフレームワークである。
- ベースラインモデルと比較して,推論スコアを51.77%から80.35%へ,最終的な正答率を37.81%から73.62%へと大幅に向上させた。
- アノテーション不要なプロセスベースの報酬関数により,リアルタイムなクロスモーダル整合性を実現し,安定した学習を可能にした。
機械学習ベースのバイナリ解析における関数インライン化とそのセキュリティ影響に関する詳細な調査 [cs.CR, cs.LG, cs.PL]目的:機械学習ベースのバイナリ解析における関数インライン化のセキュリティ影響の包括的な研究
- 近年のコンパイラ最適化技術は,バイナリ解析に大きな影響を与える。性能向上とセキュリティのトレードオフを理解することが重要。
- 関数インライン化がバイナリ解析に与える影響は十分に理解されておらず,セキュリティへの潜在的な脆弱性が見過ごされている。
- 関数インライン化が機械学習モデルの挙動に及ぼす影響を明らかにし,悪意のあるバイナリ変種を生成する可能性を調査する。
- 関数インライン化は,意図に反して機械学習モデルの動作に影響を与え,識別型または生成型モデルの回避に悪用される可能性がある。
- 静的特徴に依存する機械学習モデルは,インライン化に対して高い感度を示すことが明らかになった。
- 微妙なコンパイラ設定を操作することで,意図的に回避可能なバイナリ変種を作成できる。
動的ルーティングを用いた意図Chain-of-Thoughtプロンプティングによるコード生成 [cs.RO, cs.IR, cs.AI]目的:コード生成における意図Chain-of-Thoughtプロンプティングの有効性
- 近年,大規模言語モデルのコード生成能力は飛躍的に向上しており,ソフトウェア開発への応用が期待されている。
- 既存のCoT promptingは,単純なタスクでも過剰な思考を誘発し,効率が悪いという課題がある。
- タスクの複雑さに応じてプロンプティング戦略を動的に切り替えることで,効率性と精度を両立することを目指す。
- 提案手法RoutingGenは,複数のモデルとベンチマークで最先端の性能を達成した。
- RoutingGenは,平均してトークン使用量を46.37%削減することに成功した。
- 導入する意図Chain-of-Thought(ICoT)は,既存のプロンプティング手法と比較して,より困難なベンチマークにおいて優れた性能を示した。
OpenDataArena:ポストトレーニングデータセットの価値を評価するための公平でオープンなプラットフォーム [cs.AI]目的:ポストトレーニングデータの内在的価値を評価するための包括的かつオープンなプラットフォームの提供
- 大規模言語モデルの進化は,学習データの質と多様性に大きく依存する
- モデル自体は厳密に評価されるが,その学習データは不透明であり,体系的な評価が不足している
- データの特性とモデルの挙動の関係を明確化し,データ中心型AI研究を促進すること
- OpenDataArenaは,多様なモデルとドメインにおける公平な比較を可能にする統一された学習・評価パイプラインを確立した。
- データの複雑さとタスクパフォーマンス間のトレードオフ,ベンチマークの冗長性,データセット間の系統関係が明らかになった。
- 高品質なデータ評価へのアクセスを民主化するため,すべての結果,ツール,設定を公開する。
