arXiv雑要約
AI - 2026/05/07 公開
スタイル条件付き拡散ポリシーにおける予測可能性と可読性 [cs.RO, cs.LG]目的:人間とロボットの協働における効率性と透明な動作のバランス
- 人間とロボットの協働において,安全と信頼の確保が重要であり,そのためにはロボットの動作理解が不可欠である。
- ロボットの動作が冗長であり,明らかな目標の場合でも不必要なエネルギーを消費する可能性がある。
- 環境の構成に応じて,ロボットの動作を可読性と効率性の間で調整し,最適な動作を実現すること。
- 提案手法SCDPは,事前学習済みの拡散モデルの軌道生成を,可読性または効率性に制約することで,状況に応じた動作を可能にする。
- 曖昧さ検出モジュールにより,曖昧な目標に対しては表現力豊かな動作を,そうでない場合は効率的な経路を選択し,基本ポリシーの再学習は不要である。
- 操作およびナビゲーションタスクの評価結果から,SCDPは曖昧な状況下での可読性を向上させつつ,可読性が不要な場合には効率性を維持することが示された。
LLMは社会科学における機関の記録から科学的嗜好を学習する [cs.AI, econ.GN, q-fin.EC]目的:社会科学における研究提案の評価に関するAIモデルの性能向上
- 科学研究の進展には,質の高い研究を効率的に見出す評価が不可欠である。
- 検証が困難な分野では,客観的な評価基準がなく,有望な研究を見極めるのが難しい。
- 機関の記録をAIの学習信号として活用し,科学的評価の精度向上を目指す。
- LLMを社会科学分野の出版実績でファインチューニングした結果,既存モデルを大幅に上回る性能を示した。
- 特に管理学においては,専門家集団よりも高い精度で研究提案の評価が可能となった。
- モデルの自信度は予測の正誤に応じて変動し,熟練した査読者の判断を模倣していることが示された。
Attention Sink が勾配 Sink を誘発する:Transformer における巨大活性化は勾配の調整因子である [cs.RO, cs.SY, eess.SY, cs.LG, cs.AI]目的:Transformer モデルにおける Attention Sink と巨大活性化の関係性の解明
- Transformer は自然言語処理の分野で重要な役割を果たしており,その性能向上は喫緊の課題である。
- Attention Sink や巨大活性化といった現象は Transformer の学習を阻害する要因となりうる。
- 本研究は,これらの現象を勾配の観点から分析し,学習の安定化を目指す。
- Attention Sink が勾配の集中を引き起こす現象(勾配 Sink)を理論的,実験的に示した。
- 巨大活性化は,RMSNorm の勾配減衰を調整することで,局所的な勾配圧力を緩和する役割を果たすと解釈できる。
- V-scale による勾配調整によって,Attention Sink は維持されつつ,巨大活性化を抑制することに成功した。
効率的なエコー状態ネットワークのための中心性に基づくプルーニング [cs.LG, cs.AI, math.OC]目的:エコー状態ネットワークの効率化
- 非線形時系列予測において広く用いられ,計算資源の制約下での応用が期待される。
- ランダム初期化された貯留槽は冗長なノードを含むことが多く,計算コストの増大を招く。
- 貯留槽をグラフとして捉え,中心性指標を用いて重要度の低いノードを除去し,効率化を図る。
- 提案手法により,予測精度を維持しつつ,貯留槽のサイズを大幅に削減できることが示された。
- Mackey-Glass時系列予測および電力負荷予測の実験で有効性が確認された。
- 中心性に基づくプルーニングは,計算コスト削減と予測精度の向上に貢献する。
大規模言語モデルにおける推論の脆弱性に関するリアルタイム監視:コンテンツ安全性を超えて [cs.AI, cs.CR]目的:大規模言語モデルの推論過程における安全性確保
- 言語モデルの応用拡大に伴い,その安全性への関心が高まっている。
- 既存研究は主に最終出力の安全性に焦点を当て,推論過程自体の安全性は未解明である。
- 推論過程における論理的矛盾や効率性,敵対的攻撃への耐性を評価し,監視システムを開発する。
- 推論過程における9種類の安全でない行動を特定し,大規模な実証実験でその発生頻度を明らかにした。
- 推論過程をリアルタイムで監視する「Reasoning Safety Monitor」を提案し,高い位置特定精度を達成した。
- 本研究は,大規模推論モデルの安全な展開に不可欠な推論安全性の監視の実現可能性を示す。
ARTA:スパース制約摂動による敵対的ロバストな多変量時系列異常検知 [cs.LG]目的:多変量時系列データの異常検知における敵対的ロバスト性の向上
- 複雑なシステムの監視において,時系列異常検知は不可欠であり,その重要性は高い。
- 深層学習に基づく異常検知器は,局所的な入力の破損や構造化ノイズに脆弱であるという課題がある。
- 敵対的摂動に対するロバスト性を高め,より安定した異常検知を実現することを目的とする。
- ARTAは,異常検知器とスパース制約マスク生成器を同時に訓練するフレームワークである。
- 敵対的訓練戦略により,検知器の脆弱な決定経路を明らかにし,安定した時系列パターンへの依存を促す。
- TSB-ADベンチマークにおける実験で,ARTAは多様なデータセットにおいて一貫して性能を向上させ,ノイズに対する耐性も高いことが示された。
DPD-Cancer:小分子抗がん活性予測のための説明可能なグラフベース深層学習 [cs.LG, cs.AI]目的:小分子の抗がん活性予測
- 創薬研究において,効率的な抗がん剤候補の特定は重要な課題である。
- 既存の予測モデルは,予測精度や説明可能性に課題が残されている。
- 予測精度と説明可能性を両立した新たなモデルの開発が求められている。
- 本研究で開発したDPD-Cancerは,NCI-60パネルにおいて高い予測性能を示した(AUROC 0.87,AUPRC 0.73)。
- 既存モデルと比較して,Matthew’s Correlation Coefficient (MCC) スコアにおいて優位性が見られた。
- オクルージョン分析により,モデルの説明が分類決定に忠実であることが確認された。
幾何学的進化グラフ畳み込みネットワーク:リッチフローによるグラフ表現学習の向上 [cs.LG]目的:グラフ表現学習における幾何学的進化の明示的なモデル化
- グラフ構造は複雑な関係性を表現可能であり,様々な分野で応用が広がっている。
- グラフ構造の動的な変化を捉えることは困難であり,表現学習のボトルネックとなっている。
- リッチフローを用いたグラフ構造の進化をモデル化し,表現学習の性能向上を目指す。
- 提案手法GEGCNは,グラフ構造上の幾何学的進化をLSTMで捉え,グラフ畳み込みネットワークに組み込む。
- 様々なベンチマークデータセットにおいて,同質グラフ,異質グラフ,大規模グラフで優れた分類性能を示した。
- 動的な表現を学習することで,グラフ表現学習の精度を向上させることを実証した。
情報理論に基づくカテゴリー化の合理的な説明 [cs.AI, cs.IT, cs.LG, math.IT]目的:カテゴリー化の合理性
- 認知科学において,人間がどのように概念を形成し,分類するのか理解することは重要である。
- 既存のモデルでは,カテゴリー化のプロセスを完全に説明できていない場合がある。
- 情報理論に基づき,カテゴリー化の合理性を説明する新しいモデルを提案し,検証する。
- 本研究で提案する理論は,Hayes-Roth & Hayes-Roth (1977), Medin & Schaffer (1978), Smith & Minda (1998) の古典的なカテゴリー化実験の結果をよく説明できる。
- その説明力は,独立した手がかりモデルやコンテキストモデル,合理的なカテゴリー化モデル,階層的ディリクレ過程モデルと同等かそれ以上である。
ホークス過程の並列正確推論 [cs.LG, stat.ML]目的:ホークス過程の正確な推論手法
- 自己励起点過程は,現象の発生メカニズムを解明する上で重要である。
- イベント数が増加すると,最尤推定の計算量が指数関数的に増加する。
- GPUを用いた並列化により,計算効率を向上させることを目指す。
- 提案手法は,線形指数ホークス過程の推定計算量を大幅に削減できる。
- 並列処理により,従来の計算手法を大きく上回る規模のデータセットに対応可能である。
- 正確な尤度計算を実現し,モデルの解釈性と簡潔さを維持している。
適応逆強化学習における反事実勾配推定のためのMalliavin計算 [cs.LG]目的:適応逆強化学習のための新しい受動的なLangevinベースアルゴリズム
- 強化学習において,行動原理を学習する逆強化学習は重要な課題である。
- 従来のアルゴリズムでは,反事実的な勾配推定の効率が低いという問題がある。
- Malliavin計算を用いて,反事実勾配を効率的に推定し,学習速度を向上させる。
- 本研究では,Malliavin計算を用いることで,反事実的な条件付けを無条件期待値の比として表現することに成功した。
- これにより,標準的な推定レートを回復し,従来のカーネル平滑化法の収束速度の遅さを克服する。
- Langevin構造に対する必要なMalliavin微分と,その随伴Skorohod積分の定式化を導出した。
LOCARD:ブロックチェーンフォレンジックのためのエージェント的フレームワーク [cs.CR, cs.AI]目的:ブロックチェーンフォレンジック調査のエージェント化
- ブロックチェーン技術の普及に伴い,不正利用の調査・分析の重要性が高まっている。
- 既存手法は静的な推論パイプラインに依存し,動的で反復的な調査に対応しにくい。
- エージェント的フレームワークを通じて,より柔軟で高度なブロックチェーンフォレンジック調査を可能にする。
- LOCARDは,戦略的計画,実行,評価を分離するTri-Core Cognitive Architectureを採用している。
- Structured Belief Stateメカニズムにより,フォレンジック調査の厳密性を担保し,状態制約下での探索を誘導する。
- クロスチェーン取引追跡において,Sybilクラスターの解体を目的とした評価で高い精度を達成した。
主要鍵仮説:線形部分空間アラインメントによるクロスモデル能力転移の解錠 [cs.CY, cs.LG, cs.AI]目的:クロスモデル能力転移の可能性
- 大規模言語モデルの能力向上は重要だが,モデルのスケール拡大にはコストがかかる。
- モデルの再学習なしに,異なるモデル間で能力を転移させることは困難である。
- 線形部分空間アラインメントによる能力転移の実現を目指す。
- 事前学習で獲得された能力が転移の成功に依存することが示された。
- Qwen1.5-14BからQwen1.5-7BへのCoT推論の転移により,MATHの精度が12.1%向上した。
- Qwen3-4B-BaseからQwen3-14B-Baseへの数学的推論方向の転移により,AGIEval Mathの精度が61.1%から71.3%に向上した。
ROZAグラフ:エビデンス中心フィードバックによる自己改善型ほぼ決定論的RAG [cs.AI, cs.CL]目的:エビデンス中心フィードバックを通じた,自己改善的なRAG(Retrieval-Augmented Generation)システムの開発
- 大規模言語モデルの性能向上には,知識検索と推論能力の組み合わせが不可欠である。
- 従来のRAGシステムは,毎回推論をやり直すため,精度と再現性に課題があった。
- エビデンスに基づく推論グラフと検索グラフを活用し,RAGシステムの精度と効率を改善する。
- ROZAグラフは,エビデンスの利用状況に応じて精度が向上し,MuSiQueおよびHotpotQAで10.6ppの精度向上を示した。
- 4-hopの質問に対する精度も11.0pp改善され,複数ステップの推論においても有効性が確認された。
- リソース使用量と応答速度の双方において優れた性能を示し,コストと遅延がそれぞれ46%削減された。
具現化されたエージェントにおける能力進化の統制:安全なアップグレード,適合性検証,および実行時ロールバック [cs.RO, cs.AI]目的:具現化されたエージェントの能力モジュールの安全なアップグレードと互換性検証,実行時ロールバック
- ロボットなどの具現化されたエージェントの性能向上が重要であり,継続的な能力更新が求められている。
- 能力モジュールの進化に伴い,安全性の確保,既存機能との互換性,および復旧機能の維持が課題となっている。
- 安全なアップグレードと互換性検証,実行時ロールバックにより,能力進化に伴うリスクを軽減することを目的とする。
- 提案手法では,新しい能力バージョンを段階的な実行時パイプラインで検証し,安全性を確保する。
- 実験の結果,naiveなアップグレードと比較して,安全性を損なうことなく同程度のタスク成功率を維持した。
- シャドーデプロイメントにより,サンドボックス評価では検出できない40%の回帰が明らかになり,ロールバックが79.8%のケースで成功した。
LABBench2:生物学研究を行うAIシステムの改善されたベンチマーク [cs.AI, cs.CL, cs.LG]目的:生物学研究を行うAIシステムの能力測定
- AIによる科学的発見の加速への期待が高まっており,その進捗を測る必要性が増している。
- 既存のベンチマークは,現実世界でのAIの能力を十分に評価できていないという課題がある。
- より現実的なコンテキストでAIシステムの科学的作業能力を評価し,改善の余地を示すことを目指す。
- LABBench2は,約1,900のタスクで構成され,LAB-Benchの進化版として,同様の能力をより現実的な状況で測定する。
- 最先端モデルの評価により,LAB-BenchとLABBench2の両方でAIの能力は向上していることが示された。
- LABBench2は難易度が高く,さらなる性能向上の余地があることを強調している(サブタスク間で26%から46%の精度低下)。
因果的視線:大規模言語モデルにおける反事実グラフ介入による幻覚の解明 [cs.LG]目的:大規模言語モデルの幻覚検出
- 大規模言語モデルの応用範囲拡大には,その信頼性が不可欠であるため。
- 既存手法は内部状態の静的な信号に頼るため,ノイズに弱く,幻覚の原因特定が困難である。
- 因果グラフ介入により,因果関係とノイズを分離し,幻覚の検出精度を向上させる。
- CausalGazeは,大規模言語モデルの内部状態を動的な因果グラフとしてモデル化する。
- 反事実介入を用いることで,因果推論経路から付随的なノイズを分離し,モデルの解釈性を高める。
- TruthfulQAデータセットにおいて,最先端手法と比較してAUROCが5.2%以上向上する等,高い有効性が確認された。
推論モデルが行動シミュレーションを損なうとき:マルチエージェントLLM交渉におけるソルバー・サンプラーの不一致 [cs.LG, cs.AI, cs.CY, cs.MA]目的:マルチエージェント交渉環境におけるLLMのソルバー・サンプラー不一致の検証
- 政策決定に直結する制度シミュレーションにおいて,LLMエージェントの活用が進んでいる。
- LLMの推論能力向上は,必ずしも行動サンプリングの質の向上に繋がらない可能性がある。
- LLMにおける推論能力と行動シミュレーションの乖離を明らかにし,適切なモデル評価のあり方を提示する。
- 推論能力の高いモデルは,権威に依存した結果に収束する傾向が認められた。
- 交渉構造を組み込んだ介入によってのみ,交渉による解決策が安定的に得られた。
- 制度シミュレーションにおいては,戦略的思考力だけでなく,行動シミュレーションとしての適性を評価する必要がある。
DEEP-GAP:GPUアーキテクチャ性能における実行並列性の深層学習による評価 [cs.PF, cs.AR, cs.LG]目的:GPUにおける推論性能の評価
- データセンターでは,省電力な推論アクセラレータの需要が高まっている。
- T4とL4の性能差について,実証的な比較データが不足していた。
- T4とL4の推論性能を定量的に比較し,最適な設定を提示する。
- 低精度化により性能が大幅に向上し,INT8ではCPU比で最大58倍の性能改善が確認された。
- L4はT4と比較して最大4.4倍の推論スループットを実現し,特に小規模バッチサイズで効率が良い。
- 大規模バッチ処理ではT4も依然として競争力があり,コストや電力効率を重視する場合に適している。
データ不確実性,バッテリー設計,計画期間におけるバッテリースケジューリングの高効率領域のマッピング [cs.LG, cs.SY, eess.SY]目的:エネルギー価格裁定取引におけるエネルギー貯蔵計画の不確実性下分析
- 電力系統安定化や再生可能エネルギー導入拡大において,エネルギー貯蔵の最適化は不可欠である。
- バッテリー特性,データ構造,予測不確実性,計画期間といった要素の同時考慮が不足している。
- 不確実性下における最適な計画期間の決定と,それに基づいたモデリング手法の確立を目指す。
- 本フレームワークは,様々な設定において一貫した構造的依存性を捉え,不確実性下での計画期間選択に関する示唆を提供する。
- 予測不確実性の増加は,バッテリーの種類に関わらず最適な計画期間を短縮させることが示された。
- 実市場データとの比較により,本パラメトリックモデルが複雑なシミュレーションの代替となりうる可能性が示唆された。
MambaBack:ホールスライド画像解析における局所特徴とグローバルコンテキストの架け橋 [cs.CV, cs.AI]目的:ホールスライド画像解析における,局所特徴とグローバルコンテキストの統合
- 病理診断の精度向上に貢献するため,計算論的病理学におけるホールスライド画像解析の重要性が高まっている。
- 既存のMILアプローチでは,空間的局所性の損失や微細な細胞構造のモデル化が不十分である。
- MambaとGated CNNsの強みを組み合わせ,効率的かつ高精度なホールスライド画像解析を実現することを目指す。
- 提案手法MambaBackは,既存の最先端手法7つと比較して,5つのデータセットで優れた性能を示した。
- Hilbertサンプリング戦略により,1次元シーケンス内のタイル空間局所性を維持し,モデルの空間認識能力を向上させた。
- 非対称チャンキング設計により,学習時の並列処理と推論時のメモリ使用量を最小限に抑え,エッジデバイスへの展開を容易にした。
SegMix:シャッフルに基づくフィードバック学習による病理画像のセマンティックセグメンテーション [cs.CV, cs.AI]目的:病理画像のセマンティックセグメンテーションのためのシャッフルに基づくフィードバック学習手法
- 病理画像解析は,疾患領域の特定や診断・治療に不可欠であり,医療現場での重要性が高い。
- 高品質なピクセルレベルの教師データ取得には専門家による労力がかかるため,深層学習の適用が制限される。
- 画像レベルのラベルのみでセマンティックセグメンテーションを実現し,データ利用の拡大と応用範囲の向上を目指す。
- 提案手法SegMixは,カリキュラム学習に着想を得たシャッフル戦略により,高品質な疑似セグメンテーションマスクを生成する。
- 画像パッチレベルでのシャッフルと,それに対するモデルの適応的な戦略調整が,SegMixの特徴である。
- 3つの異なるデータセットにおいて,SegMixは既存手法を上回る性能を示すことが確認された。
AutoOR:大規模言語モデルによるオペレーションズ・リサーチ問題の自動定式化 [eess.SY, cs.SY, cs.LG, cs.AI]目的:オペレーションズ・リサーチ問題の自動定式化
- 製造,物流,スケジューリング等,様々な産業における意思決定の根幹をなす最適化問題の重要性。
- 最適化問題をソルバーで解ける形式に翻訳するには専門知識が必要であり,その規模拡大が困難。
- 自然言語で記述された最適化問題を,大規模言語モデルを用いて自動的に定式化することを目指す。
- AutoORは,線形,混合整数,非線形の問題に対して,既存のベンチマークで最先端またはそれに匹敵する性能を達成した。
- 特に,既存モデルがほぼ解けない非線形問題に対して,カリキュラムRL戦略により,学習を可能にした。
- 本手法は,AIによる産業界の意思決定を大幅に加速させる可能性を示唆する。
SLMハーネスへの決定論的構造のコンパイル [cs.RO, cs.CE, math.PR, cs.AI]目的:企業向けSLM導入における知識の非対称性克服
- 大規模言語モデル(LLM)の企業利用拡大に伴い,費用対効果とデータ主権の確保が課題となっている。
- 小規模モデルは推論エラーを自己修正できず,大規模モデルはコストとリスクが高い。
- 決定論的構造へのコンパイルにより,少ないデータでSLMのワークフローを効率的に改善すること。
- Semantic Gradient Descent(SGDe)は,エージェントのワークフローを離散的な実行計画にコンパイルする。
- SGDeは,わずか3つの訓練例で収束し,GSM-Hardテストセットで91.3%~99.3%の精度を達成した。
- SGDeは,Pythonへのタスク委譲を最適化し,信頼性の低い場合にPythonを使い,変動しやすいステップには決定論的投票を用いる。
エージェントはルートシェルを夢見るか? CTFチャレンジにおけるLLMエージェントの段階的評価 [cs.CL, cs.CL, cs.AI, cs.CR, cs.SE]目的:LLMエージェントのCTFチャレンジにおける能力評価
- サイバーセキュリティの自動化は,人的資源の不足を補い,脅威への迅速な対応を可能にする点で重要である。
- LLMエージェントの実際の攻撃環境における能力は不明であり,その評価方法も確立されていない。
- 現実的なCTF環境でLLMエージェントの能力を詳細に分析し,課題の特定を試みる。
- DeepRedというCTF評価ベンチマークが開発された。これにより,LLMエージェントの実行ログを詳細に分析できる。
- 10種類のLLMを10種類のCTFチャレンジで評価した結果,平均的なチェックポイント完了率は35%にとどまった。
- 一般的な課題は比較的得意だが,非標準的な探索や長期的な適応を要する課題は苦手であることが示された。
ガウス・コルモゴロフ=アーノルド・ネットワークにおけるスケールパラメータ選択 [cs.IR, cs.MA, cs.CE, cs.AI, math.AP]目的:ガウス・コルモゴロフ=アーノルド・ネットワークにおけるスケールパラメータの選択に関する研究
- 近年,柔軟なニューラルアーキテクチャとして注目されており,固定された活性化関数に代わる学習可能な関数を用いる点が特徴である。
- ガウス基底関数を用いる場合,その性能はスケールパラメータに強く依存するが,その影響は体系的に研究されていなかった。
- 最初の層のフィーチャー幾何学,条件付け,近似振る舞いを通じてスケールパラメータがガウスKANに与える影響を分析し,最適な範囲を特定する。
- スケールパラメータの選択は主に最初の層によって支配され,入力ドメイン上で直接構築された層で識別性が失われると,後続の層では回復できない。
- 実用的な動作範囲は,ガウス中心の数Gに対して\[ \epsilon \in \left[\frac{1}{G-1},\frac{2}{G-1}\right] \]であり,普遍的な最適解ではなく,安定性と有効な設計規則として解釈される。
- この範囲は,固定スケール選択,可変スケール構築,制約付きトレーニング,早期トレーニングMSEを用いた効率的なスケール検索に役立つ。
LLMにおけるアンラーニングのための制御可能なアライメントプロンプティング [cs.LG, cs.AI]目的:大規模言語モデルからの不要知識の選択的除去
- LLMは広範なデータで学習するため,機密情報を含むリスクがあり,安全性確保が重要である。
- 既存のアンラーニング手法は計算コストが高い,忘却範囲の制御が困難,モデルへのアクセスが必要などの課題がある。
- 本研究は,モデルパラメータを更新せずに,制御可能で正確な知識除去を実現する。
- CAPは,強化学習を通じて学習可能なプロンプト最適化を行い,対象知識を抑制しつつ汎用能力を維持する。
- プロンプトの取り消しにより,知識の復元が可能であり,動的なアライメント機構を提供する。
- 実験により,CAPが従来の限界を克服し,高精度かつ制御されたアンラーニングを実現することが示された。
LoRAにおけるサブトークンルーティング:適応とクエリ認識KV圧縮 [cs.LG, cs.CL]目的:LoRA適応トランスフォーマーにおけるサブトークンルーティングによる効率化
- トランスフォーマーの効率化は,大規模言語モデルの普及に不可欠である。
- 従来の圧縮手法はトークン単位など粗い粒度で行われ,更なる効率化の余地がある。
- サブトークン単位でのルーティングにより,よりきめ細かい圧縮を実現し,性能低下を抑制する。
- クエリ非依存型設計は,KV予算削減下で言語モデルの品質を向上させる。
- クエリ認識型設計は,KV圧縮下での下流タスクの挙動を維持する。
- サブトークンルーティングは,トークンレベル選択と組み合わせることで,より深いKV圧縮を可能にする。
負荷制約下風力発電所流れ制御における多目的マルチエージェント強化学習 [cs.CL, eess.SY, cs.LG, cs.SY]目的:負荷制約下風力発電所流れ制御のための多目的マルチエージェント強化学習フレームワーク
- 風力発電は再生可能エネルギー源として重要であり,発電効率の向上が求められている。
- ウェイク制御は発電量を増やせるが,下流の風車への負荷増大という課題がある。
- 発電量最大化と構造負荷の抑制を両立する制御戦略を確立することを目指す。
- マルチエージェント強化学習により,風車ごとの協調的な制御ポリシーを獲得した。
- 獲得されたポリシーは発電量の増加を優先しつつ,高DEL制御戦略を回避する。
- 設定した負荷増加閾値(10%, 20%, 30%)内で,発電量と負荷のバランスを取ることができた。
コードブローカー:自動コード品質評価のためのマルチエージェントシステム [cs.SE, cs.AI, cs.CL, cs.PL]目的:Pythonコードの自動コード品質評価
- ソフトウェア開発において,高品質なコードは信頼性と保守性の確保に不可欠である。
- 従来のコード品質評価は,静的解析ツールに依存しており,より高度な評価が課題であった。
- LLMと静的解析を融合し,多角的なコード品質評価を実現すること。
- 本システムは,正確性,セキュリティ,スタイル,保守性の4つの品質次元を定量的に評価する。
- 並列化された専門エージェントにより,開発者向けの読みやすいフィードバックを生成し,従来のリンティングを補完する。
- 評価の深さ,セキュリティツール,大規模リポジトリへの対応,メモリ内永続化への依存といった限界も明らかになった。
LLMベースAIエージェントにおけるセキュリティ脅威と防御の体系的調査:階層型攻撃対象領域フレームワーク [cs.CR, cs.LG]目的:LLMベースAIエージェントのセキュリティ脅威と防御に関する体系的調査
- AIエージェントの利用拡大に伴い,そのセキュリティ確保は重要性を増している。
- 既存のセキュリティ分類は攻撃タイプに焦点を当て,脅威がどこで,どの時間軸で発生するか不明瞭である。
- エージェントの構造を階層化し,時間軸も考慮することで,脅威と防御の全体像を明確化する。
- 本研究では,AIエージェントのセキュリティを7層構造と4つの時間軸で分類する「階層型攻撃対象領域モデル」を提案した。
- 2021年から2026年までの116論文を分析した結果,高層レイヤーにおける長期的な脅威への対策が不足していることが判明した。
- また,防御策の分類,攻撃クラスへの対応策,そして今後の課題を明確にした。
スーパーノードとハロ:LLMフィードフォワード層における損失重要ハブ [cs.LG, cs.CL]目的:LLMフィードフォワードネットワークにおけるチャンネルレベルの重要性の組織
- LLMの性能向上には,モデルの内部構造理解と効率的な圧縮が不可欠である。
- 既存の研究では,LLMの重要チャンネルの特定と保護が十分でない。
- 損失に重要なチャンネルを特定し,それらを保護する効率的なプルーニング手法を開発する。
- Transformer FFNにおいて,損失感受性は各層の少数のチャンネルに集中していることが示された。
- 損失重要度の高いチャンネル(スーパーノード)は,活性化の異常値とは重複が弱く,活性化の強さや重みノルムだけでは説明できない。
- スーパーノードを保護するSCAR-Protは,Wanda-channelと比較してperplexityを大幅に改善し,構造化プルーニングの重要性を示した。
乳房X線画像における軽量モデルを用いた病変セグメンテーション:比較研究 [cs.CV, cs.LG]目的:乳房X線画像における病変セグメンテーションの性能と効率
- 乳癌は女性の癌関連死亡の主要な原因であり,マンモグラフィが主要なスクリーニング手段である。
- 既存の深層学習モデルは高性能だが,計算資源を多く必要とし,実用環境での利用が制限される。
- 限られた計算資源でも利用可能な,軽量な病変セグメンテーションモデルを開発すること。
- MobileNetV2-SCSEはU-Netと比較してパラメータ数を75%削減しつつ,Dice係数0.5766という最高の性能を達成した。
- DMIDデータセットでのクロスデータセット評価では,ドメインシフトにより精度が低下したが,Recallは維持された。
- 本研究は,実用的なCADシステムの展開において,軽量なアーキテクチャが性能と効率のバランスを取る有効性を示す。
モバイルアプリへの小型言語モデル統合の課題:Less Is More [cs.SE, cs.AI, cs.CL]目的:モバイルアプリにおけるオンデバイス小型言語モデル統合のエンジニアリング課題
- モバイル環境でAIを活用する需要が高まる中で,プライバシー保護とオフライン環境での利用が重要視されている。
- オンデバイスでの言語モデル利用は,計算資源の制約やモデルの不安定性など,多くの技術的課題を抱えている。
- 実用的なモバイルアプリへの統合における課題を特定し,その解決策を提示することで,オンデバイスAIの実現可能性を探る。
- モバイルアプリPalabritaへのSLM統合事例では,LLMによる完全なパズル生成から,単語リストと短いヒント生成への設計変更が必要となった。
- 出力形式違反,制約違反,コンテキスト品質低下,レイテンシの問題,モデル選択の不安定性など,SLM統合特有の5つの失敗カテゴリが特定された。
- 防御的な解析,失敗フィードバックによる再試行,セッションローテーション,プロンプトの段階的な強化などが,これらの課題を軽減する効果的な戦略として示された。
知識蒸留は失うものを考慮する必要がある [cs.LG, cs.AI]目的:知識蒸留における能力損失の考慮
- 大規模モデルの効率的な活用が求められる中で,知識蒸留はモデルの軽量化に不可欠な手法である。
- 蒸留後のモデル評価はタスクの精度に偏重し,教師モデルの重要な能力が失われる場合がある。
- 教師モデルの信頼性を支える能力を維持した蒸留モデルの実現を目指す。
- 知識蒸留は単なるタスク精度の再現ではなく,教師モデルの能力保持を評価する必要がある。
- 従来の評価方法は,タスク精度と教師モデルの能力保持を混同する誤りがある。
- 損失を伴う投影として蒸留を捉え,測定可能な能力損失の分類を提示し,損失報告の標準化を提案する。
GPT-Image-2の野生における利用: 初回公開週の自己申告AI生成画像Twitterデータセット [cs.CV, cs.AI]目的:GPT-Image-2によって生成された画像のTwitterデータセット
- AI生成技術の進展は,写真と合成画像の区別を困難にしている。社会への影響を理解する上で重要である。
- AI生成画像の識別は難しく,誤情報拡散のリスクがある。検証可能なデータセットが不足している。
- GPT-Image-2生成画像を集め,特性を分析することで,識別や影響評価に貢献する。
- データセットは10,217枚のGPT-Image-2生成画像を含み,多言語のテキスト分析やAIバッジ検証を経て収集された。
- 画像には,被写体分類,OCRテキストの可読性,顔検出,セマンティッククラスタリングなどの分析が適用された。
- TwitterのCDNがC2PAコンテンツ認証を削除するため,ソーシャルメディア由来のAI画像の真正性確認は困難である。
共学習ポート・ハミルトニアンシステムと最適エネルギー整形制御 [eess.SY, cs.AI, cs.LG, cs.SY, math.OC, stat.ML]目的:ポート・ハミルトニアンシステムと最適エネルギーバランシング受動制御器の共学習
- エネルギー効率の良い制御は,ロボット工学や電力システムなど,様々な分野で重要である。
- 複雑なシステムの受動制御器設計は,システムのモデル化の困難さから課題が多い。
- 軌跡データからシステムのモデルと制御器を同時に学習し,受動制御の実現を試みる。
- 提案手法は,軌跡データと交互最適化により,受動制御器とシステムモデルを同時に学習する。
- 学習された制御器は閉ループ系を本質的に受動的かつ安定化させ,システムの自然な潜在力を活用する。
- シミュレーションから現実世界へのギャップを克服するために,エネルギー減衰を促進する正則化項を導入した。
構成ロボットポリシーにおけるスキル更新のための原子プローブガバナンス [cs.RO, cs.AI]目的:構成型ロボットポリシーにおけるスキル更新のガバナンス手法の開発
- ロボットの汎用性と適応性を高める上で,継続的なスキル更新は不可欠である。
- 既存手法では,テスト時にスキルライブラリを固定しており,スキル更新による影響が不明確である。
- スキル更新の影響を定量的に評価し,最適なスキル選択を可能にする手法を確立する。
- スキル更新により,特定のスキル(支配的スキル)が構成に組み込まれるかどうかが,成功率に大きく影響することが示された。
- 従来のオフポリシー行動距離指標は,この支配的スキルを特定できないことが判明した。
- 原子品質プローブとハイブリッドセレクターを提案し,スキル更新のガバナンスにおける費用対効果を検証した。
パスロック・エキスパート:ハイブリッド思考における推論モードの分離 [eess.SY, cs.SY, cs.RO, cs.HC, cs.CL, cs.AI, cs.LG]目的:ハイブリッド思考言語モデルにおける思考モードと非思考モードの分離
- 言語モデルの高度化に伴い,推論能力と応答の簡潔性の両立が求められている。
- 従来のハイブリッド思考モデルでは,思考モードと非思考モードが明確に分離されておらず,非思考モードでも不要な推論が漏洩する。
- モード固有の経路分離により,推論漏洩を抑制し,より正確で簡潔な非思考モードを実現する。
- パスロック・エキスパート(PLE)は,各デコーダー層の単一MLPを,思考モードと非思考モード専用の2つの専門家ネットワークに置き換える。
- PLEは,AIME24ベンチマークにおいて,非思考モードでの推論的トークン数を大幅に削減し,精度を向上させた。
- 本研究は,制御可能なハイブリッド思考がアーキテクチャレベルの問題であり,モード固有の経路分離が有効な解決策であることを示唆する。
WaferSAGE:合成データ生成と評価基準に基づく強化学習によるウェハ欠陥分析 [cs.AI]目的:ウェハ欠陥の視覚的質疑応答
- 半導体製造において,ウェハ欠陥の正確な特定は,製品の品質と歩留まりに不可欠である。
- ウェハ欠陥の学習データは,ラベル付けコストが高く,十分な量が得られにくいという課題がある。
- 本研究は,合成データ生成と強化学習を通じて,データ不足を克服し,高精度な欠陥分析を実現する。
- 提案手法WaferSAGEは,小規模な言語モデルと視覚モデルを用いて,ウェハ欠陥の視覚的質疑応答を行うフレームワークである。
- 構造化された評価基準を用いた合成データ生成により,欠陥の種類,分布,形状,原因分析を網羅した質の高い学習データを効率的に生成できる。
- 40億パラメータのQwen3-VLモデルが,Gemini-3-Flashに匹敵する性能を示し,オンプレミスでの展開が可能であることを示した。
不規則多変量時系列予測のための確率回路 [cs.LG]目的:不規則多変量時系列予測における不確実性の定量化
- 時系列データは,様々な分野で重要な役割を果たすため,予測精度の向上が求められている。
- 既存手法では,モデルの表現力と一貫性のある周辺化のバランスが難しく,信頼性の低い予測となることがある。
- 複雑な依存関係を捉えつつ,有効な同時分布を保証する予測モデルを開発すること。
- 提案手法CircuITSは,確率回路に基づき,不規則多変量時系列の確率的予測を実現する。
- 実験の結果,CircuITSは最先端の手法と比較して,同時および周辺密度推定において優れた性能を示した。
- モデルは柔軟に時系列間の複雑な依存関係を捉え,有効な同時分布構造を保証する。
大規模言語モデルにおけるエージェント的強化学習の概要 [cs.AI, cs.ET]目的:大規模言語モデルにおけるエージェント的強化学習の概念的基盤,方法論的革新,効果的な設計
- 従来の強化学習は特定の環境に限定されていたが,大規模言語モデルの登場により,より複雑な課題への応用が期待される。
- 従来の強化学習は静的な目的関数に依存し,現実世界の不確実性への対応が課題であった。
- 本研究は,大規模言語モデルを用いたエージェント的強化学習の課題と将来の方向性を明らかにすることを目的とする。
- エージェント的強化学習は,目標設定,長期計画,動的な戦略適応,不確実な環境におけるインタラクティブな推論を可能にする。
- 従来の強化学習とは異なり,メタ推論や自己反省といった認知的な能力を学習ループに組み込む点が特徴である。
- 本稿では,このトレンドの背後にある概念,方法論,設計について考察し,今後の展望を示す。
手続き的タスクにおいて,文脈内プロンプティングがエージェントオーケストレーションを不要にする [cs.AI, cs.LG]目的:手続き的タスクにおけるエージェントオーケストレーションと文脈内プロンプティングの比較
- 大規模言語モデル(LLM)の活用は,複雑なタスクの自動化において重要性が増している。
- 従来のLLMの能力では,エージェントオーケストレーションが必要とされていた。
- 最新LLMの能力により,より簡潔な文脈内プロンプティングで十分な性能が得られるか検証する。
- 旅行予約,Zoomテクニカルサポート,保険請求処理の3つの領域で,文脈内プロンプティングはエージェントオーケストレーションよりも高い品質スコア(4.53-5.00)を示した。
- エージェントオーケストレーションでは,タスクの失敗率が旅行で24%,Zoomで9%,保険で17%であったのに対し,文脈内プロンプティングではそれぞれ11.5%,0.5%,5%に減少した。
- 最新のLLMの能力向上により,定義された手順に従うマルチターン会話において,外部オーケストレーションは不要であることが示唆された。
視覚的プライミングが視覚言語モデルの協調行動に及ぼす影響 [cs.AI, cs.CV]目的:視覚言語モデルにおける協調行動への視覚的プライミングの影響
- 視覚言語モデルは意思決定システムへの統合が進んでおり,その行動原理の理解が重要である。
- 視覚入力がモデルの行動に与える影響は十分に解明されていない。
- 視覚的プライミングによる行動変化を検証し,その影響を軽減する手法を模索する。
- 視覚言語モデルの行動は,画像の内容や色といった視覚的要素によって影響を受けることが示された。
- モデルによって影響を受けやすさや軽減策の効果に差が見られた。
- 視覚的に豊富な環境下での安全な利用のため,堅牢な評価フレームワークの重要性が強調された。
順序の力:敵対的表の並べ替えによるLLMの欺瞞 [cs.CL, cs.LG]目的:大規模言語モデルの表形式データに対する脆弱性の検証
- 表形式データ処理は,質問応答など,重要な応用分野でLLMの利用が拡大しているため重要である。
- LLMは表の構造に脆弱であり,わずかな並べ替えで誤った出力を生む可能性がある。
- 表の並べ替えによる脆弱性を明らかにし,より堅牢なモデル開発の必要性を示す。
- 敵対的表の並べ替え(ATP)により,様々なLLMの性能が大幅に低下することが確認された。
- ATPは,モデルサイズやアーキテクチャに関わらず,幅広いLLMに対して有効であった。
- 現在のLLMは構造化データの処理に根本的な弱点があり,実用化には改善が必要である。
NR-U/Wi-Fi共存におけるシステムレベルのトレードオフ制御のためのポリシー駆動型DRLフレームワーク [cs.NI, cs.LG, cs.SY, eess.SY]目的:NR-UとWi-Fiの共存におけるシステムレベルのトレードオフ制御
- 電波利用効率向上は,通信容量の拡大とネットワーク品質の維持に不可欠である。
- NR-UとWi-Fiの共存において,異なるチャネルアクセス方式がスペクトル利用の不均衡を引き起こす。
- 公平性,スループット,QoSの間のトレードオフを明示的に制御する手法の確立を目指す。
- 提案フレームワークは,厳格な公平性制御下でジェイン公平性指数0.9以上を達成した。
- 絶対公平性に対し,適度な公平性により集約スループットが68.22%向上した。
- ユーティリティに基づくポリシーは,更なるユーティリティの向上を実現した (177.6%)。
共有線形表現を持つ多タスク学習のためのほぼ最適かつ効率的な一階アルゴリズム [cs.LG, math.OC]目的:多タスク学習における共有表現とタスク固有パラメータの同時学習
- 機械学習において,関連する複数のタスク間で構造を共有する多タスク学習は重要な手法である。
- 行列分解の非凸性から,共有線形表現を持つ場合でも,効率的に解ける尤度ベースのアルゴリズム開発が遅れている。
- 尤度ベースの一階アルゴリズムを用いて,多タスク学習問題を効率的に解決することを目指す。
- 提案アルゴリズムは,$\widetilde{\mathcal{O}}(1)$回の反復で収束し,$\widetilde{\mathcal{O}}(dk/(TN))$のほぼ最適推定誤差を達成する。
- 既存の尤度ベースの手法と比較して,推定誤差をk倍改善することを示した。
- 本研究は,尤度ベースの一階アルゴリズムが多タスク学習問題を効率的に解けることを裏付ける。
OceanPile:基盤モデルのための大規模多種海洋コーパス [cs.MM, cs.AI, cs.CL, cs.CV, cs.LG]目的:海洋基盤モデル構築のための大規模多種海洋コーパス
- 地球温暖化や海洋生態系の保全において,海洋の役割は重要であり,AIによる貢献が期待される。
- 海洋データは分散しており,多種,高ノイズ,弱ラベルであり,統一された形式や意味的整合性が欠如している。
- 海洋環境に特化した大規模かつ整合性の高い多種データセットを提供し,海洋AI研究を促進すること。
- OceanPileは,ソナーデータ,水中画像,海洋科学ビジュアル,科学テキストを統合したOceanCorpusを含む。
- 階層型海洋概念知識グラフに基づいた新規パイプラインにより合成された高品質な指示データセットOceanInstructionも提供する。
- 厳格な評価のための手動キュレーションされた評価ベンチマークOceanBenchmarkも含まれ,学習モデルの性能向上が確認された。
Eコマース向け汎用基盤モデルValley3の開発 [eess.SY, cs.SY, cs.AI]目的:Eコマースにおける多様なグローバルタスクに対応する汎用マルチモーダル大規模言語モデル
- Eコマースは世界的に成長を続けており,その効率化と顧客体験向上が重要課題である。
- 既存モデルは,テキスト,画像,動画,音声といった多様な情報を統合的に理解することが困難である。
- Eコマース特化型のマルチモーダルモデルを開発し,音声理解能力を向上させることを目指す。
- Valley3は,自社および公開されているEコマースベンチマークにおいて,既存モデルを凌駕する性能を示した。
- Valley3は,テキスト,画像,動画,音声の情報を統合的に理解し,Eコマースの多様なタスクに対応できる。
- 思考モードを制御することで,推論効率と深さをバランスさせ,複雑なアプリケーションに対応可能である。
視覚言語モデルにおける知覚帯域幅のボトルネック:逐次実験計画による能動的視覚推論 [cs.CV, cs.AI, cs.LG]目的:視覚言語モデルにおける知覚帯域幅のボトルネックの克服
- 画像とテキストを理解する視覚言語モデルは,様々な応用で重要性が増している。
- 広範囲の視覚情報の処理において,詳細な情報の獲得がボトルネックとなっている。
- 限られた知覚帯域幅下での,タスクに関連する証拠の効率的な獲得を目指す。
- 本研究では,逐次ベイズ最適実験計画に基づき,視覚的証拠の能動的な取得を提案した。
- タスクに関連する情報獲得量を近似する,カバレッジと解像度の目的関数を導出した。
- 提案手法FOVEAは,高解像度ベンチマークにおいて,既存手法を上回る性能を示した。
