arXiv雑要約
AI - 2026/04/28 公開
タイムスタンプ付きデータセットを用いたAndroidマルウェア検出のための自己教師あり学習 [cs.CR, cs.LG]目的:Androidマルウェア検出における時間的バイアスの軽減と,ロバストな検出手法の開発
- モバイルセキュリティは重要であり,Androidマルウェアは大きな脅威である。対策の遅れは深刻な被害に繋がる。
- 機械学習を用いたマルウェア検出器は,アプリのリリース時刻を考慮せず,過剰な精度と脆弱性を示すことがある。
- 時間軸を考慮したデータセットと検証手順を構築し,自己教師あり学習によるロバストな検出モデルを開発する。
- 時間軸を考慮した評価において,本手法は98%の精度と89%のF1スコアを達成した。
- Bootstrap Your Own Latent (BYOL) を用いた自己教師あり事前学習が,難読化耐性のある表現学習に有効であることが示された。
- VirusTotalとMITRE ATT&CKフレームワークを用いた解析により,マルウェアの挙動特性が明らかになった。
大規模言語モデルのデバッグに対する体系的アプローチ [cs.AI]目的:大規模言語モデルのデバッグ手法
- AI技術の発展に伴い,大規模言語モデルの活用が不可欠となっている。
- モデルの不透明性から,エラー診断や改善が困難である。
- 体系的なデバッグ手法を確立し,問題解決の効率化を目指す。
- 本研究では,大規模言語モデルを観測可能なシステムとして扱い,体系的なデバッグアプローチを提案する。
- 評価,解釈可能性,エラー分析を統合することで,モデルの弱点の特定と改善を可能にする。
- 標準的な評価基準がない状況下でも,再現性,透明性,スケーラビリティの高いシステム構築に貢献する。
MoEのチューニングにおける長尾専門家情報の保持 [cs.LG, cs.CL]目的:MoEモデルのチューニングにおける長尾専門家情報の保持
- 大規模言語モデルの性能向上にMoEが貢献する一方,その学習は困難である。
- MoEのルーティング層が不安定で,専門家の崩壊が起こりやすいという課題がある。
- 長尾の専門家が持つ有用な知識を保持し,性能劣化を防ぐことを目指す。
- 本研究では,バイアス駆動型スパース化と常時活性化ゲート付きコンデンサー専門家を組み合わせた新しいフレームワークを提案した。
- 提案手法は,タスクに関連する専門家を活性化させつつ,長尾の専門家を非活性化させることで,知識の断片化を防ぐ。
- 大規模MoEモデルの実験により,既存のSFTベースラインと比較して2.5%以上の平均的な性能向上を達成した。
大気循環モデル降水バイアス補正のための微分可能なフレームワーク [cs.RO, cs.HC, cs.CY, cs.LG]目的:大気循環モデル降水バイアスの補正
- 気候変動予測の地域計画への適用には,大気循環モデルの精度向上が不可欠である。
- 降水量の分布は非ガウス的であり,従来の統計手法では十分な補正が困難である。
- 機械学習の柔軟性を活かしつつ,バイアスの原因を理解し,汎化性能を高めることを目指す。
- 提案手法dCLIMBAは,過去のCMIP6モデル出力と再解析データを用いて,空間的・時間的に適応的なバイアス補正を学習する。
- dCLIMBAは,豪雨などの極端現象の強度と分布を正確に補正し,特に極端現象の再現性が高い。
- 補正後の降水量の量分布は米国内の様々な都市で良く再現され,空間パターンはLOCA2と同等の性能を示す。
記憶の形状:二次の最適化手法における機械的アンラーニングの幾何学的分析 [cs.LG, cs.IT, cs.SI, math.IT, stat.ML]目的:二次の最適化手法における機械的アンラーニングの幾何学的性質
- 機械学習モデルは大量のデータを学習するため,プライバシー保護が重要である。
- 既存のアンラーニング定義は,二次最適化手法には不十分である。
- 二次最適化手法における情報の残存と,それを抑制する方法を解明する。
- 一次および二次最適化手法を比較した結果,二次最適化手法は最適化状態に不安定性を示す。
- この不安定性は,削除されたはずの情報が残存していることを示唆する。
- 最適化状態の制御された摂動により,安定性と情報損失が回復することが示された。
エージェントワークフローにおける制御された自律性に対する,人間介入ループシステム [cs.AI]目的:エージェントワークフローにおける制御された自律性のための,人間介入ループシステム
- AIエージェントの活用が進む中で,安全性と制御された自律性の確保が重要である。
- 既存の人間介入メカニズムは,アプリケーションに組み込まれており,再利用性や拡張性に課題がある。
- 人間介入を独立したコンポーネントとして扱い,スケーラブルなガバナンスと段階的な自律性を実現する。
- 本研究では,人間介入を独立したシステムコンポーネントとして扱う,分離された人間介入ループシステムのアーキテクチャを提案した。
- 提案手法は,介入条件,役割解決,インタラクション意味,通信チャネルの4つの次元に沿って人間介入を形式化する設計フレームワークを導入した。
- これにより,システムレベルの一貫性を維持しながら,選択的で文脈を意識した人間介入が可能となり,エージェント通信プロトコルとの整合性もサポートされる。
機械学習による誘導付き原始ヒューリスティクス:混合二値二次計画問題へ [cs.CL, cs.LG, math.OC]目的:混合二値二次計画問題に対する機械学習誘導付き原始ヒューリスティクスの開発
- 組合せ最適化は現実世界の様々な問題を解決する上で不可欠であり,効率的な解法が求められている。
- 大規模な組合せ最適化問題は計算量が膨大であり,現実的な時間で最適解を見つけることが困難である。
- 機械学習を活用し,混合二値二次計画問題の解探索を効率化し,既存手法の性能向上を目指す。
- 本研究では,混合二値二次計画問題に対応した新たなニューラルネットワークアーキテクチャと学習データ収集手法を提案した。
- 提案手法は,既存の原始ヒューリスティクスや最先端ソルバーと比較して,顕著な性能向上を示した。
- 特に,損失関数の拡張により,風力発電所レイアウト最適化問題における汎化性能が向上することが確認された。
DeepImagine:連続的な反事実的思考による生物医学的推論の学習 [cs.CL, cs.AI, cs.LG]目的:生物医学的推論を可能にする言語モデルの学習
- 臨床試験の成果予測は,医療の発展において重要であり,迅速な意思決定を支援する。
- 既存の言語モデルや従来の予測モデルは,臨床試験の成果予測において十分な性能を発揮できていない。
- 言語モデルに反事実的思考を学習させることで,臨床試験における因果メカニズムの理解を深める。
- DeepImagineは,実験条件の微調整に対するモデルの応答を学習させることで,臨床試験の隠れた因果メカニズムを近似する。
- 実データと合成データを用いて言語モデルを訓練することで,臨床試験の成果予測性能を向上させる。
- 学習された推論経路は,モデルが試験レベルのメカニズムをどのように表現しているかについての解釈可能なシグナルを提供する。
Kスコア:強化学習における報酬正規化の原理的な代替案としてのカルマンフィルタ [cs.LG, cs.AI]目的:強化学習における報酬推定と学習の高速化
- 強化学習は,複雑な問題解決に有効だが,報酬のスケールや変動の影響を受けやすい。
- 従来の報酬正規化は固定されたヒューリスティックに依存し,非定常環境への適応が困難な場合がある。
- カルマンフィルタを用いたオンライン報酬推定により,変動の大きい報酬を平滑化し,環境変化に適応する。
- 提案手法Kスコアは,報酬の平均を再帰的に推定し,学習の収束を大幅に加速することが示された。
- 標準的な正規化手法と比較して,学習時の分散を低減し,より安定した学習を実現する。
- LunarLanderおよびCartPoleの実験で,Kスコアの有効性が確認された。
LLMにグラフを読ませるな:グラフに考えさせる [cs.AI]目的:協調型マルチエージェント推論における明示的な信念グラフの有効性
- 複雑な協調タスクにおいて,エージェント間の推論能力向上が重要である。
- 大規模言語モデル(LLM)は,他者の信念を理解する能力に課題を抱える場合がある。
- 信念グラフを用いることで,LLMの協調推論における性能を改善することを目指す。
- 信念グラフの統合アーキテクチャが性能に影響し,弱いモデルへのコンテキスト提供は有用である。
- LLMは,プランナーからの正しい推奨を,習熟度に応じて無視する「プランナー反抗」という現象を示す。
- エージェント間の共通認識が,単独エージェントの介入よりも高い性能を示す。グラフの深さには限界がある。
C-MORAL:LLMのための強化学習アラインメントによる制御可能な多目的分子最適化 [cs.CL, cs.CE, math.OC, cs.LG, cs.AI]目的:制御可能な多目的分子最適化
- 創薬において,分子の性質を最適化することは,新薬開発の効率化に不可欠である。
- LLMを用いた分子最適化において,複数の競合する創薬制約との整合性が課題となっている。
- LLMを連続的な分子設計目標に整合させ,多目的最適化の安定性を向上させる。
- C-MORALは,C-MuMOInstructベンチマークにおいて,最先端モデルを上回り,INDタスクで48.9%,OODタスクで39.5%の最高Success Optimized Rate (SOR)を達成した。
- グループベースの相対最適化,異質目的のプロパティスコアアラインメント,連続的非線形報酬集約により,競合する性質間の安定性が向上した。
- これらの結果は,LLMの強化学習によるポストトレーニングが,分子設計目標との整合性を高める効果的な方法であることを示唆する。
Analytica:堅牢かつスケーラブルなLLM駆動分析のためのソフト命題推論 [cs.CL, eess.SY, cs.SY, cs.AI]目的:LLM駆動分析における確率的不安定性と検証可能性の欠如の解決
- LLMは金融予測や科学的発見など複雑な分析に活用されている。その重要性は増している。
- LLMの推論は確率的変動の影響を受けやすく,構造が明確でないという課題がある。
- ソフト命題推論に基づく新たなアーキテクチャを構築し,分析の正確性と安定性を高める。
- Analyticaは,結果命題の真偽値を推定することで分析を構造化し,バイアスと分散を最小化する。
- 経済,金融,政治予測タスクにおいて,多様なベースモデルと比較して平均15.84%の精度向上を達成した。
- Jupyter Notebook grounderは,コストと時間を大幅に削減しながら,高い精度を実現している。
RLトークン:ビジョン・言語・行動モデルによるオンライン強化学習のブートストラップ [cs.LG, cs.RO]目的:事前学習済みビジョン・言語・行動モデルのオンライン強化学習による微調整
- ロボットの多様な操作スキル習得において,ビジョン・言語・行動モデルは重要な役割を担う。
- 実世界タスクで求められる精度と速度を実現するには,さらなる微調整が不可欠である。
- 少ない実世界データで効率的に微調整を行う手法を開発し,実用的なロボット操作を目指す。
- 提案手法「RLトークン」は,事前学習済みモデルの知識を活用しつつ,オンライン強化学習を効率化する。
- 実機ロボット実験で,ネジ締め,結束バンド固定など4つのタスクにおいて,処理速度が最大3倍に向上し,成功率も大幅に改善された。
- 一部タスクでは,人間の遠隔操作を超える速度を達成することが示された。
ピクセルから説明へ:CNN-Transformerアンサンブルによる解釈可能な糖尿病網膜症重症度分類,視覚的説明可能性,そしてVision-Languageモデル [cs.IR, cs.CV, cs.AI]目的:糖尿病網膜症の重症度分類における解釈可能性の向上
- 糖尿病網膜症の早期発見と適切な治療介入は,失明予防に不可欠である。
- 深層学習モデルは高精度だが,その判断根拠が不明確であり,臨床現場での信頼性が課題である。
- 深層学習モデルの予測根拠を可視化し,臨床医が理解しやすい形で提示することを目指す。
- ResNet-50とConvNeXt-Tinyが単独モデルとして高い性能を示し,交差検証QWKはそれぞれ0.919と0.914であった。
- アンサンブル学習は重症度分類の一貫性を向上させ,特に重み付きソフト投票が最も安定した結果を示した(QWK 0.934 +/- 0.017)。
- Grad-CAM++は妥当な局在性を示し,Vision-Languageモデルは重症度に応じた説明を生成したが,臨床的完全性と意味的類似性の間にトレードオフが見られた。
分散型AIシステムの利用可能なエージェント探索 [cs.MA, cs.AI, cs.DC]目的:分散型AIシステムにおけるエージェント探索の効率と堅牢性に関する研究
- AIシステムの規模拡大に伴い,分散環境でのエージェント管理が不可欠となっている。
- ノードやエージェントの動的な参加・離脱により,従来の探索手法では効率が低下する。
- ノード・エージェントレベルの変動に対応可能な,より効率的な探索手法を確立する。
- 安定状態,ノード変動のみ,エージェント冷却のみ,および複合状態において,ルーティング効率,堅牢性,サービス準備状況を比較した。
- 構造化されたオーバーレイは,安定状態およびノード変動下において,より堅牢かつ効率的である。
- ゴシップベースのオーバーレイは,準備状況が優先される場合に競争力を維持し,高速化も可能である。
コードブローカー:自動コード品質評価のためのマルチエージェントシステム [cs.HC, cs.SE, cs.AI, cs.CL, cs.PL]目的:Pythonコードの品質評価報告書の生成
- ソフトウェア開発における品質確保は,システムの信頼性と保守性を高める上で不可欠である。
- 従来のコード品質評価は,手動によるレビューに依存しており,時間とコストがかかる場合がある。
- 自動化されたコード品質評価システムの構築により,効率的かつ客観的な評価を実現する。
- Code Brokerは,Google Agent Development Kitを用いて構築されたマルチエージェントシステムであり,Pythonコードの品質を多角的に評価する。
- このシステムは,正確性,セキュリティ,スタイル,保守性の4つの側面からコードを評価し,MarkdownとHTML形式で報告書を作成する。
- 実験結果は,並列化された専門エージェントが読みやすく開発者向けのフィードバックを提供することを示唆している。
非構造化テキストからの自動オントロジー生成に向けたマルチエージェントLLMアプローチ [cs.AI]目的:非構造化テキストからの自動オントロジー生成
- 知識工学において,自然言語を形式的なオントロジーに変換することは,知識の構造化と再利用に不可欠である。
- 既存のアプローチは,オントロジー設計パターンの遵守,構造的な冗長性,および反復的な修正の有効性の点で課題を抱えている。
- マルチエージェントLLMアプローチによる,構造的な品質とクエリ可能性の向上を目指す。
- マルチエージェントアプローチは,構造的な品質を大幅に向上させ,クエリ可能性をわずかに向上させた。
- 改善は主に,計画段階の重視によってもたらされた。
- 計画を優先し,成果物に基づいた生成が,スケーラブルな自動オントロジーエンジニアリングの有望かつ監査可能な道である。
EEG基礎モデルにおけるチャンネル適応:アーキテクチャ,タスク,学習体制にわたる体系的なベンチマーク [cs.LG]目的:異種電極配置のデータを統合するためのチャンネル適応手法の比較
- 脳波研究は,脳機能の解明や神経疾患の診断に不可欠であり,その進歩は医療に貢献する。
- 異なる電極配置で収集された脳波データの統合は困難であり,基礎モデルの汎化性能を阻害する要因となる。
- 脳波基礎モデルの学習データ量を増やし,実用的な展開を可能にするための最適なチャンネル適応手法を特定する。
- 固定配置モデルは外部適応を必要とする一方,柔軟なモデルは微調整で同等以上の性能を示すが,エンコーダを固定する場合には外部手法が有効である。
- 柔軟なモデルの微調整において,外部適応が深刻な負の転移を引き起こす可能性があり,プローブSFTの非対称性が確認された。
- 最適な手法はアーキテクチャに依存し,5MパラメータのCBraModがより大規模なモデルを上回る性能を示し,コンパクトなアーキテクチャの有効性が示唆された。
ハイブリッドドメイン知識融合によるポートレートライティングの現実世界への応用 [cs.CV, cs.GR, cs.LG]目的:ポートレートライティングにおけるドメインギャップ,カメラ感度,計算コストの課題解決
- ポートレートライティング技術は,写真や映像制作において重要な役割を担う。
- 既存手法は,データセットのドメイン間の隔たりや計算量の多さから実用化が困難。
- 合成データ,OLATデータ,実データ融合による軽量かつ高性能なモデル構築。
- 本研究では,ハイブリッドドメイン知識融合という新たなパラダイムを提案した。
- 提案手法は,推論速度を6倍から240倍に向上させながら,最先端の画質を維持した。
- 多様なグラウンドトゥルースを持つ大規模合成データセットを構築し,学習パイプラインを支援した。
ProEval:生成AI評価のためのプロアクティブな失敗検出と効率的な性能推定 [cs.CE, cs.LG, cs.AI, stat.ML]目的:生成AIモデルの評価における失敗検出と性能推定の効率化
- 生成AIの急速な発展に伴い,その評価は不可欠であり,社会への実装において重要性が増している。
- 従来の評価手法は,推論速度の遅さや高コストな評価者,モデル・ベンチマークの増加により,資源集約的である。
- ProEvalは,転移学習を活用することで,効率的な性能推定と失敗事例の特定を目指す。
- ProEvalは,性能スコア関数の代替として事前学習済みのガウス過程を使用し,入力と評価指標を関連付ける。
- ベイズ直交法と超水準集合サンプリングを用いることで,不確実性を考慮した入力選択戦略を実現。
- 実験により,ProEvalは既存手法と比較して8~65倍少ないサンプル数で,同等の精度を達成し,多様な失敗事例を検出することが示された。
ベイジアン深層学習評価における不安定なランキング [cs.LG]目的:ベイジアン深層学習手法の評価におけるランキングの不安定性
- 深層学習は多様な分野で活用されているが,不確実性の評価が重要である。
- データ不足下では,評価指標の信頼性が損なわれ,手法間の比較が困難となる。
- データセット固有の評価を行い,十分なデータ量で評価できるか判断する。
- データ数が少ない場合,手法のランキングは信頼性が低く,データセットに依存する傾向がある。
- 提案手法では,評価指標を確率変数として扱い,データセット間のばらつきを考慮した。
- 不確実性を考慮した評価は,データ不足の状況において特に重要である。
テストケース不要:科学ワークフローのための蒸留駆動型コード生成 [cs.SE, cs.AI, cs.MA]目的:科学ワークフローにおけるコード生成
- 科学研究の自動化は,効率向上や新たな発見に不可欠である。
- 既存のコード生成手法は,I/Oテストケースに依存し,科学ワークフローには適用が困難である。
- I/Oテストケースなしで,科学ワークフローのコード生成を可能にすること。
- MOSAICは,I/Oによる監視なしで科学コードを生成する,学習不要なマルチエージェントフレームワークである。
- ドメイン固有の例と構造化された問題分解によって生成を grounded することで,既存手法よりも高い精度,実行可能性,数値精度を実現した。
- 一連の問題における幻覚を軽減するため,一貫した推論を維持する Consolidated Context Window (CCW) を導入した。
言語モデリングのための異種グループ化エキスパートの混合 [cs.CL, cs.AI, cs.LG]目的:言語モデリングにおける効率的な性能向上
- 大規模言語モデルは,その性能と効率性から産業応用において不可欠である。
- 標準的なMoEはエキスパートサイズが均一であり,トークンレベルの複雑さへの対応が困難である。
- 異種エキスパートアーキテクチャの課題であるGPU利用率の不均衡を解決する。
- MoHGEは,柔軟かつリソースを考慮したエキスパートの組み合わせを可能にする二層ルーティング機構を導入する。
- グループごとの補助損失により,タスクの難易度に応じて最もパラメータ効率の良いエキスパートグループにトークンを動的に誘導する。
- 全サイズグループデカップリング割り当て戦略により,GPU間の均一な計算分散を実現し,パラメータを約20%削減する。
マルチモーダル連合学習におけるモダリティ内欠損値に対する条件付き代入法 [cs.LG]目的:マルチモーダル連合学習におけるモダリティ内欠損値への対処
- 医療データなど,複数のモダリティを扱う連合学習は,プライバシー保護と分散環境での学習を可能とする。
- センサーの断続的動作や不規則なサンプリングにより,モダリティ内で欠損値が発生し,学習性能を低下させる。
- 欠損値の条件付き拡散モデルを用いた代入により,データの完全性を確保し,モデルのロバスト性を向上させる。
- 提案手法CondIは,既存手法と同等の性能を3つの臨床データセット(PTB-XL, SLEEP-EDF, MIMIC-IV)で示した。
- CondIは,利用可能なマルチモーダル情報と条件付き埋め込みを用いて欠損している時間成分を代入する二段階の学習パイプラインを用いる。
- 明示的なデータ代入により,モデルは完全な意味構造上で動作し,深刻なデータ不完全性に対する耐性が向上する。
二つの分散の物語:ベイズ深層学習における単一シード評価の限界 [cs.SI, cs.LG]目的:ベイズ深層学習モデルの評価における単一シードの限界
- データが限られた状況下でのモデル評価において,信頼性のある結果を得ることは重要である。
- 単一シードの評価指標は,その分散を考慮せず,安定した特性として扱われることが多い。
- 単一シード評価の限界を明らかにし,より信頼性の高い評価方法を提案すること。
- 異種分散の学習ヘッドを持つMAPやDeep Ensemblesは,学習データ量の中間段階で顕著な分散ピークを示すことが明らかになった。
- 分散ピークは,単一シードの推定誤差に直接影響し,RMSEが大幅に増加し,真の平均値からのずれの確率が低下する。
- CRPSの局所的な分散は,単一シード推定誤差の直接的な指標となり,相関関係が0.96を超える。
HBGSA:自己注意メカニズムを用いた水素結合グラフによる薬物-標的結合親和性の予測 [cs.LG]目的:薬物-標的結合親和性の予測
- 創薬において,実験による検証対象化合物の優先順位付けは効率化に不可欠である。
- 既存手法は,配列情報のみに着目する,水素結合の特徴を活かせない,予測-標的相関を無視する等の課題がある。
- 水素結合の空間的特徴を組み込み,予測-標的相関を考慮することで,より高精度な予測を目指す。
- HBGSAは,PDBbind Core SetとCSAR-HiQデータセットにおいて,既存手法を上回る性能を示した。
- 水素結合のモデリングとピアソンの相関係数損失関数が有効であることが,消去実験により確認された。
- HBGSAは,汎化能力が高く,バーチャルスクリーニングにおける高親和性化合物の同定に貢献しうる。
ArgRE:マルチエージェント要求交渉における対立解決のための形式的議論 [cs.SE, cs.AI]目的:マルチエージェント要求交渉における対立解決のための形式的議論フレームワーク
- ソフトウェアの複雑化に伴い,複数の品質属性間のトレードオフが重要となり,体系的なバランス調整が求められている。
- 既存のマルチエージェントシステムでは,対立解決がヒューリスティックであり,要求の合意形成過程に透明性が欠如している。
- 本研究は,形式的議論を用いて要求交渉における対立を解決し,追跡可能性と説明可能性を高めることを目指す。
- ArgREは,要求,批判,修正を議論としてモデル化し,Dungスタイルの抽象議論を用いて対立を表現する。
- 5つの事例研究において,ArgREは既存フレームワークよりも高いレベルの意思決定根拠を提供し,監査可能性を向上させることが示された(4.32 vs 3.07, p < 0.001)。
- また,ArgREはセマンティック意図の保持率とコンプライアンスカバレッジにおいても高い性能を示した(BERTScore F1 94.9%, コンプライアンスカバレッジ 84.7%)。
不完全なテキストガイダンスからの学習:高ノイズラベルによるロバストな長尾視覚認識 [cs.CV, cs.LG]目的:長尾分布かつノイズの多いラベルデータに対するロバストな視覚認識手法
- 実世界のデータは長尾分布を示すことが多く,深層学習モデルの性能低下を招くため,その改善が重要である。
- 既存手法では,高ノイズ環境下におけるラベルと画像の深刻な不一致を十分に考慮できていない。
- ラベルに含まれるカテゴリ情報を活用し,ラベルと画像の不一致を修正することで,よりロバストな認識を目指す。
- 提案手法WTSは,合成データと実データにおいて,特に高ノイズ条件下で優れた性能を示すことが確認された。
- WTSは,事前学習済みの視覚言語モデルのクロスモーダルアライメントを活用し,ラベルノイズの影響を受けにくい。
- テキスト予測ラベルと観測ラベルの不一致度合いによってWTSの活性化を制御することで,効果的な学習を実現する。
MindTrellis:AIとのインタラクティブな視覚的探索による知識構造の共同創造 [eess.SY, cs.SY, cs.HC, cs.AI, cs.IR, cs.MA]目的:知識構造の共同創造
- 情報過多な現代において,効率的な知識整理が重要視されている。
- 既存のツールは,情報検索と構造化のバランスが取れていない。
- AIと人間が共同で知識構造を構築する新たなアプローチの必要性。
- MindTrellisは,ユーザーとAIが共同で動的な知識グラフを構築するシステムである。
- ユーザー研究の結果,MindTrellisは情報整理と認知負荷において,検索のみのベースラインを上回った。
- コンテンツの網羅性と構造的品質において,専門家による評価で優位性が示された。
LLMの機械的制御による,敵対的環境下での層別特徴脆弱性の解明 [cs.CL, cs.AI]目的:LLMにおける有害な出力生成の脆弱性に関する内部メカニズムの特定
- LLMは高度な自然言語処理能力を持つが,安全性確保が課題となっている
- LLMは安全対策を施されているものの,依然として有害な出力を生成される可能性がある
- 特定の層における特徴量の脆弱性を特定し,より効果的な防御策を開発すること
- Gemma-2-2Bモデルに対し,概念的に関連するトークンを抽出,特徴量グループ化を行った。
- 特徴量を増幅させることでモデルを制御し,有害性の変化を評価した結果,層[16-25]が比較的脆弱であることが確認された。
- 中間層から後続層の特徴量サブグループが,有害な出力生成に大きく関与していることが示唆された。
h-MINT:階層型分子相互作用ネットワークによるポケット-リガンド結合のモデル化 [cs.CE, cs.LG]目的:ポケット-リガンド結合のモデリング手法
- 創薬において,分子の正確な表現は不可欠であり,有効な分子設計に繋がる。
- 既存手法では,分子の化学的環境や高次の化学的文脈(立体化学など)の表現が不十分である。
- 重なり合うフラグメントを考慮し,原子レベルとフラグメントレベルの相互作用を捉えることで,結合親和性の予測精度向上を目指す。
- 提案手法OverlapBPEは,小分子構造の曖昧さを反映し,より完全な化学的文脈を保持する。
- 開発した階層型分子相互作用ネットワークh-MINTは,原子レベルとフラグメントレベルの相互作用を同時にモデリングできる。
- PDBBindやLBA等の評価において,既存手法と比較して結合親和性予測の精度が2-4%向上した。
Lean 4の自動形式化における表面的な感受性 [cs.LG]目的:Lean 4における自動形式化時の表面的な表現変化の影響
- 形式検証はソフトウェアの信頼性向上に不可欠であり,その自動化は効率化に繋がる。
- 自然言語の多様性が,形式化の安定性を損ない,再現性の問題を引き起こす。
- 形式化の失敗原因を特定し,学習戦略の改善に役立てる。
- 表面的な変化による形式化の失敗は,意味的な相違ではなく,コンパイル境界の問題に起因することが示された。
- コンパイル可能な場合,変更前後の形式化は意味的,構造的にほぼ等価である。
- ベンチマークは,コンパイル成功の有無と表面的な一貫性を区別する必要がある。
脳腫瘍MRI分類のためのCNN-ViT融合:適応的注意ゲートを備えたハイブリッド深層学習モデル [cs.CY, cs.HC, cs.CV, cs.AI, q-bio.QM]目的:脳腫瘍MRI画像の分類
- 早期発見が重要であり,医療画像からの特徴抽出は困難である。
- 画像の特徴抽出において,局所的特徴と大域的依存性の両方を捉えることが課題である。
- 局所的特徴と大域的特徴を効果的に融合し,分類精度を向上させる。
- 提案モデルは,テスト精度97.60%,適合率97.30%,再現率97.50%,F1スコア97.40%を達成した。
- AUCのmacro平均は0.9946であり,単一のCNNやViT,既存の融合手法を上回る結果となった。
- 動的な特徴重み付けが,医療画像分類において有効であることが示された。
UNSEEN:AR-LLMソーシャルエンジニアリング攻撃に対するクロススタックLLMアンラーニング防御 [cs.DC, cs.CR, cs.AI]目的:AR-LLMベースのソーシャルエンジニアリング攻撃に対する防御機構
- 現実社会への脅威が増加しており,プライバシー保護の重要性が高まっている。
- 既存の防御策は,ARとLLMが融合した環境には適用が難しく,新たな脆弱性が存在する。
- ARデバイス,LLM推論,対話型エージェントのセキュリティを確保し,ソーシャルエンジニアリング攻撃を抑制する。
- UNSEENは,ARアクセス制御層,LLMアンラーニング,実行時エージェントガードレールを組み合わせた防御システムである。
- ユーザー調査の結果,UNSEENが現実的なソーシャルシナリオにおいて有効であることが示された。
- 本研究は,プラットフォームレベルでの制限やベンダーポリシーの必要性を示唆している。
UpstreamQA:ビデオ質疑応答タスクにおける明示的な推論のためのモジュール型フレームワーク [eess.SY, cs.SY, cs.CV, cs.AI]目的:ビデオ質疑応答における明示的な推論コンポーネントの解明と評価
- ビデオ質疑応答は,視覚的,時間的,言語的情報を統合的に処理する必要があり,AI研究の重要な課題である。
- 既存のマルチモーダルモデルは推論過程が不透明で,複雑な推論を正確に行うことが困難であるという問題がある。
- 本研究は,明示的な推論を導入することで,ビデオ質疑応答の性能と解釈可能性を向上させることを目指す。
- UpstreamQAは,ビデオのオブジェクト識別とシーンコンテキスト生成を事前に行うことで,ダウンストリームのビデオ質疑応答モデルへの情報伝達を促進する。
- 実験結果から,明示的な推論の導入は,特定の条件下でビデオ質疑応答の性能と解釈可能性を大幅に向上させることが示された。
- ただし,ベースラインの性能が高い場合には,性能が低下する可能性もあることが示唆された。
PhySE:リアルタイムAR-LLMソーシャルエンジニアリング攻撃のための心理的フレームワーク [cs.ET, cs.AR, eess.IV, cs.AI]目的:AR-LLMベースのソーシャルエンジニアリング攻撃における課題克服と,心理学に基づいた適応的な攻撃戦略の提案
- 現実社会における対人関係を脅かすAR-LLMを用いたソーシャルエンジニアリング攻撃の脅威が増大している。
- 初期段階のプロファイリング遅延と,固定的な攻撃戦略が,AR-LLM-SEの実用化のボトルネックとなっている。
- 視覚言語モデルを用いた高速なプロファイリングと,ターゲットの反応に応じた心理戦略の動的展開を実現する。
- PhySEフレームワークは,視覚言語モデルによる社会コンテキストの事前学習により,プロファイリングの遅延を解消した。
- 心理学に基づいたLLMエージェントは,ターゲットの反応に応じて最適な心理戦略を動的に選択し,より効果的な攻撃を可能にした。
- 60名の参加者によるユーザー調査の結果,PhySEが多様な社会的シナリオにおいて有効であることが示された。
エキスパート活性化パターンを用いた多ノード混合エキスパート推論のスケーリング [cs.LG, cs.AI, cs.AR]目的:多ノード環境における混合エキスパートモデルの推論効率向上
- 大規模言語モデルの能力向上には,計算コストを抑えつつモデル規模を拡大する必要がある。
- 混合エキスパートモデルでは,エキスパートへの負荷分散の偏りやトークンルーティングの非効率性が課題となる。
- エキスパート活性化パターンを分析し,ノード間通信を削減する最適化手法を提案する。
- 最新の大規模言語モデルのエキスパート活性化パターンを分析した結果,負荷分散の偏りやタスクに応じた活性化の変化が確認された。
- ワークロードを考慮したマイクロバッチグループ化とエキスパート配置戦略により,ノード間通信量を最大20%削減することに成功した。
- これらの最適化により,混合エキスパートモデルのデコード遅延が短縮され,アクセラレータの利用効率が向上した。
効率的なVQ-QATと混合ベクトル/線形量子化ニューラルネットワーク [cs.LG, cs.AR]目的:ベクトル量子化に基づくモデル重みの圧縮手法
- 深層学習モデルのサイズ削減は,モバイルデバイスへの実装や高速な推論に不可欠である。
- ベクトル量子化では,コードブック崩壊が課題であり,エンドツーエンドでの学習が難しい。
- コードブック崩壊を抑制し,エンドツーエンド学習を可能にする手法の開発。
- コサイン類似度に基づく割り当てとトップ1サンプリング,ストレートスルー推定子を組み合わせることで,重み付き平均再構成の必要性を排除した。
- 微分可能なNASを用いて層ごとの量子化設定を適応的に選択し,圧縮プロセスを最適化した。
- 提案手法は全ての量子化レベルで既存手法を上回るわけではないが,VQに基づくモデル圧縮設計のトレードオフに関する有用な洞察を提供する。
LLMを裁判官とする評価パイプラインにおけるバイアス軽減戦略の体系的評価 [eess.SY, cs.SY, cs.AI]目的:LLMを裁判官とする評価パイプラインにおけるバイアス軽減戦略の効果の比較
- LLMによる評価は言語モデルの性能評価において主流であり,その信頼性は重要である。
- LLM裁判官は系統的なバイアスを持ち,評価の信頼性を損なうという問題がある。
- LLM裁判官のバイアスを軽減し,より公平で信頼性の高い評価を実現することを目指す。
- スタイルバイアスが最も支配的なバイアスであり,位置バイアスを大きく上回る。
- すべてのモデルは拡張ペアにおいて簡潔性を好む傾向があるが,適切な制御により品質と長さを区別できる。
- バイアス軽減は有益であるが,モデルに依存する。特にClaude Sonnet 4において効果が認められた。
マルチエージェント強化学習による動的な屋内環境モニタリングのための協調的な情報センシング [cs.RO, cs.AI, cs.MA]目的:屋内環境における人間活動モニタリングの精度最適化
- 施設管理,安全評価,空間利用分析など,屋内環境における人間活動の把握は重要である。
- 既存手法は,モニタリング精度よりもカバレッジや訪問頻度に重点を置き,人間中心のタスクとの整合性が低い。
- 複数ロボットが協調して,部分観測下でモニタリング精度を直接最適化する手法を提案する。
- 提案手法は,古典的なカバレッジ,継続モニタリング,学習を用いないマルチロボットベースラインと比較して,一貫して優れた性能を示す。
- 人間の数やモニタリングタスクの種類が変化しても,ロバスト性を維持する。
- 分散観測に基づいた協調ポリシーを学習するための強化学習フレームワークを開発した。
国際的なAIインシデント対応のためのエスカレーション基準:基準,トリガー,閾値 [cs.CE, eess.SY, cs.SY, cs.CY, cs.AI]目的:国際的なAIインシデント対応におけるエスカレーション基準の設計
- AI技術の発展に伴い,AIインシデントへの対応は国際的な連携が不可欠となりつつある。
- AIインシデントの深刻度を判断し,国際的な連携が必要なレベルを決定する明確な基準が存在しない。
- AIインシデントの国際エスカレーションを適切に判断するためのフレームワークを提案し,実用的な基準を確立すること。
- 本研究では,規制や政策,および他の産業におけるインシデント対応フレームワークを分析し,エスカレーションを判断するための8つの基準を導出した。
- フレームワークを10件のAIインシデントに適用した結果,開発者がエスカレーションの責任を負う場合,具体的な被害が確認されるまでエスカレーションが見送られるなどの課題が明らかになった。
- エスカレーション基準だけでなく,閾値設定の定義や利用可能なデータが,インシデントの検出に影響を与える相互依存関係が存在することが示された。
スパース復元のための統一的な分数正則化フレームワーク [cs.IT, cs.LG, math.IT]目的:スパース信号復元のための統一的枠組み
- 信号処理や画像処理において,スパース表現は重要な役割を果たす。
- 既存手法では,高コヒーレンスなセンシング行列下での性能が課題となる場合がある。
- 高コヒーレンスなセンシング行列下でもロバストな復元を可能とする。
- 提案手法は,$\ell_1/\ell_p^q$モデルと$\ell_1 - \alpha \ell_p$モデルの等価性を理論的に明らかにした。
- 制限等方性性質(RIP)の下で,十分な復元条件が新たに導出された。
- 数値実験の結果,提案手法は既存手法よりも一貫して優れた性能を示した。
DyABD:動的MRIにおける腹筋領域分割ベンチマーク [cs.CV, cs.AI]目的:動的MRI画像からの腹筋領域分割に関するベンチマークデータセット
- 腹部ヘルニアは再発率が高く,その原因究明には正確な腹筋の画像解析が不可欠である。
- 既存の医療画像分割技術では,患者の運動に伴う腹部の解剖学的変化への対応が課題であった。
- 本研究は,腹筋の分割技術の向上と,腹部ヘルニア再発率の低減に貢献することを目指す。
- DyABDは,腹筋領域分割を対象とした初のデータセットであり,運動時の動的MRI画像を提供する。
- 既存の分割モデルの評価の結果,性能向上の余地が大きく,Dice係数は0.82程度であった。
- 本研究は,医療画像分割分野の進捗状況を明確にし,新たなベンチマークを提示する。
RAT:完全自動環境構築によるあらゆる実行 [cs.SE, cs.AI]目的:リポジトリレベルのソフトウェアエンジニアリングタスク自動化
- 自律的なコードエージェント実現には不可欠であり,開発効率の向上に繋がる。
- 環境構築は手作業に頼る部分が多く,ボトルネックとなっている。
- 実世界の多様なリポジトリに対応可能な環境自動構築フレームワークを提案する。
- RATは,セマンティック初期化,計画メカニズム,ツールセット,堅牢なサンドボックスを統合した言語非依存のフレームワークである。
- 提案するベンチマークRATBenchは,実世界の多様なリポジトリを反映している。
- 実験の結果,RATは既存のベースラインと比較して,環境構築成功率を平均29.6%向上させた。
線形空間における良条件な無自覚摂動 [cs.DS, cs.LG, cs.NA, math.NA, math.PR, stat.ML]目的:線形空間における良条件な摂動手法の開発
- アルゴリズムの平滑化解析において,行列の条件数を改善することが重要である。
- 既存のガウスノイズによる摂動は,計算コストが高いという課題がある。
- 少数の乱数で効率的に条件数を改善し,計算コストを削減することを目指す。
- 提案手法では,O(n)個の乱数のみを用いて,ガウス摂動と同等の条件数改善を実現した。
- これにより,共役勾配法などの線形方程式解法の計算量を削減できることが示された。
- パターン行列と依存的な疎な摂動を組み合わせることで,効率的な手法を実現している。
粗から細へ:LLMエージェントのための自己適応階層的計画 [cs.AI]目的:LLMエージェントの自己適応階層的計画機構
- 複雑なタスク解決において,LLMエージェントの役割が重要視されている。
- 既存の計画手法は,粒度の固定化により,単純なタスクと複雑なタスクの双方で最適化が困難である。
- タスクの複雑さに応じて計画の詳細度を調整し,効率的な問題解決を目指す。
- 提案手法AdaPlan-Hは,粗い計画から徐々に詳細化することで,タスクの複雑さに適応する。
- 実験の結果,タスクの成功率が大幅に向上し,計画段階での過剰な計画立案を抑制できることが示された。
- この手法は,柔軟かつ効率的な多段階複雑意思決定タスクへの適用が可能である。
アナログ回路検索のためのクロスモーダル表現学習:AnalogRetriever [cs.CV, cs.AI]目的:アナログ回路検索のためのクロスモーダル表現
- アナログ回路設計において,既存のIPの再利用は不可欠である。
- SPICEネットリスト,回路図,機能記述など,異種表現間の検索が困難である。
- クロスモーダルな意味関係を捉えた検索システムの構築を試みる。
- AnalogRetrieverは,回路図と記述をVision-Languageモデル,ネットリストをポート認識型グラフ畳み込みネットワークでエンコードする。
- 3つのモダリティを共有埋め込み空間にマッピングすることで,高いRecall@1(75.2\%)を達成した。
- AnalogCoderに組み込むことで,機能的合格率を向上させ,これまで解決できなかったタスクも可能にした。
TRACE: オンライン遅延コンバージョン率予測のためのポストクリック軌跡の活用 [cs.LG]目的:オンライン遅延コンバージョン率予測におけるポストクリック軌跡の活用
- オンライン広告において,コンバージョン率は重要な指標であり,予測精度向上は収益に直結する。
- 従来の予測手法では,フィードバックの遅延により,ラベルの正確性とデータの鮮度の両立が課題となっていた。
- ポストクリック行動の軌跡を分析し,早期段階での予測精度向上を目指す。
- 提案手法TRACEは,従来の遅延モデリングやサンプルリウェイト手法と比較して,優れた性能を示すことが確認された。
- TRACEは,最終的な結果を待たずに,蓄積されたフィードバック状況に基づいて予測を動的に洗練する。
- 回顧的補完モジュールは,モデルに依存しない拡張機能として,既存システムを強化する。
物語TR:心の理論に基づく物語中心の動画時間的検索 [cs.AI]目的:物語性の動画における時間的検索性能の向上
- 動画検索技術は,行動認識が進む一方で,物語理解が課題となっている。
- 既存モデルは,表面的な観察だけでは登場人物の意図や心情を理解できない。
- 心の理論に基づいた学習により,物語の文脈を理解する動画検索モデルを構築する。
- 既存の高性能モデル(Gemini-3.0-Pro)でさえ,StoryTRベンチマークにおいて低い性能しか示していない。
- 提案手法(Shorts-Moment)は,ToMに基づいたデータで学習することで,既存モデルより大幅に性能が向上した。
- パラメータ数よりも,物語理解のための推論能力が重要であることが示された。
Tessera:UMAエッジアクセラレータ向け安全なニアラインレート重みストリーミング [eess.SY, cs.SY, cs.CR, cs.AR, cs.LG]目的:UMAエッジアクセラレータにおける安全な重みストリーミングの参照アーキテクチャ
- エッジデバイスにおける深層学習の普及に伴い,知的財産保護の重要性が高まっている。
- UMAシステムでは,モデル重みが平文でメモリに存在し,OS侵害時に漏洩リスクがある。
- 従来の防御策は性能劣化が大きく,本研究はそれを克服することを目指す。
- Tesseraは,キャッシュライン単位での重み復号化により,暗号化の遅延を標準的なDRAMアクセス時間内に隠蔽する。
- これにより,理論上のメモリ帯域幅の98.4%を達成し,従来のページレベル暗号化と比較して帯域幅の低下を抑制する。
- Tesseraは,UMA固有の攻撃ベクトルを中和し,平文情報の漏洩を防止する。
