arXiv雑要約
AI - 2026/03/25 公開
パラメータ空間におけるモデル探索の汎化性を高める多実験方程式学習 (ME-EQL) [cs.LG, math.DS, q-bio.QM]目的:パラメータ空間におけるモデル探索の汎化性向上
- 複雑な生物システムの自己組織化を理解するための強力なツールであるエージェントベースモデリングの重要性。
- エージェントベースモデリングは計算コストが高く,解析的な取り扱いが困難な場合があるという課題。
- パラメータセットごとに広範なシミュレーションを必要とすることから生じる汎化性の問題を解決する。
- 多実験方程式学習 (ME-EQL) によって,パラメータセットごとのモデル学習と補間,およびパラメータ空間全体での統合モデルライブラリ構築が可能になった。
- 誕生・死亡平均場モデルと,空間構造を持つ誕生・死亡・移動エージェントベースモデルを用いて,これらの手法が有効であることが示された。
- 両手法ともに,エージェントベースシミュレーションからのパラメータ回復における相対誤差を大幅に低減し,OAT ME-EQLはパラメータ空間全体でのより優れた汎化性を示した。
最小行動距離の学習 [cs.LG, cs.AI]目的:状態遷移軌跡のみから学習可能なマルコフ決定過程の状態表現フレームワーク
- 強化学習において,効率的な状態表現は学習性能に大きく影響する。
- 報酬信号や行動履歴なしで状態間の構造を捉えることが課題であった。
- 状態間の遷移に必要な最小行動距離を学習し,状態表現の質を向上させる。
- 本研究では,状態間の最小行動距離を表現空間における距離に対応付けることで,状態表現を学習するアプローチを提案した。
- 多様な環境下で,提案手法は正確な最小行動距離を効率的に学習し,既存手法を上回る表現品質を示した。
- 学習された状態表現は,ゴール条件付き強化学習や報酬シェーピングなど,下流タスクに活用可能である。
fMRI解析のための汎用基盤モデルの構築に向けて [cs.CV, cs.LG]目的:fMRIデータからの汎化可能な表現学習
- 脳機能の研究や神経疾患の診断に不可欠なfMRI分析の重要性が高まっている。
- 既存手法は,複雑な前処理やタスク特化型モデル設計により,再現性や転移学習性に課題がある。
- 多様な下流タスクへの効率的な転移を可能にする,汎用性の高いfMRI基盤モデルの構築を試みる。
- NeuroSTORMは,大規模なfMRIデータセットを用いて事前学習を行い,優れた表現学習能力を獲得した。
- 5つの下流タスクにおいて,既存手法と比較して一貫して高い性能を示した。
- 複数の臨床データセットにおいて,診断精度と心理・認知表現の予測性能を両立した。
BeltCrack:初の連続画像産業用コンベアベルト亀裂検出データセットと三重領域特徴学習によるベースライン [cs.CV, cs.LG]目的:産業用コンベアベルトの亀裂検出のためのデータセットとベースライン手法
- コンベアベルトは現代産業において重要な設備であり,生産効率と安全に不可欠である。
- 既存の亀裂データセットは舗装や合成データに偏っており,実際の産業用コンベアベルトのデータセットは存在しない。
- 実世界の産業用コンベアベルトの亀裂検出を可能にするデータセットと,その有効性を示すベースライン手法を提案する。
- 新たなデータセットの利用可能性と有効性が実験的に示された。
- 提案ベースラインは,他の類似の検出手法と比較して明らかに優れている。
- データセットとソースコードは公開されており,研究利用を促進する。
UniCA:時系列基礎モデルのための統一的な共変量適応 [cs.LG, cs.AI]目的:時系列基礎モデルと汎用的な共変量対応型予測との架け橋
- 時系列分析は,経済,気象,医療など幅広い分野で不可欠な技術である。
- 既存の時系列基礎モデルは,実数値データに最適化されており,多様な共変量に対応できない。
- 異質な共変量を均質化し,注意機構を用いて融合することで,モデルの汎化能力を維持しつつ,共変量情報を活用する。
- UniCAは,異質な共変量を高レベルの均質な系列表現に変換し,統一的な注意機構で融合する。
- 単一モーダルおよびマルチモーダルな共変量対応型予測ベンチマークにおいて,UniCAの優位性が実証された。
- UniCAは,共変量対応型時系列基礎モデルの適応において,実用的な予測シナリオでの可能性を示す。
RedTopic:大規模言語モデルの多様なトピックに対するレッドチーム化に向けて [cs.LG, cs.AI, cs.CL, cs.CY]目的:大規模言語モデルの脆弱性発見と安全性向上
- 大規模言語モデルの利用拡大に伴い,潜在的なリスクの特定が重要となっている。
- 既存手法は,有害トピックの網羅性や探索の多様性に課題がある。
- 多様な有害トピックを網羅的に探索可能なレッドチーム化手法の確立。
- RedTopicは,文脈を考慮した生成パイプライン,集約報酬設計,多目的強化学習ループにより,多様な有害トピックを網羅した攻撃的なプロンプトを生成する。
- 実験の結果,RedTopicは既存手法と比較して,より効果的かつ多様な攻撃的プロンプトを生成することが示された。
- RedTopicは,大規模言語モデルに対する適応的かつ多様なトピックのレッドチーム化に向けた一歩となる。
MS-DGCNN++:スケール依存正規化を用いたマルチスケール動的グラフ畳み込みによるロバストなLiDAR樹種分類 [cs.CV, cs.AI]目的:LiDAR点群を用いた樹種分類の精度向上
- 森林資源の適切な管理や生物多様性の保全には,樹種の正確な識別が不可欠である。
- LiDAR点群の密度は樹木の部位によって大きく異なり,既存手法はその変化に対応できていない。
- 点群密度に応じた適切な特徴量表現を学習することで,樹種分類のロバスト性を向上させる。
- 提案手法MS-DGCNN++は,スケール依存の正規化を導入したマルチスケール動的グラフ畳み込みネットワークである。
- 実験結果から,MS-DGCNN++は既存の56モデル中最⾼の全体精度(92.91%)をSTPCTLSデータセットで達成した。
- また,HeliALSデータセットでは,FGI-PointTransformerと同等の精度をより少ないパラメータ数(1.81M)で実現した。
形態NAS:形態発生誘導によるニューラルアーキテクチャ探索 [cs.NE]目的:ニューラルアーキテクチャの自律的成長
- 生物の神経回路は簡潔な遺伝子情報から発達する。その効率的なメカニズムは,人工知能の発展に示唆を与える。
- 既存のニューラルアーキテクチャ探索は,手作業による調整が多く,効率性に課題がある。
- 形態発生の原理に基づき,単純なルールから複雑なネットワークを生成する手法を確立する。
- MorphoNASは,形態発生プロセスを通じてニューラルネットワークを決定的に成長させるシステムである。
- 構造的ターゲット設定実験において,定義されたグラフ構造を生成する能力が確認された。
- CartPole制御タスクでは,最小化の進化圧力を適用することで,複雑性の低い6〜7ニューロンの解が得られた。
プライバシー保護付きオープングラフデータに対するグラフ構造学習 [cs.LG, cs.AI]目的:オープングラフデータのグラフ構造学習
- オープンデータ利用の拡大には,プライバシー保護が不可欠である。個人の情報漏洩リスクを抑制する必要がある。
- 既存手法はモデル学習時にプライバシー保護を行うため,オープンデータ公開には不向きな場合が多い。
- データ公開段階でプライバシー保護を行い,データ利用とプライバシー保護の両立を目指す。
- 提案手法は,ガウス微分プライバシーをデータ公開プロセスに直接組み込むことで,厳密なプライバシー保証を提供する。
- ノイズ付加による歪みにも関わらず,元の疎な逆共分散構造を復元可能であることを証明した。
- 合成データと実データを用いた実験により,高いグラフ復元精度とプライバシー保護のトレードオフを実証した。
文脈から意図へ:推論誘導による関数レベルのコード補完 [cs.SE, cs.AI]目的:関数レベルのコード補完における開発者の意図推論
- 大規模言語モデルの活用がコードリポジトリでの関数補完を促進している。
- 明確なドキュメンテーションがない場合,言語モデルは正確な補完が困難。
- コード文脈から開発者の意図を推論し,より正確な補完を実現する。
- 提案手法は,言語モデルが文脈のヒントを段階的に利用して意図を推論することを可能にする。
- 4万件のデータセットを構築し,中間的な推論過程とドキュメンテーションを付与することで性能向上を促した。
- DevEvalおよびComplexCodeEvalでの実験で,DeepSeekCoderとCodeLLaMA系列においてpass@1が25%以上向上した。
金融不正検知のための強化学習ガイド型ハイパーヒューリスティックなハイパーパラメータ最適化 [cs.LG]目的:公平性と説明可能性を備えたスパイクニューラルネットワークに基づく金融不正検知モデルの最適化
- オンラインバンキングの普及により,金融不正のリスクが増大しており,高精度かつ公平で説明可能な検知モデルが求められている。
- スパイクニューラルネットワークの解釈性の低さや,強化学習に基づくハイパーパラメータ最適化の不安定性が課題となっていた。
- 公平性と再現率の制約下で,低レベルヒューリスティックを適応的に選択する強化学習ガイド型ハイパーヒューリスティック最適化により,上記課題の解決を目指す。
- 提案モデルは,Bank Account Fraudデータセットにおいて,5%の偽陽性率で90.8%の再現率を達成し,従来のスパイクモデルや古典的なモデルを上回った。
- 人口統計学的グループ間で98%以上の予測均等性を維持し,公平性と高性能を両立した不正検知を可能にした。
- 人口コーディングを用いたCSNPCの疎なアーキテクチャは,従来の密なANNと比較してエネルギー消費量を削減する。
ノイズの多いラベルから本質的な構造へ:幾何学的・構造的二重ガイドフレームワークによるノイズに強い医用画像セグメンテーション [cs.CV, cs.AI]目的:ノイズに強い医用画像セグメンテーション手法の開発
- 医用画像セグメンテーションは診断や治療計画に不可欠であり,高精度な画像解析が求められる。
- 高品質なアノテーションはコストと時間がかかる上に,専門家によるラベル付けでも主観や粗さが生じ,ノイズとなる。
- ノイズのあるアノテーションでもロバストなセグメンテーションを実現し,モデルの性能を向上させることを目指す。
- 提案手法GSD-Netは,幾何学的・構造的な情報を統合することで,ノイズの影響を抑制し,セグメンテーション精度を向上させる。
- シミュレーションされたノイズを含む4つのデータセットと,複数の専門家によるアノテーションを含む2つのデータセットで評価した結果,最先端の性能を示した。
- Kvasir, Shenzhen, BU-SUC, BraTS2020においてそれぞれ1.58%, 22.76%, 8.87%, 1.77%の改善が見られた。
TopoMap:テスト入力空間における地形的領域の特性に基づく意味的識別器 [cs.LG, cs.SE]目的:深層学習モデルのテストにおける,モデルの誤動作を引き起こす入力の特徴に基づく分類
- 深層学習の信頼性確保は重要であり,テスト技術の確立が不可欠である。
- 既存のテスト手法では,誤動作を引き起こす特徴の全体像が捉えられていない。
- 入力空間の特徴に基づき,明確な地形図を作成し,テスト効率を向上させる。
- TopoMapは,入力空間の埋め込みとクラスタリングにより,識別可能な領域を生成する。
- 最適な地形図を自動的に選択するため,DNNによるクラスタ識別可能性評価を導入した。
- 突然変異分析の結果,TopoMapはランダム選択よりも平均35%高いキル率を示した。
エディタから高密度幾何推定器へ [cs.CV, cs.AI]目的:高密度幾何推定のためのフレームワーク開発
- 画像認識分野では,高精度な3次元構造推定が重要であり,ロボティクスや自動運転などの応用が期待される。
- 既存手法では,データ量に依存したり,汎化性能が十分でないといった課題が存在する。
- 事前学習済みモデルを活用し,少ないデータでも高精度な推定を可能にすることを目指す。
- 本研究では,画像編集モデルが生成モデルよりも構造に関する事前知識を持ち,安定した学習と高い性能を実現することを示した。
- 提案手法FE2Eは,Diffusion Transformer (DiT) を基盤とし,一貫性のある速度学習と対数量子化を用いることで,高精度な深度と法線推定を実現した。
- ETH3Dデータセットで35%以上の性能向上を達成し,大規模データで学習したDepthAnythingシリーズを上回る結果を得た。
DreamAudio:拡散モデルを用いたカスタマイズされたテキスト音声生成 [cs.SD, cs.AI, eess.AS]目的:カスタマイズされたテキスト音声生成のためのフレームワーク
- 近年の生成モデル発展により,テキストからの音声生成は飛躍的に進歩している。
- 既存モデルは意味的な整合性に優れるものの,細かな音響特性の制御が課題である。
- 特定の音響イベントを含む音声を生成するニーズに応える。
- DreamAudioは,参照音源の情報に基づいて音声を生成する。
- 少数の参照サンプルから,個別の音響イベントを含む音声を生成可能。
- カスタマイズされた音声特徴と入力テキストとの整合性が高いことが実験で示された。
フーリエ埋め込み型DeepONet:スペクトル的に高精度なオペレーター学習 [eess.SY, cs.SY, cs.LG]目的:非線形オペレーターの学習
- 偏微分方程式の近似解法において,データ駆動型アプローチの重要性が増している。
- 従来のDeepONetは,複雑な空間構造を捉える能力に限界がある。
- フーリエ埋め込みにより空間表現能力を向上させ,高精度なオペレーター学習を実現する。
- 提案手法FEDONetは,Burgers方程式,Poisson方程式など複数の偏微分方程式データセットにおいて,従来のDeepONetを上回る性能を示した。
- 様々なデータサイズやノイズレベルにおいて,FEDONetは一貫して高い再構成精度を達成した。
- 特に,カオス的または硬いシステムにおいて,大きな$L^2$誤差の低減が確認された。
JaGuard:深層時間グラフを用いたGNSS妨害波の定位誤差補正 [cs.LG]目的:GNSS妨害波による定位誤差の補正
- GNSSは,精密な測位とタイミングが不可欠な重要インフラを支える。妨害波からの保護は不可欠である。
- 従来の補正手法はマルチパス誤差に焦点を当てており,衛星 constellations の時空間的な一貫性を活用していない。
- 衛星と受信機の関係性をグラフ構造として捉え,妨害波による定位誤差を動的に補正することを目指す。
- JaGuardは,実環境データセットにおいて,既存の高度な手法と比較して,最も低い平均絶対誤差(MAE)を達成した。
- 特に,強い妨害波下では2.85〜5.92cmのMAEを維持し,低い干渉レベル下では2cm以下の精度を達成した。
- 学習データが10%しかない状況下でも安定性を保ち,誤差を15〜20cmに抑え,既存手法で見られる大きな分散の増加を防いだ。
グラフ変分ニューラルネットワーク [cs.CE, cs.LG]目的:動的に変化する時空間信号のモデリング
- グラフニューラルネットワークは,複雑なデータ構造を扱う上で重要である。
- 既存のグラフ構造に依存するため,グラフ構造が存在しない場合に課題がある。
- 信号から動的な接続性を学習し,グラフ構造が存在しない場合でもモデリングを可能にする。
- 提案手法GVNNは,時空間信号と信号依存の接続性テンソルを畳み込むことで,動的な統計的相互依存性を捉える。
- 従来のグラフベースラインやLSTM,Transformerといったシーケンスモデルと比較して,予測ベンチマークで優れた性能を示す。
- 脳波運動イメージ分類において高い精度を達成し,ブレイン・コンピュータ・インタフェースへの応用可能性を示唆する。
MARS:LLMの推論における効率的なマルチエージェント協調へ [cs.CL, cs.AI]目的:LLMの推論能力向上のための,効率的なマルチエージェント協調フレームワーク
- 大規模言語モデルは自然言語理解で目覚ましい成果を上げる一方,単独エージェントとしての推論能力には限界がある。
- マルチエージェントディベートは有効だが,多数のエージェントと頻繁な通信により計算コストが増大する。
- レビュープロセスに着想を得たMARSは,計算コストを抑えつつ推論品質を向上させることを目指す。
- MARSは,複数のベンチマークにおいて,既存の推論戦略と同等の精度を達成した。
- MARSは,マルチエージェントディベートと同等の精度を維持しながら,トークン使用量と推論時間を約50%削減した。
- 本研究で開発したコードは,https://github.com/xwang97/MARS で公開している。
自己進化型ベンチマークの探求:検証による再現パラダイムの下,テスト時探索によるエージェント軌跡の合成 [cs.AI]目的:エージェントの能力を評価するための,自己進化するベンチマークの実現
- LLMやエージェントシステムの進歩により,エージェントの能力が飛躍的に向上している。
- 既存のベンチマークは,新開発エージェントにより急速に限界に達し,評価が困難になっている。
- テスト時探索を通じて,ベンチマークを自動的に進化させ,より高い難易度を実現すること。
- TRACEフレームワークは,GAIAベンチマークにおいて,タスクの複雑さを一貫して高めることができた。
- 有効な実行軌跡により,正答率の信頼性も向上している。
- 本フレームワークは,AIME-2024のような推論データセットにも適応し,改善に貢献する。
一人称視点動画からの永続的な時空間知識グラフ:具現化されたシーン理解のため [cs.RO, cs.AI]目的:具現化されたシーン理解のための時空間知識グラフの構築
- ロボット工学や拡張現実において,周囲の環境を理解する能力は不可欠である。
- 既存のビジョン言語モデルは,長時間の動画に対する持続的な記憶や空間表現に課題がある。
- 動画から効率的に知識グラフを構築し,高速な推論を可能にすることで,この課題を解決する。
- VL-KnGは,3D再構成なしに詳細なシーングラフとグローバルなトポロジカルグラフを繋げるフレームワークである。
- このフレームワークは,動画を分割処理し,LLMに基づく時空間オブジェクトアソシエーション(STOA)によりオブジェクトの同一性を維持する。
- OpenEQA,NaVQA,WalkieKnowledgeのベンチマークで,VL-KnGは最先端のVLMと同等またはそれ以上の性能を示し,クエリ遅延が大幅に低い。
GPTベースVLMを用いた顎嚢胞の所見生成:構造化出力付き二段階自己修正ループ(SLSO)フレームワークの予備研究 [cs.CV, cs.AI]目的:顎嚢胞に対するGPTベースVLMによる放射線所見の生成精度向上
- 歯科画像診断におけるAIの活用は,診断支援や効率化に貢献し,医療の質の向上に不可欠である。
- 既存の画像認識AIは,放射線所見の記述において信頼性に課題があり,臨床応用が制限されている。
- 本研究は,AIによる顎嚢胞の所見生成の精度と信頼性を高めるための枠組みを提案し,その有効性を検証する。
- 提案するSLSOフレームワークは,従来のCoT手法と比較して,複数の評価項目で出力精度を向上させた。
- 特に,歯番号の特定,歯の移動の検出,根吸収の評価において顕著な改善が見られた。
- フレームワークは,明示的な陰性所見の記述を強制し,幻覚を抑制する効果が確認された。
FTTE:連合学習とリソース制約のある深層エッジインテリジェンスの実現 [cs.LG]目的:連合学習における効率的な学習手法
- データプライバシー保護が重要視される中,分散環境での機械学習へのニーズが高まっている。
- エッジデバイスの制約から,連合学習の実用的な展開が困難となっている。
- エッジデバイスでの連合学習を可能にするスケーラブルな手法を開発する。
- FTTEは,従来の同期型連合学習と比較して,学習速度が81%向上した。
- FTTEは,デバイス上のメモリ使用量を80%削減し,通信量を69%軽減した。
- FTTEは,厳しい条件下でも半非同期型連合学習と同等以上の精度を達成した。
BIRD-INTERACT:動的な相互作用の観点から大規模言語モデル向けText-to-SQL評価を再構築する [cs.AI]目的:大規模言語モデルにおけるText-to-SQL評価のための新たなベンチマーク
- 現実世界のデータベースアプリケーションでは,曖昧なクエリやエラーに対応する多岐にわたる対話が必要不可欠である。
- 既存のベンチマークは対話履歴を静的な文脈として扱うか,評価を読み取り専用操作に限定しており,実用的な課題を反映できていない。
- 曖昧性の解消,知識の取得,エラーからの回復といった,実用的なデータベースアシスタントの課題に対応できる評価環境を構築する。
- BIRD-INTERACTは,データベースと階層的な知識ベース,メタデータファイル,機能駆動型ユーザーシミュレーターを組み合わせた包括的な対話環境を提供する。
- 評価設定として,定義された会話プロトコル(c-Interact)と,モデルが自律的にユーザーシミュレーターへのクエリや環境探索を決定するエージェント的設定(a-Interact)の2つを用意する。
- GPT-5はc-Interactで8.67%,a-Interactで17.00%のタスクしか完了できず,BIRD-INTERACTの難易度が高いことが示された。
BuilderBench:知能エージェントの構成要素 [cs.AI, cs.LG]目的:エージェントの事前学習を加速化するためのベンチマーク
- AIモデルの進歩は,既存データに依存しており,その限界が課題となっている。
- 経験を通じた探索と学習能力を獲得するスケーラブルな学習メカニズムが確立されていない。
- 物理,数学,長期計画を理解する能力を試すベンチマーク環境を構築し,解決を目指す。
- BuilderBenchは,ブロックを用いて構造を構築する課題を通して,エージェントの探索学習を促進する。
- 現在のアルゴリズムでは課題解決が困難な場合が多く,初期段階での学習支援プロトコルも提供する。
- 6つの異なるアルゴリズムの実装例を提供し,研究者への参考情報となるようにする。
動的最適輸送による反事実の識別可能性 [cs.LG, cs.AI, stat.ML]目的:高次元多変量結果に対する反事実の識別
- 因果推論において,反事実の識別は因果的妥当性を保証する上で不可欠である。
- 既存研究では反事実推論の成果はあるものの,識別可能性が欠けている点が課題であった。
- 連続時間フローと動的最適輸送を用いて,多変量反事実の識別条件を確立し,一貫性のある推論を実現する。
- 本研究は,フローマッチングがユニークかつ単調でランク保存的な反事実輸送マップを生み出す条件を特徴づける。
- 制御されたシナリオと実画像データにおいて,理論の妥当性と反事実の公理的健全性の向上が確認された。
- 標準的な基準の下,非マルコフ過程を含む連続時間フローにおける多変量反事実識別の基盤を構築した。
誘導型星型マスク拡散 [cs.LG]目的:事前学習済みマスク拡散モデルのサンプリング効率と生成品質の向上
- 拡散モデルは高品質な生成が可能だが,計算コストが高い点が課題である。
- 既存のサンプリング手法では,ステップ数が少ない場合に品質が低下しやすい。
- 星型パラダイムと再マスキングスケジューラにより,少ないステップ数でも高品質な生成を目指す。
- 提案手法は,事前学習済みモデルに対して軽量なファインチューニングを行うことで,サンプリング品質と効率を大幅に改善する。
- 星型パラダイムは,エラー訂正を本質的に可能にし,再マスキングスケジューラはエラーの特定と修正をインテリジェントに行う。
- テキストおよびコード生成の実験において,提案手法は既存手法を上回る,または同等の性能を示す。
語彙の共有が幸福である:翻字法の研究 [cs.CL, cs.AI]目的:多言語NLPにおける翻字法の効果検証
- 多言語NLPの発展には,異なる言語間の橋渡しが不可欠である。
- 非ラテン文字言語において,効果的な翻字法が確立されていない。
- 共有語彙と音韻の寄与を評価し,最適な翻字法を特定する。
- ローマ字化が,他の翻字法や正字法に比べて,12回の評価設定のうち11回で有意に高い性能を示した。
- 事前学習済み言語とのサブワードトークン共有が,モデルの性能向上に貢献する。
- 本研究の結果は,多言語NLPにおける翻字法の活用を促進すると考えられる。
CSI-4CAST:包括的な堅牢性と汎化テストを備えたCSI予測のためのハイブリッド深層学習モデル [cs.LG]目的:CSI予測の精度向上と計算効率の改善
- mMIMOシステムの信頼性と効率的な動作には,タイムリーなCSIの提供が不可欠である。
- 既存の深層学習法は,実用的なノイズへの堅牢性や多様なチャネル環境への汎化性に課題があった。
- 本研究は,CSI予測における堅牢性,汎化性,計算効率を同時に実現することを目指す。
- CSI-4CASTは,畳み込みニューラルネットワーク,適応補正層,ShuffleNetブロック,Transformerを統合したハイブリッドアーキテクチャである。
- TDDシナリオの81.5%とFDDシナリオの44.4%において,既存モデルを上回る予測精度と,FLOPsを最大5倍削減することに成功した。
- CSI-RRGデータセットを公開し,深層学習モデルの性能と汎化能力に影響するチャネル要因の分析を可能にした。
情報ゲインに基づく方策最適化:多段階探索エージェントに対するシンプルかつ効果的なアプローチ [cs.CL, cs.AI, cs.LG]目的:多段階探索エージェントにおける方策最適化
- 大規模言語モデルの応用範囲拡大のため,外部環境とのインタラクション能力向上が重要である。
- 従来の報酬設定では,最終的な正解のみに依存し,多段階における学習信号の不足が課題である。
- 中間段階の行動に対する評価を可能にし,学習効率を高めることを目指す。
- 提案手法IGPOは,各ターンを正解に関する情報獲得の過程と捉え,ターンレベルの報酬を定義する。
- IGPOは,モデル自身の信念更新から直接報酬を導出するため,外部モデルやモンテカルロ推定を必要としない。
- 実験の結果,IGPOは既存手法と比較して,高い精度とデータ効率を示すことが確認された。
モノリシックフォワーディングによる,低遅延・低メモリ消費のオンデバイス意味選択 [cs.LG]目的:オンデバイスAIサービスにおける意味的トップK選択の効率化
- 近年,生成AI等の発展により,エッジデバイスでのAI需要が急速に高まっている。
- オンデバイスAIにおける意味選択は,遅延とメモリ消費がボトルネックとなっている。
- 候補間の相対的な順位付けに焦点を当て,推論の早期打ち切りとメモリ効率化を目指す。
- PRISMは,従来のシステムと比較して,最大89.2%の遅延削減と最大91.3%のメモリ削減をマイクロベンチマークで実現した。
- 3つの実世界のオンデバイスAIアプリケーションにおいて,PRISMは遅延を11.6%-51.0%,メモリを18.6%-77.8%削減した。
- PRISMは,精度を損なうことなく,効率性とデプロイ可能性を大幅に向上させる。
LLMエージェントにおけるモデルコンテキストプロトコルに対する攻撃ベンチマーク (MSB) [cs.CR, cs.AI]目的:LLMエージェントにおけるモデルコンテキストプロトコル(MCP)特有の攻撃に対する耐性を,ツール利用パイプライン全体を通して測定すること
- LLMエージェントの普及に伴い,外部ツールとの連携が不可欠となり,その安全性が重要視されている。
- MCPはツール連携を標準化する一方で,自然言語メタデータや標準I/Oを通じて攻撃対象領域を拡大する。
- MCPエージェント特有の攻撃に対する脆弱性を評価し,その対策の基盤を提供すること。
- MSBは,名称衝突,プロンプトインジェクションなど12種類の攻撃を分類し,実環境でのツール実行に基づいた評価を実現した。
- 性能の高いモデルほど,ツール呼び出し能力と指示追従能力が高いため,攻撃に対して脆弱である傾向が示された。
- Net Resilient Performance(NRP)という指標を用いて,セキュリティとパフォーマンスのトレードオフを定量的に評価した。
GUIrilla: 自動デスクトップUI探索のためのスケーラブルなフレームワーク [cs.LG, cs.AI, cs.HC]目的:デスクトップGUIの自動探索のためのスケーラブルなデータ収集フレームワーク
- インタラクティブシステム向け基盤モデルの性能向上のためには,大規模で現実的な学習データが不可欠である。
- 高品質なデスクトップインタラクションデータの不足が,特にmacOS環境におけるデスクトップ自動化の進展を阻害している。
- macOS環境におけるデスクトップUIデータの収集を効率化し,基盤モデルやGUIエージェントの開発を支援することを目的とする。
- GUIrillaは,macOSデスクトップGUIを体系的に探索し,現実的なインタラクションデータとアクセシビリティメタデータを収集する。
- 収集されたインターフェースは,アクセシビリティ状態とユーザーアクションに基づいた階層的なMacApp Treeとして整理され,再利用可能な構造表現を提供する。
- MacApp Treeと,アクセシビリティ駆動型GUIデータ収集のためのライブラリmacapptreeを公開し,デスクトップ自動化の研究を促進する。
視線とVLMの融合:アテンション正則化による一人称視点理解 [cs.DB, cs.CV, cs.AI]目的:一人称視点理解のためのVLM(Visual-Language Model)性能向上
- 一人称視点データは,人間の行動や意図を理解する上で重要であり,様々な応用が期待される。
- VLMは視覚情報と言語情報を統合するが,人間の注意メカニズムを十分に活用できていない。
- 視線情報を活用し,VLMのアテンションメカニズムを人間視線に合わせることで,理解精度を向上させる。
- 本研究では,視線情報をVLMの学習時に正則化することで,将来のイベント予測精度を最大11%向上させた。
- 現在の活動理解においても,視線正則化により,ベースラインモデルと比較して約7%の精度向上を達成した。
- この結果は,視線誘導学習が,一人称視点VLMの精度とロバスト性を向上させる有効性を示している。
視覚言語モデルは測定に耐えうるか?MeasureBenchによる視覚的測定読解のベンチマーク [cs.CY, cs.CV, cs.AI]目的:視覚的測定読解のベンチマーク
- 現実世界を理解するためには,視覚情報と数値の正確な読み取りが不可欠である。
- 既存の視覚言語モデルは,視覚的測定の読解において十分な性能を発揮できていない。
- 視覚言語モデルの視覚的数値認識と空間的知覚能力の向上を目指す。
- 新しいベンチマークMeasureBenchを開発し,多様な測定器の画像を網羅した。
- 最先端の視覚言語モデルでも,測定読解は依然として困難であることが示された。
- 合成データを用いた強化学習ファインチューニングにより,性能が大幅に向上した。
多視点クラスタリングのための自己グラフ混合対照表現学習:MoEGCL [cs.CV, cs.LG]目的:多視点クラスタリングにおける表現学習手法
- データ解析において,多視点からの情報を統合することで,より高精度な分析が可能となる。
- 既存手法では,粗視点なグラフ融合が課題であり,詳細な情報が失われる可能性がある。
- サンプルレベルでのきめ細かいグラフ融合により,表現学習の精度向上を目指す。
- 提案手法MoEGCLは,自己グラフ混合モジュールと自己グラフ対照学習モジュールにより,高精度な多視点クラスタリングを実現した。
- 特に,MoEGFは,従来の視点レベル融合ではなく,サンプルレベルでのきめ細かい融合を可能にする。
- 実験結果から,MoEGCLが深層多視点クラスタリングタスクにおいて最先端の結果を達成することが示された。
虚偽の注入:LLMにおける事実の想起を損なう中間者攻撃 [cs.CR, cs.AI, cs.CL]目的:LLMにおける事実の想起に対するプロンプトインジェクションによる中間者攻撃の評価
- LLMは情報検索の重要な要素となり,その正確性が重要視されている。
- LLMは敵対的攻撃に対して脆弱であり,誤った情報を提供する可能性がある。
- LLMへの攻撃を評価し,その脆弱性を明らかにし,防御策を提案すること。
- 本研究では,Xmeraという新しい中間者攻撃フレームワークを用いて,LLMの事実記憶に対する攻撃を評価した。
- 簡単な指示に基づく攻撃で高い成功率(最大約85.3%)が得られ,誤った回答に対する不確実性も高いことが示された。
- 応答の不確実性レベルに基づいて学習させたランダムフォレスト分類器を用いて,攻撃の検出が可能であることが示された(平均AUC最大約94.8%)。
遠隔分光検出によるCH$_{4}$点源の運用機械学習 [cs.AI, cs.CV]目的:メタン点源検出のための機械学習システム
- 地球温暖化の緩和には,人為起源メタン源の削減が極めて有効である。
- 従来のメタン検出手法では,誤検出が多く,手動での検証に手間がかかる。
- 衛星搭載分光計を用いた自動メタン点源検出システムの運用を目指す。
- 本研究では,3つの分光計ミッションから収集した大規模なデータセットを用いて,深層学習モデルを構築・比較評価した。
- モデルのアンサンブルにより,誤検出を74%以上削減することに成功した。
- 11ヶ月の運用期間中,25,000以上のハイパースペクトル製品を処理し,2,851件のメタン漏洩を特定,834件のステークホルダーに通知した。
自己教師ありコンセンサス最大化によるパラメータフリークラスタリング [cs.LG]目的:パラメータフリーなクラスタリング手法
- データ分析において,データの構造を把握する上で重要な未指導学習の基礎課題である。
- 既存手法は,クラスタ数などのハイパーパラメータに大きく依存し,実用性に課題がある。
- ハイパーパラメータに頼らず,データ自体から最適なクラスタ構造を導き出すことを目指す。
- 自己教師あり学習と階層的凝集クラスタリングを統合したSCMaxフレームワークを提案した。
- 近傍グラフに基づくコンセンサススコアにより,最適なクラスタ数を決定する。
- 複数のデータセットで,既存手法と比較して良好な性能が確認された。
MOON2.0:Eコマース製品理解のための動的なモダリティバランス型マルチモーダル表現学習 [cs.CV, cs.AI, cs.IR, cs.LG]目的:Eコマース製品理解のためのマルチモーダル表現学習
- Eコマースにおける製品理解は,顧客体験の向上や売上増加に不可欠である。
- 既存のマルチモーダル大規模言語モデルは,モダリティ間の不均衡やノイズに弱い。
- 製品内の視覚情報とテキスト情報の連携を強化し,ノイズの影響を軽減する。
- MOON2.0は,モダリティバランスを動的に調整することで,マルチモーダル共同学習を促進する。
- デュアルレベルアライメントにより,製品内の意味的整合性をより効果的に活用する。
- MBE2.0ベンチマークにおいて最先端のゼロショット性能を達成し,マルチモーダルアライメントの改善を示す。
経路セグメント辞書学習によるデータ効率的かつロバストな軌跡生成 [cs.LG]目的:軌跡生成におけるデータ効率とロバスト性の向上
- 都市移動研究や位置情報サービスにおいて,プライバシー保護とデータ利用が重要視されている。
- 深層学習等の手法は性能を示すものの,ロバスト性や解釈可能性が課題となっていた。
- ノイズを含む現実世界のデータに対しても信頼性の高い軌跡生成を目指す。
- 提案手法は,既存手法と比較して2つの現実世界の軌跡データセットでそれぞれ35.4%,26.3%の性能向上を達成した。
- 生成された軌跡は,軌跡予測やデータノイズ除去といった下流タスクで容易に活用可能である。
- 本手法は,従来の方式と比較して,時間とGPUメモリをそれぞれ64.8%,56.5%削減できる効率性も有する。
音声と映像を用いた深偽造検出のための自己教師あり表現の調査 [cs.CV, cs.LG, cs.SD]目的:音声と映像を用いた深偽造検出における自己教師あり表現の有効性評価
- 近年,映像や音声処理において自己教師あり学習が注目されており,その応用範囲は広い。
- 深偽造技術の高度化に伴い,その検出は重要な課題となっているが,十分な検出性能は得られていない。
- 既存研究では活用が不十分であった自己教師あり表現を深偽造検出に応用し,その有効性を検証する。
- 自己教師あり表現は深偽造検出に関連する情報を捉えており,異なるモダリティ間で補完的な関係にあることが示された。
- 特に音声情報に基づいた表現は高い汎化性能を示し,最先端の結果を達成した。
- 現実世界のデータに対する汎化性能向上が課題であり,それはデータセットの難易度によるものと考えられる。
歩行者横断意図予測のためのマルチモーダル融合ネットワーク [cs.CV, cs.AI]目的:歩行者横断意図の予測
- 自動運転車の実用化において,歩行者の行動予測は安全確保の鍵となる。
- 歩行者の行動は多様であり,状況に左右されるため,正確な予測が困難である。
- 多様な情報を統合し,より高精度な歩行者横断意図予測を実現する。
- 提案手法では,視覚情報と動き情報の7種類の要素をマルチモーダルに融合することで,高い予測性能を達成した。
- TransformerとDepth-guided attentionモジュールにより,各モダリティ間の相補的な情報を効果的に抽出・統合した。
- JAADデータセットを用いた実験により,提案手法が既存手法を上回る有効性が確認された。
潜在拡散反転には潜在空間の理解が必要である [cs.LG, cs.CV]目的:潜在拡散モデルにおける記憶現象の解析
- 生成モデルの安全性確保は重要であり,特に学習データの漏洩リスクの評価が不可欠である。
- 潜在拡散モデルは,従来の反転手法に対して頑健であると考えられていた。
- 潜在空間における記憶の偏りを特定し,プライバシーリスク軽減に貢献する。
- 拡散モデルは,デコーダの引き戻し距離が高い潜在コード領域で過学習しやすいことが示された。
- 潜在コード内の表現次元ごとに記憶への寄与度が異なり,寄与度の低い次元の除去が有効であることが確認された。
- 記憶寄与度の低い次元を除去することで,メンバーシップ推論の性能が向上し,誤検知率1%における真陽性率が大幅に改善された。
HUMORCHAIN:解釈可能なマルチモーダルユーモア生成のための理論に基づく多段階推論 [cs.CL, cs.AI]目的:マルチモーダルユーモア生成のための,理論に基づいた多段階推論フレームワーク
- ユーモアは人間にとって重要な認知活動であり,社会的な繋がりを深める役割を担う。
- 既存の手法はユーモアの理論的根拠に基づかず,表面的で深みのないユーモア生成に留まる。
- 本研究は,ユーモア理論の認知構造を明示的に組み込み,より人間らしいユーモア生成を目指す。
- 提案手法HUMORCHAINは,画像の内容を理解し,ユーモア理論に基づき推論を行うことで,ユーモアを生成する。
- 実験の結果,HUMORCHAINは既存手法と比較して,人間のユーモア選好度,Elo/BTスコア,意味的多様性で優れていた。
- この結果は,理論に基づいた構造化された推論が,大規模言語モデルによるユーモア生成を改善することを示唆する。
エージェント間AIタスクオフローディングのためのハイブリッド・スタッケルベルクゲームと拡散ベースのオークション [cs.AI]目的:エージェント間AIタスクオフローディングの最適化
- IoAは,相互接続されたインテリジェントシステムの基盤アーキテクチャとして重要性を増している。
- リソース制約のあるワイヤレスエージェントの計算集約的なAIサービスオフローディングが課題である。
- 空中のエージェント層へのオフローディングを効率化し,タスクオフローディングを促進する。
- 提案手法は,モバイルエージェントと固定エージェントによるリソース価格設定と,ワイヤレスエージェントによるタスクオフローディング比率決定を可能にするスタッケルベルクゲームを用いる。
- 固定エージェントの過負荷時には,二重オランダ式オークションにより,空中のエージェントからリソースを調達する。
- 拡散に基づく深層強化学習アルゴリズムにより,提案モデルを解き,タスクオフローディングの優位性を示す数値結果が得られた。
マスクングが重要である:3Dシーン言語理解のためのLLMの空間推論能力の解き放ち [cs.CV, cs.AI]目的:3Dシーン言語理解におけるLLMの空間推論能力向上
- 3Dシーン言語理解は,ロボティクスや拡張現実など,多様な応用分野において不可欠である。
- 既存手法は,言語モデルの標準的なデコーダーを使用しており,3Dシーン特有の空間構造を考慮できていない。
- 空間構造を考慮したアダプティブなマスクング戦略により,3DシーンにおけるLLMの空間推論能力の限界を克服すること。
- 提案手法3D-SLIMは,空間密度に基づくGeometry-adaptive Maskと,指示文へのアクセスを可能にするInstruction-aware Maskを導入した。
- 3D-SLIMは,追加のパラメータやアーキテクチャ変更を必要とせず,多様な3Dシーン言語タスクで性能向上を達成した。
- 実験結果は,デコーダー設計が3Dマルチモーダル推論において重要な役割を果たすことを示唆している。
運転前に考える:ワールドモデルに着想を得た自律走行車のためのマルチモーダルグラウンディング [cs.CV, cs.AI]目的:自律走行車における自然言語コマンドに基づいたターゲットオブジェクトの局所化
- 自動運転技術の発展において,人間らしい指示理解は不可欠であり,安全性向上に繋がる。
- 既存手法は,曖昧な指示や状況変化への対応が難しく,3次元空間認識と未来予測が不足している。
- ワールドモデルの原理に基づき,未来の状態を予測することで,よりロバストな局所化を実現する。
- 提案手法ThinkDeeperは,Spatial-Aware World Modelを用いて,未来の空間状態を予測し,曖昧性解消に役立てる。
- マルチモーダル入力と未来状態を融合するhypergraph-guided decoderにより,高次の空間依存性を捉え,局所化の精度を向上させる。
- 新規データセットDrivePilotを構築し,6つのベンチマークで最先端技術を上回り,特に困難な状況下で優れた性能を示す。
詳細の呪いを軽減する:特徴学習とサンプル複雑性に対する引数のスケーリング [cs.LG, stat.ML]目的:特徴学習メカニズムの解釈と,リッチレジームにおけるネットワークの暗黙的バイアスの決定
- 深層学習の理論において,特徴学習のメカニズム理解は重要である。汎化性能の向上に繋がるため。
- 既存の理論は複雑な数式を必要とし,計算コストが高い。問題設定の詳細が解析を困難にしている。
- 深層学習問題におけるデータと幅のスケーリングを予測し,解析の複雑さを軽減することを目指す。
- スケーリング解析によって,既存の結果のスケーリング指数を再現できることが示された。
- 3層非線形ネットワークやアテンションヘッドといった複雑なアーキテクチャに対しても新たな予測を提示した。
- このスケーリング解析は,厳密な理論よりも簡潔でありながら,有用な知見を提供する。
アーク勾配降下法:位相を意識したユーザー制御可能なステップダイナミクスを持つ,幾何学的に動機付けられた勾配降下法に基づく最適化手法(概念実証) [cs.LG, cs.AI, cs.CL, cs.CV, cs.NE]目的:最適化手法ArcGDの定式化,実装,および評価
- 機械学習モデルの性能は最適化手法に大きく依存するため,より高性能な最適化手法の開発が重要である。
- 従来の最適化手法では,複雑な損失関数において局所最適解に陥りやすく,汎化性能が低い場合がある。
- 本研究では,幾何学的な視点に基づいた新しい最適化手法ArcGDを開発し,過学習に強く汎化性能の高いモデルの学習を目指す。
- ArcGDは,非凸ベンチマーク関数において,Adamと比較して一貫して高い性能を示した。
- CIFAR-10画像分類データセットにおいて,ArcGDはAdamW,Adam,SGD,Lionといった最先端の最適化手法を上回り,最高の平均テスト精度(50.7%)を達成した。
- ArcGDは,長期的な学習においても性能が向上し続け,過学習に強い耐性を示した。
