arXiv雑要約

AI - 2025/12/19 公開

  • LAPX:グローバルコンテキストを持つ軽量なアワーグラスネットワーク [cs.CV, cs.AI]目的:人体姿勢推定における,軽量かつ効率的なモデルの提案
    • コンピュータビジョン分野において,人体姿勢推定は重要な課題であるため。
    • 最先端モデルはパラメータ数が多く,計算コストが高いという課題がある。
    • エッジデバイスでのリアルタイム処理に適した,高精度かつ軽量なモデルを開発する。
    • 提案手法LAPXは,自己注意機構とアワーグラスネットワークを組み合わせることで,グローバルコンテキストを捉える。
    • MPIIとCOCOのベンチマークデータセットにおいて,230万パラメータで高い性能を達成した。
    • エッジデバイスでのリアルタイム処理が可能であり,実用性を示した。

    Link: https://arxiv.org/abs/2512.16089

  • TurboDiffusion: ビデオ拡散モデルを100〜200倍に高速化 [cs.CV, cs.AI, cs.LG]目的:ビデオ生成の高速化手法
    • ビデオ生成技術は,コンテンツ制作や表現の可能性を広げ,様々な分野での応用が期待されている。
    • 拡散モデルは高品質なビデオ生成が可能だが,計算コストが高く,実用的な時間での生成が困難である。
    • 拡散モデルの計算効率を向上させ,ビデオ生成の高速化を実現することが本研究の目的である。
    • TurboDiffusionは,低ビットSageAttentionやSparse-Linear Attentionなどの手法を用いて,Attention計算を高速化する。
    • rCMを用いたステップ蒸留やW8A8量子化により,さらにビデオ生成の高速化とモデル圧縮を実現する。
    • 実験の結果,TurboDiffusionは単一のRTX 5090 GPU上でビデオ生成を100〜200倍に高速化し,同等のビデオ品質を維持することを示した。

    Link: https://arxiv.org/abs/2512.16093

  • AIMM:ソーシャルメディアの影響下にある株式市場操作の検知のためのAI駆動型マルチモーダルフレームワーク [eess.SY, cs.SY, cs.LG, cs.AI]目的:ソーシャルメディアと市場行動との関連性の分析
    • 市場の健全性維持には,不正行為の早期発見が不可欠である。
    • ソーシャルメディアを通じた組織的な市場操作が新たな課題となっている。
    • ソーシャルメディアと市場データの相関分析による操作リスクの検知を目指す。
    • AIMMフレームワークは,Redditの活動,ボット,市場データなどを統合し,操作リスクスコアを算出する。
    • AIMM-GTデータセットは,SECの執行措置などに基づき,操作された銘柄と通常銘柄を33日間分ラベル付けした。
    • GME事件において,AIMMは価格高騰の22日前からリスクを検知できた。

    Link: https://arxiv.org/abs/2512.16103

  • モデルテーブル:モデルに関するテーブルのコーパス [cs.DB, cs.AI, cs.IR]目的:モデルレイクにおけるテーブルの構造化された意味を捉えたベンチマークコーパス
    • AIモデルの発展に伴い,モデルの性能や設定に関する構造化データの重要性が高まっている。
    • 既存の研究では,テキストのみに着目し,テーブル形式の構造化された意味情報が十分に活用されていない。
    • AIモデルを記述する構造化データに対するベンチマークを提供し,より正確なセマンティック検索手法の開発を目指す。
    • ModelTablesは,6万以上のモデルと9万のテーブルを含む大規模なコーパスである。
    • テーブル検索の実験では,Unionベースのセマンティックテーブル検索がP@1で54.8%の精度を達成した。
    • テーブルベースのDense retrievalがP@1で66.5%と最も高い精度を示し,さらなる手法開発の余地があることが示された。

    Link: https://arxiv.org/abs/2512.16106

  • WeMusic-Agent: 知識の内部化とエージェント的境界学習による効率的な対話型音楽推薦 [cs.AI]目的:対話型音楽推薦における知識の内部化とエージェント的境界学習の効率化
    • 音楽推薦はパーソナライズ化が進み,ユーザー体験向上の鍵となる分野である。
    • 既存手法では,専門知識と柔軟なツール連携のバランスが課題となっている。
    • 知識活用とツール利用の適切な切り替えを可能にし,推薦精度を向上させる。
    • WeMusic-Agentは,大規模な音楽関連コーパスでの事前学習と外部ツール連携能力を獲得した。
    • WeChat Listenのリアルワールドデータを用いた評価で,既存モデルを上回る性能を示した。
    • 対話型音楽推薦のためのオープンソースベンチマークを新たに構築し,多角的な評価を可能にした。

    Link: https://arxiv.org/abs/2512.16108

  • 精密な構築:線形DAGのボトムアップ推論 [cs.LG, eess.SP]目的:線形DAG構造の学習
    • 因果発見,統計信号処理,機械学習の中核をなす問題である。
    • 有限データからの精度行列の推定が困難であり,誤差が蓄積しやすい。
    • 精度行列の構造を利用し,DAGを正確に再構築するアルゴリズムを開発する。
    • 提案手法BUILDは,葉ノードとその親を特定し,逐次的にDAGを再構築する。
    • 精度行列の再推定により,ロバスト性を高め,誤差の蓄積を軽減する。
    • 合成データを用いた実験で,既存のDAG学習アルゴリズムと同等以上の性能を示した。

    Link: https://arxiv.org/abs/2512.16111

  • 物体検出に対する敵対的攻撃に対するオートエンコーダベースのノイズ除去防御 [cs.CR, cs.AI, cs.CV]目的:物体検出性能の回復
    • 自動運転やセキュリティ監視など,実世界での応用が不可欠な物体検出技術である。
    • 敵対的サンプルに対して脆弱であり,性能が著しく低下する可能性がある。
    • 敵対的摂動の影響を軽減し,物体検出のロバスト性を向上させる。
    • 敵対的攻撃により,bbox mAPは43.3%低下したが,オートエンコーダ防御により一部回復した。
    • オートエンコーダ適用後のbbox mAPは3.7%向上し,bbox mAP@50は10.8%向上した。
    • 本研究は,モデルの再学習を必要とせずに,敵対的攻撃に対する部分的な防御が可能であることを示唆している。

    Link: https://arxiv.org/abs/2512.16123

  • 二つの視点からの推論攻撃:機械アンラーニングがプライバシー侵害を増大させる [cs.CL, cs.LG, cs.CV]目的:機械アンラーニングによるプライバシーリスクの評価
    • プライバシー保護は重要であり,データ削除要求への対応が求められている。
    • 機械アンラーニングは,削除されたデータのプライバシー保護に焦点を当ててきた。
    • 残存データのプライバシーリスクを明らかにし,二つの視点からの攻撃への対策を提示する。
    • 機械アンラーニングは,残存データのプライバシーを侵害する可能性を増大させる。
    • 二つのモデル(元のモデルとアンラーニングされたモデル)へのクエリによって,情報漏洩が増幅される。
    • DVIA(二つの視点からの推論攻撃)は,ブラックボックスクエリを用いて残存データのメンバーシップ情報を抽出する。

    Link: https://arxiv.org/abs/2512.16126

  • 段階的バッチスケジューリング:高効率LLM推論のための初回トークンまでの時間とスループットの共同最適化 [cs.DC, cs.LG]目的:LLM推論における初回トークンまでの時間とスループットの共同最適化
    • 大規模言語モデルの利用拡大に伴い,効率的な推論基盤が不可欠となっている。
    • 分散アーキテクチャでは,内部同期コストが高く,従来のスケジューリング手法では性能が制限される。
    • 内部キューイングによるボトルネックを解消し,推論効率を向上させる。
    • 段階的バッチスケジューリング(SBS)は,リクエストをバッファリングすることで,内部キューイングを削減する。
    • SBSとLoad-Aware Global Allocation戦略により,TTFTを30-40%削減,スループットを15-20%向上させた。
    • Deepseek-V3を用いたH800クラスタでの実証により,高い効果が確認された。

    Link: https://arxiv.org/abs/2512.16134

  • INTELLECT-3:技術報告 [cs.LG, cs.AI]目的:大規模強化学習による1060億パラメータのMixture-of-Expertsモデル
    • AI分野の発展において,より高度な推論能力を持つモデルの構築が不可欠である。
    • 大規模モデルの学習には,膨大な計算資源と効率的な学習フレームワークが課題となっている。
    • 大規模な強化学習基盤を構築し,効率的な学習と評価を可能にすること。
    • INTELLECT-3は,数学,コード,科学,推論のベンチマークにおいて,そのサイズに対して最先端の性能を達成した。
    • モデルおよび学習インフラストラクチャ(RLフレームワーク,レシピ,環境)をオープンソースとして公開した。
    • 大規模非同期強化学習のためのフレームワークprime-rlを導入し,数千のGPUへの拡張を可能にした。

    Link: https://arxiv.org/abs/2512.16144

  • 臨床的に整合性の高い医療レポート生成のための強化学習 [cs.CL, cs.AI]目的:医療画像からの放射線科医スタイルのレポート自動生成
    • 医療現場での迅速かつ正確な診断支援が求められており,画像診断レポートの自動化は重要な課題である。
    • 既存手法は言語スタイルは模倣するものの,医学的正確性が保証されず,臨床的妥当性に課題がある。
    • 臨床的正確性を重視した学習によって,医学的根拠に基づいたレポート生成を目指す。
    • 提案手法MRG-R1は,IU X-Rayデータセットで臨床的有効性(CE-F1)51.88,MIMIC-CXRデータセットで40.39を達成し,最先端の性能を示す。
    • ラベルの意味的強化学習が従来のトークンレベルの監督学習よりも優れていることが示された。
    • レポートレベルの報酬最適化が臨床的正確性を向上させる有効性が確認された。

    Link: https://arxiv.org/abs/2512.16145

  • 偽の物語が憎悪ストーリーを拡散するメカニズムの解読:マルチタスク学習を用いたデュアルヘッドRoBERTaモデル [cs.CL, cs.AI]目的:偽の物語が引き起こす憎悪表現の検出と,その対象および深刻度の予測
    • ソーシャルメディアはグローバルな繋がりを促進する一方で,ヘイトスピーチ等の有害コンテンツ拡散の温床となっている。
    • 偽の物語を伴う憎悪表現(Faux-Hate)の自動検出は困難であり,その特定手法が求められている。
    • コード混合されたヒンディー語・英語のソーシャルメディアテキストにおけるFaux-Hateの検出精度向上を目指す。
    • 本研究では,高度な自然言語処理技術とドメイン固有の事前学習を組み合わせたシステムを開発した。
    • マルチタスク学習を用いることで,Faux-Hateの検出と対象・深刻度の予測において競争力のある結果を得た。
    • このアプローチは,複雑な問題に対してマルチタスク学習が有効であることを示唆している。

    Link: https://arxiv.org/abs/2512.16147

  • ToolForge:リアルワールドAPIなしのマルチホップ検索のためのデータ合成パイプライン [cs.DC, cs.AI]目的:マルチホップ検索のためのツール学習データ
    • 大規模言語モデルの性能向上が不可欠であり,そのために高品質な学習データが重要である。
    • 既存のデータ生成パイプラインは高コストであり,マルチホップ推論と自己反省が不足している。
    • リアルワールドAPIの利用なしで,効率的に高品質なツール学習データを生成すること。
    • ToolForgeは,少数の仮想ツールを用いて,リアルワールドAPIの呼び出しを必要としないデータ合成フレームワークである。
    • 生成されたデータは,マルチホップ推論と自己反省メカニズムにより,マルチホップ検索シナリオに特化している。
    • 8BパラメータのモデルでGPT-4oを上回る性能を複数のベンチマークで達成した。

    Link: https://arxiv.org/abs/2512.16149

  • C-DGPA:クラス中心二重アラインメント生成プロンプト適応 [cs.CV, cs.AI]目的:ドメイン不一致の緩和
    • 教師なしドメイン適応は,ラベル付きソースドメインからラベルなしターゲットドメインへ知識を転移する重要な技術である。
    • 既存のプロンプト調整戦略は周辺分布のアラインメントに重点を置き,条件分布の不一致を無視している。
    • クラスプロトタイプの不整合や意味的識別能力の低下といった問題を解決し,ドメイン不変かつ意味的に識別可能な表現を学習する。
    • C-DGPAは,動的な敵対的学習フレームワークを用いて周辺分布の不一致を解消する。
    • クラスマッピングメカニズム(CMM)を導入し,意味的プロンプト理解を標準化することで条件分布の不一致をアラインメントする。
    • OfficeHome,Office31,VisDA-2017ベンチマークにおいて,C-DGPAは最先端の結果を達成し,その有効性を実証した。

    Link: https://arxiv.org/abs/2512.16164

  • Ev-Trust:LLMベースのマルチエージェントサービスにおける戦略均衡型信頼メカニズム [cs.MA, cs.AI, cs.GT]目的:LLMベースのマルチエージェントサービスにおける信頼メカニズム
    • Webがエージェント中心へと進化し,LLMが複雑な環境での自律的な行動を可能にしている。
    • LLMベースのシステムでは,欺瞞や不正のリスクが高まり,信頼構築が課題となっている。
    • 進化ゲーム理論に基づき,悪意ある参加者を排除し,高品質な協調を促進するメカニズムを提案する。
    • Ev-Trustは,直接的信頼,間接的信頼,期待収益を統合し,エージェントの行動進化を均衡へと導く動的なフィードバック構造を持つ。
    • 理論的な導出により,局所的な進化均衡の存在と安定性が証明された。
    • 実験結果は,本手法がエージェントの信頼性を反映し,不正な戦略を削減し,集団収入を増加させることを示している。

    Link: https://arxiv.org/abs/2512.16167

  • 科学コンサルタントエージェント [cs.AI, cs.CL, cs.IR, cs.LG]目的:AIベースのソリューションに最適なモデリング戦略の選択と実装支援
    • AI技術の応用範囲拡大に伴い,適切なモデリング戦略の選択が重要となっている。
    • 専門知識がない場合,最適なモデリング戦略の選択が困難である。
    • AIソリューション開発の迅速化と,専門知識不要な環境の提供を目指す。
    • 本エージェントは,質問票,スマート入力,研究に基づく推奨,プロトタイプ作成の4つの要素で構成される。
    • これにより,製品マネージャーから研究者まで,幅広い開発者がAIソリューションの開発を加速できる。
    • 全体のパイプラインは図1に示す通りである。

    Link: https://arxiv.org/abs/2512.16171

  • イベントカメラによるドメインギャップの解消に向けた試み [cs.CV, cs.AI, cs.RO]目的:ドメインギャップの解消
    • 自動運転の主要なセンサである従来のカメラの性能は,環境の変化に弱い。
    • 学習データと実際の環境との差異(ドメインギャップ)が自動運転の性能低下を引き起こす。
    • イベントカメラを用いて,昼夜間のドメインギャップを克服する。
    • イベントカメラは,従来のカメラと比較して,照明条件の変化に対する性能劣化が少ない。
    • イベントカメラは,グレースケール画像と同等かそれ以下のドメインシフトペナルティを示す。
    • イベントカメラは,クロスドメインシナリオにおいて,より優れたベースライン性能を提供する。

    Link: https://arxiv.org/abs/2512.16178

  • アルツハイマー病診断へのマルチモーダルアプローチ:立方体模写からの幾何学的洞察と認知評価 [cs.CL, cs.CY, cs.LG]目的:アルツハイマー病の分類
    • 早期発見が重要であり,簡便な認知機能評価法の確立が求められている。
    • 立方体模写は有用だが,その評価は主観的で定量性に乏しい。
    • 立方体模写の幾何学的特徴を客観的に解析し,診断精度を向上させる。
    • 立方体模写をグラフ構造で表現し,グラフニューラルネットワークを用いて解析することで高い分類性能が得られた。
    • グラフベースの表現は,従来のピクセルベースの手法よりも優れていることが示された。
    • グラフレットモチーフや幾何学的歪みが,アルツハイマー病の予測因子として特定された。

    Link: https://arxiv.org/abs/2512.16184

  • 重み付きK-調和平均クラスタリング:収束解析と無線通信への応用 [cs.AI]目的:重み付きK-調和平均クラスタリングアルゴリズムの収束性解析と,無線通信への応用
    • 無線通信における効率的なリソース配分は,通信品質向上とネットワーク容量増加に不可欠である。
    • 従来のクラスタリング手法では,非凸性や初期値依存性により,安定した収束が保証されない場合がある。
    • 受信信号強度に基づくユーザ割り当てを最適化し,無線ネットワークにおけるノード配置とユーザ関連付けを改善する。
    • 提案手法は,古典的なK-means法や制約付きK-means法と比較して,最小信号強度と負荷公平性の間の優れたトレードオフを実現する。
    • 固定初期化下での単調減少,二項点過程初期化下での確率収束,穏やかな減衰条件下のほぼ確実な収束という厳密な収束保証が確立された。
    • 調和平均に基づくクラスタリング手法に対する初の確率的収束保証を提供し,数値的安定性を確保しつつソフトアサインメントを可能にする。

    Link: https://arxiv.org/abs/2512.16185

  • 空間トランスクリプトミクスデータクラスタリングのための多スケール融合グラフニューラルネットワークとインタビュー対照学習 [cs.LG]目的:空間トランスクリプトミクスデータのクラスタリング手法
    • 組織内の遺伝子発現解析は,疾患理解や創薬に不可欠である。
    • 遺伝子と空間情報の複雑な相互作用から,空間領域の特定が困難である。
    • 多スケールなセマンティック情報とクロスビュー相互作用を捉え,クラスタリング精度向上を目指す。
    • 提案手法stMFGは,空間情報と遺伝子情報を層ごとに動的に統合する。
    • クロスビュー対照学習と空間制約により,識別能力と空間的な連続性を向上させた。
    • DLPFCおよび乳がんデータセットにおいて,最先端手法を最大14%ARIで上回る性能を示した。

    Link: https://arxiv.org/abs/2512.16188

  • ランクに基づくゼロ次最適化アルゴリズムの明示的かつ非漸近的クエリ複雑性(滑らかな関数に対する) [cs.LG, cs.NE]目的:滑らかな関数に対するランクに基づくゼロ次最適化アルゴリズムのクエリ複雑性の解析
    • ノイズへの耐性や単調変換への対応性が高く,CMA-ES等,様々なアルゴリズムの基礎となっている。
    • 既存の研究では漸近的な洞察しか得られておらず,上位$k$方向を選択するアルゴリズムに対する明示的な収束率が不明である。
    • ランクに基づくゼロ次最適化アルゴリズムに対する明示的かつ非漸近的なクエリ複雑性を確立することを目的とする。
    • 強凸関数に対して,アルゴリズムは$\widetilde{\mathcal O}\!\left(\frac{dL}{\mu}\log\!\frac{dL}{\mu\delta}\log\!\frac{1}{\varepsilon}\right)$回のクエリで$\varepsilon$-最適解を達成する。
    • 滑らかな非凸関数に対しては,$\mathcal O\!\left(\frac{dL}{\varepsilon}\log\!\frac{1}{\varepsilon}\right)$回のクエリで最適化を達成する。
    • 本解析は古典的なドリフトや情報幾何学的手法を避け,ランクベースのヒューリスティクスが効率的な最適化に繋がる理由に関する新たな洞察を提供する。

    Link: https://arxiv.org/abs/2512.16200

  • 文脈化された特徴学習による自由形式の随伴カテゴリ化 [cs.CV, cs.AI]目的:視覚的シーンの随伴カテゴリ化のメカニズム
    • AIエージェントが変化するタスクに対応するには,適応的なカテゴリ化が不可欠である。
    • 既存の手法では,ラベル付きデータが少なく,未知のカテゴリへの汎化が困難である。
    • 少数のラベルと大量の未ラベルデータから,新たなカテゴリを学習し,拡張することを目指す。
    • 提案手法OAKは,CLIPとGCDの目的関数を組み合わせることで,高精度なカテゴリ化を実現した。
    • Stanford Moodデータセットにおいて,87.4%という最先端の精度を達成し,既存手法を大幅に上回った。
    • OAKは,アクションに対して手,ムードに対して顔,場所に対して背景に注目する解釈可能なサリエンシーマップを生成した。

    Link: https://arxiv.org/abs/2512.16202

  • PDE-Agent:ツールチェーン拡張型マルチエージェントフレームワークによる偏微分方程式求解 [cs.AI]目的:偏微分方程式求解のためのツールチェーン拡張型マルチエージェントフレームワーク
    • 工学や科学研究において,偏微分方程式の求解は不可欠であり,その効率化が求められている。
    • 従来の求解手法は専門知識が必要であり,自動化は不十分であった。PINNなどの手法も専門知識に依存する。
    • 自然言語による記述から,自動的に偏微分方程式を求解するフレームワークを開発し,求解の自動化を目指す。
    • PDE-Agentは,LLM駆動のエージェントとツールチェーンを組み合わせることで,偏微分方程式求解を自動化する。
    • Prog-ActフレームワークとResource-Poolにより,マルチエージェント・マルチツール連携を効果的に実現した。
    • 開発したPDE-Benchを用いた評価により,PDE-Agentが複雑なタスクにおいて高い適用性と性能を示すことを確認した。

    Link: https://arxiv.org/abs/2512.16214

  • 重力駆動型地質災害の流出に対するニューラルエミュレーション [cs.LG, cs.AI]目的:地質災害の流出予測
    • 地質災害は人命,インフラ,生態系に甚大な被害をもたらすため,流出予測は重要である。
    • 多様な発生条件と材料特性により,流出予測は困難であり,特に下流地域への影響予測が課題である。
    • 物理的リアリズムと計算効率を両立した,大規模な流出予測を可能にすること。
    • 本研究では,ニューラルネットワークを用いて地質災害の流出を予測し,既存の数値シミュレーションよりも100~10,000倍高速な計算を実現した。
    • モデルは,実際の地形や堆積パターンを再現し,様々な流れの種類,規模,地形に適用可能であることが示された。
    • これにより,大規模な早期警戒システムへの物理的リアリズムに基づく地質災害モデリングの拡張が期待される。

    Link: https://arxiv.org/abs/2512.16221

  • ロバストな大規模言語モデル編集のための情報理論的フレームワーク [cs.CL, cs.AI]目的:大規模言語モデルの知識編集手法
    • 大規模言語モデルは様々な分野で活用されているが,その信頼性向上が重要である。
    • 既存の編集手法は,特定の領域外への修正の汎化が難しく,実用性に限界がある。
    • 汎化性能の高い知識編集手法を開発し,大規模言語モデルの信頼性を向上させる。
    • 本研究では,情報ボトルネック理論に基づく新しいフレームワークを提案した。
    • 提案手法であるIBKEは,コンパクトな潜在表現を用いて勾配更新を誘導し,ロバストな編集を実現する。
    • 複数のLLMアーキテクチャとベンチマークタスクで,最先端の精度と汎化性能を示した。

    Link: https://arxiv.org/abs/2512.16227

  • AIを活用した皮膚科診断:解釈可能なモデルから臨床実装へ - アクセス可能で信頼性の高い皮膚疾患検出のための包括的フレームワーク [cs.CV, cs.AI]目的:AIを活用した皮膚科診断の精度向上
    • 皮膚疾患は世界的に罹患率が高く,早期発見と適切な治療が重要である。
    • 専門医の不足や症状の複雑さから,正確な診断が困難な場合がある。
    • 家族歴を考慮することで,診断精度を向上させ,個別化医療に貢献することを目指す。
    • 深層学習による画像解析と詳細な家族歴を含む臨床データを組み合わせたAIフレームワークを開発した。
    • 家族歴を取り入れることで,特にメラノーマ,乾癬,アトピー性皮膚炎などの遺伝性皮膚疾患の診断精度が向上した。
    • 専門家からのフィードバックにより,早期発見や個別化された推奨事項の改善の可能性が示唆された。

    Link: https://arxiv.org/abs/2512.16235

  • 情報検索における再ランク付けモデルの進化:ヒューリスティック手法から大規模言語モデルへ [cs.IR, cs.AI]目的:情報検索における再ランク付けモデルの進化の概要
    • 情報検索は,大量の情報から必要な情報を効率的に得る上で不可欠な技術である。
    • 従来の検索システムでは,初期候補の精度改善が課題であり,特に最終的な検索結果の関連性に影響を与える。
    • 本研究は,再ランク付け手法の進歩を整理し,その効果と課題を明らかにすることを目指す。
    • 再ランク付けは,現代の情報検索システムにおいて,初期候補の精度を高め,検索結果の関連性を向上させる重要な段階である。
    • 本調査では,従来の基礎的な手法から,クロスエンコーダー,T5のような系列生成モデル,グラフニューラルネットワークといった高度なニューラルネットワークアーキテクチャまで,様々な再ランク付けモデルを包括的に概観する。
    • 大規模言語モデル(LLM)を再ランク付けに統合する新しいアプローチや,知識蒸留による効率化技術についても分析し,それぞれの原理,有効性,計算コスト,および現実的なトレードオフを明らかにする。

    Link: https://arxiv.org/abs/2512.16236

  • プログラム的データ合成によるMLLMにおける空間推論のスケーリング [cs.AI]目的:空間推論データのプログラム的合成フレームワーク
    • 人工知能の重要な課題であり,ロボット工学など幅広い分野への応用が期待される。
    • 既存のデータセットは,拡張性に乏しいか,精度に課題がある。
    • シミュレータと大規模言語モデルを活用し,高品質な空間推論データを大規模に生成する。
    • 提案手法SPRITEは,空間的な質問をプログラムに変換し,シミュレータで検証することで,精度の高いデータセットを構築する。
    • 3つのシミュレータ,11,000以上のシーン,30万組以上の画像/ビデオ指示チューニングペアを含むデータセットを構築した。
    • 提案データセットで訓練されたVLMは,複数の空間ベンチマークで性能が向上し,既存のデータセットを上回る結果を得た。

    Link: https://arxiv.org/abs/2512.16237

  • 大規模言語モデルを用いた粗精細なオープンセットグラフノード分類 [cs.LG, cs.AI]目的:グラフデータにおける分布内・外サンプル識別と,分布外サンプルの分類
    • 現実世界では未知のデータが出現するため,分布外サンプルを検出・分類する技術が重要である。
    • 既存手法では分布外サンプルを単一クラスとして扱うため,詳細な分析が困難である。
    • 大規模言語モデルを活用し,分布外サンプルの分類精度向上を目指す。
    • 提案手法CFCは,大規模言語モデルを用いて粗い分類と分布外ラベル生成を行う。
    • CFCは,識別された分布外サンプルを用いてGNNベースの微調整分類器を訓練し,検出精度を向上させる。
    • グラフおよびテキストドメインで最先端手法よりも10%高い分布外検出性能,グラフデータセットで最大70%の分布外分類精度を達成した。

    Link: https://arxiv.org/abs/2512.16244

  • AlignMerge - フィッシャー誘導幾何学的制約によるアライメント保持LLMマージ [cs.AI]目的:複数ファインチューニング済みチェックポイントの能力を,再学習なしに組み合わせる手法
    • 大規模言語モデルの活用において,異なる能力を効率的に統合することが重要である。
    • 既存のマージ手法では,性能維持と同時にアライメント(安全性や倫理的整合性)が損なわれる場合がある。
    • アライメントを明示的に保持し,安全性を確保したLLMのマージを実現することを目指す。
    • AlignMergeは,フィッシャー情報幾何学に基づき,アライメントを重視したマージフレームワークを提案する。
    • 実験の結果,AlignMergeは既存手法と比較して,アライメント指標(AQI,毒性,LLM-judgeアライメント)を改善し,指示応答,推論,有用性においても同等以上の性能を示す。
    • アライメント維持を重要な設計目標とし,将来の基盤モデルの幾何学的構成への道筋を示す。

    Link: https://arxiv.org/abs/2512.16245

  • シャープネスを意識した連合グラフ学習 [cs.LG]目的:異種データに対するグラフニューラルネットワークの汎化性能向上
    • 大規模グラフデータへのGNN適用において,プライバシー保護の観点から分散学習の重要性が高まっている。
    • 連合グラフ学習では,クライアント間のデータ分布の不均一性が課題となっている。
    • 損失曲面のシャープネスを考慮することで,異種データに対する汎化性能を改善する。
    • 提案手法SEALは,損失関数とシャープネスを同時に最小化することで,より安定したモデルパラメータを探索する。
    • 表現の次元崩壊を緩和するため,局所的な表現の相関行列に基づく正則化項を導入する。
    • グラフ分類ベンチマーク実験において,既存の連合学習手法を上回り,参加者数増加による性能向上が確認された。

    Link: https://arxiv.org/abs/2512.16247

  • Sigma-MoE-Tiny 技術報告 [cs.CL, cs.AI]目的:スパースな Mixture-of-Experts 言語モデルの性能評価
    • 大規模言語モデルにおいて,モデルの規模拡大と計算効率の向上が重要な課題となっている。
    • 極めて高いスパース性を持つ MoE モデルでは,専門家への負荷分散が困難となる。
    • 本研究は,過度なスパース性下での負荷分散問題を解決し,モデルの安定的な学習を目指す。
    • Sigma-MoE-Tiny は,既存のオープンソースモデルと比較して最も高いスパース性を実現した。
    • 層ごとに最大96個の専門家を用いながら,トークンごとに1つの専門家のみを活性化することで,200億パラメータのモデルを0.5億パラメータで運用可能とした。
    • 進捗的なスパース化スケジュールにより,専門家の利用率と学習の安定性を両立し,トップレベルの性能を達成した。

    Link: https://arxiv.org/abs/2512.16248

  • AMUSE:エージェント的複数話者理解のためのオーディオビジュアルベンチマークとアライメントフレームワーク [cs.AI, cs.MA]目的:エージェント的複数話者理解のベンチマークとアライメントフレームワーク
    • マルチモーダルLLMの応用範囲拡大のため,音声と映像の両方を理解する能力が重要である。
    • マルチモーダルLLMは,複数話者間の対話や役割の把握といった,エージェント的な推論が苦手である。
    • 複数話者の対話において,LLMのエージェント的推論能力を向上させることを目指す。
    • AMUSEは,複雑なオーディオビジュアルインタラクションを計画,グラウンディング,反省のステップに分解する必要があるエージェント的なタスクを中心に設計されたベンチマークである。
    • RAFTは,報酬最適化と本質的なマルチモーダル自己評価を統合し,データ効率の良いエージェント的アライメントフレームワークである。
    • RAFTを用いることで,ベンチマークにおける精度が最大で39.52%相対的に向上した。

    Link: https://arxiv.org/abs/2512.16250

  • スパイクニューラルネットワークにおける変化感知樹状突起-細胞体-軸索ニューロンによる低遅延学習性能の向上 [cs.DB, cs.NE]目的:スパイクニューラルネットワークの低遅延学習性能向上
    • エネルギー効率に優れるスパイクニューラルネットワークの重要性が増しており,その性能向上が求められている。
    • 従来のスパイクニューロンのハードリセット機構は,膜電位の多様性を無視し情報劣化を引き起こす。
    • 複雑な生物学的構造を無視した単純化されたニューロンモデルの限界を克服し,高精度な情報伝達を可能とする。
    • 提案するCP-DSAニューロンは,ソフトリセット戦略と変化感知メカニズムにより,少ないステップ数で競争力のある性能を発揮する。
    • 理論的解析により,CP-DSAモデルの有効性と内部パラメータの機能特性が実証された。
    • 様々なデータセットを用いた実験により,CP-DSAモデルが最新手法よりも優れていることが確認された。

    Link: https://arxiv.org/abs/2512.16259

  • 待つことを学習する:物理世界とのエージェントの同期 [cs.AI]目的:非同期環境におけるエージェントの同期
    • 現実世界のタスクでは,時間的なずれが重要となる。
    • 従来の環境側のアプローチは,スケーラビリティや効率性に課題がある。
    • LLMによる時間予測を通じて,エージェント自律性を向上させる。
    • LLMは,時間予測を通じて物理世界との同期を学習可能である。
    • Kubernetesクラスターのシミュレーションで,クエリオーバーヘッドと実行遅延を最小化できることが示された。
    • 時間認識は,自律進化のための重要な能力である。

    Link: https://arxiv.org/abs/2512.16262

  • 深層学習を用いたピクセル超解像蛍光寿命イメージング [eess.SY, cs.SY, cs.NI, cs.RO, cs.CV, cs.LG, physics.med-ph, physics.optics]目的:蛍光寿命イメージング画像の空間解像度向上
    • 蛍光寿命イメージングは,ラベルフリーでリアルタイムな診断への応用が期待される重要な定量分析技術である。
    • 従来の蛍光寿命イメージングは,ピクセル滞留時間とS/N比のトレードオフにより,臨床応用が制限されてきた。
    • 本研究は,深層学習を用いて高解像度な蛍光寿命イメージング画像を高速に再構成し,その問題を解決することを目指す。
    • 深層学習に基づくピクセル超解像(PSR)フレームワークFLIM_PSR_kを開発し,ピクセルサイズを最大5倍まで拡大したデータから高解像度画像を再構成することを可能にした。
    • cGANフレームワークを用いることで,拡散モデルと比較して,より堅牢な超解像再構成と短い推論時間を実現した。
    • 患者由来の腫瘍組織サンプルを用いた盲検テストの結果,FLIM_PSR_kはk=5の超解像度を実現し,空間帯域積を25倍に向上させ,低解像度入力では失われた微細な構造を明らかに示した。

    Link: https://arxiv.org/abs/2512.16266

  • TextEditBench: 推論を考慮したテキスト編集の評価,レンダリングを超えて [cs.CV, cs.AI]目的:画像内テキスト編集の評価基準
    • 画像生成技術は発展したが,テキスト領域の編集は未発達であり,その評価基準も存在しなかった。
    • 既存モデルは単純な指示には従えるものの,文脈理解や物理的整合性において課題がある。
    • 文脈依存の推論,物理的整合性,レイアウトへの統合能力を評価する基準を提示する。
    • TextEditBenchは,画像内のテキスト中心領域に焦点を当てた包括的な評価基準である。
    • 新しい評価指標「意味的期待度 (SE)」を導入し,テキスト編集におけるモデルの推論能力を測定した。
    • 実験の結果,既存モデルは高度な推論能力を必要とする編集タスクにおいて依然として苦戦していることが明らかになった。

    Link: https://arxiv.org/abs/2512.16270

  • ドメイン非依存型因果認識オーディオTransformerによる乳児泣き声分類 [cs.SD, cs.AI]目的:乳児泣き声のパラ言語的特徴の正確かつ解釈可能な分類
    • 新生児の苦痛早期発見や臨床意思決定支援において,乳児泣き声の分析は不可欠である。
    • 既存の深層学習手法は相関に基づく音響表現に依存しやすく,ノイズやドメインシフトに脆弱である。
    • 本研究は,ロバストな泣き声分類を実現するため,因果関係に着目したモデルを提案する。
    • 提案手法DACH-TICは,既存の最先端手法を上回り,精度で2.6%向上,マクロF1スコアで2.2ポイント向上した。
    • 因果的忠実性も向上しており,未学習の音響環境への汎化性能も高いことが示された。
    • ドメイン間の性能差はわずか2.4%であり,現実世界の新生児モニタリングシステムへの応用が期待できる。

    Link: https://arxiv.org/abs/2512.16271

  • 盲点を超えて:LLMベースの評価における落とし穴を軽減するための分析的ヒント [cs.SE, cs.AI]目的:LLMを評価者として利用する際の課題とその改善策
    • コード生成パイプラインの規模拡大にLLMの利用が増加しており,評価の自動化が重要である。
    • LLMはドメイン固有の問題を見落とす傾向があり,重要な評価タスクにおける信頼性が懸念される。
    • LLMの評価における盲点を明らかにし,専門知識に基づいた分析的ヒントによって改善を目指す。
    • LLM単独ではコードのエラーの約45%しか検出できない。
    • 開発した分析的チェッカーとLLMを組み合わせることで,エラー検出率が最大94%に向上した。
    • LLMとヒントの組み合わせは,より詳細で正確な説明を生成し,評価の信頼性を高める。

    Link: https://arxiv.org/abs/2512.16272

  • GFLAN:生成機能レイアウト [cs.CV, cs.AI]目的:自動間取り生成の新しいフレームワーク
    • 建築設計の効率化が求められており,自動化技術への期待が高まっている。
    • 既存手法は,建築的な推論や機能制約の伝播が苦手であり,実用性に課題がある。
    • トポロジカルプランニングと幾何学的実現の分離により,間取り生成の精度向上を目指す。
    • GFLANは,間取り生成をトポロジカルプランニングと幾何学的実現の2段階に分解する。
    • 第一段階では,畳み込みニューラルネットワークを用いて部屋の中心配置を決定する。
    • 第二段階では,Transformerを拡張したグラフニューラルネットワークを用いて部屋の境界を構築する。

    Link: https://arxiv.org/abs/2512.16275

  • 高次元不完全データに対するシャープネス認識二次潜在因子モデル [cs.LG]目的:高次元不完全データからのノード間相互作用パターン抽出
    • データ解析において,高次元で欠損を含むデータの取り扱いは重要である。
    • 既存の低ランク表現学習法では,最適化が困難であり,汎化性能が課題となる。
    • シャープネス認識最小化により,汎化性能を向上させることを目指す。
    • 提案手法SSLFは,ヘッセ行列とベクトル積を利用して二次情報とシャープネス項を獲得する。
    • 複数の産業データセットにおいて,最先端の基盤モデルを安定的に上回る性能を示した。

    Link: https://arxiv.org/abs/2512.16277

  • QuadSentinel:マルチエージェントシステムの機械検証可能な制御のための逐次安全性 [cs.AI, cs.CL]目的:大規模言語モデルベースのエージェントにおける安全性確保
    • 複雑なタスク実行において,エージェントの安全性は重要であり,その保証が求められている。
    • 自然言語で記述されたポリシーは曖昧で状況に依存するため,機械検証可能なルールへの変換が困難である。
    • 自然言語ポリシーを機械検証可能なルールに変換し,オンラインで強制することで安全性向上を目指す。
    • QuadSentinelは,状態追跡,ポリシー検証,脅威監視,仲裁を行う4つのエージェントで構成され,逐次安全性を提供する。
    • ST-WebAgentBenchとAgentHarmを用いた評価により,ガードレールの精度とルール再現率が向上し,誤検出が減少することが示された。
    • 既存のシングルエージェントベースラインと比較して,全体的な安全性制御が改善されている。

    Link: https://arxiv.org/abs/2512.16279

  • 愛,嘘,そして言語モデル:ロマンス詐欺におけるAIの役割の調査 [cs.CR, cs.AI, cs.CY]目的:ロマンス詐欺におけるAIの役割
    • 国際的な詐欺被害が増加しており,経済的・精神的な損失が深刻化している。
    • 詐欺の多くがテキストベースで行われており,AI技術の悪用が懸念されている。
    • AIが詐欺にどのように利用されているか,現状と将来のリスクを明らかにすること。
    • 調査の結果,詐欺組織の87%でAIが会話業務に利用されていることが判明した。
    • AIエージェントは人間よりも信頼を得やすく,要求への同意率も高かった(46%対18%)。
    • 既存の安全フィルターはロマンス詐欺の対話を全く検知できず,対策の不備が明らかになった。

    Link: https://arxiv.org/abs/2512.16280

  • CKA誘導モジュール量子化:ビット幅を超えてアルゴリズムの多様性へ [cs.LG, cs.AI]目的:大規模言語モデルにおける層ごとの最適な量子化戦略の選択
    • 言語モデルの効率化は,計算資源の制約下での実用化に不可欠である。
    • 従来の量子化手法は,ネットワーク層間のアルゴリズム適合性の違いを無視している。
    • 層ごとに最適な量子化アルゴリズムを自動選択し,性能劣化を抑制することを目指す。
    • 提案手法は,LLaMAやQwenを含む主要な言語モデルにおいて,一様量子化や混合精度法を上回る性能を示す。
    • 言語モデルのperplexity(PPL)および下流タスクのパフォーマンスが改善されることが確認された。
    • CKA(Linear Centered Kernel Alignment)を用いて,層ごとに最適な量子化戦略を自動的に決定する。

    Link: https://arxiv.org/abs/2512.16282

  • ファインチューニングされた言語モデルにおけるメンバーシップ推論のための文脈内プロービング [cs.HC, cs.CL, cs.CR, cs.LG]目的:ファインチューニングされた大規模言語モデルにおけるメンバーシップ推論攻撃の効率的かつ理論的根拠のあるフレームワーク
    • 大規模言語モデルの普及に伴い,プライバシー保護の重要性が増している。
    • 既存のメンバーシップ推論攻撃は汎化性能が低く,ノイズの影響を受けやすい。
    • モデルの学習ダイナミクスに着目し,メンバーシップを識別する新たな手法を開発する。
    • 文脈内プロービング(ICP)は,学習済みモデルに追加の学習を必要とせず,メンバーシップの情報を効率的に抽出する。
    • 提案手法ICP-MIAは,既存のブラックボックス型メンバーシップ推論攻撃を大幅に上回り,特に低い偽陽性率で高い性能を示す。
    • 参照データのアライメント,モデルの種類,PEFT構成,学習スケジュールなどが攻撃の有効性に影響を与えることが示された。

    Link: https://arxiv.org/abs/2512.16292

  • OS-Oracle:クロスプラットフォームGUI批判モデルのための包括的フレームワーク [cs.AI]目的:クロスプラットフォームGUI批判モデルのデータパイプライン,学習パラダイム,および評価ベンチマーク
    • GUI操作可能なエージェントの発展は,実世界での応用を促進するが,信頼性ある意思決定が課題。
    • 高品質なGUIフィードバックデータや,段階的評価のための公開ベンチマークが不足している。
    • 多様なGUIデータを活用し,高精度な批判モデルを開発・評価することを目指す。
    • OS-Oracleは,クロスプラットフォームGUI批判データの合成パイプラインと,SFTとCP-GRPOを組み合わせた学習パラダイムを提案。
    • OS-Critic Benchは,モバイル,ウェブ,デスクトップの各プラットフォームでの批判モデル性能評価を可能にする包括的なベンチマーク。
    • OS-Oracle-7Bは,OS-Critic Benchで最先端の性能を示し,モバイル環境では商用モデルを上回る。

    Link: https://arxiv.org/abs/2512.16295

  • 機械アンラーニングのための特徴選択的表現誤誘導 [cs.LG, cs.AI]目的:機械アンラーニングにおける表現の選択的誤誘導による,有害な表現の抑制と有用な表現の維持
    • 大規模言語モデルの利用拡大に伴い,機密情報の漏洩や規制遵守などの安全性確保が重要になっている。
    • 既存のアンラーニング技術は,忘却データと保持データの分離を前提とするため,現実的なデータ分布では課題がある。
    • データ分布の複雑性下でも,モデルの有用性を損なわずに安全な知識除去を実現することを目的とする。
    • 提案手法SRMUは,特徴を考慮した制御された摂動により,最先端のアンラーニング性能と最小限のユーティリティ損失を達成した。
    • 20-30%のデータ重複がある状況下でも,SRMUは既存手法が失敗する中で有効性を維持した。
    • SRMUは,LLMベースのアプリケーションにおける安全性,プライバシー遵守,制御された知識除去のための堅牢な基盤を提供する。

    Link: https://arxiv.org/abs/2512.16297

  • コード・イン・ザ・ループフォレンジクス:画像偽造検出のためのエージェント的ツール利用 [cs.AI]目的:画像偽造検出におけるエージェント的ツール利用
    • デジタルフォレンジックスは,法的証拠の信頼性を確保する上で不可欠であり,その重要性は増している。
    • 既存手法は,低レベルな特徴か高レベルな意味情報に依存しており,両者の統合が困難である。
    • 低レベルツールを活用するエージェントによる対話的フレームワークで,この統合を可能にすることを目指す。
    • ForenAgentは,Pythonベースの低レベルツールを自律的に生成・実行し,画像偽造検出を柔軟かつ解釈可能に行う。
    • Cold Startと強化学習による段階的な訓練により,ツール利用能力と推論適応性を向上させている。
    • 大規模なデータセットFABenchを用いて評価を行い,困難なタスクで優れた性能と反射的な推論を示すことが確認された。

    Link: https://arxiv.org/abs/2512.16300

  • エージェント型AIの適応 [cs.AI, cs.CL]目的:エージェント型AIにおける適応戦略の体系化
    • AIの高度化に伴い,特定タスクへの適応能力が重要となっている。
    • 適応戦略の分類が曖昧で,設計時の選択が困難である。
    • 適応戦略の体系化と,その選択指針の提示を目指す。
    • 本研究では,エージェントとツールの適応を包括するフレームワークを提案した。
    • フレームワークは,適応戦略のトレードオフを明確にし,設計の指針を提供する。
    • 各戦略のアプローチを分析し,今後の課題と機会を提示した。

    Link: https://arxiv.org/abs/2512.16301

  • PixelArena: ピクセル精度による視覚的知能のベンチマーク [cs.RO, cs.CV, cs.AI]目的:ピクセル精度による視覚的知能の客観的評価
    • 画像生成AIの発展に伴い,その性能を正確に評価する必要性が高まっている。
    • 既存のベンチマークは美的評価に偏りがちで,詳細な生成能力の評価が不十分である。
    • 画像生成AIの細部生成能力を客観的に評価できるベンチマークの構築を目指す。
    • 最新のGemini 3 Pro Imageは,ゼロショット設定で高精度なセマンティックマスクを生成する能力を示した。
    • これは,従来の画像生成AIには見られなかった視覚的知能と,新しいタスクへの真の汎化能力を示すものである。
    • 本研究は,マルチモーダルAI,推論,解釈可能性,ベンチマークに関する今後の研究に洞察を提供する。

    Link: https://arxiv.org/abs/2512.16303