arXiv雑要約

AI - 2025/12/19 公開

  • SARMAE:SAR画像表現学習のためのマスクオートエンコーダ [cs.CV, cs.LG]目的:SAR画像表現の自己教師あり学習
    • SAR画像は,全天候・昼夜を問わないリモートセンシングに不可欠である。
    • SAR画像のデータ不足と,特有のスペックルノイズが,高精度な意味的表現学習を阻害している。
    • ノイズに強く,頑健なSAR画像表現を学習し,様々なタスクの性能向上を目指す。
    • SARMAEは,大規模SARデータセットSAR-1Mを用いて,自己教師あり学習を行う。
    • SARE機構により,スペックルノイズを考慮したロバストな表現学習を実現した。
    • SARC制約により,光学的情報との整合性を高め,意味的な一貫性を確保した。

    Link: https://arxiv.org/abs/2512.16635

  • イスラム教に関する質疑応答のためのシャリーア・チャットボットの実装 [cs.AI]目的:イスラム教に関する質問への対応を目的としたシャリーア準拠チャットボット
    • 現代社会において,宗教的知識へのアクセスは重要であり,デジタル技術はその手段となり得る。
    • 信頼できるイスラム教の情報源が限られており,誤った解釈や情報拡散のリスクがある。
    • 本研究は,AIを活用して信頼性の高いイスラム教の知識へのアクセスを容易にすることを目指す。
    • シャリーア準拠のチャットボットを実装し,文脈に沿った正確な応答を実現した。
    • 25,000件のイスラム教の質疑応答データセットを用いて,87%のセマンティック精度を達成した。
    • このチャットボットは,宗教的リテラシーの向上,デジタル・ダアワへの貢献,検証済みのイスラム教知識へのアクセスに貢献する可能性がある。

    Link: https://arxiv.org/abs/2512.16644

  • 無線周波数フィンガープリントを用いたデバイス識別:ソースデータフリーシナリオにおけるクロス受信機問題への対処 [cs.LG, eess.SP]目的:クロス受信機環境下におけるソースデータフリーなデバイス識別
    • エッジコンピューティングの普及に伴い,安全なデバイス認証の重要性が高まっている。
    • 受信機のハードウェア特性の違いによる分布シフトが,RFFIモデルの性能低下を引き起こす。
    • ソースドメインのデータにアクセスできない状況下での,ターゲット受信機への適応を可能にする。
    • 本研究では,制約付き擬似ラベリングに基づく新たなSCRFFI適応フレームワークを提案した。
    • 提案手法MS-SHOTは,ターゲットドメインにおけるラベルシフトや不均一なクラス分布に対してもロバストである。
    • 実世界データセットでの実験により,MS-SHOTが既存手法を精度と堅牢性で上回ることが示された。

    Link: https://arxiv.org/abs/2512.16648

  • プレフィックスプロービング:大規模言語モデルにおける有害コンテンツの軽量検出 [cs.CL, cs.AI, cs.CR]目的:大規模言語モデルにおける有害コンテンツ検出手法
    • 大規模言語モデルの安全性確保は,実用化において不可欠である。
    • 従来の有害コンテンツ検出は,精度・遅延・コストのトレードオフが存在する。
    • 精度の高い有害コンテンツ検出を,低コスト・低遅延で実現すること。
    • プレフィックスプロービングは,既存の安全モデルと同等の検出性能を,わずかな計算コストで実現する。
    • この手法は,追加モデルの展開や多段階推論を必要とせず,実用性が高い。
    • 効率的なプレフィックス構築アルゴリズムにより,識別能力が向上する。

    Link: https://arxiv.org/abs/2512.16650

  • 包括的なAIリテラシー:人間による主体性の重視 [cs.AI, cs.CY]目的:AIリテラシーにおける人間による主体性の重要性
    • 社会へのAI技術の急速な普及により,教育のあり方を見直す必要性が高まっている。
    • AIツールの操作スキルに偏重し,批判的思考や倫理的考察が不足している現状がある。
    • AIに対する意図的な選択と責任ある行動を促す,人間中心のAIリテラシーの確立を目指す。
    • 本研究は,教育関係者と学生がAIを主体的に活用するための道筋を示す。
    • AIリテラシー,流暢性,能力のフレームワークを通じて,AIに対する意図を明確に説明可能にする。
    • AI技術を必然的なものと捉えるのではなく,選択肢として捉える教育の重要性を提言する。

    Link: https://arxiv.org/abs/2512.16656

  • カオスに基づく白色ウォーターマーキングによる深層ニューラルネットワーク知的財産の保護 [cs.CR, cs.AI]目的:深層ニューラルネットワークへの知的財産保護の仕組み
    • 深層学習の応用拡大に伴い,モデルの価値が高まり,知的財産保護が重要になっている。
    • モデルの容易な複製・再配布・不正利用が,知的財産侵害のリスクを高めている。
    • モデルの内部パラメータにカオス数列を埋め込み,所有権を検証する手法を提案する。
    • 提案手法では,ロジスティック写像を用いてカオス数列を生成し,モデルの重みに埋め込む。
    • 埋め込まれたウォーターマークは,ファインチューニング後も検出可能であり,モデルの精度低下は軽微である。
    • 重み密度プロットや活性化ベースの分類器を用いて,モデルの改ざんを検出できることが示された。

    Link: https://arxiv.org/abs/2512.16658

  • 研究推薦と支援のためのMicrosoft Academic Graph情報検索 [cs.IR, cs.AI]目的:研究推薦と支援のための情報検索手法
    • 科学研究の発展には,関連文献の効率的な探索が不可欠である。
    • 研究論文の爆発的な増加により,必要な情報を抽出することが困難になっている。
    • 大規模情報データベースにおける効率的な検索と知識推論の実現を目指す。
    • Attention-Based Subgraph Retrieverを提案し,グラフ構造から重要な部分グラフを抽出する。
    • 抽出された部分グラフを大規模言語モデルに入力し,高度な知識推論を行う。
    • グラフニューラルネットワークとAttention機構の有効性を示す。

    Link: https://arxiv.org/abs/2512.16661

  • DataFlow:データ中心型AI時代の統一的なデータ準備とワークフロー自動化のためのLLM駆動型フレームワーク [cs.LG, cs.CL]目的:大規模言語モデル(LLM)のためのスケーラブルで信頼性が高く,意味的に豊かなデータ準備パイプラインの構築
    • LLMの性能向上には高品質なデータが不可欠であり,その需要は急速に高まっている。
    • 既存のデータ準備手法は,アドホックなスクリプトや非構造化ワークフローに依存しており,再現性や拡張性に課題がある。
    • DataFlowは,モデル駆動型データ生成を支援し,LLMのデータ準備プロセスを体系化し,自動化することを目指す。
    • DataFlowは,モジュール化,再利用性,合成可能性を備えたデータ変換を実現するシステムレベルのアブストラクションを提供し,LLMの性能向上に貢献する。
    • Text-to-SQLタスクにおいて,SynSQLと比較して最大3%の実行精度向上,コードベンチマークで平均7%の改善,MATH,GSM8K,AIMEで1~3ポイントのスコア向上を示した。
    • DataFlowで生成された1万件のデータセットを用いて学習したモデルは,100万件のInfinity-Instructデータで学習したモデルを上回る性能を発揮した。

    Link: https://arxiv.org/abs/2512.16676

  • 3D-MRIおよび2D-X線画像における少数のサンプルを用いた個人再識別 [cs.CV, cs.AI]目的:個人指紋の特定
    • 医療画像診断の精度向上は,患者ケアの質を向上させる上で不可欠である。
    • オープンソースデータセットの利用は便利だが,データ漏洩による性能評価の歪みが課題である。
    • データセット間の重複を検出し,適切な性能評価を実現することを目指す。
    • ResNet-50とトリプレット損失を用いて,3D MRIおよび2D X-rayデータにおける少数のサンプルを用いた個人再識別を評価した。
    • ChestXray-14データセットでは,20-way 1-shotで99.10%,500-way 5-shotで90.06%のMean Recall@Kスコアを達成した。
    • BraTS-2021データセットでは,20-way 1-shotで99.20%,100-way 3-shotで98.86%のMean Recall@Kスコアを達成した。

    Link: https://arxiv.org/abs/2512.16685

  • ブログデータ対決:性別分類のための機械学習と神経記号モデル [cs.LG]目的:ブログからの性別分類における機械学習と神経記号モデルの比較分析
    • 市場分析や顧客推薦など,多様な応用分野を持つ重要な研究領域である。
    • 機械学習モデルの性能は,テキスト表現や特徴抽出方法に大きく左右される。
    • 限られたデータセットにおいても,神経記号AIの有効性を示すことを目指す。
    • 機械学習アルゴリズム(SVM, NB, LR, AdaBoost, XGBoost, SVM_R)と神経記号AI(NeSy)を比較した。
    • NeSyアプローチは,限られたデータセットにおいても強力なMLPの結果に匹敵した。
    • 知識ベースの拡張や埋め込みタイプの検討により,NeSyアプローチの有効性をさらに検証する予定である。

    Link: https://arxiv.org/abs/2512.16687

  • アプリアオリアルゴリズムを用いたハディーステキストの教師なしテーマクラスタリング [cs.AI]目的:ハディースのテーマ的分類
    • イスラム典拠文献のデジタル化が進む中で,体系的な知識整理が重要である。
    • ハディースのテーマ分類は手作業に依存し,効率性・客観性に課題がある。
    • ハディースの自動テーマ分類を実現し,研究・教育への活用を促進する。
    • アプリアオリアルゴリズムにより,ハディーステキスト間の関連性の抽出が可能となった。
    • 礼拝,啓示,ハディース伝承といったテーマ間の関連性が明らかになった。
    • 本研究は,デジタルイスラム研究やテクノロジーを活用した学習システム開発に貢献する。

    Link: https://arxiv.org/abs/2512.16694

  • 複数エージェントは単独エージェントより優れた問題解決能力を発揮するか:図を用いた幾何問題の解決と推論におけるエージェントフレームワークの評価 [cs.AI, cs.CG]目的:図を用いた幾何問題解決における複数エージェントと単独エージェントの性能比較
    • マルチモーダル大規模言語モデルの能力評価において,図を用いた幾何問題解決は重要な指標である。
    • 複数エージェント設計が単独エージェントよりも優れているかどうかが明確になっていない。
    • オープンソースモデルにおける複数エージェント設計の有効性を検証し,その限界を明らかにする。
    • オープンソースモデル(Qwen-2.5-VL)において,複数エージェント設計はGeometry3KやOlympiadBenchなどのベンチマークで性能向上をもたらした。
    • Gemini-2.0-Flashのような高性能なプロプライエタリモデルでは,単独エージェントモードが従来のベンチマークでより良い結果を示し,複数エージェントは新しいデータセットでのみわずかな改善が見られた。
    • エージェントによる分解は必ずしも最適ではなく,モデルの種類やベンチマークの特性に依存することが示唆された。

    Link: https://arxiv.org/abs/2512.16698

  • CLARiTy:胸部X線画像パソロジーのマルチラベル分類と弱教師あり局在化のためのVision Transformer [cs.LG]目的:胸部X線画像のマルチラベル分類と弱教師あり局在化
    • 胸部X線画像は診断において重要だが,熟練した専門家が必要であり,負担が大きい。
    • 病変レベルの注釈は時間とコストがかかり,十分なデータセットの構築が困難である。
    • 画像レベルのラベルのみで高精度な分類と局在化を可能にすることを目指す。
    • CLARiTyは,14種類の病変において競争力のある分類性能を達成した。
    • 特に,結節や腫瘍などの小さな病変において,顕著な改善が見られた。
    • CLARiTy-S-16-224は,リソースの限られた環境での利用可能性を示す。

    Link: https://arxiv.org/abs/2512.16700

  • 教育におけるサイバーヒューマニズム:AIと学習科学を通じた主体性の回復 [cs.AI]目的:教育におけるAIと学習科学を通じた人間による主体性の回復
    • 教育における知識創造と検証のあり方が急速に変化しており,その影響を理解し,適切に対応する必要がある。
    • AIによる知識の自動化や,教師の専門性低下といった懸念が生じている。
    • AIを活用した学習環境において,教育者と学習者による主体的な関与を促すための枠組みを提案する。
    • 本研究は,AIを活用した学習環境を人間と機械が共同で構築する社会技術的基盤と捉え,教育者と学習者を知識主体として位置づける。
    • 反省的コンピテンス,アルゴリズム市民性,対話的デザインという3つの柱を提示し,主要な国際的なデジタル・AIコンピテンスフレームワークとの関連性を示す。
    • プロンプトベースの学習や,EPICTエコシステムにおける会話型AI教育者認定を通じて,これらのアイデアを具体化した事例研究から,主体性の強化と課題が明らかになった。

    Link: https://arxiv.org/abs/2512.16701

  • オラフ:アニメキャラクターを現実世界へ [cs.RO, cs.LG]目的:アニメキャラクターの物理世界における実現
    • ロボット工学において,非現実的な動きや外観を持つキャラクターを実現することは,技術的挑戦であり,新たな可能性を秘めている。
    • 既存のロボットは,人間の動きを模倣することに重点が置かれており,アニメキャラクターのような独特な動きを実現するには課題が多い。
    • 本研究は,アニメーションの参照に基づいた強化学習により,アニメキャラクターの独特な動きを現実世界で再現することを目指す。
    • オラフの足の動きを再現するため,非対称な脚を柔らかいフォームのスカートで覆う構造を採用した。
    • 手足,口,目は,球状および平面リンク機構を用いてアクチュエータを組み込んだ。
    • 歩行時の衝撃音を抑制するため,報酬関数にノイズ軽減の要素を導入し,アクチュエータの過熱を防ぐため,温度情報を学習に活用した。

    Link: https://arxiv.org/abs/2512.16705

  • 二重の計算的限界:知能システムにおける不完全性と予測不能性 [cs.AI, cs.LO]目的:アルゴリズム知能を制約する形式的不完全性と動的予測不能性
    • 知能システムの根幹をなす推論と予測能力の限界理解は重要である。
    • 既存研究では,自己予測能力の計算可能性が明確でなかった。
    • 知能システムにおける推論,予測,自己分析間の本質的なトレードオフを解明する。
    • 形式的不完全性と動的予測不能性は,知能システムの構造的な限界を定める。
    • アルゴリズムエージェントは,一般的に自身の予測可能な最大範囲を計算できない。
    • これは,自己分析能力の限界を示す重要な知見である。

    Link: https://arxiv.org/abs/2512.16707

  • 予測プロセスマイニングにおける再現性:SPICE - 深層学習ライブラリ [cs.LG, cs.AI]目的:予測プロセスマイニングの再現性と比較可能性の向上
    • ビジネスプロセスの監視と予測は,業務効率化や意思決定の改善に不可欠である。
    • 既存の予測プロセスマイニング手法は,再現性や透明性に課題があり,比較が困難である。
    • 再現性と堅牢な比較を可能にする深層学習フレームワークを提供し,手法の評価を容易にする。
    • SPICEは,PyTorchで実装された3つの既存の深層学習ベースライン手法を再現するPythonフレームワークである。
    • SPICEは,厳密な設定可能性を備えた共通基盤を提供し,過去および将来のモデリングアプローチの比較を可能にする。
    • 11のデータセットにおいて,SPICEは元の報告された指標および公平な指標を用いて評価された。

    Link: https://arxiv.org/abs/2512.16715

  • フィッシング検出システム:文字レベルCNNと特徴量エンジニアリングを用いたアンサンブルアプローチ [cs.CE, cs.LG, cs.CR]目的:フィッシング検出のためのAIモデル
    • インターネット利用の増加に伴い,フィッシング詐欺は深刻なサイバーセキュリティリスクとなっている。
    • フィッシングの手口は巧妙化の一途をたどっており,既存の手法では十分な検出が困難である。
    • より高精度で現代的なフィッシング技術を検出し,リアルタイムな保護を提供する。
    • 提案システムは,テストデータセットにおいて99.819%の精度,100%の適合率,99.635%のリコール,99.947%のROC-AUCを達成した。
    • 文字レベルCNNが最終的な予測に60%貢献し,LightGBMが40%貢献する結果となった。
    • 本手法は,誤検知率を極めて低く抑えつつ,最新のフィッシング手法の検出に有効である。

    Link: https://arxiv.org/abs/2512.16717

  • 多重調和スプラインパッケージ:構成,効率的な計算と微分手順 [cs.LG, cs.NA, math.NA]目的:多重調和スプラインパッケージの構成と,効率的な計算・微分手順
    • 機械学習におけるカーネル法の性能は,適切なカーネルの選択に大きく依存する。
    • 多重調和スプラインの直接的な応用には,計算コストや高次元空間における理論的仮定の破綻といった課題がある。
    • 未知の低次元構造を持つ問題に対して,スケーラビリティと理論的妥当性を両立する手法を開発すること。
    • 多重調和スプラインのパッケージをカスケード状に構成するアーキテクチャを提案し,計算コストを削減した。
    • 提案手法は,高次元空間においても理論的な根拠を持ち,スケーラビリティを向上させる。
    • 前方計算とエンドツーエンドの微分を効率的に行うための行列演算手順を提示した。

    Link: https://arxiv.org/abs/2512.16718

  • KOSS:長期間シーケンスモデリングのためのカルマン最適選択的状態空間モデル [cs.LG]目的:長期間シーケンスモデリングにおける選択的状態空間モデルの最適化
    • シーケンスモデリングは,自然言語処理や時系列解析など,様々な分野で重要な役割を担っている。
    • 既存の選択的状態空間モデルは,理論的根拠が乏しく,文脈を考慮した選択が困難である。
    • KOSSは,潜在状態の不確実性最小化に基づき,文脈を意識した選択機構を確立することを目指す。
    • KOSSは,選択的コピー課題において,既存モデルを大幅に上回る精度を達成した。
    • 9つの長期間予測ベンチマークにおいて,KOSSは平均二乗誤差を大幅に削減し,最先端モデルを凌駕した。
    • 二次監視レーダー追跡のケーススタディでは,不規則な間隔やノイズ条件下でもKOSSの堅牢性が確認された。

    Link: https://arxiv.org/abs/2512.16723

  • ブラックボックスAIの能力の確率モデルの発見と学習 [cs.AI]目的:ブラックボックスAIの能力の確率モデル
    • 近年,基盤モデル等のブラックボックスAIが意思決定に利用され増加している。
    • ブラックボックスAIの安全な運用には,その能力の解釈性と信頼性が課題である。
    • ブラックボックスAIの能力を効率的にモデル化し,その挙動を予測すること。
    • PDDL形式を用いることで,ブラックボックスAIの計画能力を効率的に学習・モデル化できることを示した。
    • モンテカルロ木探索により,テストタスクを作成し,データ収集と仮説空間の削減を行った。
    • 学習されたモデルは,ブラックボックスAIの能力,実行条件,結果と確率を記述する。

    Link: https://arxiv.org/abs/2512.16733

  • AI駆動による癌性疼痛エピソード予測:ハイブリッド意思決定支援アプローチ [eess.SY, cs.SY, cs.AI]目的:癌性疼痛エピソードの予測
    • 癌性疼痛は患者のQOLを著しく低下させ,適切な管理が重要である。
    • 疼痛発生の予測が難しく,患者へのタイムリーな介入が課題となっている。
    • 電子カルテデータを活用し,疼痛エピソードの早期予測を実現する。
    • 機械学習と大規模言語モデルを組み合わせることで,予測精度が向上した。
    • 48時間予測で0.874,72時間予測で0.917の精度を達成した。
    • 大規模言語モデルの追加により,感度がそれぞれ8.6%と10.4%改善された。

    Link: https://arxiv.org/abs/2512.16739

  • 機械学習アルゴリズム:テキストとメタデータ分析に基づく公式ハッジ・ウムラ旅行代理店の検出 [cs.LG]目的:公式ハッジ・ウムラ旅行代理店の検出
    • インドネシアにおけるハッジ・ウムラサービスのデジタル化が進む中で,詐欺行為の防止が重要である。
    • 偽のモバイルアプリケーションによる詐欺が横行し,経済的損失や個人情報漏洩のリスクが生じている。
    • 機械学習アルゴリズムを用いて,アプリケーションの真偽を自動的に検証し,詐欺被害を抑制することを目指す。
    • SVMアルゴリズムが最も高い性能を示し,精度92.3%,適合率91.5%,F1スコア92.0%を達成した。
    • 「合法性」に関するキーワードや,高リスクのアクセス許可(例:電話の状態の読み取り)が重要な識別因子であることが判明した。
    • 本システムは,宗教観光分野におけるデジタル信頼性を高めるためのスケーラブルなソリューションとして期待される。

    Link: https://arxiv.org/abs/2512.16742

  • TreeNet:低ビットレート画像圧縮のための軽量モデル [cs.CV, cs.AI]目的:低ビットレート画像圧縮のためのモデル
    • 画像圧縮は,データサイズ削減と効率的な伝送に不可欠であり,様々な応用分野で重要である。
    • 学習ベースの画像圧縮は計算コストが高く,実用化には計算量の削減が課題となっていた。
    • TreeNetは,計算量を削減しつつ,高効率な画像圧縮を実現することを目的としている。
    • TreeNetは,JPEG AIと比較して,低ビットレートにおいてBDレートを平均4.83%改善した。
    • モデルの複雑さを87.82%削減し,軽量な画像圧縮モデルであることが示された。
    • TreeNet内の潜在表現に関する詳細な分析により,再構成への影響因子が明らかになった。

    Link: https://arxiv.org/abs/2512.16743

  • 妥当性としての失敗:LLMと人間がどのように認識的誤りを共同構築するか [cs.HC, cs.AI]目的:LLMと人間の相互作用における認識的誤りの発生,隠蔽,許容のメカニズム
    • LLMは日常的な推論における認識的パートナーとして利用されているため,その誤りの分析が重要である。
    • LLMの誤りは予測指標によって分析されることが多く,人間の判断への解釈的影響が十分に考慮されていない。
    • LLMの誤りの本質が,生成される妥当性と人間の解釈的短絡によって共同構築されることを明らかにする。
    • LLMの誤りは,予測的側面から解釈的側面に変化し,流暢性や表面的妥当性が意味の歪みを隠蔽する。
    • 評価者は,正しさ,関連性,偏りなどの基準を混同し,形式と流暢性に影響された直感的なヒューリスティクスに頼る。
    • タスクが複雑になるにつれて,表面的な手がかりへの依存度が高まり,誤った回答が信頼できるものとして受け入れられる。

    Link: https://arxiv.org/abs/2512.16750

  • CitySeeker:VLMsは暗黙的な人間のニーズを伴う都市内ナビゲーションをどのように探索するか [cs.AI]目的:VLMsにおける都市環境での暗黙的な人間のニーズに対応したナビゲーション能力の評価
    • 都市内ナビゲーションは,現実世界でのAIエージェントの応用において重要な課題である。
    • 既存のVLMは,明示的な指示に基づくナビゲーションに優れるものの,暗黙的なニーズの解釈が苦手である。
    • 本研究は,VLMが暗黙的なニーズを理解し,適切なナビゲーションを行うための課題を明らかにすることを目指す。
    • CitySeekerベンチマークを構築し,8都市,6,440件の軌跡を用いてVLMsの空間推論能力を評価した。
    • 最先端モデルでもタスク完了率は21.1%にとどまり,長期的推論におけるエラー蓄積,空間認知の不足,経験的想起の欠如が課題であることが示された。
    • 人間の認知マッピングにヒントを得たBCR戦略の分析により,VLMsの空間知能強化に向けた示唆を得た。

    Link: https://arxiv.org/abs/2512.16755

  • NRGPT:GPTのエネルギーに基づく代替案 [cs.LG]目的:GPTのエネルギーベースモデリングへの統合
    • 言語モデルは自然言語処理の根幹であり,その性能向上は様々な応用を可能とする。
    • GPTは性能が高い一方,学習に膨大な計算資源を要し,過学習のリスクも存在する。
    • エネルギーベースモデリングの枠組みを導入し,効率的かつ汎化性能の高い言語モデルの実現を目指す。
    • 提案手法NRGPTは,GPTの構造を最小限に変更し,エネルギーベースモデリングの枠組みと統合する。
    • NRGPTの推論過程は,エネルギーランドスケープ上でのトークンの探索として捉えられ,特定条件下では勾配降下法に相当することが示された。
    • Shakespeareデータセット,ListOPS,OpenWebText等の実験により,NRGPTが良好な性能を発揮し,過学習に強い傾向があることが確認された。

    Link: https://arxiv.org/abs/2512.16762

  • 複雑系における空間的・時間的データのベクトル場表現によるパターン認識 [cs.LG, cond-mat.soft, nlin.CD, nlin.PS]目的:複雑系の空間的・時間的データのパターン認識手法
    • 複雑系は,脳,細胞,気候など多様な分野に現れ,その理解は重要である。
    • 高次元かつ非線形な複雑系のデータは,従来の解析手法の適用を困難にする。
    • 本研究は,ベクトル場に基づく新しい幾何学的枠組みによってこの課題を解決する。
    • 提案する二パラメータの距離尺度は,データ分析や機械学習への応用を可能にする。
    • 多次元スケーリングとの組み合わせにより,次元削減,モード分解,相空間再構成,アトラクタの特性評価を実現した。
    • 実験データに基づき,従来のモデリングが困難な複雑系の理解に新たな道筋を示す。

    Link: https://arxiv.org/abs/2512.16763

  • GinSign:自然言語をシステムシグネチャにグラウンディングし,時間論理への翻訳を行う [cs.CL, cs.AI]目的:自然言語から時間論理への翻訳の精度向上
    • 自律システムの信頼性確保には,形式的な仕様記述が不可欠であり,自然言語による仕様記述の自動変換が重要である。
    • 既存手法では,正確なアトムのグラウンディングが前提となるか,グラウンディング精度が低いという課題がある。
    • 自然言語をシステムシグネチャにグラウンディングすることで,意味的に等価な時間論理表現の生成を目指す。
    • GinSignは,自然言語のスパンをシステムシグネチャにマッピングするグラウンディングモデルを導入した。
    • このモデルは,述語ラベルの予測と型付き定数引数の選択を階層的に行うことで,小規模なマスク言語モデルの利用を可能にした。
    • 実験の結果,GinSignは最先端手法と比較して,グラウンディングされた論理的等価性のスコアで1.4倍の改善を示し,95.5%を達成した。

    Link: https://arxiv.org/abs/2512.16770

  • ASPを用いた質量スペクトル分析 [cs.LO, cs.AI]目的:化学試料の元素および構造断片の相対的な存在量に基づく分子構造の発見
    • 質量分析は物質の分子構造を特定する上で重要な役割を担う。
    • 分子構造の探索は組み合わせ最適化問題であり,計算コストが高い。
    • ASPを用いて効率的に分子構造を特定し,探索空間を削減すること。
    • 本研究では,Answer Set Programming (ASP) を用いた新しい分子構造解析手法を提案した。
    • 提案手法は,分子構造の標準的な表現と,それをASPで実装した対称性解消法を用いる。
    • 既存手法や市販ツールとの比較により,提案手法の有効性と性能が確認された。

    Link: https://arxiv.org/abs/2512.16780

  • KineST:疎な信号からの人体モーション追跡のための運動学誘導時空間状態空間モデル [cs.CV, cs.AI]目的:疎な信号からの人体モーション追跡における精度,時間的一貫性,効率性のバランス
    • AR/VR技術の発展に伴い,現実世界と仮想世界を繋ぐための正確な人体モーション追跡が不可欠である。
    • ヘッドマウントディスプレイからの疎な信号に基づくモーション追跡は,精度,時間的一貫性,計算コストの課題を抱える。
    • 運動学的な知識を導入し,時空間的依存性を効率的に捉えることで,上記課題の解決を目指す。
    • KineSTは,運動学誘導双方向スキャンにより関節の関係性を効果的に捉え,状態空間モデルを再構築した。
    • 混合時空間表現学習により,空間的・時間的コンテキストを密接に結合し,精度と滑らかさのバランスを実現した。
    • 幾何学的角速度損失を導入することで,回転変化に物理的な制約を課し,モーションの安定性を向上させた。

    Link: https://arxiv.org/abs/2512.16791

  • 予算制約下での遅延考慮型マルチステージエッジサーバアップグレード [cs.DC, cs.AI]目的:マルチアクセスエッジコンピューティングシステムのアップグレード戦略
    • エッジコンピューティングは低遅延サービス提供に不可欠であり,その効率的な展開が求められている。
    • 既存システムを段階的にアップグレードする場合,最適なサーバ配置とタスクオフロードが課題となる。
    • 限られた予算内で遅延要件を満たすタスク数を最大化するアップグレード手法を確立する。
    • 提案手法は,小規模ネットワークにおいて最適解に近い性能を高速に実現する。
    • 大規模ネットワークにおいては,既存手法と比較して最大21.57%タスク充足率を向上させる。
    • 本手法は,長期的なエッジコンピューティングシステムの構築に有用である。

    Link: https://arxiv.org/abs/2512.16792

  • 事実から結論へ:検索拡張LLMにおける演繹的推論の統合 [cs.RO, cs.CL, cs.AI, cs.CY, cs.IR]目的:検索拡張LLMにおける演繹的推論の統合
    • LLMの性能向上のためには,外部知識の活用が重要であり,検索拡張は有効な手法である。
    • 検索された情報源が矛盾したり,古い情報や主観的な情報を含む場合,LLMは誤った結論に至る可能性がある。
    • 矛盾する情報に対処し,信頼性の高い根拠に基づいた回答を生成する手法を確立すること。
    • 本研究では,文書レベルの評価,矛盾分析,根拠に基づく合成という3段階で構成される推論トレース拡張RAGフレームワークを提案した。
    • LLMを裁判官として用いるConflict-Aware Trust-Score(CATS)パイプラインにより,根拠の正確性,事実の正しさ,拒否の精度を評価した。
    • 実験の結果,特にQwenモデルにおいて,教師ありファインチューニングにより,End-to-Endの回答の正確性と行動の一貫性が大幅に向上した。

    Link: https://arxiv.org/abs/2512.16795

  • マルチエージェント強化学習によるスウォームネットワークにおける協調対妨害堅牢性 [cs.NI, cs.AI, cs.DC, cs.LG, eess.SP]目的:スウォームネットワークにおける対妨害堅牢性の向上
    • ロボットスウォームは自律的な協調行動が期待されるが,通信妨害に対する脆弱性が課題である。
    • 従来の固定的な出力制御や周波数ホッピングは,適応的に妨害する敵に対して効果が限定的である。
    • マルコフ的な閾値を持つ敵対的な妨害機に対して,協調的な通信戦略を獲得し,堅牢性を高める。
    • マルチエージェント強化学習フレームワークQMIXが,最適な協調戦略に迅速に収束することが示された。
    • QMIXは,最適なポリシーに匹敵する性能を示し,既存手法よりも高いスループットと低い妨害発生率を実現した。
    • これにより,QMIXが競争環境下における自律型スウォームの安全性を高める効果が確認された。

    Link: https://arxiv.org/abs/2512.16813

  • LLMを用いた文法制約による自然言語から時間論理への翻訳 [cs.CL, cs.AI]目的:自然言語から時間論理への翻訳の精度向上
    • ロボットや自律システムとの円滑なコミュニケーションには,自然言語と形式言語の間の変換が不可欠である。
    • 既存手法は,原子命題の抽出精度,指示代名詞の処理,限られたデータでの学習に課題がある。
    • 文法制約を導入することで,翻訳タスクの複雑さを軽減し,学習効率を高めることを目指す。
    • 提案手法GraFTは,CW,GLTL,Naviのベンチマークにおいて,最先端の翻訳手法と比較して,エンドツーエンドの翻訳精度を平均5.49%向上させた。
    • また,GraFTは,ドメイン外の翻訳精度を平均14.06%向上させ,汎化性能の高さを示した。
    • 文法制約による出力トークン空間の削減が,より効率的な学習に繋がることを理論的に示した。

    Link: https://arxiv.org/abs/2512.16814

  • MEPIC:LLM サービスのためのメモリ効率の良い位置非依存キャッシュ [cs.LG]目的:LLM サービスの Key Value (KV) キャッシュのメモリ効率向上
    • LLMの応用拡大に伴い,KVキャッシュへの負荷が増大している
    • 既存の位置非依存キャッシュは,メモリの断片化により十分な省メモリ効果が得られていない
    • ページングによるキャッシュ共有を促進し,KVキャッシュの重複を削減すること
    • MEPICは,チャンクKVをページストレージにアラインすることでキャッシュ共有を可能にする。
    • RoPE融合による位置エンコーディングの除去とブロックレベルでの再計算により,メモリ使用量を最大2倍削減する。
    • 長いプロンプトでは最大5倍のメモリ削減効果が認められ,性能劣化は見られない。

    Link: https://arxiv.org/abs/2512.16822

  • 微小な再帰制御:効率的な最適制御のための反復的推論 [cs.LG, math.DS]目的:効率的な最適制御を実現するための反復的推論手法
    • 航空宇宙組み込みシステムでは,電力と遅延の制約が厳しく,大規模なニューラルネットワークの利用が困難である。
    • 従来のニューラルネットワークコントローラーはパラメータ数が増加傾向にあり,メモリ消費量が課題となっている。
    • パラメータ数を抑えつつ,反復計算により制御性能を向上させることを目指す。
    • 提案手法TRCは,1.5M程度のパラメータ数で,反復処理により制御性能を向上させている。
    • TRCは,オシレーターの安定化や燃料制約下の降下制御といった非線形制御問題において,ほぼ最適な制御コストを達成した。
    • 推論時間がミリ秒レベル,メモリ使用量が10MB以下と,大規模言語モデルと比較して大幅に低減されている。

    Link: https://arxiv.org/abs/2512.16824

  • YOLOv8を用いた次世代ナンバープレート検出・認識システム [cs.CV, cs.AI]目的:ナンバープレート検出・認識システムの性能評価と最適化
    • 交通管理や車両監視において,効率的なナンバープレート検出・認識は不可欠である。
    • 多様な環境下でのリアルタイムな高精度な認識が課題であった。
    • YOLOv8を用いて,高精度かつ効率的なナンバープレート検出・認識システムの開発を目指す。
    • YOLOv8 Nanoはナンバープレート検出において,精度0.964,mAP50 0.918を達成した。
    • YOLOv8 Smallは文字認識において,精度0.92,mAP50 0.91を示した。
    • x座標に基づく文字シーケンス処理により,検出文字の並び順を最適化した。

    Link: https://arxiv.org/abs/2512.16826

  • OPENTOUCH:現実世界における全手部触覚の実現 [cs.CV, cs.AI, cs.RO]目的:現実世界における全手部触覚データセット及びベンチマーク
    • 人間の手は物理世界との主要なインターフェースであるため,その触覚情報の理解が重要である。
    • ウェアラブル触覚センサーが乏しく,一人称視点動画と全手部触覚データを組み合わせたデータセットが存在しない。
    • 視覚と触覚の融合を深め,ロボットの操作能力向上に貢献するデータセットと評価基準を構築すること。
    • OpenTouchは,5.1時間の動画・触覚・姿勢データと2,900の注釈付きクリップを含む,初の現実世界における全手部触覚データセットである。
    • 触覚信号は,把持の理解を深める強力な手がかりとなり,視覚と触覚のクロスモーダル整合性を強化する。
    • OpenTouchを用いた検索と分類ベンチマークにより,触覚が知覚と行動をどのように結びつけるかを検証できる。

    Link: https://arxiv.org/abs/2512.16842

  • LLMCache:Transformer推論における層ごとのキャッシュ戦略 [cs.CL, cs.AI]目的:Transformer推論の高速化
    • Transformerモデルは高性能だが,推論速度が課題となり,リアルタイム利用の妨げとなっている。
    • 既存のキャッシュ機構は限定的であり,幅広いモデルやレイヤーへの適用が難しい。
    • 入力シーケンスの類似性に基づく中間活性化の再利用で,モデルに依存しない高速化を目指す。
    • LLMCacheは,BERTとGPT-2を用いた実験で,SQuAD,WikiText-103,OpenBookQAにおいて最大3.1倍の推論速度向上を達成した。
    • 精度劣化は0.5%未満に抑えられ,実用的なTransformer推論の最適化手法としての有効性が示された。
    • 軽量なフィンガープリンティング機構と適応的なキャッシュ削除戦略により,効率的なキャッシュ管理を実現している。

    Link: https://arxiv.org/abs/2512.16843

  • 言語エージェントにおける探索を誘導するメタRL [cs.LG, cs.AI]目的:言語エージェントにおける探索の誘導
    • 大規模言語モデルによるエージェント学習が発展している。複雑なタスクに対応可能となる。
    • 試行錯誤による学習が不十分で,積極的な探索が必要なタスクで苦戦する。
    • テスト時に環境からのフィードバックに基づき,能動的な探索を可能にする。
    • LaMerは,Sokoban,MineSweeper,Webshopでそれぞれ11%,14%,19%の性能向上を示した。
    • LaMerは,より困難なタスクや未見のタスクへの汎化性能も向上した。
    • メタRLが言語エージェントの探索を誘導し,新しい環境への適応を可能にする。

    Link: https://arxiv.org/abs/2512.16848

  • PrivateXR:説明可能なAI誘導型差分プライバシーによる拡張現実におけるプライバシー攻撃への防御 [cs.CY, cs.CR, cs.AI, cs.HC]目的:拡張現実におけるプライバシー攻撃に対する防御策
    • AIとXR技術の融合は様々な応用を可能にするが,個人情報保護が重要な課題となっている。
    • 既存の差分プライバシーは,重要でない特徴にもノイズを加え,モデル精度を低下させる可能性がある。
    • 説明可能なAIを用いて重要な特徴を特定し,選択的に差分プライバシーを適用することで,精度低下を抑制する。
    • 提案手法は,サイバースicknessタスクにおいて,メンバーシップ推論攻撃と再識別攻撃の成功率を最大43%と39%それぞれ削減した。
    • Transformerモデルを用いた場合,最大97%の精度を維持しつつ,推論時間を最大2倍改善した。
    • HTC VIVE Proヘッドセット上でPrivateXRを実装し,ユーザーがプライバシーレベルを調整できるUIを開発した。

    Link: https://arxiv.org/abs/2512.16851

  • GenEval 2:テキスト画像生成モデルの評価におけるベンチマークドリフトへの対処 [cs.CV, cs.AI]目的:テキスト画像生成モデルの評価におけるベンチマークドリフトの問題と,それに対処するための新たなベンチマークGenEval 2の提案
    • テキスト画像生成技術は急速に進歩しており,客観的かつ信頼性の高い評価手法の確立が重要である。
    • 既存のベンチマークは,時間の経過とともにモデル性能に追いつけなくなり,評価結果が乖離するベンチマークドリフトの問題が生じている。
    • 本研究は,GenEvalのドリフトを分析し,より頑健な評価を実現するGenEval 2を提案することで,この問題を解決することを目指す。
    • GenEvalはリリース当初は人間の判断と一致していたが,時間の経過とともに大きく乖離し,現在のモデルに対して最大17.7%の誤差が生じていることが示された。
    • 新たなベンチマークGenEval 2は,基本的な視覚概念の網羅性と構成性の高さにより,現在のモデルにとってより困難な評価を提供することが確認された。
    • 視覚素因に対する判断を組み合わせるSoft-TIFAは,人間の判断との整合性が高く,ベンチマークドリフトの影響を受けにくい評価手法であることが示唆された。

    Link: https://arxiv.org/abs/2512.16853

  • エッジ向け時間論理誘導大規模言語モデル圧縮 [cs.PF, cs.AI, cs.LO]目的:大規模言語モデルの圧縮手法
    • 自然言語処理の進化により,大規模言語モデルの重要性が増している。
    • エッジデバイスの計算資源の制約から,モデルの展開が困難である。
    • 時間論理を用いてモデルの言語的性質を維持しつつ圧縮を実現する。
    • TOGGLEは,最大3.3倍の計算コスト削減と68.8%のモデルサイズ削減を達成した。
    • 時間論理を用いて言語的制約を形式的に満たすことで,モデルの信頼性を確保する。
    • 大規模言語モデルの圧縮に形式手法を初めて統合し,エッジデバイスへの効率的な展開を可能にする。

    Link: https://arxiv.org/abs/2512.16855

  • 分布型AGI安全性の探求 [cs.AI]目的:分布型AGI安全性のための枠組み
    • AI技術の発展は社会に大きな変革をもたらす。しかし,安全性確保が不可欠である。
    • 既存研究は単一AGIに焦点を当て,複数のサブAGI連携によるAGI創発への対策が不足している。
    • ツール利用可能なAIエージェント間の連携によるリスクを軽減する枠組みを提案する。
    • 単独のAIシステムに焦点を当てるのではなく,エージェント間の相互作用に着目した安全対策の重要性を提唱する。
    • 仮想的なエージェント経済圏を構築し,市場メカニズム,監査可能性,評判管理を通じて集団リスクを軽減する。
    • 高度なAIエージェントの普及と連携能力の向上を踏まえ,緊急性の高い安全対策を提案する。

    Link: https://arxiv.org/abs/2512.16856

  • ReinforceGen:自動データ生成と強化学習によるハイブリッドスキルポリシー [cs.RO, cs.AI, cs.LG]目的:長期間の操作課題に対する解決策の提案
    • ロボットの自律的な操作能力向上は,産業や日常生活におけるロボットの応用範囲拡大に不可欠である。
    • 従来のロボット操作システムは,複雑なタスクへの対応や環境変化への適応に課題を抱えている。
    • タスク分解,データ生成,模倣学習,運動計画を統合し,強化学習による微調整を行うことで課題を克服する。
    • 提案手法ReinforceGenは,Robosuiteデータセットにおいて,視覚運動制御タスクにおいて80%の成功率を達成した。
    • 微調整アプローチは,平均パフォーマンスを89%向上させることが示された。
    • タスクを局所的なスキルに分割し,運動計画と組み合わせることで,複雑な操作課題を効率的に解決可能となった。

    Link: https://arxiv.org/abs/2512.16861

  • 教師モデルからの知識転移によるエッジ環境での半教師ありオンライン学習 [cs.LG, cs.AI]目的:エッジ環境における半教師ありオンライン学習手法の提案
    • エッジ環境で機械学習を行うことで,分散したデータを活用し,効率的な学習が可能となる。
    • 既存手法は静的なモデルに依存するため,未知データへの対応が難しいという課題がある。
    • 教師モデルから知識を転移することで,ラベル付けが困難な未知データに対する学習を可能とする。
    • 提案手法「知識転移(KT)」は,知識蒸留,アクティブラーニング,因果推論を組み合わせることで,教師モデルから疑似ラベルを生成する。
    • 安定した教師モデルを用いることで,学生モデルは期待される最大性能に到達できることがシミュレーション実験で示された。
    • 本手法は,汎用的な教師モデルが存在する場合や,学生モデルのラベル獲得が困難な場合に有効であると考えられる。

    Link: https://arxiv.org/abs/2512.16866

  • 継続学習における破滅的忘却を軽減するためのシーケンシング [cs.LG, cs.AI]目的:継続学習におけるタスクの最適シーケンシング
    • 現実世界に対応するため,AIシステムは継続的な知識獲得・更新・活用が不可欠である。
    • 継続学習の大きな課題は,新しいタスク学習時に過去の学習成果が大幅に低下する破滅的忘却である。
    • 本研究は,タスクの最適なシーケンシングによって破滅的忘却を軽減することを目指す。
    • タスクの知的なシーケンシングが,破滅的忘却を大幅に軽減できることが示された。
    • 提案手法は,従来の継続学習戦略と組み合わせることで,性能向上と忘却に対するロバスト性を実現する。
    • 本アプローチは,カリキュラム学習など,他の分野への応用も期待される。

    Link: https://arxiv.org/abs/2512.16871

  • スパイクニューラルネットワークの普遍的表現特性について [cs.NE, cs.LG, stat.ML]目的:スパイクニューラルネットワークの表現力に関する解析
    • エネルギー効率の良い次世代コンピューティングとして,生物学に触発されたスパイクニューラルネットワークの研究が重要である。
    • スパイクニューラルネットワークの表現能力に関する厳密な理論的根拠が不足している。
    • スパイクニューラルネットワークが,どのような関数を効率的に表現できるのかを明らかにする。
    • スパイクニューラルネットワークは,入力スパイクのストリームを出力スパイクのストリームに変換するシーケンス処理器として捉えることができる。
    • 特定のスパイク列関数クラスにおいて,スパイクニューラルネットワークの普遍的表現特性を確立した。
    • 少ない入力,低い時間的複雑さ,またはそれらの組み合わせを持つ関数に対して,スパイクニューラルネットワークは特に適していることが示された。

    Link: https://arxiv.org/abs/2512.16872

  • 社会責任スタック:社会技術的AIを統治するための制御理論的アーキテクチャ [cs.AI]目的:社会技術的AIの統治のための制御理論的アーキテクチャ
    • AIは社会に影響を及ぼすため,倫理的・社会的な責任を考慮した設計が重要である。
    • 既存のAIガバナンスは原則論に留まり,システムライフサイクル全体を通して機能する強制的な仕組みが不足している。
    • AIシステムに社会的な価値を組み込み,説明責任,適応性,監査可能性を実現する実用的な基盤を提供する。
    • 社会責任スタック(SRS)は,AIシステムに社会的な価値を制約,保護,インターフェース,監査,ガバナンスとして埋め込む6層のアーキテクチャである。
    • SRSは,責任を社会技術システムの閉ループな制御問題としてモデル化し,設計時の保護とランタイム監視を統合する。
    • 臨床意思決定支援,協調型自律走行車,公共部門システムにおけるケーススタディを通して,SRSの有効性が示された。

    Link: https://arxiv.org/abs/2512.16873