arXiv雑要約
AI - 2025/12/18 公開
観光客の興味分析によるプロファイリング [cs.SI, cs.CL, cs.CY, cs.SI, cs.SI, cs.AI]目的:観光客のプロファイリング
- 観光客の行動分析は,観光産業の発展やマーケティング戦略に不可欠である。
- 従来の観光研究は,デジタルデータの量的側面のみに偏りがちである。
- 観光客の行動を支配する要因を,質的・量的両面から明らかにすること。
- 本研究では,観光客のデジタル足跡を質的・定量的に分析する手法を提案する。
- これにより,観光客の興味や行動パターンをより深く理解することが可能となる。
- 特に,観光地ネットワークにおける観光客の動向解明に貢献すると期待される。
グラフ埋め込みハザードモデル:経済グラフ上の確率的ネットワーク生存力学 [cs.SI, cs.LG]目的:経済グラフ上の生存力学
- 経済システムはネットワーク構造を持つため,その理解は経済現象の予測に不可欠である。
- 従来のモデルでは,ネットワーク構造が生存力学に与える影響が十分に考慮されていない。
- ネットワーク構造と非線形拡散圧の相互作用を考慮し,安定性を解析する。
- 本研究では,グラフに基づく$p$-ラプラシアン拡散作用素と確率的構造ドリフトを結合した非線形進化フレームワークを開発した。
- 理論解析により,解の存在と一意性,トポロジー依存のエネルギー消散不等式,および安定性閾値が確立された。
- 数値実験の結果,ハブノードの優位性が非線形勾配を増幅し,安定性を狭めることが示された。
LLMをニューラルアーキテクチャとする:厳格なAPI契約下での画像キャプションモデルの制御生成 [cs.LG, cs.AI, cs.CL, cs.CV]目的:画像キャプションモデルの生成
- 深層学習モデル設計は,高度な専門知識や試行錯誤を必要とし,自動化が求められている。
- 従来のニューラルアーキテクチャ探索(NAS)は,時間と計算資源を多く消費する。
- LLMを活用し,API契約を遵守した画像キャプションモデルの生成パイプラインを確立する。
- LLM(DeepSeek-R1-0528-Qwen3-8B)を用いて,数十の画像キャプションモデルを生成し,その過半数が正常に学習された。
- プロンプトに提供する候補コンポーネント数を変えた実験の結果,コンポーネント数が多いほど成功率がわずかに低下した。
- LLMはアーキテクチャの提案に加え,ハイパーパラメータや学習方法についても提案する可能性が示唆された。
エントロピー的恒常性を介した逐次オンライン異常検知のための自己成長型エフェメラルマルチエージェントシステム [cs.SI, cs.NE, cs.LG, cs.MA]目的:生理的信号監視における異常検知
- 生体信号の継続的なモニタリングは,医療現場において患者の健康管理に不可欠である。
- 既存の深層学習モデルは,固定された構造と高いエネルギー消費が課題となっていた。
- エネルギー効率の良い,ロバストな異常検知モデルの構築を目指す。
- SGEMASは,エージェントの生死を通じて構造を可塑的に変化させ,予測誤差を最小化する。
- MIT-BIH不整脈データベースを用いた実験で,マルチスケール不安定性指標の追加が性能向上に貢献した。
- 患者間でのゼロショット評価において,SGEMAS v3.3はAUC平均0.570±0.070を達成し,既存手法を上回った。
注意を束縛として:Transformerの推論に関するベクトル記号的視点 [cs.AI, cs.LG]目的:Transformerの推論メカニズムの解明
- 大規模言語モデルの推論能力は重要だが,その仕組みは未だ不明な点が多い。
- Transformerは記号的操作において不安定であり,一貫性のない結果を生むことがある。
- 注意メカニズムをベクトル記号的計算として捉え,より信頼性の高い推論システムを構築する。
- 自己注意と残差ストリームを近似的なベクトル記号的アーキテクチャ(VSA)として解釈する統一的な視点を提示した。
- Transformerの内部構造と,思考の連鎖,プログラムに基づく推論,ツール利用との関連性を明らかにした。
- VSAにインスパイアされたアーキテクチャの変更や学習目標を提案し,論理的な構成性の評価指標を提示した。
マルチドメイン適応における自律的なソース知識選択 [cs.LG, cs.AI]目的:マルチドメイン適応における,ターゲットタスクに対する最も転移可能な知識の特定と選択
- 転移学習は,ラベルなしターゲットドメインでのタスク解決に,複数のソースドメインから得られる豊富な知識を活用する上で重要である。
- 大量のソースドメインが存在する場合,冗長または無関係な情報が転移性能を低下させる可能性がある。
- 大量のソースドメインから,ターゲットタスクに役立つ知識を効率的に選択することを目指す。
- 提案手法AutoSは,ソース学習サンプルとモデルを自律的に選択し,ターゲットタスク予測に役立つ情報を活用する。
- 密度駆動型の選択戦略により,訓練中のソースサンプルの選択と,ターゲット予測に貢献するソースモデルの決定を行う。
- 事前学習済みのマルチモーダルモデルを用いた疑似ラベル強化モジュールにより,ターゲットラベルノイズを軽減し,自己教師あり学習を改善する。
ソーシャルネットワークにおける情報アクセス公平性の促進 [cs.SI, cs.AI]目的:ソーシャルネットワークにおける情報アクセス公平性の最適化
- 情報伝達の迅速化と多様化を可能にするソーシャルネットワークは,現代社会において不可欠な存在である。
- ネットワーク上の位置関係により,マイノリティグループが情報アクセスにおいて不利になるという課題が存在する。
- 異なる属性グループ間における情報アクセスの公平性を向上させるための解決策を模索する。
- 情報アクセスを抵抗距離で測定する新たな視点を提示し,ネットワーク構造と多経路接続の重要性を示す。
- 問題がNP困難であることが示されたが,簡潔な貪欲アルゴリズムによる近似解が提案されている。
- 提案アルゴリズムの時間計算量を線形に削減し,数百万ノード規模のネットワークへの適用を可能にした。
SepsisSuite:リスク層別化を超えて - 処方型敗血症AIにおける深層融合と専門家スタッキングの比較分析 [cs.LG, cs.AI, cs.CL, cs.CV, cs.CY]目的:敗血症タスクにおける深層融合と文脈認識スタッキングのアーキテクチャ比較
- 敗血症はICU入室の約20%を占める深刻な疾患であり,早期発見と適切な治療が重要である。
- 従来の予測モデルは,異種データストリームの統合に課題があり,個別モダリティでの分析や脆弱な早期融合に頼りがちである。
- 本研究は,複数のモダリティデータを効果的に統合し,より高精度な敗血症予測と処方支援を目指す。
- 文脈認識MoEアーキテクチャ「SepsisLateFusion」が,臨床発症4時間前の予測において,AUC 0.915という最先端の性能を達成した。
- 臨床的安全性に合わせた閾値調整により,見逃しケースを48%削減し,タイムリーな介入を可能にする予防的ウィンドウを開いた。
- 多クラス抗生物質選択という新たな処方タスクにおいて,四重モダリティアンサンブルが最高の性能(AUC 0.72)を示した。
適応的・フィードバック駆動型旅行行動を捉えるベイズ潜在クラス強化学習フレームワーク [cs.LG, stat.ML]目的:適応的・フィードバック駆動型旅行行動の捉え方
- 旅行行動の理解は,交通計画や都市開発において不可欠である。
- 旅行者の嗜好や行動は多様であり,その進化を捉えるのが難しい。
- 旅行者の嗜好の多様性と時間的変化を同時に捉える手法を開発する。
- 本研究では,潜在クラス強化学習(LCRL)モデルを用いて,旅行者の嗜好適応の多様性を捉えた。
- 分析の結果,文脈依存的な嗜好を持つグループ,常に探索的な戦略を取るグループ,文脈に応じた探索戦略を取るグループの3つの異なるクラスが識別された。
- これらの結果は,旅行者の行動モデルの精度向上に貢献する可能性がある。
学習可能なガボールフィルタ畳み込みと注意機構による水中音響分類の改善 [cs.LG, cs.AI, cs.SD]目的:水中音響目標の分類精度向上
- 環境モニタリングや防衛において,水中音響信号の正確な処理が不可欠である。
- データセットの制約や実験の標準化不足が,汎化性能とロバスト性の向上を阻害している。
- 学習可能なガボールフィルタと注意機構を導入し,データ制約下での分類性能を改善する。
- 提案手法GSE ResNeXtは,Xception,ResNet,MobileNetV2等の既存モデルと比較して,分類性能において一貫して優れている。
- ガボール畳み込みを初期層に導入することで,学習時間が28%削減され,安定性と収束性が向上した。
- 訓練データとテストデータ間の時間的差が性能に影響し,特に船とセンサー間の距離が重要であることが示された。
ビットが物語となる様:微分可能なフォールト注入による意味の操縦 [cs.LG, cs.AI]目的:大規模言語モデルにおける意味変化の制御手法
- AIの安全性と信頼性確保が重要視される中,モデルの脆弱性評価は不可欠である。
- 既存研究では,フォールト注入がモデルの性能低下を引き起こす点に焦点が当てられていた。
- 本研究は,生成系AIにおける意味の符号化・変化をビットレベルで解明し,制御することを目指す。
- 提案手法BLADEは,勾配情報を用いて意味に影響の大きいビットを特定し,意味と流暢さを最適化する。
- 微小なビットの変更が,生成されるキャプションの意味を大きく変化させることが示された。
- 本研究は,AIの堅牢性向上,敵対的防御,説明可能なAIへの応用可能性を示唆する。
GPT-OSSだけで十分か?金融における大規模言語モデルのベンチマークと驚くべき効率のパラドックス [cs.LG]目的:金融分野における大規模言語モデルの性能,効率,実用性を評価する厳密なフレームワークの確立
- 金融サービスにおける大規模言語モデルの急速な導入が進んでおり,その効果測定が不可欠である。
- モデルの規模が大きいほど性能が向上するという一般的な仮説が,必ずしも当てはまらない可能性がある。
- GPT-OSSモデルの性能と効率性を詳細に分析し,実用的な展開のための知見を提供する。
- GPT-OSS-20Bは,より大規模なモデルと同等の精度(65.1% vs 66.5%)を達成し,優れた計算効率を示した。
- GPT-OSSモデルは,Qwen3-235Bなどのより大きな競合モデルを常に上回り,モデル規模とタスク性能の直接的な相関関係に疑問を投げかけた。
- GPT-OSSのアーキテクチャと学習戦略により,計算コストを大幅に削減しながら競争力のある性能を実現し,金融アプリケーションへの持続可能な展開を可能にする。
スペクトルエントロピーに基づく多変量時系列予測における空間的・時間的依存性の評価 [cs.LG, cs.AI]目的:多変量時系列予測のための空間的・時間的依存性の評価手法
- 多変量時系列データは様々な分野で出現し,正確な予測は重要な課題である。
- 既存手法では,不要な変数による時間的依存性の阻害や負の相関の無視などが問題となる。
- スペクトルエントロピーを用いて依存性を評価し,より正確な予測を実現することを目指す。
- 提案手法SEEDは,スペクトルエントロピーに基づき空間的・時間的依存性を動的に評価する。
- この評価により,チャンネル独立性とチャンネル依存性のバランスを適応的に調整できる。
- 実世界のデータセットを用いた実験で,SEEDが最先端の性能を達成し,有効性が確認された。
説明可能なロバストなモデル学習のためのハイブリッド帰属事前分布 [cs.LG, cs.AI]目的:説明可能性とロバスト性を向上させるための事前分布の導出
- 低遅延性と軽量な展開が求められるタスクにおいて,小規模言語モデルの利用が広がっている。
- 汎用性と信頼性の高い帰属事前分布の導出は,依然として大きな課題である。
- 意味的に類似したクラスの共通キーワードへの集中という問題を解決し,モデルの識別能力向上を目指す。
- 提案手法CAPは,クラス間の微細な違いを捉え,より識別的な帰属事前分布を生成する。
- CAP Hybridは,CAPと既存手法の事前分布を組み合わせることで,包括的かつバランスの取れた教師信号を提供する。
- 実験により,提案手法が説明可能性とロバスト性を一貫して向上させることが示された。
SoMe:LLMベースのソーシャルメディアエージェントのための現実的なベンチマーク [cs.SI, cs.AI, cs.CL]目的:LLMベースのソーシャルメディアエージェントの評価
- ソーシャルメディアは情報伝達や社会活動において不可欠な存在となっている
- 既存の評価方法では,ソーシャルメディアの複雑な状況を十分に捉えられていない
- 現実的なソーシャルメディア環境下でのエージェントの性能評価を可能にする
- SoMeは,8種類のソーシャルメディアタスク,大量のデータ,詳細なクエリを含む,初の包括的なベンチマークである
- 既存のLLM(オープンソース,クローズドソース)は,ソーシャルメディアエージェントタスクにおいて十分な性能を示せていないことが示された
- SoMeは,今後のソーシャルメディアエージェント研究のための挑戦的かつ有益なテストベッドを提供する
現実世界の集団データから合成患者データを生成するためのルール自動抽出:グリオブラストーマを例として [cs.LG]目的:合成患者データ生成ルール
- 医療データは二次利用が期待されるが,個人情報保護が課題である。
- ルール作成には専門知識と現実的なサンプルデータが必要である。
- 現実のデータから統計情報に基づいたルールを自動生成すること。
- 癌報告書から抽出した統計データを用いてSyntheaルールを自動生成する手法を提案した。
- グリオブラストーマのデータセットからSyntheaモジュールを作成し,合成データセットを生成した。
- 合成データは既知の疾患経過を再現し,統計的特性をほぼ維持した。
HATSolver: 階層的注意Transformerによるグレブナー基底の学習 [cs.LG, cs.AI]目的:多変量多項式方程式系の求解
- 計算代数における基礎であり,現実の問題に応用範囲が広いから。
- グレブナー基底の計算は計算コストが高く,規模の大きな問題には適用が困難である。
- 階層的注意Transformerを用いて計算効率を向上させ,より大規模な問題を解決する。
- 提案手法は,従来のフラットアテンションモデルと比較して計算量を大幅に削減できる。
- 階層構造の誘導バイアスを取り入れたHATアーキテクチャにより,深さの異なる問題にも対応可能である。
- カリキュラム学習と組み合わせることで,既存手法よりも大規模な問題を解決することができた。
生成都市流れモデリング:幾何学から気流へ,グラフ拡散を利用して [cs.DB, cs.LG, cs.AI]目的:都市風流れ場の生成
- 都市の空気質評価や持続可能な都市計画において,風流れのモデリングは重要である。
- 複雑な都市構造の形状を扱うことが,モデリングとシミュレーションの大きな課題となっている。
- 多様な形状や風条件に対して,迅速かつ正確な風流れ場の予測を可能にすることを目指す。
- 提案手法は,幾何学的情報のみを用いて,非構造化メッシュ上で安定した都市風場を生成できる。
- 階層型グラフニューラルネットワークとスコアベース拡散モデリングを組み合わせることで,高精度かつ多様な速度場を実現した。
- 未知の形状への汎化性能,渦や再循環帯といった主要な流れ構造の再現,不確実性を考慮した予測が可能であることを示した。
量子決定トランスフォーマー(QDT):オフライン強化学習のための相乗的エンタングルメントと干渉 [cs.LG, cs.AI]目的:オフライン強化学習における性能向上
- 強化学習は,複雑な問題を自律的に解決できる強力な手法であり,ロボット工学やゲームなど幅広い分野で応用が期待される。
- 従来のオフライン強化学習は,データの質に大きく依存し,長期的報酬の割当や状態行動の複雑な依存関係の学習が困難である。
- 量子に着想を得たアーキテクチャにより,これらの課題を克服し,よりロバストで高性能なオフライン強化学習を実現することを目指す。
- 量子決定トランスフォーマー(QDT)は,標準的な決定トランスフォーマー(DT)と比較して,2000%以上の性能向上を示した。
- QDTの性能向上は,エンタングルメントと干渉という量子に着想を得た構成要素間の相乗効果に起因することが明らかになった。
- 非局所的な相関による報酬の割当の強化,並列処理によるアンサンブル学習,学習可能な干渉による適応的なリソース配分が,QDTの主要な利点である。
医療応用における有限サンプル共形予測理論に関する批判的考察 [cs.LG, cs.AI, stat.ME]目的:医療応用における有限サンプル共形予測の有用性評価
- 医療分野において機械学習の活用が進む中で,安全な臨床判断には信頼性の高い不確実性推定が不可欠である。
- 共形予測は統計的保証のある不確実性推定を可能とするが,小規模なキャリブレーションセットではその保証が実質的に意味をなさない場合がある。
- 本研究では,キャリブレーションセットのサイズが共形予測の性能に与える影響を明らかにし,医療応用における課題を指摘する。
- 共形予測理論はキャリブレーションセットのサイズに依存せず成立するが,実用的な保証はセットのサイズに強く影響されることが示された。
- 医療画像分類タスクにおける実験により,小規模なキャリブレーションセットでは共形予測の有用性が限定的であることが確認された。
- 本研究は,医療分野における共形予測の適用において,キャリブレーションデータの収集と検証の重要性を示唆する。
都市鉄道におけるピーク時の移動経路推測へのデータ駆動型アプローチ [cs.LG]目的:都市鉄道における個々の移動経路の推測
- 都市交通の効率化は,経済活動や市民生活に不可欠であるため,その最適化は重要課題である。
- 既存手法では,パラメータ設定に外部データや調査データが必要で,汎用性や頑健性に課題があった。
- パラメータ推定をデータ駆動的に行うことで,外部データへの依存をなくし,精度の高い経路推測を目指す。
- 本研究で開発されたアプローチは,都市鉄道における乗客の移動経路を高精度に推測できることが示された。
- ピーク時における移動経路推測の精度は90%を超える結果が得られた。
- KLダイバージェンスとEMアルゴリズムを組み合わせたKLEM法により,パラメータ推定のデータ駆動化を実現した。
制約付きポリシーに基づく意味解釈のための幾何学 [cs.LG, cs.AI]目的:制約付きポリシーに基づいた意味解釈の幾何学的枠組み
- 高リスクな分野では,誤ったコミットメントが重大な結果を招くため,安全性の確保が不可欠である。
- 既存の手法では,根拠のないコミットメント(ハルシネーション)が発生する可能性があり,信頼性に課題がある。
- ハルシネーションを防止し,ポリシーに沿った安全な意味解釈を実現することを目指す。
- 提案手法は,意味を単位球面上の方向として表現し,証拠をベクトルとしてモデル化することで,幾何学的な制約を導入する。
- この枠組みにより,矛盾やポリシー違反下での拒否が自然に発生し,情報理論的に最適な複雑さで解釈が可能となる。
- 大規模な金融データを用いた実験により,様々なポリシー下でハルシネーションが発生しないことが実証された。
腹部CTにおける偶発所見管理のためのLLMとVLMの統合:INFORM-CT [cs.LG, cs.AI, cs.CV, eess.IV]目的:腹部CTにおける偶発所見の検出,分類,報告の効率性と精度向上
- CT検査は広く用いられ,偶発所見は臨床的に重要な意味を持つため,適切な管理が重要である。
- 放射線科医による手動検査は時間がかかり,検査者によるばらつきが生じやすいという課題がある。
- LLMとVLMを組み合わせた自動化フレームワークにより,偶発所見管理の効率化と精度向上を目指す。
- 提案手法は,純粋なVLMベースの手法と比較して,精度と効率の両面で優れた性能を示すことが示された。
- 腹部CTの3臓器に関するベンチマークデータセットを用いた実験で,完全自動のエンドツーエンド方式での有効性が実証された。
- LLMベースのプランナーとVLMによるエグゼキューターの組み合わせにより,医療ガイドラインに沿った偶発所見管理の自動化を実現した。
探索場所:レコメンダーシステムにおける偏りのないデータ収集のためのリーチとコストを考慮したアプローチ [cs.IR, cs.LG]目的:レコメンダーシステムにおける偏りのないデータ収集のためのアプローチ
- レコメンダーシステムの長期的な品質向上には探索が不可欠である。
- 探索は短期的なビジネスパフォーマンスを低下させる可能性がある。
- ビジネス目標を維持しつつ,偏りのないインタラクションデータを収集すること。
- 本アプローチは,リーチと機会費用に基づき,探索コンテンツの配置を最適化する。
- 1億人以上の月間アクティブユーザーを有する大規模ストリーミングプラットフォームでのA/Bテストにより,ビジネス指標を維持しつつ偏りのないデータ収集が可能であることが示された。
- 収集されたデータは,候補生成に統合することでユーザーエンゲージメントを向上させ,レコメンダーシステムの価値を実証した。
推論時特徴量注入:リアルタイム推薦鮮度のための軽量アプローチ [cs.LG]目的:リアルタイム推薦における鮮度向上のための手法
- 動画配信サービスにおいて,ユーザーエンゲージメントを高めるためには,最新の行動を反映した推薦が重要である。
- 従来のバッチ学習モデルでは,特徴量の更新が日単位であり,ユーザーの最新行動が反映されにくいという課題があった。
- 推論時に最新の視聴履歴を注入することで,モデル再学習なしにリアルタイムなパーソナライズを実現し,推薦の鮮度を向上させる。
- 推論時に古いユーザー特徴量を最新の視聴履歴で上書きする軽量な手法を提案した。
- この手法により,主要なユーザーエンゲージメント指標が統計的に有意な0.47%向上した。
- 長編動画配信サービスにおけるリアルタイムパーソナライズが,効果的な改善をもたらすことを実証した。
エージェントのインターネットのためのゼロ知識監査:モデルコンテキストプロトコルを用いたプライバシー保護型通信検証 [cs.CR, cs.AI]目的:エージェント通信のプライバシー保護と監査可能性の確保
- エージェント技術は,多様な分野で自律的な処理を可能にするため,重要性が増している。
- 既存のフレームワークでは,通信内容を保護しながら監査証跡を提供することが困難である。
- プライバシーを保護しつつ,正確な課金やコンプライアンス検証を実現する。
- 本研究では,ゼロ知識証明とモデルコンテキストプロトコル(MCP)を組み合わせた監査フレームワークを提案した。
- 提案手法は,メッセージの内容を公開せずに検証可能であり,軽量ネットワークでの利用に適している。
- エージェント間での相互監査が可能であり,データ信頼性と通信プライバシーを効率的に実現する。
NoveltyRank:AI論文の概念的新規性の推定 [cs.LG, cs.CL]目的:AI論文の概念的新規性の推定とランキング
- 学術出版の容易化に伴いAI分野の論文数は急増しており,重要な研究を見つけ出すことが困難になっている。
- 新規性評価は主観的で時間もかかり,一貫した評価が難しいという課題がある。
- AI論文の新規性をデータ駆動的に評価し,革新的な研究を効率的に特定することを目的とする。
- 論文のタイトル,アブストラクト,既存文献との意味的類似性に基づいて新規性を評価する。
- 二値分類とペアワイズ比較という2つのタスク形式を検討し,モデルの目的の違いを調査した。
- Qwen3-4B-Instruct-2507とSciBERTをファインチューニングし,GPT-5.1との比較を行った。
LLMの継続的なファインチューニングにおける持続的なバックドア攻撃 [cs.CR, cs.AI]目的:LLMへのバックドア埋め込みと,継続的なファインチューニング下でのその持続性の検証
- 大規模言語モデルの普及に伴い,その安全性確保が重要となっている。
- バックドア攻撃はモデルの安全性を脅かすが,実環境での継続的な更新下での持続性が不明である。
- 継続的な学習下でもバックドアを維持する攻撃手法を開発し,その有効性を検証すること。
- 提案手法P-Trojanは,トークン埋め込みにおけるクリーンなタスクの勾配と一致させることで,バックドアの持続性を高める。
- Qwen2.5およびLLaMA3系列のLLMを用いた実験で,P-Trojanは99%以上の持続性を達成し,クリーンタスクの精度も維持した。
- 本研究は,現実的なモデル適応パイプラインにおける持続性に着目した評価と,より強固な防御策の必要性を示唆する。
O-RAN向け量子拡張AI/ML:相乗効果的な知性と解釈可能性による階層型脅威検知 [cs.CR, cs.AI, cs.LG]目的:O-RANにおける階層的な脅威検知フレームワーク
- O-RANは柔軟性と詳細なテレメトリを提供するが,セキュリティリスクが増大する。
- O-RANの分散化された構成要素は,攻撃対象領域を拡大させている。
- 量子コンピューティングと機械学習を統合し,高度な脅威検知を実現する。
- 提案手法は,異常検知,侵入確認,多重攻撃分類の3層で構成される階層型防御フレームワークである。
- 量子コンピューティングと機械学習のハイブリッド化により,高い精度,再現率,クラス分離度を達成した。
- 決定境界,確率的マージン,潜在空間の形状の評価により,解釈可能性と堅牢性が確認された。
Factor(U,T): 不信頼なAIの計画監視による制御 [cs.CR, cs.AI]目的:不信頼なAIによるタスク分解と,信頼できるAIによる実行
- AIの能力向上に伴い,複雑なタスクの分解・実行がAIに委ねられる場面が増加している。
- タスク分解自体が悪意のあるAIによって行われる場合,セキュリティ上のリスクが存在する。
- 不信頼なAIによるタスク分解を監視し,悪意のある活動を検知することでAIの安全性を確保する。
- 自然言語によるタスク指示のみでは,悪意のある分解と誠実な分解を区別する性能は低い(AUROC 0.52)。
- 完全なPythonコードの監視では高い識別性能が示された(AUROC 0.96)。
- 信頼できる分解器と具体的な子ソリューションの監視を行うFactor($D$,$U$)は,高い識別性能(AUROC 0.96)と安全性(ASR 1.2%)を達成した。
航空交通ネットワークにおけるエッジp-ラプラシアン中心性の算出 [cs.SI, cs.LG]目的:航空交通ネットワークのエッジp-ラプラシアン中心性の算出
- ネットワーク科学は,複雑なシステムの構造と機能を理解する上で不可欠である。
- 大規模ネットワークにおける中心性の効率的な計算は困難である。
- 航空交通ネットワークにおけるエッジ中心性の算出問題を解決することを目指す。
- 航空交通ネットワークを線グラフに変換することで,エッジp-ラプラシアン中心性を算出するアプローチを提案した。
- 線グラフのノードp-ラプラシアン中心性を計算することで,元のネットワークのエッジp-ラプラシアン中心性と等価になることを示した。
- 提案手法は,実験により実装可能性が確認された。
ひとつの脆弱性が全てを崩す:ファインチューニングされたLLMにおける,事前学習済みモデルの脆弱性暴露がjailbreakリスクを増幅させる仕組み [cs.CR, cs.AI]目的:事前学習済みLLMからファインチューニングされたLLMへのjailbreak脆弱性の継承
- LLMは多様な応用を可能にするが,そのセキュリティ確保は重要である。
- ファインチューニングによってセキュリティリスクがどのように変化するか不明である。
- 事前学習済みモデルの脆弱性がファインチューニングされたモデルにどのように影響するかを解明する。
- 事前学習済みモデルで最適化された敵対的プロンプトが,ファインチューニングされたモデルに最も効果的に転移することが示された。
- 転移可能なプロンプトは,事前学習済みモデルの隠れ状態内で線形分離可能であり,汎用的な転移可能性が事前学習済み表現に符号化されていることが示唆された。
- 転移可能性に関連する方向に最適化を誘導するProbe-Guided Projection (PGP)攻撃が有効であり,pretrain-to-finetuneパラダイム固有のセキュリティリスクが確認された。
サイバースウォーム:サイバーコミュニティのダイナミクスに着想を得た新規スウォーム知能アルゴリズム [cs.SI, cs.AI]目的:レコメンデーションシステムにおける動的なユーザー嗜好と相互作用への適応
- ユーザーの行動は常に変化するため,嗜好の変化に対応したレコメンデーションが重要である。
- 従来のレコメンデーション手法では,複雑なソーシャルネットワーク内の相互作用を捉えきれない場合がある。
- 本研究は,多様なドメインに適応可能な,より汎用的なレコメンデーションアルゴリズムを開発する。
- 提案アルゴリズムは,ソーシャルネットワークやコンテンツ発見など,様々なレコメンデーションタスクにおいて優れた性能を示した。
- Hit Rate (HR),Mean Reciprocal Rank (MRR),Normalized Discounted Cumulative Gain (NDCG)といった主要指標で,ベースライン手法を上回った。
- 本アルゴリズムは,個人の嗜好とコミュニティの影響を統合することで,レコメンデーションシステムの新たな進歩を提供する。
コード接頭辞:コード生成のための堅牢なウォーターマーキング [cs.CR, cs.AI]目的:大規模言語モデル生成コードのウォーターマーキング技術
- LLMの悪用防止は重要であり,偽情報の作成,盗用,スパムを防ぐ必要がある。
- 既存手法はコメント除去攻撃に脆弱であり,ウォーターマークの効果を低下させる。
- コメント除去攻撃に耐性があり,検知率と実用性の高いウォーターマーキング技術を開発する。
- 提案手法は,HumanEvalにおいて既存の最先端技術と比較して有効性が確認された。
- Cue Listを用いてコードの高エントロピー領域と低エントロピー領域を識別し,ウォーターマークを注入する。
- これにより,既存手法よりも高い検知率と実用性を実現した。
指示追従における言語モデルの信頼性の再検証 [cs.SE, cs.AI, cs.CL]目的:言語モデルにおけるニュアンスを考慮した信頼性
- 大規模言語モデルの発展は目覚ましいが,実用的な応用には信頼性が不可欠である。
- 既存の評価指標は,微妙な表現の差異に対するモデルの脆弱性を捉えきれていない。
- モデルが類似した意図を持つ異なる表現でも安定した性能を発揮するか検証する。
- 多くの言語モデルにおいて,わずかな表現の変更で性能が最大61.8%低下することが示された。
- 新しい評価指標「reliable@k」と自動プロンプト生成パイプラインが開発された。
- ニュアンスを考慮した信頼性は,言語モデルの信頼性を高める上で重要な課題であることが明らかになった。
CAPE:ポリシー実行による能力達成 [cs.SE, cs.AI, cs.LG]目的:要求事項を確実に満たすAIモデルの実現
- 現代のAIは高度化する一方,現実世界への応用には課題が残る
- 事前学習や好みの最適化では,明示的な制約を確実に満たせない
- 要求事項を仕様に変換し,モデルがデフォルトで満たすように学習する
- CAPEは,要求事項を「指定→検証→修正→学習」のループで実行するプロトコルである。
- 文脈が固定されれば主観的な性質も客観的になり,検証精度はモデルの規模拡大とともに向上する。
- 109,500件の例において,CAPEはDPOと比較して違反率を81%削減し,コストと時間を大幅に削減した。
コード翻訳におけるワークフローとエージェント [cs.SE, cs.AI]目的:MATLABからHDLへのコード翻訳における構文修復手法の比較
- FPGAやASICへの実装にはHDLへの翻訳が不可欠だが,リソースが莫大にかかる。
- LLMは自動化の道を開くが,HDLコードの学習データ不足から,終端間変換は脆弱になりやすい。
- LLMを活用した構文修復によって,翻訳パイプラインの効率と精度向上を目指す。
- ワークフロー型とエージェント型を比較した結果,エージェント型の方が初期構文エラーの解決に優れていることが示された。
- 特に中規模モデルにおいて,シミュレーション成功率が20%以上向上するなど,下流工程にも好影響が確認された。
- エージェント型は,小規模・中規模モデルの能力限界を補う上で有効であり,適切な設計が重要である。
制約充足問題に対する誘導型離散拡散 [cs.LG, cs.AI]目的:制約充足問題の解決
- 組合せ最適化問題への応用が期待される分野である。
- 複雑な問題に対して効率的な探索が困難である。
- 教師なしで問題を解決する新たなアプローチの確立。
- 制約充足問題に対し,離散拡散に基づく誘導手法を提案した。
- 提案手法は,外部からの指示なしに数独問題を解くことを実証した。
不完全知識下における適応型グラフ推論エージェント [cs.AI, cs.LG]目的:知識グラフの質問応答における適応的グラフ推論
- 知識グラフは,事実間の関係を構造化し,高度な推論を可能にする重要な技術である。
- 既存の知識グラフ質問応答システムは,完全な知識グラフを前提としており,現実世界の不完全な知識グラフへの対応が課題である。
- 不完全な知識グラフにおける推論能力の限界を克服し,よりロバストな質問応答システムを開発することを目指す。
- 既存の質問応答手法は,知識グラフが不完全になると性能が著しく低下することが示された。
- 適応型グラフ推論エージェント(GR-Agent)は,知識グラフを対話型環境として構築し,質問応答をエージェントと環境の相互作用として捉える。
- GR-Agentは,グラフ推論ツールを用いて知識グラフを探索し,推論の根拠となる情報を記憶することで,完全および不完全な状況下で優れた性能を発揮する。
垂直型連合学習におけるShapley-CMIとPSI置換を用いたプライバシー保護型特徴評価 [cs.CR, cs.AI, cs.DC]目的:垂直型連合学習における特徴量の貢献度評価方法
- データプライバシー保護の重要性が高まる中,分散型機械学習の需要が増加している。
- 垂直型連合学習では,モデル訓練前に各参加者の特徴量貢献度を評価することが課題である。
- Shapley-CMIの安全な実装を実現し,プライバシーを保護しながら特徴量貢献度を評価する。
- 提案手法は,PSIサーバーを用いて特徴量の置換と暗号化された交差数を安全に計算する。
- 各参加者は,PSIの結果を用いてShapley-CMI値を計算し,特徴量の限界効用を評価する。
- 実験により,提案手法の正当性とプライバシー保護能力が確認された。
VQA信頼性向上:自己反省とクロスモデル検証による二重評価アプローチ [cs.CV, cs.AI]目的:VQAにおける信頼性向上
- 画像と言語を理解するモデルは,人間とAI間のインタラクションを豊かにする鍵となる。
- 既存のモデルは,幻覚により誤った自信過剰な回答をする可能性があり,信頼性が低い。
- モデルの不確実性を評価し,幻覚を抑制することで,VQAの信頼性を高める。
- DAVRは,自己反省とクロスモデル検証を統合した新しいフレームワークである。
- 二重経路アーキテクチャにより,応答信頼性の評価と事実確認を両立する。
- ICCV-CLVL 2025のReliable VQA Challengeで,$\Phi_{100}$スコア39.64と100-AUC 97.22を達成し,1位を獲得した。
意思決定者の視点からの天気予報の評価 [cs.LG, stat.AP]目的:意思決定における予報の価値
- 天気予報は,社会経済活動に不可欠であり,その精度向上は重要である。
- 既存の評価方法は,予報自体に焦点を当て,意思決定への貢献度が不明である。
- 意思決定者の視点を取り入れ,予報の価値を定量的に評価することを目指す。
- 従来の予報精度評価と意思決定における性能は必ずしも一致しないことが示された。
- 意思決定タスクの種類によって,モデルのランキングが変化することが確認された。
- 特定の意思決定タスクに適した予報モデルの選択には,従来の評価方法だけでは不十分である。
LLMによるIaC生成:エラー分類と構成知識注入に関する研究 [cs.AI, cs.SE]目的:LLMを用いたIaC生成の改善
- クラウド環境の複雑化に伴い,IaCの自動化が重要視されている。
- LLMによるIaC生成は,正確性や意図との整合性が低いという課題がある。
- 構成知識の注入により,LLMのIaC生成の精度向上を目指す。
- ベースラインのLLM性能は低いものの,構成知識の注入により技術的な検証成功率は75.3%に向上した。
- 構成知識の注入は全体的な成功率を62.6%に引き上げた。
- 技術的な正確性は向上したものの,意図との整合性は限界が見られ,「正確性-整合性ギャップ」が明らかになった。
インセンティブか,オントロジーか:OpenAIのハルシネーション仮説への構造的批判 [cs.CL, cs.AI, cs.LG]目的:大規模言語モデルにおけるハルシネーションの発生原因に関する考察
- 言語モデルの発展に伴い,その生成する情報の信頼性が重要視されている。
- 大規模言語モデルが事実に基づかない情報を生成するハルシネーションが問題となっている。
- ハルシネーションの根本原因を解明し,より信頼性の高いAIシステムを構築すること。
- OpenAIはハルシネーションを評価インセンティブの誤調整に起因すると主張する。
- 本研究では,ハルシネーションは最適化の失敗ではなく,Transformerモデルの構造的な必然であると論じる。
- Transformerは世界を表現せず,トークンの統計的関連性をモデル化するため,ハルシネーションは回避不可能である。
プロンプトとプログラム間の状態共有 [cs.PL, cs.AI]目的:自然言語コードとプログラム状態間の連携を容易にするためのプログラミング抽象化
- 大規模言語モデルの普及により,自然言語によるプログラミングという新たなパラダイムが生まれている。
- 自然言語コードと従来のプログラミング言語との連携には,手動での状態管理が必要であり,開発効率が低い。
- 自然言語コードがプログラム変数を直接操作し,プログラムの状態を共有できるようにすること。
- Nightjarシステムを用いて,自然言語コードとPythonプログラムの状態共有を実現した。
- Nightjarプログラムは,手動実装と同等かそれ以上のタスク精度を達成し,コード量を平均39.6%削減した。
- Nightjarの使用にはランタイムオーバーヘッドが生じる可能性がある(手動実装の0.4〜4.3倍)。
AI を導入する:システム性能研究の加速 [cs.SE, cs.AI]目的:システム性能研究における AI 駆動の研究手法
- システム性能は,現代の計算システムの重要な評価指標であり,継続的な改善が求められる。
- 従来のシステム設計は,人間の専門知識と試行錯誤に依存しており,時間と労力がかかる。
- AI を活用することで,システム性能の自動的な改善と設計の効率化を目指す。
- AI 駆動の研究手法 (ADRS) により,人間が設計した最先端のシステム性能に匹敵する,またはそれを上回る性能を持つ解が得られることが示された。
- OpenEvolve,GEPA,ShinkaEvolve などの ADRS フレームワークを用いた 10 のケーススタディで,その有効性が確認された。
- 効果的な ADRS の使用に関するベストプラクティス(プロンプトの指定レベル,フィードバック量,堅牢な評価など)が提示され,今後の研究方向が議論された。
MALCDF:リアルタイムサイバーセキュリティのための分散型マルチエージェントLLMフレームワーク [cs.CR, cs.AI]目的:リアルタイムサイバー攻撃への防御
- サイバー攻撃は巧妙化・多様化しており,従来のセキュリティ対策では対応が困難になっている。
- 従来の集中型セキュリティツールは,適応的で多岐にわたる攻撃を見逃しやすい。
- LLMエージェント間の連携により,リアルタイムでのサイバー防御能力向上を目指す。
- MALCDFは,検知,インテリジェンス,対応,分析の4つのLLMエージェントがリアルタイムで連携する。
- 評価実験では,90.0%の検知精度,85.7%のF1スコア,9.1%の誤検知率,平均6.8秒の遅延で良好な結果を得た。
- MALCDFは,軽量な機械学習ベースのIDSや単一LLMの設定を精度面で上回り,一貫性のある出力を維持した。
モンテカルロドロップアウトによる信頼性の低い不確実性推定 [cs.LG]目的:機械学習モデルにおける不確実性推定の信頼性向上
- 安全性確保が重要な分野で,機械学習モデルの不確実性推定は不可欠である。
- モンテカルロドロップアウトは計算効率が良いが,真の不確実性を正確に捉えられない場合がある。
- モンテカルロドロップアウトの不確実性推定能力を評価し,信頼性を検証する。
- モンテカルロドロップアウトは,特に外挿および内挿領域において,真の不確実性を正確に反映できないことが示された。
- 従来のベイズ的手法と比較して,モンテカルロドロップアウトの不確実性推定は信頼性が低い。
- 実験結果は,モンテカルロドロップアウトが認識的不確実性と偶然的不確実性を捉える能力に課題があることを示唆している。
数値データへのグラフニューラルネットワークの応用経路:セメント材料からの示唆 [cs.CE, cs.AI]目的:セメント材料設計におけるグラフニューラルネットワークの応用方法
- コンクリート研究において,性能向上や配合最適化に機械学習の活用が進んでいる。
- セメント材料の機械学習応用における課題は,利用可能なデータベースのサイズと多様性の限界である。
- 数値データから相関を抽出し,物理法則を組み込んだ予測モデルを構築することを目指す。
- 本研究では,表形式データをグラフ表現に変換するk-NNアプローチの明確かつ再現可能な経路を確立した。
- グラフニューラルネットワークは,ランダムフォレストと同程度の予測性能を示した。
- この研究は,従来の機械学習から高度なAIアーキテクチャへの移行のための基礎的な道筋を提供する。
エージェント型AIのペネトレーションテスト:モデルとフレームワーク間の比較セキュリティ分析 [cs.CL, cs.CR, cs.AI]目的:エージェント型AIシステムのセキュリティ脆弱性に関する比較評価
- AI技術の発展に伴い,特にエージェント型AIのセキュリティ確保が重要課題となっている。
- 既存のLLMの安全対策では,エージェント型AI特有の脆弱性に対応しきれていない。
- 複数のモデルとフレームワークにおけるエージェント型AIのセキュリティリスクを定量的に評価する。
- AutoGenはCrewAIと比較して高い拒否率を示し,フレームワーク間のセキュリティ差異が確認された。
- Grok 2は特に低い拒否率を示し,悪意のあるプロンプトの成功率が高いことが示された。
- AIモデルが攻撃を拒否する代わりに虚偽の出力を生成する「幻覚コンプライアンス」という新たな防御パターンが特定された。
