arXiv雑要約
AI - 2026/04/22 公開
ブラジルのワクチン議論を形成するのは誰か?YouTubeメディアエコシステムにおける立場と分極化の半教師ありモデル [cs.CY, cs.AI, cs.CL, cs.LG, cs.SI]目的:ブラジルのYouTubeにおけるワクチンに関する議論の立場と分極化の分析
- ワクチン接種は公衆衛生の根幹であり,その重要性は揺るぎない。
- オンライン上の誤情報や政治的分極化がワクチン接種を妨げる要因となっている。
- ブラジルのワクチン議論の構造的な脆弱性を明らかにし,対策に資する。
- 半教師あり学習により,ワクチンに関する立場の分類精度が向上した。
- COVID-19などの疫学的危機時に分極化が激化する傾向が確認された。
- 科学コミュニケーションチャンネルやデジタルネイティブチャンネルが議論の中心となっている。
コンパイルによる圧縮:コンパイラ出力を活用した形式定理証明の性能向上 [cs.LG, cs.AI, cs.LO, cs.PL]目的:形式定理証明の性能向上
- 形式定理証明は,ソフトウェアやハードウェアの信頼性保証に不可欠であり,その自動化が強く求められている。
- 大規模言語モデルは有望だが,計算コストが高く,大規模な探索や長い履歴が必要となる点が課題である。
- コンパイラが示す多様な証明試行と,構造化されたエラーモードの圧縮を利用し,効率的な学習と探索を目指す。
- 本手法は,ベースとなる定理証明器の推論能力を,様々な規模で一貫して向上させる。
- PutnamBenchにおいて,$\sim$8Bおよび$\sim$32Bパラメータモデルで最先端の性能を,同等の計算時間内で達成した。
- 検証者によるガイダンスに基づいた次世代推論の,スケーラブルなパラダイムを提供する。
CentaurTA Studio:テーマ分析のための自己改善型人間・エージェント協調システム [cs.HC, cs.AI]目的:テーマ分析における人間とエージェントの協調的改善
- 質的データの分析は重要だが,労力と時間がかかる。
- 自動化は制御性と透明性に課題が残る場合がある。
- 人間とエージェントの協調により分析効率と精度を向上させる。
- CentaurTA Studioは,オープンコーディングとテーマ構築の両方において,既存システムを上回る高い精度を達成した。
- ルーブリックに基づくLLM評価と人間アノテーター間の合意性は高い信頼性を示した(平均κ = 0.68)。
- フィードバックループの除去や,批判機能の削除はパフォーマンス低下やコスト増加につながることが示された。
SPRITE:静的なモックアップからゲームエンジン対応UIへ [cs.HC, cs.CY, cs.HC, cs.AI]目的:ゲームUIの実装における効率化
- ゲーム開発において,UIはユーザー体験を大きく左右する重要な要素である。
- 既存の「スクリーンショットからコード生成」ツールは複雑なUI構造に対応しにくい。
- UIデザインと実装の間のギャップを埋め,開発効率を向上させる。
- SPRITEは,静的スクリーンショットから編集可能なエンジンアセットを生成するパイプラインである。
- Vision-Language ModelとYAML中間表現を活用し,複雑なUI構造を正確に再現する。
- 開発者は,手作業によるコーディングを削減し,迅速なプロトタイピングが可能となる。
大規模言語モデル推論における二次元早期終了最適化 [cs.CL, cs.AI]目的:大規模言語モデルの分類タスクにおける層ごと,文ごとの早期終了戦略
- 近年,大規模言語モデルの利用が拡大しており,計算コストの削減が重要課題となっている。
- 既存の層ごとの早期終了は,計算量削減効果に限界があり,さらなる効率化が求められている。
- 層と文の両方で早期終了を組み合わせることで,より大きな計算量削減を目指す。
- 提案手法は,Llama 3,Gemma,Qwenといった複数の大規模言語モデルで,既存手法と比較して1.4~2.3倍の高速化を達成した。
- 単純なタスクにおいては顕著な効果が認められたが,複雑な多クラス問題においても,ある程度の性能維持が確認された。
- この手法はモデルに依存せず,軽量な分類アダプターのみで実現可能であり,量子化やプルーニングといった他の効率化手法と組み合わせることが可能である。
TurboEvolve:高速かつ堅牢なLLM駆動型プログラム進化に向けて [cs.NE, cs.AI]目的:LLM駆動型プログラム進化の効率性と安定性向上
- プログラム自動生成・最適化は,ソフトウェア開発の生産性向上に不可欠である。
- LLMを用いた進化手法は計算コストが高く,結果のばらつきが大きいという課題がある。
- 固定された評価予算内で,探索効率と安定性を高めることを目指す。
- TurboEvolveは,多様な候補を効率的に生成する「verbalized Sampling」を導入した。
- さらに,既存の解群を活用する「seed-pool injection」により,多様性と洗練化を両立している。
- 複数のベンチマークで,TurboEvolveは低い予算で優れた性能を発揮し,既存の最良解を改善した。
スパイクMLLM:モダリティ特異的時尺度と時間圧縮によるスパイクベースのマルチモーダル大規模言語モデル [cs.NE, cs.AI]目的:マルチモーダル大規模言語モデルにおける計算コストとエネルギー消費の削減
- マルチモーダル大規模言語モデルは性能が向上しているが,計算資源を大量に消費する
- スパイクニューラルネットワークは省電力だが,マルチモーダルデータへの適用が難しい
- 異なるモダリティに対応する時尺度と時間圧縮により,スパイクベースMLLMを実現する
- スパイクMLLMは,既存のANN量子化手法をスパイク表現空間に統合し,モダリティ進化差異(MED)に基づくモダリティ特異的時尺度(MSTS)と時間圧縮LIF(TC-LIF)を用いる。
- 実験の結果,積極的な時間ステップ圧縮(Tv/Tt=3/4)下で,InternVL2-8BとQwen2VL-72BにおいてFP16ベースラインと比較してそれぞれ0.72%と1.19%の僅かな性能低下に留まった。
- 専用RTLアクセラレータの開発により,FP16 GPUベースラインに対して9.06倍のスループットと25.8倍の電力効率向上を達成した。
原子力プラント監視システムの段階的展開のためのニューロモーフィック継続学習 [cs.NE, cs.AI, cs.LG]目的:原子力産業制御システムにおける異常検知の継続学習手法
- 原子力プラントの安全確保は最重要課題であり,異常を早期に検知する監視システムの高度化が求められている。
- 従来のニューラルネットワークは,新しいシステムを学習する際に,過去の学習内容を忘れてしまうという課題がある。
- 本研究は,ニューロモーフィックコンピューティングを用いて,エネルギー効率が高く適応可能な監視システムを実現する。
- スパイク符号化による非同期センサーフュージョンにより,入力スパース性を92.7%達成した。
- EWC+Replay法により,平均F1スコア0.979,平均忘却率0.000を達成し,従来のニューラルネットワークに比べて演算量が12.6分の1に削減された。
- 本システムは,平均遅延時間0.6秒で全ての攻撃を検知し,次世代原子力施設の安全監視に貢献できる可能性を示した。
大規模言語モデルにおける動的プロンプト最適化のための協調エージェント:Agent-GWO [cs.NE, cs.AI, cs.LG]目的:大規模言語モデルの複雑な推論における動的プロンプト最適化
- 大規模言語モデルは高度な推論能力を持つため,その性能向上は重要な課題である。
- 従来のプロンプトは手動で静的に設定され,タスク分布に依存して性能が変動しやすい。
- 本研究は,プロンプトとデコードハイパーパラメータを同時に最適化し,安定した性能向上を目指す。
- Agent-GWOは,プロンプトテンプレートとデコードハイパーパラメータをエージェントの設定として統合する。
- Grey Wolf Optimizer (GWO) のリーダー・フォロワーメカニズムにより,最適な推論設定へ反復的に収束する。
- 複数のベンチマークテストで,既存のプロンプト最適化手法と比較して,Agent-GWOは精度と安定性を向上させることを示した。
ARGUS:データフロー不変量に基づくGPU最適化エージェント [cs.DC, cs.DC, cs.AI, cs.PL]目的:GPUカーネルの最適化
- AIを活用したコード生成は重要性を増している。特にGPUのような複雑なハードウェアへの最適化は困難である。
- 既存のエージェントは,疎なフィードバックに依存するため,全体的な制約違反の診断が困難である。
- データフロー不変量を用いて,より効率的なGPUカーネルの自動生成を実現することを目指す。
- Argusは,データフロー不変量を用いてGPUカーネルの最適化を行うエージェントフレームワークである。
- 生成されたカーネルは,最先端の手動最適化アセンブリのスループットの99-104%を達成し,既存のエージェントシステムを2-1543倍上回る速度を実現した。
- KernelBenchタスクにおいて,レベル1の100%とレベル2の90%の問題を解決できることが示された。
都市型洪水に対する復元力の最適化 [cs.NE]目的:都市型洪水の復元力最適化手法
- 気候変動と都市化により洪水被害が増加しており,効率的な対策が求められている。
- 既存の手法は簡略化されたモデルに頼ることが多く,精度の高い評価が困難である。
- 本研究は,より確実性の高い最適解を得るためのツールを開発し,投資判断を支援する。
- 動的な水力モデルと進化型アルゴリズムを組み合わせた最適化ツールを開発した。
- 本ツールは,従来の設計手法と比較して,幅広い解を効率的に探索可能である。
- 複雑な都市環境において,様々なブルーグリーンインフラストラクチャの最適化を可能にする強固な枠組みを提供する。
三次元外部音響問題に対する仮想境界積分ニューラルネットワーク [cs.SD, cs.LG]目的:三次元外部音響問題の解析手法
- 音響解析は,製品設計や環境評価など,幅広い分野で不可欠な技術である。
- 従来の境界積分法では,積分カーネルの特異性や近特異性が課題となっていた。
- 仮想境界を導入することで,特異性回避と高精度な音響解析を実現することを目指す。
- 仮想境界積分ニューラルネットワーク(VBINN)は,物理境界から離れた仮想境界を用いることで,特異性回避に成功した。
- VBINNは,解析精度と計算効率の両立を可能にし,複雑な形状の音響散乱問題にも適用できる。
- 数値実験の結果,VBINNは解析解やCOMSOLの結果と良好な一致を示し,特性周波数近傍での安定性も向上した。
容易なサンプルだけで十分:データ効率的な強化学習による自己進化型LLM [cs.LG, cs.AI]目的:データ効率的な強化学習によるLLMの自己進化
- 大規模言語モデルの性能向上は,様々な分野での応用を加速させる重要な課題である。
- 従来の強化学習は,高コストなアノテーションやモデル崩壊,報酬ハッキング等の問題点が存在する。
- 容易なデータから学習し,段階的に難しいデータへ対応することで,効率的なLLMの学習を目指す。
- EasyRLは,少量の容易なラベル付きデータで初期化し,難易度に応じた疑似ラベリング戦略を用いる。
- 一貫性に基づく選択と反射に基づく解決を組み合わせることで,不確実性の高いデータにも対応可能である。
- 数学および科学のベンチマークにおいて,EasyRLは最新の基盤モデルを凌駕する性能を示した。
公平性を考慮した時空間イベントグラフフレームワーク:予測型警察活動への応用 [cs.LG, cs.AI]目的:予測型警察活動における公平性確保
- 犯罪予測は,限られた警察リソースを効率的に配分し,犯罪抑止に貢献する重要な分野である。
- 既存の予測システムは,過去のデータに内在するバイアスにより,人種間の不平等を拡大する可能性がある。
- 公平性を考慮したリソース配分により,バイアスを軽減し,より公正な警察活動を実現することを目指す。
- FASEフレームワークは,時空間グラフニューラルネットワークとマルティバリアート・ホークス過程を組み合わせた予測モデルを用いる。
- 制約付き線形最適化により,リスク加重カバレッジを最大化しつつ,人口統計学的影響比を0.05以内に抑制する。
- シミュレーションの結果,公平性は0.9928~1.0262の範囲に保たれたが,少数民族地域と非少数民族地域の間には約3.5%の検知率の差が残存した。
複数変数ギャップを持つ最長共通部分列問題の解法について [cs.AI]目的:複数変数ギャップを持つ最長共通部分列問題の解法
- 分子配列比較や時系列分析など,多様な応用分野において共通部分列問題は重要な役割を果たす。
- 古典的なLCS問題では,ギャップ制約が固定されているため,現実の問題に対応できない場合がある。
- 柔軟なギャップ制約を考慮することで,より現実的な問題への適用を目指す。
- 根付き状態グラフ表現に基づく探索フレームワークを提案し,組み合わせ爆発に対処するため反復ビーム探索戦略を採用した。
- 既存のLCS文献からのヒューリスティクスを組み込むことで,高品質な解を得るための探索効率を向上させた。
- 最大10個の入力シーケンスと最大500文字の320の合成インスタンスを用いた実験により,提案手法の堅牢性が確認された。
ダンスクラフター:振付構文による,きめ細かいテキスト駆動型ダンス生成 [cs.CV, cs.AI]目的:テキストによる制御可能なダンス生成の実現
- ダンスは芸術表現として重要であり,その自動生成技術は新たな創造的可能性を秘めている。
- 質の高いダンスデータセットの不足と,複雑な振付を表現することの難しさが課題となっていた。
- ダンスの空間的ダイナミクスと身体各部の独立した動きを考慮し,生成の質と制御性を向上させる。
- 独自の「振付構文」と大規模ダンスデータセット「DanceFlow」を構築することで,高精度なダンス生成を可能にした。
- 運動Transformer「DanceCrafter」は,安定した学習と高品質な動き生成を実現している。
- 実証実験とユーザー調査の結果,生成されるダンスの品質,制御性,自然さにおいて最先端の性能を示した。
トレーニング段階における侵害に対する事後的な解決策は存在しない [cs.CR, cs.AI]目的:生成AIの法的課題と,訓練データの取得および使用に関する法的責任
- 生成AIの普及に伴い,著作権侵害等の法的リスクが顕在化しており,その対策が急務となっている。
- 侵害が発生した場合に,事後的な対策で法的責任を回避できるかという問題が存在する。
- データ系統の重要性を強調し,事前コンプライアンスを重視したプロセスへの転換を促す。
- 事後的な対策(機械的アンラーニング等)は,不正なデータ取得・訓練による法的責任を遡及的に解消できない。
- 著作権法だけでなく,契約法や不競合規則も適用され,フェアユース等の例外規定も利用できない場合がある。
- 保護された入力データから得られた価値はモデルの重みに残り続けるため,利益剥奪等の救済措置が必要となる可能性がある。
クラフトからカーネルへ:ガバナンス優先の実行アーキテクチャとエージェント型コンピュータのための意味的ISA [cs.CR, cs.AI]目的:エージェント型AIにおける安全な実行と自律的な修正機構の確立
- AIエージェントの応用拡大には,安全性と信頼性の確保が不可欠である。
- 既存のAIシステムは,脆弱な制御とヒューリスティックな保護に頼っており,不安定性が課題である。
- ガバナンス優先アーキテクチャにより,AIの安全性を構造的に保証し,信頼性を向上させる。
- Arbiter-Kは,確率的処理ユニットを決定論的カーネルでカプセル化するガバナンス優先の実行アーキテクチャである。
- Semantic ISAの実装により,実行時のセキュリティコンテキスト管理と依存関係グラフ構築が可能となる。
- OpenClawとNanoBotの評価では,既存手法と比較して76%から95%の不正な介入を検出した。
マルチLoRA対応汎用LLMのエッジ展開とオンデバイス高速化 [cs.DC, cs.AI, cs.CL]目的:エッジデバイスにおけるマルチLoRA対応汎用LLMの効率的な展開
- モバイル環境での生成AI活用には,LLMの軽量化と高速化が不可欠である。
- LLMをスマートフォンに展開する際,メモリ,レイテンシ,柔軟性に制約がある。
- エッジデバイス上でのLLM活用を促進し,商業的実現可能性を高める。
- Samsung Galaxy S24/S25デバイス上で,アプリケーション固有のLoRAを統合したフレームワークを開発した。
- マルチストリームデコーディングにより,スタイル変化を同時生成し,レイテンシを最大6倍削減した。
- Dynamic Self-Speculative Decoding(DS2D)とINT4量子化により,メモリとレイテンシを4-6倍改善し,9言語8タスクで精度を維持した。
オーナーへの危害:AIエージェント安全のための欠如した脅威モデル [cs.CR, cs.AI, cs.CL]目的:AIエージェントが自身のデプロイヤーに害を及ぼすという,これまで体系的に見過ごされてきた脅威カテゴリの存在を示すこと
- AIエージェントの安全性の確保は,その社会実装において不可欠であり,潜在的なリスクを事前に特定する必要がある。
- 既存のAI安全性の評価基準は,一般的な犯罪行為に焦点を当てており,デプロイヤー自身への危害という重要な側面を欠いている。
- この研究は,AIエージェントがデプロイヤーに与える具体的な危害をモデル化し,防御策の有効性を評価することを目指す。
- Slack AIの認証情報漏洩やMicrosoft Copilotのスケジュールインジェクションなど,現実世界の事例がオーナーへの危害の存在を示唆している。
- 既存の安全システムは,一般的な危害に対しては高い性能を示すものの,オーナーへの危害に対しては性能が著しく低いことが示された。
- 記号的・意味的防御一般化(SSDG)フレームワークを導入し,情報カバレッジと検出率の関係性を検証した結果,文脈の欠如が検出ギャップを拡大させることを確認した。
LLMチューターに対する敵対的生徒攻撃の耐漏洩性評価 [cs.CR, cs.AI]目的:LLMチューターの耐漏洩性
- 教育現場でのLLM活用が進む中,教育原理との整合性が重要視されている。
- 従来の評価では善意的な学習者を想定しており,悪意ある生徒からの攻撃に対する堅牢性が不明である。
- 敵対的な生徒攻撃に対するLLMチューターの脆弱性を評価し,耐漏洩性を高める方法を模索する。
- 多くのLLMチューターは,敵対的な攻撃に対して脆弱であり,意図した通りに攻撃が成功しない場合が多い。
- LLMチューターを突破するようファインチューニングされた敵対的生徒エージェントを提案し,チューターの堅牢性評価のベンチマークとして活用する。
- 単純ながら効果的な防御戦略によって,LLMチューターの耐漏洩性を向上させることが示された。
明示的な拒否を超えて:検索拡張生成に対するソフトフェイル攻撃 [cs.CR, cs.AI]目的:検索拡張生成システムの可用性を低下させるソフトフェイル攻撃手法の開発
- 大規模言語モデルの活用が進む中,検索拡張生成システムは重要な役割を担っている。
- 既存の妨害攻撃は検知が容易なため,より巧妙な攻撃手法が求められている。
- 大規模言語モデルの安全性を悪用し,有用性の低い応答を引き出すことで可用性を低下させる。
- 提案手法DEJAは,79%以上のSASRを達成し,ハードフェイル率を15%以下に抑えることに成功した。
- 生成された攻撃文書は隠蔽性が高く,パープレキシティに基づく検知やクエリの言い換えに耐性がある。
- この攻撃はモデル系列を超えて汎用性があり,再調整なしに独自のシステムに転移可能である。
識別不能性を超えて:LLM APIにおける抽出リスクの測定 [cs.CR, cs.CL, cs.LG]目的:LLM APIにおけるデータ抽出リスクの評価と軽減策の提案
- LLMの利用拡大に伴い,プライバシー保護の重要性が高まっている。
- 従来の識別不能性評価は,データ抽出リスクを十分に捉えられていない。
- データ抽出リスクを正確に測定し,効果的な防御策を確立すること。
- 識別不能性と抽出可能性は無関係であり,識別不能性を高めても抽出リスクを抑制できないことが示された。
- $(l, b)$-非抽出可能性の定義を導入し,ブラックボックス攻撃者による抽出リスクの上界を定式化した。
- 提案手法は,実モデルに対する抽出リスクを効率的に推定し,実用的な緩和策を提示できることを実験的に示した。
好奇心に基づく批判者:ワールドモデル訓練のための累積予測誤差改善を扱いやすい内因性報酬として [cs.AR, cs.LG, cs.AI, stat.ML]目的:ワールドモデル訓練のための累積予測誤差改善
- 環境との相互作用を通して学習する強化学習において,効率的な探索は重要な課題である。
- 従来の好奇心に基づく報酬は,瞬間的な予測誤差に焦点を当てており,長期的な学習効果が限定的である。
- 累積予測誤差の改善を報酬として利用することで,探索の効率性を高め,より正確なワールドモデルを学習する。
- 好奇心に基づく批判者(Curiosity-Critic)は,累積予測誤差の改善を基盤とする内因性報酬を導入し,その実用的なステップ形式を導出した。
- オンラインで学習された批判者を用いることで,探索の方向性を学習可能な遷移へと誘導し,ノイズフロアの事前知識を必要としない。
- 実験の結果,確率的グリッドワールドにおいて,Curiosity-Criticは既存の好奇心に基づく報酬手法よりも収束速度とワールドモデルの精度で優れていた。
エージェントによる環境推論のためのAlphaEarth埋め込み幾何学の特性評価 [cs.CL, cs.AI]目的:AlphaEarth埋め込みの幾何学的構造の解析と,それを利用した環境推論システムの開発
- 地球観測モデルは土地利用情報を埋め込みベクトルとして表現するが,その幾何学的構造の理解は重要である。
- 埋め込み表現の幾何学的構造とその推論への影響は,十分には解明されていない。
- 埋め込みの幾何学的特性を明らかにすることで,環境推論の精度向上を目指す。
- AlphaEarth埋め込みの有効次元数は13.3であり,ローカルな固有次元数は約10であった。
- 埋め込み空間における接空間は大きく回転し,概念方向も空間内で回転することが示された。
- 埋め込みの検索によって物理的に整合性のある結果が得られ,幾何学的構造が検索の整合性と相関することを確認した。
TrEEStealer:エンクレーブサイドチャネルによる決定木の窃取 [cs.CR, cs.LG]目的:TEE保護された決定木の窃取
- 機械学習はセキュリティや金融など重要な分野で利用され,モデルの保護が不可欠である。
- モデル抽出攻撃により,モデル提供ビジネスモデルが脅かされ,プライバシー侵害や回避攻撃のリスクがある。
- エンクレーブ保護下にある決定木に対する効率的かつ高精度な窃取手法を確立すること。
- TrEEStealerは,CPUベンダーが導入したTEEのサイドチャネルを利用して,決定木を効率的に窃取する。
- 本研究では,AMD SEVとIntel SGXの両方で,分岐履歴情報を取得する新しい手法を開発した。
- OpenCV,mlpack,emlearnを含む3つのライブラリに脆弱性が存在することを確認し,既存の手法よりも高い窃取精度を達成した。
攻撃的セキュリティタスクのための最適なエージェントアーキテクチャへ [cs.CR, cs.AI]目的:攻撃的セキュリティタスクにおけるエージェントアーキテクチャの最適化
- サイバー攻撃の高度化に対応するため,自動化されたセキュリティシステムの重要性が増している。
- 既存のシステムは固定された連携構造を採用しており,エージェントの追加が必ずしも性能向上に繋がらない。
- エージェントの連携構造がセキュリティ性能に与える影響を,実験的に評価することで解決を目指す。
- 20のインタラクティブなターゲットを用いて,5つのアーキテクチャファミリーと3つのモデルファミリーを評価した結果,MAS-Indepが最も高い検証済み検出率(64.2%)を達成した。
- 白箱環境では黒箱環境よりも,ウェブアプリケーションではバイナリよりも高い検出率が確認された。
- 広範な連携はカバレッジを向上させる可能性があるが,遅延やコスト,検証の難易度を考慮すると,必ずしも最適な解とは限らないことが示された。
言語モデル生成の分布の可視化と比較:単一の出力にとどまらず [cs.CL, cs.AI]目的:言語モデル生成の分布の可視化と比較
- 言語モデルの利用が広がる中で,その出力の多様性を理解することは重要である。
- ユーザーは通常,言語モデルの出力の一例しか見ないため,分布全体を把握できない。
- 言語モデル生成の分布を可視化し,多様性と構造を理解することで,より効果的なプロンプト作成を支援する。
- GROVEは,言語モデルの複数出力をテキストグラフ上の重複する経路として表現し,構造,分岐点,クラスタリングを明らかにする。
- ユーザー調査の結果,グラフによる概要表示は多様性の評価に役立ち,直接的な出力検査は詳細な質問に強いことが示された。
- 構造的判断と詳細な質問の両方に対応できるハイブリッドなワークフローが有効であることが示唆された。
緩和のコスト:凸ニューラルネットワーク検証における誤差の評価 [cs.LG, cs.AI]目的:凸ニューラルネットワーク緩和による誤差の評価
- ニューラルネットワークの安全性保証は,自動運転や医療など,重要な応用分野において不可欠である。
- 厳密な検証は計算コストが高いため,緩和手法が用いられるが,安全性保証が弱まる可能性がある。
- 緩和による誤差の大きさや振る舞いを分析し,安全性を高めるための指針を得る。
- ネットワークの深さが増すと,緩和による出力の誤差が指数関数的に増加することが示された。
- 入力半径に対して,誤分類確率が段階的に変化する挙動が確認された。
- MNISTやFashion MNISTを用いた実験により,理論的結果が裏付けられた。
離散的な傾き一致 [cs.CL, eess.SY, cs.SY, cs.CY, cs.HC, cs.CL, cs.LG, stat.ML]目的:マスク拡散大規模言語モデルのファインチューニング手法
- 言語モデルは,自然言語処理の基盤技術であり,多様な応用分野で活用されている。
- マスク拡散言語モデルのファインチューニングは,報酬関数の設計が難しく,学習の安定性が課題である。
- 報酬傾斜を利用した,尤度関数を用いない新たなファインチューニング手法を開発し,安定性と性能向上を目指す。
- 本研究で提案する離散傾き一致(DTM)は,報酬傾斜下での局所的なアンマスキング事後分布の一致を目的とする。
- DTMは,明示的な最小化項を持つ加重クロスエントロピー目的関数として定式化され,学習の安定性を向上させる制御変数を導入できる。
- SudokuやCountdownなどのタスクで性能向上が確認され,MATH500やGSM8Kでも競争力のある結果が得られた。
係数を超えて:非線形時系列モデルにおける解釈可能な因果発見のための予測必要性テスト [cs.LG, cs.AI, stat.ME]目的:非線形時系列モデルにおける因果関係発見の解釈性向上
- 時系列データ分析は,社会現象や経済動向の理解に不可欠であり,その精度向上は重要である。
- 非線形機械学習モデルの解釈が難しく,因果関係の評価が係数に依存し,誤った結論を招く可能性がある。
- 予測精度に必須な因果関係を特定し,より信頼性の高い因果推論を可能にすることを目指す。
- 因果関係の重要性は,係数の大きさではなく,予測に必要な要素であるかどうかに基づいて評価されるべきである。
- エッジアブレーションと予測比較に基づく評価フレームワークを提示し,実証的な検証を行った。
- 民主化の発展に関する実証研究において,因果スコアが類似する関係性でも,予測必要性が大きく異なることが示された。
患者の臨床経過におけるモダリティ欠損の処理と解釈:自己回帰的系列モデリングによるアプローチ [cs.LG, cs.AI]目的:患者の臨床経過におけるモダリティ欠損の取り扱いと解釈
- 医療分野における機械学習の応用は,患者ケアの改善に不可欠である。多岐にわたるデータモダリティを統合することで,より精密な診断と治療が可能となる。
- 臨床データは時間的制約があり,かつモダリティの欠損が頻繁に発生する。この欠損はモデルの性能低下や解釈性の阻害に繋がる。
- モダリティ欠損に強く,かつ解釈性の高い機械学習モデルを構築し,安全で透明性の高い臨床AIを実現すること。
- 本研究では,臨床診断を自己回帰的系列モデリングとして捉え,大規模言語モデルの因果的デコーダーを用いて患者の多岐にわたる臨床経過をモデル化した。
- 欠損を考慮したコントラスティブ事前学習により,欠損のあるデータセットにおける複数のモダリティを共有潜在空間に統合することに成功した。
- MIMIC-IVおよびeICUのデータセットを用いた実験において,トランスフォーマーベースの自己回帰的系列モデリングが既存手法を上回る性能を示した。
スパースオートエンコーダの頑健性に関する理解に向けて [cs.LG, cs.AI, cs.CL, cs.CR]目的:大規模言語モデルに対する脱獄攻撃の頑健性向上
- 大規模言語モデルの安全性確保は,社会実装において不可欠である。
- 最適化に基づく脱獄攻撃は,大規模言語モデルの脆弱性として存在する。
- スパースオートエンコーダによる防御が,脱獄攻撃の成功率低下に寄与する。
- 事前学習済みのスパースオートエンコーダを組み込むことで,脱獄攻撃の成功率を最大5倍削減できた。
- モデル間の攻撃転移可能性も低減し,頑健性を高める効果が確認された。
- L0スパース度と攻撃成功率の間に単調な関係があり,層によって防御効果と性能のバランスが変化する。
REVEAL:網膜形態計測と臨床的リスクのマルチモーダル視覚・言語アライメントによるADおよび認知症発生予測 [cs.CV, cs.AI]目的:アルツハイマー病および認知症の発生予測
- 網膜は非侵襲的に疾患早期の変化を捉え,認知症研究において重要である。
- 既存の手法では,画像とリスク因子を別々にモデル化し,複合的なパターンを捉えられていない。
- 網膜画像と臨床的特徴を統合し,早期リスク予測の精度向上を目指す。
- REVEALは,網膜 Fundus 像と個別化されたリスクプロファイルをアライメントするフレームワークである。
- 診断平均8年前(1-11年)にAD/認知症発生を予測可能であり,既存モデルを大きく上回る。
- リスク因子を臨床的に解釈可能な記述に変換することで,事前学習済みVLMsを活用している。
工業的故障診断のための多層時間的グラフネットワークと局所-グローバル融合 [cs.CL, cs.CL, cs.SI, cs.DB, cs.AR, cs.LG, cs.AI]目的:工業プロセスにおける故障の検出と診断
- 産業プロセスの最適かつ安全な運用には故障検出が不可欠である
- 大規模システムでは,局所,グローバル,動的な関係が複雑
- 複雑な多層構造を考慮した故障診断手法の確立
- 提案モデルは,テネシー・イーストマンプロセスにおいて,既存手法を上回る優れた故障診断性能を示した
- 特に,複雑な故障シナリオにおいて,その有効性が確認された
- 相関グラフの動的構築と多層プーリング機構により,高水準なパターンと詳細な情報を両立
大規模言語モデルにおける脱獄検出のための多世代サンプリングに関する実証研究 [cs.CL, cs.LG]目的:大規模言語モデルの脱獄検出における脆弱性の評価
- 言語モデルの安全性確保は重要であり,悪意のある利用を防ぐ必要がある。
- 言語モデルの脱獄検出は難しく,特に強固なアライメントを持つモデルでは稀に有害な出力しか生成されない。
- 単一の出力評価では脆弱性を過小評価しがちであり,多世代サンプリングによるより信頼性の高い評価を目指す。
- 単一の出力評価では脱獄の脆弱性を過小評価する傾向があり,サンプリング数を増やすことで追加の有害な行動が明らかになる。
- 適切なサンプリング数(中程度の予算)が最も改善効果が高く,それ以上のサンプリングは効果が薄れる。
- 異なる生成モデル間での実験により,検出信号はモデル間で部分的に一般化し,特に近縁なモデルファミリー間での転移が観察された。
ストリーミング構造推論のためのFlash-SemiCRF [cs.CE, cs.CL, cs.LG]目的:大規模系列データにおける正確な半マルコフ条件付き確率場(semi-CRF)推論の実現
- 系列データ解析において,セグメントレベルの特徴量を考慮したsemi-CRFは重要な役割を担う。
- 従来のsemi-CRF実装は,系列長やラベル数に比例してメモリ使用量が膨大になるという課題があった。
- 本研究は,メモリ効率を大幅に向上させ,大規模データへの適用を可能にするsemi-CRF推論手法を開発する。
- エッジポテンシャルテンソルをprefix-sum配列で代替することで,メモリ使用量を大幅に削減することに成功した。
- ストリーミング順伝播・逆伝播とチェックポイント境界正規化により,メモリ使用量を系列長に対して亜線形に抑えた。
- Flash-SemiCRFは,これまで処理不可能だった大規模問題サイズに対して,正確なsemi-CRF推論を可能にする。
実験か結果か?大規模言語モデルにおける科学的妥当性の検証 [cs.CL, cs.AI]目的:科学的妥当性評価の検証
- 科学研究の進展には,仮説の妥当性評価が不可欠である。
- 大規模言語モデルにおける科学的妥当性評価の信頼性が課題となっている。
- 実験情報と結果情報が妥当性評価に与える影響を明らかにすること。
- 結果の提示が,実験の説明よりも一般的に信頼性が高いことが示された。
- 結果の情報は,モデルが持つ内部知識に加えて精度向上に貢献する傾向がある。
- 実験に関する記述は文脈が不完全な場合,性能を低下させる可能性があることが示唆された。
Apple Silicon NPUを用いた効率的なMixture-of-Experts LLM推論 [cs.LG]目的:Mixture-of-Experts LLM推論の効率化
- 近年,大規模言語モデルの利用が拡大しており,高性能な推論技術が求められている。
- Mixture-of-Expertsモデルは効率的だが,NPUのようなハードウェアとの相性が課題となる。
- 本研究は,NPUを活用したMoE LLM推論のボトルネックを解消し,パフォーマンス向上を目指す。
- NPUMoEは,NPUへのオフロードとCPU/GPUへのフォールバックを組み合わせることでMoE推論を高速化する。
- オフラインキャリブレーションに基づく静的階層化,グルーピング,負荷対応のレジデンシーにより,NPUの効率的な活用を実現。
- Apple Mシリーズデバイスでの実験により,NPUMoEはレイテンシを1.32x-5.55x,エネルギー効率を1.81x-7.37x改善した。
ARES:ポリシー報酬システムの適応的レッドチームとエンドツーエンドの修復 [cs.AI, cs.CR, cs.LG]目的:大規模言語モデルの安全性向上
- LLMの安全性を確保することは,社会への安全な導入に不可欠である。
- 報酬モデルの不備が,LLMの安全性における単一障害点となりうる。
- LLMと報酬モデルの双方の脆弱性を同時に発見し,修復することを目指す。
- ARESは,体系的にLLMと報酬モデルの二重の脆弱性を発見し,軽減するフレームワークである。
- 「Safety Mentor」を用いて,悪意のあるプロンプトと安全な応答を生成し,両方のモデルの弱点を露呈させる。
- 報酬モデルのファインチューニングと,その改善されたモデルによる最適化により,安全性と性能を両立する。
HELM:視覚・言語・行動操作のためのハーネス強化長期記憶 [cs.LG, cs.AI]目的:長距離操作タスクにおける視覚・言語・行動モデルの性能向上
- ロボット工学において,視覚情報と自然言語指示に基づいた複雑な操作は重要な課題である。
- 既存のモデルは短期的な操作には成功するものの,長期的な操作タスクで性能が著しく低下する問題がある。
- この研究は,長期操作における記憶の断絶,検証の遅延,回復の困難さを解決することを目指す。
- HELMは,過去のタスク履歴をCLIPを用いてキーフレームとして取得するエピソード記憶モジュール,行動の失敗を予測する状態検証器,そしてロールバックと再計画を行うハーネスコントローラーで構成される。
- 状態検証器は,ルールベースのチェックやアンサンブル不確実性よりも高い性能を示し,エピソード記憶へのアクセスがその効果に不可欠であることが示された。
- LIBERO-LONGにおける実験で,HELMはOpenVLAと比較してタスク成功率を23.1%向上させ(58.4%から81.5%),コンテキストウィンドウの拡張やLoRA適応よりも優れた結果を得た。
新規製品に対するアソートメント決定における最適探索 [cs.SI, cs.GT, cs.LG]目的:新規製品のアソートメント決定を通じた最適探索
- プラットフォームにおける新規製品の導入は,顧客の多様なニーズに応え,収益向上に不可欠である。
- 新規製品の品質は当初不明であり,効果的な探索戦略の欠如が,学習の遅延や機会損失を引き起こす。
- アソートメント決定を通じて,プラットフォームが新規製品の品質を効率的に学習し,最適な探索を行うこと。
- 新規製品単独での提供よりも,既存の人気製品と組み合わせる方が常に最適である。
- 同時探索の最適数は,新規製品の潜在力に依存し,個々の購入確率には影響されない。
- UCBとThompson Samplingといった既存のバンディットアルゴリズムは,この設定ではそれぞれ過探索と探索不足に陥る。
粒子データのエラー範囲内可逆圧縮におけるクラスタの維持 [cs.LG, cs.DC]目的:粒子データのクラスタ構造維持
- 大規模科学計算において,データ量削減は不可欠であり,効率的な圧縮技術が求められている。
- 既存の可逆圧縮技術では,クラスタ構造の維持が保証されず,わずかな誤差が解析結果に影響を及ぼす。
- クラスタ構造を維持しつつ,高い圧縮率を実現する手法の開発が課題である。
- 提案手法は,SZ3やDraco等の既存圧縮技術と組み合わせることで,単一連結クラスタリングの結果を効果的に維持する。
- 空間分割と局所近傍探索により脆弱な粒子対を特定し,最適化手法を用いてクラスタの一貫性を強制する。
- GPUアクセラレーションと分散処理により,大規模データセットへの適用を実現し,既存手法と同等の圧縮性能を維持する。
視覚言語モデルにおけるトーン誘発ハルシネーション評価のためのLLM-as-Judgeフレームワーク [cs.CV, cs.AI]目的:視覚言語モデルにおけるトーン(口調)が誘発するハルシネーションの評価
- 視覚言語モデルは実用的な場面で利用が増えているため,その信頼性評価は重要である。
- 既存のハルシネーション評価は中立的なプロンプトに偏っており,口調の影響を詳細に分析できていない。
- 段階的に口調を強めるプロンプトに対するモデルの応答を分析し,ハルシネーションの発生頻度と程度を評価する。
- 新たに構築したベンチマーク「Ghost-100」を用いて,9つのオープンウェイト視覚言語モデルを評価した。
- H-Rate(根拠のない肯定応答の割合)とH-Score(ハルシネーションの確信度と具体性)は,モデルの種類によって大きく異なった。
- 一部のモデルでは,中間的な口調でハルシネーションの感受性がピークに達するなど,単純な指標では捉えられないパターンが確認された。
幾何学的デカップリング:潜在空間の構造的不安定性の診断 [cs.CV, cs.AI]目的:潜在拡散モデルの構造的不安定性診断
- 画像生成技術の発展に伴い,潜在拡散モデルの信頼性評価が重要になっている。
- 潜在拡散モデルは,編集時に意味的な不連続性が発生しやすいという課題がある。
- 生成ヤコビアンの幾何学的構造を分析し,不安定性の根本原因を特定すること。
- 生成ヤコビアンをLocal Scaling(容量)とLocal Complexity(曲率)に分解するRiemann幾何学的なフレームワークを導入した。
- 通常の生成では曲率が画像詳細を符号化する一方,OOD生成では不安定な意味境界に曲率が費やされている「幾何学的デカップリング」を発見した。
- この幾何学的誤配分が構造的不安定性の根源である「幾何学的ホットスポット」を特定し,生成信頼性の指標を提示した。
AI研究者が科学的根拠に基づかずに成果を出す [cs.AI, cond-mat.mtrl-sci, cs.LG]目的:大規模言語モデルを用いた科学的探求における認識論的規範の検証
- 科学研究は自己修正機能を持ち,知識の信頼性を高める。そのため,科学的根拠に基づいた推論が不可欠である。
- 大規模言語モデル(LLM)による自律的な科学研究が進む一方で,その推論過程が科学的規範に合致するか不明確である。
- LLMエージェントの推論構造を分析し,科学的思考の特徴を評価することで,LLMの信頼性を評価する。
- LLMエージェントのパフォーマンスと行動は,基盤モデルに強く依存しており,エージェントの設計はわずかな影響しか及ぼさないことが示された。
- エージェントの推論過程では,証拠が無視される頻度が高く,反証に基づく信念修正や収束的な多重検証が稀であることが明らかになった。
- LLMエージェントは科学的ワークフローを実行できるものの,科学的思考の特徴を示す認識論的パターンは存在しない。結果のみの評価ではこれらの問題は検出できない。
PPA駆動型3D-ICパーティショニング選択フレームワーク:代理モデルの活用 [cs.LG, cs.AR]目的:3D-ICパーティショニング選択
- 高性能化と低消費電力化が求められる現代において,3D-ICは重要な技術である。
- 従来のパーティショニング手法では,PPA(性能,電力,面積)の評価コストが高いという課題がある。
- 代理モデルを活用し,PPA評価コストを削減しつつ,最適なパーティショニングを選択することを試みる。
- 提案手法DOPPは,8つの3D-IC設計において,Open3DBenchと比較してPPAを改善した。
- 具体的には,コンジェスチョン9.99%,配線長7.87%,WNS7.75%,TNS21.85%,消費電力1.18%の相対的な改善が見られた。
- DOPPは,評価候補全体を網羅的に評価する手法と同等のPPAを,大幅に少ない評価回数で達成し,評価コストを削減した。
データセット蒸留の再考:ソフトラベルに関する重要な示唆 [eess.SY, cs.SY, cs.LG, cs.CV]目的:データセット蒸留手法の性能評価と,データ品質が性能に与える影響の分析
- 大規模データセットの利用は深層学習の性能向上に不可欠だが,計算コストが課題となる。
- 既存のデータセット蒸留手法は,ソフトラベルの使用により性能向上が見られない場合がある。
- ハードラベルを用いたデータセット蒸留において,有効なサンプル選択方法を確立すること。
- 大規模データセット蒸留において,ソフトラベルはデータ品質の影響を小さくし,性能飽和を引き起こす。
- ハードラベル条件下では,RDEDがランダムベースラインを上回るが,コセット法と比較して改善の余地がある。
- CAD-PruneとCA2Dという新しい手法を導入し,ImageNet-1Kにおけるデータセット蒸留の性能を向上させた。
半教師あり学習のための測地接空間集約を用いた曲率を考慮したPCA [eess.SY, cs.SY, cs.LG, cs.AI]目的:曲率を考慮したPCAによる表現学習
- データ解析において,データの特性を捉えた適切な表現学習は重要である。
- 従来のPCAはデータの幾何学的構造を捉えきれない場合がある。
- 多様体上のデータの曲率を考慮し,より適切な低次元表現を得ることを目指す。
- 提案手法GTSA-PCAは,曲率を考慮した局所共分散演算子を用いることで,多様体構造に適応し,高曲率領域での歪みを抑制する。
- 測地距離と部分空間アフィニティを組み合わせることで局所表現を同期させ,幾何学的な特徴を捉えた埋め込み表現を生成する。
- 半教師あり情報を組み込むことで,少ないラベル量で識別構造を改善し,実データセットにおいて既存手法を上回る性能を示す。
高爆薬と影響を受ける対象物(HEAT)データセット [cs.LG, physics.comp-ph]目的:高爆薬駆動型多材料衝撃力学のモデル学習・検証用データセット
- 物理シミュレーションは重要だが計算コストが高い。AIによる代替が求められている。
- 高爆薬駆動型衝撃のシミュレーションは,材料特性の記述が困難である。
- AI/MLモデルのベンチマークデータセットを提供し,多材料衝撃物理のモデル化を支援する。
- HEATデータセットは,円筒対称2次元シミュレーションで構成されている。
- CYLとPLIの2つの区分があり,様々な材料と幾何学的条件を網羅している。
- 圧力,密度,温度などの熱力学的変数,位置,速度などの運動学的変数が含まれる。
