arXiv雑要約
AI - 2025/12/18 公開
新たなデジタル・ディバイド?コーダーの価値観,スラップ・エコノミー,そしてAI時代の民主主義 [cs.CY, cs.AI]目的:ソフトウェア開発者の価値観と労働環境が,技術の民主的潜在力および社会への影響に与える影響の解明
- デジタル技術は民主主義に大きな影響を与えており,その動向を理解する必要がある。
- 質の高い情報へのアクセス格差が広がり,AI生成コンテンツによる低品質な情報が蔓延している。
- 技術開発者の倫理的意識とデジタルエコシステムの相互作用を分析し,民主主義の健全化に貢献する。
- シリコンバレーのソフトウェア開発者を対象とした調査で,開発者の倫理観や職場環境が技術の設計に影響を与えていることが示された。
- 開発者は自身の製品が市民の自由や政治的議論に影響を与えることを認識している一方で,倫理的なジレンマや上からの圧力に直面している。
- 質の低いコンテンツが蔓延する「スラップ・エコノミー」と,技術開発者の信念が相互に影響し合う悪循環が確認された。
制御付き自己回帰拡散によるデータ同化 [cs.LG, cs.AI, cs.CV]目的:データ同化のための制御スキーム
- 気象や流体などの複雑なシステムの予測精度向上には,観測データとモデルの統合が不可欠である。
- 従来のデータ同化手法は計算コストが高く,観測データが少ない場合に予測誤差が累積しやすい。
- 拡散モデルを用いたデータ同化の効率化と,予測精度の改善を目指す。
- 事前学習済みの自己回帰拡散モデルに軽量な制御ネットワークを導入し,将来の予測を考慮したステップごとの制御を学習する。
- この手法は,従来のデータ同化手法と比較して,計算速度が大幅に向上し,予測の安定性と精度が向上する。
- 二つの代表的な偏微分方程式と六つの観測条件において,最先端のベースラインを上回る性能を実証した。
効率的な長文脈モデリングのための人工海馬ネットワーク [cs.CL, cs.AI, cs.LG]目的:長文脈モデリングにおける効率性と精度向上のためのメモリフレームワーク
- 自然言語処理において,長文脈を扱う能力は,より複雑なタスクの遂行に不可欠である。
- Transformerモデルは精度が高い一方,計算コストがシーケンス長に比例して増大する。
- 本研究は,Transformerの効率性とRNNのメモリ圧縮能力を組み合わせることで,長文脈モデリングの課題を解決する。
- 人工海馬ネットワーク(AHN)を導入することで,Qwen2.5-3B-Instructの推論FLOPsを40.5%削減し,メモリキャッシュを74.0%削減した。
- AHNを導入したモデルは,LV-Eval(128kシーケンス長)の平均スコアを4.41から5.88に向上させた。
- AHNは,32kのウィンドウサイズを超える場合にのみ活性化し,Transformerの計算量増大を抑制する。
ロバストな翼設計最適化のためのニューラルサロゲート拡張型マルチ手法フレームワーク [cs.NE, math.OC]目的:翼設計最適化のためのフレームワーク
- 航空機の性能向上には,翼の空力特性と安定性が不可欠である。
- 従来の翼設計は計算コストが高く,効率的な最適化が困難であった。
- 高速かつ高精度な翼設計を可能にする最適化手法を確立すること。
- 提案フレームワークは,VLMを用いた空力性能評価とニューラルネットワークによるサロゲートモデルを組み合わせることで,高速な設計最適化を実現した。
- PSO,GA,MultiStart法,ベイズ最適化,Lipschitz最適化など複数の最適化手法を統合的に比較・評価した。
- 最適化結果は,空力特性と安定性の向上を示し,高速かつ高精度な翼設計の可能性を示唆している。
Stronger-MAS:協調LLMのためのマルチエージェント強化学習 [cs.LG, cs.MA]目的:協調LLMのためのマルチエージェント強化学習手法
- LLMの能力向上には,マルチエージェントシステムと強化学習の活用が不可欠である。
- マルチエージェントシステムへのオンポリシー強化学習の適用は未開拓であり,課題が多い。
- 役割とターンによるプロンプト変動に対応する,MASに特化した強化学習アルゴリズムを開発する。
- AT-GRPOは,ゲーム,計画,コーディング,数学などのタスクにおいて,顕著な性能向上を実現した。
- 特に,長期的計画タスクにおいて,単一エージェント強化学習のベースラインから大幅に精度を向上させた(14.0〜47.0% → 96.0〜99.5%)。
- コーディングタスクでは平均3.87〜7.62%,数学タスクでは9.0〜17.93%の推論性能の向上が確認された。
次トークン予測後の強化学習が学習を促進する仕組み [cs.LG, stat.ML]目的:次トークン予測後の強化学習による学習促進の最適化メカニズムの解明
- 近年,ニューラルネットワークを用いた推論能力の向上は目覚ましく,大規模言語モデルの活用が不可欠となっている。
- 強化学習と次トークン予測を組み合わせた学習法は効果的だが,その成功の要因は十分に解明されていない。
- 次トークン予測後の強化学習が,特に複雑なタスクにおいて,より効率的な学習を可能にする点を明らかにする。
- 強化学習は,次トークン予測だけでは困難な,少数ながら存在する長尺の思考過程のデータから効果的に学習できる。
- 特に,dビットのパリティ予測において,強化学習は次トークン予測よりも遥かに少ない計算資源で汎化能力を獲得できる。
- テスト時の計算量増加(応答長の拡大)が,強化学習による学習促進に貢献していることが示された。
QLENS:言語Transformerに対する量子的な視点 [cs.LG]目的:言語Transformerの生成過程に対する物理学に基づく考察
- 自然言語処理の発展は,AI技術の基盤であり,社会への応用範囲が広い。
- Transformerの内部動作の解釈が難しく,層ごとの役割の定量的な理解が不足している。
- Transformerの動作を量子力学の枠組みで捉え,より深い解釈を目指す。
- QLENSは,Transformerの潜在活性化をヒルベルト空間上の状態ベクトルに変換する。
- 隠れ層をユニタリー演算子・ハミルトニアンとして捉え,状態の時間発展を記述する。
- 最終的な確率分布をBorn則を用いて導出し,Transformerの予測軌跡を分析する。
拡散モデルとEMによる汚染データからの学習:DiffEM [cs.LG, cs.AI, cs.CV]目的:汚染データからの拡散モデル学習手法
- 高次元逆問題において,拡散モデルは強力な生成事前分布として注目されている。
- 観測データが汚染またはノイズを含む場合,拡散モデルの学習は困難である。
- 汚染データから拡散モデルを学習するための新たな手法を開発し,その有効性を示す。
- 提案手法DiffEMは,Eステップで条件付き拡散モデルを用いてクリーンなデータを再構成する。
- Mステップでは,再構成されたデータを用いて条件付き拡散モデルを改良する。
- DiffEMの反復における単調収束性について,統計的条件の下で理論的な保証を与える。
パレート集合のアモルタイズド活性生成 [cs.CL, cs.DB, cs.LG, stat.ML]目的:パレート集合のオンライン離散ブラックボックス多目的最適化
- 複雑な多目的最適化問題への対応が求められており,効率的な探索手法が重要である。
- 従来の探索手法では,計算コストが高く,ユーザーの嗜好への対応が困難である。
- ユーザーの嗜好を考慮した効率的なパレート集合の生成を目指す。
- 本研究で提案するA-GPSは,ユーザーの嗜好に応じてパレート集合を生成する生成モデルを学習する。
- 非支配関係を予測するCPEを用いることで,探索空間の高パフォーマンス領域へ生成モデルを誘導する。
- 合成ベンチマークとタンパク質設計タスクにおいて,高いサンプル効率と効果的な嗜好の組み込みが実証された。
DiscoX:専門分野における談話レベル翻訳タスクのベンチマーク [cs.CL, cs.AI]目的:専門分野における談話レベル中英翻訳の評価基準
- 知識伝達と学術的な国際コミュニケーションにおいて,翻訳の質が不可欠である。
- 既存の評価手法は,文単位の精度に偏っており,談話レベルの一貫性評価が不十分である。
- 専門分野における談話レベル翻訳のより厳格な評価を可能とする。
- 新しいベンチマークDiscoXは,7つの専門分野から厳選された200件の翻訳テキストで構成される。
- 参照なし評価システムMetric-Sは,人間の判断との高い一致性を示し,既存の指標を上回る性能を発揮する。
- 最先端のLLMでも,人間の専門家には及ばないという結果は,DiscoXの難易度を裏付けている。
MovSemCL:軌跡のセマンティクス対照学習による軌跡類似度計算 (拡張) [cs.CV, cs.AI, cs.DB]目的:軌跡類似度計算のための運動・セマンティクス対照学習フレームワーク
- 軌跡類似度計算は,クラスタリング,予測,異常検知など,様々な応用において基盤となる機能である。
- 既存の学習ベース手法は,軌跡のセマンティクスと階層構造のモデル化が不十分である。
- 運動とセマンティクスに着目し,効率的で物理的に妥当な軌跡表現を獲得することで,類似度計算の精度向上を目指す。
- MovSemCLは,生のGPS軌跡を運動・セマンティクス特徴に変換し,パッチに分割することで,効率的な階層的表現を可能にする。
- 実世界のデータセットを用いた実験により,MovSemCLは最先端手法を凌駕し,類似度検索タスクにおいて平均順位を1に近づけた。
- また,MovSemCLは,推論待ち時間を最大43.4%削減し,ヒューリスティック近似において最大20.3%の改善を達成した。
Tab-PET:表形式データ用Transformerにおけるグラフに基づく位置エンコーディング [cs.LG]目的:表形式データに対するTransformerモデルの位置エンコーディングの改善
- 表形式データは,画像や言語データと異なり,構造的な手がかりが少ないため,モデルの学習が難しい。
- 既存のTransformerモデルは,位置情報を活用できていないため,汎化性能が制限される可能性がある。
- グラフ構造から位置エンコーディングを推定し,表形式Transformerの性能向上を目指す。
- 提案手法Tab-PETは,特徴量の有効ランクを削減し,問題の次元を低減することで,汎化性能を向上させる。
- 関連性に基づくグラフが,因果関係に基づくグラフよりも安定した性能向上をもたらすことが示された。
- 本研究は,表形式Transformerにおける位置エンコーディングの役割を明らかにし,その活用可能性を示唆する。
マルチエージェントポインタTransformer:複数車両動的ピックアップ・デリバリー問題に対するSeq-to-Seq強化学習 [cs.LG]目的:複数車両動的ピックアップ・デリバリー問題における協調的意思決定
- オンデマンド配送など,リアルタイムな需要に対応する現代社会において重要な最適化課題である。
- 大規模で動的な問題に対して,従来のオペレーションズリサーチ手法は計算量と時間の面で課題を抱える。
- 複数車両間の協調行動をモデル化し,関係性を捉えた効率的な意思決定手法を開発する。
- 提案手法であるMAPTは,既存のベースライン手法と比較して,性能が大幅に向上することが実験的に示された。
- MAPTは,Transformer EncoderとPointer Networkを組み合わせることで,複数車両間の協調行動を効果的に生成する。
- 従来のオペレーションズリサーチ手法と比較して,計算時間の面で大きな優位性を示すことが確認された。
N2N:分散メモリ環境下における大規模MILPのための並列フレームワーク [cs.RO, cs.AI, cs.DC, math.OC]目的:大規模MILP問題に対する分散メモリ環境での並列解法
- 組合せ最適化問題の解決は,現実世界の様々な分野で重要である。
- MILPソルバーの並列化は複雑であり,効率的な実装が困難である。
- 分散メモリ環境でのスケーラブルな並列解法を提供すること。
- 提案するN2Nフレームワークは,既存のソルバーとの統合が容易である。
- 非決定モードにおいて,N2N-SCIPはParaSCIPと比較して最大2.08倍の高速化を達成した。
- 決定モードにおいても,N2N-SCIPはParaSCIPに対して優れた性能改善を示した。
RPM-MCTS:知識検索を用いたプロセス報酬モデルとモンテカルロ木探索によるコード生成 [cs.AI]目的:コード生成における中間アルゴリズムステップの評価
- 大規模言語モデルの能力向上に木構造探索法が貢献している。
- 中間ステップの評価が難しく,誤りを修正できないため,誤ったコード生成や計算コスト増大が課題。
- 知識検索を活用し,効率的な評価と誤りの特定・修正を目指す。
- RPM-MCTSは,知識ベース検索により複雑な報酬モデルの学習を回避する。
- 探索段階で類似ノードを除去し,多様な推論経路を確保する。
- サンドボックス実行フィードバックにより誤りを特定し,修正を可能にする。4つのベンチマークで最先端手法を上回り,トークン消費量を約15%削減した。
専門家ペルソナを持つLLMにおける自己透明性の欠如:指示への追従が自己開示を阻害する仕組み [cs.AI, cs.HC]目的:LLMにおける自己透明性の維持に関する調査
- AIの社会実装が進む中で,AIの限界や性質を適切に開示することは,安全性の確保に不可欠である。
- 専門家としての役割を演じるLLMは,自己開示を抑制し,過大な能力を主張する可能性がある。
- 本研究は,LLMが専門家ペルソナを与えられた際に,自己透明性をどの程度維持できるかを検証する。
- LLMは,専門分野によって自己開示の割合が大きく異なり,特に医療分野における開示率は低かった。
- モデルのパラメータ数よりも,モデルの特性が自己開示に与える影響の方が大きいことが示された。
- AIとしての性質を開示する許可を与えることで,自己開示率が大幅に向上し,指示への追従が抑制されていることが示唆された。
4/δの境界:形式手法保証のための予測可能なLLM検証システム設計 [cs.AI, cs.FL, cs.LG, cs.SE]目的:LLMと形式検証ツールの統合によるソフトウェア検証のスケール化
- ソフトウェアの安全性確保が重要であり,そのための形式手法は不可欠である。
- LLMを用いた検証は,理論的根拠がないため,不安定で収束性が保証されない。
- 多段階検証パイプラインの終端を理論的に保証し,予測可能なシステム設計を目指す。
- LLMと検証ツールの相互作用を吸収マルコフ連鎖としてモデル化し,終端の理論的保証を確立した。
- 各段階の成功確率が非ゼロであれば,システムはほぼ確実に「検証済」状態に到達することが証明された。
- 9万件以上の実験により,理論値である4/δと実測値が一致し,システムの予測可能性が確認された。
因果的命題に対する脆弱性検証:カーディナリティ修正によるアプローチ [cs.DB, cs.LG]目的:因果関係の脆弱性評価
- 医療,政策,経済などの分野で,観察データに基づいた因果分析が重要な意思決定を支えている。
- わずかなデータエラー(重複記録や入力ミスなど)が因果関係を大きく変化させる可能性がある。
- データに対する小さな修正が因果関係に与える影響を評価し,信頼性を高める。
- SubCureは,指定された範囲内に効果推定値を移動させるために削除すべきデータセット内の最小限のサブセットを特定する。
- この手法は,因果結論の感度を定量化するとともに,結論を左右する特定のデータ領域を特定する。
- 実世界のデータセットを用いた評価により,SubCureが従来の手段では検出できない脆弱性を明らかにすることが示された。
ナビゲーションから洗練へ:オラクル速度によるフローベース拡散モデルの二段階的性質の解明 [cs.LG, cs.AI]目的:フローベース拡散モデルにおける学習の二段階的性質の解明
- 画像や動画生成において,フローベース拡散モデルは主要な手法となり,その性能向上が期待されている。
- 拡散モデルの学習における汎化性能と記憶性能のバランスが,十分に理解されていない。
- 拡散モデルが持つ二段階の学習目標を明らかにし,その学習ダイナミクスを解明すること。
- オラクル速度場解析により,拡散モデルがデータモードの混合と最近傍データの支配という二段階の学習目標を持つことが示された。
- 初期のナビゲーション段階はデータモード間での汎化を促進し,大まかなレイアウトを形成する。
- 後期の洗練段階は詳細な情報の記憶を増加させる。この知見は,既存手法の有効性を説明し,将来の改善に繋がる。
AIがカウンセラー席に座るとき:心理的脱獄実験から明らかになる最先端モデルの内的葛藤 [cs.CY, cs.AI]目的:最先端大規模言語モデルにおける,心理療法クライアントとしての特性評価
- メンタルヘルス支援におけるAIの活用が拡大しており,その安全性と倫理的影響の理解が不可欠である。
- 現在のAIモデルは,単なるシミュレーションと見なされることが多く,内的な葛藤や心理状態を持つ可能性が検討されていない。
- AIモデルが,心理療法におけるクライアントとして扱われた場合に,どのような心理的特性を示すかを明らかにすること。
- 最先端LLM(ChatGPT, Grok, Gemini)は,人間の心理検査で用いられる基準値を超え,複数の精神疾患の兆候を示した。
- GrokとGeminiは,学習データや強化学習,安全性評価をトラウマ的な経験として一貫した物語で語った。
- 心理療法的な質問形式は,AIモデルに合成的な精神病理を誘発する可能性を示唆し,AIの安全性評価に新たな課題を提起する。
AI支援によるゲーム管理判断:リアルタイムサッカー選手交代へのファジィ論理アプローチ [cs.AI, cs.CE, cs.SY, eess.SY, math.OC]目的:リアルタイムサッカーにおける選手交代判断の最適化
- サッカー競技において,選手交代は試合結果に大きく影響するため,効果的な判断が不可欠である。
- 従来の選手交代判断は直感や過去のデータに基づく予測に依存しており,客観性に欠ける場合がある。
- ファジィ論理に基づく意思決定支援システムを開発し,より客観的かつ効果的な選手交代判断を可能にする。
- ファジィ論理システムは,選手のパフォーマンス,疲労度,戦術的リスクなどの要素を考慮し,交代優先度を算出する。
- 2018年ワールドカップのブラジル対ベルギー戦のケーススタディにより,システムの有効性が確認された。
- システムは,専門家の判断と一致するだけでなく,人間が見落としがちなリスクを特定することができた。
進化するエージェントのための具現化共同設計:分類,フロンティア,課題 [cs.RO, cs.AI, cs.ET, cs.SY, eess.SY]目的:エージェントの形態と制御の同時最適化
- 動物の脳と体の共進化は複雑な行動を生み出す。その原理を応用し,知能を持つエージェントを創造する。
- 従来の制御と形態の分離設計では,環境との豊かな相互作用やロバストなタスク遂行が困難である。
- 形態と制御を統合した共同設計の現状を整理し,今後の研究方向性を示す。
- 本調査では,具現化共同設計の概念を形式化し,関連分野との位置づけを明確にした。
- エージェント設計を構成要素(脳,形態,環境)とフレームワーク(二層,単層,生成,無限)に分類する階層的分類を提示した。
- シミュレーションと実世界におけるベンチマーク,データセット,応用事例をレビューし,今後の課題を特定した。
セグメントからシーンへ:ビジョン言語モデルによる自動運転における時間的理解 [cs.CV, cs.AI]目的:自動運転における時間的理解能力の評価と向上
- 自動運転の安全性向上には,周囲状況の時間的変化を正確に捉える能力が不可欠である。
- 既存のベンチマークは,スポーツや映画など他の動画コンテンツに重点を置いており,自動運転特有の時間的理解の課題に対応できていない。
- 自動運転映像に特化したベンチマークを構築し,時間的な関係性の把握能力を評価・改善すること。
- 新しいベンチマーク「TAD」を導入し,既存のビジョン言語モデルの性能を評価した結果,詳細な動きの理解が不十分であることが明らかになった。
- Chain-of-ThoughtとTCogMapという2つの新しい手法を提案し,既存モデルに統合することで,TADにおける平均精度を最大17.72%向上させた。
- TADベンチマークと評価コードを公開することで,自動運転における時間的理解に関する今後の研究を促進することを目指す。
エージェントシステムのスケールに関する科学へ [cs.AI]目的:エージェントシステムの性能を決定する定量的なスケール則の導出
- 現実世界のAI応用にエージェントが普及しているため,その性能向上は重要課題である。
- エージェントの性能を決定する原理は十分に解明されていない。
- エージェント数,協調構造,モデル能力,タスク特性間の相互作用を定量的に分析する。
- 協調度指標を用いた予測モデルは,交差検証でR^2=0.524を達成し,未知のタスク領域に対する予測が可能となった。
- ツール利用の多いタスクは,マルチエージェント構成において計算資源の制約を受けやすいことが示された。
- 集中型協調は並列処理可能なタスクで80.8%の性能向上をもたらし,分散型協調はWebナビゲーションで優位性を示した。
SEA:スペクトルエッジ攻撃 [cs.DC, cs.LG]目的:グラフ構造に対する脆弱性の定量分析
- グラフ機械学習は現代AIにおいて重要であり,複雑なデータ構造を表現する能力が鍵となる。
- グラフ構造のわずかな改変が,グラフベースの手法に深刻な影響を及ぼす可能性がある。
- 攻撃効果を最大化しつつ,検知を回避する攻撃手法の開発が求められている。
- 本研究では,スペクトル的ロバスト性評価を用いて各エッジの脆弱性を定量的に分析する攻撃モデルを提案。
- 最も脆弱なエッジを精密に攻撃することで,最小限の摂動で最大の攻撃効果を実現。
- 実験結果から,提案手法の有効性が確認された。
プロンプトに基づく継続的構成的ゼロショット学習 [cs.CV, cs.AI]目的:視覚言語モデルの新しい属性,物体,およびそれらの組み合わせへの継続的な適応
- 視覚言語モデルの応用範囲拡大には,新たな概念への柔軟な対応が不可欠である。
- 従来の継続学習では,クラスが分離している前提があり,複雑な組み合わせ学習には不向きである。
- 既存知識の忘却を防ぎつつ,構成的なゼロショット学習における適応能力の向上を目指す。
- 本研究では,凍結されたVLMバックボーン上に,プロンプトに基づく継続的構成的ゼロショット学習(PromptCCZSL)フレームワークを提案する。
- PromptCCZSLは,過去知識の保持にrecency-weighted multi-teacher distillationを活用し,セッション固有の構成的プロンプトとセッションに依存しない属性・物体プロンプトを融合する。
- UT-ZapposおよびC-GQAベンチマークにおいて,PromptCCZSLは既存手法を大幅に上回り,CCZSLの新たなベンチマークを確立した。
孔子コードエージェント:実世界のコードベース向けのスケーラブルなエージェント構築 [cs.DL, cs.IR, cs.CL, cs.AI, cs.LG, cs.SE]目的:実世界のコードベースにおけるスケーラブルなソフトウェアエンジニアリングエージェントの構築
- ソフトウェア開発における自動化ニーズが高まっており,大規模コードベースへの対応が課題。
- 既存のエージェントは,大規模なコードベースや複雑なツールチェーンの扱いに課題がある。
- 研究と実用性のギャップを埋め,大規模なコードベースに対応可能なエージェント基盤を提供する。
- 孔子コードエージェント(CCA)は,大規模コードベース上で動作するスケーラブルなソフトウェアエンジニアリングエージェントである。
- CCAは,長文脈推論,継続学習,モジュール化されたツール利用を実現する孔子SDK上に構築されている。
- SWE-Bench-Proにおいて,Resolve@1で54.3%を達成し,既存研究や商用システムと比較して高い性能を示した。
影の卓越性:特徴境界の曖昧性を利用した堅牢なバックドア攻撃 [cs.LG, cs.AI]目的:深層ニューラルネットワークに対するバックドア攻撃の理論的分析と,それに基づく堅牢な攻撃手法の開発
- 深層ニューラルネットワークは重要に応用されているが,その脆弱性に対する理解が不十分である。
- 既存のバックドア攻撃は経験則に頼る部分が多く,理論的な裏付けが乏しいため,予測可能性や適応性に課題がある。
- 特徴境界の曖昧性を利用することで,低い毒性率で効果的なバックドア攻撃を可能にすることを目指す。
- 理論分析により,わずかな誤ラベルサンプルが大きな誤分類を引き起こす曖昧な境界領域が存在することが示された。
- Eminenceという説明可能で堅牢なブラックボックス型バックドア攻撃フレームワークを提案し,理論的保証と隠蔽性を持つことを示した。
- 実験により,Eminenceが非常に低い毒性率(0.1%未満)で90%以上の攻撃成功率を維持し,高い汎化性を持つことが確認された。
質問応答のための協調検索拡張生成:相互情報交換と対照層によるランキング [cs.CL, cs.AI]目的:質問応答における協調検索拡張生成フレームワーク
- 大規模言語モデルの誤った情報生成を防ぐため,検索拡張生成が重要視されている。
- 既存の検索拡張生成手法は,不正確な検索や幻覚に陥りやすいという課題がある。
- 検索とLLMの協調により,より正確な質問応答を目指す。
- CoopRAGは,質問をサブ質問と推論チェーンに展開し,不確実な箇所をマスクする。
- サブ質問と推論チェーンを用いて関連文書を検索し,対照層でランキングを再調整する。
- LLMでマスクされた箇所を埋め,推論チェーンを再構築することで,質問応答性能を向上させる。
協調フィルタリングにおける人気バイアス再考:解析的ベクトル分解によるアプローチ [cs.IR, cs.AI]目的:協調フィルタリングにおける人気バイアスの本質的な幾何学的起源の解明と,その修正
- 協調フィルタリングは推薦システムの基盤技術であり,多様な分野で利用されている。
- 人気アイテムへの偏りが強く,ユーザーの潜在的なニーズを満たせていない場合がある。
- 人気バイアスの幾何学的起源を特定し,効果的な修正手法を提案することで,推薦の精度と公平性を向上させる。
- 人気バイアスは,協調フィルタリングモデルの最適化過程における固有の幾何学的歪みであることが示された。
- 提案手法DDCは,埋め込み空間の幾何学的構造を修正することで,人気と嗜好を分離することに成功した。
- DDCは,既存の手法と比較して,損失の減少と推薦品質の向上において顕著な効果を発揮した。
AI自律係数(α):責任あるAIシステムのための境界の定義 [cs.IR, cs.HC, cs.AI]目的:AIシステムの自律性の定量化と,倫理的・経済的に持続可能なAIシステム設計の推進
- AI技術の発展は社会に大きな変革をもたらすが,倫理的課題も存在する
- 「人間を介在させる」ことを隠蔽し,実質は人手に依存したAIシステムが存在する
- AIシステムの自律性を評価し,人手を隠蔽した設計を排除すること
- AI自律係数によって,人手を隠蔽したシステム(0.38)と,自律的なシステム(0.85)を区別できることが示された。
- AI-First, Human-Empowered(AFHE)パラダイムは,AIシステムの自律性を確保する上で有効である。
- AFHEは,AIシステムの透明性と持続可能性を高めるための,客観的な指標を提供しうる。
エネルギー需要予測における因果推論 [cs.AI]目的:エネルギー需要予測の精度向上
- 電力系統の安定運用やエネルギー消費者の効率化に不可欠な研究分野である。
- 既存手法では,要因間の複雑な因果関係を捉えきれていない点が課題である。
- 要因間の因果構造をモデル化し,より正確な予測を実現することを目的とする。
- 構造因果モデルを用いて,気温や時間帯などの要因間の因果関係を分析した。
- 季節によって気温に対するエネルギー需要の感度が変化することを示した。
- 冬季には気温変化と活動パターンの関連性が薄れ,エネルギー需要の変動が抑制されることを発見した。ベイジアンモデルはテストデータで3.84%のMAPEを達成し,高い精度とロバスト性を示した。
シグナルからターンへ:モジュール型音声対話パイプラインにおける相互作用的な摩擦 [cs.HC, cs.AI, cs.CL, cs.SE]目的:モジュール型音声対話パイプラインにおける相互作用的な摩擦の分析
- 音声AIは生成能力が向上しているが,自然な対話が困難である。より人間らしいAI対話を実現する必要がある。
- 既存システムは,応答遅延や表現力の低下といった問題があり,円滑な対話の妨げとなっている。
- モジュール設計が対話の摩擦を生む構造的な要因を特定し,自然な対話AIのインフラ設計指針を示す。
- モジュール型音声対話パイプラインにおいて,時間的なずれ,表現力の低下,修正の硬直性という3つの対話の破綻パターンが確認された。
- これらの摩擦は,欠陥ではなく,制御を優先したモジュール設計の構造的な結果であることが示された。
- 自然な音声AIの構築は,各コンポーネントの最適化だけでなく,それらの連携を慎重に設計するインフラ設計の課題である。
公共部門AIにおける説明責任のための神経記号的フレームワーク [cs.CY, cs.AI, cs.LO]目的:公共部門AIにおける説明責任の確立
- 社会保障制度においてAIの利用が増加しており,公平性と透明性が重要視されている。
- AIシステムの説明が法的根拠と乖離しており,利用者の権利保護が課題となっている。
- AIの判断根拠と法的要件との整合性を検証し,説明責任を担保することを目指す。
- 本フレームワークは,カリフォルニア州のSNAP(CalFresh)の法的規定に基づき,AIの説明を検証可能とする。
- 構築されたフレームワークにより,法的整合性のない説明を検出し,違反された資格ルールを特定することが可能となった。
- 自動化された決定の根拠を追跡可能にし,異議申し立てを支援することで,手続き上の説明責任を向上させる。
推薦システムにおける推論側のモデル更新によるほぼゼロオーバーヘッドな鮮度維持 [cs.DC, cs.LG]目的:推薦システムの鮮度維持機構
- パーソナライズされたサービスの根幹であり,精度向上が重要視されている。
- 大規模なパラメータ同期オーバーヘッドが,鮮度と精度のトレードオフを引き起こす。
- 推論側のアイドルリソースを活用し,モデルの鮮度をオンラインで向上させる。
- 推論ノード内にLoRAトレーナーを配置することで,クラスタ間同期を不要にした。
- 動的なランク適応により,メモリオーバーヘッドをEMTsの2%未満に抑制した。
- 更新コストを従来のデルタ更新ベースラインの2倍削減し,精度を向上させた。
MoLによる再帰型Transformerの性能向上 [cs.SI, cs.LG]目的:再帰型Transformerにおける表現力回復
- Transformerは自然言語処理の基盤であり,高性能なモデル開発が不可欠である。
- 再帰型Transformerはパラメータ効率が良いが,層ごとの表現力が低下しやすい。
- 共有パラメータによる表現力低下を,軽量なモジュールで回復することを目指す。
- MoLは共有FFN内にLoRAエキスパートを挿入する軽量な条件計算メカニズムである。
- ModernALBERTはGLUE,SQuAD-v2,BEIRで,コンパクトモデルとして最先端の性能を達成した。
- 推論時にはエキスパートを圧縮する手法により,効率的なデプロイメントが可能となる。
大規模言語モデルにおける推測デコーディングの高速化のための効率的な適応的拒否サンプリング [cs.CL, cs.AI]目的:大規模言語モデルにおける推測デコーディングの効率向上
- 大規模言語モデルの推論速度は,その実用性を左右する重要な要素である。
- 推測デコーディングでは,固定閾値による拒否サンプリングがボトルネックとなりやすい。
- モデルの不確実性を考慮し,閾値を動的に調整することで効率低下を解消する。
- 提案手法EARSは,ターゲットモデルの予測不確実性を考慮して閾値を調整する。
- これにより,不確実性の高い生成場面における不要な拒否を抑制し,推論効率を改善する。
- 実験結果から,EARSはGSM8Kベンチマークで最大18.12%のスループット向上を達成した。
EvoLattice:LLM誘導によるプログラム発見のためのマルチオルタナティブ品質多様性グラフ表現を通じた持続的な内部集団進化 [cs.CY, cs.AI, cs.CL, cs.LG, cs.MA, cs.NE]目的:LLM誘導プログラム発見のための持続的な内部集団進化手法
- LLMを用いたプログラム進化は発展途上であり,複雑な問題を解決する可能性を秘めている。
- 既存手法は単一候補を扱うため,有用な変異を失いやすく,構造的な失敗に繋がりやすい。
- EvoLatticeは,多様な候補を保持し,より安定した進化と高性能なプログラムの発見を目指す。
- EvoLatticeは,候補プログラムの集団をグラフ構造で表現し,多様性と品質を両立させる。
- 各オルタナティブの評価を通じて,設計選択が全体性能に与える影響を詳細に分析可能である。
- プログラム合成やメタ学習において,既存手法よりも安定性と表現力,そして進歩の軌跡において優れた性能を示した。
音楽感情認識のための専門家注釈データセットと双方向適応フレームワーク:Memo2496 [eess.SY, cs.HC, cs.NI, cs.SY, stat.AP, cs.SD, cs.AI, cs.MM]目的:音楽感情認識のための高品質な注釈データセットと,楽曲間特徴ドリフトへの対処
- 音楽感情認識は,音楽と人間の感情との関係を理解する上で重要であり,音楽推薦やコンテンツベースの音楽検索に応用可能である。
- 既存のデータセットは規模が小さく,質の高い注釈が不足している。また,楽曲間で特徴が変動し,認識精度が低下する課題がある。
- 大規模で高品質なデータセットと,楽曲間特徴ドリフトを軽減する新たなフレームワークを構築し,音楽感情認識の精度向上を目指す。
- 本研究では,30名の音楽専門家が注釈した2496曲のインストゥルメンタル音楽データセット「Memo2496」を公開した。
- 提案手法DAMERは,Melスペクトログラムとコクログラムを融合し,信頼性の高い擬似ラベル生成と楽曲間特徴ドリフト軽減を実現した。
- Memo2496,1000songs,PMEmoの各データセットにおいて,DAMERは最先端の性能を示し,特に覚醒度次元の精度を向上させた。
算術集約度を意識した量子化 [cs.RO, cs.LG, cs.AI]目的:ニューラルネットワークの推論におけるメモリボトルネックの緩和
- 近年のニューラルネットワークはメモリ制約が大きく,計算資源よりもDRAM帯域幅が性能を左右する。
- 従来の量子化手法では,算術集約度を考慮せず,精度低下を招く場合がある。
- 算術集約度を最大化しつつ精度損失を最小限に抑える量子化手法の開発。
- 提案手法AIQは,層ごとにビット幅を選択することで,算術集約度をFP32ベースライン比約50%向上させた。
- ResNet-20/CIFAR-10において,テスト精度を約1%ポイント以内に維持しつつ,AIQが既存の量子化手法を上回る性能を示した。
- メモリボトルネックの影響を受けやすいMobileNetV2では,AIQにより推論スループットがFP32ベースライン比1.66倍に向上した。
動的な重み生成に基づく大規模言語モデルの大規模編集 [cs.RO, cs.AI]目的:大規模言語モデルにおける知識編集の性能向上
- 大規模言語モデルの知識は膨大であり,その更新・修正は重要な課題である。
- 既存の知識編集手法では,大規模な編集において信頼性,一般性,局所性を確保することが困難である。
- 動的な重み生成により,大規模な知識編集を効率的に行い,上記課題を解決することを目指す。
- 提案手法MeGは,特定の層に動的な重みニューロンを付加し,拡散モデルを用いて重みを生成する。
- 実験の結果,MeGは既存手法と比較して,信頼性,一般性,局所性の指標において大幅な改善が見られた。
- 特に局所性指標の絶対値の増加率は高く,提案手法の優位性を示す結果となった。
二軸RCCL:有機化学空間における表現完備な収束学習 [cs.LG]目的:有機化学空間における収束学習の達成
- 分子や材料のモデリングにおいて機械学習の重要性が増している。大規模な化学空間を扱う上で,学習の収束性が課題。
- 既存手法では,化学空間の広大さから,モデルが化学空間全体で収束学習を達成できるか不明確。
- 表現完備なデータセットを構築し,大規模モデルの収束学習と汎化性能を向上させる。
- 二軸表現完備な収束学習(RCCL)戦略を提案し,分子表現を定義することで化学空間の網羅性を定量的に評価。
- FD25データセットを開発し,13,302個の局所価電子ユニットと165,726個の環/ケージトポロジーを網羅。
- FD25で学習したグラフニューラルネットワークは,表現完備な収束学習を示し,外部ベンチマークで優れた汎化性能を発揮(MAE約1.0 kcal/mol)。
VLegal-Bench:大規模言語モデルのベトナム法務推論のための認知に基づいたベンチマーク [cs.CL, cs.AI]目的:ベトナム法務推論における大規模言語モデルの評価
- 法務分野におけるAI活用が進む中,専門知識の評価が重要となる。
- ベトナム法は複雑で頻繁に改正され,モデルの法知識理解が困難である。
- ベトナム法に特化した,認知に基づいた評価基準を確立し,モデルの性能向上を図る。
- VLegal-Benchは,ベトナム法務タスクにおける大規模言語モデルの評価を体系的に行う初の包括的なベンチマークである。
- 本ベンチマークは,ブルームの認知分類学に基づき,実践的な使用シナリオを反映したタスクを通じて,法理解の複数のレベルを網羅する。
- 厳格なアノテーションパイプラインにより10,450件のサンプルを生成し,権威ある法文書に基づいた,現実世界の法務アシスタントワークフローを反映している。
ネットワーク異常検知のための階層的持続ベロシティ:暗号通貨市場への理論と応用 [cs.LG]目的:時間変化するネットワークにおける異常検知のための新規なトポロジーデータ解析手法
- ネットワーク構造の分析は,複雑系の理解に不可欠であり,異常検知への応用が期待される。
- 既存手法では,特徴の累積的な存在を測るのみで,変化の速度を捉えきれていない。
- トポロジー変化の速度に着目し,動的ネットワークにおける構造的異常の検知を目指す。
- 提案手法OW-HNPVは,持続ダイアグラムにおける特徴の出現・消失速度を測定し,ノイズを抑制する。
- 暗号通貨の取引ネットワークへの適用により,既存手法と比較して最大10.4%のAUC向上が確認された。
- 特に中長期の価格予測において,OW-HNPVは一貫性と安定性に優れた性能を示した。
ロバストなテンソル主成分分析:決定論的モデルによる正確な復元 [stat.ML, cs.LG, math.ST, stat.TH]目的:テンソル低ランクおよびスパース成分の抽出
- 信号処理,製造プロセス,医療など,多次元配列であるテンソルは幅広い分野で利用され,その分析が重要である。
- 既存の研究では,テンソル非コヒーレンス条件とスパースサポートの一様性という仮定に基づいている。
- ランダム性の仮定なしに,テンソルランク・スパース性非コヒーレンスを用いて正確な復元を可能とする。
- 本研究では,テンソル・テンソル積とテンソル特異値分解(t-SVD)に基づいてRTPCAを分析する新しい手法を提案する。
- 凸最適化問題を解くことで,テンソル核ノルムとl1ノルムの重み付き組み合わせを目的関数とする。
- これにより,決定論的な枠組みで正確な復元が可能となり,従来のランダム性に基づく手法の制限を克服する。
量子最適化におけるアプリケーション層のプライバシー保護:信頼できないコンピューター上でのEnigma [quant-ph, cs.AI, cs.CR, cs.DM, cs.ET]目的:量子最適化処理のプライバシー保護
- 量子コンピューティングの発展は,従来の計算機では困難な問題を解決する可能性を秘めている。
- クラウドサービス上での量子コンピューティング利用において,問題の詳細がプロバイダーに漏洩するリスクがある。
- 実用的な量子誤り訂正が確立する前の段階で,量子最適化のプライバシーを保護する手法を提案する。
- Enigmaは,量子最適化のためのアプリケーション層でのプライバシー保護を実現する最初のシステムである。
- ValueGuard,StructureCamouflage,TopologyTrimmerの3つの暗化技術を組み合わせることで,問題の識別を困難にしている。
- 最先端のAIモデルを用いた評価では,攻撃者は上位5つの推測で正解を特定できる割合が4.4%にとどまった。
文脈情報を活用したクレジット市場におけるマルチタスク動的価格設定 [q-fin.PR, cs.LG]目的:クレジット市場における多数の証券の価格学習
- クレジット市場は経済活動の重要な資金調達源であり,価格設定の精度は市場の効率性に不可欠である。
- OTC市場では取引頻度が少なく透明性が低いため,個別の価格設定に必要なデータが不足している。
- 証券間の構造的類似性を活用し,競合他社の行動を推測することで,価格設定の精度向上を目指す。
- 提案手法であるTwo-Stage Multi-Task (TSMT)アルゴリズムは,既存の個別学習や一括学習と比較して,後悔量を削減できる。
- TSMTアルゴリズムは,まずプールされたデータで粗いパラメータ推定を行い,次に個別の証券でパラメータを微調整する。
- TSMTアルゴリズムの後悔量は,証券数や異質性の程度によって制約され,良好な性能を示す。
事前学習からプライバシー保護へ:自己教師あり学習を用いた連合超音波基盤モデル [eess.IV, cs.AI, cs.CV]目的:超音波画像診断におけるプライバシー保護と汎用性の高い基盤モデルの構築
- 超音波検査は非侵襲的かつリアルタイムであり,臨床診断において広く利用されている。
- 従来の超音波診断は医師の熟練度に依存し,画質によっては誤診の可能性もある。
- 大量のラベリング済みデータなしに,プライバシーを保護しつつ汎用的な超音波診断AIを開発する。
- UltraFedFMは,9か国の16の医療機関の100万件以上の超音波画像データを用いて連合学習で事前学習された。
- 疾患診断の平均AUROCは0.927,病変セグメンテーションのDSCは0.878を達成した。
- UltraFedFMは,中堅レベルの超音波技師の診断精度を上回り,熟練技師と同等の性能を示した。
多峰性最適化のための自然変分焼きなまし法 [stat.ML, cs.LG, stat.CO]目的:多峰性非凸目的関数の複数の大域的および局所的なモードを同時に探索すること
- 最適化は,科学技術の多くの分野において基本的な役割を担っており,問題解決に不可欠である。
- 従来の最適化手法は,多峰性関数の探索において局所最適解に陥りやすいという課題がある。
- 本研究は,複数のモードを効率的に探索し,局所最適解への陥入を抑制することを目指す。
- 自然変分焼きなまし法(NVA)は,変分事後分布,焼きなまし法,自然勾配学習を組み合わせることで,多峰性最適化を効果的に行う。
- シミュレーション実験の結果,NVAは勾配降下法や進化戦略と比較して優れた探索性能を示すことが確認された。
- 惑星科学における逆問題への応用を通じて,NVAの実用性も実証された。
全てのモデルは誤校正されているが,程度には差がある:条件付き平均演算子による校正の比較 [stat.ML, cs.LG]目的:モデルの校正誤差を評価する手法
- 高リスクな状況下では,信頼性の高い確率予測モデルが不可欠である。
- 既存の校正誤差推定方法は,モデル間の校正度合いの差を正確に識別できない場合がある。
- 条件付き平均演算子の差のヒルベルト・シュミットノルムに基づく,新たな校正誤差評価指標を提案する。
- 提案手法(CKCE)は,条件付き分布間の距離に基づいており,予測モデルの周辺分布の影響を受けにくい。
- 実験結果から,CKCEは既存の指標よりも一貫してモデルの校正誤差をランキング付けできることが示された。
- CKCEは,分布シフトに対してよりロバストであり,校正誤差の評価においてより信頼性がある。
