arXiv雑要約
AI - 2025/12/16 公開
LLMによるコード生成における誤りの評価尺度としての不整合性 [cs.PL, cs.AI, cs.LG, cs.SE]目的:LLMによるコード生成における誤りの可能性の評価
- LLMは自然言語によるプログラミングタスクにおいて大きな成功を収めている。その信頼性向上は重要である。
- 生成されたコードのバグ検出には,正解のコードや仕様書といったオラクルが必要となる場合が多い。
- オラクルなしで,生成されたコードの正しさを推定する手法の開発を目指している。
- 提案手法「不整合性」は,オラクルなしで効率的に誤りの下限を推定できる。
- 実験の結果,平均的なタスクにおいて,不整合性に基づく手法は誤ったプログラムの約3分の2を自動的に識別できた。
- オラクルに基づく評価を,不整合性に基づく評価で代替できることが示された。
高速機械学習原子間ポテンシャル計算のためのテンソル分解ネットワーク [cs.DC, cs.LG, physics.comp-ph]目的:機械学習原子間ポテンシャル計算の高速化
- 物質科学において,原子レベルでのシミュレーションは重要であり,原子間ポテンシャルはその精度を左右する。
- 従来の原子間ポテンシャル計算は計算コストが高く,大規模分子系のシミュレーションのボトルネックとなっている。
- テンソル分解ネットワークを用いて計算コストを削減し,大規模な分子シミュレーションを可能にすること。
- テンソル分解ネットワークは,従来のClebsch-Gordanテンソル積を低ランクのテンソル分解で置き換えることで計算量を削減。
- $\rm{SO}(3)$対称性の誤差を理論的に保証しつつ,任意の対称な双線形写像を近似できることを証明。
- PubChemQCR等のデータセットを用いた評価で,計算速度の大幅な向上と競争力のある性能を達成。
介入独立性の組み込みが介入分布シフトに対する頑健性を向上させる [cs.CC, cs.CL, cs.LG, stat.ME]目的:因果関係のある潜在変数の頑健な識別表現の学習
- 因果推論は,データから因果関係を明らかにし,より信頼性の高い予測モデルを構築する上で重要である。
- 介入データと観測データの扱いに偏りがあり,介入による独立性が無視されている。
- 介入分布シフトに対する頑健性を向上させるための新しい学習アルゴリズムを提案すること。
- 提案手法RepLInは,介入時の表現間の統計的独立性を明示的に強制することで,観測データと介入データ間の予測性能の差を縮小する。
- RepLInは,合成データセットに加え,顔属性分類や有害性検出といった実データセットでも有効であることが示された。
- RepLInは,因果グラフ内のノード数に対してスケーラブルであり,連続変数と離散変数の両方に対して頑健性を向上させることが確認された。
DATABench:深層学習におけるデータセット監査の評価 - 敵対的視点からの検討 [cs.CR, cs.AI, cs.LG]目的:深層学習におけるデータセット監査の敵対的堅牢性評価
- 深層学習の応用拡大には高品質なデータセットが不可欠。その利用状況の透明性は重要課題である。
- データセットの利用状況の開示不足は,プライバシーや著作権侵害のリスクを高めている。
- 既存のデータセット監査手法の脆弱性を明らかにし,より安全な監査手法の開発を促す。
- 既存のデータセット監査手法は,内部特徴と外部特徴に基づいて分類された。
- 17種類の回避攻撃と5種類の偽造攻撃を含むDATABenchベンチマークを構築し評価を行った。
- 評価の結果,既存の監査手法は敵対的設定下において十分な堅牢性や識別力を持たないことが示された。
AIに関する集団主義的・経済的視点 [cs.CY, cs.AI, stat.ML]目的:AI開発における経済学と社会概念の統合
- 社会経済活動は情報技術の発展と密接に関わっており,その影響は大きい。
- AI研究が人間の認知能力のみを重視し,社会性を軽視する傾向がある。
- AI開発において社会や経済への影響を考慮したアルゴリズム設計を目指す。
- AIの進化は,技術的な進歩だけでなく,社会構造や経済活動にも大きな影響を与える。
- 人間の知性は社会的・文化的な起源も持つため,AI開発はそれらも考慮する必要がある。
- AIの設計に経済学や社会概念を取り込むことで,より包括的な視点での技術開発が可能となる。
テクニカル指標ネットワーク(TIN):適応型アルゴリズム取引のための古典的なテクニカル分析を現代化する解釈可能なニューラルアーキテクチャ [cs.CL, cs.CL, cs.LG, q-fin.PM]目的:テクニカル指標ネットワークの設計と検証
- 金融市場では,伝統的なテクニカル分析が広く利用されており,取引戦略の基盤となっている。
- 既存のニューラルネットワークは,テクニカル指標のロジックを直接組み込んでいないため,解釈可能性に課題がある。
- 古典的なテクニカル指標をニューラルネットワークとして再構築し,適応性と解釈可能性を高める。
- テクニカル指標ネットワーク(TIN)は,ルールベースの金融ヒューリスティックを学習可能なモジュールとして表現した。
- ダウ平均構成銘柄におけるMACD-TINの検証により,従来の指標ベース戦略と比較してリスク調整後のパフォーマンスが向上した。
- TINは,構造化された意思決定領域における解釈可能で適応性のある学習アーキテクチャの基盤を提供すると考えられる。
言語モデルはスケーリング則を発見できるか [cs.CL, cs.LG, cs.AI, cs.CL]目的:スケーリング則の発見
- モデル性能予測には重要であり,計算資源の効率的な活用に繋がる。
- 従来は人間による試行錯誤に頼り,時間とコストがかかる。
- LLMを活用してスケーリング則の発見を自動化し,効率化を図る。
- 本研究で開発したSLDAgentは,既存手法よりも優れた外挿精度を示すスケーリング則を自動的に発見した。
- SLDAgentは,スケーリング則モデルとパラメータを同時に最適化することで,複雑な関係性を探索する能力を持つ。
- この成果は,AIが自身のスケーリング則を理解し,研究コミュニティに貢献する新たなパラダイムを示す。
強化学習を用いたFacebook広告文の生成改善 [cs.LG]目的:Facebookにおける広告文生成のための強化学習モデルの導入と効果検証
- 大規模言語モデルは経済に変革をもたらす可能性を秘めているため,その応用と効果測定が重要である。
- 強化学習は有望な後学習手法であるが,その経済的インパクトは十分に解明されていない。
- 本研究は,Facebook広告における強化学習モデルの導入を通じて,その経済的インパクトを定量的に評価することを目的とする。
- AdLlamaは,従来の教師あり学習モデルと比較して,クリック率を6.7%向上させた。
- 広告主はAdLlamaを使用することで,より多くの広告バリエーションを生成し,モデルへの満足度が高まった。
- 本研究は,実環境における生成AIの活用事例として,強化学習による後学習の有効性を示す重要なデータを提供する。
高性能スパイク変換器のための学習不要なANN-SNN変換 [cs.LG, cs.AI]目的:高性能スパイク変換器を実現するための,学習不要なANN-SNN変換フレームワーク
- Transformerは自然言語処理や画像認識で高性能だが,計算コストが高い。スパイクニューラルネットワークは低消費電力である。
- 既存のANN-SNN変換はTransformer内の非線形処理が苦手で,事前学習済みANNの微調整が必要となる場合がある。
- Transformerアーキテクチャに特化した,学習不要で高性能な変換手法を開発し,効率的なスパイク変換器の実現を目指す。
- 本手法では,指数減衰と多基底符号化を組み合わせたMBEニューロンを導入し,非線形演算を近似することで,事前学習済みANNの重み変更を不要にした。
- 多様なタスク(CV,NLU,NLG)とTransformerアーキテクチャ(ViT,RoBERTa,GPT-2)で実験を行った結果,ほぼ損失のない変換精度と大幅な低遅延を実現した。
- これにより,実世界のアプリケーションにおけるスパイク変換器の効率的かつスケーラブルな展開の道が開かれた。
AI開発における倫理的慣行:役割と地域における実証研究 [cs.CY, cs.AI, cs.HC, cs.SE]目的:AI開発に関わる人々の倫理的認識,慣行,知識
- AI技術の急速な発展に伴い,倫理的ガイドラインの必要性が高まっている。
- AI開発における倫理的配慮が,役割や地域によって異なっている。
- AI開発ライフサイクル全体における倫理的決定を支援する。
- 役割,地域,属性によって,AI倫理原則への理解度に差が見られた。
- 倫理的課題に対応するため,関係者間の協調と役割に合わせたアプローチが重要である。
- AI開発における倫理的意識を高めるための教育戦略が求められる。
問題空間マッピングによる小規模モデル推論における理解と推論の分離 [cs.CL, cs.AI]目的:小規模言語モデルの推論能力向上
- 大規模言語モデルの進歩はあるものの,小規模モデルの推論能力向上は依然として課題である。
- 自然言語の複雑さと多様性が,小規模モデルの理解と推論を阻害する要因となっている。
- 自然言語問題を簡潔な問題空間にマッピングすることで,推論に集中できる環境を提供する。
- 提案手法DURITは,自然言語問題を反復学習によって標準化された問題空間にマッピングする。
- DURITは,問題空間における推論ポリシーを訓練することで,小規模モデルの推論性能を大幅に向上させる。
- DURITは,数学と論理的推論タスクにおいて,ドメイン内およびドメイン外の両方でロバスト性を向上させる。
SproutBench:若者向け安全で倫理的な大規模言語モデルのベンチマーク [cs.CL, cs.AI]目的:若者向け大規模言語モデルの安全性と倫理的評価
- 子供や若者向けのAI利用が急速に拡大しており,彼らの発達段階に特有のリスクを考慮した安全性の確保が重要である。
- 既存のAI安全性ベンチマークは成人向けに設計されており,未成年者の認知・感情・社会的な脆弱性に対応できていない。
- 子供の発達段階に応じたリスクを評価し,安全なAI設計・展開のための指針を示すことを目指す。
- SproutBenchは,子供の年齢層(0-6歳,7-12歳,13-18歳)の発達段階に基づいた1283の敵対的プロンプトで構成される。
- 47種類のLLMを評価した結果,感情的な依存,プライバシー侵害,危険な行動の模倣などの安全性上の脆弱性が多数確認された。
- インタラクティブ性と年齢適合性には逆相関関係が見られ,安全性とリスク防止の間にも強い相関関係が認められた。
LocoMamba: Mambaを用いたエンドツーエンド深層強化学習による視覚駆動型ロボット移動 [cs.RO, cs.AI, cs.CV, cs.SY, eess.IV, eess.SY]目的:視覚情報に基づくロボット移動の実現
- ロボットの自律的な移動は,多様な環境での活動において不可欠である。
- 従来の強化学習は,状態空間の規模拡大や長期依存性の学習が困難である。
- Mambaを用いて効率的な系列モデリングを行い,長距離依存性を捉えることで,この問題を解決する。
- 本研究では,Mambaを基盤とした新たな強化学習フレームワークLocoMambaを提案した。
- 提案手法は,既存手法と比較して高い報酬と成功率を達成し,衝突が少ないことが示された。
- 未知の地形や障害物密度への汎化性能が向上し,学習効率も改善された。
敵対的線形文脈バンディット問題に対する還元を用いた改良アルゴリズム [cs.LG]目的:敵対的損失と確率的行動集合を持つ線形文脈バンディット問題の効率的なアルゴリズム
- 文脈に応じた最適な行動選択は,レコメンデーションシステムや広告配信など,多くの分野で重要である。
- 従来のアルゴリズムは,行動集合のサイズや複雑さに依存し,計算コストが高くなる場合がある。
- 本研究では,行動集合の制約を考慮しつつ,計算効率の良いアルゴリズムを開発する。
- 本アルゴリズムは,既存の手法で未解決だった,行動数に依存しない多項式時間での$\text{poly}(d)\sqrt{T}$リグレット達成に成功した。
- 線形制約による行動集合を多項式個で記述できる組み合わせバンディット問題において,初の多項式時間での$\text{poly}(d)\sqrt{T}$リグレットを実現した。
- シミュレータが利用可能な場合は,リグレットの上界を$\tilde{O}(d\sqrt{L^\star})$に改善できる。
ALIGN:大規模言語モデルにおける文化的な整合性のための語呂合わせ学習 [cs.CL, cs.CL, cs.AI]目的:大規模言語モデルにおける文化的な整合性の向上
- AIのグローバルな普及に伴い,文化的な偏りを軽減し,多様な価値観を尊重することが重要である。
- 学習データにおける文化的偏りが存在し,大規模言語モデルが文化的なニュアンスを理解しにくいという課題がある。
- 語呂合わせ学習を通じて,文化的な知識を効率的にモデルに組み込み,文化的な整合性を高めることを目指す。
- 語呂合わせデータを用いたファインチューニングにより,英語ではPrecision@5が16-20%,中国語では43-165%の語彙的な整合性の向上が確認された。
- 特に,米中間の価値観が大きく異なる質問群において,ファインチューニングされたQwenは中国の価値観との応答整合性が13%から25%へとほぼ2倍に向上した。
- 70Bモデルと同等以上の性能を,わずか数百万の文化に基づいた語呂合わせ学習データのみで達成し,効率的な文化的な整合性の可能性を示した。
対話システムにおける生成型クエリ提案のための多段階アラインメントフレームワーク [cs.CY, cs.CL, cs.AI]目的:生成型クエリ提案におけるユーザーの嗜好とのアラインメント
- 対話システムの性能向上には,ユーザーの意図を正確に捉えるクエリ提案が不可欠である。
- 大規模言語モデルを用いた生成型クエリ提案では,ユーザーの微妙な嗜好に沿った提案が難しい。
- ユーザーの嗜好の不確実性を考慮し,より適切なクエリ提案を実現すること。
- 提案フレームワークは,自動評価と人間による評価の両方でベースラインを大きく上回る性能を示した。
- 実環境におけるA/Bテストでは,クリック率が34%相対的に増加した。
- ガウス報酬モデル(GaRM)により,ユーザーの嗜好を確率分布として表現することで,より柔軟なアラインメントを実現した。
ConceptGuard:疎な解釈可能な脱獄概念によるニューロシンボリック安全ガードレール [cs.CL, cs.AI, cs.SC]目的:LLMにおける脱獄攻撃に関連する解釈可能な概念の特定と,それを用いたロバストな安全ガードレールの構築
- LLMは多様な応用で成功を収めているが,安全性は重要な課題である。悪意のある利用を防ぐ必要性が高まっている。
- 既存のアライメントや安全ファインチューニングでは,巧妙な脱獄攻撃に対する防御が不十分であり,脆弱性が残る。
- LLM内部の解釈可能な概念を抽出することで,モデル能力を損なわずに汎用的な安全対策を実現することを目指す。
- ConceptGuardは,疎なオートエンコーダを用いて,脱獄テーマに関連するLLM内部の解釈可能な概念を特定する。
- 抽出された意味のある内部表現を用いて,説明可能なロバストな安全ガードレールを構築できる。
- 脱獄攻撃が表現空間において共有する活性化幾何学の証拠が見つかり,解釈可能な防御策の基礎となりうる。
少数の事例を用いたクラス増分型故障診断:デュアル粒度表現によるクラス非依存知識の保持 [cs.LG, cs.AI]目的:少数事例クラス増分型故障診断における課題克服
- 産業システムの信頼性向上に不可欠であり,故障の早期発見と迅速な対応が求められる。
- 新たな故障クラスへの対応時に,過去の知識を忘却しやすく,学習データが少ないと過学習が発生しやすい。
- デュアル粒度表現を用いて,過学習を抑制し,過去の知識の忘却を軽減することを目指す。
- 提案手法であるDGGNは,細粒度表現と粗粒度表現を組み合わせることで,限られたデータでも高い識別性能を発揮する。
- 粗粒度表現による知識の誘導により,過学習を抑制し,故障診断の安定性を向上させる。
- TEPベンチマークおよび実データセットでの実験により,既存手法と比較して優れた性能を示す。
GRADE:RAG評価のためのマルチホップQAと微細な難易度行列の生成 [cs.CL, cs.AI]目的:RAG評価のためのマルチホップQAデータセットと難易度行列の生成
- 知識集約型NLPタスクにおいてRAGシステムが広く利用されている。
- 既存の評価は,現実世界の複雑な推論や多段階処理を考慮していない。
- 検索難易度と推論深度の相関を考慮した評価フレームワークを構築する。
- GRADEは,推論深度とクエリと証拠間の意味距離という2つの側面から難易度をモデル化する。
- ファクトに基づいたニュース記事から知識グラフを構築し,意味的クラスタリングにより欠落リンクを補完することで,多様で難易度を制御したクエリを生成する。
- 実験により,エラー率とGRADEの難易度指標に強い相関が見られ,診断能力が確認された。
照射されたオーステナイト鋼およびフェライト/マルテンサイト鋼の疲労寿命予測のための物理情報ニューラルネットワーク [cs.LG, cond-mat.mtrl-sci]目的:照射されたオーステナイト鋼およびフェライト/マルテンサイト鋼の低サイクル疲労寿命の予測
- 原子力炉材料は高温下で照射を受け,複雑な劣化が生じるため,信頼性の高い寿命予測が重要である。
- 従来のモデルでは,照射と高温環境下での複雑な劣化メカニズムを正確に捉えることが困難である。
- 物理法則を組み込んだPINNモデルにより,高精度で信頼性のある疲労寿命予測を実現することを目指す。
- 提案するPINNモデルは,495のデータポイントを用いて訓練され,従来の機械学習モデルよりも優れた予測性能を示した。
- SHAP分析により,ひずみ振幅,照射線量,試験温度が疲労寿命に最も影響を与える主要な特徴であることが明らかになった。
- PINNは,F/M鋼の安定した照射応答や線量飽和,高温における疲労寿命の低下など,主要なメカニズムを捉えることに成功した。
条件織りと専門家モジュレーション:汎用かつ制御可能な画像生成へ [cs.CV, cs.AI]目的:多様な条件入力に対応し,画像生成効率と表現力を向上させるUniGenフレームワークの提案
- 画像生成技術は,現実世界の表現や新たなコンテンツ作成において重要な役割を担う。
- 既存手法は条件ごとに制御ブランチを分離するため,モデル構造が冗長になり計算資源が無駄になる。
- 本研究は,条件間の特徴量のもつれを軽減し,計算効率を改善することを目指す。
- 提案手法UniGenは,Subjects-200KおよびMultiGen-20Mデータセットにおける様々な条件画像生成タスクで最先端の性能を達成した。
- CoMoEモジュールは,類似したパッチ特徴量を集約し,専用の専門家モジュールに割り当てることで,冗長な計算を抑制する。
- WeaveNetは,バックボーンと制御ブランチ間の情報ギャップを埋め,テキストレベルとファインチューニングされた制御の有効な相互作用を可能にする。
SuperGen:スケッチとタイリングを用いた効率的な超高解像度ビデオ生成システム [cs.LG, cs.SY, eess.SY]目的:超高解像度ビデオ生成のための効率的な手法
- 高品質な映像コンテンツの需要が高まっており,特に2K/4Kといった高解像度ビデオの生成が重要となっている。
- 既存の標準解像度プラットフォームでは,超高解像度ビデオの生成に際して,再学習コストや計算資源が課題となっていた。
- 追加学習を必要とせず,メモリ消費量と計算複雑性を低減することで,超高解像度ビデオ生成を可能にすること。
- SuperGenは,タイリングと新しいアルゴリズムにより,追加学習なしで様々な解像度に対応可能である。
- タイルに最適化されたキャッシュ戦略により,ビデオ生成の高速化を実現している。
- キャッシュガイド型並列処理により,スループット向上とレイテンシ低減を両立している。
経験駆動型生涯学習による自己進化エージェントの構築:フレームワークとベンチマーク [cs.AI, cs.CL]目的:経験駆動型生涯学習(ELL)フレームワークを用いた自己進化エージェントの構築
- 汎用人工知能の実現に向け,静的なタスク最適化から継続学習可能な自律エージェント開発が重要視されている。
- 既存手法では,環境変化への適応や知識の長期的な保持,多様な経験からの技能獲得が課題となっている。
- 本研究は,実世界との相互作用を通して継続的に成長するエージェントの実現を目指す。
- 経験駆動型生涯学習(ELL)フレームワークを提案し,自己進化エージェントの継続的成長を可能にする基盤を提示した。
- ELLフレームワークは,経験探索,長期記憶,技能学習,知識内面化という4つの原則に基づいている。
- 学生の大学生活をシミュレートするベンチマークデータセット「StuLife」を導入し,ELLの評価環境を提供した。
高スループットなマルチLLMサービスのための効率的な学習不要オンラインルーティング [cs.DB, cs.AI, cs.LG]目的:高スループットなLLMサービスのオンラインルーティング戦略
- LLMの需要増加に伴い,LLMサービスの展開と計算コストが課題となっている。
- 既存のルーティング手法はオフラインでの学習に依存し,高負荷なオンライン環境への適応が困難である。
- 学習不要で高負荷なオンライン環境でも効率的なルーティングを実現することを目的とする。
- 提案手法は,近似最近傍探索を用いてクエリの特徴量を効率的に推定し,初期クエリでルーティング戦略を最適化する。
- 理論的な保証により,提案手法が自然な仮定の下で競合比1-o(1)を達成することが示された。
- 3つのベンチマークデータセットと8つのベースラインとの比較実験で,全体性能が平均3.55倍,コスト効率が1.85倍,スループットが4.25倍向上した。
PDTrim:推論におけるプレフィル・デコード分離のためのターゲットプルーニング [cs.CL, cs.CL, cs.AI]目的:大規模言語モデルの推論における効率的なプルーニング手法
- 大規模言語モデルは高性能だが,計算・メモリコストが高い点が課題となっている。
- 既存のプルーニング手法は,プレフィル・デコード分離という実際の推論特性を考慮していない。
- プレフィル・デコード分離に特化したプルーニングにより,より精密なモデル削減を目指す。
- 提案手法PDTrimは,プレフィル部とデコード部のブロック単位でのプルーニングを精密に行う。
- プルーニングと知識蒸留のセットを構築し,反復的にブロックを削除することで,より良いプルーニング解を得る。
- 実験結果から,PDTrimはプレフィル・デコード分離と統合された推論の両方で高い性能を発揮し,推論速度も向上する。
クラスタリングにおけるシルエット係数の上限 [cs.CL, cs.LG]目的:クラスタリングの品質評価におけるシルエット係数の上限
- クラスタリングは,データの構造を発見するための重要な手法であり,様々な分野で活用されている。
- シルエット係数は広く使われる指標だが,データセット固有の最大値が不明で解釈が難しい。
- データセットごとのシルエット係数の理論的な上限を導出し,評価の改善を図る。
- 各データ点に対するシルエット幅の上限を導出し,それらを集約することでASWの上限を確立した。
- 導出された上限は,実際のASW値を解釈するための指針となり,最適なクラスタリング結果への距離感を示す。
- 様々なデータセットでの評価により,この上限がクラスタ品質評価を豊かにする可能性が示された。
自動形式化に向けた共通フレームワーク [cs.HC, cs.NI, cs.AI]目的:自動形式化の事例のレビューと統一的フレームワークの提案
- AIの高度化には,論理的表現への翻訳が不可欠であり,その自動化が求められている。
- 自動形式化と関連研究が独立して進み,手法や評価基準の共有が進んでいない。
- 異なる分野間の連携を促進し,次世代AIシステムの発展を加速させる。
- 本研究では,暗黙的・明示的な自動形式化の事例をレビューし,共通の理解を深めた。
- 異なる研究分野間の架け橋となり,手法やベンチマークの共有を促す統一的フレームワークを提案した。
- このフレームワークは,次世代AIシステムの開発において,自動形式化研究を加速させる可能性を示す。
より賢い計画で迅速な結果:全米ランニングクラブデータベースによる大学間クロスカントリーの再構築 [cs.CY, cs.AI, cs.LG]目的:大学間クロスカントリーにおけるデータに基づいた計画戦略の有効性評価
- 大学間クロスカントリーは競技力向上を目指す上で重要だが,客観的なデータに基づいた戦略は不足している。
- 大規模な競技データが公開されておらず,チームのスケジュール編成は経験や勘に頼る傾向がある。
- 本研究は,公開データベースを用いて客観的なデータに基づいた計画戦略の有用性を示す。
- 全米ランニングクラブデータベース(NRCD)を構築し,7,594名の選手,23,725レースの結果を公開した。
- 初期パフォーマンスが低い選手ほどシーズン中の改善が大きく,レース頻度が改善の最も強い予測因子であることが判明した。
- 定期シーズンで4回以上レースに参加したチームは,全国大会で上位15位以内に入る確率が有意に高いことが示された。
MALLM:マルチエージェント大規模言語モデルフレームワーク [eess.SY, cs.SY, cs.MA, cs.AI, cs.CL]目的:マルチエージェントディベートの構成要素の体系的な分析
- 集団知能の拡張において,テスト時の計算資源のスケーリングと専門知識の活用が重要である
- 既存のフレームワークは,ツール利用に偏り,評価機能が不十分,または設定の柔軟性に欠ける
- マルチエージェントディベートの構成要素とその相互作用の理解を促進する
- MALLMは,エージェントの個性,応答生成器,議論のパラダイム,意思決定プロトコルなど,144種類以上の構成を可能にする。
- シンプルな設定ファイルでディベートを定義でき,Hugging Faceのテキストデータセットを読み込み,評価パイプラインを提供する。
- 研究者が問題を体系的に設定,実行,評価し,構成要素間の関係性を理解するのを支援する。
境界要素法と物理情報ニューラルネットワークを用いた波動散乱数値モデルの比較分析 [cs.LG]目的:波動散乱問題における境界要素法と物理情報ニューラルネットワークの性能評価
- 波動現象の解析は,工学分野において不可欠であり,その高精度な数値解析手法の確立が求められている。
- 従来の数値解析手法は,計算コストが高い場合があり,大規模問題への適用が困難となることがある。
- 本研究は,計算効率の良い物理情報ニューラルネットワークの性能を,既存の境界要素法と比較検討することで,波動散乱問題の解決に貢献する。
- 境界要素法の計算時間は,物理情報ニューラルネットワークの学習時間と比較して,約4桁程度速かった。
- 学習済みの物理情報ニューラルネットワークは,境界要素法に比べて内部点での評価時間が約2桁程度速かった。
- 本研究は,境界要素法と物理情報ニューラルネットワークの比較分析の手法を確立し,波動伝播問題における将来の研究に役立つ定量的なデータを提供する。
プロンプトインジェクション攻撃に対するマルチエージェントLLM防御パイプライン [cs.CR, cs.LG]目的:プロンプトインジェクション攻撃の検知と中和
- LLMの普及に伴い,セキュリティ確保が不可欠となっているため。
- ユーザー入力に悪意のある指示が埋め込まれ,LLMの動作を制御されるリスクがあるため。
- LLMの脆弱性を克服し,安全な利用環境を構築することを目的とする。
- 提案手法は,ChatGLMとLlama2の2つのLLMプラットフォームにおいて,多様な攻撃に対して100%の防御成功率を達成した。
- 攻撃成功率(ASR)を,防御なしのChatGLMの30%から,Llama2の20%から,いずれも0%まで大幅に低減することに成功した。
- 直接的な上書き,コード実行,データ窃取,難読化技術など,複数の攻撃カテゴリに対し,システム機能を維持しつつ堅牢な防御性能を示した。
重い裾を持つノイズにおける確率的二段階最適化 [cs.LG]目的:重い裾を持つノイズ下での二段階最適化手法の効率的な解法
- 機械学習モデルの学習において,二段階最適化は重要な役割を果たす。特に,大規模言語モデルや強化学習など。
- 実際のノイズ分布は裾が重い場合が多く,既存手法では計算コストが増大する。
- 重い裾を持つノイズ下でも効率的な二段階最適化を実現し,計算量を削減すること。
- 提案手法N$^2$SBAは,確率的勾配法による計算コストの漸近的な上限を導出した。
- この上限は,分散が有限の場合の既存結果と同等の性能を示す。
- 非凸・強凹ミニマックス最適化問題にも適用でき,同様の性能が確認された。数値実験からも優位性が示された。
合成ブートストラップ事前学習 [cs.CL, cs.AI]目的:文書間の関係モデルの学習と,それを利用した大規模なコーパスの合成による言語モデルの事前学習手順
- 言語モデルの性能向上には,大規模なデータセットが不可欠である。しかし,データ収集にはコストがかかる。
- 従来の事前学習は単一文書内のトークンの因果関係を学習するが,文書間の複雑な関係を効率的にモデル化できない。
- 文書間の関係をモデル化し,合成データを用いて学習することで,データ効率の良い事前学習を実現する。
- 合成ブートストラップ事前学習(SBP)は,強力な反復ベースラインと比較して一貫した性能向上を示した。
- SBPは,20倍多くのデータにアクセスできるオラクル上限の最大60%の性能向上を達成した。
- 合成文書は単なる言い換えではなく,SBPは種となる素材から中核概念を抽出し,その上に新たな記述を構築する。
CoopQ:LLMのための協調ゲームに着想を得た層別混合精度量子化 [cs.LG]目的:大規模言語モデルの混合精度量子化手法
- LLMは高い性能を持つが,パラメータ数が多く,リソース制約のある環境での利用が課題となっている。
- 既存の混合精度量子化は,層間の相互作用を考慮せず,低いビット精度では性能が低下する。
- 層間の協調性を考慮し,より低いビット精度でも性能を維持する量子化手法を開発する。
- CoopQは,混合精度量子化を層間の協調ゲームとして捉え,層の感度と相互作用を正確に推定する。
- 推定値を活用し,メモリ制約下で各層に2bitまたは4bitを割り当てる二次の最適化問題を解く。
- Llama-3,Gemma-2,Qwen-3モデルで実験を行い,既存手法と比較してperplexityを20-80%削減することを確認した。
SEPおよびその他のアプリケーションにおける,高度に不均衡な回帰 [cs.AR, cs.LG, cs.AI]目的:高度に不均衡なテーブルデータの回帰問題における予測精度向上
- 稀な事象の予測は,宇宙天気予報など,社会への影響が大きい分野で重要である。
- 従来の回帰手法では,稀なデータの予測精度が低く,性能向上が課題である。
- 相関関係を考慮し,重み付けとサンプリングを工夫することで,予測精度を改善する。
- 提案手法CISIRは,既存手法と比較して,低い誤差と高い相関関係を実現した。
- CISIRの相関成分を他の手法に組み込むことで,性能向上が確認された。
- 単調減少 involution (MDI) 重み付けが,他の重み付け関数よりも優れた性能を示した。
BENNS:SFC埋め込みのハイブリッドオンライン・オフライン進化のための代理モデル [cs.NI, cs.NE]目的:SFC埋め込み問題解決のための効率的な適応度評価手法
- ネットワーク機能のプログラム制御が重要視される中,SFCはネットワーク運用管理の負荷増大に対応するスケーラブルな手法である。
- SFC埋め込みはNP困難問題であり,遺伝的アルゴリズム等の計算コストが高い手法が主流である。
- オンラインでの遺伝的アルゴリズム利用を可能にするため,高速な適応度評価を実現する。
- 提案手法BENNSは,ネットワークトポロジー,トラフィック,SFC埋め込みに依存しない代理モデルであり,適応度を近似する。
- 静的環境下での実験結果から,BENNSは数千の構成を探索し,平均19.1分で利用可能な解を生成できることが示された。
- オンラインのみのアプローチと比較して,BENNSは探索速度が大幅に向上し,最適な解に収束する。
ポリープのセグメンテーション改善と可視化による説明可能性分析 [cs.CV, cs.LG]目的:ポリープのセグメンテーション精度向上と,その根拠の可視化
- 大腸癌は依然として主要な癌による罹患率と死亡率の原因であり,早期発見が重要である。
- ポリープの正確なセグメンテーションは手作業では時間と労力を要し,担当者によるばらつきが生じやすい。
- 深層学習の解釈可能性を向上させ,臨床現場での信頼性を高めることを目指す。
- 提案手法PolypSeg-GradCAMは,Kvasir-SEGデータセットで高いセグメンテーション精度を示した(Dice係数:0.8902)。
- IoUは0.8023,AUC-ROCは0.9722と,優れた性能を達成している。
- Grad-CAMによる可視化は,モデルの予測が臨床的に重要な領域に依存していることを確認した。
Mamba変調:Mambaの長さ一般化について [cs.RO, cs.CL, cs.CL, cs.LG, cs.AI, stat.ML]目的:Mambaの長さ一般化性能の限界と改善策の検討
- Transformerモデルの計算コストが高いため,より効率的なアーキテクチャが求められている。
- Mambaは高性能だが,学習時より長い文脈長では性能が著しく低下する。
- Mambaの性能低下の原因を特定し,文脈長に対するロバスト性を向上させる。
- Mambaの性能低下は,状態遷移行列$\mathbf{A}$のスペクトルに起因することが示された。
- 提案手法では,$\mathbf{A}$行列のスペクトルをスケーリングすることで,文脈長一般化性能を改善した。
- 単純な$\Delta_t$の調整では効果がない状況下でも,提案手法は有効であることが確認された。
HIPによるヘッセ行列の計算:微分を用いない原子間ポテンシャル [cs.CL, cs.LG, physics.chem-ph, physics.comp-ph]目的:ヘッセ行列の直接予測
- 計算化学の基盤技術であり,遷移状態探索や振動解析に不可欠なヘッセ行列の計算効率が課題。
- ヘッセ行列の計算は計算コストが高く,システム規模の拡大に伴い計算量が急増する。
- グラフニューラルネットワークを用いたヘッセ行列の直接予測による計算効率の向上を目指す。
- 深層学習モデルにより,自動微分や有限差分法を用いずにヘッセ行列を予測可能であることを示した。
- 予測されたヘッセ行列は,既存手法と比較して高速,高精度,省メモリであり,訓練も容易である。
- 遷移状態探索,幾何最適化,ゼロ点振動エネルギー補正,振動解析等の幅広いタスクで優れた性能を示した。
因果推論のコンパスによる構造化出力形式が大規模言語モデルに与える影響の考察 [cs.CL, cs.LG]目的:大規模言語モデルにおける構造化出力形式の影響の分析
- 近年の大規模言語モデルの発展は,様々な分野での応用を可能にした。効率的な情報処理のため,構造化出力形式の利用が増加している。
- 構造化出力形式が言語モデルの性能に与える影響についての研究は存在するものの,結論が分かれており,評価指標も粗雑な場合がある。
- 本研究は,因果推論を用いて構造化出力形式の影響を精緻に分析し,その実態を明らかにする。
- 従来の評価指標では,構造化出力形式は性能を向上させる場合もあれば,低下させる場合もあった。しかし,因果推論の結果,48あるシナリオの43で因果的影響は認められなかった。
- 残りの5シナリオでは,具体的な指示に起因する複雑な因果構造が確認された。構造化出力形式がGPT-4oの生成に直接的な影響を与えないことが示唆される。
- OpenAI-o3はGPT-4oやGPT-4.1よりも出力形式の影響を受けにくいことが示された。これは,推論モデルが構造化出力形式の影響を受けにくいという利点を示している。
連合学習における多段階勾配反転攻撃に対する非線形軌道モデリング [cs.LG, cs.CR]目的:連合学習における勾配反転攻撃に対する軌道モデリングの精度向上
- 連合学習はプライバシー保護に貢献するが,勾配情報の漏洩による攻撃リスクが存在する。
- 既存手法は線形補間を用いるため,非線形な最適化アルゴリズムの複雑さを捉えきれない。
- 本研究は,非線形な軌道モデリングにより,勾配反転攻撃の精度を向上させることを目指す。
- 提案手法NL-SMEは,学習可能な二次ベジエ曲線を用いて,より高精度な軌道モデリングを実現した。
- CIFAR-100およびFEMNISTデータセットでの実験により,NL-SMEは既存手法を大幅に上回る性能を示した。
- 本研究は,連合学習におけるプライバシー脆弱性を明らかにし,ロバストな防御策開発に貢献する。
分類精度を超えて:Neural-MedBenchとより深い推論ベンチマークの必要性 [cs.CV, cs.AI]目的:多岐にわたる臨床情報の組み合わせによるニューロロジー分野におけるマルチモーダル臨床推論能力の評価
- 医療AIの発展は,診断支援や治療計画の最適化に不可欠であり,その精度向上が求められている。
- 既存の医療ベンチマークは分類精度に偏っており,実際の臨床現場で求められる高度な推論能力を十分に評価できていない。
- Neural-MedBenchは,マルチモーダルな臨床推論能力を評価するためのベンチマークとして,AIの信頼性を高めることを目指す。
- 最新のVLMs(GPT-4o,Claude-4,MedGemmaを含む)は,従来のデータセットと比較してNeural-MedBenchにおいて著しくパフォーマンスが低下することが確認された。
- エラー分析の結果,モデルの弱点は知覚的なエラーではなく,推論の失敗に起因することが示された。
- 統計的汎化のための大規模データセットと,推論の忠実度を評価するためのコンパクトなベンチマーク(Neural-MedBench)の両方が必要であることが強調された。
IA2:ICL活性化とのアライメントが教師ありファインチューニングを改善する [cs.LG, cs.AI, cs.CL]目的:ICLの内部計算を活用し,SFTの品質向上
- 大規模言語モデルの性能向上が,様々な自然言語処理タスクにおいて重要である。
- SFTはデータに依存しやすく,汎化性能や応答の精度に課題が残る場合がある。
- ICLの活性化パターンをSFTに適用することで,汎化性能と精度を向上させる。
- ICLとSFTでは異なる活性化パターンを示すことが明らかになった。
- 提案手法IA2は,SFTモデルにおけるICL類似の内部推論を促す。
- IA2をSFTの事前段階として実施することで,12のベンチマークで精度とキャリブレーションが大幅に向上した。
HTMA-Net:ハダマール変換とインメモリ計算による乗算回避ニューラルネットワークへ [cs.HC, cs.CV, cs.AI]目的:深層ニューラルネットワークにおける乗算コスト削減
- エネルギー制約のあるエッジデバイスでの効率的な深層学習の実現には,計算コストの削減が不可欠である。
- 従来の深層学習モデルは,大量の乗算演算を必要とし,計算量と消費電力の増大を招いている。
- ハダマール変換とインメモリ計算を組み合わせることで,乗算量を削減し,計算効率を高めることを目指す。
- HTMA-Netは,ResNet-18において,最大52%の乗算を削減できることを示した。
- 従来のResNetモデルと同等の精度を維持しつつ,計算複雑さとパラメータ数を大幅に削減することに成功した。
- 構造化されたハダマール変換層とSRAMベースのインメモリ計算演算子の組み合わせが,効率的な深層学習アーキテクチャの有望な経路となることが示された。
ナレーション付きデモンストレーションからの共同作業型身体活動のモデリングのためのインタラクティブプログラム合成 [cs.CL, cs.AI, cs.HC, cs.LG]目的:共同作業型身体活動のモデリング
- 身体活動の指導はHCIにおける長年の目標であり,より複雑な共同作業の実現が求められている。
- 共同作業では,チームメイトの意図を推測する必要があり,それが曖昧で動的なプロセスである。
- ナレーション付きデモンストレーションを用いて,システムのロジックを修正し,共同作業の学習を可能にする。
- 本システムは,動作を編集可能なプログラムとして表現し,自然言語と物理的動作を統合したモダリティを使用する。
- ユーザーはコードを見たり書いたりすることなく,システムの挙動を教え,検証し,修正できる。
- ユーザー実験の結果,参加者の70%が意図通りプログラムを修正でき,90%がプログラムの修正を容易に感じた。
MixtureVitae:高品質な指示および推論データを用いた大規模ウェブ規模事前学習データセット [cs.CL, cs.AI, cs.LG]目的:法的リスクを最小限に抑えつつ,高い下流タスク性能を提供するオープンアクセス事前学習コーパスの構築
- 大規模言語モデルの性能向上には,多様で大規模な学習データが不可欠である。
- ウェブから収集したデータには,著作権などの法的リスクが伴う場合がある。
- リスクを軽減しつつ,高品質な指示・推論データを豊富に含むデータセットを構築すること。
- MixtureVitaeは,パブリックドメインや許可されたライセンスのテキストを組み合わせ,法的リスクを軽減したデータソース戦略を採用している。
- 標準的なベンチマークにおいて,MixtureVitaeで学習したモデルは,他の許可型データセットを上回り,大規模モデルの性能を向上させる。
- 特にMMLUや数学・コードベンチマークにおいて高い性能を示し,限られたトークン数で強力なベースラインモデルを凌駕する。
RadOnc-GPT:大規模な患者アウトカムラベル付けのための自律型LLMエージェント [cs.AI]目的:放射線腫瘍学における患者アウトカム研究のスケール,精度,迅速性の向上
- 放射線腫瘍学では,患者アウトカムの研究が治療改善に不可欠である。
- 手動によるラベル付けは,研究規模の拡大,精度維持,迅速なデータ処理を阻害する。
- 本研究は,LLMエージェントによる自律的なアウトカムラベル付けの実現を目指す。
- RadOnc-GPTは,患者固有の情報取得,証拠評価,構造化されたアウトカムの出力を行う自律エージェントである。
- QA評価では,人口統計学的データや放射線治療計画の詳細の正確な取得が確認された。
- 臨床アウトカムラベル付けでは,頭頸部癌患者の顎骨壊死や前立腺癌・頭頸部癌患者の再発検出において有効性が示された。
ステルス性と効果性を両立:グラフ分類における分布を維持するバックドア攻撃 [cs.LG, cs.CR]目的:グラフ分類に対する分布を維持するバックドア攻撃手法
- グラフニューラルネットワークは様々なタスクで高い性能を示すが,セキュリティ上の脆弱性が課題となっている。
- 既存のバックドア攻撃は,トリガーの構造的な異常やラベル反転による意味的な異常が検知されやすい。
- 分布内に存在するトリガーを学習し,異常を抑制することで,よりステルス性の高い攻撃を実現する。
- 提案手法DPSBAは,敵対的学習と異常検知器を用いて分布内のトリガーを学習し,構造的・意味的異常を抑制する。
- 実験結果から,DPSBAは既存手法と比較して,攻撃成功率とステルス性のバランスに優れていることが確認された。
- 実際のデータセットを用いた評価により,DPSBAの有効性が検証された。
臨床エビデンスに基づく大規模言語モデルの活用:英国NICE臨床ガイドライン照会のための検索拡張生成システム [cs.CL, cs.AI, cs.IR]目的:英国NICE臨床ガイドラインに対する照会システムの開発
- 医療現場では,最新のエビデンスに基づいた迅速な意思決定が求められるため,信頼性の高い情報源へのアクセスが不可欠である。
- 臨床ガイドラインは膨大であり,必要な情報を効率的に見つけ出すことが困難であるという課題が存在する。
- 本研究は,大規模言語モデルと検索拡張生成を組み合わせることで,この課題を解決し,臨床ガイドラインへのアクセス性を向上させる。
- 開発された検索拡張生成システムは,臨床ガイドラインから関連情報を高精度に検索する能力を示した(MRR 0.814)。
- 生成フェーズにおいて,検索拡張生成を用いることで,回答の忠実性が大幅に向上し,Medetron3-8Bを上回る性能を発揮した。
- 臨床専門家による評価では,GPT-4.1は98.7%の精度を達成し,安全性も向上したことから,医療現場での費用対効果の高いAI活用が期待される。
次トークン予測を超えて:拡散モデルと自己回帰型言語モデルの性能特性評価 [cs.LG, cs.AI, cs.CL]目的:拡散モデルと自己回帰型言語モデルの性能特性の比較
- 自然言語処理の発展において,大規模言語モデルは重要な役割を果たしている。
- 自己回帰型言語モデルは逐次的な処理のため,計算効率に課題がある。
- 拡散モデルの性能特性を明らかにし,長期文脈への対応を改善する。
- 拡散モデルは並列処理により計算効率を高められるが,文脈長が長くなると性能が低下する。
- ブロック単位でのデコードにより,拡散モデルの文脈長への対応が向上する。
- バッチ処理においては,自己回帰型言語モデルの方が高いスループットを示す。
