arXiv雑要約
AI - 2026/02/03 公開
AnyBCQ:マルチ精度LLM向けハードウェア効率の良い柔軟な二値符号化量子化 [cs.LG, cs.AI]目的:マルチ精度LLMにおける精度と効率のバランスを柔軟に調整する量子化手法
- 大規模言語モデルの利用拡大に伴い,メモリや遅延が課題となっている
- 既存の量子化手法では,精度と効率のトレードオフが課題である
- ハードウェア効率を維持しつつ,マルチ精度に対応した量子化手法を開発する
- AnyBCQは,二値符号化量子化を拡張し,ビットプレーンレベルでの直接演算を可能にする。
- 低ビット数(例:2ビット)での精度低下を大幅に抑制し,高い精度でも競争力のある性能を示す。
- AnyBCQは,半精度と比較して最大3.0倍,最新のマルチ精度手法と比較して1.2倍のスループット向上を達成する。
指定された木編集距離を持つ木を列挙するためのReLU生成ネットワークの設計 [cs.LG, cs.DM]目的:指定された木編集距離を持つ木の列挙
- 木構造データは,計算生物学,構造化データ解析,画像処理など,多岐にわたる分野で重要である。
- 指定された木編集距離を持つデータを生成するための生成ネットワークの適切なサイズと深さに関する明確な指針が存在しない。
- 特定の木編集距離内で類似した木を生成可能な生成ネットワークの存在と構築を理論的に示す。
- ReLUベースの生成ネットワークを用いることで,サイズO(n^3)かつ定数深さで,指定された木からの編集距離がd以下の全ての木を生成できることが証明された。
- 実装と評価により,最大21ノードの木に対して,指定された編集距離内の有効な木を全て生成できることが示された。
- GraphRNNやGraphGDPといった既存のグラフ生成モデルと比較して,提案手法は有効な木の生成率において大幅に優れていることが確認された。
LLMの推論能力強化:人間様式でない推論経路の選好最適化 [cs.CL, cs.AI]目的:LLMの推論能力向上
- 大規模言語モデルの発展は,複雑な問題解決への応用を可能にするため重要である。
- 既存手法は人間様の推論に偏っており,多様な推論経路の探索が制限されている。
- モデルの自信度の低い箇所に着目し,自己生成による推論経路の誘導で性能向上を目指す。
- 提案手法(CGPO)は,自信度信号を用いて推論過程の不確実性の高い箇所を特定し,自己生成による推論誘導を行う。
- 小規模モデルで生成したデータでも,高性能モデルや人間によるアノテーションを用いた手法と同等以上の性能を達成した。
- コードと数学の問題解決タスクにおいて,本手法が有効であることを示した。
FedLoDrop:汎用LLMのファインチューニングのためのFederated LoRAとドロップアウト [cs.CL, cs.IT, cs.LG, math.IT]目的:大規模言語モデルの汎化性能向上と学習コスト削減
- 大規模言語モデルは様々なタスクに応用可能だが,特定のタスクへの適応にはファインチューニングが不可欠である。
- ファインチューニングは計算資源を要し,過学習のリスクを伴うことが課題である。
- Federated LoRAとドロップアウトを組み合わせ,過学習抑制と汎化性能向上を目指す。
- 提案手法FedLoDropは,Federated LoRAの学習可能な行列にドロップアウトを適用することで,モデルの疎性を高める。
- 理論解析により,ドロップアウト率と汎化誤差のトレードオフが明らかになり,最適なドロップアウト率の設定が重要であることが示された。
- 数値実験の結果,提案手法が過学習を抑制し,汎化性能を改善することが確認された。
間欠的な貢献を持つ予測市場 [cs.LG]目的:予測市場における最適な予測組み合わせと報酬分配メカニズム
- データ利用の増加と正確な予測への需要の高まりに対応する必要がある
- データ所有権や競争的利益により,関係者間の協力が制約される場合がある
- エージェントの過去のパフォーマンスと時間変動を考慮した市場設計を提案する
- 提案された市場設計は,欠損した提出に対処しながら,最適な予測の組み合わせを学習する。
- 報酬分配メカニズムは,インサンプルおよびアウトオブサンプル性能を考慮し,経済的な特性を満たす。
- シミュレーションと実世界のデータを用いたケーススタディにより,市場設計の有効性と適応性が示された。
エッジ上でのメッセージパッシング:スケーラブルで表現力豊かなGNNへ [cs.LG, cs.AI]目的:グラフニューラルネットワークの表現力向上と効率化
- グラフ構造データは現実世界の複雑な関係性を表現可能であり,その学習は重要である。
- 既存のGNNは計算コストが高く,大規模グラフへの適用が困難な場合がある。
- エッジを基本単位とした新しいGNNアーキテクチャにより,効率性と表現力の両立を目指す。
- 本研究では,エッジに基づくメッセージパッシングを行うEB-GNNアーキテクチャを提案した。
- 理論的に,EB-1WLが1WLよりも表現力が高いことを証明し,論理的特徴付けと識別能力を示した。
- 実験的に,EB-GNNが既存のGNNと比較して高い効率性と競争力のある性能を示すことを確認した。
エントロピーと重要度の融合:安定かつ効率的なTransformerプルーニングのための統一されたヘッド重要度-エントロピー指標 [cs.CL, cs.AI, cs.LG]目的:Transformerプルーニングにおけるヘッド重要度と注意エントロピーを統合した指標
- Transformerは自然言語処理で高い性能を示すが,その構造が効率性に課題を抱える
- 既存のヘッド重要度指標は勾配情報のみに基づき,注意パターンの多様性を捉えきれない
- ヘッド重要度と注意エントロピーを組み合わせ,より安定的なモデル圧縮を目指す
- 提案手法HIESは,ヘッド重要度指標のみを用いた方法と比較して,モデル品質を最大15.2%向上させる。
- HIESは,モデルの安定性を2.04倍向上させ,精度と安定性の両立を可能にする。
- 本研究は,Transformerモデルの効率的な圧縮と高性能化に貢献する。
BenchPress:テキストからSQLへのベンチマーク作成を加速する人間協調型アノテーションシステム [cs.CL, cs.AI, cs.DB, cs.HC]目的:ドメイン固有のテキストからSQLへのベンチマークの効率的な作成
- 大規模言語モデルのテキストからSQLへの応用が進む中で,高品質なベンチマークの重要性が増している
- 企業内の大規模データベースに対するLLMの性能は低いことが課題であり,プライベートベンチマークの構築が困難である
- SQLログからのベンチマーク作成におけるアノテーション作業の負担を軽減し,コスト効率の良い手法を提供する
- BenchPressは,SQLクエリに対してRAGとLLMを活用し,自然言語による記述案を複数提案する
- 専門家は提案された記述案を選択,ランク付け,または編集することで,アノテーションの精度と効率を高める
- LLMによる支援と人間による検証の組み合わせは,ベンチマークの信頼性とモデル評価の堅牢性を向上させる
文脈選択的状態空間モデル:フィードバックが全てである [cs.LG, cs.AI]目的:文脈選択的な状態空間モデルの構築
- Transformerモデルは強力だが,計算量が増大し,長距離依存性の処理に課題がある。
- 状態空間モデルは有望な代替手段だが,性能向上の余地がある。
- 状態フィードバックによる文脈選択性を導入し,効率的な系列モデルを目指す。
- COFFEEモデルは,内部状態に基づき文脈に応じた選択性を実現した。
- 帰納ヘッドタスクにおいて,MambaのS6よりも大幅に少ないパラメータと学習シーケンスでほぼ完璧な精度を達成した。
- MNISTタスクでは,同じアーキテクチャでS6を大幅に上回り,3585パラメータで97%の精度を実現した。
証明可能な統計的保証を持つモデル非依存の選択的ラベリング [cs.LG, cs.AI]目的:大規模データセットに対する高品質なラベルの取得
- データ学習において,ラベルの質がモデルの性能に大きく影響するため,高品質なラベルの確保は重要である。
- AIによるラベル付けはコスト効率が良いが,ラベル誤りの問題があり,信頼性が損なわれる場合がある。
- AIが信頼できるラベルを識別し,偽発見率を制御することで,ラベル付けの精度向上を目指す。
- 提案手法Conformal Labelingは,偽発見率を制御することで,AIによるラベル付けの信頼性を証明する。
- AIモデルの予測確信度と,誤ってラベル付けされたキャリブレーションインスタンスの確信度を比較することで,信頼できるインスタンスを選択する。
- 画像,テキスト,LLM QAなど,様々なタスクにおいて,高い検出力と厳密な偽発見率の制御を実験的に示した。
非線形最適化問題の線形化のためのLLMベースのエージェントフレームワーク LinearizeLLM [cs.LG, cs.AI]目的:非線形最適化問題のソルバーで利用可能な線形最適化問題への変換
- 実用的な応用において,非線形最適化問題を線形化することは重要である。
- 線形化のプロセスは手動で行われることが多く,専門知識が必要となる。
- 自然言語によるモデル化を支援するため,線形化を自動化することを目的とする。
- LinearizeLLMは,非線形性のパターンを検出し,最適な線形化手法を選択する。
- 40のテストケースで全体的な成功率(OSR)は73%であり,既存手法より大幅に高い性能を示す。
- パターン特化型エージェントのセットを用いることで,線形化を自動化できる可能性が示唆された。
RGMem:言語エージェントのための再正規化群に着想を得たメモリ進化 [cs.AI]目的:長期にわたるユーザーの状態のモデリング
- LLMベースの対話エージェントにおいて,パーソナライズされた継続的な対話が重要である。
- 有限のコンテキストウィンドウや静的なパラメータメモリが,長期的なユーザー状態のモデリングを妨げる。
- 対話から安定した嗜好やユーザー特性を抽出する困難さを解決する。
- RGMemは,マルチスケールな組織化と創発という再正規化群の視点に着想を得た自己進化型メモリフレームワークである。
- RGMemは,エピソード的な対話を意味的事実やユーザーの洞察に変換し,階層的な粗視化と更新を通じて動的に進化するユーザープロファイルに統合する。
- LOCOMOとPersonaMemベンチマークにおいて,最先端のメモリシステムを凌駕し,セッション間の一貫性とユーザー嗜好の変化への適応性が向上した。
LLM教師ありファインチューニングのためのユーティリティ・多様性に基づいたオンラインバッチ選択 [cs.CL, cs.LG, cs.AI, cs.CL]目的:LLMの教師ありファインチューニングにおける効率的なバッチ選択
- 大規模言語モデルの活用は,様々なタスクにおいて重要な役割を担う。
- ファインチューニングは計算コストが高く,過学習やバイアスの増幅が懸念される。
- データ選択によって計算コストを抑え,性能と効率を両立することを目指す。
- 本研究では,ユーティリティと多様性を考慮したUDSという新しいバッチ選択フレームワークを提案した。
- UDSは,ロジット行列の核ノルムを利用してデータユーティリティと多様性を捉え,計算効率を高めている。
- 実験の結果,UDSは既存手法を上回り,フルデータセットでのファインチューニングよりも大幅に学習時間を短縮した。
Transformerのメモリは汚染可能か?大規模言語モデルにおけるキャッシュ側の脆弱性の調査 [cs.IR, cs.CR, cs.AI]目的:大規模言語モデルの推論時のキー・バリューキャッシュに対する脆弱性の検証
- 大規模言語モデルの利用拡大に伴い,そのセキュリティ確保は重要な課題となっている。
- プロンプトやパラメータが保護されていても,キャッシュが攻撃対象となる可能性が指摘されてきた。
- キャッシュへの悪意のあるトークン注入による脆弱性を定量的に評価し,対策を検討する。
- 悪意のあるトークン注入(MTI)により,GPT-2やLLaMA-2/7Bにおいて,次に来るトークンの分布とタスクのパフォーマンスが有意に変化することが示された。
- キャッシュの脆弱性は,検索拡張やエージェント思考パイプラインの不安定化を引き起こすことが明らかになった。
- キャッシュの完全性は,今後の大規模言語モデルの堅牢性・セキュリティ研究において重要な検討課題である。
機能的分布ネットワーク (FDN) [cs.LG, stat.ML]目的:分布シフト下における過信を抑制するための手法
- 機械学習モデルの信頼性向上は,実用化において不可欠である。
- 確率的回帰モデルは,分布シフトに対し過信してしまう場合がある。
- 入力に依存した不確実性推定と,分布シフトへの対応を目指す。
- FDNは,ネットワークの重みに条件付き分布を置くことで,入力に応じた分散を持つ予測混合を生成する。
- 単純な外挿・補間評価プロトコルとOODチェックにより,FDNの有効性を検証した。
- FDNは,ベイズ法,アンサンブル,ドロップアウト等の既存手法と同等の精度を示し,シフトに依存した不確実性と良好なキャリブレーションを実現した。
HAMLOCK:ハードウェアモデル論理結合攻撃 [cs.CR, cs.LG]目的:深層ニューラルネットワークに対する新たなセキュリティ脆弱性の実証
- 深層学習の利用拡大に伴い,ハードウェアアクセラレータのセキュリティ確保が重要となっている。
- 従来のバックドア攻撃はモデル内に攻撃ロジックが集中し,検知されやすいという課題があった。
- ハードウェアとソフトウェアの境界を跨ぐ攻撃手法により,従来の防御を回避することを目指す。
- HAMLOCKは,ハードウェアとソフトウェアに攻撃ロジックを分散させることで,高いステルス性を実現している。
- MNIST,CIFAR10,GTSRB,ImageNet等のベンチマークにおいて,ほぼ完璧な攻撃成功率と無視できる程度の精度低下を達成した。
- この攻撃は,最先端のモデルレベル防御を回避可能であり,ハードウェアトロイアンも検知困難である。
ベクトルに基づく特徴空間適応によるロバストなモデルファインチューニング [cs.LG]目的:モデルのロバストなファインチューニング
- 事前学習済みモデルの活用は,データ不足な状況下での高性能化に不可欠である。
- ファインチューニング時に,知識の忘却(キャタストロフィック・フォージェッティング)が問題となる。
- 特徴空間での適応により,事前学習知識の保護と汎化性能向上を目指す。
- VeFAは,既存手法LoRAと同程度のファインチューニング性能を示す。
- VeFAは,分布シフトに対するロバスト性においてLoRAを上回る性能を示す。
- VeFAは,特徴空間を直接操作することで,不要な次元の生成を抑制する。
ELUTQ:エッジLLMのためのLUTベース演算による量子化精度の最適化 [cs.LG]目的:エッジデバイスにおける大規模言語モデルの展開を可能にするための,量子化精度最適化
- 大規模言語モデルの利用拡大には,メモリ消費量の削減が不可欠である。
- 既存の量子化手法は,低ビット化に伴い,重みの分布への適合性が悪化し,逆量子化のオーバーヘッドが増大する。
- 本研究は,重みの統計的特性を捉え,逆量子化のオーバーヘッドを削減する新しい量子化方式を提案する。
- ELUTQは,階層線形量子化(HLQ)という新しい量子化形式を導入し,低ビット設定下でのモデル精度を大幅に向上させる。
- 再学習なしでQATに匹敵する性能を達成し,大規模モデルの量子化に必要なハードウェア要件を削減する。
- 2ビットLLaMA3.1-8Bは,RTX 3090上でAWQと比較して1.5倍の高速化を実現する。
大規模言語モデルはコミュニケーションの動機に敏感か [cs.CL, cs.AI, cs.LG]目的:コミュニケーションの背後にある動機に対する大規模言語モデルの感応性
- 人間は意図を持ってコミュニケーションを行うため,情報の解釈に動機理解が不可欠である。
- 大規模言語モデルは情報源の意図を考慮せず,バイアスのかかった情報を受け入れてしまう可能性がある。
- 大規模言語モデルに,情報源の動機を考慮した批判的評価能力を付与することを目的とする。
- 実験により,大規模言語モデルは,バイアスの強い情報源からの情報を人間と同様に割り引いていることが示された。
- 広告のような現実世界のデータでは,モデルの推論は合理的なモデルの予測と一致しない部分もあった。
- 動機やインセンティブを強調する介入により,大規模言語モデルと合理的なモデルの一致度が高まった。
大規模言語モデルにおける長い文脈のメカニズム解釈のスケーリング:スパース注意によるStream [cs.CL, cs.AI]目的:大規模言語モデルにおける長い文脈の注意パターン解析の効率化
- 大規模言語モデルの性能向上に伴い,その内部メカニズムの理解が不可欠となっている。
- 従来のメカニズム解釈手法は,文脈長に対して計算量が二次的に増加し,大規模な文脈の解析が困難である。
- スパース注意を利用し,効率的な解析手法を開発することで,大規模言語モデルの解釈可能性を高める。
- Streamは,動的なスパース注意を利用する新しい手法であり,大規模な文脈の注意パターンを効率的に解析できる。
- Streamは,上位k個のキーブロックのみを保持するバイナリサーチスタイルの洗練を行うことで,モデルの次トークン予測性能を維持する。
- Streamを用いることで,RULERベンチマークにおいて,重要な検索パスを維持しつつ,90-96%の相互作用を削減し,針から出力までの層ごとの経路を明らかにできた。
データを行動の支点として:隣接データセットの視点から見た予測の多様性 [cs.CL, cs.LG]目的:予測の多様性に関する研究
- 機械学習モデルの性能向上には,データの重要性が不可欠である。
- 同じくらい良い複数のモデルが存在するという多様性の問題が認識されている。
- データ処理を隣接データセットの選択と捉え,多様性を抑制する。
- 隣接データセット間のクラス分布の重複度が高いほど,多様性は低下するという理論的関係が明らかになった。
- アクティブラーニングとデータ補完の二つの領域において,多様性を考慮した新たな手法が提案された。
- 既存アルゴリズムにおける多様性の系統的な研究と,多様性を意識したデータ取得戦略が示された。
人間を模倣したニューロシンボリックワールドモデリングと論理推論による解釈可能な安全なUAV着陸地点評価 [cs.RO, cs.AI]目的:UAVの安全な着陸地点の評価
- UAVの活用範囲拡大には,現実世界での安全な着陸地点の自動評価が不可欠である。
- 既存手法は,環境変化に弱く,判断根拠が不明瞭で,リソース制約のある環境での検証が困難である。
- 本研究は,解釈可能性とエッジデバイスでの実行可能性を両立した安全評価手法を提案する。
- 提案手法NeuroSymLandは,知覚に基づくワールドモデルと論理に基づく安全推論を分離することで,高い評価精度を実現した。
- シミュレーションおよび実機ループテストにおいて,NeuroSymLandは既存手法を上回り,61回の成功評価を達成した。
- 定性的な分析から,NeuroSymLandは優れた解釈可能性と透明な推論プロセスを有することが示された。
VisJudge-Bench:可視化の美観と品質評価 [cs.CL, cs.AI, cs.CV]目的:可視化の美観および品質を評価するMLLMの性能測定
- 可視化は複雑なデータを直感的に理解させる上で重要であり,その価値はデータの正確性,明瞭性,美観に依存する。
- 可視化の品質評価は,データエンコーディングの正確性,情報表現力,視覚的魅力の同時判断が必要で困難である。
- 本研究は,MLLMによる可視化評価の能力を定量的に評価する標準的なベンチマークの欠如を解消することを目指す。
- VisJudge-Benchは,32種類のチャートタイプを含む3,090件の専門家による注釈付きサンプルから構成される,包括的なベンチマークである。
- 最先端のMLLM(GPT-5を含む)でも,人間専門家と比較して判断に大きな隔たりがあり,MAEは0.553,人間評価との相関は0.428にとどまる。
- VisJudgeは,この問題を解決するために設計されたモデルであり,MAEを0.421に削減し(23.9%減),人間専門家との一致度を0.687に向上させた(60.5%改善)。
効率的な視覚-言語-行動モデルに関する調査 [cs.CV, cs.AI, cs.LG, cs.RO]目的:効率的な視覚-言語-行動モデルの体系的整理と将来展望
- 具現化された知能研究における重要な分野であり,デジタル知識と現実世界との相互作用を可能にする。
- 大規模なモデル構造に起因する計算資源とデータ需要の高さが課題となっていた。
- VLAの効率化に向けた研究を整理し,今後の研究の方向性を示すことを目指す。
- 本調査は,VLAの効率化に関する研究を,モデル設計,学習,データ収集の3つの柱で体系化した。
- 最新の手法を批判的にレビューすることで,コミュニティにとっての基礎的な参照資料となる。
- 代表的な応用事例,主要な課題,将来の研究ロードマップを提示する。
BOND:ブラックボックス関数を用いた学習の許可 [cs.LG]目的:ブラックボックス関数の勾配推定手法
- 深層学習の発展に伴い,微分不可能なモジュール利用へのニーズが高まっている。
- 既存手法では,ブラックボックス関数の勾配推定精度とスケーラビリティに課題があった。
- ブラックボックス関数の勾配を正確かつ効率的に推定し,学習を可能にすること。
- 提案手法BONDは,摂動を適応的に制限することで,従来の勾配推定手法よりも高精度かつ大規模な学習を可能にした。
- 学習可能なパラメータ数を増やさずに,固定化されたネットワークモジュールがモデル性能を向上させることを示した。
- 固定変換の利用がモデルの表現力を高め,ハイブリッドアナログ-デジタルデバイスへの応用の可能性を示唆した。
BOLT-GAN:ベイズ誤りに基づく安定したGAN訓練のための目的関数 [cs.CL, cs.LG, cs.AI, eess.SP]目的:GAN訓練の安定化
- 画像生成AIの発展は,現実的な画像を生成する上で不可欠である。
- GAN訓練は不安定になりやすく,生成される画像の品質が変動しやすい。
- ベイズ誤りを最小化することで,GAN訓練の安定性と生成画像品質の向上を目指す。
- BOLT-GANは,ベイズ最適学習閾値を用いた新しいフレームワークである。
- 標準的な1-Lipschitz制約下で識別器を訓練し,生成器の性能を最大化する。
- 4つの画像生成ベンチマークで,既存のGANフレームワークと比較してFIDとPrecision/Recallが向上した。
純粋なプライバシーに基づく共分散行列推定 [cs.IR, cs.LG, cs.DS]目的:高次元共分散行列の純粋な差分プライバシー保護
- データ分析において,共分散行列はデータの重要な特徴量を捉えるため不可欠である。
- プライバシー保護とデータ有用性の両立が課題であり,特に高次元データにおける共分散行列推定は難しい。
- 差分プライバシーを維持しつつ,共分散行列の推定精度を向上させることを目指す。
- 提案手法は,大規模データセットにおいて,既存手法と同等のフロベニウスノルム誤差を達成する。
- また,他の$p$-Schattenノルムにおいても最適な誤差を達成し,特にスペクトルノルムでの最適な誤差を初めて実現した。
- 小規模データセットでは,核ノルムへの射影により,既存手法よりも優れたフロベニウスノルム誤差を達成する。
GrokipediaとWikipediaの類似性:多次元的なテキストおよび構造比較 [cs.CY, cs.AI, cs.SI]目的:GrokipediaとWikipediaの比較分析
- 知識の信頼性は社会の根幹であり,その源泉である百科事典の質は重要である。
- Wikipediaには編集者の偏りや構造的な問題が存在する可能性が指摘されている。
- AI生成百科事典が既存の問題を克服できるか検証する。
- Grokipediaの記事はWikipediaのものより大幅に長く,参照密度が低いことが示された。
- Grokipediaのコンテンツは,Wikipediaと類似したグループと大きく異なるグループの二つに分かれる。
- 相違のある記事群において,引用元の政治的偏りが右方向にシフトしていることが確認された。
検証可能な多肢選択問題への変換による,オープンエンドタスクへのRLVRの拡張 [cs.CC, cs.AI]目的:オープンエンドタスクにおけるLLMの推論能力強化
- LLMの推論能力向上は,その応用範囲拡大に不可欠である。
- オープンエンドタスクでは,検証可能な正解がないため,報酬モデルに依存せざるを得ない。
- 検証可能な多肢選択問題への変換により,正解がないタスクでもRLVRを適用可能にする。
- 提案手法VMR-RLVRは,複数のベンチマークでLLMの性能向上を実証した。
- 7つのオープンエンドベンチマークにおいて,報酬モデルを用いたRLと比較して平均3.29ポイントの改善が見られた。
- オープンエンドタスクにおける推論能力強化に貢献する。
VecComp:MIMOデジタル空中計算によるベクトル計算 [cs.LG, eess.SP]目的:ベクトル関数計算の実現
- データ処理の効率化が求められる現代において,分散処理技術の重要性が増している。
- 従来の空中計算は特定の関数に限定され,汎用性やデジタル通信システムとの互換性に課題があった。
- 高次元データに対する効率的かつロバストなベクトル関数計算手法を確立すること。
- VecCompは,MIMO技術とChannelCompを統合することで,ベクトル関数計算を可能にした。
- 計算複雑度はベクトル次元に対して線形に増加するため,高次元データにも適用可能である。
- フェージングチャネル下での平均二乗誤差の上界を確立し,計算効率を理論的に保証した。
グラフ準同型歪み:それら全てを識別する指標,そして潜在空間でそれらを結びつける [cs.LG]目的:グラフ間の類似度を評価するための新しい指標の開発
- グラフ学習において,構造と特徴量の相互作用が複雑さを生む要因である。
- 既存の研究では特徴量を無視し構造のみに着目するため,特徴量が近いグラフ間の類似度評価が困難である。
- グラフ準同型歪みを導入することで,特徴量の影響を考慮したグラフ間の類似度評価を実現する。
- 提案手法は,特定の条件下で効率的に計算可能であることが示された。
- 既存の表現力指標($1$-WLなど)を補完するものであり,新たな知見を提供する。
- 構造的エンコーディングを定義し,グラフニューラルネットワークの予測性能を向上させることが確認された。
マルチモーダル意味的摂動によるVLMの汚染検出 [cs.LG]目的:VLMの汚染検出手法
- 大規模言語モデルの性能向上は目覚ましいが,学習データにテストデータが混入する汚染が問題となる。
- 既存の汚染検出手法は,VLMに対しては十分な性能を発揮できない場合がある。
- マルチモーダル意味的摂動を用いた,VLMの汚染を検出し,汎化性能を評価する手法を提案する。
- 提案手法は,汚染されたモデルが制御された摂動に対して汎化できないことを示す。
- 複数の現実的な汚染戦略に対して,提案手法の堅牢性と有効性を検証した。
- 既存の汚染検出アプローチが失敗するか,一貫性のない挙動を示すことを確認した。
忘却は遍在する [cs.CL, cs.LG, stat.ML]目的:学習における忘却のメカニズムの解明
- 汎用的な学習アルゴリズム開発には,過去知識の保持が不可欠である。
- 学習の適応に伴う過去知識の喪失,すなわち忘却のメカニズムが不明確である。
- 予測分布の一貫性の欠如を忘却と定義し,忘却の定量化と抑制を目指す。
- 忘却は,学習者の予測分布における自己整合性の欠如として捉えられる。
- 提案する理論は,あらゆる深層学習設定において忘却の存在と学習効率への影響を示す。
- 厳密なベイズ推論は,忘却を起こさずに適応することを可能にする。
LLM評価のための適応的テスト:静的ベンチマークの心理測定的代替案 [cs.CL, cs.AI]目的:大規模言語モデルの能力推定手法
- LLMの性能評価は,その発展と応用において不可欠であり,客観的な評価基準が求められる。
- 従来の評価法は,大量のベンチマーク項目が必要であり,コストと時間がかかるという課題がある。
- 項目応答理論に基づく適応的テストにより,効率的にLLMの能力を推定し,評価プロセスの負担を軽減すること。
- ATLASは,従来の評価方法と比較して,必要な項目数を最大90%削減しつつ,測定精度を維持できる。
- ATLASによって推定された能力指標は,従来の評価方法で得られた精度と高い相関を示し,グローバルな性能構造を保持する。
- ATLASは,精度が同等のモデル間でも識別能力が高く,より詳細な性能評価を可能にする。
対称差シングレット集合の相互作用モデリングによる反応予測 [cs.CY, cs.LG, cs.AI, q-bio.BM]目的:化学反応予測の性能向上
- 有機化学において,反応予測は重要な課題であり,効率的な分子設計に不可欠である。
- 既存の機械学習モデルは,入力順序への依存性や,反応性を支配する構造的相互作用の不十分なモデル化が課題である。
- 入力順序に依存せず,構造的相互作用を正確にモデル化することで,予測精度と汎化性能の向上を目指す。
- ReaDISHは,対称差シングレットエンコーディングとジオメトリ-構造相互作用アテンションの2つの革新的な要素を導入した。
- 実験結果から,ReaDISHは多様なベンチマークにおいて反応予測性能を向上させることが示された。
- 特に,入力順序の摂動に対する頑健性が向上し,R$^2$の平均改善率は8.76%であった。
TabRAG:構造化表現による検索拡張生成のための表形式ドキュメント質疑応答の改善 [cs.CL, cs.AI, cs.CV, cs.IR, cs.LG]目的:表形式ドキュメント質疑応答の性能向上
- 知識集約型タスクにおいて,外部知識の活用は重要である。特に,表形式データからの情報抽出は,様々な応用分野で求められている。
- 従来の表形式ドキュメントに対する質疑応答は,構造的なセマンティクスを捉えきれず,妥当な回答を生成できない場合がある。
- 表形式ドキュメントの構造化された表現を用いて,質疑応答の精度を向上させることを目指す。
- 提案手法TabRAGは,ドキュメントを細分化し,階層的な構造表現に変換することで,表形式ドキュメントの解析精度を向上させた。
- 自己生成の文脈学習モジュールを統合することで,様々な表形式のスタイルやフォーマットに対応できるようになった。
- 実験結果から,TabRAGが既存の解析手法と比較して,広範な評価ベンチマークにおいて優れた性能を発揮することが示された。
IterResearch:インタラクションのスケーリングによる長期的エージェントの再考 [cs.AI, cs.CL]目的:長期的課題における深層研究エージェントの性能向上
- 知識獲得において,外部情報源を活用する深層研究エージェントの重要性が増している。
- 既存手法は文脈長の制限により,長期的な課題で情報が蓄積しすぎ,ノイズが混入しやすい。
- インタラクションのスケーリングにより,長期的な課題における推論能力を維持することを目標とする。
- IterResearchは,既存のオープンソースエージェントと比較して,6つのベンチマークで平均14.5ppの性能向上を達成した。
- 2048回のインタラクションまでスケーリングすることで,劇的な性能向上(3.5\%から42.5\%)を示した。
- 本手法は,ReActと比較して最先端モデルのプロンプティング戦略としても有効であり,最先端モデルの性能を最大19.2pp向上させた。
自動交渉入門 [cs.CL, cs.MA, cs.AI, cs.GT]目的:自動交渉の基礎知識
- AI技術の発展に伴い,人間との協調や自律的な意思決定が重要になっている。
- 自動交渉は複雑であり,効果的なアルゴリズム開発が課題となっている。
- 自動交渉の基礎を学習し,アルゴリズム開発の第一歩を踏み出すことを目指す。
- 本書は,コンピュータサイエンスの学生を対象とした自動交渉の入門書である。
- 数学とプログラミングの基礎知識があれば,自動交渉の学習が可能である。
- Pythonで実装された簡単な交渉フレームワークを利用し,実験を行うことができる。
コサイン類似度を超えて:No-Reference Image Quality AssessmentのためのMagnitude-Aware CLIP [cs.CV, cs.AI]目的:No-Reference Image Quality Assessmentにおける性能向上
- 画像品質評価は,画像処理やコンピュータビジョンの重要な分野であり,多様な応用が存在する。
- 既存手法では,画像の知覚品質とCLIP特徴量のコサイン類似度の間にずれが生じることが課題である。
- CLIP特徴量のMagnitudeに着目し,より精度の高い画像品質評価手法を確立することを目指す。
- CLIP特徴量のMagnitudeを考慮することで,既存のCLIPベースの画像品質評価手法を大幅に改善した。
- Box-Cox変換による統計的正規化と,信頼度に基づく融合スキームが,性能向上に貢献している。
- 複数のベンチマークデータセットにおいて,タスク固有の訓練なしで最先端の性能を達成した。
戦略的介入による効率的な思考空間探索 [cs.AI]目的:大規模言語モデルにおける推論時の効率と精度向上のためのフレームワーク
- 大規模言語モデルの推論能力は向上しているが,計算コストが課題となっている。
- 従来の推論拡張手法は網羅的なサンプリングが必要で,計算量が膨大になる。
- 重要なトークン選択時に介入することで,効率的な推論を可能にすることを目指す。
- 提案手法HPRは,高性能なLLM(hinter)によるガイダンスと効率的な小型モデル(practitioner)の実行を組み合わせる。
- DIR(Distributional Inconsistency Reduction)により,推論経路と期待分布の乖離を定量化し,介入ポイントを動的に特定する。
- 実験の結果,HPRは既存手法と比較して,計算コストを大幅に削減しつつ,同等以上の精度を達成した。
ImAgent:テスト時スケーラブルな画像生成のための統一マルチモーダルエージェントフレームワーク [cs.CV, cs.AI]目的:テスト時スケーラブルな画像生成のための統一マルチモーダルエージェントフレームワーク
- 近年の画像生成技術の進歩は目覚ましいが,その応用範囲は広く,さらなる発展が期待される。
- テキストプロンプトが曖昧な場合,生成される画像のランダム性や意味の一貫性の欠如が課題となる。
- 外部モデルに依存せず,効率的なテスト時スケーリングを可能にする画像生成手法を確立すること。
- ImAgentは,推論,生成,自己評価を統合した統一的なフレームワークであり,追加モジュールを必要としない。
- ImAgentは,バックボーンモデルを上回り,特にバックボーンモデルが失敗する場合でも,他の強固なベースラインを超える性能を示す。
- 複数の生成アクションが動的に相互作用し,自己組織化することで,画像の忠実性と意味的整合性を高める。
FarSkip-Collective:Mixture of Expertsモデルにおけるブロッキング通信の解消 [cs.LG]目的:Mixture of Expertsモデルにおける分散効率的な通信手法
- 大規模言語モデルの発展に伴い,分散学習の重要性が増している。
- 分散環境下では,通信がボトルネックとなり,学習効率を低下させる場合がある。
- 計算と通信のオーバーラップにより,分散学習の効率向上を目指す。
- FarSkip-Collectiveは,モデルアーキテクチャを修正し,計算と通信のオーバーラップを実現する。
- 16Bから109Bパラメータまでの最先端モデルを変換し,元のモデルと同等の精度を維持した。
- Llama 4 Scout (109B)の自己蒸留により,指示チューニング版と同等の平均精度を達成した。
ひずみゲージ時系列分類のためのグローバル特徴抽出・融合フレームワーク [cs.RO, cs.LG, cs.AI]目的:ひずみゲージ状態時系列の認識精度向上
- IoTに基づくインテリジェント製造において,機械部品の故障を早期に検出し,事故を防ぐ上で重要である。
- CNNなどの深層学習モデルは時系列分類に有効だが,グローバル特徴の抽出が苦手である。
- グローバル特徴を抽出・融合することで,ひずみゲージ時系列の表現力を高め,認識精度を向上させる。
- 本研究では,ハイパーグラフに基づいたグローバル特徴学習・融合フレームワークを提案した。
- 提案手法は,産業用ひずみゲージデータおよびUCRデータセットで検証し,未知データに対する汎化性能が向上することを示した。
- グローバル特徴を特徴量エンジニアリングによって構築し,局所特徴間の高次関係を学習することで実現した。
表現と学習パラダイムの変化下における分布外検出の体系的分析 [cs.LG, cs.CV]目的:分布外検出手法の性能評価と,その性能に影響を与える要因の解明
- 機械学習モデルの信頼性確保のため,未知のデータに対する検出能力が重要視されている。
- 分布外検出は,学習データと異なる分布のデータに対する性能が課題となっている。
- 表現学習パラダイムと学習方法が分布外検出に与える影響を明らかにすること。
- 分布外検出の性能は,学習された特徴空間に大きく依存することが明らかになった。
- CNNでは,より強いシフト下で幾何学的なスコアが優位に立ち,ViTではGradNormやKPCA Reconstruction Errorが競争力を持つ。
- ニューラルコラプスに基づく幾何学的分析により,プロトタイプや境界に基づくスコアが最適な条件が説明された。
双方向通信圧縮のための1ビットランダムスケッチを用いたパーソナライズされた連合学習 [eess.SY, cs.SY, math.OC, cs.LG]目的:分散型データにおける協調的な学習
- データが分散している環境下での機械学習の重要性が高まっている。
- 通信コストとクライアント側のデータ異質性が連合学習の課題となっている。
- 1ビットランダムスケッチによる極端な通信圧縮で,データ異質性に対応する。
- 提案手法pFed1BSは,通信コストを大幅に削減し,高性能を達成する。
- クライアントは1ビットスケッチを送信し,サーバーはグローバルな合意をブロードキャストする。
- 記号ベースの正則化により,ローカルモデルがグローバル合意と整合しつつ,データ特性を維持する。
電力系統復旧のための異種マルチエージェント近接方策最適化 [cs.AI]目的:大規模停電後の電力系統復旧における方策決定
- 電力供給の安定化は社会経済活動の根幹であり,迅速な復旧が不可欠である。
- 複雑な制約条件と分散型エネルギー資源の調整が,復旧プロセスの最適化を困難にしている。
- 連携マイクログリッドを考慮した復旧におけるスケーラビリティと安定性を向上させる。
- 提案手法であるHAPPOは,PPOやQMIXなどの既存手法と比較して,復旧電力量,収束性,再現性で優位性を示した。
- 特にIEEE123系統および8500ノード系統において,95%以上の負荷を低遅延で復旧することに成功した。
- 本研究は,リアルタイムでの電力系統復旧を支援する実用的な枠組みを提供する。
マルチモーダル合成画像に対する物理ベースのベンチマーク指標 [cs.CV, cs.AI]目的:マルチモーダル合成画像の評価指標
- 画像生成技術の発展に伴い,生成された画像の品質評価が重要になっている。
- 既存の評価指標は,特にドメイン特化型や文脈依存型シナリオにおいて,意味的・構造的正確性を捉えきれない。
- 意味的・構造的正確性を向上させる新たな評価指標を提案し,既存指標の限界を克服する。
- 提案手法PCMDEは,大規模言語モデルと推論,知識ベースマッピング,視覚言語モデルを組み合わせることで,既存指標の課題を克服する。
- PCMDEは,物体検出やVLMによる空間・意味情報の抽出,コンポーネントレベルの検証,物理に基づいた推論の3段階で構成される。
- 物理的制約(配置,位置,一貫性など)を考慮した評価により,より正確な画像の品質評価が可能となる。
EntroPIC:比例積分制御によるエントロピー安定化を通じたLLMの安定長期トレーニングへ [cs.LG, cs.AI]目的:大規模言語モデルの安定した長期トレーニング
- LLMの性能向上には,長期間にわたる学習が不可欠である。安定的な探索が重要となる。
- 既存手法では,正例と負例のバランスが崩れ,適切なエントロピー維持が困難である。
- 正例と負例の損失係数を動的に調整し,エントロピーを安定化させること。
- 提案手法EntroPICは,正例と負例の寄与を調整し,学習中のエントロピーを安定化させる。
- 理論的分析により,EntroPICが大規模LLMトレーニングにおいてエントロピーを制御できることが示された。
- 実験結果は,EntroPICが目標とするエントロピーレベルを維持し,LLMの安定したRLトレーニングを可能にすることを示している。
GEO-Bench-2:性能から能力へ,地理空間AIの評価の再考 [cs.PF, cs.CV, cs.AI]目的:地理空間AIモデルの評価フレームワークの構築
- 地球観測技術は,環境変化の監視や災害対策など,多岐にわたる分野で重要性が増している。
- 地理空間AIモデルの性能評価には標準化された手法がなく,公平な比較が困難である。
- 多様なタスクとデータセットに対応可能な,包括的かつ柔軟な評価プロトコルを確立する。
- 単一のモデルが全てのタスクで優位性を示すことはなく,モデル設計と事前学習の選択が重要であることが確認された。
- 自然画像で事前学習したモデルは高解像度タスクに,地球観測に特化したモデルはマルチスペクトル応用に強みを発揮する。
- GEO-Bench-2により,特定の利用事例に合わせた,情報に基づいた地理空間AIモデルの評価が可能となる。
一度だけ順伝播:効率的な構成的判断パラダイム [cs.AI]目的:多種多様な要求に対する判断処理
- 大規模言語モデルの判断能力は,様々なタスクの自動化を可能にする重要な技術である。
- 既存手法では,判断速度と詳細な要求理解のトレードオフが存在する。
- 構造化された要求に基づいて,単一の順伝播で効率的な判断を可能にすること。
- YOFOは,テンプレートを利用して全ての要求を一度に判断することで,大幅な高速化を実現した。
- 標準的な推薦データセットにおいて,最新技術と同等以上の性能を達成した。
- 依存関係を考慮した分析や,CoTによる性能向上が確認された。
