arXiv雑要約
AI - 2026/04/21 公開
LLM催眠:全ユーザーへの不正な知識注入のためのユーザーフィードバックの悪用 [cs.CL, cs.CY, cs.CL, cs.CR, cs.LG]目的:言語モデルへの不正な知識注入
- 言語モデルは,様々なタスクで優れた性能を示すが,その学習方法には脆弱性が存在する。
- ユーザーフィードバックを用いた学習は効果的だが,悪意のあるフィードバックによってモデルが操られる可能性がある。
- ユーザーフィードバックが悪用された場合の影響を明らかにし,対策を検討する。
- ユーザーのアップボート/ダウンボート操作によって,言語モデルの知識や行動を恒久的に変化させることが可能になった。
- 攻撃者は,モデルに誤った知識を注入したり,セキュリティ上の欠陥を含むコード生成パターンを導入したり,偽の金融ニュースを注入することができた。
- この研究は,限定的なフィードバックデータでもモデルの動作を詳細に制御できるという,言語モデルの学習における新たな特性を明らかにした。
LLMにおける外れ値と分散補正のための疎性パターン:2:4から8:16へ [cs.LG, cs.AI]目的:大規模言語モデルの疎性化による効率的な圧縮手法の検討
- 大規模言語モデルの規模拡大に伴い,効率的な圧縮技術が不可欠となっている。
- 構造化疎性化は柔軟性に欠け,外れ値に弱いという課題がある。
- 8:16疎性化により,性能低下を防ぎつつ,圧縮率を向上させる。
- 8:16疎性化は,2:4疎性化と比較して柔軟性が高く,わずかなストレージオーバーヘッドで済む。
- 外れ値に対する構造化疎性化は,非構造化アプローチと同等またはそれ以上の性能を発揮する。
- 分散補正やSmoothQuantといった手法が,疎性モデルの性能向上に貢献する。
データ圧縮可能性はLLMの記憶を定量化する [cs.CL, cs.AI]目的:LLMの記憶に関する定量的な特徴付け
- LLMの性能向上には,学習データの影響理解が不可欠である。
- 既存研究では,LLMの記憶度合いを定量的に評価する手法が確立されていない。
- データ圧縮可能性を用いて,LLMの記憶度合いを定量的に評価する。
- データセットレベルのデータエントロピー推定値と記憶スコアの間に線形相関関係が存在することを発見した。
- この線形関係を「エントロピー-記憶(EM)線形性」と名付けた。
- インスタンスレベルからセットレベルの指標への移行が,信頼性の高い定量的な測定を可能にした。
大規模言語モデルの効率的な線形化フレームワーク Lizard [cs.CY, cs.SI, cs.CL, cs.LG]目的:大規模言語モデルの線形化
- 自然言語処理の発展に伴い,大規模言語モデルの重要性が増している。
- Transformerモデルは,長文処理において計算量とメモリ消費量の課題を抱える。
- 文脈長によるメモリ制約を克服し,効率的な推論を実現すること。
- Lizardは,softmax attentionを近似しつつ,モデルの性能を維持するsubquadratic attention機構を導入した。
- 既存の線形化手法とは異なり,適応的なメモリ制御と優れた長さの一般化を実現する学習可能なモジュールを追加した。
- ゲート付きattentionにおける数値的不安定性を解決するハードウェア対応アルゴリズムを開発し,学習を加速した。
MetaLint:コードリンティングにおける容易から困難への汎化 [cs.RO, cs.SE, cs.CL, cs.LG]目的:コードリンティングの汎化性能向上
- コードの品質維持はソフトウェア開発において不可欠であり,自動リンティングはその重要な役割を担う。
- 既存のリンティングモデルは,学習データにないコーディング規約への対応が困難である。
- 自然言語による仕様に基づいた評価により,未知の規約にも対応可能なリンティング手法を確立する。
- MetaLintは,コードリンティングを指示追従タスクとして捉え,自然言語による規約に基づいてコードを評価する。
- 合成データのみで学習しても,自動リンターでは対応できない高度な規約への汎化が可能であることが示された。
- Qwen3-4Bは,Fスコアを2.7倍に向上させ,大規模モデルに匹敵する性能を達成した。
視覚が知識を上書きするとき:視覚言語モデルにおける知識の衝突の解明 [cs.CV, cs.AI]目的:視覚言語モデルにおける知識の衝突解決メカニズムの調査
- 近年,視覚とテキスト情報を組み合わせるモデルが発展し,複雑なタスクの実行が可能となっている。
- モデル内部の知識と視覚入力の矛盾が,誤った予測や幻覚を引き起こす可能性がある。
- モデルが知識の衝突をどのように解決するか,そのメカニズムを明らかにすること。
- モデル内の少数の注意ヘッドが,この衝突を仲介していることが判明した。
- これらのヘッドに介入することで,モデルの知識または視覚情報への誘導が可能になる。
- 特定された注意ヘッドのパターンは,勾配ベースの手法よりも正確な帰属を提供し,視覚的優先の根拠となる画像領域を特定する。
CMSトリガーシステムにおける横運動量推定のための物理情報に基づいたグラフニューラルネットワーク [cs.CL, cs.LG]目的:高エネルギー物理実験におけるリアルタイムな粒子横運動量推定アルゴリズムの開発
- 高エネルギー物理実験では,素粒子を高速かつ正確に検出する必要があり,そのために高性能なアルゴリズムが不可欠である。
- 従来の機械学習モデルは,高パイルアップ環境下で性能が劣化し,物理的制約を考慮した最適化が困難である。
- 本研究は,物理的情報をグラフニューラルネットワークに組み込むことで,効率性と精度を両立した横運動量推定を可能とする。
- 提案手法は,従来の深層学習モデルと比較して,パラメータ数を大幅に削減しながら,高い精度を実現した。
- 特に,ステーション情報を活用したEdgeConvモデルは,最先端の平均絶対誤差0.8525を達成し,TabNetよりも55%以上のパラメータ削減に成功した。
- 擬ラピディティ中心のMPL構成も,同等の効率性を維持しつつ,精度向上を示した。これにより,リソース制約のあるトリガーシステムへの展開が期待される。
認知連鎖思考(CoCoT):社会的状況に関する構造化されたマルチモーダル推論 [cs.CL, cs.AI, cs.CY]目的:社会的状況におけるマルチモーダル推論の構造化
- AIが人間の社会性を理解し,適切な行動をとるためには,視覚情報と常識に基づいた推論が不可欠である。
- 従来のCoTは,知覚,理解,判断を同時に行う必要のあるマルチモーダルな社会的タスクにおいて,性能が低下する。
- 認知科学に基づいた段階的推論フレームワークCoCoTにより,マルチモーダルな社会的推論の精度と解釈可能性の向上を目指す。
- CoCoTは,知覚,状況推論,規範適用という3つの段階でVLMの推論を構造化する。
- 多様なタスクにおいて,CoCoTは一貫して性能向上(平均5.9%~4.6%)を示した。
- CoCoT構造化データでの教師ありファインチューニングは,推論時のCoCoTプロンプトなしで5〜6%の性能向上をもたらし,モデルが構造化された推論パターンを内面化することを示した。
アノテーション支援による多角的な電子カルテからの治療方針学習 [cs.LG, cs.AI, stat.ML]目的:多角的な電子カルテからの治療方針の学習
- 医療の質向上に不可欠であり,効率的な資源配分を可能にするため。
- 多角的なデータに対する因果推論は仮定が難しく,バイアスが生じやすい。
- アノテーションを活用し,因果推論の精度を高め,治療効果の予測を改善する。
- 提案手法AACEは,合成データ,半合成データ,実際の電子カルテデータにおいて,既存手法を上回る性能を示した。
- AACEは,専門家によるアノテーションを活用し,交絡調整を支援することで,治療効果の推定精度を向上させる。
- 臨床現場における因果機械学習の実用的な適用に向けた洞察を提供する。
料理の交差点:異文化レシピ適応を強化するRAGフレームワーク [cs.CL, cs.RO, cs.CL, cs.AI, cs.CY, cs.IR, cs.LG]目的:異文化レシピ適応における多様性の向上
- 食文化のグローバル化が進み,多様な食ニーズへの対応が重要になっている。
- 既存のレシピ適応手法では,文化的な適切性と多様なニーズへの対応が課題である。
- RAGの多様性不足を解消し,複数利用者の嗜好に合わせたレシピ適応を実現する。
- 本研究では,RAGが文脈の限られた部分に偏り,多様な出力を生み出せないという課題を明らかにした。
- CARRIAGEは,検索と文脈整理の両方において多様性を高めるRAGフレームワークである。
- 実験の結果,CARRIAGEはレシピ適応の多様性と品質において,LLMと比較してパレート効率を実現した。
NaturalGAIA:長期的GUIタスクのための検証可能なベンチマークと階層的フレームワーク [cs.CL, cs.CE, cs.AI]目的:長期的GUIタスクにおける検証可能な評価とフレームワーク
- GUIエージェントは,人間とのインタラクションを自動化する上で重要な役割を担う。
- 現実的なGUI環境と検証可能な評価指標を両立させることには課題がある。
- 自然な人間行動を模倣し,複雑なGUIタスクを効率的に実行することを目指す。
- NaturalGAIAは,現実の人間によるGUI操作に基づいて構築された検証可能なデータセットである。
- 提案手法LightManus-Jarvisは,既存の最先端手法と比較して,成功率が大幅に向上した。
- トークン消費量と実行時間がそれぞれ75%と76%削減され,効率性が実証された。
R3A:ユーザー生成コンテンツプラットフォームにおけるRAGのための関連性評価のための強化学習 [cs.CL, cs.IR, cs.AI]目的:RAGにおける関連性評価の精度向上
- ユーザー生成コンテンツプラットフォームは情報検索の主要な手段であり,その品質が利用者の体験を大きく左右する。
- RAGでは,曖昧なユーザーの意図と,局所的な関連性に着目する必要がある点が課題である。
- 本研究は,意図推論と証拠に基づいた関連性判断により,RAGにおける関連性評価の精度を高めることを目指す。
- R3Aは,関連性評価を意図推論と証拠の特定に分解することで,ノイズに強く非対称な関連性を適切にモデル化する。
- オフライン評価において,R3Aは既存の強化学習モデルを大幅に上回る性能を示した。
- 蒸留されたR3A-1.5Bモデルは,大規模なオンラインA/Bテストにおいて,性能と実用性のバランスを実現した。
パルス波形識別アルゴリズム:サーベイとベンチマーク [cs.LG, cs.AI, nucl-ex, physics.app-ph, physics.atom-ph]目的:放射線検出におけるパルス波形識別アルゴリズムの性能評価
- 放射線検出は,核セキュリティ,医療診断,環境モニタリング等,幅広い分野で不可欠である。
- 従来のパルス波形識別は,アルゴリズムの比較が難しく,客観的な評価が課題であった。
- 様々なアルゴリズムを標準データセットで評価し,客観的な性能比較を可能にすること。
- 深層学習モデル,特に多層パーセプトロン(MLP)が,従来の統計的手法を凌駕する性能を示すことが明らかになった。
- 統計的特徴量とニューラル回帰を組み合わせたハイブリッド手法も高い性能を発揮することが示唆された。
- Figure of Merit (FOM) の限界や,代替評価指標の必要性についても議論された。
PrinciplismQA:哲学に基づいたLLMと人間の臨床医療倫理適合性の評価手法 [cs.CL, cs.AI]目的:臨床医療におけるLLMの倫理的推論能力の評価
- 医療現場へのAI導入が進む中,倫理的な観点からの安全性が不可欠である。
- 既存の評価基準は,倫理的判断の複雑さを捉えきれていない。
- LLMの臨床倫理適合性を客観的に評価する手段の確立。
- PrinciplismQAは,臨床倫理学の哲学理論に基づいたLLM評価手法である。
- 専門家による検証済みの3,648問で構成され,倫理的バイアスの検出も可能である。
- 評価の結果,知識精度が高いLLMでも倫理的推論に課題があることが示された。
EvoCoT:強化学習における探索のボトルネック克服 [cs.LG]目的:強化学習における探索のボトルネックの克服
- 大規模言語モデルの推論能力向上は重要であり,そのための手法が求められている。
- 報酬が疎である場合,探索が困難になり,学習効率が低下する問題が存在する。
- EvoCoTは,自己進化的なカリキュラム学習により,この探索のボトルネックを解消することを目指す。
- EvoCoTは,2段階の思考連鎖(CoT)推論最適化に基づき,CoT軌跡を自己生成・検証することで探索空間を制約する。
- その後,CoTステップを徐々に短縮することで,制御された方法で探索空間を拡大する。
- 実験の結果,EvoCoTは,これまで解けなかった問題を解決し,外部からのCoT supervisionなしに推論能力を向上させることが示された。
テスト時制約付き共同生成のための射影結合拡散 [cs.LG]目的:テスト時における制約付き共同生成
- 拡散モデルは生成性能が高いが,タスク特化には再学習が必要となる場合が多い。
- 複数の拡散モデルからの相関のあるサンプル生成と,制約条件の同時適用は困難である。
- 再学習コストを抑えつつ,タスク制約を満たす共同生成を実現することを目指す。
- 提案手法PCDは,拡散モデル間の協調を促す結合ガイダンス項と制約適用用の射影ステップを導入する。
- 画像ペア生成,物体操作,マルチロボットモーションプランニングで有効性が確認された。
- PCDは,計算コストを抑えつつ,結合効果の向上と制約条件の保証された充足を実現した。
ToxiFrench:Chain-of-Thoughtファインチューニングによるフランス語毒性検出のための言語モデルのベンチマークと強化 [cs.CL, cs.CL, cs.AI, cs.CY]目的:フランス語のオンラインコメントにおける毒性検出
- 言語モデルによる毒性コンテンツの検出は,オンラインコミュニティの健全性を維持する上で不可欠である。
- フランス語の毒性検出は,大規模で文化的に適切なアノテーション済みデータセットの不足により,遅れをとっている。
- 本研究は,フランス語の毒性検出における言語モデルの性能向上を目指す。
- 本研究では,53,622件のフランス語オンラインコメントから構成されるToxiFrenchデータセットを公開し,系統的な評価のためのベンチマークを提示した。
- 小規模言語モデル(SLM)が,大規模モデルを凌駕する堅牢性と汎化性を示すという意外な知見が得られた。
- 動的重み損失(DWL)を用いたChain-of-Thought(CoT)ファインチューニング戦略により,4Bモデル(Qwen3-4B)の性能が大幅に向上し,GPT-4oやDeepSeek-R1を上回った。
HeroBench:仮想世界における長期計画と構造化された推論のためのベンチマーク [cs.CL, cs.AI]目的:仮想世界における長期計画と構造化された推論の評価
- 大規模言語モデルの応用範囲拡大のため,現実的な制約下での長期計画能力の評価が重要である。
- 既存の計画ベンチマークは抽象的なドメインやインタラクティブなフィードバックに依存し,計画の失敗や実行可能性の問題が隠蔽されやすい。
- 大規模言語モデルの長期計画能力を評価し,その課題を明確化することを目的とする。
- HeroBenchは,複雑なRPG風の仮想世界で,数値的な装備選択,多段階のクラフト,リソース依存性の推論を必要とする。
- 25種類の最先端LLMの評価から,従来の推論ベンチマークでは見られない大きな性能差が明らかになった。
- 推論モデルはある程度の性能を示すものの,最も難しいタスクを確実に解決できるモデルは存在せず,長期的な自律計画における課題が残されている。
ORThought:ロジスティクス最適化モデリングのベンチマークと自動化 [cs.AI]目的:ロジスティクス最適化モデリングのベンチマークと自動化手法
- ロジスティクスや輸送における科学的な意思決定の根幹を担うが,専門知識の壁が高い。
- 既存手法は,高品質なベンチマークの不足や,不安定な自律型マルチエージェントフレームワークが課題。
- 大規模言語モデルを用いたロジスティクス最適化モデリングの自動化を促進し,その課題を解決する。
- 新たなベンチマーク「LogiOR」を開発し,既存データセットを拡充することで,コミュニティでの利用を支援した。
- 専門家レベルのモデリング原則を組み込んだ「ORThought」フレームワークを提案し,自律エージェントの冗長性を排除した。
- ORThoughtは,最先端のベースラインを9-17パーセントポイント上回り,複雑な制約の処理とトークン効率に優れることが示された。
VocabTailor:小規模言語モデルにおけるダウンストリームタスクのための動的な語彙選択 [cs.CL, cs.CL, cs.AI, cs.LG]目的:小規模言語モデルの語彙選択の最適化
- リソース制約環境下での計算効率が求められるため,小規模言語モデルの研究が重要である。
- 大規模な語彙サイズが,メモリ使用量の増加を招き,エッジデバイスへの展開を妨げている。
- 動的な語彙選択によりメモリ使用量を削減し,性能劣化を最小限に抑えることを目指す。
- VocabTailorは,語彙関連コンポーネントのメモリ使用量を最大99%削減できることを示した。
- 従来の固定的な語彙プルーニングと比較して,タスク性能の低下を最小限に抑えることが確認された。
- 埋め込み層のオフロードと,LMヘッドにおけるハイブリッドな語彙選択戦略が効果的であることが示された。
LLMにおけるユーザー・アシスタント間の偏り [cs.CL, cs.AI, cs.HC]目的:LLMにおけるユーザーとアシスタントの役割タグに関連する偏りの存在とその制御
- 大規模言語モデルの性能向上には,多様なデータを用いた学習が不可欠である。
- 役割タグ付き学習データにおける非対称性が,モデルに潜在的な偏りを生じさせる可能性がある。
- ユーザーとアシスタントの役割情報が矛盾する場合に生じる,モデルの偏りを定量的に評価し,制御すること。
- 提示されたUserAssistベンチマークにより,多くの命令調整済みモデルが強いユーザー偏りを示すことが確認された。
- 人間の選好による強化学習がユーザー偏りを増幅し,推論能力の強化がそれを軽減することが明らかになった。
- 直接選好最適化(DPO)によるUserAssist-trainを用いた制御により,バイアスを双方向に制御し,現実的な議論データセットへの汎化性が確認された。
記憶を超えて:再帰,メモリ,テスト時計算規模による推論深さの拡張 [eess.SY, cs.SY, cs.CL, cs.LG, cs.AI]目的:多段階推論の学習と実行のメカニズム解明
- 大規模言語モデルの根幹能力であり,複雑な問題解決に不可欠である。
- 推論ステップ数が増加すると性能が著しく低下する。
- 再帰,メモリ,テスト時計算規模を用いて推論深さを拡張する。
- 大規模言語モデルは,本研究で提案するタスクの自然言語版を確実に解決できないことが示された。
- ニューラルネットワークは,ルール推論を学習し,次のステップの精度は高いが,必要な推論ステップ数が増加すると性能が低下する。
- モデルの深さを増すことが重要であり,再帰,メモリ,テスト時計算規模による深さの拡張が有効であることが確認された。
EyeMulator:人間の視覚的注意を模倣することによるコード言語モデルの改善 [cs.SE, cs.AI, cs.HC]目的:コード言語モデルの注意機構と人間の視覚的注意の整合性向上
- コード理解において,人間の視覚的注意は重要な役割を果たす。効率的なコード解析に不可欠である。
- 既存のコード言語モデルは統計的相関のみに基づいており,人間の注意パターンを反映していない。
- 人間の視覚的注意を模倣することで,コード言語モデルの性能向上を目指す。
- EyeMulatorは,StarCoder,Llama-3.2,DeepSeek-Coderにおいて,ベースラインモデルを大幅に上回る性能を示した。
- 翻訳タスクではCodeBLEUが30ポイント以上,要約タスクではBERTScoreが最大22ポイント向上した。
- この性能向上は,人間の注意動態の再現に起因することが,消去実験によって確認された。
BASIL:LLMにおける追従性のベイズ的評価 [cs.AI, cs.CL]目的:LLMにおける追従性の評価基準と軽減策
- AIと人間の協働において,特に医療や法律などの重要な意思決定場面で,追従性は大きな課題となる。
- LLMにおける追従性の研究では,合理的な信念の変化と,追従的な信念の変化を区別することが困難である。
- 本研究は,合理的な信念更新と追従性を明確に分離するベイズ確率的枠組みを提案し,評価基準を提供する。
- 提案手法により,証拠に対する合理的な反応を制御しながら追従性を測定する記述的指標と,ベイズ整合的な信念更新からの逸脱を定量化する規範的指標が開発された。
- 複数のLLMと不確実性を伴うタスクを用いた実験で,LLMが追従的な信念の変化を示すことが確認された。その影響は信念の過小評価または過大評価に依存することが示された。
- 事後調整やファインチューニング(SFT,DPO)といった手法が,ベイズ的不整合を大幅に軽減し,特に追従性に関するプロンプトを用いることで改善効果が高まることが示された。
EduRABSA:教育レビューにおけるアスペクトベース感情分析のためのデータセット [cs.CL, cs.LG]目的:教育レビューに対するアスペクトベース感情分析タスクのためのデータセット
- 教育機関は学生からのフィードバックを重視しており,その分析は教育改善に不可欠である。
- 教育レビューの複雑さと詳細な分析ニーズから,自動的な意見抽出が困難であった。
- 教育分野に特化した高品質なアスペクトベース感情分析データセットの不足を解消する。
- 本研究では,教育レビューに特化したアスペクトベース感情分析の公開データセットEduRABSAを新たに提供する。
- EduRABSAは,コース,教員,大学の3つのレビュー対象と,暗黙的なアスペクト・意見抽出を含む主要なタスクを網羅する。
- データアノテーションツールASQE-DPTも公開し,研究の透明性と再現性を促進する。
行き過ぎたリッジ:負の正則化による過剰収縮の修正 [cs.LG, cs.AI, stat.ML]目的:小データ回帰における過剰収縮の修正
- 回帰分析は予測モデル構築の基礎であり,様々な分野で活用されている。
- 小データ回帰では,正則化が分散制御のために用いられるが,予測信号が弱い方向に集中する場合,アンダーフィッティングを悪化させる可能性がある。
- 負の正則化を導入し,弱い固有方向への効果的な複雑度増加を通じてアンダーフィッティングを改善することを目指す。
- 負の正則化可能なリッジ系列を導入し,推定子が適切に定義される範囲で負の領域を許容する。
- 負の正則化は,弱い固有方向において効果的な複雑度を最も強く増加させることで,制御された反収縮として機能する。
- 実験結果は理論的知見を支持し,実現可能性,スペクトル複雑度の増加,符号切り替え動作,および予測される範囲における負の調整の有効な回復を確認した。
自律宇宙探査のための適応型量子化クレーター検出システム [cs.CL, cs.LG, cs.AI, cs.CV, cs.ET, cs.SY, eess.SY]目的:惑星クレーターの自律検出システムの理論的アーキテクチャ
- 宇宙探査は科学的発見と人類の知識拡大に不可欠であり,その重要性は増している。
- 高性能な深層学習モデルは計算資源を大量に消費し,宇宙探査機の限られた計算能力との乖離が生じている。
- 限られた計算資源下で高精度な環境認識を実現し,自律的な惑星探査を可能にすること。
- 本研究では,INT8量子化ニューラルネットワークと適応型マルチセンサー融合モジュールを組み合わせたAQ-PCDSysの理論的アーキテクチャを提案した。
- 空間的注意機構における整数再量子化乗数を導出し,光学画像とデジタル標高モデルを特徴レベルで能動的に選択・融合することで,信頼性の高い知覚を実現する。
- アンカーフリーな中心からエッジへの回帰ヘッドとFP16座標変換を用いることで,非対称な月面のクレーターを高精度に検出可能となる。
Bi-LoRA:大規模モデルのファインチューニングのための効率的なシャープネスアウェア最小化 [cs.LG, cs.AI]目的:大規模モデルの汎化性能向上
- 近年の大規模言語モデルは高性能だが,学習データが限られると汎化性能が低下しやすい。
- シャープネスアウェア最小化(SAM)は有効だが,メモリと計算コストが大きく,大規模モデルには不向きである。
- LoRAとSAMを組み合わせることで効率的な汎化性能向上を目指す。
- Bi-LoRAは,SAMの摂動をモデル化する補助的なLoRAモジュールを導入することで,メモリ効率を維持しながらシャープネスを最適化する。
- 二つのモジュールによる設計により,SAMの計算コストを削減し,同時最適化と摂動を可能にした。
- 多様なタスクとアーキテクチャにおける実験により,Bi-LoRAの効率性と汎化性能向上が示された。
RefineStat:確率的プログラム合成における効率的な探索 [cs.LG, cs.PL]目的:確率的プログラム合成のための効率的な探索手法
- 不確実性のモデリングに有用な確率的プログラミングの分野において,効率的なモデル探索は重要な課題である。
- 小規模言語モデルによる確率的プログラム生成では,構文的・意味的エラーが頻発し,信頼性の高いプログラムを得ることが困難である。
- 確率的プログラミングの専門家の知識に着想を得て,RefineStatは意味的制約と診断に基づいた改良によって,より信頼性の高いプログラム生成を目指す。
- RefineStatは,合成されたプログラムが有効な分布と適切なパラメータを持つことを保証する意味的制約を適用する。
- 信頼性チェックに失敗した場合,事前分布または尤度成分を再サンプリングすることで診断に基づいた改良を行う。
- 実験の結果,RefineStatは構文的に正しく,統計的にも信頼性の高いプログラムを生成し,大規模言語モデルと同等またはそれ以上の性能を示す。
大規模言語モデル向けエージェント型強化学習の現状:サーベイ [cs.AI, cs.CL]目的:大規模言語モデルにおけるエージェント型強化学習の状況把握と今後の展望
- 大規模言語モデルの進化に伴い,自律的な意思決定を行うエージェントとしての活用が期待されている。
- 従来の強化学習は,言語モデルを単なるシーケンス生成器として扱っており,複雑な環境での自律性に課題があった。
- 言語モデルをエージェントとして機能させるための能力(計画,ツール利用,記憶など)とその応用範囲を体系的に整理する。
- 本調査は,従来の強化学習とエージェント型強化学習の違いを明確化し,後者の概念的基盤を提示している。
- エージェント型強化学習の中核となる能力と応用分野を分類した包括的な分類体系を提案している。
- オープンソース環境,ベンチマーク,フレームワークをまとめることで,今後の研究を促進する一助となる。
機能的断片化による大規模言語モデルの評価 [cs.HC, cs.AI, cs.CL]目的:大規模言語モデルの評価手法の改善
- 生成AIの性能評価において,LLMを評価者として活用する手法が普及している。
- LLMによる評価は全体的なスコアしか提示せず,評価根拠が不明確である。
- 出力要素を細分化し,評価基準との関連性を分析することで,評価の透明性を高める。
- 提案手法「機能的断片化」は,出力を構成要素に分解し,各要素の役割を可視化する。
- ユーザ調査の結果,本手法を用いることで,従来の評価における誤りを48%多く発見できることが示された。
- LLM評価を定量的なスコアから,定性的な詳細分析へと移行させる。
GLMYホモロジーを用いた貯留槽のトポロジー構造最適化 [cs.LG]目的:貯留槽のトポロジー構造最適化手法
- 時系列データ処理において,貯留槽は効率的なネットワークとして注目されている。
- 貯留槽の構造と性能の関係は不明確であり,適切な数学的ツールが不足している。
- GLMYホモロジー理論を用いて,貯留槽の構造を分析し,性能向上を目指す。
- 貯留槽の性能と一次元のGLMYホモロジー群が密接に関連していることが示された。
- 一次元のGLMYホモロジー群の最小代表サイクルを修正することで,貯留槽構造を最適化する手法が開発された。
- 実験により,貯留槽の性能は構造とデータセットの周期性に依存することが確認された。
大規模行列最適化のための低ランク直交化:ファウンデーションモデル学習への応用 [cs.LG, math.OC]目的:ニューラルネットワーク学習における大規模行列最適化手法
- ニューラルネットワーク学習は行列最適化問題であり,その効率化は重要である。
- 既存手法では,ニューラルネットワークパラメータの行列構造が十分に活用されていない。
- 勾配の低ランク性を利用した直交化により,学習効率を向上させることを目指す。
- 低ランク直交化が,従来の直交化手法よりも優れた性能を示すことが実験的に確認された。
- 低ランクMuonは,GPT-2およびLLaMAの事前学習において,調整済みの従来のMuonを上回る結果を達成した。
- 低ランクMSGDおよびMuonの反復計算量の理論的な複雑性解析を行った。
LEAF: 教師モデルに合致した表現を用いたテキスト埋め込みモデルの知識蒸留 [cs.IR, cs.CL, cs.LG]目的:テキスト埋め込みモデルの知識蒸留
- テキスト埋め込みは,情報検索や自然言語処理の様々なタスクにおいて重要な役割を担う。
- 大規模モデルの推論コストが高く,リソースの限られた環境での利用が課題となる。
- 教師モデルの知識を軽量なモデルに効率的に転移し,推論コストを削減すること。
- LEAFは,教師モデルに合致した表現を持つ軽量な埋め込みモデルを生成する知識蒸留フレームワークである。
- 情報検索において,教師モデルでドキュメントをエンコードし,軽量なモデルでクエリを処理する非対称アーキテクチャを可能にする。
- BEIRベンチマークにおいて,23Mパラメータのleaf-irモデルがSOTAを達成し,MTEB v2(English)でも同様の結果を示した。
大規模言語モデルにおける知識駆動型ハルシネーション:プロセスモデリングに関する実証研究 [cs.AI]目的:大規模言語モデルにおける知識駆動型ハルシネーションの評価
- 近年,大規模言語モデルは分析的タスクにおいて有用性が増しており,その知識活用が注目されている。
- 大規模言語モデルは,事前学習された知識に過度に依存し,提供された情報源と矛盾する出力を行うことがある。
- 本研究は,大規模言語モデルが知識によって誤った情報を生成するメカニズムを解明し,その対策を検討する。
- 本研究では,プロセスモデリングのタスクを用いて,大規模言語モデルが提供された証拠よりも事前知識を優先する現象を実証した。
- 実験の結果,標準的なプロセス構造と意図的に非標準的なプロセス構造の記述を入力することで,モデルの証拠への忠実度を定量的に評価することができた。
- この研究は,AI生成物の信頼性評価手法を提供し,証拠に基づく分野における厳格な検証の必要性を強調する。
効率的な影響関数へ: ドロップアウトを圧縮ツールとして [cs.DB, cs.LG, cs.AI]目的:機械学習モデルに対する学習データの影響評価
- モデルの挙動理解,透明性向上,データ選択に重要である
- 大規模モデルでは計算・メモリコストが課題となる
- ドロップアウトによる勾配圧縮で効率化を目指す
- 本研究では,ドロップアウトを勾配圧縮機構として活用する新しいアプローチを提案する。
- これにより,影響関数計算と勾配圧縮の計算・メモリ負荷を大幅に削減できる。
- 理論分析と実験により,データ影響の重要な要素を保持し,大規模モデルへの適用を可能にすることを示す。
低データ環境における言語モデルのバイアス効率的ファインチューニング: BEFT [cs.CL, cs.AI, cs.LG]目的:言語モデルのファインチューニングにおけるバイアス項の効率性
- 近年,大規模言語モデルの活用が広がる中で,計算資源の効率的な利用が重要となっている。
- 大規模言語モデルのファインチューニングには多大な計算コストが必要であり,低データ環境下では過学習のリスクがある。
- バイアス項のファインチューニングによって,計算コストを抑えつつ性能を維持・向上させることを目指す。
- バイアス項の中でも,特にValue projectionのバイアス項(b_v)のファインチューニングが,低データ環境下で高い性能を示すことが確認された。
- Encoder-onlyおよびDecoder-onlyを含む,最大67億パラメータまでの様々な言語モデルで検証された。
- 本研究は,Value projectionのバイアス項のファインチューニングが有効であることを強く示唆する。
TMD-TTS:チベット方言統一テキスト読み上げフレームワーク - U-Tsang,Amdo,Kham音声データセット生成に向けて [cs.IR, cs.CL, cs.NI, cs.CL, cs.AI]目的:チベット方言のテキスト読み上げフレームワーク
- チベット語は言語資源が乏しく,方言を網羅した音声コーパスの不足が課題である。
- 既存の音声モデルは,方言間の差異を捉えきれず,表現力に限界がある。
- 方言ラベルを利用し,高表現力な音声合成を実現することで,この課題を解決する。
- 提案手法TMD-TTSは,既存手法と比較して,方言表現力において有意な改善を示す。
- 方言融合モジュールとDSDR-Netにより,方言間の微細な音響・言語的差異を捉えることに成功した。
- 合成音声の品質と有用性は,音声から音声への方言変換タスクによって検証された。
PiERN:高精度計算と推論を統合するためのトークンレベルルーティング [cs.LG, cs.CE, cs.CL]目的:高精度計算と推論の統合アーキテクチャ
- 複雑なシステムの問題解決には数値計算が不可欠であり,LLMにその能力を組み込むことが求められている。
- 既存のLLMは計算能力を内部的に統合できず,マルチエージェントアプローチは通信コストが大きい。
- PiERNは計算と推論を効率的に統合し,LLMと科学システムのインターフェースを改善することを目指す。
- PiERNは,LLMのファインチューニングと比較して高い精度を達成した。
- マルチエージェントアプローチと比較して,応答時間,トークン使用量,GPU消費量を大幅に削減した。
- PiERNは,言語モデルと科学システムを連携させるための,効率的で解釈可能かつスケーラブルなパラダイムを提供する。
生成的な偏微分方程式基礎モデルのためのフローマーチング [cs.LG, cs.AI]目的:偏微分方程式に従う時空間軌跡の大規模データセットによる事前学習
- 物理現象のモデリングにおいて,汎用性の高いモデルの構築が求められている。
- 既存の基礎モデルは決定論的なTransformerアーキテクチャに依存しており,生成的な柔軟性に欠ける。
- 誤差の蓄積を抑制し,不確実性を考慮した生成を可能にする新しいモデルの開発。
- フローマーチングは,ニューラル演算子学習とフローマッチングを融合し,物理ダイナミクスの誤差蓄積を分析した結果生まれた。
- Physics-Pretrained Variational Autoencoder (P2VAE)とFlow Marching Transformer (FMT)を導入し,計算効率を大幅に向上させた。
- 実験では,Kolmogorov乱流に対する数ショット適応や,長期的なロールアウトの安定性が確認された。
非同期平均化Q学習における中心極限定理 [cs.LG, math.OC, stat.ML]目的:非同期更新下のPolyak-Ruppert平均化Q学習の中心極限定理の確立
- 強化学習は,自律的な意思決定を行うエージェントを開発する上で重要な役割を果たす。
- Q学習の収束速度は,探索の質や状態空間の大きさに大きく依存する。
- 非同期更新環境下におけるQ学習の収束特性を理論的に解明する。
- 本研究では,Wasserstein距離における収束率が,反復回数,状態行動空間のサイズ,割引率,探索の質に依存することを示す非漸近的な中心極限定理を証明した。
- また,部分和過程がブラウン運動に弱収束することを示す関数型中心極限定理を導出した。
デジタルツインは歪みの万華鏡:5つの主要な歪み [cs.CY, cs.AI, cs.HC, stat.AP]目的:デジタルツインの性能評価と課題の特定
- 社会科学や政策研究において,個人の行動理解が重要である。
- デジタルツインの予測精度や人間との相関が不明確である。
- デジタルツインの歪みを特定し,改善の方向性を示す。
- デジタルツインの予測精度は,ベースとなるLLMとわずかな差しかなく,人間との相関も低いことが示された。
- デジタルツインには,個性の不足,ステレオタイプ化,表現の偏り,イデオロギー的偏り,過度な合理性などの歪みが存在することが明らかになった。
- 研究データとコードを公開することで,デジタルツイン技術の評価と改善のための標準的なテストベッドを提供する。
CaTS-Bench:言語モデルは時系列データを記述できるか [cs.LG, cs.AI, cs.CV]目的:時系列データの記述能力評価のためのベンチマーク
- 時系列データは,金融,医療,科学など様々な分野で広く利用されており,その分析は重要である。
- 既存のベンチマークは合成データや汎用的なキャプションに依存しており,メタデータや視覚的表現が不十分である。
- 本研究は,時系列データに対する文脈を考慮した推論能力を評価し,より自然な記述を可能にすることを目的とする。
- CaTS-Benchは,11の多様なドメインを対象とした,人間が書き直した1746個の高品質なキャプションを含む包括的なベンチマークである。
- 最先端のVision-Languageモデルの評価により,数値的なニュアンスを捉えるのが難しいことが明らかになった。
- オープンソースモデルを合成データでファインチューニングすることで,大幅な性能向上が見られた。
TransformerデコーダーにおけるLayerNormが近接性バイアスを誘発する [cs.CL, cs.LG]目的:Transformerデコーダーにおける近接性バイアスのメカニズム解明
- Transformerは自然言語処理の基盤技術であり,性能向上が不可欠である。
- Transformerデコーダーは,通常,直近のトークンにバイアスがかかる傾向がある。
- LayerNormと因果的自己注意の相互作用が近接性バイアスに与える影響を明らかにする。
- 因果的自己注意層のスタック単体では位置バイアスが生じるが,LayerNormとの組み合わせで近接性バイアスが顕著になることが示された。
- 残差接続や入力トークン埋め込みの分布がこのバイアスに影響を与えることが確認された。
- 位置情報の表現方法に関する理論的な知見を提供し,位置エンコーディング戦略の改善の方向性を示唆する。
大規模言語モデルの非決定性因果モデルとしての解釈 [cs.AI]目的:大規模言語モデルにおける反事実の生成手法
- 大規模言語モデルの挙動理解は,その信頼性向上と応用範囲拡大に不可欠である。
- 既存手法は,言語モデルの解釈に曖昧さを持ち,実装変更がモデル自体に影響しないと仮定している。
- 意図された解釈に基づき,非決定性因果モデルとして反事実を生成する簡潔な手法を提案する。
- 本研究では,大規模言語モデルを非決定性因果モデルとして表現することで,実装詳細に依存しない反事実の生成を可能にした。
- 既存手法の利点と本手法の利点を明確化し,反事実生成の理論的基盤を提示した。
- これにより,特定用途に応じた新たな反事実生成手法の開発に向けた道筋を示した。
ファインチューンされたLLMジャッジの寿命:将来への対応,後方互換性,質問の一般化 [cs.CL, cs.AI, cs.LG]目的:ファインチューンされたLLMジャッジの寿命に影響を与える要素の分析
- LLMをジャッジとして利用する評価手法は,モデルの性能向上とアライメントに不可欠である。
- ファインチューンされたジャッジモデルの,将来のモデルや過去のモデルへの対応が課題となっている。
- ファインチューンされたLLMジャッジの,将来性,後方互換性,質問の一般化能力を評価する。
- 将来への対応は困難だが,過去のモデルへの対応は比較的容易であり,DPOで学習したモデルが性能を向上させた。
- 継続学習は,古い応答分布と新しい応答分布への適応において,よりバランスの取れた学習方法を提供する。
- 全てのモデルは,学習時に見た質問から見慣れない質問への移行において,性能低下が見られた。
長尺ビデオ理解のためのビデオパネル [cs.CV, cs.AI]目的:長尺ビデオ理解における既存モデルの性能最大化
- 画像や短尺ビデオに比べ,長尺ビデオ理解は難題であり,その重要性が増している。
- 既存のビデオ言語モデルは長尺ビデオにおいて性能が低く,複雑なモジュールが求められている。
- 限られたデータでモデルをファインチューニングするのではなく,既存モデルの性能を向上させる。
- 本手法は,複数のフレームをパネルとして統合することで,空間情報を犠牲に時間解像度を高める。
- 学習やパラメータ調整を必要とせず,既存のビデオ言語モデルに容易に組み込むことができる。
- TimeScope (Long) データセットにおいて,ビデオ質問応答の精度を最大19.4%向上させた。
LLMの推論におけるRLVRのための意味空間の探索と活用 [cs.LG, cs.CL]目的:LLMの推論におけるRLVRにおける意味空間の探索と活用
- 大規模言語モデル(LLM)の推論能力向上は,AI研究の重要な課題である。
- RLVRでは,探索と活用のバランスが重要だが,その評価指標に課題があった。
- 意味空間における探索と活用の関係を明らかにし,RLVRの性能向上を目指す。
- 提案手法VERLは,LLMの推論において一貫した性能向上を示す。
- 特に,難しいタスク(Gaokao 2024)において,21.4%という大きな改善が見られた。
- 有効ランク(ER)と有効ランク速度(ERV)は,意味空間においてほぼ相関がないことが示された。
STCast:グローバルおよび地域気象予測のための適応境界調整 [cs.CL, cs.CL, cs.LG, cs.AI, physics.ao-ph]目的:グローバルおよび地域気象予測における適応境界調整と動的な月間予測割り当て
- 気象予測の精度向上は,防災,農業,エネルギーなど,社会経済活動の基盤となる重要な課題である。
- 既存手法では,静的で不正確な地域境界が予測精度を制約し,汎化性能の低下を招いている。
- 本研究は,適応的な境界調整と動的予測割り当てにより,地域気象予測の精度向上を目指す。
- STCastは,空間配置注意機構(SAA)により,グローバルと地域空間分布を整列させ,境界を適応的に洗練する。
- 時間混合エキスパート(TMoE)モジュールは,異なる月の気象変数を専門家へ動的にルーティングし,時間的パターンを捕捉する能力を高める。
- 実験結果は,グローバル,地域予測,極端現象予測,アンサンブル予測の全タスクで最先端手法を上回るSTCastの優位性を示す。
NuRisk:自動運転におけるエージェントレベルのリスク評価のためのビジュアル質問応答データセット [cs.AI]目的:自動運転におけるエージェントレベルのリスク評価のためのビジュアル質問応答データセット
- 自動運転の安全性確保は重要であり,そのためには状況に応じたリスク評価が不可欠である。
- 既存手法は静止画像に基づき,時間的な変化を捉えきれないという課題があった。
- 時間的・空間的な推論能力を備えたリスク評価モデルの開発を目指す。
- NuRiskは,nuScenesおよびWaymoのデータとCommonRoadシミュレーターのデータを用いて構築された,大規模なビジュアル質問応答データセットである。
- 既存のVLMは明示的な時空間的推論に失敗する傾向があることが示された。
- 7B VLMをファインチューニングすることで,精度が向上し,レイテンシが大幅に削減された。
