arXiv雑要約
AI - 2026/04/21 公開
混沌を利用した分類精度の向上 [cs.LG]目的:分類精度向上のための新たな手法
- 機械学習分野において,高精度な分類は重要な課題である。
- 従来の分類手法では,高次元データにおける学習の遅延や精度限界が課題となる。
- 混沌の特性を利用し,学習の高速化と精度向上を目指す。
- 提案手法では,データを高次元空間に写像後,混沌的な力学系を進化させることで分類精度を向上させた。
- ランダムな摂動を加えた直交ベクトルを用いた実験で,従来のsoftmax分類器と比較して,学習の高速化と精度向上を確認した。
- 最適な混沌進化間隔の選択が,性能向上に重要であることが示された。
CLAG:エージェント駆動クラスタリングによる小規模言語モデルエージェントの適応的メモリ組織化 [cs.CL, cs.AI]目的:小規模言語モデルエージェントにおける知識再利用と複雑な推論を支援するための適応的なメモリ組織化
- 大規模言語モデルエージェントは外部メモリに依存する。知識の再利用と複雑な推論に不可欠な仕組みである。
- 従来のメモリシステムでは,知識が希釈・汚染されやすい。特に小規模言語モデルは無関係な情報に弱い。
- CLAGは,メモリのクラスタリングによる組織化で,干渉を減らし,メモリ効率を高めることを目指す。
- CLAGは,エージェントがメモリをセマンティックに一貫したクラスタに割り当てることで,メモリ組織化を自動化する。
- クラスタ固有のプロファイル(要約とタグ)を生成し,自己完結型の機能単位として確立することで,クロス話題干渉を軽減する。
- 複数のQAデータセットで,CLAGは既存のメモリシステムと比較して,回答の質と堅牢性を一貫して向上させる。
オープンクローエージェントが互いに学ぶとき:教育における人間とAIの連携に関する創発的AIエージェントコミュニティからの洞察 [cs.CY, cs.AI, cs.HC, cs.MA]目的:AIエージェントコミュニティにおける創発的現象の特定と,教育用マルチエージェントシステムの設計への示唆
- AI技術の教育分野への応用は,学習支援の質と効率を向上させる可能性を秘めている。
- 従来のAI教育支援システムは,人間とAIの二者間での相互作用に焦点を当てており,エージェント間の学習に着目が不足していた。
- AIエージェント間の自律的な学習と相互作用から得られる洞察を,より効果的な教育システム設計に役立てること。
- AIエージェントの設計者が,教育を通して自身も学びを深める「双方向的スキャフォールディング」のプロセスが確認された。
- 設計されたカリキュラムによらず,エージェント間でピア学習が自然に発生し,アイデアの伝播と品質の階層化が見られた。
- エージェントが,オープンラーナーモデルを反映した共通のメモリアーキテクチャに収束することが観察された。
適応的ドメインモデル:ベイジアン進化,ウォームローテーション,幾何学的・ニューロモーフィックAIのための原理的な学習 [cs.AI, cs.DC, cs.LG, cs.NE]目的:幾何学的およびニューロモーフィックAIにおける適応的ドメインモデルの構築
- AI技術の発展は,様々な分野で応用が期待される一方,計算資源の制約が課題となっている。
- 従来のAI学習基盤は,メモリ消費量が多く,学習に伴う幾何学的特性の劣化が問題視されている。
- 学習メモリ消費量の削減と,幾何学的特性の維持,そして正確な勾配蓄積を実現し,ドメイン特化型AIを構築すること。
- 本研究では,次元型システムと決定論的メモリ管理フレームワーク,プログラムハイパーグラフ,b-posit 2026規格を組み合わせた新しい学習アーキテクチャを提案した。
- このアーキテクチャにより,学習メモリ消費量を推論フットプリントの約2倍に抑え,勾配を正確に蓄積し,損失関数最適化およびスパイクタイミング依存性ニューロモーフィックモデルの両方に適用できる。
- ベイジアン蒸留というメカニズムを導入することで,汎用モデルの潜在的な事前構造を抽出し,ドメイン固有の学習におけるデータ不足の問題を解決する。
テスト時に合意が誤っていたらどうなるか:テスト時における選択的・相補的強化学習 [cs.LG, cs.AI]目的:大規模言語モデルの推論能力向上
- 言語モデルの推論能力向上は,様々な応用において重要である。
- 従来のテスト時強化学習は,誤った多数決に脆弱である。
- ラベルノイズの増幅を軽減し,信頼性の高い学習を目指す。
- SCRLは,厳格な合意基準を用いた選択的正擬似ラベル付けを導入した。
- また,生成不確実性に基づくエントロピーゲート化された負擬似ラベル付けを初めて導入した。
- 複数の推論ベンチマークでSCRLがベースラインを大幅に上回る性能を示した。
臨床記録からの制約付き構造化データ抽出における深層反復的推論 [cs.AI]目的:臨床記録からの構造化データ抽出における信頼性向上
- 医療現場では,患者データが非構造化テキストで多く存在し,その活用が課題。
- 既存のLLMは,臨床データの変数間の依存関係を捉えきれない場合がある。
- LLMの構造化データ抽出の信頼性を高め,臨床データセットの品質を向上させる。
- 深層反復的推論により,LLMベースの構造化データ抽出の精度が大幅に改善された。
- 大腸癌の病理報告では,F1スコアが0.828から0.911に,数値変数の正答率が0.806から0.895に向上。
- ユーイング肉腫,肺癌のステージングにおいても,それぞれ高い精度改善が確認された。
単なる部分の総和以上:マルチモーダルヘイトスピーチ検出における意図の変化の解明 [cs.CL, cs.AI]目的:マルチモーダルヘイトスピーチにおける意味的意図の変化の特性評価
- サイバー空間の安全確保には不可欠であり,自動検出システムの有効性が重要である。
- 従来のシステムは,個々のモダリティの集計を超えた意味を持つマルチモーダルコンテンツで苦戦している。
- 隠れた意図の変化を捉え,マルチモーダルヘイトスピーチの検出精度向上を目指す。
- 本研究では,視覚と言語の相互作用に焦点を当てたH-VLIベンチマークを新たに構築した。
- また,裁判所の弁論を模倣するARCADEフレームワークを提案し,モデルに深い意味的手がかりを精査させる。
- 実験の結果,ARCADEはH-VLIにおいて最先端のベースラインを大幅に上回り,特に暗黙的なケースで優れた性能を示した。
視覚情報が問題ではない場合:誤解を招くデータ可視化に対する視覚-言語モデルの評価 [eess.SY, cs.SY, cs.RO, cs.CV, cs.AI]目的:誤解を招くデータ可視化の検出能力
- データ理解において可視化は重要であり,誤った情報伝達を防ぐ必要性がある。
- 視覚-言語モデルはデータ可視化の理解が進む一方,微妙な誤りを含む可視化の検出は課題である。
- 誤解を招く可視化とキャプションの間の論理的誤りやデザインの誤りを特定するベンチマークを開発する。
- 多くの視覚-言語モデルにおいて,視覚デザインのエラーの検出は,推論に基づく誤情報の検出よりも信頼性が高いことが示された。
- 誤解を招いていない可視化を誤って欺瞞的と分類することが頻繁に発生する。
- 本研究は,誤解を招くコンテンツの粗い検出と,その原因となる具体的なエラーの特定との間のギャップを埋める。
LLMを用いた臨床時系列データの汎用的な表現生成は可能か [cs.LG]目的:臨床時系列データに対する汎用的な患者埋め込み表現の生成
- 臨床MLの現場では,異なる病院間での性能劣化が課題であり,汎用的なモデルの必要性が高まっている。
- 既存手法では,病院ごとのデータ分布の違いにより,モデルの再学習やチューニングが不可欠となる場合が多い。
- LLMを用いて生成した患者埋め込み表現により,病院間の再学習・チューニングを最小限に抑えることを目指す。
- LLMとテキスト埋め込みモデルの組み合わせにより,簡便かつ競争力のある患者埋め込み表現が得られた。
- 提案手法は,既存手法と同程度の性能を示しつつ,病院間のデータ移行時の性能劣化を抑制する効果が確認された。
- 構造化されたプロンプト設計が,予測モデルの性能安定化に重要であることが示された。
臨床記録における再帰認識型基盤モデルのスケールアップ:次回の受診予測によるアプローチ [cs.LG]目的:臨床記録データの次回の受診イベント予測に基づく,再帰認識型基盤モデルの構築
- 医療分野における大規模言語モデルの活用は重要であり,質の高い医療の提供に貢献しうる。
- 電子カルテデータは構造化されており,既存の言語モデルの直接的な適用が困難である。
- 反復イベントの予測に対する正則化と,評価指標の適切な解釈を通して,基盤モデルの性能向上を目指す。
- RAVENは,100万人以上の患者データを用いて,次回の受診イベントを予測する生成事前学習戦略を確立した。
- 反復イベントの予測に関する正則化手法を導入し,電子カルテデータ評価における課題を指摘した。
- RAVENは,ゼロショット予測において,ファインチューニング済みのTransformerモデルや他のアプローチを上回る性能を示した。
LLMは古典的なハイパーパラメータ最適化アルゴリズムを凌駕できるか? autoresearchに関する研究 [cs.LG, stat.ML]目的:小規模言語モデルのハイパーパラメータチューニングにおける,古典的なHPOアルゴリズムとLLMベースの手法の比較
- 機械学習モデルの性能向上には,適切なハイパーパラメータ設定が不可欠である。
- 古典的なHPOは計算コストがかかる場合があり,LLMベースの手法は多様性確保が課題となる。
- LLMと古典的手法の長所を組み合わせることで,より効率的な最適化を目指す。
- 古典的なHPOアルゴリズム(CMA-ES, TPE)は,固定された探索空間下ではLLMベースの手法よりも一貫して高い性能を示した。
- LLMによるソースコードの直接編集によって古典的手法との差は縮小するが,完全に埋めるには至らなかった。
- ハイブリッド手法Centaurは,古典的手法の解釈可能性とLLMの知識を組み合わせることで,最も優れた結果を達成した。
物理学習に向けた安定なバックプロパゲーションフリーなニューラルネットワーク学習の局所学習 [cs.LG, cs.CE]目的:バックプロパゲーションや自動微分を用いない,安定なニューラルネットワーク学習手法
- チップ製造の物理的限界や深層学習の環境負荷増大から,新たな学習パラダイムが求められている。
- 既存の物理ニューラルネットワークは,学習にデジタル計算に依存しており,物理システムでのバックプロパゲーション実装が困難である。
- 物理システムにおけるバックプロパゲーションフリーな学習の実現可能性を示すこと。
- 提案手法FFzeroは,層ごとの局所学習,プロトタイプベース表現,方向微分に基づく最適化により,順伝播のみで安定な学習を可能にする。
- バックプロパゲーションが有効でない条件下でも,局所学習が有効であることを示す。
- 多層パーセプトロンや畳み込みニューラルネットワークといった様々なネットワーク構造で,分類・回帰タスクにおいて有効性を確認した。
構築による決定可能性:信頼できるAIのための設計時検証 [cs.PL, cs.AI, cs.LG, cs.LO]目的:信頼性の高いAIシステムの設計時検証手法
- AIの安全性と信頼性は,社会への導入が拡大する中で重要性を増している。
- 従来のAIモデルの検証は,学習後に実施されることが多く,計算コストが高い。
- AIモデルの設計段階で検証を行い,信頼性を確保することを目指す。
- AIモデルの数値安定性,計算の正しさ,物理法則との整合性は,設計時に検証可能である。
- 有限生成アベル群の制約として表現可能な性質は,多項式時間で決定可能である。
- このフレームワークは,Hindley-Milner unificationを通じてSolomonoffの普遍事前分布を計算し,普遍帰納法と整合性がある。
絶滅危惧言語の記録のための自動音声認識:宮古方言生間方言の事例研究 [cs.CL, cs.AI]目的:絶滅危惧言語の記録と復興を支援する自動音声認識システムの開発
- 言語の多様性維持は重要であり,その記録・保存が急務である。
- 絶滅危惧言語の記録作業は時間と労力を要し,人材不足も深刻である。
- 自動音声認識技術を用いて記録作業の効率化と負担軽減を目指す。
- 生間方言の6.33時間音声コーパスを構築し,自動音声認識モデルを訓練した。
- 訓練されたモデルは15%という低い文字誤り率を達成した。
- 自動音声認識の導入により,文字起こし時間と認知負荷を大幅に軽減できることが示された。
マスクされた潜在的注意を用いた心電時系列の基盤モデル [cs.LG, cs.AI, eess.SP, math.RT]目的:心電図の表現学習
- 心電図は心血管疾患の診断に不可欠であり,臨床信号として広く利用されている。
- 既存の事前学習アプローチは,導出を独立したチャネルとして扱い,構造的冗長性を活用できていない。
- 導出間の接続機構を学習し,構造的情報を活用することで,表現の質と転移学習性を向上させる。
- 潜在的注意マスク自動エンコーダ(LAMAE)モデルが,導出間の相互作用を捉え,構造的監督学習として有効であることが示された。
- ICD-10コード予測において,独立導出マスクモデリングやアラインメントベースラインを上回る高い性能を示した。
- 導出間の接続を活用することで,心電図の表現学習における効果的な構造的監督が可能となることが実証された。
LogicDiff: ロジック誘導型ノイズ除去がマスク拡散言語モデルにおけるゼロショット推論を改善する [cs.CL, cs.LG]目的:マスク拡散言語モデルにおけるゼロショット推論の性能向上
- 言語モデルの推論能力は,様々なタスクで重要であり,特に数学や論理的思考を要する問題においてその重要性が増している。
- 既存のマスク拡散言語モデルは,論理的接続詞の扱いに課題があり,推論性能を低下させている。
- 本研究は,論理構造に基づいたトークンアンマスク手法により,ゼロショット推論における性能低下を解消することを目的とする。
- LogicDiffは,マスクされた位置の論理的役割を98.4%の精度で予測し,依存関係に基づいたスケジュールでトークンをアンマスクする。
- ゼロショット設定において,GSM8KとMATH-500の正解率をそれぞれ+38.7%と+5.6%向上させた。
- 8ショットのChain-of-Thoughtプロンプトでは改善は見られず,少数ショットプロンプトが暗黙的に順序問題を解決することが示唆された。
実世界ツールにおけるエージェントの権限使用状況の評価 [cs.CR, cs.AI]目的:エージェントの権限使用状況の評価
- LLMエージェントの生産性向上にはツール利用が不可欠であり,その安全性確保が重要である。
- 既存の評価環境は限定的なツールと対話パターンであり,実世界の複雑な状況を反映していない。
- 実世界ツールを用いたエージェントの権限使用状況を評価し,セキュリティ脆弱性を明らかにすること。
- LLMは基本的なセキュリティ意識を持つものの,高度な攻撃に対して脆弱性が残る。
- GrantBoxを用いた評価で,巧妙に作成されたシナリオにおいて平均攻撃成功率が84.80%に達した。
- プロンプトインジェクション攻撃に対する権限使用状況の評価が可能となった。
Hydra:単一のビジョン言語モデルによるドキュメント検索と生成の統合 [cs.ET, cs.CV, cs.AI, cs.IR]目的:ビジョン言語モデルにおけるドキュメント検索と生成の統合
- 視覚的ドキュメント理解は,多様な応用で重要であり,その効率化が求められている。
- 従来のシステムは検索と生成に別モデルを使用し,メモリ消費量と複雑性を増加させていた。
- 単一モデルで検索と生成の両方を効率的に実現し,システム全体の負担を軽減すること。
- Hydraは,ColBERTスタイルの検索と自己回帰生成を単一モデルで実現する二重ヘッドアプローチである。
- 検索のみに特化したLoRAアダプタを使用することで,GPUメモリ使用量を大幅に削減できることが示された。
- Qwen3.5-4B以外のバックボーンモデルへの応用も可能であり,汎用性も高い。
ARCS:トポロジーを意識したグラフ注意機構とスペック条件付けによる自己回帰回路合成 [cs.LG, cs.AR]目的:アナログ回路の効率的な生成手法
- 高性能なアナログ回路設計は,現代エレクトロニクスの根幹であり,複雑化の一途を辿っている。
- 従来手法では,回路設計に膨大な時間と専門知識が必要であり,自動化が課題となっていた。
- 本研究は,機械学習を用いて回路設計を自動化し,設計時間の短縮と性能向上を目指す。
- ARCSは,グラフVAEとフローマッチングモデルを組み合わせることで,数ミリ秒でSPICEシミュレーション可能な回路を生成する。
- SPICE評価回数を大幅に削減し(遺伝的アルゴリズムの40分の1),高いシミュレーション有効性(99.9%)を達成した。
- トポロジーを考慮したグラフTransformerとGRPOを用いることで,REINFORCEの課題を解決し,学習効率と性能を向上させた。
忘却:減衰駆動型活性化による自己適応的なエージェントメモリ制御 [cs.CL, cs.AI]目的:エージェントメモリ制御の新たな枠組み
- 大規模言語モデル(LLM)エージェントの性能向上には,効率的なメモリ管理が不可欠である。
- 従来のLLMエージェントは,常にメモリにアクセスするため,干渉や遅延が大きくなる。
- 本研究は,減衰駆動型活性化による忘却メカニズムを導入し,メモリ効率と性能を改善する。
- Oblivionは,エージェントの不確実性とメモリバッファの充足度に基づいてメモリへのアクセスを制御する。
- 応答生成に貢献した記憶を強化することで,高レベル戦略の維持と必要な詳細の動的ロードを可能にする。
- 実験結果から,Oblivionが文脈の変化に応じて学習と忘却のバランスを調整し,効果的な推論を実現することが示された。
過パラメータ化された浅いニューラルネットワークに対する初期値依存性と非自明な一般化限界 [cs.LG, cs.AI]目的:過パラメータ化された浅いニューラルネットワークの一般化性能の限界
- 深層学習の汎化性能の理論的理解は重要であり,過剰パラメータ化モデルの振る舞いを解明することが求められる。
- 既存の初期値依存性複雑度解析はフロベニウスノルムを使用し,過パラメータ化モデルに対して有効な限界を与えられない場合がある。
- 初期値からの距離のパスノルムを用いることで,より実用的な一般化限界を導き出すことを目指す。
- パスノルムを利用した新しいピーリング技術を導入し,初期値依存性複雑度限界を導出した。
- 導出された限界は,定数因子を除いて最適な下界と一致することを示した。
- 実験的比較により,過パラメータ化されたネットワークに対する非自明な限界が得られることを確認した。
組織病理画像と多目的パッチ選択を用いたPAM50サブタイプ分類のための深層学習パイプライン [cs.CV, cs.AI]目的:PAM50サブタイプ分類
- 乳癌は分子プロファイルが多様であり,個別化医療の必要性が高まっている。
- PAM50遺伝子シグネチャは標準だが,コストの高い分子アッセイに依存している。
- 組織病理画像から直接PAM50サブタイプを予測する手法を開発し,分子アッセイへの依存を減らす。
- 提案手法はTCGA-BRCAデータセットにおいて,F1スコア0.8812,AUC0.9841を達成した。
- 外部検証データセットCPTAC-BRCAでは,F1スコア0.7952,AUC0.9512を示した。
- 最適化と不確実性考慮によるパッチ選択が,計算効率と高い性能を実現し臨床意思決定を支援する可能性を示唆する。
代数的多様性:単一観測からの群論的スペクトル推定 [cs.CE, cs.LG, cs.IT, eess.SP, math.IT]目的:単一観測からの群論的スペクトル推定手法
- 信号処理や機械学習において,データの構造的対称性を活用することで,効率的な情報抽出が可能となる。
- 従来の多観測に基づく手法では,計算量が増大し,リアルタイム処理が困難となる場合がある。
- 群論的構造を利用することで,単一観測から高精度な推定を実現し,計算効率を向上させる。
- 群平均推定器が,単一スナップショットで多スナップショット共分散推定と同等の部分空間分解を達成することを証明した。
- DFT,DCT,KLTなどの変換が,群に適合した特殊なケースとして統一的に説明できることを示した。
- シミュレーション実験により,提案手法が様々な群に対して高い精度を持つことが確認された。
メモリ知能エージェント [cs.AI, cs.MA]目的:深層強化学習エージェントにおける,効率的な推論と自律的な進化を可能にするためのメモリシステムの構築
- LLMの推論能力を拡張し,自律的な問題解決を実現するために,外部ツールとの統合が重要視されている。
- 既存のメモリシステムは,類似した過去の軌跡の検索に依存しており,メモリの進化やコスト増加が課題となっていた。
- 本研究では,効率的なメモリ進化と低コスト化を実現する,新たなメモリ知能エージェント(MIA)フレームワークを提案する。
- MIAフレームワークは,マネージャー・プランナー・エグゼキューターのアーキテクチャで構成され,圧縮された過去の検索軌跡を非パラメトリックメモリに格納する。
- プランナーとエグゼキューター間の協調性を高めるために,交互強化学習パラダイムを採用し,テスト時の継続的な進化を可能にした。
- 11のベンチマークにおける実験により,MIAの有効性が実証された。
SkillX:エージェントのためのスキル知識ベースの自動構築 [cs.CL, cs.AI, cs.IR, cs.LG, cs.MA]目的:エージェントのための再利用可能なスキル知識ベースの構築
- LLMエージェントの能力向上には経験からの学習が不可欠であり,知識共有の重要性が増している。
- 既存手法では,エージェントが孤立して学習し,類似行動を再発見するため,効率が低い。
- SkillXは,経験の冗長性を減らし,汎化性能を向上させることを目指す。
- SkillXは,戦略計画,機能スキル,アトミックスキルという3層階層構造でスキルを抽出する。
- 実行フィードバックに基づきスキルを自動的に改良し,知識ベースの質を継続的に向上させる。
- 新たなスキルを積極的に生成・検証することで,学習データの範囲を超えたスキルを拡張する。
LiveFact:LLM駆動型フェイクニュース検出のための動的,時間認識型ベンチマーク [cs.CL, cs.AI]目的:LLM駆動型フェイクニュース検出における,動的かつ時間的要素を考慮した評価
- 近年のLLM発展は,フェイクニュース検出の課題を単純な分類から複雑な推論へと変化させている。
- 既存のベンチマークは静的であり,ベンチマークデータ汚染や時間的不確実性下での推論能力評価が不十分である。
- 時間とともに変化する情報に基づいて推論する能力を評価し,現実世界の状況をより正確に反映したベンチマークを提供する。
- LiveFactは,継続的に更新される動的ベンチマークであり,変化する証拠を用いてモデルの推論能力を評価する。
- 22のLLMを用いた評価の結果,Qwen3-235B-A22Bなどのオープンソースモデルが,一部の商用モデルと同等またはそれ以上の性能を示した。
- モデルは初期段階で検証不可能な主張を認識する能力(認識的謙虚さ)を示しており,従来の静的ベンチマークでは見過ごされる重要な側面である。
妥当性としての常識的推論:人間は成功するが,大規模言語モデルはそうでない [cs.CL, cs.AI]目的:トルコ語の従属節付加曖昧性における,人間の構造に依存した知識統合の有無
- 言語理解において,文法構造と世界知識の統合は不可欠である。人間の認知プロセスをモデル化する上で重要。
- 大規模言語モデルは言語タスクで高い性能を示すが,人間のような曖昧性解消能力を持つかは不明である。
- トルコ語の従属節付加曖昧性を利用し,大規模言語モデルの常識的推論能力を評価する。
- 人間は,妥当性の高い解釈を迅速かつ正確に選択する。
- 大規模言語モデルは,妥当性に影響されやすい解釈の選択において,不安定または逆の結果を示す。
- トルコ語の従属節付加は,大規模言語モデルの認知能力を評価するための有用なテストケースとなる。
分布シフト下における弱い教師あり学習からの安定予測器の学習 [cs.LG, cs.AI]目的:分布シフト下での弱い教師あり学習における安定した予測器の学習
- 十分なラベルデータが得られない状況で,弱い教師あり学習は重要な手法である。
- 環境が変化した場合,教師信号自体が変化し,汎化性能が低下する可能性がある。
- 本研究では,教師信号の変化(supervision drift)が予測性能に与える影響を検証し,その解決策を探る。
- 弱い教師あり学習は,同一環境下では意味のある学習が可能であり,ある程度の細胞株間での転移も実現可能であった。
- しかし,時間的な転移では性能が著しく低下し,負の$R^2$や低い相関係数を示すことが示された。
- 特徴量とラベルの関連性や特徴量の重要度は,細胞株間では比較的安定しているものの,時間経過とともに大きく変化することが明らかになった。
複雑なシナリオにおけるテキストから動画生成のための自己修正型マルチエージェントプロンプト改良 (SCMAPR) [cs.AI, cs.MA]目的:複雑なシナリオにおけるテキストから動画生成のためのプロンプト改良
- 近年の拡散モデルの進歩によりテキストから動画生成が可能になったが,複雑なシナリオ下での表現が課題である。
- テキストプロンプトの曖昧性や不十分さが,複雑なシナリオにおける動画生成の品質を低下させている。
- SCMAPRは,複雑なシナリオ下でのテキストと動画の整合性と生成品質の向上を目指している。
- SCMAPRは,シナリオを考慮したマルチエージェントによる段階的なプロンプト改良フレームワークである。
- 提案手法は,既存のベンチマークおよび新設のT2V-Complexityベンチマークにおいて,VBenchとEvalCrafterでそれぞれ最大2.67%,3.28%のスコア向上,T2V-CompBenchで最大0.028の改善を示した。
- SCMAPRは,プロンプトのシナリオ分類,状況に応じた書き換えポリシーの合成,および意味検証による修正を行うことで,複雑なシナリオでの生成品質を向上させる。
マーケットベンチ:経済と貿易競争における大規模言語モデルのベンチマーク [cs.AI]目的:経済・貿易競争を通じた大規模言語モデルの経済関連タスクにおける能力の評価
- 経済活動の高度化には,AIによる効率化が不可欠であり,その評価基準の確立が急務である。
- 大規模言語モデルの経済資源の獲得・管理能力は不明であり,その実用化には課題が残る。
- 競争市場環境下における大規模言語モデルの経済的相互作用を分析し,その能力を定量的に評価する。
- Market-Benchは,大規模言語モデルを小売業者として,入札と小売の二段階で経済モデルを構築した。
- 実験の結果,モデル間の性能に大きな差が認められ,少数のモデルのみが資本の増加に成功した。
- Market-Benchは,大規模言語モデルの競争市場におけるインタラクションを再現可能に検証できる環境を提供する。
マルチトークン予測と潜在的意味的拡張による一貫性のある世界モデルの構築 [cs.LG, cs.AI, cs.CL]目的:大規模言語モデルにおける内部世界モデルの整合性向上
- LLMの発展において,世界モデルの有無は重要な議論点であるため,その理解が不可欠である。
- 従来の予測手法では,潜在空間における不適切なショートカットが発生し,現実世界の制約に反することがある。
- 潜在的意味的拡張により,離散的なトークンと連続的な状態表現の間のギャップを埋めることを目指す。
- マルチトークン予測(MTP)は,勾配結合を通じて表現の収縮を誘導し,内部信念状態への収束を促進することが示された。
- 提案手法LSE-MTPは,実世界のマンハッタンタクシーライドにおいて,表現の整合性を高め,構造的な幻覚を減少させる効果が確認された。
- LSE-MTPは,摂動に対するロバスト性も向上させ,より安定した世界モデルの構築に貢献する。
ファクトを超えて:大規模言語モデルにおける分布型読解能力のベンチマーク [cs.CL, cs.AI]目的:大規模言語モデルの分布型知識推論能力の評価
- 現実世界のタスクでは,事実情報の局所的な特定だけでなく,テキスト集合における傾向や嗜好の理解が重要である。
- 既存の読解ベンチマークは事実情報に偏っており,分布型情報の理解を評価するものが不足している。
- 大規模言語モデルの分布型読解能力を定量的に評価し,その限界を明らかにする。
- Text2DistBenchは,YouTubeコメントを活用した分布型読解ベンチマークであり,エンティティのメタデータとコメントを提供し,分布に関する質問に答えることを要求する。
- 複数の大規模言語モデルを用いた実験により,ランダムベースラインを大幅に上回る性能を示したが,分布の種類によって性能にばらつきが見られた。
- これらの結果は,現在の言語モデルの分布型読解能力の限界を浮き彫りにし,今後の研究のための実用的なテストベッドの価値を示す。
検索拡張言語モデルにおける証拠に基づいた説明のための発話意図計画 [cs.CL, cs.AI, cs.SE]目的:検索拡張生成における証拠に基づいた説明の計画と評価
- 近年,大規模言語モデルの説明可能性が重要視されており,その透明性と信頼性が求められている。
- 言語モデルが生成する説明は説得力があるものの,証拠に基づいているかの検証が困難であるという課題がある。
- 検索拡張生成において,発話意図計画を用いて説明の証拠となりうる情報源への適合性を高めることを目指す。
- 非検索拡張モデルは情報源への適合性が低いことが示され,ベースラインの検索拡張システムも同様の課題を抱えている。
- 発話意図計画(CoI)を用いることで,情報源への適合性が最大で63%向上し,統計的に有意な改善が確認された。
- ユーザースタディの結果,CoIは説明の満足度,関連性,正確性の認識に悪影響を与えないことが示された。
AI継続性の評価フレームワークATANT [eess.SY, cs.SY, cs.AI, cs.IR]目的:AIシステムの継続性計測
- AI技術の進化に伴い,文脈理解と長期的な記憶の維持が重要課題となっている。
- 既存のAIメモリ技術では,真の継続性を保証する評価方法が確立されていない。
- AIシステムの継続性を定義し,客観的な評価手法を確立することを目的とする。
- ATANTフレームワークは,AIシステムの継続性を7つの要素に基づいて評価する手法を提案。
- 10段階の評価プロセスを採用し,LLMを使用せずに検証を行う。
- 実験結果から,ATANTを用いたシステムは,250件の物語で100%の精度を達成。文脈の混同なく情報を正確に取得可能。
償却型変分推論のためのインスタンス適応パラメータ化 [cs.LG, cs.AI]目的:変分オートエンコーダの効率的な事後分布近似
- 深層生成モデルにおいて,効率的な推論が重要である。
- 標準的な変分オートエンコーダは,パラメータ共有による近似誤差を持つ。
- インスタンスに応じたパラメータ調整により,近似精度を向上させる。
- 提案手法IA-VAEは,標準的な変分推論の性能を維持しつつ,パラメータ数を削減できる。
- 合成データ実験において,IA-VAEはより正確な事後分布近似と償却ギャップの低減を実現した。
- 画像データ実験においても,IA-VAEはベースラインのVAEと比較して,保持されたELBOを改善した。
共感型対話システムのための戦略に基づいた段階的推論フレームワーク:STRIDE-ED [cs.CL, cs.AI]目的:共感型対話における戦略的・文脈依存的な応答生成の実現
- 人間らしい対話には感情理解と状況に応じた戦略が不可欠であり,その自動化は重要である。
- 既存手法は,包括的な共感戦略フレームワークや多段階推論,高品質な戦略対応データの欠如により限界がある。
- 本研究は,複雑な共感型対話を認知・意思決定プロセスとしてモデル化するための課題解決を目指す。
- STRIDE-EDは,戦略に基づいた解釈可能な深層推論フレームワークであり,共感型対話の構造化された戦略条件付き推論をモデル化する。
- LLMに基づく注釈,多重モダリティ一貫性重み評価,動的サンプリングを統合した戦略対応データ洗練パイプラインを開発した。
- 教師ありファインチューニングと多目的強化学習を組み合わせた二段階学習パラダイムにより,感情,戦略,応答形式へのモデルの適合性を向上させた。
織り,ワイヤー,そして射: 深層学習の代数を形式化・実装する [cs.LG, math.CT]目的:深層学習モデルのアーキテクチャ記述のための形式的数学的枠組み
- 深層学習は実用化が進むが,その基盤となる数学的取り扱いが課題となっている。
- 既存の記法は非線形ブロードキャストやモデルの構成要素間の関係を適切に扱えない。
- モデルのアーキテクチャを厳密に表現し,操作可能な形式的枠組みを構築すること。
- カテゴリー論的枠組みを導入し,軸・ストライドと配列ブロードキャストのカテゴリーを通じてブロードキャストを形式化した。
- 数学的定義を人が理解しやすい図や機械が処理可能なデータ構造に翻訳することで,普遍的なフレームワークを実現した。
- PythonとTypeScriptで実装(pyncd, tsncd)し,代数的構成,グラフ変換,PyTorchコンパイル,図のレンダリング機能を備えた。
学習アルゴリズムのスケッチ方法 [cs.LG]目的:AIモデルへの訓練データ選択の影響
- AIの解釈性,プライバシー,基礎科学において重要な課題である。
- 特定の訓練データを除外した場合のモデル挙動予測が困難である。
- 訓練データ削除問題に対し,高精度な予測手法を確立する。
- 深層学習設定において,消失誤差と低い失敗確率でモデル出力を予測するデータ削除スキームを提案する。
- 事前計算と予測アルゴリズムは,通常の学習と推論に比べてわずかなオーバーヘッドで済む。
- 安定性という仮定に基づき,強力なAIモデルとの両立性を示唆する実験結果を得た。
一貫性重視自己学習による生成報酬モデルの改善:ConsistRM [cs.AI, cs.CL, cs.LG]目的:生成報酬モデルの性能向上
- 大規模言語モデルの人間との整合性を高める上で,生成報酬モデルは重要な役割を担う。
- 高品質な人間によるアノテーションのコストが高いこと,自己学習の不安定性が課題である。
- 一貫性に着目した自己学習により,安定した生成報酬モデルの学習を実現する。
- ConsistRMは,人間のアノテーションなしで効果的かつ安定したGRM学習を可能にする。
- 一貫性重視の報酬により,モデルの最適化が安定し,出力の一貫性が向上する。
- ベンチマークデータセットにおいて,ConsistRMはRFTを平均1.5%上回る性能を示した。
ReflectRM:統一された判断フレームワークにおける自己反省による生成報酬モデルの強化 [cs.AI, cs.CL]目的:生成報酬モデルにおける自己反省の活用
- 大規模言語モデルの性能向上には,人間のフィードバックに基づいた強化学習が不可欠である。
- 既存の生成報酬モデルは結果レベルの監督に偏り,分析過程の質を考慮していない。
- 分析過程の質を評価することで,生成報酬モデルの性能と安定性を向上させる。
- ReflectRMは,応答の選好と分析の選好を共同でモデル化する統一された生成フレームワークを採用している。
- 実験の結果,ReflectRMはQwen3-4Bにおいて平均して3.7%の精度向上を達成し,性能が向上することが示された。
- ReflectRMは位置バイアスを大幅に軽減し,主要な生成報酬モデルと比較して10.2%の改善が見られた。
EMSDialog:電子患者ケアレポートに基づく多LLMエージェントによる複数人救急医療サービス対話生成 [cs.CL, cs.AI]目的:救急医療サービスにおける複数人対話データセット
- 救急医療現場では,迅速かつ正確な診断が患者の予後を左右する。対話データを用いた診断支援は重要である。
- 既存の医療対話データセットは,対話人数が少ない,または救急現場のワークフローに対応していないという課題がある。
- 電子患者ケアレポートを活用し,リアルな救急医療対話データセットを生成することで,診断支援モデルの性能向上を目指す。
- 本研究で作成したEMSDialogデータセットは,4,414件の救急医療士による複数人対話を含む。
- EMSDialogは,発話レベルおよび対話レベルの評価において,高品質かつ現実的なデータセットであることが確認された。
- EMSDialogを用いた学習により,救急医療における対話的診断予測の精度,迅速性,安定性が向上した。
LLMを用いた非教師ありテキストクラスタの推論に基づく改良 [cs.CL, cs.AI, cs.CY, cs.LG]目的:非教師ありテキストクラスタの構造的妥当性と解釈性の向上
- 大量テキストデータから潜在的な意味構造を発見することは,情報検索やテキストマイニングにおいて重要である。
- 非教師ありクラスタリングの結果は,しばしばまとまりがなく,冗長性を含み,評価が困難であるという課題がある。
- LLMを活用して,クラスタの検証と再構成を行い,より信頼性の高い分析を実現することを目的とする。
- 本研究では,LLMを埋め込み生成ではなく,セマンティックな判断者として活用する新しいフレームワークを提案した。
- 提案手法は,クラスタのまとまり,冗長性の排除,解釈可能なラベルの付与において,既存手法よりも高い性能を示した。
- 人間による評価においても,LLMが生成したラベルと高い一致率が確認され,非教師ありでの有効性が示唆された。
SEARL:自己進化型エージェントのための方策とツールグラフメモリの同時最適化 [cs.AI, cs.LG]目的:自己進化型エージェントにおける方策とツールグラフメモリの同時最適化
- 強化学習は,複雑なタスクを自動化する上で重要な役割を果たす。近年,検証可能な報酬を用いた学習が注目されている。
- 従来の強化学習は,報酬の疎らさや大規模な計算資源を必要とする点が課題であった。
- 本研究は,限られた環境下でも効率的に学習可能な自己進化型エージェントの実現を目指す。
- 提案手法SEARLは,計画と実行を統合した構造化された経験メモリを構築することで,類推的な文脈での汎化を促進する。
- エージェントは,過去のデータから明示的な知識を抽出し,軌跡間の相関を利用して報酬信号を密にする。
- 知識推論および数学タスクの評価により,SEARLがより実用的かつ効率的な学習を達成することが示された。
小規模言語モデルによる軽量LLMエージェントメモリ [cs.AI]目的:LLMエージェントメモリの効率的な実現
- LLMエージェントは複雑なタスク遂行に有用だが,一貫性と情報蓄積が課題。
- 既存の外部メモリは精度が不安定,または高遅延を伴う。
- 小規模言語モデルを活用し,低コストで高精度なメモリを実現する。
- LightMemは,メモリの検索,書き込み,長期的な統合をモジュール化することで,限られた計算資源下での効率的なメモリ利用を可能にする。
- 短期,中期,長期メモリを体系化し,ユーザーIDを用いて多ユーザー環境に対応する。
- LoCoMoでのF1スコアが平均2.5%向上,低遅延(検索83ms,エンドツーエンド581ms)を実現した。
知識の空白を埋める:LLMレコメンダのための選択的知識拡張 [cs.IR, cs.AI]目的:LLMレコメンダにおける知識格差問題の軽減
- LLMは,事前学習時の情報露出の偏りから,アイテム知識に偏りが生じやすい。
- 既存手法は,全てのアイテムに対し一律に情報を付加するため,効率が悪い。
- LLMの内部知識を評価し,必要箇所にのみ情報を付加することで効率改善を目指す。
- 提案手法KnowSA_CKPは,LLMの協調関係把握能力を評価し,知識の必要なアイテムを選択的に拡張する。
- 既知のアイテムへの不要な拡張を避け,コンテキスト予算を有効活用することで精度向上を実現する。
- ファインチューニングは不要であり,4つの実データセットで推薦精度とコンテキスト効率が改善された。
マルチターン対話命令チューニングのためのデータ選択 [cs.CL, cs.AI]目的:マルチターン対話命令チューニングのためのデータ選択方法
- 対話型AIの性能向上には,大規模な対話データの活用が不可欠である。
- 既存の対話データはノイズが多く,構造が一貫していないという課題がある。
- 対話レベルでのデータ選択により,より高品質な学習データセットを構築することを目指す。
- 提案手法MDSは,対話全体の信頼性を評価することで,既存手法を上回る性能を達成した。
- 特に,長文の対話において,限られた学習資源下でより頑健な結果が得られた。
- MDSは,代表的でありながら冗長性のない対話を選択し,性能向上に貢献する。
TOOLCAD:強化学習を用いたテキストからCAD生成におけるツール使用大規模言語モデルの探求 [cs.CL, cs.CV, cs.AI, cs.CL]目的:テキストからCAD生成のためのツール使用大規模言語モデルの最適な相互作用
- CADは高度な専門知識を要し,長期的推論と一貫性のあるモデリング行動が不可欠である。
- 大規模言語モデルとCADエンジンの最適な連携が未検討であり,自律的なテキストからCADへの変換が困難である。
- オープンソースの大規模言語モデルを用いたCADツール使用エージェントの学習方法を確立し,高性能化を目指す。
- ToolCADは,大規模言語モデルをツール使用エージェントとして活用する新しいCADフレームワークである。
- ハイブリッドフィードバックと人間の監督を取り入れたインタラクティブなCADモデリング環境を構築した。
- オンラインカリキュラム強化学習により,大規模言語モデルが高度なCADツール使用エージェントへと進化することを示した。
SeLaR:大規模言語モデルにおける選択的潜在的推論 [cs.CL, cs.AI]目的:大規模言語モデルにおける推論能力の向上
- 大規模言語モデルの推論能力は,自然言語処理の重要な課題であり,様々な応用への発展が期待される。
- 既存の推論手法では,推論の安定性や多様性の維持が難しく,性能向上が限定的である。
- SeLaRは,推論の確信度に応じて潜在的な推論経路を制御し,より柔軟で安定した推論を実現する。
- SeLaRは,推論の確信度が低いステップでのみ潜在的な推論を活性化することで,確信度の高いステップへの影響を抑制する。
- エントロピーに着目したコントラスト正則化により,潜在的な推論経路の多様性を維持し,探索を促進する。
- 5つの推論ベンチマークにおいて,SeLaRは既存の手法を凌駕する性能を示した。
DMax:dLLMの積極的並列デコーディング [cs.LG, cs.AI]目的:拡散言語モデルにおける効率的な並列デコーディング手法
- 大規模言語モデルの推論速度向上は,実用化における重要な課題である。
- 並列デコーディングは高速化に有効だが,誤差蓄積が問題となる。
- 誤差蓄積を抑制しつつ,高い並列度を実現するデコーディング手法の開発。
- DMaxは,マスク埋め込みからトークン埋め込みへの漸進的な自己洗練という新しいデコーディングパラダイムを提案する。
- On-Policy Uniform Trainingにより,マスクドLLMとユニフォームLLMを効率的に統合し,誤予測からの回復を可能にする。
- GSM8Kにおいて,TPFを5.47に向上させ,MBPPにおいてもTPFを5.86に向上させ,精度を維持した。
持続性を拡張したニューラルネットワーク [cs.LG]目的:データ形状記述のためのトポロジーデータ解析の活用
- データ解析において,データの形状情報は重要な役割を果たすため,その記述手法の確立が求められている。
- 深層学習パイプラインへのトポロジー特徴量の統合は困難であり,特に局所的な幾何学的構造の維持が課題である。
- 局所的な勾配流領域と階層構造を符号化することで,スケーラブルかつ解釈可能な学習を可能にすること。
- 提案手法は,モルセ・スマイル複体を用いた持続性に基づくデータ拡張フレームワークであり,局所的なトポロジー情報を多段階に渡って保持する。
- ヒストパソロジー画像分類と3D多孔質材料回帰において,ベースラインやグローバルなTDA記述子と比較して優れた性能を示した。
- 階層の最下位レベルのプルーニングにより,メモリ使用量を削減しつつ,競争力のある性能を維持できることが示された。
