arXiv雑要約

AI - 2026/05/29 公開

RightNow-Arabic-0.5B-Turbo：語彙注入とエッジファースト展開による10億パラメータ未満のオープンなアラビア語言語モデル [cs.CL, cs.CL, cs.CL, cs.CL, cs.CL, cs.CL, cs.LG]目的：アラビア語に特化した小規模言語モデルの開発
- アラビア語の自然言語処理技術は，中東地域における情報アクセスやコミュニケーションに不可欠である。
- 大規模なアラビア語言語モデルは，計算資源を必要とするため，エッジデバイスでの利用が困難である。
- 軽量で高性能なアラビア語言語モデルを開発し，エッジ環境での利用を可能にすること。
- RightNow-Arabic-0.5B-Turboは，518Mパラメータのアラビア語特化型デコーダLLMであり，既存のオープンソースモデルを上回る性能を示す。
- COPA-ar，Arabic HellaSwag，ArabicMMLUといったベンチマークで高い精度を達成し，特にCOPA-arではFalcon-H1-1.5Bと同等の性能を示す。
- 量子化により398MBに圧縮可能であり，単一のH100で635トークン/秒の処理速度を実現し，エッジ環境での利用に適している。
Link: https://arxiv.org/abs/2605.28827
マイクロ・マクロ検索：大規模言語モデルにおける長文の幻覚の軽減 [cs.CL, cs.AI]目的：大規模言語モデルにおける長文生成時の幻覚軽減
- 大規模言語モデルは多様なタスクで高い性能を示すが，幻覚を起こしやすいという課題がある。
- 長文生成において，検索された文脈の冗長性や推論の複雑さが事実誤認を増幅させる。
- 出力に近いほど正確な情報を提示できるよう，検索メカニズムの改善を目指す。
- 提案手法M2Rは，粗視点と微視点の検索を組み合わせ，重要な情報を出力に近接させる。
- M2Rは，推論中に構築されたキー情報リポジトリを活用し，長文タスクにおける幻覚を効果的に削減する。
- カリキュラム学習を用いた強化学習により，検索と根拠付けのスキルを安定して獲得する。
Link: https://arxiv.org/abs/2605.28828
高度なSTEM推論のための強化学習のスケーリング：Aryabhata 2 [cs.CL, cs.AI, cs.CY]目的：競争型STEM試験における高度な推論能力の向上
- STEM分野の教育は，科学技術の発展と社会の進歩に不可欠である。
- 大規模言語モデルは推論能力を持つものの，実践的な問題解決への応用が困難である。
- 競争型STEM試験問題への対応能力を強化し，学生の学習支援に貢献すること。
- Aryabhata 2は，GPT-OSS-20Bをベースモデルとし，強化学習によって競争型STEM試験における推論能力を向上させた。
- Aryabhata 2は，JEE Main，JEE Advanced，NEET等のベンチマークテストでGPT-OSS-20Bを上回る性能を示した。
- Aryabhata 2は，出力トークン数を大幅に削減し，効率的な問題解決を可能にした（最大64%削減）。
Link: https://arxiv.org/abs/2605.28829
オープンソースの安全ガードモデルのベンチマーク：包括的評価 [cs.CL, cs.AI, cs.SE]目的：オープンソースの安全ガードモデルの性能評価
- LLMの利用拡大に伴い，安全性確保が重要課題となっている。
- 既存の安全ガードモデルの性能にはばらつきがあり，適切な選択が困難である。
- 安全性評価ベンチマークを通じて，実用的なモデル選択の指針を示す。
- LLMにおける安全性の確保は重要であり，コンテンツモデレーションの信頼性が求められる。
- 4BパラメータのQwen Guardが最も高い再現率(83.97%)を示し，モデルサイズと安全性検出性能には相関がないことが判明した。
- 汎用ガードモデルが特化型モデルよりも高い性能を示すことが明らかになり，実用的なモデル選択に役立つ知見が得られた。
Link: https://arxiv.org/abs/2605.28830
S3Mem：長期的インタラクティブ質疑応答のための構造化時空間シーン・イベントメモリ [cs.CL, cs.AI]目的：長期的なインタラクティブ質疑応答における，過去のイベントに関する信頼性の高い回答
- 長期的インタラクティブエージェントの性能向上は，人間らしい対話を実現する上で不可欠である。
- 従来の長期記憶のインターフェースでは，関連するが不完全な証拠を抽出しやすいという課題がある。
- 時空間情報や繰り返しイベントを含む複雑な質問に対し，より正確かつ効率的な証拠抽出を目指す。
- S3MEMは，構造化されたメモリユニットへの書き込みと，アンカーに依存した検索により，証拠の質を向上させた。
- 4つの環境において，S3MEMは従来のRAGや他のベースラインモデルを凌駕する性能を示した。
- 構造化された書き込みと証拠ルーティングが，長期的なインタラクティブ質疑応答において有効であることが示された。
Link: https://arxiv.org/abs/2605.28831
トピックコヒーレンスに対するTransformerベースの埋め込みの比較研究 [cs.CL, cs.AI]目的：トピックモデリングにおけるTransformerベースの埋め込みの性能評価
- 大量のテキストデータを整理・分析する上で，トピックモデリングは重要な手法である。
- Transformerモデルのサイズがトピックモデリングの品質に及ぼす影響は不明確であった。
- Transformerモデルのサイズがトピック品質に与える影響を明らかにすること。
- モデルサイズ（2200万〜130億パラメータ）は，トピック品質にほとんど影響を与えないことが示された。
- 小規模なモデルでも，大規模なモデルと同等の性能を達成できる可能性がある。
- 計算資源の効率的な利用が，トピックモデリングにおいて重要であることが示唆された。
Link: https://arxiv.org/abs/2605.28832
子供の音声書き起こし：ASR性能と信頼性の高い正書法による書き起こし [cs.CL, cs.AI]目的：子供の音声研究における手動アノテーションの労力を削減するための自動音声認識（ASR）の有効性
- 子供の音声研究は，言語発達の理解に不可欠であり，その進展には大量のデータが必要となる。
- リソースの限られた言語において，子供の音声に対する高精度なASRの実現は困難である。
- ASRによる自動書き起こしの精度を向上させ，手動検証の必要性を低減することを目指す。
- 最新のASRモデルの性能を評価した結果，Whisper-mediumモデルがJASMINデータセットで5.54%，DARTデータセットで70.37%のWERを達成し，最も優れた性能を示した。
- 発話レベルでASR出力と原本を比較する選択手法を用いることで，JASMINデータセットの42.0%，DARTデータセットの18.1%の発話が自動的に正しく認識された。
- 提案手法により，発話レベルでの高い精度（98.3%以上）が得られ，手動検証の必要性が大幅に削減された。
Link: https://arxiv.org/abs/2605.28833
オランダ語音節化アルゴリズムの評価と，深層学習による音韻情報と綴り情報の組み合わせによる精度向上 [cs.CL, cs.AI]目的：オランダ語音節化アルゴリズムの性能評価と，音韻情報と綴り情報の組み合わせによる性能向上
- 音節化は自然言語処理の基礎であり，発音記号生成や音声合成など多くの応用分野で不可欠である。
- オランダ語の音節化は複雑なルールと例外が多く，高精度なアルゴリズム開発が困難である。
- 既存のアルゴリズムの比較評価を行い，深層学習を用いた新しいフレームワークを開発することで，音節化精度を向上させる。
- 既存のオランダ語音節化アルゴリズムの性能を，辞書語，外来語，疑似語の3つのデータセットで比較した。
- 知識ベースのアルゴリズムと比較して，データ駆動型アルゴリズムの方が，ほとんどの条件で優れた性能を示した。
- 新たに開発した深層学習モデルは，先行研究よりも高い性能を示し，語の正答率は99.65%（0.14%改善）であった。
Link: https://arxiv.org/abs/2605.28834
GenesisFunc：正確かつ汎用性の高いFunction Callingのためのマルチエージェントデータ生成 [cs.CL, cs.AI]目的：Function Callingのためのトレーニングデータの生成
- LLMの能力拡張において，Function Callingは重要な役割を担う。高品質なデータが不可欠である。
- 実Function Callingデータの取得・アノテーションは困難であり，既存の合成データは品質や多様性に課題がある。
- 信頼性の高いFunction Callingトレーニングデータの自動生成による問題解決を目指す。
- 提案手法GenesisFuncは，多様なシナリオを網羅した高品質なFunction Callingデータセットを生成し，LLMの性能向上に貢献する。
- 生成されたデータセットでファインチューニングしたLLMは，同規模のオープンソースモデルを上回り，APIベースモデルに匹敵する性能を示す。
- 本手法は，ダウンストリームツールへのスケーラビリティも高く，実用性が期待される。
Link: https://arxiv.org/abs/2605.28835
読者を置き去りにしない：誰もが理解できるマルチエージェント要約 [cs.CL, cs.AI]目的：多様な読者の言語的・認知的障壁に対応した平易な文章要約
- 政府文書の理解促進は，情報格差の是正や民主主義の発展に不可欠である。
- 既存の要約システムは，読者の多様な理解度に十分に対応できていない。
- 読者の特性に応じた平易な要約を生成し，情報のアクセシビリティ向上を目指す。
- NRLBは，小学生，非ネイティブスピーカー，注意欠陥のある読者を対象としたマルチエージェントフレームワークである。
- テンプレートベースの計画と反復的な読者志向の改良を組み合わせ，難解な用語や文脈の欠如，紛らわしい文章を検出・解決する。
- 複数のデータセットで可読性の向上が確認され，人間による評価でも高い選好率が得られた。
Link: https://arxiv.org/abs/2605.28836
SERC：検索拡張生成のためのLDPC着想による意味的誤り訂正 [cs.CL, cs.AI]目的：検索拡張生成における大規模言語モデルの幻覚の抑制
- 大規模言語モデルの能力は目覚ましいが，幻覚による信頼性の低下が課題となっている。
- 従来の自己修正手法は自己バイアスに陥りやすく，自身の出力のエラーを外部検証なしに特定しにくい。
- 本研究は，効率的な検証戦略により，大規模言語モデルの幻覚を軽減し，精度を向上させることを目指す。
- SERCは，生成プロセスを意味的ノイズチャネルとして再構成し，LDPCコードに着想を得た疎な検証戦略を用いる。
- 実験結果から，SERCは既存の自己修正手法や検索拡張生成のベースラインを凌駕し，特にファクトの正確性において顕著な改善が見られた。
- SERCは，小規模言語モデル（SLM）が，より大規模なモデルを上回る性能を発揮することを可能にする，トレーニング不要でモデルに依存しないソリューションである。
Link: https://arxiv.org/abs/2605.28837
免疫性疾患に特化した医療言語モデル [cs.CL, cs.AI]目的：免疫性疾患に関する臨床情報の抽出
- 医療現場での情報活用において，臨床データの構造化が不可欠である。
- 免疫性疾患の専門用語は多様で，汎用的な自然言語処理では十分な精度が出ない。
- 免疫性疾患領域に特化した情報抽出モデルを開発し，臨床データの活用を促進する。
- 臨床ドメイン埋め込みを用いてTransformerベースのモデルを訓練した結果，F1スコア0.89を達成した。
- 専門的な埋め込みと専門家によるアノテーションの組み合わせが，病名などの微妙なニュアンスを捉える上で有効であった。
- 本モデルは症例報告の分析を構造化し，コホート特定や臨床意思決定支援などの下流タスクに貢献する。
Link: https://arxiv.org/abs/2605.28838
一つのマスクで全てを支配する：編集後の隠れた事実とその発見について [cs.LG]目的：Transformerモデルにおける事実の編集メカニズムの特定
- 大規模言語モデルの知識編集は，その信頼性と安全性を高める上で不可欠である。
- 知識編集手法の内部メカニズムは十分に解明されておらず，編集の持続性や影響範囲が不明である。
- 編集に共通して影響を与える重みのサブセットを特定し，編集のメカニズムを解明すること。
- ROMEやMEMITといった知識編集手法は，異なる事実を編集しても，同じ重みのサブセットをターゲットとしていることが示された。
- 編集された重みに対するバイナリマスクは，編集を80%以上，テストセットでも70%以上を覆すことが確認された。
- このマスクは，編集の成功に必要不可欠であり，編集時の注入により成功率が大幅に低下することが示された。
Link: https://arxiv.org/abs/2605.28839
LLMエージェントの整合性：マルチステップツール呼び出しパイプラインにおける行動の再現性測定 [cs.CL, cs.AI, cs.SE]目的：LLMエージェントの行動再現性の評価
- LLMエージェントは実用システムで活用が増加しており，その信頼性は重要な課題である。
- 同じエージェントが，同じ状況下で一貫した行動をとるかどうかの検証が不足している。
- 構造化されたツール呼び出しインターフェースにおける行動の整合性を定量的に評価する。
- マルチステップツール呼び出しエージェントにおける行動の一貫性を系統的に測定した。
- ツール選択，順序，引数の整合性を，同一の入力に対して繰り返し検証した。
- 従来のReActエージェント研究とは異なり，型付きパラメータと副作用を持つインターフェースに着目した。
Link: https://arxiv.org/abs/2605.28840
思考を計画として：強化学習計画による思考連鎖最適化のための潜在世界モデル [cs.CL, cs.AI]目的：思考連鎖最適化
- 大規模言語モデルの多様なNLPタスクにおける成功により，モデルの振る舞いをタスク目標に適合させる上で重要性が高まっている。
- 既存の思考連鎖調整手法は，解釈可能性，汎化性能，サンプル効率に欠ける，ブラックボックス的なヒューリスティックまたは勾配不要探索に依存している。
- 潜在的な意味空間における逐次決定プロセスとして思考連鎖最適化を定式化し，その問題を解決することを目指す。
- 本研究では，思考連鎖の編集が下流の出力に与える影響をシミュレートする潜在世界モデルを学習する新しいフレームワーク「思考を計画として」を提案する。
- 提案手法は，言語理解および生成タスクにおいて，効率性，ロバスト性，汎化性能の面で最先端の思考連鎖調整手法を上回り，構造化された計画軌跡を通じて解釈可能性を提供する。
- 思考連鎖の編集をトークン，セグメント，指示レベルで統合可能な多層抽象化をサポートする。
Link: https://arxiv.org/abs/2605.28842
バイオセキュリティの盲点：オープンサイエンス基盤におけるデュアルユースの体系的検出 [cs.DL, cs.CY, cs.LG]目的：オープンサイエンス基盤におけるデュアルユース研究の検出
- AI技術の急速な進歩が生命科学研究を加速させており，その影響は大きい。
- オープンサイエンスの推進は，デュアルユース研究に関する潜在的なリスクを高めている。
- オープンサイエンス環境下でのデュアルユース研究のリスク評価と管理方法を確立すること。
- bioRxivのプレプリント約52,000件を分析した結果，タイトルや要約にデュアルユースに関連する知識が頻繁に含まれていることが判明した。
- 既存のリスク閾値を超えるケースも多く，公衆衛生上の正当な目的を持つ研究においてもリスクが存在することが示された。
- 研究機関やプレプリントプラットフォームは，科学の透明性を損なうことなく，メタデータレベルでの監視体制を強化する必要がある。
Link: https://arxiv.org/abs/2605.28843
WASHH：アンカーを意識したクジラ誘導選択型ハイパーヒューリスティックによる連続最適化とSVC設定 [cs.NE, cs.LG]目的：連続最適化とSVC設定における探索戦略の選択
- 最適化問題は科学技術の様々な分野で不可欠であり，効率的な解法が求められている。
- 限られた評価予算下では，単一のメタヒューリスティックでは信頼性が低い場合がある。
- 複数の探索行動を組み合わせ，アンカーを活用することで，効率的な最適化を達成すること。
- WASHHは，10次元のベンチマーク関数において，平均ランク1.10と優れた性能を示した。
- 特に，他の手法と比較して8つの関数で厳密な性能向上，Rastrigin関数とGriewank関数で同等の最適解を得た。
- 乳癌診断のためのSVCハイパーパラメータ設定においても，WASHHは最も低い平均検証ログ損失を達成し，実用性を示唆した。
Link: https://arxiv.org/abs/2605.28844
GPF-LiveNews：大規模言語モデルにおけるグループ条件付きフレーミングのストリーミング評価プロトコル [cs.DC, quant-ph, cs.CL, cs.AI]目的：グループ条件付きフレーミングのストリーミング評価
- 言語モデルは実世界で常に変化する環境で利用され，その評価は重要である。
- 静的なバイアス評価では，新たな事象に対するモデルのフレーミングの変化を捉えられない。
- 出現したばかりのニュースに対するグループ条件付きフレーミングを評価する手法を提供する。
- GPF-LiveNewsプロトコルは，BBC/Reutersのニュース記事と42のアイデンティティラベル，7つのプロンプトファミリーを用いて評価を行う。
- 「Policy/Action」プロンプトが最も強い意味的変化を示し，感情の変化は比較的緩やかであった。
- 本研究で公開された成果物は，人間のレビューのための監査信号として解釈されるべきであり，永続的な公平性ランキングではない。
Link: https://arxiv.org/abs/2605.28848
行動誘導型ミラー・プロキシ時間差学習による高速オフポリシー予測 [cs.AI]目的：より高速なオフポリシー予測の実現
- 強化学習において，オフポリシー予測は効率的な学習に不可欠である。
- 従来のミラー・プロキシTD法は，特徴共分散行列に依存し，必ずしも最適な性能を発揮できない。
- 行動ポリシーからの情報を活用し，予測の精度と安定性を向上させる。
- 提案手法STHTD-MPは，行動ポリシーのベルマン行列を用いて補助変数空間の計量テンソルを更新する。
- 理論解析により，STHTD-MPがGTD2-MPよりも平均収縮率が小さくなる場合があることが示された。
- 数値実験の結果，提案手法がベンチマーク問題において有効であることが確認された。
Link: https://arxiv.org/abs/2605.28849
LLM取引エージェントにおける表現特性とリスクフィードバックの整合性 [cs.LG, q-fin.CP]目的：大規模言語モデル(LLM)取引エージェントにおける行動整合性と表現の動態
- 金融市場は複雑であり，高度な意思決定を必要とするため，AIエージェントの活用が重要視されている。
- LLMエージェントは幻覚やリスク管理の不備により，市場ストレス下で不安定になる可能性がある。
- LLMの表現変化を監視することで，潜在的な問題の兆候を早期に発見し，整合性を高める。
- LLMが損失を出す前に，計画埋め込みが正常状態の中心から乖離する兆候が見られた。
- 計画とリスクの表現が分離し，正常状態と損失発生前の状態を区別することが可能となった。
- 構造化されたリスクフィードバックは，ファインチューニングなしで外部整合性信号として機能するが，万能な性能向上には繋がらないことが示された。
Link: https://arxiv.org/abs/2605.28850
大規模言語モデルにおける文脈内学習中の表現幾何学の再構成 [cs.CL, cs.LG, q-bio.NC]目的：文脈内学習における表現幾何学の役割の解明
- 大規模言語モデルは多様なタスクに適応可能であり，自然言語処理の発展に不可欠である。
- 文脈内学習はパラメータ更新なしに行われるため，そのメカニズムは未解明な部分が多い。
- 表現空間の幾何学的構造が文脈内学習の効果にどのように影響するかを明らかにすること。
- 大規模言語モデルにおける文脈内学習の性能は，分類タスクの表現構造と相関関係にあることが示された。
- 文脈内学習の成功は，オンライン分離可能性を高める幾何学的再構成を伴うことが確認された。
- 大規模言語モデルの振る舞いは，エビデンスを統合しながら表現を再構築するプロトタイプのようなアルゴリズムで説明可能である。
Link: https://arxiv.org/abs/2605.28854
行動を考慮したオフポリシー時系列差分予測のための補助補正 [cs.AI]目的：オフポリシー時系列差分学習における不安定性の改善
- 強化学習において，オフポリシー学習はサンプル効率が高いが，不安定になりやすい。
- オフポリシー学習において，関数近似を用いると，時系列差分学習が不安定になりやすいという課題がある。
- 行動を考慮した補助共分散幾何学を導入し，安定性と性能の向上を目指す。
- 行動を考慮した補助行列（BA-TDC）は，既存手法（TDC）よりも優れた性能を示す場合がある。
- 正則化を加えたBA-TDRCは，より困難な環境下で安定した性能を発揮する。
- 線形解析により，ニューラルネットワークによる価値関数近似における補助幾何学設計の指針が得られる。
Link: https://arxiv.org/abs/2605.28855
微分可能偏微分方程式ソルバーのためのPyTorchインターフェース：RANSモデル補正の研究 [cs.CE, cs.CE, cs.LG, math-ph, math.MP]目的：偏微分方程式制約逆問題を解くための戦略
- 物理現象のシミュレーションは科学技術の発展に不可欠である。
- 複雑な物理現象のモデル化には，計算コストや近似誤差の問題がある。
- 機械学習を用いて偏微分方程式の解を補正し，精度向上を目指す。
- 提案手法は，データ同化からクロージャーモデリングまで，幅広い問題に対応可能である。
- 2D NASA 壁面ハンプレットケースにおいて，時間平均LESデータに対する生産項パラメータの最適化が行われた。
- VKI LS-59 タービンブレードにおいて，Spalart-Allmarasエディ粘性場の再構成が学習可能な空間場を用いて行われた。
Link: https://arxiv.org/abs/2605.28858
破滅的忘却のメカニズム的起源：なぜ強化学習はSFTよりも回路をより良く保存するのか？ [cs.LG, cs.AI, cs.CL]目的：大規模言語モデルのファインチューニングにおける破滅的忘却のメカニズム
- 大規模言語モデルの性能向上は重要だが，学習の安定性が課題。
- ファインチューニングによる既存能力の喪失，すなわち破滅的忘却が頻発する。
- 強化学習がSFTよりも破滅的忘却に強い理由をメカニズムレベルで解明する。
- SFTはターゲットタスクへの適応は速いが，回路の破壊と既存能力の忘却が大きい。
- 強化学習は回路の大部分を保存するが，ターゲットタスクへの適応は遅い。
- 回路の保存が，なぜ強化学習が破滅的忘却に強いかの理由になりうる。
Link: https://arxiv.org/abs/2605.28860
薬剤リード化合物の最適化におけるエージェントによるツール計画 [cs.LG, q-bio.QM]目的：薬剤リード化合物の最適化
- 創薬は時間と資源を要する分野であり，効率化が求められている。
- 既存のリード最適化手法は，短期的な決定に偏りがちで，長期的な影響を考慮できない。
- 本研究は，将来を見据えた構造最適化を可能にするエージェントの開発を目指す。
- 提案手法TRACEは，複数のADMET最適化タスクにおいて，既存モデルより高い最適化成功率を示した。
- TRACEは，分子構造を維持しつつ，特性の改善と妥当性の向上を実現した。
- TRACEは，ツール選択を系列決定問題として捉え，長期的な視点での最適化を可能にする。
Link: https://arxiv.org/abs/2605.28862
不完全情報下における大富豪の自己対戦強化学習 [cs.LG, cs.AI]目的：不完全情報マルチプレイヤーゲームにおける強化学習手法の比較と性能向上
- 隠れた情報，稀な報酬，非定常的な対戦相手が存在する環境下でのエージェントの行動能力が重要である。
- 既存の手法では，不完全情報環境下でのマルチプレイヤーゲームにおける学習効率と安定性が課題である。
- 大富豪をテストケースとして用い，強化学習におけるアルゴリズムの有効性と改善策を検証する。
- PPOは，ランダム，貪欲，ヒューリスティックな対戦相手に対して，モンテカルロQ近似，SARSA，Q学習よりも優れた性能を示した。
- 適度なエントロピー正則化は，PPOの過度な決定性を抑制し，性能を向上させる効果が確認された。
- 現在のポリシーに基づく自己対戦が，チェックポイント自己対戦や固定対戦相手の訓練よりも有効な学習カリキュラムとなることが示された。
Link: https://arxiv.org/abs/2605.28863
認知圏論的Transformer：言語モデリングのための圏論的帰納バイアス [cs.AI, cs.CL]目的：言語モデリングにおける圏論的帰納バイアスの効果検証
- 自然言語処理の発展は，より高度な言語理解と生成を可能にする上で不可欠である。
- Transformerモデルは強力だが，その学習効率や汎化性能には改善の余地がある。
- 圏論的枠組みを導入することで，言語モデルの構造的理解を深め，性能向上を目指す。
- CCTは，GPT-2 Smallをベースに圏論に基づいた構成要素を加えた3.06億パラメータのモデルである。
- WikiText-103の検証において，CCTはGPT-2 Smallのファインチューニングよりも2.92 PPL（12%相対）の改善を達成した。
- シンプリシャルメッセージパッシングが，3.06億パラメータ規模の言語モデルのperplexity改善に寄与することが実験的に確認された。
Link: https://arxiv.org/abs/2605.28864
物理的相互作用による世界モデルにおける意味表現の創発：言語的教師なし学習 [cs.LG, cs.AI]目的：世界モデルにおける意味表現の創発
- ロボット工学やAIにおいて，環境を理解し，自律的に行動するためには，世界モデルが不可欠である。
- 既存の世界モデルは，言語データに大きく依存しており，言語能力なしでは学習が困難であるという課題がある。
- 言語的教師なしで，物理的相互作用のみを用いて世界モデルが意味を学習する原理を解明すること。
- 物理的探索を通して学習した世界モデルの潜在空間が，物理的な幾何構造を反映した空間的意味構造を獲得することを示した。
- 方向推定の精度や位置のRSA値が，ランダムに初期化されたエンコーダと比較して有意に向上し，構造的組織化が確認された。
- 予測性能と意味的整合性が相関し，KL正則化の強さを調整することで幾何構造へのアクセスを制御できることが示された。
Link: https://arxiv.org/abs/2605.28865
連続性と順序が重要：大規模言語モデルによる効果的な時系列分析のための時系列トークンの制約 [cs.LG, cs.AI]目的：時系列分析のための大規模言語モデルにおける時系列トークンの連続性と順序の重要性
- 時系列データは，経済，科学，工学など多岐にわたる分野で重要な役割を担っている。
- 従来の時系列分析手法では，複雑なパターンや長期的な依存関係の把握が困難であった。
- 大規模言語モデルの活用により，時系列データのより高度な分析と推論が可能となることが期待される。
- 本研究では，時系列トークン埋め込みにおける連続性と順序を保持することの重要性を示す。
- 提案手法COMは，幾何学的制約を初期化と学習段階に統合することで，トークンベースの時系列大規模言語モデルの性能を向上させる。
- 複数の時系列分析ベンチマークにおいて，COMは競合的な結果と高い汎化性能を達成した。
Link: https://arxiv.org/abs/2605.28866
プリズムフロー：時系列生成のためのフローマッチングにおける残差ダイナミクス [cs.LG, cs.AI]目的：時系列データの高品質な生成
- 現実世界の信号は多峰性や多スケールなダイナミクスを持つため，高品質な時系列データの生成は重要である。
- 従来のフローマッチングは単一のベクトル場推定器に依存し，複雑な分布では局所的な輸送場の近似が不十分になりやすい。
- 本研究は，モード特化的な残差ダイナミクスを導入することで，従来のフローマッチングのスペクトル収縮を軽減することを目指す。
- 提案手法プリズムフローは，Koopmanに基づいたダイナミカルエキスパートを用いることで，高頻度な時系列構造を効果的に捉える。
- コンフィデンスを考慮したWinner-Take-All目標関数により，エキスパートのモード特化化を促進し，スペクトル収縮を抑制する。
- 様々なベンチマークにおいて，Context-FIDで15.6%向上，Discriminative Scoreで38.6%改善するなど，最先端の性能を達成した。
Link: https://arxiv.org/abs/2605.28867
TaxDistill：蒸留されたゲノム基盤モデルによるメタゲノム分類学的注釈の改善 [cs.LG, cs.AI]目的：メタゲノム分類学的注釈の精度向上
- 環境中の微生物群集の組成を把握する上で不可欠な技術であり，医療や環境科学への応用が期待される。
- 参照データベースの不完全性や微生物多様性の高さから，配列類似度に基づく従来法では十分な精度が得られない場合がある。
- 教師あり学習におけるラベルノイズを軽減し，より高精度なメタゲノム分類を実現することを目的とする。
- TaxDistillは，知識蒸留フレームワークを用いて，ゲノム基盤モデルから得られる信頼度の高いソフトラベルを活用することで，初期検索ツールによるラベルノイズを効果的に削減する。
- CAMI2の7つのデータセットでの実験により，TaxDistillが既存のベースラインを上回る性能を示すことが確認された。
- 例えば，消化器系データセットにおいて，MMseqs2のF1スコアを0.763から0.941へと大幅に向上させ，Taxometerを上回る結果を得た。
Link: https://arxiv.org/abs/2605.28868
ラベル空間の再構成による多次元学習の均衡化 [cs.LG, cs.AI]目的：多次元学習におけるモダリティ間の学習ペースの不均衡の解消
- 多次元学習は，多様な情報源の統合により高度な認識能力を実現する重要な技術である。
- モダリティ間の学習速度の差が学習のボトルネックとなり，性能低下を引き起こす場合がある。
- ラベル空間の再構成を通して，各モダリティ間の学習難易度を均等化し，均衡化を図る。
- 提案手法BMLRは，モダリティ間の学習難易度の差をラベル空間側から調整することで多次元学習の均衡化を促進する。
- 実験結果から，BMLRは様々なモデルアーキテクチャにおいて多次元学習の性能を安定的に向上させることが示された。
- BMLRは，モダリティ間の相互作用を強化し，各モダリティに豊富なクラス間情報を注入する効果がある。
Link: https://arxiv.org/abs/2605.28869
表現アライメントは線形構造に依存する [cs.LG, cs.AI]目的：表現アライメントのメカニズム解明
- AIモデルの性能向上には，モデルが学習する表現の理解が不可欠である。
- 異なるモデル間での表現アライメントが不十分である場合がある。
- 線形表現仮説を精緻化し，表現アライメントの現象を説明すること。
- プラトニック表現仮説に基づき，表現を信号，バイアス，ノイズの３要素で分析した。
- 線形表現仮説が，オブジェクトと属性間の線形関係を捉え，アライメントを促進することを示唆する結果が得られた。
- モデルのバイアス軽減やデータ不足によるノイズの影響がアライメントに及ぼす影響を明らかにした。
Link: https://arxiv.org/abs/2605.28870
検出可能な効果の事前登録：4ビット量子化ベンチマークのためのペアードMDE予算とパイロット監査 [cs.NI, cs.LG]目的：4ビット量子化ベンチマークにおける検出可能な効果の最小限の bound を定量的に示す予算策定手法
- 機械学習モデルの効率化において，量子化はモデルサイズと推論速度を改善する重要な手法である。
- 量子化ベンチマークの信頼性評価が難しく，ベンチマーク自体のノイズが結果に影響を与える可能性がある。
- ベンチマーク設計者が，実行前に量子化主張の信頼性を定量的に評価できる予算策定基準を提示する。
- 提案手法により，量子化主張の信頼性を評価するための簡潔な予算算出が可能となった。
- 実際のモデルとベンチマークの評価において，多くの結果が事前に設定されたMDEを下回っており，ベンチマークの変動の多くは二項サンプリングノイズに起因することが示された。
- プロンプトテンプレートの変動が量子化監査に影響を与える可能性があり，プロンプトテンプレートを固定することの重要性が示唆された。
Link: https://arxiv.org/abs/2605.28873
LogDx-CI：LLMの根本原因診断のためのログ削減ツールのベンチマーク [cs.CL, cs.SE, cs.AI]目的：LLMによる根本原因診断の精度を向上させるためのログ削減手法の比較
- 大規模なCIログは，ソフトウェア開発におけるデバッグ効率化に不可欠である。
- CIログは大規模かつノイズが多く，効果的なログ削減手法が存在しない。
- LLMの診断精度を維持しつつ，コストを削減する最適なログ削減手法を特定する。
- ハイブリッドなgrep+tailルーターが，コストと品質のトレードオフにおいて優位性を示す。
- エージェントループにおいては，ログ削減手法による品質の差は縮小するが，コストの違いは残存する。
- 異なるLLMによる要約とデバッグの組み合わせが，同一LLMによる組み合わせよりも高い診断精度を達成した。
Link: https://arxiv.org/abs/2605.28876
連続時間因果基礎モデルの構築に向けて [cs.LG, physics.data-an, stat.ME]目的：連続時間における因果基礎モデルの構築
- 時系列データ分析において，因果関係のモデル化は予測精度向上や解釈可能性の向上が期待される。
- 既存手法では，離散時間モデルを連続時間へ拡張する際に，観測タイミング依存性という問題が生じる。
- 観測スケジュールに依存しない軌跡法則を確立し，連続時間因果モデリングの課題解決を目指す。
- 観測スケジュール不変性という精密な連続性基準を提案し，離散時間，ナイーブ積分，微細グリッド積分を含む3層の分類体系を構築した。
- ランダムDAGとOU/小規模MLP非線形ドリフトを用いて，最も高次の層を実装し，不規則な観測スケジュールや介入にも対応できることを示した。
- 線形および非線形事前分布に対して行ったエンコーダ×インテグレータの消去実験により，微細グリッド積分がナイーブ積分を上回り，エンコーダ軸は微細積分で無効化され，ナイーブ積分で時間認識的優位性を示すことがわかった。
Link: https://arxiv.org/abs/2605.28880
GrowLoop：人間による初期シードに基づいた自己進化型会話評価 [cs.CL, cs.AI, cs.SD]目的：大規模言語モデルの人間らしさ評価に関する研究
- 言語モデルの急速な進歩に伴い，人間らしい会話の評価が重要になっている。
- 人間らしさの基準は暗黙知であり，明確な定式化が困難である。
- モデルの進化と人間の期待に応じた継続的な評価基準の進化を目指す。
- GrowLoopは，最小限の人間によるシードアノテーションから始まり，LLMエージェントがヒューリスティック学習を通じて評価ルブリックを反復的に抽出・洗練する。
- 生成されたルブリックは，既存の方法よりも人間の判断との整合性が高く，アノテーターが見落としがちな問題も明らかにする。
- この研究は，手動更新や難易度調整から，包括的で継続的な自己進化へとベンチマークのパラダイムを変える。
Link: https://arxiv.org/abs/2605.28882
超低影響選択伐採・育林システム(URIEL): 熱帯林における航空ロボットを用いた持続可能な伐採と育成処理の新たな手法 [cs.AI, cs.RO]目的：熱帯林における持続可能な伐採と育成処理のための新手法
- 熱帯林の森林破壊は気候変動に寄与しており，その保全は地球規模で重要である。
- 従来の伐採方法は，森林への副次的被害が大きく，生態系サービスを損なう可能性がある。
- 森林への被害を最小限に抑えつつ，経済的にも実現可能な伐採・育成システムを確立すること。
- URIELは，ヘリコプター伐採とロボット・AI技術，ドローンによる育林処理を組み合わせることで，森林への副次的被害をほぼなくすことができる。
- 経済的実行可能性分析の結果，URIELは高い経済的妥当性を有することが示された。
- URIELの実現には，ハイテク産業，政府，認証された林業会社，先住民など，関係者の連携が不可欠である。
Link: https://arxiv.org/abs/2605.28883
Amapにおける暗黙的な推論を通じた生成型時空間意図シーケンス推薦 [cs.IR, cs.LG]目的：生成型時空間意図シーケンス推薦のためのフレームワーク
- 現実世界のユーザー行動は時空間的な依存関係を持つ意図の流れであり，より統合的なサービス提供が求められている。
- 大規模言語モデルは推論能力を持つが，推論遅延や現実世界との整合性の問題があり，実用化が難しい。
- 言語モデルの推論能力を軽量モデルに組み込み，低遅延かつ現実世界に適合した計画生成を目指す。
- 提案手法GPlanは，Progressive Implicit CoT Distillationにより，大規模言語モデルの推論プロセスを潜在的なトークンに圧縮し，低遅延を実現した。
- Spatiotemporal Counterfactual DPOを用いることで，時空間的文脈への感度を高め，文脈と一致しない計画を減少させた。
- オフライン実験とオンラインA/Bテストの結果，シーケンスの一貫性と文脈応答性が向上することが示された。
Link: https://arxiv.org/abs/2605.28888
文脈蒸留における潜在的メモリ管理 [cs.LG, cs.AI]目的：文脈情報の圧縮と，その潜在的メモリの効率的な管理
- 大規模言語モデルの性能向上には，文脈理解能力の向上が不可欠である。
- 既存の文脈蒸留法では，複数潜在的メモリの格納・検索・安全な活性化が課題となっていた。
- 潜在的メモリを効率的に管理し，必要な時のみ活性化することで，モデルの性能と安定性を向上させる。
- 文脈を独立したLoRAアダプタとして蒸留することで，モジュール化されたメモリバンクを構築した。
- 自己ゲーティング機構を用いることで，不要な潜在的メモリの活性化を抑制し，頑健性を高めた。
- 実験結果から，提案手法は検索性能において既存手法を大幅に上回り，キャッシュ共有により推論時の管理オーバーヘッドを削減できることが示された。
Link: https://arxiv.org/abs/2605.28889
推論内の反響：思考の連鎖によるステルス性と効果的なウォーターマーキング [cs.CR, cs.LG]目的：大規模言語モデルの知的財産保護
- LLMの高度化に伴い，その技術的優位性を保護する重要性が高まっている。
- 既存のウォーターマーク手法は，堅牢性と推論の忠実性の両立が困難である。
- 推論過程にウォーターマークを埋め込み，モデルの盗難や改ざんから保護すること。
- BiCoTは，推論過程の構造的なアンカーを高精度に制御し，ウォーターマークを埋め込むことで，推論能力を損なわずに所有権を保護する。
- Robust Subspace Registration (RSR)により，モデルの変更や表現の変化下でもウォーターマークの検証が可能となる。
- 多様な推論タスクにおいて，BiCoTは高い推論精度を維持しつつ，様々な攻撃に対して堅牢な検出性能を発揮する。
Link: https://arxiv.org/abs/2605.28890
LoRAアダプターの特徴幾何：ファインチューンされた言語モデルにおける表現の乖離に関する疎なオートエンコーダー分析 [cs.LG]目的：LoRAによる表現変化の幾何学的構造の解明
- 大規模言語モデルの活用が拡大する中で，その適応技術の理解が不可欠である。
- LoRAのような適応手法が，事前学習済みの表現にどのような変化をもたらすか不明である。
- LoRAによって誘起される表現構造を分析し，その特性を明らかにすること。
- LoRAによって誘起される特徴辞書は，事前学習済みのオートエンコーダーの特徴よりも幾何学的な類似性が低いことが示された。
- LoRA更新は，残差ストリーム内の部分的に異なる表現構造を占有していることが示唆された。
- 特徴密度はランクと深さとともに増加するが，幾何学的な乖離はランクに依存して変化しない。
Link: https://arxiv.org/abs/2605.28896
LLMレビューの人間との整合性とゲーム可能性に関する考察 [cs.AI, cs.MA]目的：LLM生成レビューの人間との整合性と，論文提出前の改善におけるLLM利用の影響
- 学術論文の査読においてLLMの活用が進んでおり，その質と信頼性が重要になっている。
- LLMレビューと人間によるレビューとの間にずれがあり，評価の公平性に懸念が生じている。
- LLMレビューを意図的に操作（ゲーム化）することで，論文の評価が向上する可能性を検証する。
- LLMレビューは人間によるレビューと必ずしも一致せず，プロンプトやモデルによって整合性が大きく変動する。
- 著者がLLMレビューに基づいて論文を反復的に修正する「ゲーム化」は，特定の条件下で統計的に有意なスコア向上をもたらす。
- LLMレビューのゲーム化によって，最悪の場合，論文のスコアが最大35%向上する可能性があることが示された。
Link: https://arxiv.org/abs/2605.28897
人工知能における量子強化された敵対的ロバスト性 [cs.CR, cs.AI]目的：人工知能の敵対的ロバスト性の向上
- 人工知能は様々な分野で成功を収めているが，その安全性と信頼性が重要課題となっている。
- 敵対的攻撃に対する脆弱性が，特に安全性が求められるシステムにおいて深刻な問題である。
- 量子技術を用いて，人工知能システムの敵対的攻撃に対する耐性を高めることを目指す。
- 本研究は，敵対的機械学習と既存の防御戦略の包括的な概要を提供する。
- 量子コンピューティングおよび量子機械学習モデルを紹介し，量子強化された敵対的ロバスト性の概念的枠組みを提示する。
- 量子最適化，特徴マッピング，ハイブリッド量子古典アーキテクチャが，安全で信頼性の高いAIシステム開発を支援する。
Link: https://arxiv.org/abs/2605.28899
拡散モデルの柔軟かつ効率的な制御のためのスペクトルガイダンス [cs.LG]目的：拡散モデルの制御に関するフレームワーク
- 生成モデルは画像生成等の分野で注目されており，その制御技術の確立が重要である。
- 拡散モデルの制御は，モデルの再学習や複雑な計算を必要とし，効率性や安定性に課題があった。
- 生成過程の内在的幾何学に基づき，効率的かつ安定した制御を実現し，サンプリング速度の向上を目指す。
- スペクトルガイダンスにより，CIFAR-10における条件付き精度が，最良の学習不要ベースラインよりも37パーセント向上した。
- 従来の4倍の速さでサンプリングが可能となり，効率的な画像生成が実現した。
- ラベルやCLIPガイダンスに加え，マスクベースの空間的制御も補助モデルなしで可能となった。
Link: https://arxiv.org/abs/2605.28900
拡散モデルにおける直交概念消去 [eess.SY, cs.SY, cs.AI]目的：拡散モデルにおける不要または不適切なコンテンツの軽減
- 拡散モデルは高品質な画像生成が可能だが，有害コンテンツ生成のリスクがあるため，安全性の確保が重要である。
- 既存の概念消去手法は，計算コストが高いか，消去精度と生成能力の両立が困難であるという課題がある。
- 方向性に着目し，直交変換によるパラメータ更新で概念消去と生成能力維持を両立することを目指す。
- 本研究では，直交概念消去（OCE）を提案し，拡散モデルのパラメータを幾何学的に操作することで，概念の消去と生成能力の維持を両立した。
- 実験の結果，OCEは既存手法と比較して，概念消去の精度と，ターゲット以外の画像の品質維持において優れた性能を示した。
- OCEは，最大100個の概念を4.3秒で消去することが可能であり，効率性とスケーラビリティに優れている。
Link: https://arxiv.org/abs/2605.28902
逐次物理制約ニューラル演算子によるNorne貯留層システムの順方向モデリング [cs.HC, cs.CY, cs.LG]目的：３相黒油貯留層動力学の逐次代理モデリング
- 石油・ガス生産における貯留層シミュレーションは，資源開発の最適化に不可欠である。
- 従来の物理ベースシミュレータは計算コストが高く，アンサンブル予測のボトルネックとなる。
- ニューラル演算子を用いて，高速かつ高精度な代理モデルを構築し，計算効率を向上させる。
- フーリエニューラル演算子(FNO)と物理制約型FNO(PINO)を用いた数学的・計算的枠組みを開発した。
- PINOによる訓練は，学習されたヤコビアンのスペクトル半径を低減し，時間ステップごとの誤差を抑制することを示した。
- 実証実験により，提案手法は油，ガス，圧力，水に関して高い予測精度を示し，既存シミュレータと比較して約1万倍の高速化を実現した。
Link: https://arxiv.org/abs/2605.28909
臨床要約のための幻覚検出誘導による嗜好度最適化 [cs.CL, cs.AI]目的：臨床要約における幻覚の低減
- 医療分野では正確性が不可欠であり，要約の信頼性は患者ケアに直結する。
- 大規模言語モデルは幻覚を起こしやすく，医療現場での利用を妨げる要因となっている。
- 幻覚検出を活用し，事実に基づいた要約を自動的に生成することを目指す。
- 提案手法は，LlamaおよびGemmaモデルを用いた臨床ノートの要約において，幻覚を大幅に低減した。
- 特に，Llama-3.1-8B-Instructにおいて，\itermodelは24%，\modelは48%の幻覚減少を実現した。
- 要約の流暢性，一貫性，関連性も維持されており，専門家およびLLM-Juryの評価で確認された。
Link: https://arxiv.org/abs/2605.28910
サイクル空間に基づく電力システムに対する自己符号化型ブラインド偽データ注入攻撃の検知 [cs.CY, cs.LG, cs.CR]目的：電力システムにおける自己符号化型ブラインド偽データ注入攻撃の検知手法
- 電力系統はリアルタイム計測データと自動化された意思決定に依存度が増しており，信頼性確保が重要である。
- 既存の検知手法はデータ構造を悪用する攻撃に対して脆弱であり，ステルス性の高い攻撃を見抜けない場合がある。
- ネットワークのサイクル空間を利用し，構造的制約を加えることで，データ駆動型偽データ注入攻撃の検知精度向上を目指す。
- 提案手法であるサイクル空間検知器（CSD）は，最小サイクル基底を用いることで，攻撃検知における最適な汎化誤差を達成する。
- CSDは正確な線路パラメータを必要とせず，正常データと攻撃データ間の分離を改善する。
- IEEE規格の系統を用いたシミュレーションにより，提案手法が現実的な計測ノイズ下でデータ駆動型偽データ注入攻撃を効果的に検知することが示された。
Link: https://arxiv.org/abs/2605.28912
AIRGuard：実行時権限制御によるエージェントの行動保護 [cs.CL, cs.CR, cs.AI]目的：エージェントの行動に対する実行時権限制御の機構
- 言語エージェントの利用拡大に伴い，外部環境への影響を考慮したセキュリティ対策が不可欠となっている。
- エージェントは実行可能な行動を通じて攻撃される可能性があり，単純な出力制限だけでは不十分である。
- AIRGuardは，権限の錯綜を防ぎ，エージェントによる安全でない行動を抑制することを目指す。
- AIRGuardは，ツール呼び出しの標準化，段階的な権限付与，信頼性の追跡，影響のシミュレーション，リスクの監査，実行前の強制を行う。
- AgentTrapにおいて，AIRGuardはSonnet 4.6の攻撃成功率を36.3%から5.5%に低減することに成功した。
- DTAP-150では，Haiku 4.5を用いた場合，AIRGuardは76.0%の有用性を維持し，ARGUS(52.0%)やMELON(42.0%)を上回った。
Link: https://arxiv.org/abs/2605.28914