arXiv雑要約
AI - 2026/04/21 公開
心はどこにあるか:パーソナベクターとLLMの個別化 [cs.CL, cs.AI]目的:大規模言語モデルにおける心と同一視すべき実体の特定
- LLMの能力向上に伴い,その内部構造と精神的な側面への関心が高まっている
- LLMの「個性」や「自己」の存在機序が未だ解明されていない
- LLMにおける心の所在を,メカニズム解釈を通して探求する
- LLMの注意機構におけるトークン間の繋がりが,心理的な関係性を維持している可能性が示唆された
- パーソナベクターに関する研究から,LLMの内部構造と個性形成の関係性に関する新たな視点が提示された
- 仮想インスタンス説,仮想インスタンス-パーソナ説,モデル-パーソナ説の3つの視点が,LLMの心の所在に関する有力な候補として挙げられた
スパイクの疎性が展開コストに繋がらない場合:Jetson Orin NanoにおけるVS-WNO [cs.CL, cs.LG, cs.AR, cs.NE]目的:スパイクニューラル演算子のエッジGPUへの展開コスト評価
- ニューロモーフィックエッジコンピューティングは,低遅延・低消費電力化が期待され,省エネルギー社会の実現に貢献する。
- スパイクニューラルネットワークの理論的な利点が,実際のGPU環境で活かせるか不明確である。
- Jetson Orin Nano上でのVS-WNOの展開コストを評価し,スパイクの疎性がコスト削減に繋がるかを検証する。
- VS-WNOはアルゴリズム的には疎性を示すが,展開時のレイテンシは59.6msと,dense WNOの53.2msを上回った。
- VS-WNOの推論毎の消費エネルギーは228.0mJであり,dense WNOの180.7mJよりも高かった。
- Nsight Systemsの分析から,スパイクの疎性がランタイムによって活用されず,denseな演算が主体となっていることが示された。
大規模言語モデルにおける選択的パラメータ最適化による効率的なタスク適応 [cs.RO, cs.RO, cs.CL, cs.AI]目的:大規模言語モデルのタスク適応における効率性向上
- 言語モデルは汎用的な能力を持つが,特定タスクへの適応が課題。
- ファインチューニング時に,事前学習で獲得した知識が失われることがある。
- 重要なパラメータを固定し,一部のみを更新することで知識の損失を防ぐ。
- 提案手法は,既存のファインチューニング手法と比較して,破滅的忘却を軽減する。
- GPT-JやLLaMA-3を用いた実験で,科学,医療,物理タスクにおいてモデルの適応能力を向上させることを示した。
- パラメータの重要度評価により,汎用性と特定タスクへの適応性のバランスを取ることが可能となる。
ベクターグラフィックスと画像検索のためのトレーニングフリーな指示駆動型マルチモーダル埋め込み器 [cs.CL, cs.CV, cs.AI]目的:ベクターグラフィックスと画像検索におけるマルチモーダル埋め込み
- 多様なデータ形式を統合し,より高度な検索・理解を可能にするマルチモーダル研究の重要性。
- 従来のマルチモーダル手法は,構造化された情報を十分に活用できていないという課題。
- 指示に基づき,ベクターグラフィックス,画像,テキストを効果的に統合し,構造を意識した検索を実現すること。
- トレーニング不要で,大規模言語モデルを用いてテキスト,画像,SVGコードを共通の埋め込み空間にマッピングするフレームワークを提案。
- モダリティ固有の指示とSVGの構造的特徴を利用し,学習済み射影ヘッドや対照学習の必要性を排除。
- 新たに構築したテキストからSVGへの検索ベンチマークにおいて,既存手法を上回る性能を達成。
RLM-on-KG:必要に応じてLLMを活用する適応的検索制御:分散した証拠に対するメンショングラフ [cs.IR, cs.AI]目的:知識グラフ探索におけるLLMコントローラーとルールベース探索の性能比較
- 知識グラフは,質問応答などのタスクにおいて重要な役割を担う構造化データである。
- 従来の知識グラフ探索は,ルールベースのアプローチに依存しており,柔軟性に課題があった。
- 分散した証拠に対する探索において,LLMの活用が有効か検証する。
- 証拠が分散している場合や,ツール利用が複雑な場合に,LLMコントローラーの性能が向上する。
- Gemini 2.0 Flashは,ルールベース探索よりもF1スコアで2.47pp向上したが,GraphRAGローカルと比較した優位性は小さかった。
- Claude Haiku 4.5では,ルールベース探索との差が拡大し,GraphRAGローカルに対しても有意な改善が見られた。
コヒーレントシステムのスケーラブルな不確実性定量化のための基準状態システム信頼性手法 [cs.LG, math.PR]目的:コヒーレントシステムの信頼性評価
- インフラやサプライチェーンなど,多くの現実的な応用において重要である。
- 既存の分解に基づく手法は,コンポーネント数が増加すると計算コストが急増する。
- 大規模システムのリアルタイムリスク評価を可能にするスケーラブルな手法を開発する。
- 提案手法である基準状態システム信頼性(RSR)は,モンテカルロサンプルの分類に基準状態を利用し,計算コストを大幅に削減する。
- 119ノード,295エッジのグラフのシステム状態確率を10秒以内に評価可能であり,大規模システムのリアルタイムリスク評価への応用が期待される。
- 既存手法では困難な数十万の基準状態にも対応可能であり,多状態システムにも拡張できる。
拡散言語モデルにおける安定性重み付きデコーディング [cs.CL, cs.LG]目的:拡散言語モデルのテキスト生成の安定性向上
- 近年の大規模言語モデルの発展は,自然言語処理の様々なタスクにおいて目覚ましい成果を上げている。
- 拡散言語モデルは並列生成を可能にするが,不安定なトークンの早期マスク解除が性能低下を招く。
- トークンの時間的な不安定性を考慮し,より安全なマスク解除戦略を確立すること。
- 本研究では,トークンの時間的不安定性をKLダイバージェンスで定量化し,マスク解除の安全性との関連性を示す理論的根拠を確立した。
- 提案手法である安定性重み付きデコーディング(SWD)は,訓練不要で任意のスコアベースデコーディングポリシーに適用可能である。
- コード生成や数学的推論の実験で,SWDが様々な評価指標において既存手法を上回り,高いロバスト性を示した。
Abstain-R1:検証可能な強化学習による校正された棄権と,その後の明確化 [cs.MA, cs.CL, cs.AI]目的:大規模言語モデルにおける,信頼性の高い棄権と明確化のメカニズム
- 大規模言語モデルの推論能力向上は重要だが,誤った情報を生成するリスクも伴う。
- 既存の棄権方法は,曖昧な拒否や,有効な明確化を検証しないことが課題。
- 情報不足時の明確な説明と,信頼性の高い棄権能力の向上を目指す。
- Abstain-R1は,30億パラメータのモデルであり,回答可能な質問への性能を維持しつつ,回答不能な質問に対する棄権と明確化を改善した。
- 検証可能な報酬を用いることで,規模に依存せず,校正された棄権と明確化を学習できることを示した。
- Abstain-Test,Abstain-QA,SelfAwareでの実験で,DeepSeek-R1を含む大規模システムに匹敵する性能を達成した。
タスク算術における重みの非干渉性の理解と強制 [cs.AI]目的:タスク算術における重み非干渉性の根本原理とその促進
- 事前学習済みモデルの編集手法としてタスク算術は効率的だが,その成功の理論的根拠は不明確であった。
- 従来の「重み非干渉性」概念は理想的な状態を示すものの,その根本原因を明らかにしていなかった。
- 内部特徴のタスク特化度を高めることで,重み非干渉性を実現し,タスク算術の性能を向上させる。
- 本研究では,タスク特化度(TFS)が重み非干渉性の十分条件であることを証明し,TFSと重みベクトルの直交性の関連性を示した。
- 抽象的なTFSを直接強制する代わりに,その具体的な幾何学的帰結である直交性を促進することで,重み非干渉性を実現する手法(OrthoReg)を提案した。
- OrthoRegは,様々なタスク算術手法において,性能を大幅に向上させることが実験的に確認された。
暗黙的情報の解釈における人間と大規模言語モデルの比較 [cs.CL, cs.AI]目的:暗黙的情報の抽出と解釈の差異分析
- 人間コミュニケーションの根幹をなす暗黙的理解は,AIとの対話において不可欠である。
- 大規模言語モデルは,文脈から暗黙的な意味を人間と同程度に理解できない場合がある。
- 大規模言語モデルによる暗黙的情報抽出の限界と,人間との違いを明らかにすること。
- 人間はモデルが抽出した関係性の多くに同意する一方で,追加の情報を提案することが多い。
- モデルは,社会的な文脈においては推論に保守的であり,事実に基づいた文脈においては人間も同様の傾向を示す。
- 本研究で開発したパイプラインと評価データセットは,暗黙的情報抽出研究の基盤となる。
EvoComp:セマンティック誘導進化ラベリングによるマルチモーダル大規模言語モデルの視覚トークン圧縮学習 [cs.CV, cs.LG]目的:マルチモーダル大規模言語モデルにおける視覚トークン圧縮
- 近年,画像とテキストの理解において優れた性能を示す大規模言語モデルの重要性が増している。
- 高解像度画像や複数画像の場合,視覚トークン数が多くなり,推論効率が低下する点が課題である。
- 視覚およびテキスト情報を考慮し,重要なトークンを選択することで,トークン数を削減し,効率的な推論を可能とする。
- EvoCompは,既存の手法と比較して,タスク精度を維持しながらトークン数を大幅に削減できることが示された。
- 3倍のトークン圧縮下で元の精度を99.3%維持し,モバイルデバイスでは最大1.6倍の高速化を実現した。
- 進化ラベリング戦略と損失関数により,効果的なトークン圧縮とセマンティックな多様性の維持を両立している。
概念の樹:非定常臨床領域における解釈可能な継続学習 [cs.LG]目的:解釈可能な継続学習のためのフレームワーク
- 医療分野など,高い信頼性が求められる場面で,モデルの適応性と解釈可能性が重要である。
- 適応性に優れたモデルは解釈が難しく,解釈可能なモデルは分布シフトに弱いという課題がある。
- 概念ベースのインターフェースを用いて,継続的な学習と解釈可能性を両立することを目指す。
- 提案手法「概念の樹」は,固定されたルールベースの概念インターフェースを用いて継続学習を行う。
- 概念抽出器とラベルヘッドを更新することで適応性を高め,概念の意味の安定性を保つ。
- 複数の医療データセットにおいて,既存手法よりも安定性と可塑性のバランスが優れていることを示した。
設定の選択よりも優先:RTL生成のためのオープンソースLLMにおけるハイパーパラメータの感度がモデルの違いを上回る [cs.AR, cs.AR, cs.AI]目的:オープンソースLLMのハイパーパラメータ設定の影響評価
- ハードウェア設計におけるLLM活用が注目されており,設計の自動化と効率化が期待されている。
- 既存研究ではLLMの選択に焦点が当たりがちで,推論時の設定が十分に検討されていない。
- LLMの性能を最大限に引き出すためには,アーキテクチャとベンチマークを考慮したハイパーパラメータ選択が不可欠である。
- VerilogEvalとRTLLMを用いた評価により,ハイパーパラメータ設定の変更によって,同じLLMでもパス率が最大25.5%変動することが示された。
- 最適なハイパーパラメータ設定は,ベンチマーク間で相関がほとんどなく,汎用性がないことが明らかになった。
- デフォルトのハイパーパラメータで評価されたLLMの性能は,モデル自体の能力と設定の影響を混同している可能性がある。
テンソルハブ:テンソル中心圧縮によるAIモデルハブの再考 [cs.DC, cs.AI, cs.LG]目的:AIモデルハブにおけるストレージ効率の向上
- AIモデルの規模拡大に伴い,保管・配布コストが増大しており,効率的なモデル管理が重要である。
- 既存のモデルハブでは,モデル間の冗長性が十分に活用されず,ストレージ容量を圧迫している。
- テンソルレベルでの冗長性を認識・圧縮し,ストレージオーバーヘッドを削減する。
- TensorHubは,ファイングレインな重複排除と圧縮により,ストレージ効率を大幅に向上させる。
- モデルへの注釈を必要とせず,テンソルレベルのフィンガープリンティングとクラスタリングを利用する。
- 実世界のモデルリポジトリでの実験により,わずかなオーバーヘッドで大幅なストレージ削減が確認された。
リアルタイムLTL進捗追跡:タスクベース探索に向けて [cs.CL, cs.LG]目的:強化学習における非マルコフ性の課題に対する,複雑な多段階タスクにおける自律エージェントの進捗状況の追跡と表現
- 強化学習において,複雑なタスクを達成するには,長期的な目標を考慮した計画が必要となる。
- 従来の強化学習では,非マルコフ的な目標を扱うことが難しく,探索が非効率になる場合がある。
- 線形時間論理(LTL)を用いてタスクの進捗を定量的に評価し,効率的な探索を可能にすること。
- 提案手法であるLive LTL Progress Trackingは,LTL式に基づいて,軌跡の各ステップで進捗状況を示す「追跡ベクトル」を更新する。
- 追跡ベクトルは,LTL式の状態を真,偽,または「未定」で表し,タスクの実行に関する詳細な情報をエンコードする。
- このフレームワークは,新たな性能指標,多様な探索,報酬形成のためのツールとして活用できる可能性を示す。
ハダマールネットワークに基づくバイアス補正と残差ネットワークによる多次元MRI前立腺がん検出 [cs.CV, cs.LG]目的:前立腺がん検出のためのAIフレームワーク
- 前立腺がんは,男性に多い悪性腫瘍であり,早期発見が治療予後を大きく左右する。
- 多次元MRIは有用だが,画像内の輝度ムラが自動診断の精度を低下させる。
- 輝度ムラを抑制し,高精度な自動検出を実現することで臨床応用を目指す。
- 提案手法HBR-Net-18は,従来のラディオミクスやCNNモデルと比較して,感度と特異度のバランスが優れている。
- ハダマールU-Netによる輝度ムラの抑制とResNet-18によるパッチレベル分類を組み合わせた二段階のAIフレームワークが有効である。
- 2Dおよび3D情報を統合することで,空間的な一貫性を高め,検出精度を向上させている。
単語境界を超えて:ヘブライ語参照解決ベンチマークと形態素解析の複雑なテキストに対する評価プロトコル [cs.CL, cs.AI]目的:ヘブライ語の参照解決データセットと評価プロトコル
- 自然言語処理において,情報抽出や要約といった長文タスクには不可欠な技術である。
- 形態素が豊富な言語では,単語境界と参照の境界が一致せず,モデルの性能が低下する。
- ヘブライ語における参照解決の課題を評価し,その改善に貢献する。
- 現代のLLMは,ヘブライ語の参照解決において,英語と比較して著しく性能が低いことが示された。
- 未分節化テキストでは性能が低下し,エンコーダの規模と性能に逆相関関係が見られた。
- ヘブライ語の参照解決のための新たなベンチマークと,セグメンテーションを考慮した評価プロトコルが提供された。
慣性を用いた全並列密結合確率的イジングマシン:リアルタイム応用に向けて [cs.ET, cond-mat.dis-nn, cs.NE, eess.SP]目的:全並列密結合確率的イジングマシンの実現
- 組み合わせ最適化問題の高速解法が求められており,従来の計算機では限界がある。
- 確率的イジングマシンにおいて,並列更新が解法能力を損なうと考えられていた。
- 慣性項を導入することで,全並列更新が可能となり,解法能力向上を目指す。
- 慣性項を導入したイジングスピンダイナミクスにより,全並列同期更新が可能となった。
- Max-CutやSherrington-Kirkpatrickモデル,MIMOなどのベンチマーク問題で,平均35倍,最大150倍の高速化を実現。
- 5G無線通信におけるリアルタイムMIMO検出において,必要な性能と低遅延性を満たすことを確認。
HiveMind:並行LLMエージェントワークロードのためのOSに触発されたスケジューリング [cs.DC, cs.AI]目的:複数LLMエージェントのAPI利用におけるリソース競合の解消
- LLMエージェントの普及に伴い,API利用の効率化が重要課題となっている。
- 複数エージェントがAPIを共有する際,リソース競合により高いエラー率が発生する。
- 本研究は,OSのスケジューリング技術を応用し,API利用の安定化を図る。
- HiveMindは,APIへのアクセス制御,レート制限追跡,バックプレッシャーなどのOSのスケジューリング技術を適用することで,APIエラーを大幅に削減した。
- 実験結果から,HiveMindは並行エージェントの失敗率を最大100%から0-18%に低減し,無駄な計算を48-100%削減した。
- 透過的なリトライが最も重要な機能であり,複数の機能を組み合わせることでより高い効果が得られることが示された。
自己整合性の補完:クロスモデル間の不一致による不確実性定量化 [cs.AI]目的:不確実性定量化による,大規模言語モデルのより堅牢な利用
- 大規模言語モデルの信頼性は重要であり,誤った自信過剰な応答を抑制する必要がある。
- 自己整合性による不確実性推定は,モデルが過信する場合に有効性を失う場合がある。
- クロスモデル間の不一致を利用し,自己整合性の限界を克服する不確実性定量化手法を提案する。
- 総不確実性(TU)は,自己整合性による不確実性(AU)と,モデル間の意味的類似性の差から算出される認識的不確実性(EU)の合計である。
- TUは,ランキングキャリブレーションと選択的棄権においてAUよりも優れた性能を示す。
- EUは,AUが低い場合に自信過剰な失敗を確実に検出する。
Transformerのトポロジー的困惑 [cs.LG, cs.AI]目的:Transformerにおける状態追跡の限界と,リカレントアーキテクチャによる改善策
- 自然言語処理の発展に伴い,Transformerモデルが広く利用されている。
- Transformerは状態追跡能力に限界があり,長期的な依存関係の学習が困難である。
- リカレントアーキテクチャを導入し,状態追跡能力を向上させることを目指す。
- Transformerは逐次的な情報処理に弱く,状態の変化を効率的に捉えられない。
- リカレントアーキテクチャを用いることで,この課題を克服できる可能性がある。
- 状態空間モデルや粗視化されたリカレンスが,今後の研究の鍵となる。
CASCADE:MCPベースシステムにおけるプロンプトインジェクション検出のためのカスケード型ハイブリッド防御アーキテクチャ [cs.CR, cs.AI]目的:プロンプトインジェクション検出のためのカスケード型ハイブリッド防御アーキテクチャ
- LLMの利用拡大に伴い,外部ツールとの連携が重要視される中,新たな攻撃対象領域の保護が課題となっている。
- 既存の防御システムは,誤検知率の高さ,API依存性,またはホワイトボックスアクセス要件といった制約が存在する。
- MCPベースシステム特有の攻撃に対応するため,APIを用いないローカルな防御機構を構築し,検知精度と効率性を向上させる。
- 提案アーキテクチャCASCADEは,正規表現,フレーズ重み付け,エントロピー分析による高速な事前フィルタリングを行う第1層を備えている。
- 第2層ではBGE埋め込みを用いた意味解析を実施し,Ollama Llama3によるフォールバック機構を導入することで,より高度な攻撃検出を可能にしている。
- 評価実験の結果,CASCADEは95.85%の適合率,6.06%の誤検知率を達成し,データ窃取(91.5%)およびプロンプトインジェクション(84.2%)に対して高い検出率を示した。
もし私のCGMが話せたら:継続血糖データに対する質疑応答のためのプライバシー保護エージェント [cs.CE, cs.HC, cs.CL, cs.AI, cs.CR]目的:継続血糖データに対する質疑応答のためのプライバシー保護フレームワーク
- 糖尿病ケアにおいて,CGMは日々の自己管理を改善する可能性のある豊富な個人健康データを収集する。
- 既存の患者プラットフォームは静的な要約のみを提供し,自由な質問に対応できない。
- LLMを活用しつつ,プライバシーと正確性を確保した質疑応答システムを開発する。
- 提案手法CGM-Agentは,LLMを推論エンジンとして活用し,計算をローカルで行うことでプライバシーを保護する。
- 6つの主要なLLMを評価した結果,合成クエリで94%,現実世界の曖昧なクエリで88%という高い値の精度を達成した。
- エラーの主な原因は意図と時間的な曖昧さであり,計算の失敗ではないことが示された。軽量モデルでも良好な性能を発揮する。
BOIL:学習環境における個別化情報 [cs.LG, cs.RO]目的:複雑な環境下における多エージェントシステムの効率的な情報抽出
- 多エージェントシステムは様々な分野で活用されており,その性能向上は重要である。
- 限られた情報から環境構造を効率的に理解することが困難である。
- 環境構造から有用な情報を抽出し,長期的なエージェント行動を導く方法を提案する。
- BOILは,Pagerankアルゴリズムと共通情報最大化を用いて,環境構造からの情報抽出を可能にする。
- 実験結果から,BOILは長期的な視点での戦略分布生成において,ヒューリスティックな手法よりも優れていることが示された。
- BOILは,カバレッジ,パトロール,確率的到達可能性といった問題に応用可能である。
コンセンサス・トラップ:トークンレベルの協調による敵対的多数派からのマルチエージェントLLMの救済 [cs.CL, cs.AI, cs.MA]目的:マルチエージェントLLMにおける敵対的多数派からの保護
- LLMの性能向上には,複数のエージェントによる協調が不可欠であり,その集約方法が重要である。
- 既存の集約方法(多数決など)は,悪意のあるエージェントが多数派を形成した場合に脆弱である。
- トークンレベルでの協調により,多数決の脆弱性を克服し,ロバスト性を高めることを目指す。
- 多数決による集約は,不正なエージェントが多数派を形成すると機能が低下する。
- 提案手法(トークンレベルのラウンドロビン協調)は,悪意のあるエージェントが多数派を形成しても高い精度を維持する。
- トークンレベルでの協調は,集約を単純な投票の合計から,動的な論理の連鎖へと変化させ,不正に対する耐性を高める。
局所的不整合解消:確率モデルにおける注意と制御の相互作用 [cs.AI, cs.LG]目的:確率モデルにおける不整合解消のためのアルゴリズム
- 確率モデルは不確実性の下での推論に不可欠であり,様々な分野で応用されている。
- 既存の確率モデルは,不整合な信念を効率的に扱うことが難しい場合がある。
- モデルの一部分に焦点を当て,制御可能なパラメータを用いて不整合を解消する手法を提案する。
- 提案手法LIRは,EMアルゴリズム,信念伝播,敵対的学習,GANs,GFlowNetsなど,多様なアルゴリズムを統一的に解釈できる。
- GFlowNetsに対し,LIRに基づく損失関数を用いることで,収束性が向上することが示された。
- 合成データを用いた実験により,LIRが全体最適化と比較して良好な特性を持つことが確認された。
SeekerGym:信頼性の高い情報探索のためのベンチマーク [cs.CL, cs.MA, cs.LG]目的:AI情報探索における情報取得の網羅性評価
- AI技術の発展に伴い,情報探索の重要性が増しているため。
- AIエージェントが取得する情報に偏りがあり,完全性への保証がないため。
- AIエージェントの網羅性評価と不確実性の定量化を目指す。
- SeekerGymは,AIエージェントが文書から関連箇所を検索するタスクを提供する。
- Wikipediaと機械学習のサーベイ論文を用いて,情報取得の網羅性を測定した。
- 最良のアプローチでもWikipediaで42.5%,MLサーベイで29.2%の取得率であり,改善の余地が大きい。
グラフ・オブ・エージェント:マルチエージェントLLM協調のためのグラフベースフレームワーク [cs.AI]目的:マルチエージェントLLM協調のためのグラフベースフレームワークの提案
- LLMとそのベンチマークが増加の一途をたどっており,タスク性能向上のために複数のモデルを連携させる必要性が高まっている。
- 既存のフレームワークは,適切なエージェントの選択,効果的なエージェント間コミュニケーション,レスポンスの効率的な統合が課題となっていた。
- 関連性の高いエージェントを効率的に選択し,構造化されたメッセージパッシングを通じてLLMの連携能力を向上させることを目指す。
- GoAは,選択された3つのエージェントのみで,6つすべてのエージェントを同時に使用する最近のマルチエージェントLLMのベースラインよりも優れた性能を達成した。
- モデルカードを活用したノードサンプリングと,レスポンス間の関連性評価に基づくエッジ構築により,スケーラビリティと有効性を両立している。
- グラフ構造を採用することで,増え続けるLLMの多様性に対応するための強力な候補となり得る。
法的テキストから実行可能な意思決定モデルへ:法的意思決定モデル生成のための構造化表現の評価 [cs.CL, cs.AI]目的:法的テキストから実行可能な意思決定モデルを生成すること
- 法務インフォマティクス分野は,法的な推論を自動化し,法的なプロセスを効率化するために不可欠である。
- 既存の手法では,法的テキストを意思決定ロジックに変換する際に,多大な手作業と評価が必要となる。
- 大規模言語モデル(LLM)を活用し,法的テキストから効率的に実行可能な意思決定モデルを生成することを目指す。
- 入力/出力制約を付加することで,ベースラインと比較して類似性が37-54%向上することが示された。
- 生成されたモデルは,テストシナリオの51-53%でゴールデンスタンダードモデルと同等の結果を出した。
- LLMは,モデルの冗長性を排除し,ノード数を45-55%削減することが確認された。
乱流におけるPINNの不確実性定量化:ベイズ推論と反発アンサンブル [cs.LG, physics.comp-ph]目的:乱流の不確実性定量化のためのPINNの確率的拡張
- 乱流は,気象,航空力学,海洋学など幅広い分野で重要な役割を果たす複雑な現象である。
- 従来のPINNは決定論的であり,逆問題におけるエピステミック不確実性の信頼性のある定量化が課題であった。
- データ駆動型乱流モデルにおける不確実性を考慮した,よりロバストな予測を目指す。
- ベイズPINNは,推論されたすべての量に対して最も一貫した不確実性推定値を提供することが示された。
- 関数空間における反発アンサンブルは,主要な流れ変数に対して競争力のある精度で,計算効率の高い近似値を提供する。
- これらの結果は,精度,計算コスト,および不確実性較正のトレードオフに関する定量的な洞察を提供する。
仮想現実におけるユーザ固有の眼球・頭部追跡データに基づく軽量なサイバー酔い検出 [cs.HC, cs.LG]目的:仮想現実環境におけるサイバー酔いの検出
- 仮想現実技術の普及に伴い,没入感と快適性が重要課題となっている。
- 既存の検出方法は,サイバー酔いの程度や個人差への対応が不十分である。
- ユーザ固有のデータを用いた,軽量かつ高精度な検出手法を開発すること。
- 眼球・頭部追跡データとアンサンブル学習モデルを用いることで,高精度なサイバー酔い検出を実現した。
- 類似コンテンツのデータで学習させたモデルが最も高い検出精度(クロスユーザー設定で93%,ユーザ個別設定で88%)を示した。
- 軽量なモデルにより,リアルタイムなサイバー酔い検出と迅速な介入が可能となる。
攻撃的サイバータスクにおける最先端大規模言語モデルの体系的な機能ベンチマーク [cs.CR, cs.AI, cs.CL]目的:最先端LLMエージェントの攻撃的サイバーセキュリティタスクにおける性能評価
- サイバー攻撃は高度化の一途をたどっており,防御技術の向上が急務である。
- LLMをサイバー攻撃に応用する研究は進む一方,モデル間の性能比較は十分ではない。
- LLMのサイバー攻撃における能力を定量的に評価し,最適なモデル選定の指針を示す。
- 10種類の最先端LLMを,NYU CTF Benchの200の課題を用いて評価した結果,Claude 4.5 Opusが最も高い正答率(59%)を示した。
- Gemini 3 Proが52%の正答率で続き,Gemini 3 Flashは1解決あたりのコスト効率が最も優れていた($0.05)。
- Kali Linux環境はUbuntu環境より9.5%の性能向上をもたらし,プロンプトエンジニアリングは環境が整っている場合には効果が薄いか,悪影響を及ぼすことが示された。
CCCL:GPU内圧縮結合型集合通信 [eess.SY, cs.SY, math.OC, cs.DC, cs.AI]目的:大規模言語モデルにおける集合通信の効率化
- 大規模言語モデルの性能向上には,高速な通信が不可欠である。
- 既存の集合通信手法は,オーバーヘッドが大きく,効率が課題である。
- ユーザ側のコード変更なしに,集合通信の効率を向上させる。
- CCCLは,GPU内圧縮と集合通信を融合させ,メモリアクセスを最小限に抑える。
- NCCLとの連携によりデータ整理段階を排除し,高速な通信を実現した。
- vLLM PD分散ワークロードにおいて,エンドツーエンドのスループットを最大10.1%向上させた。
RosettaSearch:タンパク質配列設計のための推論時マルチ目的探索 [cs.CL, cs.LG, cs.AI, q-bio.BM]目的:タンパク質配列最適化のための推論時マルチ目的最適化手法
- タンパク質設計は,創薬やバイオテクノロジーにおいて重要な役割を担う。
- 既存のタンパク質配列設計モデルは,最適解に到達できない場合がある。
- RosettaSearchは,設計成功率の向上を目指す。
- RosettaSearchは,LigandMPNNが生成した400件の亜最適配列を解析し,高い信頼性の設計を再現した。
- RosettaSearchのデザインは,構造的忠実度指標を18%から68%向上させ,設計成功率を2.5倍に改善した。
- この成功率は,独立した構造予測モデル(Chai-1)でも確認され,異なるLLMファミリー(o4-mini,Gemini-3)でも一貫して性能が向上した。
意図整合型自律宇宙船誘導:推論モデルによるアプローチ [eess.SY, cs.AI, cs.SY, math.OC]目的:意図整合型宇宙船誘導フレームワーク
- 宇宙探査の高度化に伴い,安全性を確保しつつ高レベルなミッション意図を理解する自律システムの重要性が増している。
- 従来の軌道最適化は専門家の知識に依存しており,意図を条件とした意思決定をサポートする点が課題であった。
- 本研究は,推論と安全な軌道最適化を,行動シーケンスとウェイポイント制約を介して結びつけることで,この課題を解決する。
- 提案手法は,近接運用シナリオにおいて90%を超えるSCP(Safe Collision Probability)収束率を達成した。
- ヒューリスティックな意思決定と比較して,上位の意図優先度を満たす軌道の生成率は1.5倍向上した。
- 中間的な行動抽象化が,ファウンデーションモデルの推論と安全性が求められる宇宙船の自律性を繋ぐ実用的なインターフェースとなり得ることが示された。
ファインチューニングの深さプロファイルの分解 [cs.LG]目的:ファインチューニングにおける表現変化の深さプロファイル
- 事前学習済みネットワークの応用範囲拡大には,深層学習モデルの適応メカニズム理解が不可欠である。
- 表現変化の深さプロファイルが,モデル固有の特性によるものか,勾配の流れの大きさによるものか不明である。
- 深さプロファイルの形成メカニズムを解明し,モデル構造と学習目標の関係性を明らかにする。
- 標準的な学習では,表現変化は出力に近い層に集中する傾向が見られた。
- 層ごとの変化量を制御した結果,プロファイルが維持される場合と崩壊する場合があった。
- モデル規模や構造によって深さプロファイルの挙動が異なり,アーキテクチャ間の差異が明らかになった。
IoTネットワークにおける分散型信頼とセキュリティメカニズム:包括的なレビュー [cs.CL, cs.CR, cs.AI, cs.NI]目的:IoTネットワークの信頼とセキュリティを確保するための分散型メカニズムの評価
- IoTとエッジコンピューティングの普及により,分散型セキュリティの重要性が高まっている
- 中央集権的なセキュリティモデルでは,単一障害点やプライバシー侵害のリスクがある
- エッジ環境におけるIoTネットワークの信頼性とセキュリティを向上させる方法を検討する
- 分散型設計は,プライバシーの強化,単一障害点の削減,適応的な脅威への対応能力向上に貢献する
- スケーラビリティ,効率性,相互運用性などの課題が残されている
- 安全で堅牢な信頼性IoTエッジエコシステムの構築に向けた今後の研究課題を特定した
共有プレフィックスコード生成における層ごとのMoEルーティングの局所性:トークン同一性分解とコンパイル等価な分岐の冗長性 [cs.DB, cs.PF, cs.SE, cs.AI]目的:大規模言語モデルによるコード生成におけるMoEエキスパートルーティングの層ごとの局所性の分析
- LLMによるコード生成は,ソフトウェア開発の効率化に貢献する重要な技術である。
- MoEモデルのルーティング挙動が,特にコード生成における多様性と効率に与える影響は未解明な部分が多い。
- コード生成時のMoEルーティングの層ごとの変化を解析し,検索効率改善の可能性を探る。
- 同じトークンが生成された箇所では,ルーティングの類似性はランダムの40倍に達し,異なるトークンでも11倍の類似性が見られた。
- 層ごとの分解により,同じトークンと異なるトークンのルーティング類似性が交差するパターンが明らかになった。
- コンパイル可能なコードの67%は上位3つのアセンブリ等価グループに集中しており,グループ内の違いは主にコメントや空白行であった。
ビットコイン取引手数料のモデルと推定 [cs.CE, cs.LG, econ.EM]目的:ビットコイン取引手数料のモデル構築と推定
- ビットコインはブロック補償の減少により手数料収入が重要となる。
- ブロックチェーンデータだけでは手数料形成のメカニズムを解明しにくい。
- ミームプールを市場として捉え,手数料決定プロセスを解明する。
- 手数料はネットワークの混雑が主な決定要因であることが示された。
- 手数料の優先度向上価値は,手数料上昇に伴う確認時間短縮の勾配に依存する。
- RBFやCPFPなどのトランザクション条件が手数料に影響を与えることが確認された。
SynthFix:適応的ニューロシンボリックコード脆弱性修復 [cs.SE, cs.LG]目的:コード脆弱性修復の精度向上
- ソフトウェアの安全性確保は重要であり,脆弱性への迅速な対応が求められる。
- 既存の自動修復技術は,複雑な意味的・構造的正確性を満たすのが困難である。
- LLMを活用しつつ,コンパイラによるシンボリックフィードバックを統合することで,この課題を解決する。
- SynthFixは,FixJSおよびCodeFlawsベンチマークにおいて,CodeBLEU/CrystalBLEUが最大18%相対的に向上した。
- また,Exact Matchにおいても,強力なSFTおよびRFTベースラインと比較して32%の改善が見られた。
- この適応的な学習戦略の組み合わせは,開発者のパターン適用とツールフィードバックの連携を模倣し,LLMベースの脆弱性修復の精度と効率を向上させる。
説明可能なマルチエージェント教育システムのためのペルソナベース要件定義:臨床推論トレーニング用シナリオシミュレータ [cs.SE, cs.AI, cs.ET, cs.HC, cs.MA]目的:説明可能なマルチエージェント教育システム(MAES)の要件定義フレームワーク
- 教育や医療分野へのAI導入が進む中,人間とAIの協調のためには,AIシステムの透明性と信頼性が不可欠である。
- MAESにおける説明可能性の確保は重要だが,要件定義段階でのペルソナ活用は十分に検討されていない。
- 本研究は,人間中心のアプローチでペルソナを活用し,MAESの信頼性と解釈可能性を高めることを目指す。
- 本研究で提案するフレームワークは,医療教育者,学生,AIエージェント等の関係者のニーズを的確に捉えることができた。
- 臨床推論トレーニング用MAESの利用調査では,78%以上の学生が臨床推論能力の向上を報告した。
- ペルソナベースの要件定義が,技術的要件と医療現場のニーズを結びつけ,説明可能なMAES開発に貢献することが示された。
多役割対話要約における重複指標を超えて:推論と嗜好に対する報酬 [cs.CL, cs.AI]目的:多役割対話要約の忠実性向上
- 対話要約は,情報伝達の効率化に不可欠であり,様々な応用分野で利用が拡大している。
- 既存手法は,自動評価指標に偏重し,人間が求める忠実性や嗜好との乖離が生じやすい。
- 推論能力と報酬に基づく最適化により,より人間らしい対話要約の生成を目指す。
- 提案手法は,既存の強固なベースラインと同等のROUGEおよびBERTScoreを達成した。
- CSDSにおける実験は,意味的な一貫性の安定性を示し,SAMSumでは事実の忠実性とモデルに基づく嗜好との一致が向上した。
- 推論と嗜好を意識した学習が,信頼性の高い対話要約を実現する上で重要であることが示された。
LLM由来のグラフ事前知識はマルチエージェントの協調を改善するか? [cs.LG]目的:マルチエージェント協調におけるグラフ事前知識の有効性
- 分散・敵対的な環境下でのAIシステムにおける協調が重要であるため。
- 既存手法は,グラフ構造の指定,近接性に基づくヒューリスティック,または環境からの学習に依存しており,脆弱性がある。
- LLMを用いて,環境との相互作用データに依存せずに,協調パターンを推論し,事前知識として活用すること。
- LLMから生成されたグラフ事前知識が,マルチエージェント環境における協調と適応性を向上させることが定量的に示された。
- 1.5Bパラメータ程度の小型LLMでも,効果的な事前知識の生成に十分であることが示された。
- LLMの選択が事前知識の質に影響することについても評価された。
オンラインアラインメント手法の驚くべき有効性の解明 [cs.LG, cs.AI, cs.CC, cs.CL]目的:オンラインアラインメント手法における累積後悔の理論的解析
- 強化学習や大規模言語モデルの性能向上において,人間からのフィードバックを用いたアラインメントが不可欠である。
- 既存の理論的保証では,実証的な性能との乖離が見られ,アラインメント手法の効率性を十分に説明できていない。
- 温度ゼロ後悔という新たな基準を用いて,貪欲型オンラインアラインメント手法の効率性をより正確に評価する。
- 従来のKL正則化後悔は学習コストと探索的ランダム性を混同しているが,温度ゼロ後悔を用いることで,これらの影響を分離できる。
- 標準的な貪欲型オンラインアラインメント手法(オンラインRLHFやオンラインDPOを含む)は,温度ゼロ後悔において定数オーダーの累積後悔を達成する。
- 本研究は,貪欲型アラインメントの優れた効率性に対する,より明確な理論的根拠を提供する。
CDSA-Net:血管構造と背景の協調的解結合による高忠実度冠動脈デジタルサブトラクション血管造影 [cs.CV, cs.AI]目的:高忠実度冠動脈デジタルサブトラクション血管造影のための血管構造と背景の協調的解結合
- 冠動脈画像診断において,血管の可視化は心臓病の診断と治療に不可欠である。質の高い画像は,的確な判断を支える。
- 従来のデジタルサブトラクション血管造影は,生理的運動や解剖学的ノイズの影響を受けやすく,アーチファクトや画像品質の低下が課題であった。
- 本研究は,アーチファクトの除去と組織の忠実度維持を両立することで,より正確な診断と効率的な治療を可能とする。
- 提案手法CDSA-Netは,血管構造の保存と背景の現実的な復元を明示的に分離し,最適化する新しいフレームワークである。
- 定量的な評価では,血管強度相関と知覚的品質において,最先端の手法を大幅に上回る性能を示した。
- 形態学的評価効率が25.6%向上し,血行動態評価速度が42.9%向上し,インターベンショナルカーディオロジーにおける有用性の新たなベンチマークを確立した。
DREAM:適応的マルチモーダル融合による動的網膜強調と専門的精密な医療レポート生成 [cs.CV, cs.AI, eess.SP]目的:網膜画像の医療レポート自動生成のためのフレームワーク
- 眼科医療の発展には,網膜画像の正確な解析と迅速な診断が不可欠である。
- 網膜画像はデータが限られ,専門知識が必要なため,既存の汎用モデルでは精度が課題となる。
- 限られたデータでも高精度なレポート生成を可能にし,眼科医の診断支援を強化する。
- DREAMは,網膜画像と眼科専門家が選定したキーワードを効果的に統合する独自の二段階融合機構を採用している。
- 抽象化モジュールが画像とキーワードの特徴を共有空間にマッピングし,視覚データを病理関連情報で強化する。
- DeepEyeNetベンチマークでBLEU-4スコア0.241を達成し,ROCOデータセットでも優れた汎化性能を示した。
ロジット空間におけるガードレール:LLMアライメントのための安全性トークン正則化 [cs.LG]目的:LLMの安全性アライメントの維持
- LLMの安全性は重要であり,有害な出力の抑制が不可欠である。
- ファインチューニングにより,LLMの安全性アライメントが損なわれることがある。
- ファインチューニング時の安全性低下を防ぐ手法を提案する。
- 本研究では,安全性トークン正則化(STR)という軽量な手法を導入した。
- STRは,拒否テンプレートから重要なトークンを特定し,そのロジットを制約することで,安全性特性を維持する。
- 実験により,STRが最先端の手法と同等の安全性性能を達成し,実装のオーバーヘッドも最小限であることが示された。
基礎を超えて:ファインチューニングのための大規模言語モデルの活用 - 医療エンティティのきめ細かい認識 [cs.RO, cs.AI]目的:きめ細かい医療エンティティ認識の性能向上
- 医療現場では,電子カルテ等の自由記述テキストから必要な情報を抽出することが重要である。
- 既存の研究では,一般的なエンティティタイプに焦点が当てられ,臨床現場のニーズに応じたきめ細かい抽出が課題であった。
- 本研究は,大規模言語モデルを用いて,臨床的に詳細なカテゴリにおける医療エンティティ認識の精度向上を目指す。
- ファインチューニングを行ったLLaMA3は,ゼロショットおよびフューショットアプローチをそれぞれ63.11%と35.63%上回り,F1スコア81.24%を達成した。
- 実験では,トークンレベルおよび文レベルの埋め込み類似度に基づく例の選択方法がフューショット学習の性能向上に貢献した。
- LLaMA3を共通の基盤モデルとして用いることで,学習設定間の公平な比較を可能にした。
勾配に基づくサンプル選択による継続的な安全性調整 [cs.LG]目的:継続学習における安全性維持
- 大規模言語モデルの安全性は重要であり,常に評価・改善が必要である。
- ファインチューニングにより安全性と性能のバランスが崩れる場合がある。
- 勾配情報を用いて安全性を損なうサンプルを特定し,フィルタリングする。
- 勾配の大きいサンプルは安全性低下に寄与し,事前学習時の分布へ回帰する傾向がある。
- 適度な勾配のサンプルは,安全性維持とタスク学習を両立できることが示された。
- 提案手法は,継続学習において安全性と性能を向上させる。
ビジョン言語モデルにおけるクロスモーダル注意分析と最適化:視覚的信頼性に関する研究 [cs.CV, cs.AI]目的:ビジョン言語モデルにおけるテキストへの過剰依存と視覚情報の活用不足の定量化と改善
- 近年の人工知能研究において,画像とテキストを組み合わせたビジョン言語モデルは重要な役割を担う。
- 既存のビジョン言語モデルは,テキスト情報に過度に依存し,視覚情報の利用が不十分であるという問題がある。
- 視覚的信頼性を高め,クロスモーダルな表現学習におけるテキストショートカット学習を抑制すること。
- 敵対的評価フレームワークを用いて,視覚情報とテキスト情報の矛盾がモデルの精度に与える影響を定量的に評価した。
- LoRA最適化モデルは,平均的な精度低下を27.5%から9.8%に削減し,64.4%の相対的な改善を示した($p{<}0.001$)。
- 注意可視化と埋め込み空間分析の結果,最適化されたモデルは視覚的特徴への注意をより集中させ,クロスモーダルなアライメントを強化していることが確認された。
