arXiv雑要約
AI - 2026/05/01 公開
LLMの自己整合性と推論努力が自動採点精度とコストに与える影響 [cs.IR, cs.CY, cs.CY, cs.AI]目的:LLMによる自動採点における精度とコストの最適化
- 教育評価において,大規模言語モデルの活用が注目されているため。
- LLMの性能を最大限に引き出すための設定方法が明確でない。
- LLMを用いた自動採点において,精度とコストのバランスを最適化すること。
- 自己整合性(モデル内多数決)は精度向上に寄与するが,アンサンブル学習では有意な改善は見られなかった。
- 推論努力の増加はスコアリング精度と正の相関を示し,モデルによって効果に差が見られた。
- Gemini 3.1 Pro Previewが最も精度が高いが,GPT-5.4 Nano/Miniが無駄なくコストパフォーマンスに優れる。
意図照合によるポリシー制御型LLMルーティング:実験実習環境への応用 [cs.CY, cs.AI]目的:実験実習におけるLLMベースの支援システムのルーティングとガバナンス
- 工学教育において,AIチューターは学習支援と学習機会の維持のバランスが重要である。
- 既存システムでは,支援のタイミング,内容,コストに対する教育者の制御が限定的である。
- 本研究は,実験実習におけるLLM支援の効率と教育効果を向上させることを目指す。
- シミュレーションの結果,ポリシー制御により,課題適合度指標が0.90から0.98に,オーバレイ準拠スコアが0.69から0.87に向上した。
- また,高レベルなヒントが出現するまでのproductive-struggleウィンドウは1.4ターンから3.6ターンに延長された。
- 100クエリの再現実験では,75%のクエリをローカルモデルにルーティングし,トークンコストを66%削減($0.087 vs. $0.26)しつつ,意図照合の正答率は1.0を維持した。
AIは道徳的な被害者となり得るか:AI生成コンテンツ利用における道徳的受容性と所有感の認識の役割 [cs.CY, cs.AI, cs.HC]目的:AI生成コンテンツの再利用に対する倫理的判断
- 生成AIの普及に伴い,著作権や盗用といった倫理的課題が顕在化している。
- AI生成コンテンツの利用は,従来の著作権概念や倫理観を揺るがす可能性を孕んでいる。
- AIに対する道徳的受容性の認識が,倫理的判断に及ぼす影響を明らかにすること。
- AI生成コンテンツのコピーは,人間が作成したコンテンツのコピーよりも倫理的に問題ないと判断される傾向がある。
- この寛容性は,AIが苦痛を感じる能力に対する低い認識(道徳的受容性)と,再利用する書き手に対する高い所有感に起因する。
- 人格化されたAIに対する道徳的評価は,所有感の認識を介して間接的に影響を受ける。
妥当性のシミュレーション:科学図のMLLM生成フィードバックにおける様相的解結合 [cs.CY, cs.AI]目的:科学図に対するMLLM生成フィードバックの妥当性評価
- 科学教育において,図示されたモデルは概念理解を深める上で重要である。
- 既存のMLLMは,図とテキストの関連性を十分に理解できず,誤ったフィードバックを生成する可能性がある。
- 本研究は,MLLM生成フィードバックにおける妥当性の問題を特定し,改善策を検討する。
- 中学生の科学図に対するGPT-5.1のフィードバックを分析した結果,41.3%に誤りが含まれていた。
- 誤りの種類には,オブジェクト,属性,関係の不一致,および誤った欠落が含まれることが判明した。
- インベントリリスト優先のワークフローはエラー率を軽減したが,根本的な問題は解決されなかった。妥当なフィードバックには,より高度なグラウンディングメカニズムが不可欠である。
自律的AIのための倫理的学習設計:退溪李滉の倫理的感情調整枠組み [cs.CY, cs.AI]目的:自律的AI学習における倫理的感情調整の枠組み
- AIの進化に伴い,倫理的な問題が重要性を増しており,特に自律的なAIには倫理的判断能力が不可欠である。
- 既存の感情調整枠組みは,感情を単なる反応やエンゲージメント最適化と捉え,自律的な意思決定サイクル全体での規範的調整が不足している。
- 自律的AIの倫理的学習設計において,感情調整の新たな枠組みを提示し,倫理的配慮を組み込むことを目指す。
- 退溪李滉の倫理的感情哲学を参考に,自律的AI学習のための倫理的感情調整枠組み(EEFS)を構築した。
- EEFSを5段階のアーキテクチャとして再構築し,各段階における設計原則とシナリオ分類を明確化した。
- EEFS評価ツールを導入し,自律的AIシステムの倫理的・感情的な整合性を体系的に評価することを可能にした。
CareGuardAI:患者向けLLMにおける臨床安全性と幻覚軽減のための文脈認識型マルチエージェントガードレール [cs.CY, cs.AI, cs.MA]目的:患者向け医療LLMの臨床安全性と事実に基づいた信頼性の確保
- 医療情報へのアクセス向上にLLM活用が期待されるが,安全性と信頼性が重要課題である。
- LLMは患者の文脈を理解せず,安全でない仮定に異議を唱えられない場合がある。
- 臨床リスクと幻覚リスクに対応する安全性フレームワークの開発。
- CareGuardAIは,ISO 14971に基づいた臨床安全リスク評価(SRA)と幻覚リスク評価(HRA)を導入している。
- 推論時に,コントローラーエージェント,安全制約生成,二重リスク評価を含む多段階パイプラインを採用し,必要に応じて反復改善を行う。
- PatientSafeBench,MedSafetyBench,MedHalluにおける評価で,GPT-4o-miniを含む既存モデルを上回る性能を示した。
大規模言語モデルのバイアス [cs.CY, cs.AI]目的:TransformerベースのAIエージェントにおけるバイアスのメカニズム特定
- AIエージェントの利用拡大に伴い,その信頼性確保が重要課題となっている。
- Transformerモデルは,データの偏りを増幅し,多様性を損なう可能性がある。
- AIエージェントが引き起こす可能性のあるバイアスを理論的に分析し,そのメカニズムを解明する。
- Transformerベースのレコメンダーモデルには,位置バイアス,人気偏重,潜在的要因バイアス,合成データバイアスの4つのバイアス経路が存在する。
- 位置バイアスは,直近の履歴に影響を与え,安定性や長期的な多様性を低下させる可能性がある。
- これらのバイアス経路は,大規模展開において露出と選択を系統的に歪めるリスクを示唆する。
データフローを意識した事前学習と制約付きデコーディングによる言語モデルを用いた静的プログラムスライシング [cs.SE, cs.AI, cs.PL]目的:静的プログラムスライシングの自動化
- ソフトウェアの品質向上に不可欠であり,保守性や信頼性の高いコードを実現するために重要である。
- 既存の機械学習アプローチは,正確な依存関係のモデリングと,幻覚(事実に基づかない情報の生成)が課題となっていた。
- データフローを正確に捉え,幻覚を抑制することで,より正確なプログラムスライシングを実現すること。
- 提案手法Sliceformerは,データフローグラフを活用した事前学習と制約付きデコーディングにより,依存関係モデリングの精度を向上させた。
- JavaとPythonのベンチマークテストにおいて,最先端の既存手法と比較して,ExactMatchで最大22%の性能向上を達成した。
- Sliceformerは,静的プログラムスライシングをシーケンス・ツー・シーケンス問題として再構築することで,効率的なスライス予測を可能にした。
DeepTutor:エージェントを活用した個別指導に向けて [cs.CY, cs.AI, cs.CL]目的:個別指導のためのエージェント型パーソナライズドチュータリングシステムの開発
- 教育はLLMの有望な応用分野の一つであり,学習効果の向上が期待される。
- 従来のチュータリングシステムは静的な知識に依存し,学習者への適応が不十分である。
- 学習者の状態に適応し,個別最適化された指導を可能とするシステムの構築。
- DeepTutorは,共通のパーソナライズ基盤を持つエージェント型オープンソースフレームワークである。
- 静的な知識と動的なマルチ解像度メモリを組み合わせたハイブリッドパーソナライズエンジンを提案する。
- 問題解決と難易度調整された質問生成を双方向に連携させる閉ループ型のチュータリングを実現した。
MARS:異種エージェントシステムの効率的な適応型共同スケジューリング [cs.OS, cs.DC, cs.LG, cs.MA]目的:異種エージェントシステムの効率的な共同スケジューリング
- 大規模言語モデルの活用が進む中で,自律エージェントの実行環境の最適化が不可欠となっている。
- GPUとCPUのリソースを効率的に共有し,エージェントのタスクを最適化するシステムが存在しない。
- 異種環境下でのエージェント実行における遅延を削減し,システムのスループットを最大化することを目指す。
- MARSは,GPUとCPUリソースの制約下で,異種エージェントのワークロードを効率的に共同スケジューリングするシステムである。
- MARSは,GPU推論とCPUツール実行を統合的に可視化し,リソースの過剰な予約を防ぐことで,エンドツーエンドの遅延を最大5.94倍削減する。
- OpenHandsコーディングエージェントフレームワークにMARSを組み込むことで,タスク完了時間を最大1.87倍に短縮し,実用性を実証した。
20Qゲームを通じた説明学習:サイバーセキュリティ教育のための説明可能なレコメンダー [cs.CY, cs.AI, cs.LG]目的:サイバーセキュリティ教育における説明可能なレコメンダーの開発
- サイバー脅威は高度化の一途をたどり,効果的なセキュリティ人材育成が不可欠である。
- 従来の教育方法では,学習者の理解度に応じた個別最適化された学習が難しい。
- 説明可能なAIを活用し,インタラクティブな学習を通じて理解を深めることを目指す。
- 本研究では,質問応答形式のゲーム「20Q」に着想を得たEQ-20CRを提案した。
- EQ-20CRは,最適なセキュリティ教育を推奨し,その理由を簡潔な対話形式で説明できる。
- 強化学習を用いて,ユーザがセキュリティ概念を理解し,防御戦略を習得する過程を支援する。
AI生成テキストがインターネットに与える影響 [cs.CY, cs.AI, cs.SI]目的:インターネットにおけるAI生成・支援テキストの割合とその影響の評価
- インターネットは情報源として不可欠であり,その質の維持が重要である。
- AI生成テキストの増加に伴い,情報の信頼性低下が懸念されている。
- AI生成テキストの現状を把握し,その影響の実態を明らかにすること。
- 2025年半ばまでに,新たに公開されたウェブサイトの約35%がAI生成またはAI支援と判定された。
- AI生成テキストの増加は,意味的多様性とポジティブな感情の普及と相関関係があることが示唆された。
- 事実の正確性や文体多様性の低下は統計的に有意な結果ではなかった。一般の認識とは異なる結果となった。
トポロジーを意識した超大規模フォトニックAIアクセラレータの研究 [cs.AR, cs.NE, physics.optics]目的:フォトニックAIアクセラレータのスケーラビリティ向上
- 深層学習の発展に伴い,電子アクセラレータのデータ移動によるエネルギー消費が課題となっている。
- フォトニックアクセラレータの研究はデバイスレベルに偏っており,システムレベルのスケーラビリティが十分に検討されていない。
- フォトニックアクセラレータにおけるトポロジーが性能に与える影響を明らかにし,効率的なスケーリング手法を提案する。
- 提案するモジュール型フォトニックアクセラレータアーキテクチャにおいて,スケーリングのボトルネックがトポロジーに依存することが示された。
- 対称的なグリッドトポロジーが利用率を最大6倍,メモリアクセスを40%以上削減し,優れた性能を発揮することが確認された。
- トポロジーを意識したスケーリングが,エネルギー効率が高く高性能なフォトニックAIアクセラレータを実現する上で不可欠であることが示された。
大規模GPU推論におけるKVキャッシュの予測型マルチティアメモリ管理 [cs.AR, cs.AI, cs.DC, cs.PF]目的:大規模GPU推論におけるKVキャッシュメモリ管理の効率化
- GPU推論の高性能化には,KVキャッシュの効率的な管理が不可欠である。大規模モデルの推論コストを削減するためにも重要。
- 既存システムはKVキャッシュのサイズ決定,メモリ階層の活用,および再利用性の低いキャッシュ退去という課題を抱えている。
- アテンション機構に応じた正確なメモリサイズ決定と,マルチティアメモリ階層の活用により,推論効率の向上を目指す。
- アーキテクチャバリアントを考慮したサイズ決定エンジンにより,バッチサイズを最大7.4倍に増加させた。
- 6階層のメモリ階層を構築することで,有効なKVキャッシュ容量をノードあたり40GBから38TB以上に拡張しつつ,高速なTTFTを維持した。
- ベイズ再利用予測器とEMAスコアリングによる退去戦略,およびRoPE対応プレフェッチングにより,70-84%の高いキャッシュヒット率を実現した。
エージェント的レコチューン:推薦システム最適化のための自己進化型スキルハブによるマルチエージェント [cs.IR, cs.AI]目的:推薦システムのシステムレベル構成最適化
- 大規模推薦システムは,ユーザー体験とビジネス成果に直結するため,その性能向上が重要である。
- システム全体の構成最適化は複雑であり,専門知識と多大な調整作業を必要とする。
- LLMを活用し,システム構成の最適化を自動化することで,開発効率と性能向上を目指す。
- 提案手法AgenticRecTuneは,5つの専門エージェントで構成され,推薦システムの構成最適化をエンドツーエンドで管理する。
- Actorエージェントが候補を提案し,Criticエージェントが最適でない提案をフィルタリングする仕組みを採用している。
- 自己進化型スキルハブは,過去の結果を要約し,推薦システムのメカニズムを抽出し,スキルを更新することで,継続的な改善を実現する。
記憶は均一に老化しない:知識グラフにおける適応的減衰の自動発見 [cs.IR, cs.AI, cs.LG, q-bio.QM]目的:知識グラフにおける情報の時間的減衰の適応的なモデル化
- 知識グラフは情報検索の中核技術であり,その性能は検索結果の鮮度と正確性に大きく依存する。
- 既存手法は一律的な減衰関数を用いるため,知識の種類に応じた適切な減衰を扱えていない。
- 知識の種類と更新頻度に応じた減衰モデルを構築し,検索結果の質を向上させることを目指す。
- 知識グラフ内の事実を,更新頻度(velocity)と値の変動性(volatility)の二つの指標に基づいて減衰させる階層的フレームワークを提案。
- 実験により,提案手法が知識の種類に応じた階層的なパラメータを正確に復元できることを実証。
- Wikipediaと医療記録データを用いた検証で,提案手法が既存手法を大幅に上回り,リンディ効果を示すことが確認された。
連続クラスタリングはどれほど難しいか? - 実数存在理論からの下界 [cs.IR, cs.CC, cs.LG]目的:連続確率密度で定義されるクラスタリング問題の計算困難性
- データ分析において,クラスタリングはデータの構造発見と知識抽出に不可欠な技術である。
- 既存の研究は主に離散データに対するものであり,連続データに対する厳密な計算困難性の評価が不足している。
- 連続確率密度に基づくクラスタリングの計算困難性を数学的に明確化し,分類を目指す。
- 分離点と谷の検出問題は,NPを含む複雑性クラスである実数存在理論と同程度の困難性を持つことが証明された。
- 連結成分の数え上げと穴の検出問題は,実数存在理論と同等かそれ以上の困難性を持つが,正確な複雑性は未解決である。
- この研究は,実数多項式階層における連続クラスタリングの厳密な分類を初めて提示する。
MAEO:スケーラブルな大規模工学応用のための多目的動物模倣アンサンブル最適化 [cs.NE, cs.LG, stat.CO]目的:多目的最適化における収束性,多様性,計算効率のバランス
- 科学技術分野において,多目的最適化は複雑な問題解決に不可欠である。
- 単一の最適化アルゴリズムでは限界があり,多様性と収束性の両立が課題である。
- 複数の最適化アルゴリズムを組み合わせ,高性能な最適化を実現すること。
- MAEOは,複数のアルゴリズムを組み合わせることで,従来のアルゴリズムを上回る性能を示す。
- ベンチマークテストにおいて,収束性と多様性のバランスに優れた結果が得られた。
- 小型モジュール式原子炉の最適化への応用で,経済性,安全性,サイクル長の改善が確認された。
Horn DLオントロジーのABoxおよびクエリ例への適合:シミュレーション量化子と有限モデル [cs.LO, cs.AI]目的:記述論理オントロジーの適合問題
- 知識表現と推論において,オントロジーの自動構築は重要な課題である。
- 既存研究では,表現力の高いDLが扱われてきたが,軽量なHorn DLの研究は限定的である。
- EL/ELI等のHorn DLに対する適合問題の計算複雑性を明らかにすること。
- EL/ELIにおいて,アトミッククエリに対する適合問題はPTimeで解けることが示された。
- Rooted CQ/UCQに対する適合問題は,ELではSigma_P^2-complete, ELIではExpTime-completeである。
- 底概念の追加は,これらの複雑性に影響を与えないことが確認された。
二段階選好に基づく意味論における取消し可能な条件義務 [cs.LO, cs.AI]目的:取消し可能な条件義務のモデリング
- 規範的推論は,倫理や法律など,社会生活において重要な役割を果たす。
- 既存の規範的推論アプローチには,情報更新時の柔軟性や正確性に課題があった。
- 新しい情報に基づいて義務を撤回できる柔軟な規範体系を構築すること。
- 本研究では,選好に基づく意味論を拡張し,二段階構造を導入することで,取消し可能な条件義務のモデル化を試みた。
- 理想と正常性の二つの順序付けを用いることで,従来の限界を克服し,より洗練されたアプローチを実現した。
- 提案する枠組みは,制約入力/出力(I/O)論理との関連性も示され,規範的推論の標準との整合性も確認された。
N値クロスバーアーキテクチャにおける多ビットニューラル推論 [cs.AR, cs.AI, cs.ET]目的:N値クロスバーアーキテクチャにおけるニューラルネットワーク推論のシミュレーションフレームワーク
- ニューラルネットワークは高性能だが,消費電力が課題。低消費電力化が重要。
- メモリ内計算は有望だが,ハードウェア実装に伴う精度劣化が問題。
- クロスバーアーキテクチャにおける状態数と精度とのトレードオフを最適化する。
- シミュレーションにより,(4x4) 4状態磁気トンネル接合(MTJ)を用いたクロスバーアレイでXORとMNIST分類タスクを成功裏に推論。
- MNISTの認識精度は94.48% (ソフトウェアベースラインは97.56%)。PCA次元削減により,ソフトウェアとハードウェアの性能差を縮小。
- 重み量子化が主要な誤差源であり,系統誤差よりもセル固有のランダムノイズの方が影響が小さいことが判明。
予算制約下におけるオンライン検索拡張生成:チャンク・アズ・ア・サービスモデル [cs.IR, cs.LG]目的:予算制約下での検索拡張生成の効率化とコスト削減
- 大規模言語モデルの応用範囲拡大には,情報源の信頼性と透明性の確保が不可欠である。
- 既存のRaaSモデルでは,検索されたチャンクの質を考慮しない従量課金制が課題となっている。
- チャンク単位での課金モデルCaaSにより,コスト効率と透明性を向上させることを目指す。
- 提案手法UCOSAは,ランダム選択と比較して,性能指標(NEP x AR)を約52%向上させた。
- LB-CaaSとOB-CaaSは,RaaSと比較してそれぞれ140%と86%の性能/予算比率を達成し,効率性が高い。
- UCOSAはオフライン選択手法の性能の約75%に達し,オンラインでの効率的なチャンク選択が可能であることを示した。
顧客セグメンテーションによる価値を考慮した製品推薦:適切な高次元類似度尺度を用いる [cs.IR, cs.LG, stat.ML]目的:顧客の購買バスケットの収益に基づく類似度による顧客セグメンテーション
- 顧客データ分析は,企業のマーケティング戦略において不可欠な要素である。
- 高次元かつ疎なデータに対する有効な類似度尺度の算出が課題となる。
- 収益貢献度を考慮した製品推薦による利益最大化を目指す。
- 本研究では,ユーザーとアイテムの収益貢献度を考慮した新しい類似度尺度を提案した。
- 提案手法を用いて顧客をセグメント化し,収益性の高い製品推薦を可能にした。
- UCI Online Retailデータセットを用いた実験により,提案手法の有効性を検証した。
トポロジーを用いたニューラルネットワーク学習の監視:予測可能な崩壊指標 [cs.LG]目的:ニューラルネットワークの表現の崩壊を監視するための指標
- 深層学習モデルの性能向上には,表現学習の理解と制御が不可欠である。
- 表現の崩壊は,従来の評価指標では捉えにくい早期の性能劣化を引き起こす。
- 学習中の表現崩壊を早期に検出し,介入を可能にする指標の開発。
- 本研究では,トポロジーに基づく指標「崩壊指標(CI)」を提案し,表現崩壊をオンラインで監視する。
- CIは,モジュラーモースホモロジー維持(MMHM)と組み合わせることで,低遅延で表現崩壊の早期警告信号を提供する。
- 大規模言語モデルのファインチューニングや時系列知識グラフ埋め込み学習において,その有効性が確認された。
マスク拡散モデルに対する単純な自己条件化適応 [cs.LG, cs.AI]目的:マスク拡散モデルの性能改善
- 拡散モデルは,近年,画像生成などの分野で注目されており,高品質なデータ生成を可能とする。
- 従来のマスク拡散モデルでは,マスクされた位置の推論が反復的に行われ,精度が制限される場合がある。
- 本研究では,自己条件化による適応を通して,モデルの精度向上と効率化を目指す。
- 自己条件化マスク拡散モデル(SCMDM)は,わずかな変更で既存のMDMに適用でき,追加の計算コストも少ない。
- SCMDMは,OWTデータで学習されたモデルにおいて,生成的パープレキシティをほぼ50%削減することを示した(42.89から23.72へ)。
- 画像合成,低分子生成,ゲノム分布モデリングにおいても,SCMDMは性能が向上した。
人間中心の医用画像分析 [cs.LG, cs.AI]目的:公平性,診断精度,ワークフロー効率の同時最適化
- 医療AIの発展は診断精度向上に貢献するが,実用化は遅れている。
- 患者層間の性能バイアスや,臨床ワークフローへの組み込みの難しさがある。
- AIと臨床医の協調を最適化し,より信頼性の高いシステムを構築すること。
- 提案手法PecManは,既存手法と比較して,公平性,精度,ワークフロー効率において一貫して優れた性能を示す。
- 動的なゲート機構により,AI,臨床医,または両者に症例を割り当て,臨床医の負担を考慮した最適化を実現。
- 新規ベンチマークFairHAIを導入し,精度,公平性,負担のトレードオフを評価する枠組みを提示。
ランク1行列分解に対する状態依存型Lyapunov法 [math.NA, cs.LG, cs.NA, math.OC]目的:ランク1行列分解における勾配降下法の解析
- 機械学習やデータ解析において,高次元データの次元削減は重要な課題である。
- 既存のランク1行列分解手法では,収束性や安定性の理論的保証が十分でない場合がある。
- 状態依存型Lyapunov法を用いて,勾配降下法の収束性およびダイナミクスを厳密に解析する。
- 本研究では,パラメータ化された二次証明関数を導入し,そのレベル集合の縮小を通じて単調な状態パラメータを導出した。
- 証明された領域では大域的最小値への収束が保証され,臨界領域を超えると終端平衡多様体へ向かうことが示された。
- 実験結果は,2次元ランク1近似問題やクォーティック増強スカラー損失関数において,提案手法の予測性能を裏付けている。
エージェント名サービス (ANS): Kubernetes における安全な AI エージェントの発見,識別,ガバナンスのための概念実証型信頼層 [cs.IR, cs.CR, cs.AI, cs.MA]目的:AI エージェントの安全な発見,識別,能力証明,ポリシーガバナンスのメカニズム
- AIエージェントの自律的な生態系を構築する上で,安全性と信頼性は不可欠である。
- 既存のシステムでは,エージェントの発見,認証,能力証明,ポリシー制御が不十分である。
- Kubernetes 環境において,安全かつ相互運用可能な AI エージェントを実現するための基盤を提供する。
- ANS は,分散型識別子 (DID) や検証可能な資格情報 (VC) を活用し,安全なエージェント管理を可能にする。
- デモ環境における実験では,10ms 未満の応答時間と,スクリプト化されたデモ展開の完全な成功が確認された。
- 本研究は概念実証であり,今後の開発によって更なる機能拡張が期待される。
物理情報ニューラルネットワークにおけるタスク異質性軽減のための合成メタ学習 [cs.AI]目的:物理制約付きニューラルネットワークにおけるタスク異質性軽減
- 物理現象のシミュレーションは工学設計に不可欠であり,高精度な解法が求められる。
- 各タスクごとにPINNを学習するのは計算コストが高く,転移学習はタスクの異質性に弱い。
- 少ない学習データでも,未知のタスクへの汎化性能を向上させること。
- LAM-PINNは,タスク固有の学習ダイナミクスを活用する合成フレームワークである。
- 未知のタスクにおいて,従来のPINNに必要な反復回数の10%で,平均19.7倍のMSE削減を達成した。
- これは,パラメータ化された偏微分方程式ファミリーにおいて,リソース制約のある環境での汎化性能の有効性を示す。
継続学習がメモリへ:LLMエージェントにおける経験の再利用に関する研究 [cs.LG, cs.AI]目的:LLMエージェントにおける経験の再利用メカニズム
- LLMの継続学習は,モデルの汎化性能向上に不可欠であり,実世界への応用を拡大する鍵となる。
- 従来の継続学習では,パラメータ更新による安定性と可塑性のトレードオフが課題であった。
- 外部メモリを用いた継続学習における,メモリアクセス時の経験の競合と忘却の問題を解決する。
- 外部メモリによる継続学習は,パラメータ更新の課題をメモリアクセスに転嫁する。
- 抽象的な手続き記憶は詳細な軌跡よりも転移性が高く,難しい事例で負の転移が顕著に起こる。
- メモリの細分化は必ずしも有益ではなく,前向き転移と深刻な忘却を同時に引き起こす可能性がある。
EdgeSpike:エッジIoTアーキテクチャにおける低消費電力自律センシングのためのスパイクニューラルネットワーク [cs.NE, cs.LG, eess.SP]目的:エッジIoTアーキテクチャにおける低消費電力自律センシングのためのスパイクニューラルネットワークフレームワーク
- IoTデバイスの普及に伴い,バッテリー寿命や消費電力の効率化が重要な課題となっている。
- 従来のニューラルネットワークは計算負荷が高く,エッジデバイスでの利用には電力効率の面で課題がある。
- スパイクニューラルネットワークを用いて,エッジデバイスでのセンシング処理の低消費電力化と高効率化を目指す。
- EdgeSpikeは,5つのセンシングタスクにおいて平均91.4%の分類精度を達成し,INT8 CNNの性能に匹敵する。
- ニューロモーフィックハードウェアでは推論あたりのエネルギー消費量を18倍から47倍,Cortex-Mでは4.6倍から7.9倍削減した。
- 7ヶ月間の64ノードワイヤレスフィールド展開により,バッテリー寿命が6.3倍に延伸され,季節変動に対する精度劣化も抑制された。
精度を超えて:ソフトウェア工学のシステマティック文献レビューにおける証拠スクリーニングにおけるLLMの変動性 [cs.SE, cs.AI]目的:ソフトウェア工学のシステマティック文献レビューにおける証拠スクリーニングにおけるLLMの性能と変動性の評価
- システマティック文献レビューは信頼性の高い証拠に基づいた意思決定に不可欠であり,その効率化は重要である。
- 文献スクリーニングはコストと時間がかかり,担当者によるばらつきが生じやすいプロセスである。
- LLMの性能変動を定量化し,古典的なモデルとの比較を行い,LLM導入の妥当性を判断する。
- LLMは著しい異質性を示し,温度ゼロでも非決定論的な挙動が見られた。
- アブストラクトの有無が性能に決定的な影響を与え,タイトルやキーワードの追加は効果が限定的であった。
- LLMと古典的なモデルの性能差は一貫せず,LLMの優位性を一般化することは難しい。
バイナリスパイクニューラルネットワークにおける因果モデル [cs.AI]目的:バイナリスクパイクニューラルネットワークの振る舞いに関する因果分析
- 近年,ニューラルネットワークの解釈可能性が重要視されており,その内部メカニズムの理解が求められている。
- ニューラルネットワークは複雑な構造であり,その判断根拠を特定することは困難である。
- バイナリスクパイクニューラルネットワークの動作を因果モデルとして表現し,解釈可能性を高める。
- バイナリスクパイクニューラルネットワークのスパイク活動を二値因果モデルとして定義し,論理ベースの手法を用いて出力の説明を可能にした。
- SATソルバーおよびSMTソルバーを用いて,ピクセルレベルの特徴に基づいたネットワークの分類に対する仮説的説明を計算することに成功した。
- 提案手法はSHAPと比較して,無関係な特徴を含まない説明を保証する。
ACAS-Xuルックアップテーブルのバイナリ決定図による圧縮 [cs.LO, cs.NE]目的:ACAS-Xuルックアップテーブルの圧縮手法
- 航空機の衝突回避システムは安全性が不可欠であり,そのロジックの正確性が求められる。
- 従来のルックアップテーブルはメモリ消費量が大きく,組み込みシステムへの実装が課題となる。
- ルックアップテーブルのメモリ使用量を削減しつつ,正確性と検証可能性を確保すること。
- バイナリ決定図(BDD)を用いることで,ACAS-Xuルックアップテーブルのメモリ使用量を大幅に削減できることが示された。
- BDDによる表現は,元のテーブルと完全に同等であり,正確な検証と推論が可能である。
- 本手法は,低遅延で予測可能な実行を実現し,組み込みプラットフォームへの展開に適している。
LLMによるレポート生成を用いた自動因果的公平性分析 [cs.HC, cs.LG, cs.AI]目的:データセットレベルにおける公平性分析の自動化
- 機械学習の社会実装において,公平性の確保は不可欠であり,差別や偏見の助長を防ぐ上で重要である。
- 既存のAutoMLフレームワークは,学習データや予測における公平性の欠如を考慮していない場合が多い。
- 学習データに含まれる公平性の問題を自動的に検出し,その結果を分かりやすく報告すること。
- 開発した\textsc{FairMind}は,因果効果に基づいた公平性評価を実現し,潜在的な不公平性を検出する。
- LLMを活用することで,検出された公平性レベルに関する正確なレポートをゼロショットで生成できる。
- 順序変数や連続値の取り扱い,新たな分解結果などの拡張により,実用的な応用範囲を広げている。
忠実性,多様性,およびプライバシー:臨床データ拡張のための多次元LLM評価 [cs.AR, cs.AR, cs.LG, cs.CR]目的:臨床データ拡張のためのLLM評価手法
- 質の高い医療データの不足は,機械学習モデルの性能向上を阻害する要因である。
- プライバシー規制によりデータ共有が制限され,データ拡張の代替手段が求められている。
- LLMを活用したデータ拡張が,患者のプライバシーを保護しつつデータ量を増やすことを目指す。
- DeepSeek-R1,OpenBioLLM-Llama3,Qwen 3.5は,ICD-10コードに基づき臨床的に整合性の高い合成レポートを生成可能である。
- 生成されたテキストは,意味的忠実性,語彙的多様性,プライバシー保護の観点から評価され,良好な結果を示した。
- 本研究は,臨床自然言語処理タスクのためのトレーニングデータを大幅に拡張できることを実証した。
動的敵対的ファインチューニングは拒否幾何学を再構成する [cs.LG, cs.CL, cs.CR]目的:言語モデルにおける有害要求拒否と過剰な拒否のバランスを制御するメカニズムの解明
- 安全性と有用性の両立は,大規模言語モデルの社会実装において重要である。
- 言語モデルの安全性を高めるためには,有害な要求を拒否しつつ,有用な要求への過剰な拒否を抑制する必要がある。
- 動的敵対的ファインチューニングが拒否の特性をどのように変化させるかを調査し,そのメカニズムを明らかにすること。
- 動的敵対的ファインチューニング(R2D2)は,初期段階で有害要求に対する拒否率をほぼ0%にまで低下させる。
- しかし,訓練が進むにつれて,拒否率は徐々に上昇し,有用な要求への拒否も一部再開されることが示された。
- R2D2は拒否の担い手を層構造的に再配置し,低次元かつ有用性と結合した制御が可能である可能性が示唆された。
NORACL:オラクルなしのリソース適応型継続学習のための神経新生 [cs.LG, cs.AI, cs.NE]目的:継続学習における安定性と可塑性の両立
- 継続学習は,モデルが新しいタスクを学習しつつ,過去の知識を保持することが重要である。
- 固定容量のネットワークでは,タスク数の増加に伴い,可塑的なリソースが不足する問題がある。
- タスクストリームの特性に合わせて,ネットワーク構造を動的に変化させることで問題を解決する。
- NORACLは,オラクルサイズの固定ネットワークと比較して,同等以上の最終的な平均精度を達成した。
- NORACLは,固定ネットワークよりも少ないパラメータ数で同様の性能を発揮する。
- タスクの類似度に応じて,特徴抽出層や特徴統合層が選択的に成長することが確認された。
エネルギー効率の良いモデル推論のためのLLM誘導型ランタイムパラメータ最適化 [cs.SE, cs.LG]目的:エネルギー効率の良いモデル推論のためのランタイムパラメータ最適化
- 大規模言語モデルの利用拡大に伴い,そのエネルギー消費が大きな課題となっている。
- 最適なランタイムパラメータの選択には専門知識が必要であり,従来の最適化手法は時間がかかる。
- LLMを活用し,迅速かつ効率的にエネルギー消費を最小化するランタイムパラメータを特定すること。
- LLMと人間の協調により,従来の探索手法よりも迅速にエネルギー効率の良い推論パラメータを発見できる。
- 改良されたプロンプトテンプレートは,ベースラインと比較して平均3.4回のプロンプトで収束し,低いエネルギー消費量/トークンを達成した。
- 改良されたプロンプトテンプレートは,Sobolサンプリングよりも収束速度が速いことが示された。
脳波デコーディングにおけるクロスサブジェクト汎化:深層学習手法の調査 [cs.LG, eess.SP]目的:脳波デコーディングにおけるクロスサブジェクト汎化の課題に対する深層学習手法
- 脳波は,脳の活動を直接反映し,ブレイン・マシン・インターフェース等の応用に不可欠である。
- 個人間の脳波の変動が大きく,学習データと未知の被験者間での性能低下が課題である。
- 個人差に強い深層学習手法を用い,脳波デコーディングの汎化性能向上を目指す。
- 本調査では,クロスサブジェクト汎化の課題に対処するため開発された深層学習手法を分類し,体系的にまとめた。
- 手法は,特徴量アライメント,敵対的学習,特徴量分離,コントラスティブ学習の4つのグループに分類された。
- 今後の展望として,理論的限界,被験者固有情報の構造的価値,脳波の基盤モデルの出現について考察した。
ヘルスコーチングエージェントにおける臨床的食い違いの検出:デュアルストリーム記憶と照合アーキテクチャ [cs.IR, cs.CL, cs.CL, cs.CL, cs.LG, cs.AI, cs.CL]目的:ヘルスコーチングエージェントにおける臨床的食い違いの検出と照合
- LLMエージェントが長期的なヘルスケアを支援する中で,情報の正確性と安全性が重要となる。
- 患者の自己申告と電子健康記録の乖離があり,記憶システムが最新情報に偏りやすい。
- 患者の自己申告と電子健康記録の照合により,臨床的誤りを検出し,安全性を確保することを目指す。
- デュアルストリーム記憶アーキテクチャにより,患者の記録と臨床記録を分離し,照合エンジンが食い違いを評価する。
- 675回のウェルネスコーチングセッションで,設計された臨床的食い違いの84.4%を検出,安全性に関わる再現率は86.7%を示した。
- エラーの連鎖解析から,記憶抽出時の情報損失が問題であることが示唆され,臨床記録との照合の重要性が確認された。
忘却の学習:適応的重み減衰による継続学習 [cs.LG, cs.NE]目的:継続学習における適応的重み減衰メカニズム
- 知識獲得と保持のバランスが重要であり,効率的な学習には不要知識の忘却が不可欠である。
- 従来の固定された重み減衰では,安定した知識と変動する知識を区別できず,効率的な忘却が困難である。
- パラメータごとの重み減衰率を適応的に調整し,効率的な忘却と継続学習を実現すること。
- 提案手法FADEは,パラメータごとの重み減衰率をオンラインで自動的に学習し,異なるパラメータに適切な減衰率を適用する。
- FADEは,ステップサイズ適応と組み合わせることで,オンライン追跡やストリーミング分類問題において,固定重み減衰よりも優れた性能を示す。
- 線形設定におけるFADEの導出と,ニューラルネットワークの最終層への適用が検証されている。
正規化Transformerにおける学習率の転移 [cs.LG, cs.AI, stat.ML]目的:正規化Transformerにおける学習率転移の実現
- Transformerモデルの効率的な学習は,大規模言語モデルの発展に不可欠である。
- 従来のTransformerでは,モデルサイズに応じて学習率を調整する必要があり,手間がかかる。
- モデルサイズや系列長に関わらず学習率を転移させ,学習の効率化を目指す。
- 新しいパラメータ化$\nu$GPTを提案し,モデル幅,深さ,系列長に対して学習率の転移が確認された。
- $\nu$GPTは,alignment exponentsを用いて$\mu$Pアプローチを修正することで実現されている。
- 学習率転移により,様々なモデルサイズで効率的な学習が可能となる。
LLMの寿命到達時:本番システムにおける確信度のあるモデル移行のためのフレームワーク [cs.AI, cs.LG, cs.SE]目的:LLMベースシステムのモデル移行手法
- LLM技術は急速に進展しており,ビジネスへの応用が拡大している。
- LLMは陳腐化が早いため,継続的なモデル更新が必要となる。
- 本番環境でのモデル移行における品質保証と評価効率のバランスが課題である。
- 本研究では,人間による判断との比較を通して自動評価指標を校正するベイズ統計アプローチを提案する。
- 実世界の質問応答システムにおいて,正確性,拒否行動,スタイル遵守の評価を通して適切な代替モデルを特定した。
- このフレームワークは,LLMベース製品を展開する企業にとって,モデル移行を効率的かつ信頼性の高いものにする。
共進化型ポリシー蒸留 [cs.LG]目的:複数専門家の能力を単一モデルに統合する手法
- 強化学習における知識の集約・再利用は,効率的な学習と汎化性能向上に不可欠である。
- 従来の知識蒸留では,教師モデルと生徒モデルの行動パターン差により,能力の完全な伝達が困難である。
- 専門家間の行動パターンの一貫性を保ちつつ,知識の相互伝達を促進することで,能力損失を抑制する。
- CoPDは,テキスト,画像,動画の推論能力を統合し,既存手法を大幅に上回る性能を達成した。
- 相互に教師役を担う専門家を並行して訓練することで,より一貫した行動パターンを学習させた。
- CoPDが示すモデル並列訓練は,新たな訓練スケーリングパラダイムの可能性を示唆する。
複数Consumer GPUを用いた効率的な学習法:RoundPipe [cs.NI, cs.DC, cs.AI, cs.LG]目的:大規模言語モデルの効率的な微調整
- LLMの活用が広がる中,学習コストの削減が重要課題となっている。
- Consumer GPUでは,メモリ制限とPCIeの速度がボトルネックとなりやすい。
- RoundPipeは,GPUの制約下での学習効率を最大化することを目指す。
- RoundPipeは,GPUをステートレスなワーカーとして扱い,ラウンドロビン方式で処理を分散する。
- これにより,既存手法と比較して1.48~2.16倍の高速化を実現している。
- Qwen3-235Bモデルの微調整を単一サーバーで可能にするなど,高い有効性を示す。
AutoSP:コンパイラベースのシーケンス並列化による長文脈LLM学習の実現 [cs.LG, cs.DC, cs.PF]目的:長文脈LLM学習の自動最適化
- 大規模言語モデルは,長文脈処理において有用性が高い。近年,その重要性が増している。
- 既存の学習ライブラリは,長文脈学習に最適化された使いやすい抽象化を提供していない。
- AutoSPは,長文脈LLM学習の最適化を自動化し,開発者の負担を軽減することを目的とする。
- AutoSPは,シーケンス並列化と活性化チェックポインティングを自動的に適用することで,学習可能性を大幅に向上させる。
- NVIDIAおよびAMDハードウェア上で,既存のベースラインと比較して,学習文脈を最大2.7倍,2.5倍に拡張することが示された。
- ランタイムパフォーマンスへの影響は無視できる程度である。
リアルな光学プラットフォームにおけるエンドツーエンドの自律科学的発見 [cs.AI, physics.optics]目的:リアルな光学プラットフォームにおけるエンドツーエンドの自律科学的発見
- 科学研究は知識と技術革新の源泉であり,その加速は重要である。
- 従来の科学研究は人的資源に依存しており,効率化が課題である。
- AIエージェントによる自律的な科学的発見を可能にすること。
- 本研究では,LLMベースの「Qiushi Discovery Engine」を開発し,自律的な科学的発見を実証した。
- Qiushi Engineは,既存の実験の再現と抽象的な理論の検証に成功した。
- さらに,新規な物理メカニズムである光学双線形相互作用を発見し,実験的に検証した。
無益だが安全か? 多ターン会話におけるユーザー意図の明確化と有用性の回復に関するベンチマーク [cs.CL, cs.AI]目的:多ターン会話における,LLMのユーザー意図の解釈修正と有用性の回復能力の測定
- LLMの安全性は重要であり,悪意のある攻撃への堅牢性を高めることが求められている。
- 既存の手法は,ユーザーの意図を明確にした際のLLMの有用性の回復に着目していない。
- LLMがユーザーの意図を正しく理解し,安全性を保ちつつ有用性を提供できるかを評価する。
- CarryOnBenchは,ユーザーの意図を明確にする多ターン会話におけるLLMの有用性回復能力を測定する初のインタラクティブベンチマークである。
- モデルは最初のターンで,ユーザーの潜在的な情報ニーズの10.5~37.6%しか満たしていない。意図を明示した場合,25.1~72.1%に向上し,意図誤認が原因であることが示された。
- 多ターン会話での明確化により,多くのモデルは単一ターンベースラインに近づく/超えるが,回復コストはモデル間で異なる。また,安全性と応答性のバランスに課題があることも明らかになった。
考えて実行する:自己修復型マルチエージェントAIによる自律的な機械学習パイプライン生成 [cs.RO, cs.AI]目的:機械学習パイプラインの自律的な生成
- 機械学習の応用範囲拡大に伴い,効率的なパイプライン構築が重要となっている。
- 手動でのパイプライン構築は,時間と専門知識を要する上に,エラーが発生しやすい。
- 機械学習パイプラインの自動生成により,開発効率の向上と堅牢性の確保を目指す。
- 提案手法は,多様なシナリオにおける150の機械学習タスクで,84.7%のエンドツーエンドパイプライン成功率を達成した。
- 自己修復機能により,システムの堅牢性が向上し,手動構築と比較してワークフロー開発時間を削減できることが示された。
- コードに基づいたRAG,説明可能な推薦,自己修復実行,適応学習を統合した新しいアーキテクチャが示された。
