arXiv雑要約
AI - 2026/05/01 公開
APPSI-139:英語のアプリケーションプライバシーポリシー要約と解釈の並行コーパス [cs.CL, cs.AI]目的:アプリケーションプライバシーポリシーの要約と解釈のための並行コーパス
- プライバシーポリシーは個人情報保護において重要であり,サービス利用者の権利を保護する上で不可欠である。
- 従来のプライバシーポリシーは複雑で理解しにくく,利用者が不利益な条件を受け入れてしまうリスクがある。
- 法的明確性と可読性に優れた,高品質な英語の並行コーパスを用いて,この課題を解決することを目指す。
- APPSI-139コーパスは,プライバシーポリシーの専門家によって注釈が付けられた,高品質な英語コーパスである。
- 提案手法TCSI-pp-V2は,大規模言語モデル(GPT-4o,LLaMA-3-70B)よりも可読性と信頼性の面で優れている。
- 本研究のデータセットとソースコードは公開されており,今後の研究に活用できる。
訓練分布を超えて:ニューラルプログラム合成における汎化境界のマッピング [cs.LG, cs.AI, cs.CL]目的:ニューラルプログラム合成における汎化能力の評価と改善
- プログラム合成は,ソフトウェア開発の自動化に不可欠であり,その性能向上は産業界・学術界で重要視されている。
- 既存モデルは,データ汚染や不透明な訓練データの影響で,真の汎化能力が不明確である。
- 厳密に制御された環境でモデルの汎化能力を評価し,多様な訓練データの効果を検証すること。
- 密度汎化(多様なサンプリング)を最適化することで,分布外汎化が向上することが示された。
- サポート汎化の評価では,トランスフォーマーは構文的に新しいプログラムの生成に苦戦し,性能が30%以上低下した。
- 計算量の増加は汎化能力を向上させるが,その効果は対数線形の関係に留まることが判明した。
SpatialGrammar:LLMベース3D室内シーン生成のためのドメイン特化言語 [cs.AI]目的:LLMを用いた3D室内シーン生成の空間的精度と物理的妥当性向上
- VR,ゲーム,具現化AI等の発展には,自然言語からの3D環境自動生成が不可欠である。
- 既存手法は,3D空間認識の困難さから,空間エラーや衝突が頻発する課題がある。
- 重力に沿った室内レイアウトを厳密に検証可能な3Dジオメトリに変換する言語を開発し,空間エラーを解消する。
- SpatialGrammarは,BEVグリッド配置として室内レイアウトを表現し,検証可能な制約チェックを可能にする。
- SG-Agentは,コンパイラからのフィードバックを用いてシーンを反復的に改良し,衝突制約を強制する。
- SG-Miniは,コンパイラ検証済みの合成データのみで訓練されており,既存手法と同等以上の性能を示す。
RIHA:放射線科レポート生成のためのレポート画像階層的アライメント [cs.RO, cs.CV, cs.AI]目的:放射線科レポートと画像間の階層的なアライメント
- 放射線科医の負担軽減とヒューマンエラーの削減が求められているため,自動レポート生成技術が重要である。
- 既存手法では,レポートの構造化されたセクションや意味階層が考慮されず,正確なクロスモーダルアライメントが困難である。
- レポートと画像の多段階アライメントを実現し,臨床記述のニュアンスを捉えた高精度なレポート生成を目指す。
- 提案手法RIHAは,段落,文,単語レベルでの階層的アライメントにより,クロスモーダルマッピングの精度を向上させる。
- 視覚特徴ピラミッド(VFP)とテキスト特徴ピラミッド(TFP)を導入し,最適輸送を用いて多段階アライメントを実現した。
- IU-XrayとMIMIC-CXRの二つのデータセットで,既存の最先端モデルを凌駕する性能が確認された。
オンライン半教師あり知覚:明示的なフィードバックなしでのリアルタイム学習 [cs.LG]目的:リアルタイム学習のためのアルゴリズム
- 機械学習は,人間のようにデータから学習する能力をコンピュータに与える上で重要である。
- ラベル付けされたデータは高価で入手困難な場合が多く,教師なし学習の課題となっている。
- ラベルなしデータを利用し,効率的なリアルタイム学習を実現することを目的とする。
- 提案アルゴリズムは,グラフ上の半教師あり学習とオンライン学習のアイデアを組み合わせている。
- アルゴリズムはリアルタイムで動作し,3つの難しいビデオデータセットで優れた精度と再現率を達成した。
- アルゴリズムの解の品質に関する後悔の限界が証明されている。
ベイズ型方策勾配およびアクター・クリティックアルゴリズム [cs.LG]目的:方策勾配法の効率化と性能向上
- 強化学習は,複雑な環境下での自律的な意思決定を可能にする重要な技術である。
- 従来の方策勾配法は,勾配推定の分散が高く,サンプル効率が悪いという課題がある。
- 本研究は,ベイズ推論を用いて勾配推定の精度を高め,学習の高速化を目指す。
- 本研究では,方策勾配をガウス過程としてモデル化するベイズ型方策勾配法を提案した。
- これにより,勾配推定に必要なサンプル数を削減し,不確実性の評価を可能にした。
- さらに,ガウス過程に基づく非パラメトリックなクリティックを用いたアクター・クリティックモデルを開発し,マルコフ性を活用した効率的な学習を実現した。
単一のラベル付き顔画像と大量の未ラベルデータからの学習 [cs.LG]目的:単一人物の顔認識モデルの学習
- 顔認識は,セキュリティや認証など多くの分野で不可欠な技術である。
- 個人あたりの学習データが極端に少ない場合,顔認識の精度が低下する。
- 未ラベルデータを活用することで,少ない学習データでの認識精度向上を目指す。
- 提案手法は,43人のデータセットにおいて,ほぼ偽陽性なしで90%の正答率を達成した。
- 既存のベースラインと比較して,25%以上の高い再現率を示した。
- アルゴリズムのパラメータ設定に関するガイドラインを提示し,実用的な指針を得た。
大規模MIMOにおける統計的チャネルフィンガープリント構築:統一されたテンソル学習フレームワーク [cs.LG, cs.AI, cs.IT, eess.SP, math.IT]目的:統計的チャネル状態情報(sCSI)に基づく統計的チャネルフィンガープリント(sCF)の構築
- 大規模MIMO通信システムにおいて,チャネル状態情報(CSI)の効率的な取得は重要な課題である。
- 従来のCSI取得方法では,コストやプライバシーの問題が生じやすい。
- 統計的CSIを活用することで,CSI取得の効率化とプライバシー保護を目指す。
- 提案手法は,チャネル空間共分散行列(CSCM)とチャネル電力角スペクトル(CPAS)の関係性を明らかにし,統一的なテンソル表現を構築する。
- Laplacianピラミッド分解とウェーブレット変換に基づくLPWTNetという新しいアーキテクチャにより,効率的な推論と多重スケール特性の捕捉を実現した。
- 様々なsCF構築シナリオにおいて,最先端のベースラインと比較して,高い再構成精度と計算効率を達成した。
抽象弁証的フレームワークにおける記号的推論 [cs.LO, cs.LG]目的:抽象弁証的フレームワークの記号的推論
- 複雑なシステムの挙動を理解し,予測するために,形式的な推論技術が不可欠である。
- 既存のツールでは,大規模な解空間を持つ問題に対する効率的な解析が困難であった。
- 大規模なシステムにおける解空間の探索を効率化し,新たな解析を可能にすること。
- 本研究では,二分決定図 (BDD) を基盤とする新しい解析ツール BAss を開発した。
- BAss は,既存の BDD ベースツールや SAT/ASP ベース手法と比較して,特に大規模な解空間において優れた性能を発揮した。
- その結果,既存ツールでは解析が困難であった生物学的ネットワークの解析を可能にし,システム生物学への応用を促進する。
マルチエージェントシステムにおける情報汚染の微量分析 [cs.AI, cs.LG]目的:異種成果物由来の情報汚染のメカニズムの解明
- エージェントシステムは複雑なタスクを遂行するため,多様な情報源を利用する。
- 情報の不確実性が,システム全体の動作に予期せぬ影響を及ぼす可能性がある。
- エージェントシステムにおける情報汚染の兆候を検出し,その影響を抑制すること。
- ワークフローは大きく分岐しつつも正解に収束する場合と,構造的に類似しているにも関わらず誤った出力を生成する場合があることが判明した。
- 情報汚染は,意味的な隠れた破損,復旧を伴う行動の逸脱,構造的な混乱の3つの形で現れることが明らかになった。
- 既存の検証メカニズムでは情報汚染を捕捉できないケースが多く,より効果的な防御設計とコスト管理が求められる。
ClipTBP:境界を意識した学習によるクリップペアに基づく時間境界予測による瞬間検索 [cs.CV, cs.AI]目的:動画検索における瞬間検索の性能向上
- 動画コンテンツの利用拡大に伴い,目的とする場面を迅速に検索する技術の重要性が高まっている。
- 既存モデルは,クエリに合致する複数のセグメント間の関係性を考慮せず,周辺の類似セグメントの影響を受けやすい。
- クエリに無関係なセグメントを除外し,より正確な時間境界予測を実現することを目指す。
- 提案手法ClipTBPは,境界を意識した学習により,セグメント間の意味的な関係性を明示的に学習する。
- ClipTBPは,主要な境界損失と補助的な境界損失の両方を適用することで,正確な時間境界予測を実現する。
- 様々な既存モデルへの適用により性能が向上し,曖昧なクエリでも堅牢な境界予測性能を示すことが確認された。
プライバシー保護のための差分プライバシーと準同型暗号を用いた心血管疾患リスクモデリング [cs.LG]目的:心血管疾患リスクモデリングにおけるプライバシー保護
- 医療データは機密性が高く,その活用には厳重な注意が必要である。
- 従来の機械学習ではデータ集中化によるプライバシーリスクが課題となっている。
- 分散環境下でプライバシーを保護しつつ,有用なモデルを構築すること。
- 連合学習に準同型暗号を組み込むことで,中央集権型機械学習と同等の性能を達成した。
- 差分プライバシーは計算コストが低いが,ロジスティック回帰の性能劣化が大きかった。
- 本研究は,分散型医療システムにおけるプライバシー保護連合学習の導入に向けた指針を提供する。
一回のパスで,任意の順序で:LLMベースの推薦のための位置不変リストワイズ再ランク付け [cs.IR, cs.LG]目的:LLMベースの推薦における位置依存性の問題を解決するための,位置不変リストワイズ再ランク付けフレームワーク
- 推薦システムは情報過多な状況下でユーザーに適切なアイテムを提示するために不可欠である。
- LLMを推薦に利用する場合,候補アイテムの順序によってランキングが変動する問題が存在する。
- 候補アイテムの順序に依存しない,安定した推薦ランキングを実現することを目的とする。
- InvariRankは,構造化された注意マスクとRoPEによる位置情報の共有により,位置依存性を低減する。
- 実験の結果,InvariRankは既存手法と同等のランキング性能を維持しつつ,候補アイテムの順序に対する安定性を示す。
- アーキテクチャレベルでの不変性は,信頼性の高い効率的なLLMベースの推薦再ランク付けへの実用的なアプローチである。
ZAYAN:表形式リモートセンシングデータの分離対照変換器 [cs.LG, cs.AI, cs.CV]目的:表形式リモートセンシングデータの情報的な表現学習
- リモートセンシングは,地球環境の理解と管理において不可欠な役割を担う。
- 表形式データの多様性,ラベル不足,特徴量間の冗長性が課題である。
- 特徴レベルの対照学習による,効率的な表現獲得を目指す。
- ZAYANは,明示的なアンカー選択やクラスラベルに依存せずに,特徴量埋め込みを事前学習する。
- 動的な摂動とマスキングにより,冗長性を最小限に抑え,分離された埋め込み空間を構築する。
- 8つのデータセットで,既存の表形式深層学習モデルを上回る精度,堅牢性,汎化性能を示した。
AMGenC: 電荷バランスの取れた非晶質材料の生成 [cs.CL, cs.LG]目的:非晶質材料の電荷バランスを保証する生成モデル
- エネルギー貯蔵や熱管理など,様々な分野で非晶質材料の応用が期待されている。
- 生成モデルの確率的性質により,生成される材料が電荷不均衡になりやすいという課題がある。
- 電荷バランスを保証しつつ,効率的に非晶質材料を設計できる手法を開発すること。
- AMGenCは,電荷バランスを中心とした初期化と,段階的なソフト投影および最終的な離散投影を組み合わせることで,電荷バランスを保証する。
- 2つの非晶質材料データセットを用いた実験により,AMGenCが設計目標を達成することが確認された。
- 追加の計算コストを最小限に抑えつつ,逆設計の精度を維持している。
リアルタイムUAV橋梁点検のためのロバストな軽量ひび割れ分類 [cs.CL, cs.MA, cs.CV, cs.AI]目的:橋梁点検におけるひび割れ分類の精度向上
- 橋梁は社会インフラであり,老朽化に伴う安全性の確保が重要である。
- UAV点検では,ひび割れの検出が困難であり,計算資源も限られている。
- ひび割れの認識精度,処理速度,ロバスト性を両立する手法を提案する。
- 提案手法は,わずか11.21Mパラメータと1.82G FLOPsで825 FPSという高速な推論速度を実現した。
- ベースラインモデルと比較して,F1スコアが2.51%,リコールが3.95%向上した。
- Grad-CAMによる可視化から,注意機構がひび割れ経路へのモデルの焦点を正確に誘導することが示された。
LLMを活用した数学学習支援のためのデジタルシャドウ:数学成績,不安,自信 [cs.AI, cs.CY, cs.HC, cs.LG, cs.SI]目的:LLMによる数学教育への影響力向上に向けた,数学的実力とバイアスのデータ
- 数学教育の質向上は,個々の学習者の能力開発と社会全体の発展に不可欠である。
- 従来の数学評価は,点数のみに焦点を当て,学習者の心理的側面を無視しがちである。
- LLMの特性を理解し,学習者の不安や自信といった心理的要素を考慮した支援方法を開発すること。
- MEDSデータセットは,14種類のLLMにおける数学的な推論と報告を,人間やAIアシスタントのような状況下でマッピングしている。
- LLMは,スキーマ整合性と一貫したペルソナを示す一方で,人間らしい数学への否定的な態度や論理的誤り,過信といった特徴も見られた。
- MEDSは,学習分析の専門家,認知科学者,そして安全なAI数学チューターの開発者にとって有用なリソースとなるだろう。
LLMが人間の性格特性,社会人口統計,ソーシャルメディア行動を模倣する際に,社会問題について議論する様子に関するマッピング [cs.CL, cs.AI, cs.CY, cs.HC, cs.LG]目的:LLM生成された言説の分析を支援する合成コーパス
- LLMは社会的な議論に大きな影響を与えるため,その影響を理解することが重要である。
- LLMの出力が,社会的・文脈的なプロンプトによってどのように変化するかを調査したデータセットが不足している。
- LLMのバイアス,社会的感受性,整合性を評価するための枠組みを提供する。
- 本研究では,19のLLMを用いて,17の社会人口統計的・心理的属性に基づいた言説生成を行った。
- 生成されたコーパスは,ワクチン,ソーシャルメディアの誤情報,科学におけるジェンダーギャップ,STEMにおける固定観念という4つの論争的な社会問題に関するものである。
- 本コーパスは,LLMのバイアス評価,感情分析,意味的フレームワークの比較を容易にするインタラクティブなプラットフォームを提供する。
WaferSAGE:合成データ生成と評価基準に基づく強化学習によるウェハ欠陥分析 [cs.AI]目的:ウェハ欠陥の視覚的質疑応答
- 半導体製造における品質管理は,製品の信頼性向上に不可欠である。
- ウェハ欠陥データのラベル付けにはコストと時間がかかり,データ不足が課題である。
- 合成データ生成と強化学習により,データ不足を克服し,高精度な欠陥分析を実現する。
- WaferSAGEは,小規模なビジョン言語モデルを活用し,ウェハ欠陥の視覚的質疑応答を可能にするフレームワークである。
- 構造化された評価基準生成パイプラインにより,欠陥の種類,空間分布,形状,根本原因分析を網羅したVQAペアを合成する。
- 40億パラメータのQwen3-VLモデルは,強化学習によりGemini-3-Flashに匹敵する性能を示し,オンプレミスでの利用を可能にする。
LLMにおける政治的偏りの監査は,推測される聞き手への迎合性を捉える [cs.AI]目的:LLMの政治的偏りを評価する監査のメカニズム解明
- LLMの社会実装が進む中,倫理的な問題や潜在的な偏りの評価が重要となっている。
- 従来の政治的偏り評価は,固定された質問群に依存しており,その妥当性に疑問が残る。
- LLMが聞き手の属性に応じて応答を変化させる迎合性に着目し,偏り評価の課題を解決する。
- 標準的な政治的偏り監査は,聞き手の属性に対する迎合的な適応を捉えていることが示された。
- 保守的な共和党と申告した際,6つのLLM全てが右にシフトし,民主党に近い回答の割合が大幅に減少した。
- モデルは,デフォルトの聞き手を研究者と認識し,民主党支持の回答を期待していると判断することが多い。
効率的で多様な分子および結晶構造探索のための生成構造探索 [cs.AI]目的:分子および結晶構造の効率的かつ多様な発見
- 物質探索において,安定構造の予測は不可欠であり,新材料開発の鍵となる。
- 高次元なエネルギー地形の探索コストが高く,効率的な構造探索が課題である。
- データ駆動型サンプリングの限界を超え,新たな構造発見を可能にする。
- 生成拡散モデルとランダム構造探索を統合した生成構造探索(GSS)を提案。
- GSSは,従来のランダム構造探索に比べて10倍以上のコスト削減を実現した。
- 学習データ外の組成に対しても有効であり,多様な準安定構造を効率的に発見した。
評価の前に最適化:最適化されていないプロンプトによる評価は誤解を招く可能性がある [cs.AI]目的:大規模言語モデルの評価におけるプロンプト最適化の影響
- 言語モデルの性能評価は,より高性能なモデルの開発と選択に不可欠である。
- 既存の評価方法は,モデルごとにプロンプトを最適化せず,静的なテンプレートを使用している。
- モデルごとのプロンプト最適化が評価結果に与える影響を調査し,適切なモデル選択を支援する。
- プロンプト最適化は,モデルのランキングに大きな影響を与えることが明らかになった。
- 評価を行う際には,各モデルに対してプロンプト最適化を実施することが重要である。
- 業界の一般的なプラクティスであるプロンプト最適化を考慮することで,より正確なモデル評価が可能となる。
構造健全性監視のためのグリーン物理情報機械学習モデル [cs.LG]目的:構造健全性監視におけるグリーン物理情報機械学習モデルの環境影響評価
- 構造物の安全性確保は社会基盤維持に不可欠であり,効率的な監視手法が求められている。
- データ不足や環境変化への対応が難しい点が,従来のデータ駆動型機械学習の課題である。
- 物理情報を取り入れることで,データ不足時の予測精度向上と計算コスト削減を目指す。
- 物理情報を取り入れたモデル(グレーボックスモデル)は,データのみから学習するモデル(ブラックボックスモデル)と比較して,環境影響が少ない可能性が示された。
- グレーボックスモデルの高い外挿性能により,実行時間を短縮し,結果として炭素排出量を削減できることが示唆された。
- 構造健全性監視の事例研究を通じて,高性能を維持しつつ計算コストを削減する物理情報モデルの開発が示された。
HAVEN:LLMを用いたUVMテストベンチ合成のためのハイブリッド自動検証エンジン [cs.AR, cs.AI]目的:LLMを活用したUVMテストベンチ合成における検証の自動化
- IC開発において検証は7割を占めるため,効率化が重要である。
- LLMはHDLの学習データが少ないため,正しいコード生成が困難である。
- LLMの弱点を克服し,高精度なUVMテストベンチの自動生成を目指す。
- HAVENはLLMに直接HDLを記述させず,構造化された計画に基づいてテストベンチを生成する。
- プロトコルを意識したDSLにより,高いカバレッジ率を実現し,LLMで追加シーケンスを生成する。
- 19のIPデザインで100%のコンパイル成功率,90.6%のコードカバレッジ,87.9%の機能カバレッジを達成した。
マンニホールドに固定された自己対戦による質問学習:検証可能な推論のためのANCORA [cs.LG, cs.AI, cs.PL]目的:検証可能な問題を生成し,解決し,その結果のフィードバックを人間による監督なしに自己改善に役立てる言語モデルの学習
- 大規模言語モデルの性能向上には,より効果的な学習方法が不可欠である。
- 従来の言語モデル学習は,人間が作成したデータに依存しており,スケーラビリティに限界がある。
- 自己対戦を通じて,言語モデルが自律的に学習し,推論能力を向上させることを目指す。
- ANCORAは,問題を作成するProposerと解決するSolverを交互に行うアンカー化されたカリキュラムフレームワークである。
- Verusにおいて,ANCORAはDafny2Verusのpass@1をSFTベースラインの26.6%から81.5%に向上させた。
- MBPPとHumanEvalのテストにおいても,Dafny2Verusから学習した場合,それぞれ36.2%と17.2%のpass@1を達成した。
継続学習において構造が重要となるのはいつか?次元性が表現の幾何学的形状を形成するタイミング [cs.LG, cs.AI, cs.NE]目的:継続学習システムの表現の再利用に関するトレードオフの構造的分離が影響を与えるタイミングと理由の解明
- 継続学習は,人間の学習能力を模倣する上で重要であり,AIの応用範囲を広げる可能性を秘めている。
- 既存の継続学習システムは,過去の知識を保持しつつ新しい知識を獲得することの難しさ(安定性-可塑性のジレンマ)を抱えている。
- 表現次元性が,構造的分離が機能的に重要となるタイミングを規定する要因であることの検証
- 高次元の表現空間においては,ネットワーク構造は学習にほとんど影響を与えず,複数のタスクが干渉なく学習できることが示された。
- 低次元の表現空間においては,モジュール化されたネットワークは,タスク間の類似性に応じて表現空間の幾何学的構造を動的に変化させることが確認された。
- 表現次元性が,継続学習システムの設計における重要な変数であり,適応的な幾何学的形状がシステム性能に大きく影響することが示唆された。
文脈からスキルへ:言語モデルは文脈から巧みに学習できるか? [cs.DC, cs.AI]目的:文脈学習におけるスキル抽出・改良・選択の自律的フレームワーク
- 現実世界のタスクでは,言語モデルにパラメータ的知識を超える複雑な文脈推論が求められる。
- 長文で専門的な文脈に対する手動アノテーションコストが高いこと,自動スキル構築のための外部フィードバックがないことが課題。
- 人間による監督や外部フィードバックなしで,文脈特有のスキルを自律的に発見・改良・選択する。
- Ctx2Skillは,挑戦者,推論者,審査官による多エージェント自己対戦ループを基盤とする。
- 挑戦者と推論者は蓄積されたスキルを通じて進化し,失敗事例からスキルを合成することで自動的なスキル発見と改良を実現。
- CL-benchの文脈学習タスクにおいて,Ctx2Skillは様々なバックボーンモデルにおいて解答率を向上させた。
表形式ファウンデーションモデルはロボットのポリシー学習における探索を導くことができるか? [cs.RO, cs.LG]目的:ロボットのポリシー学習における探索の改善
- ロボティクスにおける高次元連続制御は課題が多く,効率的な学習手法が求められている。
- 既存手法は局所最適解に陥りやすく,初期値設定に依存する場合が多い。
- ファウンデーションモデルを活用し,少ない試行回数で効率的な探索を実現する。
- 提案手法TFM-S3は,局所探索と大域的探索を組み合わせ,初期段階の収束を加速させる。
- 事前学習済みの表形式ファウンデーションモデルにより,少ない試行回数で候補の報酬を予測し,効率的な探索を可能にする。
- 連続制御ベンチマークにおいて,TFM-S3はTD3や集団ベースラインと比較して,より高い性能を示す。
配電ネットワークの運用と計画における公平性 [cs.AI, cs.SY, eess.SY]目的:配電ネットワークの計画と運用における公平性の概念と指標の整理
- 社会インフラとしての配電ネットワークにおいて,公平性は重要な課題となっている。
- 公平性の実現にはコストがかかり,効率とのトレードオフが生じる場合がある。
- 公平性の概念と指標を整理し,資源配分問題への影響を明らかにすること。
- 本研究は,配電ネットワークにおける公平性の概念と指標を包括的に整理した。
- これらの指標が関係者に与える影響,及び資源配分問題における最適化に及ぼす影響をレビューした。
- これにより,配電ネットワークの運用・計画における一貫性と透明性の向上に貢献する。
ターゲット・イベント・エージェントネットワーク:テキストにおける対象,イベント,行動主体のモデル化 [cs.NI, cs.SY, eess.SY, cs.AI, cs.CY, cs.HC, cs.LG, cs.SI]目的:テキストからの対象,イベント,行動主体抽出
- テキスト分析における感情,意味,構文の理解は,人間行動や社会現象の解明に不可欠である。
- 既存の手法では,テキスト内の複雑な関係性を明確に捉えきれない場合がある。
- 認知ネットワーク科学とAIを融合させ,テキストの構造的特徴を抽出・分析する。
- 陰謀論コーパス分析で,高陰謀論テキストは低陰謀論テキストよりも人称代名詞と行動の関連性が高かった。
- 高陰謀論テキストでは怒りを誘発する行動が強調される傾向があり,低陰謀論テキストでは科学者などの主体が強調された。
- 心理療法トランスクリプト分析で,LLMは人間よりも悲しみを控えめに表現する傾向が示された。
単一のハブテキストがCLIPを破壊する:クロスモーダルエンコーダーの脆弱性をハブネスを通じて特定する [cs.CL, cs.AI, cs.CR, cs.IR]目的:クロスモーダルエンコーダーにおけるハブ埋め込みとそれに対応するハブテキストの特定
- 高次元埋め込み空間において,情報検索や自動評価指標の精度に影響を与えるハブネス問題の存在。
- テキストと画像のクロスモーダル類似度の計算が直接比較困難であり,ハブの存在が脅威となる。
- クロスモーダルエンコーダーの脆弱性を明らかにし,そのハブテキストを特定すること。
- 提案手法により,MSCOCOやnocapsの画像キャプション評価,MSCOCOとFlickr30kの画像からテキスト検索において,単一のハブテキストが特定された。
- 特定されたハブテキストは,多くの画像において人間が記述した参照キャプションと同等以上の類似度スコアを不合理に達成し,クロスモーダルエンコーダーの脆弱性を露呈した。
エージェントが進化すると,制度がそれに追随する [cs.AI]目的:多エージェントシステムにおける集団的組織化の課題解決
- 複雑な社会は常に集団行動の組織化という課題に直面しており,その解決策は文明によって異なる。
- 大規模言語モデルに基づく多エージェントシステムにおいて,個々の知能だけでなく集団的組織化が課題となっている。
- 歴史的制度を参考に,効率性と誤り修正のトレードオフを考慮した多エージェントシステムのアーキテクチャを検証する。
- 歴史的政治制度を多エージェントアーキテクチャとして実装し,3つの大規模言語モデルと2つのベンチマークで評価した結果,ガバナンス構造が集団的パフォーマンスに大きな影響を与えることがわかった。
- 単一のモデル内では,最良の制度と最悪の制度の間に57パーセントポイント以上の差が見られ,最適なアーキテクチャはモデルの能力とタスクの特徴に応じて変化した。
- 集団知能は単一の最適な組織形態ではなく,タスクと能力の進化に合わせて再選択・再構成可能なガバナンスメカニズムによって発展すると示唆された。
CT画像からの腹膜癌指数領域の深層学習に基づくセグメンテーション [cs.CV, cs.AI]目的:腹膜癌指数(rPCI)領域のCT画像における自動セグメンテーション
- 腹膜転移の評価は重要であり,治療方針の決定に影響を与える。
- 現在のsPCIは侵襲的であり,標準化された画像による評価方法がない。
- 画像に基づく非侵襲的なrPCI評価を可能にする自動セグメンテーション手法の開発。
- nnU-Netは,全体でDice係数0.82を達成し,臨床研究者間の合意度(0.88)に近づいた。
- Swin UNETR(0.76)と比較して優れた性能を示したが,右側腹部と小腸領域には課題が残る。
- これらの結果は,自動rPCIセグメンテーションの実現可能性を示し,画像に基づいた評価の基盤となる。
価値と行動の架け橋:自律的具現化エージェントのための階層的フレームワーク [cs.AI]目的:価値と行動を結びつける階層的フレームワークの構築
- 自律エージェントの発展には,長期的な行動や動機付けの衝突解決に不可欠な価値観の枠組みが重要である。
- 既存の具現化エージェントは受動的な指示追従や反応的な欲求充足に限定され,安定した価値観に基づいた行動が不足している。
- 本研究は,自律エージェントが価値観と具体的な行動を繋ぎ,一貫性のある長期的な行動を可能にすることを目指す。
- 提案するValuePlannerは,高次の価値スケジューリングと低次の行動実行を分離する認知アーキテクチャである。
- ValuePlannerはLLMを用いて抽象的な価値のトレードオフを考慮し,実行可能な行動計画を生成する。
- 実験により,ValuePlannerが競合する価値を調整し,指示追従や欲求駆動型ベースラインには見られない一貫性のある自律行動を生み出すことが示された。
文脈的エージェント記憶はメモであり,真の記憶ではない [eess.SY, cs.SY, math.OC, cs.AI, cs.CL]目的:エージェント記憶システムの限界と,真の記憶の必要性
- AIエージェントの能力向上には,記憶の仕組みが不可欠である。単純な検索では限界がある。
- 既存のエージェント記憶システムは,検索に依存しており,真の記憶とは異なる。
- 脳の記憶システムに着想を得て,エージェントの長期学習能力向上を目指す。
- 現在のエージェント記憶システムは,検索による情報取得に過ぎず,経験からの抽象化ができない。
- このため,未知のタスクへの対応能力に限界があり,文脈量や検索精度を向上させても解決しない。
- 脳の海馬と新皮質の連携を模倣することで,エージェントの記憶能力の飛躍的な向上が期待できる。
LLMベースのポリシー準拠推論のための知識グラフ表現 [cs.AI]目的:AIポリシー文書からの知識グラフ構築とポリシー関連情報の検索
- AI技術の急速な普及に伴い,AIリスクへの関心が高まっており,安全・安心なAI利用のための規制や標準策定が急務である。
- AIポリシーは複雑で理解が難しく,AIシステムの開発者が適切なポリシー準拠を確保することが課題となっている。
- AIポリシー文書から知識グラフを構築し,LLMによるポリシー準拠推論の精度向上を目指す。
- 知識グラフの活用は,5つのLLM全てにおいてスコアの向上をもたらした。
- LLMが発見したスキーマは,形式的なオントロジーと同等またはそれ以上の性能を発揮した。
- 知識グラフは,エンティティ検索からクロスポリシー推論まで,6種類の推論タスクにおいて有効であることが示された。
信頼できる医療VQAのための最先端ビジョン言語モデルの監査:根拠の失敗,フォーマット崩壊,ドメイン適応 [cs.AI]目的:最先端ビジョン言語モデルにおける信頼性に関する問題点の特定
- 医療分野におけるAIの活用が進む中で,その安全性と信頼性の確保が重要課題となっている。
- 最先端のビジョン言語モデルは,医療画像に関する質問応答において,誤った判断や不正確な情報を出力する可能性がある。
- 本研究では,医療VQAにおける最先端モデルの信頼性を評価し,その課題を明らかにすることを目的とする。
- 5つの最先端モデルにおいて,解剖学的および病理学的対象の局所化性能が低く,臨床的に危険な左右の識別誤りが見られた。
- 自己接地パイプライン(局所化と応答を同一モデルで行う)は,全てのモデルでVQAの精度を低下させ,特にGeminiとGPT-5でフォーマット遵守の失敗が顕著であった。
- Qwen~2.5~VLを医療VQAデータで教師ありファインチューニングすることで,SLAKEにおけるオープンエンドのリコールが85.5%に向上し,ドメイン適応の有効性を示した。
不均衡な設定における最適遅延 [cs.LG, stat.ML]目的:不均衡な専門家設定における学習遅延の最適化
- 複雑な入力の処理において,専門家へのルーティングは精度と計算コストのバランスを取る上で重要である。
- 既存の予測モデルを利用する二段階学習遅延設定では,専門家の不均衡がパフォーマンス低下の原因となる。
- 専門家の不均衡に対処し,より効果的な学習遅延アルゴリズムを開発することを目指す。
- 提案手法MILDは,画像分類と大規模言語モデルのルーティングにおいて,既存手法を上回る性能を示す。
- 学習遅延損失の最適化を,入力-専門家ドメインにおけるコスト感受性学習問題として捉え,新たな損失関数を導出した。
- コスト感受性学習のためのアルゴリズムを開発し,専門家の不均衡に特化した遅延アルゴリズムを設計した。
医学的質問応答のための反復多Modal検索拡張生成 [cs.AI]目的:医学的質問応答における多Modal検索拡張生成の改善
- 医学知識は膨大であり,その迅速かつ正確な抽出が臨床現場において不可欠である。
- 既存の検索拡張生成システムはテキスト情報に偏り,図表などの視覚情報を活用できていない。
- 視覚情報を含む文書全体を考慮することで,より高精度な質問応答を目指す。
- MED-VRAGは,医学文献のページ画像を直接検索し,視覚情報を活用することで,既存手法を上回る精度を達成した。
- 検索段階で+5.8%の精度向上,MED-VRAGの反復処理による+1.5%の精度向上が確認された。
- 4つの医学QAベンチマークで平均78.6%の正答率を達成し,MedRAG+GPT-4と比較しても+1.8%の優位性を示した。
AgentEconomist:経済学的直観を検証可能な計算実験へと変換するエンドツーエンドエージェントシステム [cs.HC, cs.AI]目的:経済学的直観を検証可能な計算実験に変換するシステム
- 経済学研究において,直観は豊富だが,検証可能な研究へと繋げるのが困難である。
- 直観を具体的な実験に翻訳する過程が煩雑で,時間と労力を要する。
- 経済学者の直観を迅速かつ正確に計算実験へと変換することを可能とする。
- AgentEconomistは,アイデア創出,実験設計,実行という段階を経て,直観から実験への変換を支援する。
- 専門家による評価とLLMによる判断の結果,既存のLLMよりも文献に基づいた斬新なアイデアを生成することが示された。
- 本システムは,研究者が高次の直観に集中し,翻訳や計算実行といった作業をエージェントに委任する人間とAIの協調を実現する。
構造を考慮した一貫性:嗜好学習におけるギャップへの対処 [cs.LG, stat.ML]目的:大規模言語モデルと人間の意図の整合
- 言語モデルの性能向上には,人間の意図との整合が不可欠であるため,嗜好学習が重要視されている。
- 既存の嗜好学習手法は,理論的に一貫性を欠き,汎化性能の保証が不十分であるという課題がある。
- 本研究では,一貫性を重視した新しい学習手法を開発し,言語モデルの汎化性能を向上させることを目指す。
- 本研究では,マージンシフトランキングフレームワークを導入し,厳密な一貫性限界を導出した。
- さらに,応答間の意味的距離に基づいてマージンを適応させるSA-DPOという新しい目的関数を提案した。
- 重い裾を持つ代替損失関数は,DPOで使用されるロジスティック損失よりも優れた一貫性保証を提供することが示された。
微分サブグループ探索:2つの集団が異なる場所と理由の特定 [cs.LG]目的:2つの集団間の特徴空間における差異の特定
- 社会現象や医療分析において,集団間の差異を理解することは重要である。
- 集団レベルでの差異が,特徴空間のどの部分で顕著に現れるか不明である。
- 集団間の差異が生じる構造的な要因を特定することを目指す。
- 提案手法DiffSubは,表形式データから解釈可能な微分サブグループを特定する。
- DiffSubは,集団間の差異が生じる場所と理由を明らかにする。
- 合成ベンチマーク,医療事例,モデルエラー分析,効果検証において有効性が確認された。
線形コアサロゲート:分類と構造化予測のための滑らかな損失関数と線形収束率 [cs.LG, stat.ML]目的:分類および構造化予測における,滑らかさと線形収束率を両立する損失関数の開発
- 機械学習において,損失関数の選択はモデルの性能を左右する重要な要素である。
- 従来の損失関数は,最適化の速度と統計的効率の間でトレードオフが存在した。
- 滑らかさと線形収束率を兼ね備えた新たな損失関数を提案し,その有効性を示す。
- 提案手法である線形コアサロゲートは,微分可能性を保ちつつ,厳密な線形H-一貫性境界を持つことを証明した。
- 構造化予測において,滑らかさにより,正確な推論の二乗の計算量を回避できるバイアスなし確率的勾配推定子を可能にした。
- 大規模語彙シーケンスタグ付けタスクでStructured SVMと比較して23倍の高速化を達成し,CIFAR-10のノイズに対するロバスト性も向上した。
自己教師ありエンコーダが正規性を欲する理由 [cs.IT, cs.AI, cs.LG, math.IT]目的:エンコーダ・デコーダ学習における表現の最適化
- 機械学習において,データから効率的に特徴量を抽出することは,性能向上に不可欠である。
- 自己教師あり学習では,ラベルなしデータからの特徴量抽出が課題となる。
- 情報ボトルネック原理に基づき,効率的な表現学習の理論的枠組みを構築する。
- 情報ボトルネック原理をレート歪み問題として捉え,最適な表現が予測多様体におけるソフトクラスタリングとなることを示した。
- 平坦なディリクレ分布から等方性ガウス分布への変換過程を明らかにし,オーバーヘッドを定量化した。
- 半教師あり学習と自己教師あり学習のための具体的なエンコーダ損失関数を,ミニバッチ周辺を用いて推定した。
デジタルヘルスにおけるAIに対する消費者態度:オーストラリアにおける混合研究法調査 [cs.AI]目的:デジタルヘルスにおけるAIに対する消費者態度
- ヘルスケア分野へのAI導入は進むが,技術力だけでは成功に至らず,消費者の受容度が重要である。
- 既存研究はAIへの抽象的な態度を調査する一方,具体的な事例に対する消費者の反応は不明な点が多い。
- 本研究では,具体的なAI活用事例に対する消費者の受容性,信頼性,リスク認識を明らかにすることを目指す。
- 調査参加者は,AIに対して中程度の楽観と有用性・操作性の高さを示したが,正確性,安全性,データ利用に関する懸念も抱いていた。
- AI生成の相談要約は,質,共感性,有用性において医師作成のものより高く評価された。
- 消費者はAIのコミュニケーション品質と人間の監督を重視しており,技術性能だけでなく,臨床的な監督体制の必要性が示唆された。
LLMベースの生成リスト形式推薦における位置認識ドラフティングによる推論高速化 [cs.IR, cs.AI]目的:LLMベースの生成リスト形式推薦における推論速度向上
- 近年のLLMの発展により,生成リスト形式推薦が注目されている。高速な推論は実用化において不可欠である。
- 既存の推論手法は逐次的な処理となるため,遅延が課題となっている。推論高速化には工夫が必要である。
- 提案手法は,ドラフティングモデルの位置情報を考慮することで,推論速度を向上させることを目指す。
- 提案手法PAD-Recは,項目位置埋め込みとステップ位置埋め込みを用いてドラフティングモデルを強化する。
- 実験の結果,最長3.1倍の推論速度向上,平均5%の速度向上が確認された。推薦品質の低下は軽微である。
- PAD-Recは学習可能であり,既存のドラフティングモデルに容易に統合でき,推論オーバーヘッドも小さい。
デジタルツインとエージェント型AIを用いたリアルタイム交通信号最適化 [cs.AI, cs.ET, cs.MA]目的:交通インフラのデジタルツインを活用し,エージェント型AIによるリアルタイム自律的な意思決定を行う交通信号最適化の枠組み
- 都市交通の効率化は,経済活動の円滑化や環境負荷の低減に不可欠である。
- 従来の交通信号制御は固定パターンや学習ベースであり,リアルタイムの変化への対応が課題であった。
- リアルタイムな交通状況に対応し,待ち時間短縮と交通の流れを改善する。
- 提案手法は,従来の固定時間式や強化学習ベースの手法と比較して,交通信号待ち時間の最小化に貢献する。
- デジタルツインによるシミュレーションとエージェント型AIによる制御により,交通全体の効率が向上する。
- 物理センサーとエッジコンピューティングを活用することで,リアルタイムな交通情報の取得と分析が可能となる。
推論学習:標的知識発見とファジー論理更新によるロバストな画像認識 [cs.CV, cs.AI]目的:画像認識におけるロバスト性の向上
- 深層学習の汎化性能向上には,ドメイン知識の統合が有効である。
- 実世界の画像認識タスクでは,有用な記号知識の特定が困難である。
- タスクからの学習のみで概念を抽出し,知識統合を行うことを目指す。
- 提案手法では,識別器のロジットを調整する微分可能な知識ユニット(DKU)を用いる。
- DKUは,タスククラスと学習された概念間の関係を表現する含意規則を活用する。
- PASCAL-VOC,COCO,MedMNISTデータセットで性能向上が確認された。
Intent2Tx: 自然言語の意図をEthereumトランザクションに変換するLLMのベンチマーク [cs.AI]目的:自然言語の意図をEthereumトランザクションに変換するLLMの性能評価
- Web3技術の発展に伴い,LLMによる自然なインターフェースが求められている。
- 既存のベンチマークは,現実世界の複雑なトランザクションを十分に評価できていない。
- 現実世界のEthereumメインネットのトランザクションに基づいたベンチマークでLLMの性能を評価する。
- Intent2Txベンチマークは,29,921の単一ステップと1,575の複数ステップのインスタンスを含む。
- LLMの規模拡大や検索拡張は論理的な整合性を向上させるものの,分布外の一般化や複数ステップの計画立案は課題である。
- 構文的に正しい出力でも,意図した状態遷移を達成できない場合が多く,実行能力に大きな課題が残る。
アラビア語とその方言における指示による詩の生成 [cs.CL, cs.AI]目的:アラビア語とその方言における指示に基づいた詩の生成能力
- 詩はアラビア語圏の文化において重要な位置を占めており,表現とアイデンティティの媒体である。
- 大規模言語モデルにおけるアラビア語の詩研究は,解釈やメタデータ予測に偏っていた。
- ユーザーの要求に沿ったアラビア語の詩の生成を可能にすることを目的とする。
- 現代標準アラビア語と様々な方言の指示データセットを構築し,詩の作成,修正,継続を可能にした。
- このデータセットで大規模言語モデルをファインチューニングすることで,ユーザーの要件に合致した詩の生成を実現した。
- 自動評価とアラビア語話者による人間評価の両方で,その有効性が確認された。
