mslr_web

  • 説明:

MSLR-WEB は、Microsoft Research によってリリースされた 2 つの大規模な Learning-to-Rank データセットです。最初のデータセット (「30k」と呼ばれる) には 30,000 のクエリが含まれ、2 番目のデータセット (「10k」と呼ばれる) には 10,000 のクエリが含まれます。各データセットは、特徴ベクトルとして表されるクエリとドキュメントのペアと、対応する関連性判断ラベルで構成されます。

データセットの「10k」または「30k」バージョンを使用するかどうか、および対応するフォールドを次のように指定できます。

ds = tfds.load("mslr_web/30k_fold1") 

mslr_webのみが指定されている場合、デフォルトでmslr_web/10k_fold1オプションが選択されます。

# This is the same as `tfds.load("mslr_web/10k_fold1")` ds = tfds.load("mslr_web") 
FeaturesDict({     'doc_id': Tensor(shape=(None,), dtype=int64),     'float_features': Tensor(shape=(None, 136), dtype=float64),     'label': Tensor(shape=(None,), dtype=float64),     'query_id': Text(shape=(), dtype=string), }) 
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
doc_idテンソル(なし、) int64
float_featuresテンソル(なし、136) float64
ラベルテンソル(なし、) float64
query_id文章ストリング
@article{DBLP:journals/corr/QinL13,   author    = {Tao Qin and Tie{-}Yan Liu},   title     = {Introducing {LETOR} 4.0 Datasets},   journal   = {CoRR},   volume    = {abs/1306.2597},   year      = {2013},   url       = {http://arxiv.org/abs/1306.2597},   timestamp = {Mon, 01 Jul 2013 20:31:25 +0200},   biburl    = {http://dblp.uni-trier.de/rec/bib/journals/corr/QinL13},   bibsource = {dblp computer science bibliography, http://dblp.org} } 

mslr_web/10k_fold1 (デフォルト設定)

  • ダウンロードサイズ: 1.15 GiB

  • データセットのサイズ: 310.08 MiB

  • スプリット:

スプリット
'test' 2,000
'train' 6,000
'vali' 2,000

mslr_web/10k_fold2

  • ダウンロードサイズ: 1.15 GiB

  • データセットのサイズ: 310.08 MiB

  • スプリット:

スプリット
'test' 2,000
'train' 6,000
'vali' 2,000

mslr_web/10k_fold3

  • ダウンロードサイズ: 1.15 GiB

  • データセットのサイズ: 310.08 MiB

  • スプリット:

スプリット
'test' 2,000
'train' 6,000
'vali' 2,000

mslr_web/10k_fold4

  • ダウンロードサイズ: 1.15 GiB

  • データセットのサイズ: 310.08 MiB

  • スプリット:

スプリット
'test' 2,000
'train' 6,000
'vali' 2,000

mslr_web/10k_fold5

  • ダウンロードサイズ: 1.15 GiB

  • データセットのサイズ: 310.08 MiB

  • スプリット:

スプリット
'test' 2,000
'train' 6,000
'vali' 2,000

mslr_web/30k_fold1

  • ダウンロードサイズ: 3.59 GiB

  • データセットサイズ: 964.09 MiB

  • スプリット:

スプリット
'test' 6,306
'train' 18,919
'vali' 6,306

mslr_web/30k_fold2

  • ダウンロードサイズ: 3.59 GiB

  • データセットサイズ: 964.09 MiB

  • スプリット:

スプリット
'test' 6,307
'train' 18,918
'vali' 6,306

mslr_web/30k_fold3

  • ダウンロードサイズ: 3.59 GiB

  • データセットサイズ: 964.09 MiB

  • スプリット:

スプリット
'test' 6,306
'train' 18,918
'vali' 6,307

mslr_web/30k_fold4

  • ダウンロードサイズ: 3.59 GiB

  • データセットサイズ: 964.09 MiB

  • スプリット:

スプリット
'test' 6,306
'train' 18,919
'vali' 6,306

mslr_web/30k_fold5

  • ダウンロードサイズ: 3.59 GiB

  • データセットサイズ: 964.09 MiB

  • スプリット:

スプリット
'test' 6,306
'train' 18,919
'vali' 6,306