[🐛BUG] 采用 benchmark_filename 之后不会对 train, valid, test 数据集中的数据进行 shuffle 吗? #2076

taolinzhang · 2024-08-22T04:35:20Z

Lines 1755 to 1767 in 2b6e209

    
           if self.benchmark_filename_list is not None: 
        
               self._drop_unused_col() 
        
               cumsum = list(np.cumsum(self.file_size_list)) 
        
               datasets = [ 
        
                   self.copy(self.inter_feat[start:end]) 
        
                   for start, end in zip([0] + cumsum[:-1], cumsum) 
        
               ] 
        
               return datasets 
        
           # ordering 
        
           ordering_args = self.config["eval_args"]["order"] 
        
           if ordering_args == "RO": 
        
               self.shuffle()

这里 shuffle 操作只在不使用 benchmark_filename_list 以及 ordering_args == "RO" 时候才会进行.
所以使用 benchmark_filename_list 自定义 split 后, 由于没有 shuffle 导致了性能下降.

zhengbw0324 · 2024-08-27T14:23:24Z

@iridescentttt
您好！使用benchmark_filename后，我们不会在dataset中对数据进行shuffle，防止破坏数据划分界限。但在训练中，使用的是Pytorch的dataloader，会将训练数据进行shuffle。

RecBole/recbole/data/utils.py

Lines 174 to 176 in 2b6e209

    
           train_data = get_dataloader(config, "train")( 
        
               config, train_dataset, train_sampler, shuffle=config["shuffle"] 
        
           )

taolinzhang added the bug Something isn't working label Aug 22, 2024

zhengbw0324 self-assigned this Aug 27, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[🐛BUG] 采用 benchmark_filename 之后不会对 train, valid, test 数据集中的数据进行 shuffle 吗? #2076

[🐛BUG] 采用 benchmark_filename 之后不会对 train, valid, test 数据集中的数据进行 shuffle 吗? #2076

taolinzhang commented Aug 22, 2024

zhengbw0324 commented Aug 27, 2024 •

edited

Loading

[🐛BUG] 采用 benchmark_filename 之后不会对 train, valid, test 数据集中的数据进行 shuffle 吗? #2076

[🐛BUG] 采用 benchmark_filename 之后不会对 train, valid, test 数据集中的数据进行 shuffle 吗? #2076

Comments

taolinzhang commented Aug 22, 2024

zhengbw0324 commented Aug 27, 2024 • edited Loading

zhengbw0324 commented Aug 27, 2024 •

edited

Loading