Science-Expert-R1 / trainer_state.json

Upload folder using huggingface_hub

35498a0 verified 4 months ago

36.5 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.9714285714285715,
	"eval_steps": 500,
	"global_step": 104,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.01904761904761905,
	"grad_norm": 1710495.2036469786,
	"learning_rate": 0.0,
	"loss": 1.3566,
	"memory/device_reserved (GiB)": 126.71,
	"memory/max_active (GiB)": 124.13,
	"memory/max_allocated (GiB)": 122.77,
	"step": 1,
	"tokens_per_second_per_gpu": 3497.88
	},
	{
	"epoch": 0.0380952380952381,
	"grad_norm": 1558119.299961758,
	"learning_rate": 8e-07,
	"loss": 1.3538,
	"memory/device_reserved (GiB)": 126.73,
	"memory/max_active (GiB)": 124.18,
	"memory/max_allocated (GiB)": 122.82,
	"step": 2,
	"tokens_per_second_per_gpu": 3711.34
	},
	{
	"epoch": 0.05714285714285714,
	"grad_norm": 4186.518498313145,
	"learning_rate": 1.6e-06,
	"loss": 1.3529,
	"memory/device_reserved (GiB)": 126.73,
	"memory/max_active (GiB)": 124.18,
	"memory/max_allocated (GiB)": 122.82,
	"step": 3,
	"tokens_per_second_per_gpu": 3869.09
	},
	{
	"epoch": 0.0761904761904762,
	"grad_norm": 1230.1393406412694,
	"learning_rate": 2.4e-06,
	"loss": 1.3622,
	"memory/device_reserved (GiB)": 127.34,
	"memory/max_active (GiB)": 124.96,
	"memory/max_allocated (GiB)": 122.82,
	"step": 4,
	"tokens_per_second_per_gpu": 3629.53
	},
	{
	"epoch": 0.09523809523809523,
	"grad_norm": 1035.6723923215748,
	"learning_rate": 3.2e-06,
	"loss": 1.3487,
	"memory/device_reserved (GiB)": 127.34,
	"memory/max_active (GiB)": 124.99,
	"memory/max_allocated (GiB)": 122.82,
	"step": 5,
	"tokens_per_second_per_gpu": 3634.6
	},
	{
	"epoch": 0.11428571428571428,
	"grad_norm": 432.5460621726683,
	"learning_rate": 4e-06,
	"loss": 1.3432,
	"memory/device_reserved (GiB)": 127.34,
	"memory/max_active (GiB)": 124.99,
	"memory/max_allocated (GiB)": 122.82,
	"step": 6,
	"tokens_per_second_per_gpu": 3776.49
	},
	{
	"epoch": 0.13333333333333333,
	"grad_norm": 1638.0331848931094,
	"learning_rate": 4.8e-06,
	"loss": 1.3677,
	"memory/device_reserved (GiB)": 127.34,
	"memory/max_active (GiB)": 124.99,
	"memory/max_allocated (GiB)": 122.82,
	"step": 7,
	"tokens_per_second_per_gpu": 3647.88
	},
	{
	"epoch": 0.1523809523809524,
	"grad_norm": 2883.046779503214,
	"learning_rate": 5.6e-06,
	"loss": 1.3444,
	"memory/device_reserved (GiB)": 127.34,
	"memory/max_active (GiB)": 124.99,
	"memory/max_allocated (GiB)": 122.82,
	"step": 8,
	"tokens_per_second_per_gpu": 3677.14
	},
	{
	"epoch": 0.17142857142857143,
	"grad_norm": 478.1216745871938,
	"learning_rate": 6.4e-06,
	"loss": 1.3305,
	"memory/device_reserved (GiB)": 127.34,
	"memory/max_active (GiB)": 124.18,
	"memory/max_allocated (GiB)": 122.82,
	"step": 9,
	"tokens_per_second_per_gpu": 3739.63
	},
	{
	"epoch": 0.19047619047619047,
	"grad_norm": 1025.7505155071237,
	"learning_rate": 7.2e-06,
	"loss": 1.3362,
	"memory/device_reserved (GiB)": 127.34,
	"memory/max_active (GiB)": 124.18,
	"memory/max_allocated (GiB)": 122.82,
	"step": 10,
	"tokens_per_second_per_gpu": 3730.56
	},
	{
	"epoch": 0.20952380952380953,
	"grad_norm": 1209.6274892436668,
	"learning_rate": 8e-06,
	"loss": 1.3325,
	"memory/device_reserved (GiB)": 127.34,
	"memory/max_active (GiB)": 124.99,
	"memory/max_allocated (GiB)": 122.82,
	"step": 11,
	"tokens_per_second_per_gpu": 3661.21
	},
	{
	"epoch": 0.22857142857142856,
	"grad_norm": 1213.936189837833,
	"learning_rate": 7.997766254921018e-06,
	"loss": 1.3575,
	"memory/device_reserved (GiB)": 127.34,
	"memory/max_active (GiB)": 124.99,
	"memory/max_allocated (GiB)": 122.82,
	"step": 12,
	"tokens_per_second_per_gpu": 3716.18
	},
	{
	"epoch": 0.24761904761904763,
	"grad_norm": 942.8786617202861,
	"learning_rate": 7.991067514492613e-06,
	"loss": 1.3145,
	"memory/device_reserved (GiB)": 127.34,
	"memory/max_active (GiB)": 124.99,
	"memory/max_allocated (GiB)": 122.82,
	"step": 13,
	"tokens_per_second_per_gpu": 3587.32
	},
	{
	"epoch": 0.26666666666666666,
	"grad_norm": 3603.68277269405,
	"learning_rate": 7.979911260354016e-06,
	"loss": 1.3402,
	"memory/device_reserved (GiB)": 127.34,
	"memory/max_active (GiB)": 124.99,
	"memory/max_allocated (GiB)": 122.82,
	"step": 14,
	"tokens_per_second_per_gpu": 3712.99
	},
	{
	"epoch": 0.2857142857142857,
	"grad_norm": 2487.402838754216,
	"learning_rate": 7.96430995261912e-06,
	"loss": 1.2956,
	"memory/device_reserved (GiB)": 127.34,
	"memory/max_active (GiB)": 124.18,
	"memory/max_allocated (GiB)": 122.82,
	"step": 15,
	"tokens_per_second_per_gpu": 3762.61
	},
	{
	"epoch": 0.3047619047619048,
	"grad_norm": 667.5903281250161,
	"learning_rate": 7.944281015960114e-06,
	"loss": 1.2992,
	"memory/device_reserved (GiB)": 127.34,
	"memory/max_active (GiB)": 124.99,
	"memory/max_allocated (GiB)": 122.82,
	"step": 16,
	"tokens_per_second_per_gpu": 3358.5
	},
	{
	"epoch": 0.3238095238095238,
	"grad_norm": 167.9027323688511,
	"learning_rate": 7.919846820146347e-06,
	"loss": 1.3119,
	"memory/device_reserved (GiB)": 127.34,
	"memory/max_active (GiB)": 124.18,
	"memory/max_allocated (GiB)": 122.82,
	"step": 17,
	"tokens_per_second_per_gpu": 3675.6
	},
	{
	"epoch": 0.34285714285714286,
	"grad_norm": 47.46189855084341,
	"learning_rate": 7.891034655060149e-06,
	"loss": 1.302,
	"memory/device_reserved (GiB)": 127.34,
	"memory/max_active (GiB)": 124.18,
	"memory/max_allocated (GiB)": 122.82,
	"step": 18,
	"tokens_per_second_per_gpu": 3754.58
	},
	{
	"epoch": 0.3619047619047619,
	"grad_norm": 115.37054783431222,
	"learning_rate": 7.857876700217507e-06,
	"loss": 1.3066,
	"memory/device_reserved (GiB)": 127.34,
	"memory/max_active (GiB)": 124.18,
	"memory/max_allocated (GiB)": 122.82,
	"step": 19,
	"tokens_per_second_per_gpu": 3763.17
	},
	{
	"epoch": 0.38095238095238093,
	"grad_norm": 72.03472195336599,
	"learning_rate": 7.820409988827649e-06,
	"loss": 1.2876,
	"memory/device_reserved (GiB)": 127.34,
	"memory/max_active (GiB)": 124.99,
	"memory/max_allocated (GiB)": 122.82,
	"step": 20,
	"tokens_per_second_per_gpu": 3750.15
	},
	{
	"epoch": 0.4,
	"grad_norm": 123.88987560365385,
	"learning_rate": 7.778676366431674e-06,
	"loss": 1.2854,
	"memory/device_reserved (GiB)": 127.34,
	"memory/max_active (GiB)": 124.99,
	"memory/max_allocated (GiB)": 122.82,
	"step": 21,
	"tokens_per_second_per_gpu": 3556.91
	},
	{
	"epoch": 0.41904761904761906,
	"grad_norm": 36.51030416393311,
	"learning_rate": 7.73272244416641e-06,
	"loss": 1.2799,
	"memory/device_reserved (GiB)": 127.34,
	"memory/max_active (GiB)": 124.18,
	"memory/max_allocated (GiB)": 122.82,
	"step": 22,
	"tokens_per_second_per_gpu": 3627.03
	},
	{
	"epoch": 0.4380952380952381,
	"grad_norm": 37.445205147197846,
	"learning_rate": 7.682599546705715e-06,
	"loss": 1.2835,
	"memory/device_reserved (GiB)": 127.34,
	"memory/max_active (GiB)": 124.18,
	"memory/max_allocated (GiB)": 122.82,
	"step": 23,
	"tokens_per_second_per_gpu": 3604.91
	},
	{
	"epoch": 0.45714285714285713,
	"grad_norm": 39.93974794828826,
	"learning_rate": 7.628363654937363e-06,
	"loss": 1.2947,
	"memory/device_reserved (GiB)": 127.34,
	"memory/max_active (GiB)": 124.18,
	"memory/max_allocated (GiB)": 122.82,
	"step": 24,
	"tokens_per_second_per_gpu": 3782.86
	},
	{
	"epoch": 0.47619047619047616,
	"grad_norm": 59.41355630536809,
	"learning_rate": 7.570075343439524e-06,
	"loss": 1.2702,
	"memory/device_reserved (GiB)": 127.34,
	"memory/max_active (GiB)": 124.99,
	"memory/max_allocated (GiB)": 122.82,
	"step": 25,
	"tokens_per_second_per_gpu": 3694.52
	},
	{
	"epoch": 0.49523809523809526,
	"grad_norm": 34.32373819297229,
	"learning_rate": 7.507799712826686e-06,
	"loss": 1.2984,
	"memory/device_reserved (GiB)": 127.34,
	"memory/max_active (GiB)": 124.18,
	"memory/max_allocated (GiB)": 122.82,
	"step": 26,
	"tokens_per_second_per_gpu": 3613.01
	},
	{
	"epoch": 0.5142857142857142,
	"grad_norm": 21.68779916764309,
	"learning_rate": 7.441606317040558e-06,
	"loss": 1.2827,
	"memory/device_reserved (GiB)": 127.34,
	"memory/max_active (GiB)": 124.99,
	"memory/max_allocated (GiB)": 122.82,
	"step": 27,
	"tokens_per_second_per_gpu": 3616.18
	},
	{
	"epoch": 0.5333333333333333,
	"grad_norm": 30.472648556953168,
	"learning_rate": 7.371569085667188e-06,
	"loss": 1.2801,
	"memory/device_reserved (GiB)": 127.34,
	"memory/max_active (GiB)": 124.18,
	"memory/max_allocated (GiB)": 122.82,
	"step": 28,
	"tokens_per_second_per_gpu": 3754.99
	},
	{
	"epoch": 0.5523809523809524,
	"grad_norm": 19.319274693345776,
	"learning_rate": 7.297766241367041e-06,
	"loss": 1.2693,
	"memory/device_reserved (GiB)": 127.34,
	"memory/max_active (GiB)": 124.99,
	"memory/max_allocated (GiB)": 122.82,
	"step": 29,
	"tokens_per_second_per_gpu": 3677.68
	},
	{
	"epoch": 0.5714285714285714,
	"grad_norm": 34.31430237097932,
	"learning_rate": 7.220280212510252e-06,
	"loss": 1.2581,
	"memory/device_reserved (GiB)": 127.34,
	"memory/max_active (GiB)": 124.18,
	"memory/max_allocated (GiB)": 122.82,
	"step": 30,
	"tokens_per_second_per_gpu": 3730.31
	},
	{
	"epoch": 0.5904761904761905,
	"grad_norm": 82.8518096206661,
	"learning_rate": 7.139197541114644e-06,
	"loss": 1.2687,
	"memory/device_reserved (GiB)": 127.34,
	"memory/max_active (GiB)": 124.18,
	"memory/max_allocated (GiB)": 122.82,
	"step": 31,
	"tokens_per_second_per_gpu": 3650.37
	},
	{
	"epoch": 0.6095238095238096,
	"grad_norm": 36.99675013730897,
	"learning_rate": 7.0546087861893285e-06,
	"loss": 1.2809,
	"memory/device_reserved (GiB)": 127.34,
	"memory/max_active (GiB)": 124.18,
	"memory/max_allocated (GiB)": 122.82,
	"step": 32,
	"tokens_per_second_per_gpu": 3785.35
	},
	{
	"epoch": 0.6285714285714286,
	"grad_norm": 10.853195813384238,
	"learning_rate": 6.96660842259183e-06,
	"loss": 1.253,
	"memory/device_reserved (GiB)": 127.34,
	"memory/max_active (GiB)": 124.18,
	"memory/max_allocated (GiB)": 122.82,
	"step": 33,
	"tokens_per_second_per_gpu": 3666.64
	},
	{
	"epoch": 0.6476190476190476,
	"grad_norm": 27.05353511161411,
	"learning_rate": 6.875294735511717e-06,
	"loss": 1.2601,
	"memory/device_reserved (GiB)": 127.34,
	"memory/max_active (GiB)": 124.18,
	"memory/max_allocated (GiB)": 122.82,
	"step": 34,
	"tokens_per_second_per_gpu": 3808.86
	},
	{
	"epoch": 0.6666666666666666,
	"grad_norm": 11.079685605370564,
	"learning_rate": 6.780769710698569e-06,
	"loss": 1.2539,
	"memory/device_reserved (GiB)": 127.34,
	"memory/max_active (GiB)": 124.99,
	"memory/max_allocated (GiB)": 122.82,
	"step": 35,
	"tokens_per_second_per_gpu": 3708.96
	},
	{
	"epoch": 0.6857142857142857,
	"grad_norm": 35.34021537624741,
	"learning_rate": 6.683138920556894e-06,
	"loss": 1.2362,
	"memory/device_reserved (GiB)": 127.34,
	"memory/max_active (GiB)": 124.18,
	"memory/max_allocated (GiB)": 122.82,
	"step": 36,
	"tokens_per_second_per_gpu": 3819.32
	},
	{
	"epoch": 0.7047619047619048,
	"grad_norm": 47.246402607795154,
	"learning_rate": 6.582511406235209e-06,
	"loss": 1.2429,
	"memory/device_reserved (GiB)": 127.34,
	"memory/max_active (GiB)": 124.18,
	"memory/max_allocated (GiB)": 122.82,
	"step": 37,
	"tokens_per_second_per_gpu": 3762.22
	},
	{
	"epoch": 0.7238095238095238,
	"grad_norm": 35.65219209343969,
	"learning_rate": 6.4789995558409795e-06,
	"loss": 1.2535,
	"memory/device_reserved (GiB)": 127.34,
	"memory/max_active (GiB)": 124.18,
	"memory/max_allocated (GiB)": 122.82,
	"step": 38,
	"tokens_per_second_per_gpu": 3496.79
	},
	{
	"epoch": 0.7428571428571429,
	"grad_norm": 13.147263166038922,
	"learning_rate": 6.3727189789174205e-06,
	"loss": 1.2421,
	"memory/device_reserved (GiB)": 127.34,
	"memory/max_active (GiB)": 124.99,
	"memory/max_allocated (GiB)": 122.82,
	"step": 39,
	"tokens_per_second_per_gpu": 3471.55
	},
	{
	"epoch": 0.7619047619047619,
	"grad_norm": 8.92693366901581,
	"learning_rate": 6.263788377322381e-06,
	"loss": 1.2587,
	"memory/device_reserved (GiB)": 127.34,
	"memory/max_active (GiB)": 124.18,
	"memory/max_allocated (GiB)": 122.82,
	"step": 40,
	"tokens_per_second_per_gpu": 3700.61
	},
	{
	"epoch": 0.780952380952381,
	"grad_norm": 25.621463437533773,
	"learning_rate": 6.152329412653491e-06,
	"loss": 1.2535,
	"memory/device_reserved (GiB)": 127.34,
	"memory/max_active (GiB)": 124.18,
	"memory/max_allocated (GiB)": 122.82,
	"step": 41,
	"tokens_per_second_per_gpu": 3696.17
	},
	{
	"epoch": 0.8,
	"grad_norm": 21.356947105637357,
	"learning_rate": 6.038466570367669e-06,
	"loss": 1.2437,
	"memory/device_reserved (GiB)": 127.34,
	"memory/max_active (GiB)": 124.18,
	"memory/max_allocated (GiB)": 122.82,
	"step": 42,
	"tokens_per_second_per_gpu": 3679.52
	},
	{
	"epoch": 0.819047619047619,
	"grad_norm": 21.528748134497796,
	"learning_rate": 5.922327020746735e-06,
	"loss": 1.2243,
	"memory/device_reserved (GiB)": 127.34,
	"memory/max_active (GiB)": 124.99,
	"memory/max_allocated (GiB)": 122.82,
	"step": 43,
	"tokens_per_second_per_gpu": 3654.06
	},
	{
	"epoch": 0.8380952380952381,
	"grad_norm": 14.734257530424147,
	"learning_rate": 5.804040476864407e-06,
	"loss": 1.2326,
	"memory/device_reserved (GiB)": 127.34,
	"memory/max_active (GiB)": 124.99,
	"memory/max_allocated (GiB)": 122.82,
	"step": 44,
	"tokens_per_second_per_gpu": 3581.66
	},
	{
	"epoch": 0.8571428571428571,
	"grad_norm": 13.129280834101875,
	"learning_rate": 5.68373904971334e-06,
	"loss": 1.2442,
	"memory/device_reserved (GiB)": 127.34,
	"memory/max_active (GiB)": 124.18,
	"memory/max_allocated (GiB)": 122.82,
	"step": 45,
	"tokens_per_second_per_gpu": 3788.2
	},
	{
	"epoch": 0.8761904761904762,
	"grad_norm": 14.976302382446457,
	"learning_rate": 5.561557100653979e-06,
	"loss": 1.2486,
	"memory/device_reserved (GiB)": 127.34,
	"memory/max_active (GiB)": 124.18,
	"memory/max_allocated (GiB)": 122.82,
	"step": 46,
	"tokens_per_second_per_gpu": 3636.88
	},
	{
	"epoch": 0.8952380952380953,
	"grad_norm": 15.967232506668388,
	"learning_rate": 5.43763109135005e-06,
	"loss": 1.2338,
	"memory/device_reserved (GiB)": 127.34,
	"memory/max_active (GiB)": 124.18,
	"memory/max_allocated (GiB)": 122.82,
	"step": 47,
	"tokens_per_second_per_gpu": 3759.31
	},
	{
	"epoch": 0.9142857142857143,
	"grad_norm": 16.354797247719976,
	"learning_rate": 5.312099431358276e-06,
	"loss": 1.2413,
	"memory/device_reserved (GiB)": 127.34,
	"memory/max_active (GiB)": 124.18,
	"memory/max_allocated (GiB)": 122.82,
	"step": 48,
	"tokens_per_second_per_gpu": 3663.89
	},
	{
	"epoch": 0.9333333333333333,
	"grad_norm": 6.665663198954394,
	"learning_rate": 5.185102323542536e-06,
	"loss": 1.2395,
	"memory/device_reserved (GiB)": 127.34,
	"memory/max_active (GiB)": 124.18,
	"memory/max_allocated (GiB)": 122.82,
	"step": 49,
	"tokens_per_second_per_gpu": 3727.2
	},
	{
	"epoch": 0.9523809523809523,
	"grad_norm": 9.1334624753648,
	"learning_rate": 5.056781607485144e-06,
	"loss": 1.2268,
	"memory/device_reserved (GiB)": 127.34,
	"memory/max_active (GiB)": 124.18,
	"memory/max_allocated (GiB)": 122.82,
	"step": 50,
	"tokens_per_second_per_gpu": 3870.66
	},
	{
	"epoch": 0.9714285714285714,
	"grad_norm": 17.527340590112377,
	"learning_rate": 4.927280601070113e-06,
	"loss": 1.2248,
	"memory/device_reserved (GiB)": 127.34,
	"memory/max_active (GiB)": 124.99,
	"memory/max_allocated (GiB)": 122.82,
	"step": 51,
	"tokens_per_second_per_gpu": 3582.22
	},
	{
	"epoch": 0.9904761904761905,
	"grad_norm": 19.222165420352905,
	"learning_rate": 4.796743940415344e-06,
	"loss": 1.2254,
	"memory/device_reserved (GiB)": 127.34,
	"memory/max_active (GiB)": 124.18,
	"memory/max_allocated (GiB)": 122.82,
	"step": 52,
	"tokens_per_second_per_gpu": 3727.73
	},
	{
	"epoch": 1.0,
	"grad_norm": 16.84364160949164,
	"learning_rate": 4.66531741833252e-06,
	"loss": 1.242,
	"memory/device_reserved (GiB)": 127.34,
	"memory/max_active (GiB)": 124.17,
	"memory/max_allocated (GiB)": 122.81,
	"step": 53,
	"tokens_per_second_per_gpu": 3750.91
	},
	{
	"epoch": 1.019047619047619,
	"grad_norm": 25.10526965511846,
	"learning_rate": 4.533147821495116e-06,
	"loss": 1.2426,
	"memory/device_reserved (GiB)": 127.34,
	"memory/max_active (GiB)": 124.18,
	"memory/max_allocated (GiB)": 122.82,
	"step": 54,
	"tokens_per_second_per_gpu": 3667.97
	},
	{
	"epoch": 1.0380952380952382,
	"grad_norm": 24.822314802816855,
	"learning_rate": 4.400382766496394e-06,
	"loss": 1.2394,
	"memory/device_reserved (GiB)": 127.34,
	"memory/max_active (GiB)": 124.18,
	"memory/max_allocated (GiB)": 122.82,
	"step": 55,
	"tokens_per_second_per_gpu": 3712.75
	},
	{
	"epoch": 1.0571428571428572,
	"grad_norm": 19.222938204469422,
	"learning_rate": 4.267170534980487e-06,
	"loss": 1.2269,
	"memory/device_reserved (GiB)": 127.34,
	"memory/max_active (GiB)": 124.18,
	"memory/max_allocated (GiB)": 122.82,
	"step": 56,
	"tokens_per_second_per_gpu": 3874.53
	},
	{
	"epoch": 1.0761904761904761,
	"grad_norm": 14.962813195503772,
	"learning_rate": 4.133659908030698e-06,
	"loss": 1.233,
	"memory/device_reserved (GiB)": 127.34,
	"memory/max_active (GiB)": 124.99,
	"memory/max_allocated (GiB)": 122.82,
	"step": 57,
	"tokens_per_second_per_gpu": 3626.61
	},
	{
	"epoch": 1.0952380952380953,
	"grad_norm": 23.099619927044888,
	"learning_rate": 4e-06,
	"loss": 1.2353,
	"memory/device_reserved (GiB)": 127.34,
	"memory/max_active (GiB)": 124.99,
	"memory/max_allocated (GiB)": 122.82,
	"step": 58,
	"tokens_per_second_per_gpu": 3631.82
	},
	{
	"epoch": 1.1142857142857143,
	"grad_norm": 14.683578827379744,
	"learning_rate": 3.8663400919693026e-06,
	"loss": 1.2261,
	"memory/device_reserved (GiB)": 127.34,
	"memory/max_active (GiB)": 124.99,
	"memory/max_allocated (GiB)": 122.82,
	"step": 59,
	"tokens_per_second_per_gpu": 3778.88
	},
	{
	"epoch": 1.1333333333333333,
	"grad_norm": 1363.244724375689,
	"learning_rate": 3.7328294650195136e-06,
	"loss": 1.2448,
	"memory/device_reserved (GiB)": 127.34,
	"memory/max_active (GiB)": 124.99,
	"memory/max_allocated (GiB)": 122.82,
	"step": 60,
	"tokens_per_second_per_gpu": 3648.86
	},
	{
	"epoch": 1.1523809523809523,
	"grad_norm": 37.56736283967858,
	"learning_rate": 3.5996172335036064e-06,
	"loss": 1.2134,
	"memory/device_reserved (GiB)": 127.34,
	"memory/max_active (GiB)": 124.18,
	"memory/max_allocated (GiB)": 122.82,
	"step": 61,
	"tokens_per_second_per_gpu": 3680.45
	},
	{
	"epoch": 1.1714285714285715,
	"grad_norm": 24.14759116678243,
	"learning_rate": 3.4668521785048856e-06,
	"loss": 1.2201,
	"memory/device_reserved (GiB)": 127.34,
	"memory/max_active (GiB)": 124.18,
	"memory/max_allocated (GiB)": 122.82,
	"step": 62,
	"tokens_per_second_per_gpu": 3742.93
	},
	{
	"epoch": 1.1904761904761905,
	"grad_norm": 20.895518933622306,
	"learning_rate": 3.3346825816674796e-06,
	"loss": 1.2248,
	"memory/device_reserved (GiB)": 127.34,
	"memory/max_active (GiB)": 124.18,
	"memory/max_allocated (GiB)": 122.82,
	"step": 63,
	"tokens_per_second_per_gpu": 3729.87
	},
	{
	"epoch": 1.2095238095238094,
	"grad_norm": 20.07417789192824,
	"learning_rate": 3.2032560595846563e-06,
	"loss": 1.2253,
	"memory/device_reserved (GiB)": 127.34,
	"memory/max_active (GiB)": 124.99,
	"memory/max_allocated (GiB)": 122.82,
	"step": 64,
	"tokens_per_second_per_gpu": 3664.34
	},
	{
	"epoch": 1.2285714285714286,
	"grad_norm": 14.61511907498168,
	"learning_rate": 3.0727193989298864e-06,
	"loss": 1.241,
	"memory/device_reserved (GiB)": 127.34,
	"memory/max_active (GiB)": 124.99,
	"memory/max_allocated (GiB)": 122.82,
	"step": 65,
	"tokens_per_second_per_gpu": 3721.56
	},
	{
	"epoch": 1.2476190476190476,
	"grad_norm": 18.1080641996899,
	"learning_rate": 2.943218392514856e-06,
	"loss": 1.2027,
	"memory/device_reserved (GiB)": 127.34,
	"memory/max_active (GiB)": 124.99,
	"memory/max_allocated (GiB)": 122.82,
	"step": 66,
	"tokens_per_second_per_gpu": 3589.14
	},
	{
	"epoch": 1.2666666666666666,
	"grad_norm": 88.35410261817876,
	"learning_rate": 2.8148976764574643e-06,
	"loss": 1.221,
	"memory/device_reserved (GiB)": 127.42,
	"memory/max_active (GiB)": 124.99,
	"memory/max_allocated (GiB)": 122.82,
	"step": 67,
	"tokens_per_second_per_gpu": 3718.05
	},
	{
	"epoch": 1.2857142857142856,
	"grad_norm": 23.72041286077318,
	"learning_rate": 2.6879005686417232e-06,
	"loss": 1.2172,
	"memory/device_reserved (GiB)": 127.42,
	"memory/max_active (GiB)": 124.18,
	"memory/max_allocated (GiB)": 122.82,
	"step": 68,
	"tokens_per_second_per_gpu": 3764.91
	},
	{
	"epoch": 1.3047619047619048,
	"grad_norm": 43.54234028579835,
	"learning_rate": 2.5623689086499492e-06,
	"loss": 1.2326,
	"memory/device_reserved (GiB)": 127.42,
	"memory/max_active (GiB)": 124.99,
	"memory/max_allocated (GiB)": 122.82,
	"step": 69,
	"tokens_per_second_per_gpu": 3359.73
	},
	{
	"epoch": 1.3238095238095238,
	"grad_norm": 6.104685395227184,
	"learning_rate": 2.4384428993460207e-06,
	"loss": 1.2427,
	"memory/device_reserved (GiB)": 127.42,
	"memory/max_active (GiB)": 124.18,
	"memory/max_allocated (GiB)": 122.82,
	"step": 70,
	"tokens_per_second_per_gpu": 3681.16
	},
	{
	"epoch": 1.342857142857143,
	"grad_norm": 9.963394838549585,
	"learning_rate": 2.3162609502866607e-06,
	"loss": 1.2322,
	"memory/device_reserved (GiB)": 127.42,
	"memory/max_active (GiB)": 124.18,
	"memory/max_allocated (GiB)": 122.82,
	"step": 71,
	"tokens_per_second_per_gpu": 3753.07
	},
	{
	"epoch": 1.361904761904762,
	"grad_norm": 43.43949979845249,
	"learning_rate": 2.195959523135592e-06,
	"loss": 1.2383,
	"memory/device_reserved (GiB)": 127.42,
	"memory/max_active (GiB)": 124.18,
	"memory/max_allocated (GiB)": 122.82,
	"step": 72,
	"tokens_per_second_per_gpu": 3764.97
	},
	{
	"epoch": 1.380952380952381,
	"grad_norm": 14.107017331391786,
	"learning_rate": 2.077672979253265e-06,
	"loss": 1.2225,
	"memory/device_reserved (GiB)": 127.42,
	"memory/max_active (GiB)": 124.99,
	"memory/max_allocated (GiB)": 122.82,
	"step": 73,
	"tokens_per_second_per_gpu": 3751.34
	},
	{
	"epoch": 1.4,
	"grad_norm": 10.549323906590455,
	"learning_rate": 1.96153342963233e-06,
	"loss": 1.2214,
	"memory/device_reserved (GiB)": 127.42,
	"memory/max_active (GiB)": 124.99,
	"memory/max_allocated (GiB)": 122.82,
	"step": 74,
	"tokens_per_second_per_gpu": 3559.51
	},
	{
	"epoch": 1.4190476190476191,
	"grad_norm": 18.592940657981064,
	"learning_rate": 1.8476705873465096e-06,
	"loss": 1.2171,
	"memory/device_reserved (GiB)": 127.42,
	"memory/max_active (GiB)": 124.18,
	"memory/max_allocated (GiB)": 122.82,
	"step": 75,
	"tokens_per_second_per_gpu": 3629.78
	},
	{
	"epoch": 1.438095238095238,
	"grad_norm": 11.120257290964485,
	"learning_rate": 1.7362116226776187e-06,
	"loss": 1.2226,
	"memory/device_reserved (GiB)": 127.42,
	"memory/max_active (GiB)": 124.18,
	"memory/max_allocated (GiB)": 122.82,
	"step": 76,
	"tokens_per_second_per_gpu": 3603.12
	},
	{
	"epoch": 1.457142857142857,
	"grad_norm": 7.078043688121306,
	"learning_rate": 1.627281021082579e-06,
	"loss": 1.2345,
	"memory/device_reserved (GiB)": 127.42,
	"memory/max_active (GiB)": 124.18,
	"memory/max_allocated (GiB)": 122.82,
	"step": 77,
	"tokens_per_second_per_gpu": 3780.85
	},
	{
	"epoch": 1.4761904761904763,
	"grad_norm": 5.000285151965608,
	"learning_rate": 1.521000444159021e-06,
	"loss": 1.2116,
	"memory/device_reserved (GiB)": 127.42,
	"memory/max_active (GiB)": 124.99,
	"memory/max_allocated (GiB)": 122.82,
	"step": 78,
	"tokens_per_second_per_gpu": 3695.41
	},
	{
	"epoch": 1.4952380952380953,
	"grad_norm": 47.84624251792891,
	"learning_rate": 1.4174885937647903e-06,
	"loss": 1.2405,
	"memory/device_reserved (GiB)": 127.42,
	"memory/max_active (GiB)": 124.18,
	"memory/max_allocated (GiB)": 122.82,
	"step": 79,
	"tokens_per_second_per_gpu": 3605.95
	},
	{
	"epoch": 1.5142857142857142,
	"grad_norm": 12.461343395029726,
	"learning_rate": 1.316861079443107e-06,
	"loss": 1.2272,
	"memory/device_reserved (GiB)": 127.42,
	"memory/max_active (GiB)": 124.99,
	"memory/max_allocated (GiB)": 122.82,
	"step": 80,
	"tokens_per_second_per_gpu": 3613.63
	},
	{
	"epoch": 1.5333333333333332,
	"grad_norm": 7.656217867750634,
	"learning_rate": 1.2192302893014308e-06,
	"loss": 1.2265,
	"memory/device_reserved (GiB)": 127.42,
	"memory/max_active (GiB)": 124.99,
	"memory/max_allocated (GiB)": 122.82,
	"step": 81,
	"tokens_per_second_per_gpu": 3752.87
	},
	{
	"epoch": 1.5523809523809524,
	"grad_norm": 15.082668616044355,
	"learning_rate": 1.1247052644882832e-06,
	"loss": 1.2183,
	"memory/device_reserved (GiB)": 127.42,
	"memory/max_active (GiB)": 124.99,
	"memory/max_allocated (GiB)": 122.82,
	"step": 82,
	"tokens_per_second_per_gpu": 3677.86
	},
	{
	"epoch": 1.5714285714285714,
	"grad_norm": 16.44949015042616,
	"learning_rate": 1.0333915774081697e-06,
	"loss": 1.2099,
	"memory/device_reserved (GiB)": 127.42,
	"memory/max_active (GiB)": 124.83,
	"memory/max_allocated (GiB)": 122.82,
	"step": 83,
	"tokens_per_second_per_gpu": 3729.01
	},
	{
	"epoch": 1.5904761904761906,
	"grad_norm": 12.211227945509856,
	"learning_rate": 9.453912138106721e-07,
	"loss": 1.2231,
	"memory/device_reserved (GiB)": 127.42,
	"memory/max_active (GiB)": 124.18,
	"memory/max_allocated (GiB)": 122.82,
	"step": 84,
	"tokens_per_second_per_gpu": 3649.49
	},
	{
	"epoch": 1.6095238095238096,
	"grad_norm": 7.074192518964132,
	"learning_rate": 8.60802458885356e-07,
	"loss": 1.237,
	"memory/device_reserved (GiB)": 127.42,
	"memory/max_active (GiB)": 124.18,
	"memory/max_allocated (GiB)": 122.82,
	"step": 85,
	"tokens_per_second_per_gpu": 3783.87
	},
	{
	"epoch": 1.6285714285714286,
	"grad_norm": 13.131068251165631,
	"learning_rate": 7.797197874897485e-07,
	"loss": 1.2116,
	"memory/device_reserved (GiB)": 127.42,
	"memory/max_active (GiB)": 124.18,
	"memory/max_allocated (GiB)": 122.82,
	"step": 86,
	"tokens_per_second_per_gpu": 3671.48
	},
	{
	"epoch": 1.6476190476190475,
	"grad_norm": 15.417850715738988,
	"learning_rate": 7.022337586329596e-07,
	"loss": 1.2209,
	"memory/device_reserved (GiB)": 127.42,
	"memory/max_active (GiB)": 124.18,
	"memory/max_allocated (GiB)": 122.82,
	"step": 87,
	"tokens_per_second_per_gpu": 3805.45
	},
	{
	"epoch": 1.6666666666666665,
	"grad_norm": 24.13403904325753,
	"learning_rate": 6.28430914332812e-07,
	"loss": 1.217,
	"memory/device_reserved (GiB)": 127.42,
	"memory/max_active (GiB)": 124.99,
	"memory/max_allocated (GiB)": 122.82,
	"step": 88,
	"tokens_per_second_per_gpu": 3706.88
	},
	{
	"epoch": 1.6857142857142857,
	"grad_norm": 13.576166990616798,
	"learning_rate": 5.583936829594433e-07,
	"loss": 1.2017,
	"memory/device_reserved (GiB)": 127.42,
	"memory/max_active (GiB)": 124.18,
	"memory/max_allocated (GiB)": 122.82,
	"step": 89,
	"tokens_per_second_per_gpu": 3820.7
	},
	{
	"epoch": 1.704761904761905,
	"grad_norm": 8.573005189398867,
	"learning_rate": 4.92200287173314e-07,
	"loss": 1.2096,
	"memory/device_reserved (GiB)": 127.42,
	"memory/max_active (GiB)": 124.18,
	"memory/max_allocated (GiB)": 122.82,
	"step": 90,
	"tokens_per_second_per_gpu": 3759.45
	},
	{
	"epoch": 1.723809523809524,
	"grad_norm": 5.5800010726124025,
	"learning_rate": 4.299246565604755e-07,
	"loss": 1.2218,
	"memory/device_reserved (GiB)": 127.42,
	"memory/max_active (GiB)": 124.18,
	"memory/max_allocated (GiB)": 122.82,
	"step": 91,
	"tokens_per_second_per_gpu": 3499.8
	},
	{
	"epoch": 1.7428571428571429,
	"grad_norm": 6.765368030458938,
	"learning_rate": 3.716363450626372e-07,
	"loss": 1.2117,
	"memory/device_reserved (GiB)": 127.42,
	"memory/max_active (GiB)": 124.99,
	"memory/max_allocated (GiB)": 122.82,
	"step": 92,
	"tokens_per_second_per_gpu": 3468.37
	},
	{
	"epoch": 1.7619047619047619,
	"grad_norm": 7.504548685452772,
	"learning_rate": 3.174004532942844e-07,
	"loss": 1.2299,
	"memory/device_reserved (GiB)": 127.42,
	"memory/max_active (GiB)": 124.18,
	"memory/max_allocated (GiB)": 122.82,
	"step": 93,
	"tokens_per_second_per_gpu": 3700.98
	},
	{
	"epoch": 1.7809523809523808,
	"grad_norm": 8.649122371866438,
	"learning_rate": 2.672775558335898e-07,
	"loss": 1.2265,
	"memory/device_reserved (GiB)": 127.42,
	"memory/max_active (GiB)": 124.18,
	"memory/max_allocated (GiB)": 122.82,
	"step": 94,
	"tokens_per_second_per_gpu": 3700.55
	},
	{
	"epoch": 1.8,
	"grad_norm": 11.91832294221251,
	"learning_rate": 2.2132363356832528e-07,
	"loss": 1.2185,
	"memory/device_reserved (GiB)": 127.42,
	"memory/max_active (GiB)": 124.18,
	"memory/max_allocated (GiB)": 122.82,
	"step": 95,
	"tokens_per_second_per_gpu": 3680.96
	},
	{
	"epoch": 1.819047619047619,
	"grad_norm": 9.186156818821193,
	"learning_rate": 1.795900111723503e-07,
	"loss": 1.2008,
	"memory/device_reserved (GiB)": 127.42,
	"memory/max_active (GiB)": 124.99,
	"memory/max_allocated (GiB)": 122.82,
	"step": 96,
	"tokens_per_second_per_gpu": 3658.84
	},
	{
	"epoch": 1.8380952380952382,
	"grad_norm": 13.72977541399496,
	"learning_rate": 1.4212329978249415e-07,
	"loss": 1.2104,
	"memory/device_reserved (GiB)": 127.42,
	"memory/max_active (GiB)": 124.99,
	"memory/max_allocated (GiB)": 122.82,
	"step": 97,
	"tokens_per_second_per_gpu": 3581.27
	},
	{
	"epoch": 1.8571428571428572,
	"grad_norm": 6.290457692715211,
	"learning_rate": 1.0896534493985177e-07,
	"loss": 1.223,
	"memory/device_reserved (GiB)": 127.42,
	"memory/max_active (GiB)": 124.18,
	"memory/max_allocated (GiB)": 122.82,
	"step": 98,
	"tokens_per_second_per_gpu": 3791.37
	},
	{
	"epoch": 1.8761904761904762,
	"grad_norm": 9.702798624165407,
	"learning_rate": 8.0153179853653e-08,
	"loss": 1.2285,
	"memory/device_reserved (GiB)": 127.42,
	"memory/max_active (GiB)": 124.18,
	"memory/max_allocated (GiB)": 122.82,
	"step": 99,
	"tokens_per_second_per_gpu": 3639.09
	},
	{
	"epoch": 1.8952380952380952,
	"grad_norm": 11.005975725667684,
	"learning_rate": 5.571898403988573e-08,
	"loss": 1.2151,
	"memory/device_reserved (GiB)": 127.42,
	"memory/max_active (GiB)": 124.18,
	"memory/max_allocated (GiB)": 122.82,
	"step": 100,
	"tokens_per_second_per_gpu": 3757.98
	},
	{
	"epoch": 1.9142857142857141,
	"grad_norm": 8.44842365055977,
	"learning_rate": 3.569004738087988e-08,
	"loss": 1.2238,
	"memory/device_reserved (GiB)": 127.42,
	"memory/max_active (GiB)": 124.18,
	"memory/max_allocated (GiB)": 122.82,
	"step": 101,
	"tokens_per_second_per_gpu": 3661.88
	},
	{
	"epoch": 1.9333333333333333,
	"grad_norm": 4.816542675360639,
	"learning_rate": 2.0088739645983455e-08,
	"loss": 1.2232,
	"memory/device_reserved (GiB)": 127.42,
	"memory/max_active (GiB)": 124.18,
	"memory/max_allocated (GiB)": 122.82,
	"step": 102,
	"tokens_per_second_per_gpu": 3730.52
	},
	{
	"epoch": 1.9523809523809523,
	"grad_norm": 11.749396247795026,
	"learning_rate": 8.932485507387344e-09,
	"loss": 1.2118,
	"memory/device_reserved (GiB)": 127.42,
	"memory/max_active (GiB)": 124.18,
	"memory/max_allocated (GiB)": 122.82,
	"step": 103,
	"tokens_per_second_per_gpu": 3871.77
	},
	{
	"epoch": 1.9714285714285715,
	"grad_norm": 7.9532371124526104,
	"learning_rate": 2.2337450789815526e-09,
	"loss": 1.2109,
	"memory/device_reserved (GiB)": 127.42,
	"memory/max_active (GiB)": 124.18,
	"memory/max_allocated (GiB)": 122.82,
	"step": 104,
	"tokens_per_second_per_gpu": 3582.44
	}
	],
	"logging_steps": 1,
	"max_steps": 104,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 2,
	"save_steps": 13,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 1428859668922368.0,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}