[dtensor][cp] experiment: register flex_attention to a custom fn on DTensor #147515

XilunWu · 2025-02-20T09:54:51Z

Stack from ghstack (oldest at bottom):

Summary

Attempt to dispatch flex_attention on DTensor to a custom CP flex_attention function but got the error below. This error should be identical to #146994 .

E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] Caught exception: 
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] Traceback (most recent call last):
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]   File "/data/users/xilunwu/oss/pytorch/torch/testing/_internal/common_distributed.py", line 726, in run_test
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]     getattr(self, test_name)()
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]   File "/data/users/xilunwu/oss/pytorch/torch/testing/_internal/common_distributed.py", line 599, in wrapper
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]     fn()
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]   File "/data/users/xilunwu/oss/pytorch/torch/testing/_internal/common_utils.py", line 3155, in wrapper
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]     method(*args, **kwargs)
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]   File "/data/users/xilunwu/oss/pytorch/torch/testing/_internal/distributed/_tensor/common_dtensor.py", line 405, in wrapper
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]     raise e
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]   File "/data/users/xilunwu/oss/pytorch/torch/testing/_internal/distributed/_tensor/common_dtensor.py", line 402, in wrapper
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]     func(self, *args, **kwargs)  # type: ignore[misc]
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]   File "/data/users/xilunwu/oss/pytorch/test/distributed/tensor/test_attention.py", line 493, in test_ring_flex_attention
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]     out_dt = flex_attention(q_dist, k_dist, v_dist, block_mask=block_mask)
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]   File "/data/users/xilunwu/oss/pytorch/torch/_dynamo/eval_frame.py", line 589, in _fn
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]     raise e.remove_dynamo_frames() from None  # see TORCHDYNAMO_VERBOSE=1
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]   File "/data/users/xilunwu/oss/pytorch/torch/_dynamo/output_graph.py", line 1509, in _call_user_compiler
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]     raise BackendCompilerFailed(
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]   File "/data/users/xilunwu/oss/pytorch/torch/_dynamo/output_graph.py", line 1488, in _call_user_compiler
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]     compiled_fn = compiler_fn(gm, self.example_inputs())
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]   File "/data/users/xilunwu/oss/pytorch/torch/_dynamo/repro/after_dynamo.py", line 150, in __call__
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]     compiled_gm = compiler_fn(gm, example_inputs)
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]   File "/data/users/xilunwu/oss/pytorch/torch/__init__.py", line 2339, in __call__
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]     return compile_fx(model_, inputs_, config_patches=self.config)
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]   File "/data/users/xilunwu/oss/pytorch/torch/_inductor/compile_fx.py", line 2168, in compile_fx
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]     return aot_autograd(
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]   File "/data/users/xilunwu/oss/pytorch/torch/_dynamo/backends/common.py", line 101, in __call__
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]     cg = aot_module_simplified(gm, example_inputs, **self.kwargs)
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]   File "/data/users/xilunwu/oss/pytorch/torch/_functorch/aot_autograd.py", line 1158, in aot_module_simplified
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]     compiled_fn = AOTAutogradCache.load(
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]   File "/data/users/xilunwu/oss/pytorch/torch/_functorch/_aot_autograd/autograd_cache.py", line 779, in load
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]     compiled_fn = dispatch_and_compile()
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]   File "/data/users/xilunwu/oss/pytorch/torch/_functorch/aot_autograd.py", line 1143, in dispatch_and_compile
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]     compiled_fn, _ = create_aot_dispatcher_function(
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]   File "/data/users/xilunwu/oss/pytorch/torch/_functorch/aot_autograd.py", line 570, in create_aot_dispatcher_function
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]     return _create_aot_dispatcher_function(
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]   File "/data/users/xilunwu/oss/pytorch/torch/_functorch/aot_autograd.py", line 671, in _create_aot_dispatcher_function
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]     fw_metadata = run_functionalized_fw_and_collect_metadata(
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]   File "/data/users/xilunwu/oss/pytorch/torch/_functorch/_aot_autograd/collect_metadata_analysis.py", line 197, in inner
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]     flat_f_outs = f(*flat_f_args)
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]   File "/data/users/xilunwu/oss/pytorch/torch/_functorch/_aot_autograd/traced_function_transforms.py", line 899, in functional_call
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]     out = PropagateUnbackedSymInts(mod).run(
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]   File "/data/users/xilunwu/oss/pytorch/torch/fx/interpreter.py", line 171, in run
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]     self.env[node] = self.run_node(node)
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]   File "/data/users/xilunwu/oss/pytorch/torch/fx/experimental/symbolic_shapes.py", line 7084, in run_node
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]     result = super().run_node(n)
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]   File "/data/users/xilunwu/oss/pytorch/torch/fx/interpreter.py", line 236, in run_node
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]     return getattr(self, n.op)(n.target, args, kwargs)
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]   File "/data/users/xilunwu/oss/pytorch/torch/fx/interpreter.py", line 316, in call_function
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]     return target(*args, **kwargs)
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]   File "/data/users/xilunwu/oss/pytorch/torch/_higher_order_ops/flex_attention.py", line 92, in __call__
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]     return super().__call__(
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]   File "/data/users/xilunwu/oss/pytorch/torch/_ops.py", line 471, in __call__
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]     return wrapper()
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]   File "/data/users/xilunwu/oss/pytorch/torch/_ops.py", line 467, in wrapper
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]     return self.dispatch(
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]   File "/data/users/xilunwu/oss/pytorch/torch/_ops.py", line 327, in dispatch
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]     return kernel(*args, **kwargs)
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]   File "/data/users/xilunwu/oss/pytorch/torch/_higher_order_ops/flex_attention.py", line 744, in flex_attention_autograd
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]     out, logsumexp = FlexAttentionAutogradOp.apply(
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]   File "/data/users/xilunwu/oss/pytorch/torch/autograd/function.py", line 575, in apply
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]     return super().apply(*args, **kwargs)  # type: ignore[misc]
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]   File "/data/users/xilunwu/oss/pytorch/torch/_higher_order_ops/flex_attention.py", line 610, in forward
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]     out, logsumexp = flex_attention(
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]   File "/data/users/xilunwu/oss/pytorch/torch/_higher_order_ops/flex_attention.py", line 92, in __call__
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]     return super().__call__(
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]   File "/data/users/xilunwu/oss/pytorch/torch/_ops.py", line 471, in __call__
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]     return wrapper()
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]   File "/data/users/xilunwu/oss/pytorch/torch/_ops.py", line 462, in wrapper
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]     return torch.overrides.handle_torch_function(
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]   File "/data/users/xilunwu/oss/pytorch/torch/overrides.py", line 1721, in handle_torch_function
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]     result = mode.__torch_function__(public_api, types, args, kwargs)
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]   File "/data/users/xilunwu/oss/pytorch/torch/_dynamo/_trace_wrapped_higher_order_op.py", line 142, in __torch_function__
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]     return func(*args, **(kwargs or {}))
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]   File "/data/users/xilunwu/oss/pytorch/torch/_higher_order_ops/flex_attention.py", line 92, in __call__
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]     return super().__call__(
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]   File "/data/users/xilunwu/oss/pytorch/torch/_ops.py", line 471, in __call__
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]     return wrapper()
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]   File "/data/users/xilunwu/oss/pytorch/torch/_ops.py", line 467, in wrapper
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]     return self.dispatch(
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]   File "/data/users/xilunwu/oss/pytorch/torch/_ops.py", line 363, in dispatch
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]     result = handler(mode, *args, **kwargs)
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]   File "/data/users/xilunwu/oss/pytorch/torch/_ops.py", line 179, in functionalize_dispatch_mode_fn
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]     return fn(PythonFunctionalizeAPI(mode), *args, **kwargs)
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]   File "/data/users/xilunwu/oss/pytorch/torch/_higher_order_ops/flex_attention.py", line 415, in flex_attention_functionalize
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]     [query_unwrapped.new_zeros(())]
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]   File "/data/users/xilunwu/oss/pytorch/torch/_compile.py", line 51, in inner
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]     return disable_fn(*args, **kwargs)
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]   File "/data/users/xilunwu/oss/pytorch/torch/_dynamo/eval_frame.py", line 764, in _fn
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]     return fn(*args, **kwargs)
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]   File "/data/users/xilunwu/oss/pytorch/torch/distributed/tensor/_api.py", line 348, in __torch_dispatch__
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]     return DTensor._op_dispatcher.dispatch(
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]   File "/data/users/xilunwu/oss/pytorch/torch/distributed/tensor/_dispatch.py", line 221, in dispatch
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]     local_results = op_call(*local_tensor_args, **op_info.local_kwargs)
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]   File "/data/users/xilunwu/oss/pytorch/torch/_ops.py", line 756, in __call__
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]     return self._op(*args, **kwargs)
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]   File "/data/users/xilunwu/oss/pytorch/torch/_subclasses/functional_tensor.py", line 201, in __torch_dispatch__
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733]     raise RuntimeError(
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] torch._dynamo.exc.BackendCompilerFailed: backend='inductor' raised:
E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] RuntimeError: Attempting to use FunctionalTensor on its own. Instead, please use it with a corresponding FunctionalTensorMode()

cc @H-Huang @awgu @wanchaol @fegin @fduwjj @wz337 @wconstab @d4l3k

…Tensor [ghstack-poisoned]

pytorch-bot · 2025-02-20T09:54:56Z

🔗 Helpful Links

🧪 See artifacts and rendered test results at hud.pytorch.org/pr/147515

📄 Preview Python docs built from this PR
📄 Preview C++ docs built from this PR
❓ Need help or want to give feedback on the CI? Visit the bot commands wiki or our office hours

Note: Links to docs will display an error until the docs builds have been completed.

❌ 3 New Failures, 1 Unrelated Failure

As of commit 42882bc with merge base 5a7588f ():

NEW FAILURES - The following jobs have failed:

Lint / lintrunner-noclang / linux-job (gh)
>>> Lint for torch/distributed/tensor/_ops/_view_ops.py:
pull / linux-focal-cuda11.8-py3.10-gcc9 / test (distributed, 1, 3, lf.ephemeral.linux.g4dn.12xlarge.nvidia.gpu) (gh)
distributed/tensor/test_attention.py::RingFlexAttentionTest::test_ring_flex_attention
pull / linux-jammy-py3.9-gcc11 / test (distributed, 1, 2, lf.ephemeral.linux.2xlarge) (gh)
distributed/tensor/test_attention.py::RingFlexAttentionTest::test_ring_flex_attention

UNSTABLE - The following job is marked as unstable, possibly due to flakiness on trunk:

pull / cuda12.4-py3.10-gcc9-sm75 / test (pr_time_benchmarks, 1, 1, linux.g4dn.metal.nvidia.gpu) (gh) (#149370)
Process completed with exit code 1.

This comment was automatically generated by Dr. CI and updates every 15 minutes.

…tom fn on DTensor" ### Summary Attempt to dispatch flex_attention on DTensor to a custom CP flex_attention function but got the error below. This error should be identical to #146994 . ``` E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] Caught exception: E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] Traceback (most recent call last): E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] File "/data/users/xilunwu/oss/pytorch/torch/testing/_internal/common_distributed.py", line 726, in run_test E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] getattr(self, test_name)() E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] File "/data/users/xilunwu/oss/pytorch/torch/testing/_internal/common_distributed.py", line 599, in wrapper E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] fn() E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] File "/data/users/xilunwu/oss/pytorch/torch/testing/_internal/common_utils.py", line 3155, in wrapper E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] method(*args, **kwargs) E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] File "/data/users/xilunwu/oss/pytorch/torch/testing/_internal/distributed/_tensor/common_dtensor.py", line 405, in wrapper E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] raise e E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] File "/data/users/xilunwu/oss/pytorch/torch/testing/_internal/distributed/_tensor/common_dtensor.py", line 402, in wrapper E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] func(self, *args, **kwargs) # type: ignore[misc] E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] File "/data/users/xilunwu/oss/pytorch/test/distributed/tensor/test_attention.py", line 493, in test_ring_flex_attention E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] out_dt = flex_attention(q_dist, k_dist, v_dist, block_mask=block_mask) E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] File "/data/users/xilunwu/oss/pytorch/torch/_dynamo/eval_frame.py", line 589, in _fn E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] raise e.remove_dynamo_frames() from None # see TORCHDYNAMO_VERBOSE=1 E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] File "/data/users/xilunwu/oss/pytorch/torch/_dynamo/output_graph.py", line 1509, in _call_user_compiler E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] raise BackendCompilerFailed( E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] File "/data/users/xilunwu/oss/pytorch/torch/_dynamo/output_graph.py", line 1488, in _call_user_compiler E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] compiled_fn = compiler_fn(gm, self.example_inputs()) E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] File "/data/users/xilunwu/oss/pytorch/torch/_dynamo/repro/after_dynamo.py", line 150, in __call__ E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] compiled_gm = compiler_fn(gm, example_inputs) E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] File "/data/users/xilunwu/oss/pytorch/torch/__init__.py", line 2339, in __call__ E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] return compile_fx(model_, inputs_, config_patches=self.config) E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] File "/data/users/xilunwu/oss/pytorch/torch/_inductor/compile_fx.py", line 2168, in compile_fx E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] return aot_autograd( E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] File "/data/users/xilunwu/oss/pytorch/torch/_dynamo/backends/common.py", line 101, in __call__ E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] cg = aot_module_simplified(gm, example_inputs, **self.kwargs) E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] File "/data/users/xilunwu/oss/pytorch/torch/_functorch/aot_autograd.py", line 1158, in aot_module_simplified E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] compiled_fn = AOTAutogradCache.load( E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] File "/data/users/xilunwu/oss/pytorch/torch/_functorch/_aot_autograd/autograd_cache.py", line 779, in load E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] compiled_fn = dispatch_and_compile() E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] File "/data/users/xilunwu/oss/pytorch/torch/_functorch/aot_autograd.py", line 1143, in dispatch_and_compile E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] compiled_fn, _ = create_aot_dispatcher_function( E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] File "/data/users/xilunwu/oss/pytorch/torch/_functorch/aot_autograd.py", line 570, in create_aot_dispatcher_function E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] return _create_aot_dispatcher_function( E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] File "/data/users/xilunwu/oss/pytorch/torch/_functorch/aot_autograd.py", line 671, in _create_aot_dispatcher_function E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] fw_metadata = run_functionalized_fw_and_collect_metadata( E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] File "/data/users/xilunwu/oss/pytorch/torch/_functorch/_aot_autograd/collect_metadata_analysis.py", line 197, in inner E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] flat_f_outs = f(*flat_f_args) E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] File "/data/users/xilunwu/oss/pytorch/torch/_functorch/_aot_autograd/traced_function_transforms.py", line 899, in functional_call E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] out = PropagateUnbackedSymInts(mod).run( E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] File "/data/users/xilunwu/oss/pytorch/torch/fx/interpreter.py", line 171, in run E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] self.env[node] = self.run_node(node) E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] File "/data/users/xilunwu/oss/pytorch/torch/fx/experimental/symbolic_shapes.py", line 7084, in run_node E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] result = super().run_node(n) E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] File "/data/users/xilunwu/oss/pytorch/torch/fx/interpreter.py", line 236, in run_node E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] return getattr(self, n.op)(n.target, args, kwargs) E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] File "/data/users/xilunwu/oss/pytorch/torch/fx/interpreter.py", line 316, in call_function E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] return target(*args, **kwargs) E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] File "/data/users/xilunwu/oss/pytorch/torch/_higher_order_ops/flex_attention.py", line 92, in __call__ E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] return super().__call__( E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] File "/data/users/xilunwu/oss/pytorch/torch/_ops.py", line 471, in __call__ E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] return wrapper() E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] File "/data/users/xilunwu/oss/pytorch/torch/_ops.py", line 467, in wrapper E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] return self.dispatch( E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] File "/data/users/xilunwu/oss/pytorch/torch/_ops.py", line 327, in dispatch E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] return kernel(*args, **kwargs) E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] File "/data/users/xilunwu/oss/pytorch/torch/_higher_order_ops/flex_attention.py", line 744, in flex_attention_autograd E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] out, logsumexp = FlexAttentionAutogradOp.apply( E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] File "/data/users/xilunwu/oss/pytorch/torch/autograd/function.py", line 575, in apply E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] return super().apply(*args, **kwargs) # type: ignore[misc] E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] File "/data/users/xilunwu/oss/pytorch/torch/_higher_order_ops/flex_attention.py", line 610, in forward E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] out, logsumexp = flex_attention( E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] File "/data/users/xilunwu/oss/pytorch/torch/_higher_order_ops/flex_attention.py", line 92, in __call__ E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] return super().__call__( E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] File "/data/users/xilunwu/oss/pytorch/torch/_ops.py", line 471, in __call__ E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] return wrapper() E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] File "/data/users/xilunwu/oss/pytorch/torch/_ops.py", line 462, in wrapper E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] return torch.overrides.handle_torch_function( E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] File "/data/users/xilunwu/oss/pytorch/torch/overrides.py", line 1721, in handle_torch_function E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] result = mode.__torch_function__(public_api, types, args, kwargs) E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] File "/data/users/xilunwu/oss/pytorch/torch/_dynamo/_trace_wrapped_higher_order_op.py", line 142, in __torch_function__ E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] return func(*args, **(kwargs or {})) E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] File "/data/users/xilunwu/oss/pytorch/torch/_higher_order_ops/flex_attention.py", line 92, in __call__ E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] return super().__call__( E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] File "/data/users/xilunwu/oss/pytorch/torch/_ops.py", line 471, in __call__ E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] return wrapper() E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] File "/data/users/xilunwu/oss/pytorch/torch/_ops.py", line 467, in wrapper E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] return self.dispatch( E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] File "/data/users/xilunwu/oss/pytorch/torch/_ops.py", line 363, in dispatch E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] result = handler(mode, *args, **kwargs) E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] File "/data/users/xilunwu/oss/pytorch/torch/_ops.py", line 179, in functionalize_dispatch_mode_fn E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] return fn(PythonFunctionalizeAPI(mode), *args, **kwargs) E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] File "/data/users/xilunwu/oss/pytorch/torch/_higher_order_ops/flex_attention.py", line 415, in flex_attention_functionalize E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] [query_unwrapped.new_zeros(())] E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] File "/data/users/xilunwu/oss/pytorch/torch/_compile.py", line 51, in inner E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] return disable_fn(*args, **kwargs) E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] File "/data/users/xilunwu/oss/pytorch/torch/_dynamo/eval_frame.py", line 764, in _fn E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] return fn(*args, **kwargs) E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] File "/data/users/xilunwu/oss/pytorch/torch/distributed/tensor/_api.py", line 348, in __torch_dispatch__ E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] return DTensor._op_dispatcher.dispatch( E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] File "/data/users/xilunwu/oss/pytorch/torch/distributed/tensor/_dispatch.py", line 221, in dispatch E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] local_results = op_call(*local_tensor_args, **op_info.local_kwargs) E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] File "/data/users/xilunwu/oss/pytorch/torch/_ops.py", line 756, in __call__ E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] return self._op(*args, **kwargs) E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] File "/data/users/xilunwu/oss/pytorch/torch/_subclasses/functional_tensor.py", line 201, in __torch_dispatch__ E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] raise RuntimeError( E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] torch._dynamo.exc.BackendCompilerFailed: backend='inductor' raised: E0220 00:44:53.839000 1006342 torch/testing/_internal/common_distributed.py:733] RuntimeError: Attempting to use FunctionalTensor on its own. Instead, please use it with a corresponding FunctionalTensorMode() ``` [ghstack-poisoned]

…Tensor ghstack-source-id: efca286 Pull Request resolved: pytorch/pytorch#147515

github-actions · 2025-05-27T00:49:40Z

Looks like this PR hasn't been updated in a while so we're going to go ahead and mark this as Stale.
Feel free to remove the Stale label if you feel this was a mistake.
If you are unable to remove the Stale label please contact a maintainer in order to do so.
If you want the bot to never mark this PR stale again, add the no-stale label.
Stale pull requests will automatically be closed after 30 days of inactivity.

[dtensor][cp] experiment: register flex_attention to a custom fn on D…

46b5883

…Tensor [ghstack-poisoned]

pytorch-bot bot added oncall: distributed Add this issue/PR to distributed oncall triage queue topic: not user facing topic category labels Feb 20, 2025

XilunWu marked this pull request as draft February 20, 2025 10:00

XilunWu mentioned this pull request Feb 21, 2025

[dtensor][cp] experiment: try e2e cp flex_attention #147603

Closed

Divigroup-RAP pushed a commit to Divigroup-RAP/PYTORCH that referenced this pull request Apr 22, 2025

[dtensor][cp] experiment: register flex_attention to a custom fn on D…

3b6048a

…Tensor ghstack-source-id: efca286 Pull Request resolved: pytorch/pytorch#147515

github-actions bot added the Stale label May 27, 2025

github-actions bot closed this Jun 26, 2025

XilunWu mentioned this pull request Jun 30, 2025

[WIP][RFC] Compilable flex_attention + Context Parallel #157015

Open

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

[dtensor][cp] experiment: register flex_attention to a custom fn on DTensor #147515

[dtensor][cp] experiment: register flex_attention to a custom fn on DTensor #147515

Uh oh!

XilunWu commented Feb 20, 2025 •

edited by pytorch-bot bot

Loading

Uh oh!

pytorch-bot bot commented Feb 20, 2025 •

edited

Loading

Uh oh!

github-actions bot commented May 27, 2025

Uh oh!

Uh oh!

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

[dtensor][cp] experiment: register flex_attention to a custom fn on DTensor #147515

[dtensor][cp] experiment: register flex_attention to a custom fn on DTensor #147515

Uh oh!

Conversation

XilunWu commented Feb 20, 2025 • edited by pytorch-bot bot Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Summary

Uh oh!

pytorch-bot bot commented Feb 20, 2025 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

🔗 Helpful Links

🧪 See artifacts and rendered test results at hud.pytorch.org/pr/147515

❌ 3 New Failures, 1 Unrelated Failure

Uh oh!

github-actions bot commented May 27, 2025

Uh oh!

Uh oh!

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

XilunWu commented Feb 20, 2025 •

edited by pytorch-bot bot

Loading

pytorch-bot bot commented Feb 20, 2025 •

edited

Loading