jaypyles
diff --git a/‎api/backend/job/models/job_options.py
Lines changed: 1 addition & 0 deletions b/‎api/backend/job/models/job_options.py
Lines changed: 1 addition & 0 deletions
diff --git a/‎api/backend/job/scraping/add_custom.py
Lines changed: 48 additions & 0 deletions b/‎api/backend/job/scraping/add_custom.py
Lines changed: 48 additions & 0 deletions
diff --git a/‎api/backend/scraping.py
Lines changed: 9 additions & 2 deletions b/‎api/backend/scraping.py
Lines changed: 9 additions & 2 deletions
diff --git a/‎api/backend/tests/scraping/test_scraping.py
Lines changed: 37 additions & 9 deletions b/‎api/backend/tests/scraping/test_scraping.py
Lines changed: 37 additions & 9 deletions
diff --git a/‎api/backend/worker/job_worker.py
Lines changed: 13 additions & 1 deletion b/‎api/backend/worker/job_worker.py
Lines changed: 13 additions & 1 deletion
diff --git a/‎src/components/common/advanced-job-options/advanced-job-options.tsx
Lines changed: 45 additions & 0 deletions b/‎src/components/common/advanced-job-options/advanced-job-options.tsx
Lines changed: 45 additions & 0 deletions
@@ -13,3 +13,4 @@ class JobOptions(BaseModel):
     proxies: list[str] = []
     site_map: Optional[SiteMap] = None
     collect_media: bool = False
+    custom_cookies: list[dict[str, Any]] = []
@@ -0,0 +1,48 @@
+from typing import Any, Optional
+from urllib.parse import urlparse
+
+from playwright.async_api import Page, BrowserContext
+
+import logging
+
+LOG = logging.getLogger(__name__)
+
+
+async def add_custom_cookies(
+    custom_cookies: list[dict[str, Any]],
+    url: str,
+    context: BrowserContext,
+) -> None:
+    parsed_url = urlparse(url)
+    domain = parsed_url.netloc
+
+    for cookie in custom_cookies:
+        cookie_dict = {
+            "name": cookie.get("name", "default_name"),
+            "value": cookie.get("value", "default_value"),
+            "domain": domain,
+            "path": "/",
+        }
+
+        LOG.info(f"Adding cookie: {cookie_dict}")
+        await context.add_cookies([cookie_dict])  # type: ignore
+
+
+async def add_custom_headers(
+    custom_headers: dict[str, Any],
+    page: Page,
+) -> None:
+    await page.set_extra_http_headers(custom_headers)
+
+
+async def add_custom_items(
+    url: str,
+    page: Page,
+    cookies: Optional[list[dict[str, Any]]] = None,
+    headers: Optional[dict[str, Any]] = None,
+) -> None:
+    if cookies:
+        await add_custom_cookies(cookies, url, page.context)
+
+    if headers:
+        await add_custom_headers(headers, page)
@@ -12,6 +12,8 @@
 from api.backend.job.scraping.scraping_utils import scrape_content
 from api.backend.job.site_mapping.site_mapping import handle_site_mapping
 
+from api.backend.job.scraping.add_custom import add_custom_items
+
 LOG = logging.getLogger(__name__)
 
 
@@ -44,20 +46,22 @@ async def make_site_request(
     proxies: Optional[list[str]] = None,
     site_map: Optional[dict[str, Any]] = None,
     collect_media: bool = False,
+    custom_cookies: Optional[list[dict[str, Any]]] = None,
 ):
     if url in visited_urls:
         return
 
     proxy = None
+
     if proxies:
         proxy = random.choice(proxies)
         LOG.info(f"Using proxy: {proxy}")
 
     async with AsyncCamoufox(headless=True, proxy=proxy) as browser:
         page: Page = await browser.new_page()
 
-        if headers:
-            await page.set_extra_http_headers(headers)
+        # Add cookies and headers
+        await add_custom_items(url, page, custom_cookies, headers)
 
         LOG.info(f"Visiting URL: {url}")
 
@@ -113,6 +117,7 @@ async def make_site_request(
                 proxies=proxies,
                 site_map=site_map,
                 collect_media=collect_media,
+                custom_cookies=custom_cookies,
             )
 
 
@@ -152,6 +157,7 @@ async def scrape(
     proxies: Optional[list[str]] = None,
     site_map: Optional[dict[str, Any]] = None,
     collect_media: bool = False,
+    custom_cookies: Optional[list[dict[str, Any]]] = None,
 ):
     visited_urls: set[str] = set()
     pages: set[tuple[str, str]] = set()
@@ -166,6 +172,7 @@ async def scrape(
         proxies=proxies,
         site_map=site_map,
         collect_media=collect_media,
+        custom_cookies=custom_cookies,
     )
 
     elements: list[dict[str, dict[str, list[CapturedElement]]]] = []
 
@@ -1,25 +1,53 @@
 import pytest
 import logging
-from playwright.async_api import async_playwright, Error
+from typing import Dict
+from playwright.async_api import async_playwright, Cookie, Route
+from api.backend.job.scraping.add_custom import add_custom_items
 
 logging.basicConfig(level=logging.DEBUG)
 LOG = logging.getLogger(__name__)
 
 
 @pytest.mark.asyncio
-async def test_proxy():
-    proxy = "127.0.0.1:8080"
+async def test_add_custom_items():
+    test_cookies = [{"name": "big", "value": "cookie"}]
+    test_headers = {"User-Agent": "test-agent", "Accept": "application/json"}
 
     async with async_playwright() as p:
-        browser = await p.firefox.launch(
-            headless=True, proxy={"server": f"http://{proxy}"}
-        )
+        browser = await p.chromium.launch(headless=True)
         context = await browser.new_context()
         page = await context.new_page()
 
-        with pytest.raises(Error) as excinfo:
-            await page.goto("http://example.com")
+        # Set up request interception
+        captured_headers: Dict[str, str] = {}
+
+        async def handle_route(route: Route) -> None:
+            nonlocal captured_headers
+            captured_headers = route.request.headers
+            await route.continue_()
+
+        await page.route("**/*", handle_route)
+
+        await add_custom_items(
+            url="http://example.com",
+            page=page,
+            cookies=test_cookies,
+            headers=test_headers,
+        )
+
+        # Navigate to example.com
+        await page.goto("http://example.com")
+
+        # Verify cookies were added
+        cookies: list[Cookie] = await page.context.cookies()
+        test_cookie = next((c for c in cookies if c.get("name") == "big"), None)
+
+        assert test_cookie is not None
+        assert test_cookie.get("value") == "cookie"
+        assert test_cookie.get("path") == "/"  # Default path should be set
+        assert test_cookie.get("sameSite") == "Lax"  # Default sameSite should be set
 
-        assert "NS_ERROR_PROXY_CONNECTION_REFUSED" in str(excinfo.value)
+        # Verify headers were added
+        assert captured_headers.get("user-agent") == "test-agent"
 
         await browser.close()
@@ -1,4 +1,5 @@
 import os
+import json
 
 from api.backend.job import get_queued_job, update_job
 from api.backend.scraping import scrape
@@ -34,14 +35,25 @@ async def process_job():
         LOG.info(f"Beginning processing job: {job}.")
         try:
             _ = await update_job([job["id"]], field="status", value="Scraping")
+
+            proxies = job["job_options"]["proxies"]
+
+            if proxies and isinstance(proxies[0], str) and proxies[0].startswith("{"):
+                try:
+                    proxies = [json.loads(p) for p in proxies]
+                except json.JSONDecodeError:
+                    LOG.error(f"Failed to parse proxy JSON: {proxies}")
+                    proxies = []
+
             scraped = await scrape(
                 job["url"],
                 [Element(**j) for j in job["elements"]],
                 job["job_options"]["custom_headers"],
                 job["job_options"]["multi_page_scrape"],
-                job["job_options"]["proxies"],
+                proxies,
                 job["job_options"]["site_map"],
                 job["job_options"]["collect_media"],
+                job["job_options"]["custom_cookies"],
             )
             LOG.info(
                 f"Scraped result for url: {job['url']}, with elements: {job['elements']}\n{scraped}"
 
@@ -0,0 +1,45 @@
+import { Box, Link, Typography } from "@mui/material";
+import { SetStateAction, Dispatch, useState } from "react";
+import { AdvancedJobOptionsDialog } from "./dialog/advanced-job-options-dialog";
+import { RawJobOptions } from "@/types";
+
+export type AdvancedJobOptionsProps = {
+  jobOptions: RawJobOptions;
+  setJobOptions: Dispatch<SetStateAction<RawJobOptions>>;
+};
+
+export const AdvancedJobOptions = ({
+  jobOptions,
+  setJobOptions,
+}: AdvancedJobOptionsProps) => {
+  const [open, setOpen] = useState(false);
+  return (
+    <Box sx={{ mb: 2 }}>
+      <Link
+        component="button"
+        variant="body2"
+        onClick={() => setOpen(true)}
+        sx={{
+          textDecoration: "none",
+          color: "primary.main",
+          "&:hover": {
+            color: "primary.dark",
+            textDecoration: "underline",
+          },
+          paddingLeft: 1,
+          display: "inline-flex",
+          alignItems: "center",
+          gap: 0.5,
+        }}
+      >
+        <Typography variant="body2">Advanced Job Options</Typography>
+      </Link>
+      <AdvancedJobOptionsDialog
+        open={open}
+        onClose={() => setOpen(false)}
+        jobOptions={jobOptions}
+        setJobOptions={setJobOptions}
+      />
+    </Box>
+  );
+};