Databrew: Add datasets support (#5095)

2022-05-13 11:48:04 +01:00 · 2022-05-13 11:48:04 +01:00 · babbd21814
commit babbd21814
parent 957b3148e0
8 changed files with 499 additions and 14 deletions
--- a/IMPLEMENTATION_COVERAGE.md
+++ b/IMPLEMENTATION_COVERAGE.md
@ -1069,30 +1069,30 @@
 ## databrew
 <details>
-<summary>22% implemented</summary>
+<summary>27% implemented</summary>
 - [ ] batch_delete_recipe_version
- [ ] create_dataset
+- [X] create_dataset
 - [ ] create_profile_job
 - [ ] create_project
 - [X] create_recipe
 - [ ] create_recipe_job
 - [X] create_ruleset
 - [ ] create_schedule
- [ ] delete_dataset
+- [X] delete_dataset
 - [ ] delete_job
 - [ ] delete_project
 - [X] delete_recipe_version
 - [X] delete_ruleset
 - [ ] delete_schedule
- [ ] describe_dataset
+- [X] describe_dataset
 - [ ] describe_job
 - [ ] describe_job_run
 - [ ] describe_project
 - [ ] describe_recipe
 - [ ] describe_ruleset
 - [ ] describe_schedule
- [ ] list_datasets
+- [X] list_datasets
 - [ ] list_job_runs
 - [ ] list_jobs
 - [ ] list_projects
@ -1108,7 +1108,7 @@
 - [ ] stop_job_run
 - [ ] tag_resource
 - [ ] untag_resource
- [ ] update_dataset
+- [X] update_dataset
 - [ ] update_profile_job
 - [ ] update_project
 - [X] update_recipe
--- a/docs/docs/services/databrew.rst
+++ b/docs/docs/services/databrew.rst
@ -26,27 +26,27 @@ databrew
 |start-h3| Implemented features for this service |end-h3|
 - [ ] batch_delete_recipe_version
- [ ] create_dataset
+- [X] create_dataset
 - [ ] create_profile_job
 - [ ] create_project
 - [X] create_recipe
 - [ ] create_recipe_job
 - [X] create_ruleset
 - [ ] create_schedule
- [ ] delete_dataset
+- [X] delete_dataset
 - [ ] delete_job
 - [ ] delete_project
 - [X] delete_recipe_version
 - [X] delete_ruleset
 - [ ] delete_schedule
- [ ] describe_dataset
+- [X] describe_dataset
 - [ ] describe_job
 - [ ] describe_job_run
 - [ ] describe_project
 - [ ] describe_recipe
 - [ ] describe_ruleset
 - [ ] describe_schedule
- [ ] list_datasets
+- [X] list_datasets
 - [ ] list_job_runs
 - [ ] list_jobs
 - [ ] list_projects
@ -62,7 +62,7 @@ databrew
 - [ ] stop_job_run
 - [ ] tag_resource
 - [ ] untag_resource
- [ ] update_dataset
+- [X] update_dataset
 - [ ] update_profile_job
 - [ ] update_project
 - [X] update_recipe
--- a/moto/backend_index.py
+++ b/moto/backend_index.py
@ -1,4 +1,4 @@
-# autogenerated by scripts/update_backend_index.py
+# autogenerated by ./scripts/update_backend_index.py
 import re
 backend_url_patterns = [
--- a/moto/databrew/exceptions.py
+++ b/moto/databrew/exceptions.py
@ -42,3 +42,12 @@ class ResourceNotFoundException(DataBrewClientError):
 class RulesetNotFoundException(EntityNotFoundException):
    def __init__(self, recipe_name):
        super().__init__("Ruleset %s not found." % recipe_name)
 class ServiceQuotaExceededException(JsonRESTError):
    code = 402
    def __init__(self):
        super().__init__(
            "ServiceQuotaExceededException", "A service quota is exceeded."
        )
--- a/moto/databrew/models.py
+++ b/moto/databrew/models.py
@ -6,12 +6,15 @@ from datetime import datetime
 from moto.core import BaseBackend, BaseModel
 from moto.core.utils import BackendDict
 from moto.utilities.paginator import paginate
 from .exceptions import (
    AlreadyExistsException,
    ConflictException,
    ResourceNotFoundException,
    ValidationException,
    RulesetAlreadyExistsException,
    RulesetNotFoundException,
    ResourceNotFoundException,
 )
 from .exceptions import RulesetAlreadyExistsException, RulesetNotFoundException
 class DataBrewBackend(BaseBackend):
@ -34,12 +37,19 @@ class DataBrewBackend(BaseBackend):
            "limit_default": 100,
            "unique_attribute": "name",
        },
        "list_datasets": {
            "input_token": "next_token",
            "limit_key": "max_results",
            "limit_default": 100,
            "unique_attribute": "name",
        },
    }
    def __init__(self, region_name):
        self.region_name = region_name
        self.recipes = OrderedDict()
        self.rulesets = OrderedDict()
        self.datasets = OrderedDict()
    def reset(self):
        """Re-initialize all attributes for this instance."""
@ -221,6 +231,74 @@ class DataBrewBackend(BaseBackend):
        del self.rulesets[ruleset_name]
    def create_dataset(
        self,
        dataset_name,
        dataset_format,
        dataset_format_options,
        dataset_input,
        dataset_path_options,
        tags,
    ):
        if dataset_name in self.datasets:
            raise AlreadyExistsException(dataset_name)
        dataset = FakeDataset(
            self.region_name,
            dataset_name,
            dataset_format,
            dataset_format_options,
            dataset_input,
            dataset_path_options,
            tags,
        )
        self.datasets[dataset_name] = dataset
        return dataset
    @paginate(pagination_model=PAGINATION_MODEL)
    def list_datasets(self):
        return list(self.datasets.values())
    def update_dataset(
        self,
        dataset_name,
        dataset_format,
        dataset_format_options,
        dataset_input,
        dataset_path_options,
        tags,
    ):
        if dataset_name not in self.datasets:
            raise ResourceNotFoundException("One or more resources can't be found.")
        dataset = self.datasets[dataset_name]
        if dataset_format is not None:
            dataset.format = dataset_format
        if dataset_format_options is not None:
            dataset.format_options = dataset_format_options
        if dataset_input is not None:
            dataset.input = dataset_input
        if dataset_path_options is not None:
            dataset.path_options = dataset_path_options
        if tags is not None:
            dataset.tags = tags
        return dataset
    def delete_dataset(self, dataset_name):
        if dataset_name not in self.datasets:
            raise ResourceNotFoundException("One or more resources can't be found.")
        del self.datasets[dataset_name]
    def describe_dataset(self, dataset_name):
        if dataset_name not in self.datasets:
            raise ResourceNotFoundException("One or more resources can't be found.")
        return self.datasets[dataset_name]
 class FakeRecipe(BaseModel):
    INITIAL_VERSION = 0.1
@ -355,4 +433,36 @@ class FakeRuleset(BaseModel):
        }
 class FakeDataset(BaseModel):
    def __init__(
        self,
        region_name,
        dataset_name,
        dataset_format,
        dataset_format_options,
        dataset_input,
        dataset_path_options,
        tags,
    ):
        self.region_name = region_name
        self.name = dataset_name
        self.format = dataset_format
        self.format_options = dataset_format_options
        self.input = dataset_input
        self.path_options = dataset_path_options
        self.created_time = datetime.now()
        self.tags = tags
    def as_dict(self):
        return {
            "Name": self.name,
            "Format": self.format,
            "FormatOptions": self.format_options,
            "Input": self.input,
            "PathOptions": self.path_options,
            "CreateTime": self.created_time.isoformat(),
            "Tags": self.tags or dict(),
        }
 databrew_backends = BackendDict(DataBrewBackend, "databrew")
--- a/moto/databrew/responses.py
+++ b/moto/databrew/responses.py
@ -14,6 +14,7 @@ class DataBrewResponse(BaseResponse):
        """Return backend instance specific for this region."""
        return databrew_backends[self.region]
    # region Recipes
    @property
    def parameters(self):
        return json.loads(self.body)
@ -133,6 +134,10 @@ class DataBrewResponse(BaseResponse):
        elif request.method == "GET":
            return self.get_recipe_response(recipe_name)
    # endregion
    # region Rulesets
    @amzn_request_id
    def create_ruleset(self):
        ruleset_description = self.parameters.get("Description")
@ -202,3 +207,94 @@ class DataBrewResponse(BaseResponse):
                "NextToken": next_token,
            }
        )
    # endregion
    # region Datasets
    @amzn_request_id
    def create_dataset(self):
        dataset_name = self.parameters.get("Name")
        dataset_format = self.parameters.get("Format")
        dataset_format_options = self.parameters.get("FormatOptions")
        dataset_input = self.parameters.get("Input")
        dataset_path_otions = self.parameters.get("PathOptions")
        dataset_tags = self.parameters.get("Tags")
        return json.dumps(
            self.databrew_backend.create_dataset(
                dataset_name,
                dataset_format,
                dataset_format_options,
                dataset_input,
                dataset_path_otions,
                dataset_tags,
            ).as_dict()
        )
    @amzn_request_id
    def list_datasets(self):
        next_token = self._get_param("NextToken", self._get_param("nextToken"))
        max_results = self._get_int_param(
            "MaxResults", self._get_int_param("maxResults")
        )
        # pylint: disable=unexpected-keyword-arg, unbalanced-tuple-unpacking
        dataset_list, next_token = self.databrew_backend.list_datasets(
            next_token=next_token, max_results=max_results
        )
        return json.dumps(
            {
                "Datasets": [dataset.as_dict() for dataset in dataset_list],
                "NextToken": next_token,
            }
        )
    @amzn_request_id
    def update_dataset(self, dataset_name):
        dataset_format = self.parameters.get("Format")
        dataset_format_options = self.parameters.get("FormatOptions")
        dataset_input = self.parameters.get("Input")
        dataset_path_otions = self.parameters.get("PathOptions")
        dataset_tags = self.parameters.get("Tags")
        dataset = self.databrew_backend.update_dataset(
            dataset_name,
            dataset_format,
            dataset_format_options,
            dataset_input,
            dataset_path_otions,
            dataset_tags,
        )
        return 200, {}, json.dumps(dataset.as_dict())
    @amzn_request_id
    def delete_dataset(self, dataset_name):
        self.databrew_backend.delete_dataset(dataset_name)
        return 200, {}, json.dumps({"Name": dataset_name})
    @amzn_request_id
    def describe_dataset(self, dataset_name):
        dataset = self.databrew_backend.describe_dataset(dataset_name)
        return 200, {}, json.dumps(dataset.as_dict())
    @amzn_request_id
    def dataset_response(self, request, full_url, headers):
        self.setup_class(request, full_url, headers)
        parsed_url = urlparse(full_url)
        dataset_name = parsed_url.path.split("/")[-1]
        if request.method == "POST":
            return self.create_dataset()
        elif request.method == "GET" and dataset_name:
            return self.describe_dataset(dataset_name)
        elif request.method == "GET":
            return self.list_datasets()
        elif request.method == "DELETE":
            return self.delete_dataset(dataset_name)
        elif request.method == "PUT":
            return self.update_dataset(dataset_name)
    # endregion
--- a/moto/databrew/urls.py
+++ b/moto/databrew/urls.py
@ -10,4 +10,6 @@ url_paths = {
    "{0}/recipes/(?P<recipe_name>[^/]+)/publishRecipe$": DataBrewResponse().publish_recipe,
    "{0}/rulesets$": DataBrewResponse.dispatch,
    "{0}/rulesets/(?P<ruleset_name>[^/]+)$": DataBrewResponse().ruleset_response,
    "{0}/datasets$": DataBrewResponse.dispatch,
    "{0}/datasets/(?P<dataset_name>[^/]+)$": DataBrewResponse().dataset_response,
 }
--- a/tests/test_databrew/test_databrew_datasets.py
+++ b/tests/test_databrew/test_databrew_datasets.py
@ -0,0 +1,268 @@
 import uuid
 import boto3
 import pytest
 from botocore.exceptions import ClientError
 from moto import mock_databrew
 def _create_databrew_client():
    client = boto3.client("databrew", region_name="us-west-1")
    return client
 def _create_test_dataset(
    client,
    tags=None,
    dataset_name=None,
    dataset_format="JSON",
    dataset_format_options=None,
 ):
    if dataset_name is None:
        dataset_name = str(uuid.uuid4())
    if not dataset_format_options:
        if dataset_format == "JSON":
            dataset_format_options = {"Json": {"MultiLine": True}}
        elif dataset_format == "CSV":
            dataset_format_options = {"Csv": {"Delimiter": ",", "HeaderRow": False}}
        elif dataset_format == "EXCEL":
            dataset_format_options = {
                "Excel": {
                    "SheetNames": [
                        "blaa",
                    ],
                    "SheetIndexes": [
                        123,
                    ],
                    "HeaderRow": True,
                }
            }
    return client.create_dataset(
        Name=dataset_name,
        Format=dataset_format,
        FormatOptions=dataset_format_options,
        Input={
            "S3InputDefinition": {
                "Bucket": "somerandombucketname",
            },
            "DataCatalogInputDefinition": {
                "DatabaseName": "somedbname",
                "TableName": "sometablename",
                "TempDirectory": {
                    "Bucket": "sometempbucketname",
                },
            },
            "DatabaseInputDefinition": {
                "GlueConnectionName": "someglueconnectionname",
                "TempDirectory": {
                    "Bucket": "sometempbucketname",
                },
            },
        },
        PathOptions={
            "LastModifiedDateCondition": {
                "Expression": "string",
                "ValuesMap": {"string": "string"},
            },
            "FilesLimit": {
                "MaxFiles": 123,
                "OrderedBy": "LAST_MODIFIED_DATE",
                "Order": "ASCENDING",
            },
            "Parameters": {
                "string": {
                    "Name": "string",
                    "Type": "string",
                    "CreateColumn": False,
                    "Filter": {
                        "Expression": "string",
                        "ValuesMap": {"string": "string"},
                    },
                }
            },
        },
        Tags=tags or {},
    )
 def _create_test_datasets(client, count):
    for _ in range(count):
        _create_test_dataset(client)
@mock_databrew
 def test_dataset_list_when_empty():
    client = _create_databrew_client()
    response = client.list_datasets()
    response.should.have.key("Datasets")
    response["Datasets"].should.have.length_of(0)
@mock_databrew
 def test_list_datasets_with_max_results():
    client = _create_databrew_client()
    _create_test_datasets(client, 4)
    response = client.list_datasets(MaxResults=2)
    response["Datasets"].should.have.length_of(2)
    response.should.have.key("NextToken")
@mock_databrew
 def test_list_datasets_from_next_token():
    client = _create_databrew_client()
    _create_test_datasets(client, 10)
    first_response = client.list_datasets(MaxResults=3)
    response = client.list_datasets(NextToken=first_response["NextToken"])
    response["Datasets"].should.have.length_of(7)
@mock_databrew
 def test_list_datasets_with_max_results_greater_than_actual_results():
    client = _create_databrew_client()
    _create_test_datasets(client, 4)
    response = client.list_datasets(MaxResults=10)
    response["Datasets"].should.have.length_of(4)
@mock_databrew
 def test_describe_dataset():
    client = _create_databrew_client()
    # region basic test
    response = _create_test_dataset(client)
    dataset = client.describe_dataset(Name=response["Name"])
    dataset["Name"].should.equal(response["Name"])
    # endregion
    # region JSON test
    response = _create_test_dataset(client, dataset_format="CSV")
    dataset = client.describe_dataset(Name=response["Name"])
    dataset["Format"].should.equal("CSV")
    # endregion
@mock_databrew
 def test_describe_dataset_that_does_not_exist():
    client = _create_databrew_client()
    with pytest.raises(ClientError) as exc:
        client.describe_dataset(Name="DoseNotExist")
    err = exc.value.response["Error"]
    err["Code"].should.equal("ResourceNotFoundException")
    err["Message"].should.equal("One or more resources can't be found.")
@mock_databrew
 def test_create_dataset_that_already_exists():
    client = _create_databrew_client()
    response = _create_test_dataset(client)
    with pytest.raises(ClientError) as exc:
        _create_test_dataset(client, dataset_name=response["Name"])
    err = exc.value.response["Error"]
    err["Code"].should.equal("AlreadyExistsException")
    err["Message"].should.equal(f"{response['Name']} already exists.")
@mock_databrew
 def test_delete_dataset():
    client = _create_databrew_client()
    response = _create_test_dataset(client)
    # Check dataset exists
    dataset = client.describe_dataset(Name=response["Name"])
    dataset["Name"].should.equal(response["Name"])
    # Delete the dataset
    client.delete_dataset(Name=response["Name"])
    # Check it does not exist anymore
    with pytest.raises(ClientError) as exc:
        client.describe_dataset(Name=response["Name"])
    err = exc.value.response["Error"]
    err["Code"].should.equal("ResourceNotFoundException")
    err["Message"].should.equal("One or more resources can't be found.")
    # Check that a dataset that does not exist errors
    with pytest.raises(ClientError) as exc:
        client.delete_dataset(Name=response["Name"])
    err = exc.value.response["Error"]
    err["Code"].should.equal("ResourceNotFoundException")
    err["Message"].should.equal("One or more resources can't be found.")
@mock_databrew
 def test_update_dataset():
    client = _create_databrew_client()
    response = _create_test_dataset(client)
    # Update the dataset and check response
    dataset = client.update_dataset(
        Name=response["Name"],
        Format="TEST",
        Input={
            "S3InputDefinition": {
                "Bucket": "somerandombucketname",
            },
            "DataCatalogInputDefinition": {
                "DatabaseName": "somedbname",
                "TableName": "sometablename",
                "TempDirectory": {
                    "Bucket": "sometempbucketname",
                },
            },
            "DatabaseInputDefinition": {
                "GlueConnectionName": "someglueconnectionname",
                "TempDirectory": {
                    "Bucket": "sometempbucketname",
                },
            },
        },
    )
    dataset["Name"].should.equal(response["Name"])
    # Describe the dataset and check the changes
    dataset = client.describe_dataset(Name=response["Name"])
    dataset["Name"].should.equal(response["Name"])
    dataset["Format"].should.equal("TEST")
@mock_databrew
 def test_update_dataset_that_does_not_exist():
    client = _create_databrew_client()
    # Update the dataset and check response
    with pytest.raises(ClientError) as exc:
        client.update_dataset(
            Name="RANDOMNAME",
            Format="TEST",
            Input={
                "S3InputDefinition": {
                    "Bucket": "somerandombucketname",
                },
                "DataCatalogInputDefinition": {
                    "DatabaseName": "somedbname",
                    "TableName": "sometablename",
                    "TempDirectory": {
                        "Bucket": "sometempbucketname",
                    },
                },
                "DatabaseInputDefinition": {
                    "GlueConnectionName": "someglueconnectionname",
                    "TempDirectory": {
                        "Bucket": "sometempbucketname",
                    },
                },
            },
        )
    err = exc.value.response["Error"]
    err["Code"].should.equal("ResourceNotFoundException")
    err["Message"].should.equal("One or more resources can't be found.")