Spaces:

HuggingFaceFW-Dev
/

lang-word-tokenizers

Running

App Files Files Community

guipenedo HF Staff commited on Oct 22, 2024

Commit

9a7091f

unverified ·

1 Parent(s): baa687b

georgian tokenizer and south azerbeijani

Browse files

Files changed (2) hide show

data/Kartvelian.json +21 -3
data/Turkic.json +40 -2

data/Kartvelian.json CHANGED Viewed

@@ -29,16 +29,34 @@
           "iso_3_code": "kat",
           "children": [],
           "family": "Kartvelian",
-          "tokenizers": {},
           "node_i": "4608",
-          "native_tokenizers": [],
           "scripts": [
             "Geor"
           ]
         }
       ],
       "family": "Kartvelian",
-      "tokenizers": {},
       "node_i": "4606",
       "native_tokenizers": [],
       "scripts": []

           "iso_3_code": "kat",
           "children": [],
           "family": "Kartvelian",
+          "tokenizers": {
+            "Geor": {
+              "full_object": "GeorgianTokenizer()",
+              "original_lang_name": "georgian",
+              "original_lang_code": "kat",
+              "script": "Geor",
+              "class_name": "GeorgianTokenizer"
+            }
+          },
           "node_i": "4608",
+          "native_tokenizers": [
+            "Geor"
+          ],
           "scripts": [
             "Geor"
           ]
         }
       ],
       "family": "Kartvelian",
+      "tokenizers": {
+        "Geor": {
+          "full_object": "GeorgianTokenizer()",
+          "original_lang_name": "georgian",
+          "original_lang_code": "kat",
+          "script": "Geor",
+          "class_name": "GeorgianTokenizer"
+        }
+      },
       "node_i": "4606",
       "native_tokenizers": [],
       "scripts": []

data/Turkic.json CHANGED Viewed

@@ -372,9 +372,19 @@
               "iso_3_code": "azb",
               "children": [],
               "family": "Turkic",
-              "tokenizers": {},
               "node_i": "10583",
-              "native_tokenizers": [],
               "scripts": [
                 "Arab"
               ]
@@ -407,6 +417,13 @@
           ],
           "family": "Turkic",
           "tokenizers": {
             "Latn": {
               "full_object": "SpaCyTokenizer(\"az\")",
               "original_lang_name": "azerbaijani",
@@ -525,6 +542,13 @@
               "children": [],
               "family": "Turkic",
               "tokenizers": {
                 "Latn": {
                   "full_object": "SpaCyTokenizer(\"tr\")",
                   "original_lang_name": "turkish",
@@ -544,6 +568,13 @@
           ],
           "family": "Turkic",
           "tokenizers": {
             "Latn": {
               "full_object": "SpaCyTokenizer(\"tr\")",
               "original_lang_name": "turkish",
@@ -559,6 +590,13 @@
       ],
       "family": "Turkic",
       "tokenizers": {
         "Latn": {
           "full_object": "SpaCyTokenizer(\"tr\")",
           "original_lang_name": "turkish",

               "iso_3_code": "azb",
               "children": [],
               "family": "Turkic",
+              "tokenizers": {
+                "Arab": {
+                  "full_object": "SpaCyTokenizer(\"fa\")",
+                  "original_lang_name": "persian",
+                  "original_lang_code": "azb",
+                  "script": "Arab",
+                  "class_name": "SpaCyTokenizer"
+                }
+              },
               "node_i": "10583",
+              "native_tokenizers": [
+                "Arab"
+              ],
               "scripts": [
                 "Arab"
               ]
           ],
           "family": "Turkic",
           "tokenizers": {
+            "Arab": {
+              "full_object": "SpaCyTokenizer(\"fa\")",
+              "original_lang_name": "persian",
+              "original_lang_code": "azb",
+              "script": "Arab",
+              "class_name": "SpaCyTokenizer"
+            },
             "Latn": {
               "full_object": "SpaCyTokenizer(\"az\")",
               "original_lang_name": "azerbaijani",
               "children": [],
               "family": "Turkic",
               "tokenizers": {
+                "Arab": {
+                  "full_object": "SpaCyTokenizer(\"fa\")",
+                  "original_lang_name": "persian",
+                  "original_lang_code": "azb",
+                  "script": "Arab",
+                  "class_name": "SpaCyTokenizer"
+                },
                 "Latn": {
                   "full_object": "SpaCyTokenizer(\"tr\")",
                   "original_lang_name": "turkish",
           ],
           "family": "Turkic",
           "tokenizers": {
+            "Arab": {
+              "full_object": "SpaCyTokenizer(\"fa\")",
+              "original_lang_name": "persian",
+              "original_lang_code": "azb",
+              "script": "Arab",
+              "class_name": "SpaCyTokenizer"
+            },
             "Latn": {
               "full_object": "SpaCyTokenizer(\"tr\")",
               "original_lang_name": "turkish",
       ],
       "family": "Turkic",
       "tokenizers": {
+        "Arab": {
+          "full_object": "SpaCyTokenizer(\"fa\")",
+          "original_lang_name": "persian",
+          "original_lang_code": "azb",
+          "script": "Arab",
+          "class_name": "SpaCyTokenizer"
+        },
         "Latn": {
           "full_object": "SpaCyTokenizer(\"tr\")",
           "original_lang_name": "turkish",