tvl-depot/users/wpcarro/scratch/simple-select/main.py

import string
from scanner import Scanner
from parser import Parser

################################################################################
# Predicates
################################################################################

def is_alpha(c):
  return c in string.ascii_letters

def is_digit(c):
  return c in "0123456789"

def is_alphanumeric(c):
  return is_alpha(c) or is_digit(c)

def is_whitespace(c):
  return c in " \r\t\n"

################################################################################
# Tokenizer
################################################################################

AND    = ("CONJUNCTION", "AND")
OR     = ("CONJUNCTION", "OR")
NOT    = ("PUNCTUATION", "NOT")
COLON  = ("PUNCTUATION", "COLON")
LPAREN = ("PUNCTUATION", "LPAREN")
RPAREN = ("PUNCTUATION", "RPAREN")

def tokenize(x):
  s = Scanner(x)
  tokens = scan_tokens(s)
  return tokens

def scan_tokens(s):
  result = []
  while not s.exhausted():
    if is_whitespace(s.peek()):
      s.advance()
    else:
      result.append(scan_token(s))
  return result

def scan_token(s):
  punctuation = {
      "-": NOT,
      ":": COLON,
      "(": LPAREN,
      ")": RPAREN,
  }
  c = s.peek()
  if c in punctuation:
    s.advance()
    return punctuation[c]
  if c == "\"":
    return tokenize_string(s)
  if c == "/":
    return tokenize_regex(s)
  if is_alpha(c):
    return tokenize_identifier(s)

def tokenize_string(s):
  s.advance() # ignore opening 2x-quote
  current = ""
  while s.peek() != "\"" and not s.exhausted():
    current += s.advance()
  if s.exhausted():
    raise Exception("Unterminated string")
  s.advance() # ignore closing 2x-quote
  return ("STRING", current)

def tokenize_regex(s):
  s.advance() # ignore opening forward-slash
  current = ""
  while s.peek() != "/" and not s.exhausted():
    current += s.advance()
  if s.exhausted():
    raise Exception("Unterminated regex")
  s.advance() # ignore closing forward-slash
  return ("REGEX", current)

def tokenize_identifier(s):
  conjunctions = {
      "AND",
      "OR",
  }
  current = s.advance()
  while is_alphanumeric(s.peek()):
    current += s.advance()
  if current.upper() in conjunctions:
    return ("CONJUNCTION", current.upper())
  else:
    return ("IDENTIFIER", current)

################################################################################
# Parser
################################################################################

# EBNF
# Note: we order expression types by ascending levels of precedence.
#
# expression  -> conjunction ;
# conjunction -> selection ( ( "AND" | "OR" )? selection )* ;
# selection   -> "-"? IDENTIFIER ":" ( REGEX | STRING ) | grouping ;
# grouping    -> REGEX | STRING | "(" expression ")" ;

def parse(x):
  tokens = tokenize(x)
  p = Parser(tokens)
  return expression(p)

def expression(p):
  return conjunction(p)

def conjunction(p):
  lhs = selection(p)

  # TODO(wpcarro): Support default AND conjuctions when they're undefined.
  while not p.exhausted() and p.match({AND, OR}):
    conj = p.peek(n=-1)
    rhs = selection(p)
    lhs = ("CONJUNCTION", conj[1], lhs, rhs)

  return lhs

def selection(p):
  negate = False
  if p.peek() == NOT:
    negate = True
    p.advance()

  if p.peek()[0] != "IDENTIFIER":
    return grouping(p)

  ident = p.expect(lambda x: x[0] == "IDENTIFIER")
  colon = p.expect(lambda x: x[1] == "COLON")
  value = p.expect(lambda x: x[0] in {"REGEX", "STRING"})
  return ("SELECTION", negate, ident[1], value)

def grouping(p):
  if p.peek()[0] == "REGEX":
    return p.advance()

  if p.peek()[0] == "STRING":
    return p.advance()

  if p.peek() == LPAREN:
    p.advance()
    expr = expression(p)
    p.expect(lambda x: x == RPAREN)
    return ("GROUPING", expr)

################################################################################
# Compiler
################################################################################

def compile(source, table, columns):
  ast = parse(source)
  return "SELECT * FROM {} WHERE {};".format(table, do_compile(ast, columns))

def do_compile(ast, columns):
  if ast[0] == "REGEX":
    cols = "({})".format(" || ".join(columns))
    return "{} REGEXP '.*{}.*'".format(cols, ast[1])

  if ast[0] == "STRING":
    cols = "({})".format(" || ".join(columns))
    return "{} LIKE '%{}%'".format(cols, ast[1])

  if ast[0] == "SELECTION":
    return compile_selection(ast)

  if ast[0] == "CONJUNCTION":
    _, conj, lhs, rhs = ast
    lhs = do_compile(lhs, columns)
    rhs = do_compile(rhs, columns)
    return "{} {} {}".format(lhs, conj, rhs)

  if ast[0] == "GROUPING":
    return "({})".format(do_compile(ast[1], columns))

  raise Exception("Unexpected AST: \"{}\"".format(ast))

def compile_selection(ast):
  _, negate, column, query = ast
  match = compile_query(negate, query)
  return "{} {}".format(column, match)

def compile_query(negate, query):
  query_type, query_string = query
  if query_type == "REGEX":
    if negate:
      return "NOT REGEXP '.*{}.*'".format(query_string)
    return "REGEXP '.*{}.*'".format(query_string)

  if query_type == "STRING":
    if negate:
      return "NOT LIKE '%{}%'".format(query_string)
    return "LIKE '%{}%'".format(query_string)

################################################################################
# Main
################################################################################

def main():
  while True:
    x = input("> ")
    print("tokens:\t{}".format(tokenize(x)))
    print("AST:\t{}".format(parse(x)))
    # TODO(wpcarro): Read columns from CSV.
    print("query:\t\"{}\"".format(compile(x, "Movies", [
        "year",
        "rating",
        "haveWatched",
        "director",
        "isCartoon",
        "requiresSubtitles",
    ])))
if __name__ == "__main__":
  main()
feat(wpcarro/simple-select): support tokenizer for query language Support a tokenizer for a query language that looks like: ``` -fname:/W.*m/ lname:"Von Carroll" ``` Parser otw... Change-Id: I2badf14a41313ca2f75dec20adbcf9031b22ab83 Reviewed-on: https://cl.tvl.fyi/c/depot/+/5338 Reviewed-by: wpcarro <wpcarro@gmail.com> Autosubmit: wpcarro <wpcarro@gmail.com> Tested-by: BuildkiteCI 2022-02-28 20:59:55 +01:00			`import string`
feat(wpcarro/simple-select): Support basic Scanner class ...alongside a small REPL to quickly test the functionality. Change-Id: I3c2b3f060d82cd49488e00dec9b72f7b23e2b666 Reviewed-on: https://cl.tvl.fyi/c/depot/+/5337 Reviewed-by: wpcarro <wpcarro@gmail.com> Autosubmit: wpcarro <wpcarro@gmail.com> Tested-by: BuildkiteCI 2022-02-28 19:51:47 +01:00			`from scanner import Scanner`
feat(wpcarro/simple-select): Parse query language 🎉 Seems to successfully handle inputs like... ``` > (-fname:"William" lname:/C.*l/) OR (fname:"William" -lname:"Carroll") ``` Change-Id: I5277cfbc7d102158eab5e1e71b2d95aaf13508fd Reviewed-on: https://cl.tvl.fyi/c/depot/+/5340 Reviewed-by: wpcarro <wpcarro@gmail.com> Autosubmit: wpcarro <wpcarro@gmail.com> Tested-by: BuildkiteCI 2022-03-01 03:02:31 +01:00			`from parser import Parser`

feat(wpcarro/simple-select): support tokenizer for query language Support a tokenizer for a query language that looks like: ``` -fname:/W.*m/ lname:"Von Carroll" ``` Parser otw... Change-Id: I2badf14a41313ca2f75dec20adbcf9031b22ab83 Reviewed-on: https://cl.tvl.fyi/c/depot/+/5338 Reviewed-by: wpcarro <wpcarro@gmail.com> Autosubmit: wpcarro <wpcarro@gmail.com> Tested-by: BuildkiteCI 2022-02-28 20:59:55 +01:00			`################################################################################`
			`# Predicates`
			`################################################################################`

			`def is_alpha(c):`
			`return c in string.ascii_letters`

			`def is_digit(c):`
			`return c in "0123456789"`

			`def is_alphanumeric(c):`
			`return is_alpha(c) or is_digit(c)`

			`def is_whitespace(c):`
			`return c in " \r\t\n"`

			`################################################################################`
			`# Tokenizer`
			`################################################################################`
feat(wpcarro/simple-select): Support basic Scanner class ...alongside a small REPL to quickly test the functionality. Change-Id: I3c2b3f060d82cd49488e00dec9b72f7b23e2b666 Reviewed-on: https://cl.tvl.fyi/c/depot/+/5337 Reviewed-by: wpcarro <wpcarro@gmail.com> Autosubmit: wpcarro <wpcarro@gmail.com> Tested-by: BuildkiteCI 2022-02-28 19:51:47 +01:00
feat(wpcarro/simple-select): Parse query language 🎉 Seems to successfully handle inputs like... ``` > (-fname:"William" lname:/C.*l/) OR (fname:"William" -lname:"Carroll") ``` Change-Id: I5277cfbc7d102158eab5e1e71b2d95aaf13508fd Reviewed-on: https://cl.tvl.fyi/c/depot/+/5340 Reviewed-by: wpcarro <wpcarro@gmail.com> Autosubmit: wpcarro <wpcarro@gmail.com> Tested-by: BuildkiteCI 2022-03-01 03:02:31 +01:00			`AND = ("CONJUNCTION", "AND")`
			`OR = ("CONJUNCTION", "OR")`
			`NOT = ("PUNCTUATION", "NOT")`
			`COLON = ("PUNCTUATION", "COLON")`
			`LPAREN = ("PUNCTUATION", "LPAREN")`
			`RPAREN = ("PUNCTUATION", "RPAREN")`

feat(wpcarro/simple-select): Support basic Scanner class ...alongside a small REPL to quickly test the functionality. Change-Id: I3c2b3f060d82cd49488e00dec9b72f7b23e2b666 Reviewed-on: https://cl.tvl.fyi/c/depot/+/5337 Reviewed-by: wpcarro <wpcarro@gmail.com> Autosubmit: wpcarro <wpcarro@gmail.com> Tested-by: BuildkiteCI 2022-02-28 19:51:47 +01:00			`def tokenize(x):`
			`s = Scanner(x)`
feat(wpcarro/simple-select): support tokenizer for query language Support a tokenizer for a query language that looks like: ``` -fname:/W.*m/ lname:"Von Carroll" ``` Parser otw... Change-Id: I2badf14a41313ca2f75dec20adbcf9031b22ab83 Reviewed-on: https://cl.tvl.fyi/c/depot/+/5338 Reviewed-by: wpcarro <wpcarro@gmail.com> Autosubmit: wpcarro <wpcarro@gmail.com> Tested-by: BuildkiteCI 2022-02-28 20:59:55 +01:00			`tokens = scan_tokens(s)`
			`return tokens`

			`def scan_tokens(s):`
			`result = []`
			`while not s.exhausted():`
			`if is_whitespace(s.peek()):`
			`s.advance()`
			`else:`
			`result.append(scan_token(s))`
			`return result`

			`def scan_token(s):`
			`punctuation = {`
feat(wpcarro/simple-select): Parse query language 🎉 Seems to successfully handle inputs like... ``` > (-fname:"William" lname:/C.*l/) OR (fname:"William" -lname:"Carroll") ``` Change-Id: I5277cfbc7d102158eab5e1e71b2d95aaf13508fd Reviewed-on: https://cl.tvl.fyi/c/depot/+/5340 Reviewed-by: wpcarro <wpcarro@gmail.com> Autosubmit: wpcarro <wpcarro@gmail.com> Tested-by: BuildkiteCI 2022-03-01 03:02:31 +01:00			`"-": NOT,`
			`":": COLON,`
			`"(": LPAREN,`
			`")": RPAREN,`
feat(wpcarro/simple-select): support tokenizer for query language Support a tokenizer for a query language that looks like: ``` -fname:/W.*m/ lname:"Von Carroll" ``` Parser otw... Change-Id: I2badf14a41313ca2f75dec20adbcf9031b22ab83 Reviewed-on: https://cl.tvl.fyi/c/depot/+/5338 Reviewed-by: wpcarro <wpcarro@gmail.com> Autosubmit: wpcarro <wpcarro@gmail.com> Tested-by: BuildkiteCI 2022-02-28 20:59:55 +01:00			`}`
			`c = s.peek()`
			`if c in punctuation:`
			`s.advance()`
			`return punctuation[c]`
			`if c == "\"":`
			`return tokenize_string(s)`
			`if c == "/":`
			`return tokenize_regex(s)`
			`if is_alpha(c):`
			`return tokenize_identifier(s)`

			`def tokenize_string(s):`
			`s.advance() # ignore opening 2x-quote`
			`current = ""`
			`while s.peek() != "\"" and not s.exhausted():`
			`current += s.advance()`
			`if s.exhausted():`
			`raise Exception("Unterminated string")`
			`s.advance() # ignore closing 2x-quote`
			`return ("STRING", current)`

			`def tokenize_regex(s):`
			`s.advance() # ignore opening forward-slash`
			`current = ""`
			`while s.peek() != "/" and not s.exhausted():`
			`current += s.advance()`
			`if s.exhausted():`
			`raise Exception("Unterminated regex")`
			`s.advance() # ignore closing forward-slash`
			`return ("REGEX", current)`

			`def tokenize_identifier(s):`
feat(wpcarro/simple-select): Parse query language 🎉 Seems to successfully handle inputs like... ``` > (-fname:"William" lname:/C.*l/) OR (fname:"William" -lname:"Carroll") ``` Change-Id: I5277cfbc7d102158eab5e1e71b2d95aaf13508fd Reviewed-on: https://cl.tvl.fyi/c/depot/+/5340 Reviewed-by: wpcarro <wpcarro@gmail.com> Autosubmit: wpcarro <wpcarro@gmail.com> Tested-by: BuildkiteCI 2022-03-01 03:02:31 +01:00			`conjunctions = {`
feat(wpcarro/simple-select): support tokenizer for query language Support a tokenizer for a query language that looks like: ``` -fname:/W.*m/ lname:"Von Carroll" ``` Parser otw... Change-Id: I2badf14a41313ca2f75dec20adbcf9031b22ab83 Reviewed-on: https://cl.tvl.fyi/c/depot/+/5338 Reviewed-by: wpcarro <wpcarro@gmail.com> Autosubmit: wpcarro <wpcarro@gmail.com> Tested-by: BuildkiteCI 2022-02-28 20:59:55 +01:00			`"AND",`
			`"OR",`
			`}`
			`current = s.advance()`
			`while is_alphanumeric(s.peek()):`
			`current += s.advance()`
feat(wpcarro/simple-select): Parse query language 🎉 Seems to successfully handle inputs like... ``` > (-fname:"William" lname:/C.*l/) OR (fname:"William" -lname:"Carroll") ``` Change-Id: I5277cfbc7d102158eab5e1e71b2d95aaf13508fd Reviewed-on: https://cl.tvl.fyi/c/depot/+/5340 Reviewed-by: wpcarro <wpcarro@gmail.com> Autosubmit: wpcarro <wpcarro@gmail.com> Tested-by: BuildkiteCI 2022-03-01 03:02:31 +01:00			`if current.upper() in conjunctions:`
			`return ("CONJUNCTION", current.upper())`
feat(wpcarro/simple-select): support tokenizer for query language Support a tokenizer for a query language that looks like: ``` -fname:/W.*m/ lname:"Von Carroll" ``` Parser otw... Change-Id: I2badf14a41313ca2f75dec20adbcf9031b22ab83 Reviewed-on: https://cl.tvl.fyi/c/depot/+/5338 Reviewed-by: wpcarro <wpcarro@gmail.com> Autosubmit: wpcarro <wpcarro@gmail.com> Tested-by: BuildkiteCI 2022-02-28 20:59:55 +01:00			`else:`
			`return ("IDENTIFIER", current)`

feat(wpcarro/simple-select): Parse query language 🎉 Seems to successfully handle inputs like... ``` > (-fname:"William" lname:/C.*l/) OR (fname:"William" -lname:"Carroll") ``` Change-Id: I5277cfbc7d102158eab5e1e71b2d95aaf13508fd Reviewed-on: https://cl.tvl.fyi/c/depot/+/5340 Reviewed-by: wpcarro <wpcarro@gmail.com> Autosubmit: wpcarro <wpcarro@gmail.com> Tested-by: BuildkiteCI 2022-03-01 03:02:31 +01:00			`################################################################################`
			`# Parser`
			`################################################################################`

			`# EBNF`
			`# Note: we order expression types by ascending levels of precedence.`
			`#`
			`# expression -> conjunction ;`
			`# conjunction -> selection ( ( "AND" \| "OR" )? selection )* ;`
			`# selection -> "-"? IDENTIFIER ":" ( REGEX \| STRING ) \| grouping ;`
			`# grouping -> REGEX \| STRING \| "(" expression ")" ;`

			`def parse(x):`
			`tokens = tokenize(x)`
			`p = Parser(tokens)`
			`return expression(p)`

			`def expression(p):`
			`return conjunction(p)`

			`def conjunction(p):`
			`lhs = selection(p)`

feat(wpcarro/simple-select): Compile AST to SQL Currently supports the SQLite flavor of SQL. Preliminary testing seems to show encouraging results. Change-Id: Ib2ed6a695352f41185c8e8abdadfd76ce38bdbcc Reviewed-on: https://cl.tvl.fyi/c/depot/+/5344 Reviewed-by: wpcarro <wpcarro@gmail.com> Autosubmit: wpcarro <wpcarro@gmail.com> Tested-by: BuildkiteCI 2022-03-01 22:55:13 +01:00			`# TODO(wpcarro): Support default AND conjuctions when they're undefined.`
			`while not p.exhausted() and p.match({AND, OR}):`
			`conj = p.peek(n=-1)`
feat(wpcarro/simple-select): Parse query language 🎉 Seems to successfully handle inputs like... ``` > (-fname:"William" lname:/C.*l/) OR (fname:"William" -lname:"Carroll") ``` Change-Id: I5277cfbc7d102158eab5e1e71b2d95aaf13508fd Reviewed-on: https://cl.tvl.fyi/c/depot/+/5340 Reviewed-by: wpcarro <wpcarro@gmail.com> Autosubmit: wpcarro <wpcarro@gmail.com> Tested-by: BuildkiteCI 2022-03-01 03:02:31 +01:00			`rhs = selection(p)`
			`lhs = ("CONJUNCTION", conj[1], lhs, rhs)`

			`return lhs`

			`def selection(p):`
			`negate = False`
			`if p.peek() == NOT:`
			`negate = True`
			`p.advance()`

			`if p.peek()[0] != "IDENTIFIER":`
			`return grouping(p)`

			`ident = p.expect(lambda x: x[0] == "IDENTIFIER")`
			`colon = p.expect(lambda x: x[1] == "COLON")`
			`value = p.expect(lambda x: x[0] in {"REGEX", "STRING"})`
			`return ("SELECTION", negate, ident[1], value)`

			`def grouping(p):`
			`if p.peek()[0] == "REGEX":`
			`return p.advance()`

			`if p.peek()[0] == "STRING":`
			`return p.advance()`

			`if p.peek() == LPAREN:`
			`p.advance()`
			`expr = expression(p)`
			`p.expect(lambda x: x == RPAREN)`
			`return ("GROUPING", expr)`

feat(wpcarro/simple-select): Compile AST to SQL Currently supports the SQLite flavor of SQL. Preliminary testing seems to show encouraging results. Change-Id: Ib2ed6a695352f41185c8e8abdadfd76ce38bdbcc Reviewed-on: https://cl.tvl.fyi/c/depot/+/5344 Reviewed-by: wpcarro <wpcarro@gmail.com> Autosubmit: wpcarro <wpcarro@gmail.com> Tested-by: BuildkiteCI 2022-03-01 22:55:13 +01:00			`################################################################################`
			`# Compiler`
			`################################################################################`

			`def compile(source, table, columns):`
			`ast = parse(source)`
			`return "SELECT * FROM {} WHERE {};".format(table, do_compile(ast, columns))`

			`def do_compile(ast, columns):`
			`if ast[0] == "REGEX":`
			`cols = "({})".format(" \|\| ".join(columns))`
			`return "{} REGEXP '.{}.'".format(cols, ast[1])`

			`if ast[0] == "STRING":`
			`cols = "({})".format(" \|\| ".join(columns))`
			`return "{} LIKE '%{}%'".format(cols, ast[1])`

			`if ast[0] == "SELECTION":`
			`return compile_selection(ast)`

			`if ast[0] == "CONJUNCTION":`
			`_, conj, lhs, rhs = ast`
			`lhs = do_compile(lhs, columns)`
			`rhs = do_compile(rhs, columns)`
			`return "{} {} {}".format(lhs, conj, rhs)`

			`if ast[0] == "GROUPING":`
			`return "({})".format(do_compile(ast[1], columns))`

			`raise Exception("Unexpected AST: \"{}\"".format(ast))`

			`def compile_selection(ast):`
			`_, negate, column, query = ast`
			`match = compile_query(negate, query)`
			`return "{} {}".format(column, match)`

			`def compile_query(negate, query):`
			`query_type, query_string = query`
			`if query_type == "REGEX":`
			`if negate:`
			`return "NOT REGEXP '.{}.'".format(query_string)`
			`return "REGEXP '.{}.'".format(query_string)`

			`if query_type == "STRING":`
			`if negate:`
			`return "NOT LIKE '%{}%'".format(query_string)`
			`return "LIKE '%{}%'".format(query_string)`

feat(wpcarro/simple-select): support tokenizer for query language Support a tokenizer for a query language that looks like: ``` -fname:/W.*m/ lname:"Von Carroll" ``` Parser otw... Change-Id: I2badf14a41313ca2f75dec20adbcf9031b22ab83 Reviewed-on: https://cl.tvl.fyi/c/depot/+/5338 Reviewed-by: wpcarro <wpcarro@gmail.com> Autosubmit: wpcarro <wpcarro@gmail.com> Tested-by: BuildkiteCI 2022-02-28 20:59:55 +01:00			`################################################################################`
			`# Main`
			`################################################################################`
feat(wpcarro/simple-select): Support basic Scanner class ...alongside a small REPL to quickly test the functionality. Change-Id: I3c2b3f060d82cd49488e00dec9b72f7b23e2b666 Reviewed-on: https://cl.tvl.fyi/c/depot/+/5337 Reviewed-by: wpcarro <wpcarro@gmail.com> Autosubmit: wpcarro <wpcarro@gmail.com> Tested-by: BuildkiteCI 2022-02-28 19:51:47 +01:00
			`def main():`
			`while True:`
			`x = input("> ")`
feat(wpcarro/simple-select): Compile AST to SQL Currently supports the SQLite flavor of SQL. Preliminary testing seems to show encouraging results. Change-Id: Ib2ed6a695352f41185c8e8abdadfd76ce38bdbcc Reviewed-on: https://cl.tvl.fyi/c/depot/+/5344 Reviewed-by: wpcarro <wpcarro@gmail.com> Autosubmit: wpcarro <wpcarro@gmail.com> Tested-by: BuildkiteCI 2022-03-01 22:55:13 +01:00			`print("tokens:\t{}".format(tokenize(x)))`
			`print("AST:\t{}".format(parse(x)))`
			`# TODO(wpcarro): Read columns from CSV.`
			`print("query:\t\"{}\"".format(compile(x, "Movies", [`
			`"year",`
			`"rating",`
			`"haveWatched",`
			`"director",`
			`"isCartoon",`
			`"requiresSubtitles",`
			`])))`
feat(wpcarro/simple-select): Support basic Scanner class ...alongside a small REPL to quickly test the functionality. Change-Id: I3c2b3f060d82cd49488e00dec9b72f7b23e2b666 Reviewed-on: https://cl.tvl.fyi/c/depot/+/5337 Reviewed-by: wpcarro <wpcarro@gmail.com> Autosubmit: wpcarro <wpcarro@gmail.com> Tested-by: BuildkiteCI 2022-02-28 19:51:47 +01:00			`if __name__ == "__main__":`
			`main()`