tokenizing assignment operators

2015-12-12 18:17:27 -07:00 · 2015-12-12 18:17:27 -07:00 · eb1542c102
commit eb1542c102
parent 2082588201
3 changed files with 231 additions and 66 deletions
--- a/doc/langref.md
+++ b/doc/langref.md
@ -88,7 +88,9 @@ AsmInputItem : token(LBracket) token(Symbol) token(RBracket) token(String) token
 AsmClobbers: token(Colon) list(token(String), token(Comma))
-AssignmentExpression : BoolOrExpression token(Equal) BoolOrExpression | BoolOrExpression
+AssignmentExpression : BoolOrExpression AssignmentOperator BoolOrExpression | BoolOrExpression
 AssignmentOperator : token(Eq) | token(TimesEq) | token(DivEq) | token(ModEq) | token(PlusEq) | token(MinusEq) | token(BitShiftLeftEq) | token(BitShiftRightEq) | token(BitAndEq) | token(BitXorEq) | token(BitOrEq) | token(BoolAndEq) | token(BoolOrEq) 
 BlockExpression : IfExpression | Block
@ -164,7 +166,7 @@ as
 == != < > <= >=
 &&
 ||
-= += -=
+= *= /= %= += -= <<= >>= &= ^= |= &&= ||=
 ```
 ## Literals
--- a/src/tokenizer.cpp
+++ b/src/tokenizer.cpp
@ -96,20 +96,28 @@ enum TokenizeState {
    TokenizeStateSymbolFirst,
    TokenizeStateNumber,
    TokenizeStateString,
-    TokenizeStateSawDash,
+    TokenizeStateSawStar,
    TokenizeStateSawSlash,
    TokenizeStateSawPercent,
    TokenizeStateSawPlus,
    TokenizeStateSawDash,
    TokenizeStateSawAmpersand,
    TokenizeStateSawAmpersandAmpersand,
    TokenizeStateSawCaret,
    TokenizeStateSawPipe,
    TokenizeStateSawPipePipe,
    TokenizeStateLineComment,
    TokenizeStateMultiLineComment,
    TokenizeStateMultiLineCommentSlash,
    TokenizeStateMultiLineCommentStar,
-    TokenizeStatePipe,
+    TokenizeStateSawEq,
-    TokenizeStateAmpersand,
+    TokenizeStateSawBang,
-    TokenizeStateEq,
+    TokenizeStateSawLessThan,
-    TokenizeStateBang,
+    TokenizeStateSawLessThanLessThan,
-    TokenizeStateLessThan,
+    TokenizeStateSawGreaterThan,
-    TokenizeStateGreaterThan,
+    TokenizeStateSawGreaterThanGreaterThan,
-    TokenizeStateDot,
+    TokenizeStateSawDot,
-    TokenizeStateDotDot,
+    TokenizeStateSawDotDot,
    TokenizeStateError,
 };
@ -259,14 +267,6 @@ void tokenize(Buf *buf, Tokenization *out) {
                        begin_token(&t, TokenIdComma);
                        end_token(&t);
                        break;
                    case '*':
                        begin_token(&t, TokenIdStar);
                        end_token(&t);
                        break;
                    case '%':
                        begin_token(&t, TokenIdPercent);
                        end_token(&t);
                        break;
                    case '{':
                        begin_token(&t, TokenIdLBrace);
                        end_token(&t);
@ -291,9 +291,25 @@ void tokenize(Buf *buf, Tokenization *out) {
                        begin_token(&t, TokenIdColon);
                        end_token(&t);
                        break;
                    case '#':
                        begin_token(&t, TokenIdNumberSign);
                        end_token(&t);
                        break;
                    case '*':
                        begin_token(&t, TokenIdStar);
                        t.state = TokenizeStateSawStar;
                        break;
                    case '/':
                        begin_token(&t, TokenIdSlash);
                        t.state = TokenizeStateSawSlash;
                        break;
                    case '%':
                        begin_token(&t, TokenIdPercent);
                        t.state = TokenizeStateSawPercent;
                        break;
                    case '+':
                        begin_token(&t, TokenIdPlus);
-                        end_token(&t);
+                        t.state = TokenizeStateSawPlus;
                        break;
                    case '~':
                        begin_token(&t, TokenIdTilde);
@ -303,54 +319,46 @@ void tokenize(Buf *buf, Tokenization *out) {
                        begin_token(&t, TokenIdDash);
                        t.state = TokenizeStateSawDash;
                        break;
-                    case '#':
+                    case '&':
-                        begin_token(&t, TokenIdNumberSign);
+                        begin_token(&t, TokenIdBinAnd);
-                        end_token(&t);
+                        t.state = TokenizeStateSawAmpersand;
                        break;
                    case '^':
                        begin_token(&t, TokenIdBinXor);
-                        end_token(&t);
+                        t.state = TokenizeStateSawCaret;
                        break;
                    case '/':
                        begin_token(&t, TokenIdSlash);
                        t.state = TokenizeStateSawSlash;
                        break;
                    case '|':
                        begin_token(&t, TokenIdBinOr);
-                        t.state = TokenizeStatePipe;
+                        t.state = TokenizeStateSawPipe;
                        break;
                    case '&':
                        begin_token(&t, TokenIdBinAnd);
                        t.state = TokenizeStateAmpersand;
                        break;
                    case '=':
                        begin_token(&t, TokenIdEq);
-                        t.state = TokenizeStateEq;
+                        t.state = TokenizeStateSawEq;
                        break;
                    case '!':
                        begin_token(&t, TokenIdBang);
-                        t.state = TokenizeStateBang;
+                        t.state = TokenizeStateSawBang;
                        break;
                    case '<':
                        begin_token(&t, TokenIdCmpLessThan);
-                        t.state = TokenizeStateLessThan;
+                        t.state = TokenizeStateSawLessThan;
                        break;
                    case '>':
                        begin_token(&t, TokenIdCmpGreaterThan);
-                        t.state = TokenizeStateGreaterThan;
+                        t.state = TokenizeStateSawGreaterThan;
                        break;
                    case '.':
                        begin_token(&t, TokenIdDot);
-                        t.state = TokenizeStateDot;
+                        t.state = TokenizeStateSawDot;
                        break;
                    default:
                        tokenize_error(&t, "invalid character: '%c'", c);
                }
                break;
-            case TokenizeStateDot:
+            case TokenizeStateSawDot:
                switch (c) {
                    case '.':
-                        t.state = TokenizeStateDotDot;
+                        t.state = TokenizeStateSawDotDot;
                        t.cur_tok->id = TokenIdEllipsis;
                        break;
                    default:
@ -360,20 +368,17 @@ void tokenize(Buf *buf, Tokenization *out) {
                        continue;
                }
                break;
-            case TokenizeStateDotDot:
+            case TokenizeStateSawDotDot:
                switch (c) {
                    case '.':
                        t.state = TokenizeStateStart;
                        end_token(&t);
                        break;
                    default:
-                        t.pos -= 1;
+                        tokenize_error(&t, "invalid character: '%c'", c);
                        end_token(&t);
                        t.state = TokenizeStateStart;
                        continue;
                }
                break;
-            case TokenizeStateGreaterThan:
+            case TokenizeStateSawGreaterThan:
                switch (c) {
                    case '=':
                        t.cur_tok->id = TokenIdCmpGreaterOrEq;
@ -382,8 +387,7 @@ void tokenize(Buf *buf, Tokenization *out) {
                        break;
                    case '>':
                        t.cur_tok->id = TokenIdBitShiftRight;
-                        end_token(&t);
+                        t.state = TokenizeStateSawGreaterThanGreaterThan;
                        t.state = TokenizeStateStart;
                        break;
                    default:
                        t.pos -= 1;
@ -392,7 +396,20 @@ void tokenize(Buf *buf, Tokenization *out) {
                        continue;
                }
                break;
-            case TokenizeStateLessThan:
+            case TokenizeStateSawGreaterThanGreaterThan:
                switch (c) {
                    case '=':
                        t.cur_tok->id = TokenIdBitShiftRightEq;
                        end_token(&t);
                        t.state = TokenizeStateStart;
                    default:
                        t.pos -= 1;
                        end_token(&t);
                        t.state = TokenizeStateStart;
                        continue;
                }
                break;
            case TokenizeStateSawLessThan:
                switch (c) {
                    case '=':
                        t.cur_tok->id = TokenIdCmpLessOrEq;
@ -400,8 +417,7 @@ void tokenize(Buf *buf, Tokenization *out) {
                        t.state = TokenizeStateStart;
                    case '<':
                        t.cur_tok->id = TokenIdBitShiftLeft;
-                        end_token(&t);
+                        t.state = TokenizeStateSawLessThanLessThan;
                        t.state = TokenizeStateStart;
                        break;
                    default:
                        t.pos -= 1;
@ -410,7 +426,20 @@ void tokenize(Buf *buf, Tokenization *out) {
                        continue;
                }
                break;
-            case TokenizeStateBang:
+            case TokenizeStateSawLessThanLessThan:
                switch (c) {
                    case '=':
                        t.cur_tok->id = TokenIdBitShiftLeftEq;
                        end_token(&t);
                        t.state = TokenizeStateStart;
                    default:
                        t.pos -= 1;
                        end_token(&t);
                        t.state = TokenizeStateStart;
                        continue;
                }
                break;
            case TokenizeStateSawBang:
                switch (c) {
                    case '=':
                        t.cur_tok->id = TokenIdCmpNotEq;
@ -424,7 +453,7 @@ void tokenize(Buf *buf, Tokenization *out) {
                        continue;
                }
                break;
-            case TokenizeStateEq:
+            case TokenizeStateSawEq:
                switch (c) {
                    case '=':
                        t.cur_tok->id = TokenIdCmpEq;
@ -438,10 +467,10 @@ void tokenize(Buf *buf, Tokenization *out) {
                        continue;
                }
                break;
-            case TokenizeStateAmpersand:
+            case TokenizeStateSawStar:
                switch (c) {
-                    case '&':
+                    case '=':
-                        t.cur_tok->id = TokenIdBoolAnd;
+                        t.cur_tok->id = TokenIdTimesEq;
                        end_token(&t);
                        t.state = TokenizeStateStart;
                        break;
@ -452,10 +481,102 @@ void tokenize(Buf *buf, Tokenization *out) {
                        continue;
                }
                break;
-            case TokenizeStatePipe:
+            case TokenizeStateSawPercent:
                switch (c) {
                    case '=':
                        t.cur_tok->id = TokenIdModEq;
                        end_token(&t);
                        t.state = TokenizeStateStart;
                        break;
                    default:
                        t.pos -= 1;
                        end_token(&t);
                        t.state = TokenizeStateStart;
                        continue;
                }
                break;
            case TokenizeStateSawPlus:
                switch (c) {
                    case '=':
                        t.cur_tok->id = TokenIdPlusEq;
                        end_token(&t);
                        t.state = TokenizeStateStart;
                        break;
                    default:
                        t.pos -= 1;
                        end_token(&t);
                        t.state = TokenizeStateStart;
                        continue;
                }
                break;
            case TokenizeStateSawAmpersand:
                switch (c) {
                    case '&':
                        t.cur_tok->id = TokenIdBoolAnd;
                        t.state = TokenizeStateSawAmpersandAmpersand;
                        break;
                    case '=':
                        t.cur_tok->id = TokenIdBitAndEq;
                        end_token(&t);
                        t.state = TokenizeStateStart;
                        break;
                    default:
                        t.pos -= 1;
                        end_token(&t);
                        t.state = TokenizeStateStart;
                        continue;
                }
                break;
            case TokenizeStateSawAmpersandAmpersand:
                switch (c) {
                    case '=':
                        t.cur_tok->id = TokenIdBoolAndEq;
                        end_token(&t);
                        t.state = TokenizeStateStart;
                        break;
                    default:
                        t.pos -= 1;
                        end_token(&t);
                        t.state = TokenizeStateStart;
                        continue;
                }
                break;
            case TokenizeStateSawCaret:
                switch (c) {
                    case '=':
                        t.cur_tok->id = TokenIdBitXorEq;
                        end_token(&t);
                        t.state = TokenizeStateStart;
                        break;
                    default:
                        t.pos -= 1;
                        end_token(&t);
                        t.state = TokenizeStateStart;
                        continue;
                }
                break;
            case TokenizeStateSawPipe:
                switch (c) {
                    case '|':
                        t.cur_tok->id = TokenIdBoolOr;
                        t.state = TokenizeStateSawPipePipe;
                        break;
                    case '=':
                        t.cur_tok->id = TokenIdBitOrEq;
                        end_token(&t);
                        t.state = TokenizeStateStart;
                        break;
                    default:
                        t.pos -= 1;
                        end_token(&t);
                        t.state = TokenizeStateStart;
                        continue;
                }
                break;
            case TokenizeStateSawPipePipe:
                switch (c) {
                    case '=':
                        t.cur_tok->id = TokenIdBoolOrEq;
                        end_token(&t);
                        t.state = TokenizeStateStart;
                        break;
@ -477,6 +598,11 @@ void tokenize(Buf *buf, Tokenization *out) {
                        t.state = TokenizeStateMultiLineComment;
                        t.multi_line_comment_count = 1;
                        break;
                    case '=':
                        t.cur_tok->id = TokenIdDivEq;
                        end_token(&t);
                        t.state = TokenizeStateStart;
                        break;
                    default:
                        t.pos -= 1;
                        end_token(&t);
@ -592,6 +718,11 @@ void tokenize(Buf *buf, Tokenization *out) {
                        end_token(&t);
                        t.state = TokenizeStateStart;
                        break;
                    case '=':
                        t.cur_tok->id = TokenIdMinusEq;
                        end_token(&t);
                        t.state = TokenizeStateStart;
                        break;
                    default:
                        t.pos -= 1;
                        end_token(&t);
@ -619,18 +750,26 @@ void tokenize(Buf *buf, Tokenization *out) {
        case TokenizeStateSymbol:
        case TokenizeStateSymbolFirst:
        case TokenizeStateNumber:
        case TokenizeStateSawStar:
        case TokenizeStateSawSlash:
        case TokenizeStateSawPercent:
        case TokenizeStateSawPlus:
        case TokenizeStateSawDash:
-        case TokenizeStatePipe:
+        case TokenizeStateSawAmpersand:
-        case TokenizeStateAmpersand:
+        case TokenizeStateSawAmpersandAmpersand:
-        case TokenizeStateEq:
+        case TokenizeStateSawCaret:
-        case TokenizeStateBang:
+        case TokenizeStateSawPipe:
-        case TokenizeStateLessThan:
+        case TokenizeStateSawPipePipe:
-        case TokenizeStateGreaterThan:
+        case TokenizeStateSawEq:
-        case TokenizeStateDot:
+        case TokenizeStateSawBang:
        case TokenizeStateSawLessThan:
        case TokenizeStateSawLessThanLessThan:
        case TokenizeStateSawGreaterThan:
        case TokenizeStateSawGreaterThanGreaterThan:
        case TokenizeStateSawDot:
            end_token(&t);
            break;
-        case TokenizeStateSawSlash:
+        case TokenizeStateSawDotDot:
        case TokenizeStateDotDot:
            tokenize_error(&t, "unexpected EOF");
            break;
        case TokenizeStateLineComment:
@ -695,6 +834,18 @@ static const char * token_name(Token *token) {
        case TokenIdBoolOr: return "BoolOr";
        case TokenIdBoolAnd: return "BoolAnd";
        case TokenIdEq: return "Eq";
        case TokenIdTimesEq: return "TimesEq";
        case TokenIdDivEq: return "DivEq";
        case TokenIdModEq: return "ModEq";
        case TokenIdPlusEq: return "PlusEq";
        case TokenIdMinusEq: return "MinusEq";
        case TokenIdBitShiftLeftEq: return "BitShiftLeftEq";
        case TokenIdBitShiftRightEq: return "BitShiftRightEq";
        case TokenIdBitAndEq: return "BitAndEq";
        case TokenIdBitXorEq: return "BitXorEq";
        case TokenIdBitOrEq: return "BitOrEq";
        case TokenIdBoolAndEq: return "BoolAndEq";
        case TokenIdBoolOrEq: return "BoolOrEq";
        case TokenIdBang: return "Bang";
        case TokenIdTilde: return "Tilde";
        case TokenIdCmpEq: return "CmpEq";
--- a/src/tokenizer.hpp
+++ b/src/tokenizer.hpp
@ -55,6 +55,18 @@ enum TokenId {
    TokenIdBinAnd,
    TokenIdBinXor,
    TokenIdEq,
    TokenIdTimesEq,
    TokenIdDivEq,
    TokenIdModEq,
    TokenIdPlusEq,
    TokenIdMinusEq,
    TokenIdBitShiftLeftEq,
    TokenIdBitShiftRightEq,
    TokenIdBitAndEq,
    TokenIdBitXorEq,
    TokenIdBitOrEq,
    TokenIdBoolAndEq,
    TokenIdBoolOrEq,
    TokenIdCmpEq,
    TokenIdBang,
    TokenIdTilde,