ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Effective JavaScript [7] -문자열을 16비트 코드 단위의 시퀀스로 간주하라
    Javascript 2016. 12. 2. 00:02



    본 게시물은 Effective Javascript의 내용을 재구성하여 작성되었음을 알립니다. 저작권 문제 발생시 게시물이 비공개 될 수 있습니다. 


    - 자바스크립트 문자열은 유니코드 코드 포인트가 아니라 16비트 코드 유닛으로 구성된다.

    - 자바스크립트에서 유니 코드 포인트 2^16 이상은 대리 쌍이라고 알려진 두 개의 코드 유닛으로 표현된다.
    - 대리 쌍은 문자열 요소의 개수를 반환하고, length, charAt, charCodeAt, 메서드와 "." 같은 정규식 패턴에 영향을 미친다.
    - 코드 포인트를 다루는 문자열 조작을 하기 위해서는 서드파티 라이브러리를 사용하라

    - 문자열을 처리하는 라이브러리를 사용할 때 코드 포인트의 전체 범위를 어떻게 처리하는지 해당 라이브러리의 문서를 찾아보아야 한다.



    이번장의 내용은 내용이 매우 부실하다. 왜냐하면 잘 이해가 안되기 때문..........



    유티코드는 0부터 1,114,111 까지의 유일한 정수값, 즉 코드 포인트에 세상의 모든 글자 체계의 모든 문자 단위를 할당한 것이다. 이것이 전부다. 다만 ASCII는 각 인덱스가 유일한 바이너리 표현에 매핑되고, 유니코드는 코드 포인트에 서로 다른 여러 개의 바이너리 인코딩을 허용한다는 점이 다르다. 서로 다른 인코딩들은 문자열을 저장하기 위한 저장공간과 문자열 인덱싱하는 등의 실행 속도에 트레이드오프 관계를 가진다. 


    오늘날 다양한 유니코드의 표준이 있는데 가장 인기 있는 인코딩은 UTF-8과 UTF-16, UTF-32이다.


    UTF-16은 인코딩의 각 코드 포인트는 한 개나 두 개의 16바이트 코드 유닛을 필요로 할 수 있다. UTF-16은 가변 길이의 인코딩이다. 길이 n의 문자열의 메모리 크기는 문자열의 특정 코드 포인트에 의해 변할 수 있다. 


    자바 스크립트 문자열의 요소는 16비트 코드 유닛이다. UTF-16코드 유닛의 시퀀스 처럼 동작한다.




    - 자바스크립트 문자열은 유니코드 코드 포인트가 아니라 16비트 코드 유닛으로 구성된다.

    - 자바스크립트에서 유니 코드 포인트 2^16 이상은 대리 쌍이라고 알려진 두 개의 코드 유닛으로 표현된다.

    - 대리 쌍은 문자열 요소의 개수를 반환하고, length, charAt, charCodeAt, 메서드와 "." 같은 정규식 패턴에 영향을 미친다.

    - 코드 포인트를 다루는 문자열 조작을 하기 위해서는 서드파티 라이브러리를 사용하라

    - 문자열을 처리하는 라이브러리를 사용할 때 코드 포인트의 전체 범위를 어떻게 처리하는지 해당 라이브러리의 문서를 찾아보아야 한다.


     

    끄읕..


Designed by Tistory.