일치 후 sed 에코 문자열이 있습니다.

Question 1

출력에는 임의의 임의의 엉성한 부분과 관심 있는 한 줄이 포함되어 있습니다. 해당 줄을 선택하고 ID를 제외한 모든 항목을 버리고 결과를 인쇄합니다.

 sed -n '/profile_images/s/.*profile_images\\\/\([0-9]\+\).*/\1/p'

해당 라인이 처리된 후 즉시 종료하면 이 작업이 약간 더 효율적으로 이루어질 수 있습니다.

실제로 이는 원래 코드가 수행하는 작업과 거의 동일합니다. 변경된 유일한 것은 사용된 정규식입니다.

Answer

출력에는 임의의 임의의 엉성한 부분과 관심 있는 한 줄이 포함되어 있습니다. 해당 줄을 선택하고 ID를 제외한 모든 항목을 버리고 결과를 인쇄합니다.

 sed -n '/profile_images/s/.*profile_images\\\/\([0-9]\+\).*/\1/p'

해당 라인이 처리된 후 즉시 종료하면 이 작업이 약간 더 효율적으로 이루어질 수 있습니다.

실제로 이는 원래 코드가 수행하는 작업과 거의 동일합니다. 변경된 유일한 것은 사용된 정규식입니다.

Question 2

나는 이와 같은 어려운 작업에 직면했을 때 가능하다면 그것을 라인 중심의 문제로 바꾸는 것을 좋아합니다. 다음과 같이 할 수 있습니다.

$ sed -E 's:[0-9]+:\n&\n:g' filename \
| grep -F -A1 '/pbs.twimg.com\/profile_images\' | tail -1

그러면 임의의 숫자 문자열을 한 줄씩 배치하고 문자열을 파악한 후 그 이후의 문자열을 인쇄합니다.

정말 해킹입니다. HTML을 구문 분석하는 올바른 방법은 HTML 구문 분석기를 사용하는 것입니다. 그러나 하나의 문자열만 필요한 제어된 입력에 대해서는 작업을 완료할 수 있습니다.

약간 더 깔끔한 접근 방식은 awk를 사용하는 것입니다. 그런 일을 많이 다룬다면 확실히 배울 가치가 있습니다.

Answer

나는 이와 같은 어려운 작업에 직면했을 때 가능하다면 그것을 라인 중심의 문제로 바꾸는 것을 좋아합니다. 다음과 같이 할 수 있습니다.

$ sed -E 's:[0-9]+:\n&\n:g' filename \
| grep -F -A1 '/pbs.twimg.com\/profile_images\' | tail -1

그러면 임의의 숫자 문자열을 한 줄씩 배치하고 문자열을 파악한 후 그 이후의 문자열을 인쇄합니다.

정말 해킹입니다. HTML을 구문 분석하는 올바른 방법은 HTML 구문 분석기를 사용하는 것입니다. 그러나 하나의 문자열만 필요한 제어된 입력에 대해서는 작업을 완료할 수 있습니다.

약간 더 깔끔한 접근 방식은 awk를 사용하는 것입니다. 그런 일을 많이 다룬다면 확실히 배울 가치가 있습니다.

관련 정보