Golang으로 Reddit에서 키워드를 모니터링하는 방법은 무엇인가요?

Reddit 게시물과 댓글에 언급된 키워드를 모니터링하면 브랜드, 제품, 경쟁사를 모니터링하고 특정 주제에 대한 정보를 파악하는 데 매우 유용할 수 있습니다. Go는 이러한 소셜 리스닝 애플리케이션을 위한 훌륭한 언어입니다. 이 문서에서는 Reddit에서 키워드를 모니터링하는 간단한 Go 프로그램을 작성하는 방법을 살펴봅니다.

Golang으로 Reddit 모니터링

Reddit에서 소셜 미디어 듣기

Reddit의 소셜 리스닝은 다양한 목적을 가진 개인과 조직 모두에게 매우 강력한 도구입니다. 다음은 소셜 리스닝이 특히 중요한 몇 가지 이유입니다:

Reddit에서 특정 키워드를 모니터링하는 방법은 무엇인가요?

Reddit은 플랫폼에서 작성된 모든 새 글이나 댓글을 가져올 수 있는 몇 가지 무료 API 엔드포인트를 노출합니다. 이러한 엔드포인트는 잘 문서화되어 있지 않습니다.

최근 100개의 Reddit 게시물을 가져오려면 다음 API 엔드포인트에 GET HTTP 요청을 보내야 합니다: https://www.reddit.com/r/all/new/.json?limit=100

최근 100개의 Reddit 댓글을 가져오려면 다음 API 엔드포인트에 GET HTTP 요청을 보내야 합니다: https://www.reddit.com/r/all/comments/.json?limit=100

이러한 API 엔드포인트의 응답은 게시물 또는 댓글 목록이 포함된 JSON 객체입니다.

다음은 게시물의 엔드포인트를 요청할 때 받는 응답의 (잘린) 예시입니다:

curl https://www.reddit.com/r/all/new/.json?limit=100

{
"kind": "Listing",
"data": {
    "after": "t3_1asad4n",
    "dist": 100,
    "modhash": "ne8fi0fr55b56b8a75f8075df95fa2f03951cb5812b0f9660d",
    "geo_filter": "",
    "children": [
        {
            "kind": "t3",
            "data": {
                "approved_at_utc": null,
                "subreddit": "GunAccessoriesForSale",
                "selftext": "Morning gents. I\u2019m looking to snag up your forgotten factory yellow spring for the 509T. I need to source one for a buddy who lost his and I cannot find any available anywhere! \n\nIf one of you have the yellow spring laying around, looking to pay $50 shipped\u2026 \n\nTo my 509t owners, it\u2019s the \u201clight\u201d spring that comes in a plastic bag in the carrying case. \n\nThanks in advance  ",
                "author_fullname": "t2_2ezh71n6",
                "saved": false,
                "mod_reason_title": null,
                "gilded": 0,
                "clicked": false,
                "title": "[WTB] 509T yellow spring",
                "link_flair_richtext": [],
                "subreddit_name_prefixed": "r/GunAccessoriesForSale",
                [...]
                "contest_mode": false,
                "mod_reports": [],
                "author_patreon_flair": false,
                "author_flair_text_color": "dark",
                "permalink": "/r/GunAccessoriesForSale/comments/1asadbj/wtb_509t_yellow_spring/",
                "parent_whitelist_status": null,
                "stickied": false,
                "url": "https://www.reddit.com/r/GunAccessoriesForSale/comments/1asadbj/wtb_509t_yellow_spring/",
                "subreddit_subscribers": 182613,
                "created_utc": 1708094934.0,
                "num_crossposts": 0,
                "media": null,
                "is_video": false
                }
            },
        [...]
        ]
    }
}

보시다시피 Reddit은 객체 배열을 반환합니다. 각 객체는 게시물 또는 댓글(요청한 엔드포인트에 따라 다름)로, 제출 내용, 제출 URL, 작성 날짜 및 시간 등과 같은 포괄적인 세부 정보가 포함되어 있습니다. 이 중 대부분은 유용하지 않으며 '자체 텍스트'는 글이나 댓글의 내용을 담고 있는 가장 중요한 요소입니다.

결과는 내림차순으로 표시됩니다. 동시에 100개 이상의 글이나 댓글을 요청할 수 없다는 점에 유의하세요.

Go를 사용하여 Reddit을 실시간으로 모니터링하는 이유는 무엇인가요?

Go 프로그래밍 언어는 Reddit 게시물과 댓글을 실시간으로 검색하는 데 탁월한 몇 가지 강력한 기능을 제공합니다. 다른 프로그래밍 언어도 이러한 용도로 사용할 수 있지만, 특히 실시간 데이터 처리를 처리할 때 Go를 사용하면 특별한 이점이 있습니다. Go가 돋보이는 이유는 다음과 같습니다:

우선, 고루틴으로 알려진 Go의 경량 스레드는 효율적인 멀티태스킹과 동시성을 가능하게 해줍니다. 각 가져오기 작업을 자체 고루틴에서 실행할 수 있으므로 여러 개의 Reddit 게시물이나 댓글을 동시에 가져올 때 특히 유용합니다.

둘째, Go의 표준 라이브러리에는 웹 요청 프로세스를 간소화하는 포괄적이고 효율적인 HTTP 클라이언트가 포함되어 있습니다. 이는 Reddit의 API와 상호 작용하여 게시물과 댓글을 가져오는 데 필수적입니다. Go의 HTTP 클라이언트는 컨텍스트를 지원하여 요청 시간 초과 및 취소를 허용합니다. 이는 애플리케이션의 응답성을 유지하고 지연된 응답으로 인해 애플리케이션이 중단되지 않도록 하려는 실시간 애플리케이션에 매우 중요합니다.

마지막으로, Go는 컴파일된 언어이기 때문에 일반적으로 Go로 작성된 애플리케이션은 속도가 빠르고 설치 공간이 작습니다. 이는 대량의 데이터를 빠르게 처리해야 하는 실시간 애플리케이션에 유용합니다. Go의 가비지 컬렉터는 효율적이고 지연 시간을 낮게 유지하도록 설계되어 실시간 데이터 가져오기 시나리오에서 성능을 유지하는 데 매우 중요합니다.

Reddit 게시물에서 키워드를 보는 간단한 바둑 프로그램

다음은 Go 게시물에서 키워드 "kwatch.io"를 모니터링하는 Go 프로그램을 만드는 방법에 대한 단계별 계획입니다:

다음은 Go 코드입니다:

package main

import (
    "encoding/json"
    "fmt"
    "net/http"
    "time"
)

type Post struct {
    Selftext  string `json:"selftext"`
    Title     string `json:"title"`
    Permalink string `json:"permalink"`
}

type Data struct {
    Children []struct {
        Data Post `json:"data"`
    } `json:"children"`
}

type Response struct {
    Data Data `json:"data"`
}

func fetchPosts() {
    resp, err := http.Get("https://www.reddit.com/r/all/new/.json?limit=100")
    if err != nil {
        fmt.Println(err)
        return
    }
    defer resp.Body.Close()

    var r Response
    err = json.NewDecoder(resp.Body).Decode(&r)
    if err != nil {
        fmt.Println(err)
        return
    }

    for _, child := range r.Data.Children {
        if strings.Contains(child.Data.Title, "kwatch.io") || strings.Contains(child.Data.Selftext, "kwatch.io") {
            fmt.Println("Title:", child.Data.Title)
            fmt.Println("Selftext:", child.Data.Selftext)
            fmt.Println("Permalink:", child.Data.Permalink)
            fmt.Println()
        }
    }
}

func main() {
    ticker := time.NewTicker(1 * time.Second)
    for range ticker.C {
        fetchPosts()
    }
}

이 프로그램은 매초마다(비동기적으로) Reddit에서 최근 100개의 새 글을 가져와 각 글의 제목, 셀프 텍스트 및 영구 링크를 콘솔에 인쇄합니다. API 엔드포인트 URL을 변경하기만 하면 Reddit 댓글에서도 동일한 작업을 수행할 수 있습니다.

다음은 이 프로그램을 개선할 수 있는 몇 가지 아이디어입니다:

결론

매우 간단한 바둑 프로그램 덕분에 Reddit에서 특정 키워드를 모니터링할 수 있습니다.

하지만 이러한 프로그램을 제작하는 것은 어려울 수 있습니다. 우선 Reddit은 너무 많은 요청을 하면 차단하는 데 능숙할 뿐만 아니라 API 엔드포인트가 동시에 많은 게시물과 댓글을 반환하기 때문에 Go 프로그램이 이 많은 양을 현명하게 처리해야 하기 때문입니다.

이러한 시스템을 직접 구축하고 유지 관리하고 싶지 않으시다면 저희 플랫폼을 사용하실 것을 권장합니다: 여기에서 KWatch.io에 등록하세요.

Arthur
Go 개발자 KWatch.io